Text
                    В. Босс
дОО <А
/
Вероятность • Информация
Статистика
Краткое
и ясное
Ш85
^ X
Ч * Г* ^ ;"


В. Босс ЛЕКЦИИ „ МАТЕМАТИКЕ ТОМ статистика д Вероятность, МОСКВА ЫРЗЗ
Вам наши лучшие книги: Алгебра Чеботарев Н. Г. Основы теории Галуа. В 2 кн. Чеботарев Н. Г. Введение в теорию алгебр. Чеботарев Н. Г. Теория алгебраических < Чеботарев Н. Г. Теория групп Ли Супруненко Д.А., Тышкевич Р. И. Перестановочные ! Маркус М., Минк X. Обзор по теории матриц и матричных неравенств. Шевалле К. Введение в теорию алгебраических функций. Бэр Р. Линейная алгебра и проективная геометрия. Золотаревская Д. И. Сборник задач по линейной алгебре. Яглом И. М. Необыкновенная алгебра. Теория ' 1Ш55 Вейль А. Основы теории « Вейль Г. Алгебраическая теория чисел. Ингам А. Э. Распределение простых чисел. Хинчин А. Я. Три жемчужины теории 1 Хинчин А. Я. Цепные дроби. Карацуба А. А. Основы аналитической теории « Виноградов И. М. Особые варианты метода тригонометрических сумм. Жуков А. В. Вездесущее число «пи». Ожигова Е. П. Развитие теории чисел в России. Ожигова Е. П. Что такое теория чисел. Оре О. Приглашение в теорию чисел. Серия «Психология, педагогика, технология обучения» :» щ Ч. М. Что такое 1 7. М. Теоретические основы методики обучения 1 Михеев В. И. Моделирование и методы теории измерений в педагогике. Серия Гнеденко Б. В. Курс теории вероятностей. Колмогоров А. Н., Драгалин А. Г. Математическая логика. Кононович Э. В., Мороз В. И. Общий курс астрономии. Квасников И. А. Термодинамика и статистическая физика. Т. 4: Квантовая статистика. Тел./факс: @95) 135-42-46, @95) 135-42-16, Е-таН: 1Ш55Ф1Ш55.Г11 1Шр://1Ш$$.Ш Наши книги можно приобрести в магазинах: «Библио-Глобус» (м.Лубянка, ул. Мясницкая, 6. Тел. @95) 925-2457) «Московский дом книги» (м.Арбатская, ул. Новый Арбат, 8. Тел. @95) 203-8242) «Москва» (м. Охотный ряд, ул. Тверская, 8. Тел. @95) 229-7355) «Молодая гвардия» (м. Полянка, ул. Б. Полянка, 28. Тел. @95) 238-5083, 238-1144) «Дом деловой книги» (м. Пролетарская, ул. Марксистская, 9. Тел. @95) 270-5421) «Гнозис» (м. Университет, 1 гум. корпус МГУ, комн. 141. Тел. @95) 939-4ЛЗ) «У Кентавра» (РГГУ) (м.Новослободская, ул.Чаянова, 15. Тел. @95) 973-4301) «СПб. дом книги» (Невский пр., 28. Тел. (812) 311-3954)
Оглавление к «Лекциям» 7 к тому 9 Глава 1. Основы в задачах и парадоксах 10 1.1. Что такое вероятность 10 1.2. Подводные рифы статистики 13 1.3. Комбинаторика 14 1.4. Условная вероятность 16 1.5. Случайные величины 19 1.6. Континуальные пространства 23 1.7. Независимость 28 1.8. Дисперсия и ковариация 29 1.9. Неравенства 31 1.10. Случайные векторы 34 1.11. Вероятностные алгоритмы 36 1.12. Об истоках 37 1.13. Задачи и дополнения 40 Глава 2. Функции распределения 43 2.1. Основные стандарты 43 2.2. Дельта-функция 47 2.3. Функции случайных величин 49 2.4. Условные плотности 51 2.5. Характеристические функции 54 2.6. Производящие функции 57 2.7. Нормальный закон распределения 59 2.8. Пуассоновские потоки 62 2.9. Статистики размещений 65 2.10. Распределение простых чисел 66 2.11. Задачи и дополнения 68
Глава 3. Законы больших чисел 71 3.1. Простейшие варианты 71 3.2. Усиленный закон больших чисел 73 3.3. Нелинейный закон больших чисел 75 3.4. Оценки дисперсии 77 3.5. Доказательство леммы 3.4.1 79 3.6. Задачи и дополнения 81 Глава 4. Сходимость 84 4.1. Разновидности 84 4.2. Сходимость по распределению 87 4.3. Комментарии 88 4.4. Закон «нуля или единицы» 90 4.5. Случайное блуждание 91 4.6. Сходимость рядов 93 4.7. Предельные распределения 94 4.8. Задачи и дополнения 96 Глава 5. Марковские процессы 99 5.1. Цепи Маркова 99 5.2. Стохастические матрицы 101 5.3. Процессы с непрерывным временем 103 5.4. О приложениях 105 6. Случайные функции 107 6.1. Определения и характеристики 107 6.2. Эргодичность 109 6.3. Спектральная плотность 111 6.4. Белый шум 113 6.5. Броуновское движение 114 6.6. Дифференцирование и интегрирование 116 6.7. Системы регулирования 118 6.8. Задачи и дополнения 119 Глава 7. Прикладные области 120 7.1. Управление запасами 120 7.2. Страховое дело 121 7.3. Закон арксинуса 122
7.4. Задача о разорении 124 7.5. Игра на бирже и смешанные стратегии 126 7.6. Процессы восстановления 128 7.7. Стохастическое агрегирование 129 7.8. Агрегирование и СМО 133 7.9. Принцип максимума энтропии 134 7.10. Ветвящиеся процессы 137 7.11. Стохастическая аппроксимация 139 8. Теория информации 141 8.1. Энтропия 141 8.2. Простейшие свойства 144 8.3. Информационная точка зрения 145 8.4. Частотная интерпретация 147 8.5. Кодирование при отсутствии помех 149 8.6. Проблема нетривиальных кодов 152 8.7. Канал с шумом 153 8.8. Укрупнение состояний 157 8.9. Энтропия непрерывных распределений 158 8.10. Передача непрерывных сигналов 160 8.11. Оптимизация и термодинамика 163 8.12. Задачи и дополнения 166 Глава 9. Статистика 169 9.1. Оценки и характеристики 169 9.2. Теория и практика 173 9.3. Большие отклонения 174 9.4. От «хи-квадрат» до Стьюдента 176 9.5. Максимальное правдоподобие 177 9.6. Парадоксы * 179 Глава 10. Сводка основных определений и результатов 183 10.1. Основные понятия 183 10.2. Распределения 187 10.3. Законы больших чисел 191 10.4. Сходимость 192 10.5. Марковские процессы 195 10.6. Случайные функции и процессы 196
6 10.7. Теория информации 199 10.8. Статистика 204 и обозначения 207 Литература 209 указатель 211
к «Лекциям» Самолеты позволяют летать, но доби- до аэропорта приходится самому. любого необходимы, по крайней мере, 4 ингредиента: 1) живой учитель; 2) обыкновенный подробный учебник; 3) рядовой задачник; 4) учебник, освобожденный от рутины, но дающий общую картину, мотивы, связи, «что зачем». До четвертого пункта у системы образования руки не дохо- доходили. Конечно, подобная задача иногда ставилась и решалась, но в большинстве случаев — при параллельном исполнении функ- функций обыкновенного учебника. Акценты из-за перегрузки менялись, и намерения со второй-третьей главы начинали дрейфовать, не до- достигая результата. В виртуальном пространстве так бывает. Аналог объединения гантели с теннисной ракеткой перестает решать обе не сразу бросается в «Лекции» ставят 4-й пункт своей главной целью. Сопутствую- идея — экономия слов и средств. Правда, на фоне деклараций о краткости и ясности изложения предполагаемое издание около 20 томов может показаться тяжеловесным, но это связано с обшир- обширностью математики, а не с перегрузкой Необходимо сказать, на кого рассчитано. Ответ «на всех» вы- наивно, но он в какой-то мере отражает суть дела. Обо- обнаженные
8 Предисловие к «Лекциям» сорта книги удобно иметь под рукой. Не секрет, что специалисты самой высокой категории тратят массу сил и времени на освоение математических секторов, лежащих за рамками собственной спе- специализации. Здесь же ко многим проблемам предлагается дорога, позволяющая быстро освоить новые области и старые. Для начинающих «короткие дороги» тем более полезны, поскольку облегчают движение любыми другими путями. В вопросе «на кого рассчитано», — есть и другой аспект. На сильных или слабых? На средний вуз или физтех? Опять-таки выходит «на всех». Звучит странно, но речь не идет о регламентации кругозора. Простым языком, коротко и прозрачно т. Из этого каждый извлечет свое и I, последнее. В условиях информационного: инструменты вчерашнего дня перестают работать. Не потому, что изучаемые дисциплины чересчур разрослись, а потому, что новых секторов жизни стало слишком много. И в этих условиях мало кто готов уделять много времени чему-то одному. Поэтому учить всему — надо как-то иначе. «Лекции» дают пример. Плохой ли, хороший — покажет время. Но в любом случае, это продукт нового поколения. Те же «колеса», тот же «руль», та же математическая суть, — но по-другому.
Без пассивной части словарного запаса — активная не работает. Жизнь уходит на заделывание мелких трещин. Типографская краска — на уточнения. В теории вероятностей (ТВ) это особенно заметно из-за контраста простых выводов и сложных объяснений. Сложность, в свою очередь, проистекает из-за максималистских устремлений, согревающих профессионалов и убийственных для остальной части населения. Учитывая, что профессионалы теорию вероятностей и так хо- хорошо знают, нижеследующий текст ориентируется на умеренные аппетиты к строгости и детализации. Разумеется, обоснование то- того, что более-менее «и так ясно», имеет свою цену. Но в ТВ на первом этапе гораздо важнее разобраться в том, что не ясно на самом элементарном уровне. Интуиция и здравый смысл на- настолько путаются в статистике и оценках вероятности, что многие тонкости вполне естественно отодвинуть на второй
Глава 1 Основы в задачах и парадоксах 1.1. Что такое вероятность Карты, кости, тотализаторы, статистика, броуновское отказы электроники, аварии, радиопомехи — все это вместе взятое создает ощущение смутного понимания случайности. Бытовое по- вероятности оказывается в результате ничуть не менее осно- чем бытовое понятие геометрической точки. Но стоит вдумываться, как явление ускользает. Теория вероятностей (ТВ) поэтому вглубь не идет, чтобы не угодить в ловушку. Евклида не определяет точек и прямых, шахматный ко- кодекс — ферзя и пешек. Теория вероятностей не определяет, что такое вероятность элементарного события. Число от нуля до единицы. Пер- Первичное понятие, априори заданное. Вероятности сложных событий — другое дело. Этим, собственно, и занимается теория. Отправная точка у теории вероятностей очень проста. Рас- Рассматривается конечное или бесконечное множество ' называемое пространством элементарных событий, на котором за- задана функция р(щ), принимающая значения из [О, 1] и удовлетворя- удовлетворяющая условию нормировки ^Г^р(и;г) = 1. Значения р(ш{) считаются вероятностями элементарных событий щ. Множества А С О, на- называют событиями, и определяют их вероятности как ' Пока счетное. Континуальные варианты О рассматриваются далее.
1.1. Что такое вероятность 11 Вот и весь фундамент, упрощенно говоря. Исторический путь к нему был долгим и запутанным. Пройтись той же дорогой при изучении вероятностей, вообще говоря, необходимо. Пусть не в мас- масштабе один к одному, но инкубационный период созревания поня- понятий так или иначе должен быть преодолен. Первым делом желательно привязать абстрактную модель к ре- 4. Для этого проще всего посмотреть, как примеры в общую схему. Из колоды вытаскивается 1 карт. Какова вероятность^ что среди них 3 короля и 2 дамы? -4 Подтягивание задачи к общей схеме в данном случае совсем просто. Различные способы выбора 7 карт из 36 естественно считать равновероятными элементарными событиями, т. е. р(и,,) = ^г, где С^щ^ — число сочетаний из п элементов по к элементов. Число различных выборов, удовлетворяющих условиям задачи, равно С4С4С28. Искомая вероятность есть 4 * 28. > В задачах, где элементарные события равновероятны, Р(Л) вариантов, составляющих Л, деленному на число всех вариантов: число благоприятных вариантов число всех вариантов На первый взгляд, суть дела тривиальна. Однако не все просто, как поначалу Парадокс Кардано2). При бросании двух шестигранных костей сумма выпавших получается равной — как 9, так и 10 — в двух вариантах: сумма 9 <=> C, 6) D, 5), сумма 10 <Ф D, 6) E, 5). Но вывод о равенстве вероятностей этих событий — ошибочен. Способов полу- [ сумм 9 и 10 на самом деле больше, и их количество разное: сумма 9 & C, 6) F, 3) D, 5) E, 4), сумма 10 & D, 6) F, 4) E, 5). 2* Из «Книги об игре в кости», написанной Кардано в XXVI в., но изданной лишь в 1663 г.
12 Глава 1. Основы в задачах и парадоксах Таким образом, из 36 возможных пар чисел 4 пары дают в сумме 9, и только 3 — 10. Вероятности, соответственно, равны 4/36 и 3/36, что подтверждает эксперимент3*. На данном примере становится понятно, что в подборе про- пространства Г2 элементарных событий имеется определенный про- произвол. Первый вариант — это 36 равновероятных упорядоченных пар (г,,;). Второй вариант п — это неупорядоченные пары B1 па- пара), но тогда они не равновероятны, — и в этом аккуратно надо разобраться. Задача выглядит то простой, то сложной. Начинаешь присматриваться, и ум заходит за разум. Недаром Секей [22] от- отмечает, что в такого рода задачах ошибались в том числе в задаче создает независимость суммы от переста- перестановки слагаемых. При последовательном выбрасывании костей — первая, потом вторая — проблемы не возникает. Но кости можно выбрасывать одновременно, они падают вместе, и первая от второй не отличается. Тогда различных вариантов имеется только 21 — и не вполне ясно, почему они не равновероятны4'. Чтобы полностью развеять туман, полезно выделить подзада- подзадачу, в которой проблема сконцентрирована в максимально простом виде. Какова вероятность при бросании двух костей получить в ре- результате E,5) и D,6)? На примерах хорошо видна диалектика взаимоотношения собы- события как смыслового явления, имеющего содержательное описание, и как множества из п, для выделения которого необходимо уме- умение перечислить ц 6 A, удовлетворяющие оговоренным в условиям. абстрактную модель, включая возможность проведения опыта (эксперимента), исходом которого наступление одного из элементарных событий5) щ; 3* При достаточно большом количестве бросаний двух костей — частоты, с которыми в сумме выпадают 9 и 10, стремятся к указанным вероятностям. ' Углубить непонимание можно, обратившись к парадоксу Гиббса в статистической физике. Смешение разнородных газов увеличивает энтропию. При естественном угле зрения не ясно, куда исчезает прирост энтропии, когда молекулы газов становятся < ' Событие А наступает, если наступает у,- 6 Л.
1.2. Подводные рифы статистики 13 • связь С1 с «субэлементарным уровнем» — с однократным бросанием мо- монеты, например, тогда как элементарным событием может быть п-кратное бросание; • возможность проведения серии опытов, в результате чего частота наступле- наступления события А стремится к Р(л4) при увеличении длины серии, —— -» Р(Л) при N -» оо, A.1) где ЛГ общее число опытов, а .ЛГ(Л) число опытов, в которых наступило событие А. Долгое время устойчивость частот была первична по отноше- отношению к понятию вероятности, и это в какой-то мере удовлетворяло спрос на понимание причин. Случившаяся затем метаморфоза из- изменила точку зрения на противоположную, но не ликвидировала выгод прежнего взгляда — ибо сходимость A.1) превратилась в тео- теорему и осталась в арсенале. Вместе с тем с самого начала необходимо сказать о трудностей — не в ТВ, но в непосредственной близо- близости. Пусть речь идет о бросании монеты. Равенство вероятностей герба и решетки «вытекает», с одной стороны, из от- оснований отдать предпочтение какой-либо альтернативе, с другой,, — из наблюдения за длинными сериями бросаний. Казалось бы, аргументов хватает. Тем не менее бросание моне- монеты — хотя и сложная, но поддающаяся расчету механическая задача. По крайней мере, можно сконструировать высокоточный автомат, который почти всегда будет бросать монету гербом вверх, му же человек, действуя спонтанно, бросает «как над< ясно, что источник случайности находится не в монете, а в веке. Следующий вопрос ведет дальше, и причинн< цепочка петляет по таким закоулкам Вселенной, что по большому счету, остается нерешенной. 1.2. Подводные рифы статистики оперирует вероятностями, практика — статистическими *, т. е. исходами опытов, будь то бросание костей, ство аварий, смертей, выздоровлений, денег в казне и т. п. > выводы на базе статистики составляет оборотную сторону ТВ.
14 Глава 1. Основы в задачах и парадоксах Не слишком утрируя действительность, допустим, что медики провели экс- эксперимент по оценке влияния средства «чирике» на заболевание «чикс». Как это всегда делается, контрольной группе давали плацебо. Гипотетические по Калуге и Рязани приведены в таблицах. Калуга помогло безрезультатно чирике 10 80 плацебо 1 9 10 1 Рязань помогло безрезультатно чирике 10 0 плацебо 89 1 10 + 80 1+9' 10 89 > 0+10 1 + 89' : результатов рождает химеру. В Калуге и тивнее плацебо, в целом — наоборот. Калуга + Рязань помогло безрезультатно чирике 20 80 плацебо 90 10 20 90 эффек- 20 + 80 10 + 90 На абстрактном уровне речь идет о следующем. Из иногда поспешный вывод о справедливости неравенства -6 + ^2 к чему нет никаких Самое неприятное, что такого рода статистика — в облике экономических показателей и рейтингов — сваливается на нас со страниц вполне респектабельных газет. 1.3. (но не обязательно простая) часть теории в значительной мере опирается на комбинаторику.
1.3. 15 Размещения. Число различных вариантов выбора (с учетом порядка) к предметов из п предметов аь а>2,..., ап равно Акп = п(п- 1)...(п-&+ 1). < Есть п способов выбрать один предмет из п, т.е. Ап = п. На каж- выбор первого предмета приходится п - 1 возможностей выбора второго (из оставшихся п — 1 предметов) — поэтому А2п = п(п — 1). И так далее. > Перестановки. Число всевозможных перестановок п предметов аь ... , ап равно «эн факториал» п\ = 1 • 2 ... п, что очевидно из п\ = А". По соображениям удобства принимается 0! = 1. оценки п\ при больших п удобна формула Стирлинга . Если к предметов из аь... ,ап выбираются без учета порядка (скла- в мешок), то число различных вариантов (число сочетаний из п по к) равно Всевозможные размещения получаются перестановками элементов в со- Тоэтому Акп = Скпк\, что дает формулу для С^\ с учетом того, что Акп = п\/(п - к)\ > Перестановки с повторениями. Пусть имеется п предметов к 01 ... 01 а2... а2... а* ... а* , пх + . различных перестановок этих предметов равно п\ < В любой перестановке рассматриваемой совокупности предметов, ничего внешне не меняя, можно П\ элементов а\ переставить между собой П\\ способами,
16 Глава 1. Основы в задачах и парадоксах П2 элементов а^ — П2?. способами, ..., щ элементов а^ — щ\ способами. П\\П2\... щ\ перестановок из п! — неотличимы друг от друга, что к указанной формуле. > В слове «абракадабра» 5 букв «а», 2 — «б», 2 — Из такого набора букв можно < РE,2,2, 1.0=5^ = 83010 различных буквосочетаний. Выбор из к типов. Имеется к типов предметов, каждый тип представлен бесконеч- бесконечным количеством экземпляров. Число различных способов выбора г [ случае VI = кг. из перечисленных самая простая, но иногда почему-то ставит в тупик. Десять (типов) цифр, шестизначных чисел — миллион, 106. • Сколько различных чисел можно получить перестановкой четырех цифр 1, 3, 5, 7? D!). • Сколько есть восьмизначных чисел, в записи которых участвуют только цифры 1, 3, 5, 7? D8). • Сколько есть различных чисел, в записи которых участвуют две и одна семерка? C). • При размещении п шаров по п ячейкам вероятность того, что все будут заняты, равна п\/пп. • При размещении к шаров (дней рождения) по 365 ячейкам (дням) вероят- вероятность того, что все шары попадут в разные ячейки, равна А*в5/365к. 1.4. Условная вероятность Объединение и пересечение событий. Объединением или суммой собы- событий А и В называют событие, состоящее в наступлении хотя бы одного из событий А, В и обозначаемое как Аи В или А + В. Пер- Первое обозначение прямо указывает, какое множество в п отвечает событий. в основном как способ
1.4. вероятность 17 Пересечением или произведением событий А и В называют событие, состоящее в совместном наступлении А, В и обозначаемое АПВ или АВ. Очевидно, В) = Т>(А) A.2) поскольку при суммировании Ш{ по А и Б элементарные собы- из пересечения 4Б считаются два раза, и один раз Р(АВ) вычесть. Если события не пересекаются, то Формулы типа A.2) становятся совершенно прозрачны при использовании рисунков объединения и пересечения множеств (рис. 1.1). Опробовать рецепт можно на проверке равенства . + В + С) = ?(А) + Р(Б) + Р(С) - ?(АВ) - ?(АС) - ?(ВС) а также в общем случае п событий А\,..., Ап: г,],к рСГ в ^ А + В Рис. 1.1 А-В Параллели логических высказываний с операциями над множествами исполь- используются достаточно широко. Событию «не А» отвечает дополнение А множества А в Г2, а разность А\В, или А - В, интерпретируется как наступление А, но не В. Наконец, симметрическая разность ААВ = (АиВ)\(АПВ) обозначает событие, состоящее в наступлении одного из А, В, но не двух вместе. Пустое множество 0, считается, принадлежит п и символизирует невозмож- невозможное событие. При этом Р@) = 0. С учетом нормировки Р(П) = 1, очевидно, Р(Л) + Р(А) = 1.
18 1. Основы в задачах и парадоксах Перечисленные действия над событиями в совокупности с < вероятностей позволяют решать многие задачи, не спус- . на уровень рассмотрения пространства элементарных событий. Это экономит усилия, но иногда затрудняет ориентацию. вероятность. Вероятность Р(В\А) наступления В при условии наступления в то же время события А — называют условной. Из всех о;, € А входят в В лишь о;,-, принадлежащие пересечению АВ. Они- то и определяют Р(В\А). И если бы А было нормировано, то Р(В\А) равнялось бы Т*(АВ). Нормировка А корректирует результат очевидным образом: A.4) Перезапись A.4) в форме Р(АВ) = Р(А)Р(В\А) A.5) называют формулой умножения вероятностей. Задача. Имеется три картонки. На одной — с обеих сторон нарисована буква А, на другой — В. На третьей картонке с одной стороны А, с другой — В. Одна из картонок выбирается наугад и кладется на стол. Предположим, на видимой сто- стороне картонки оказывается буква А. Какова вероятность, что на другой стороне — тоже А ? вторая», — ошибочно отвечает интуиция, и не очевидна. Дело в том, что картонка не только случайно выбирается, но и случайно укладывается на одну из сторон. Поэтому логика здесь такая. Всего имеется шесть нарисованных букв, из них — три буквы А, две на картонке АА и одна — на АВ. Букву А из АА вытащить в два раза более вероятно, чем из АВ. я, вероятность того, что на столе лежит картонка АА, равна 2/3. Если кого-то смущают картонки, то это — для простоты и краткости. Реальные прикладные задачи описывать громоздко, а читать скучно. Но таких задач, где здравый смысл терпит фиаско, довольно много. И дело не в том, что ахиллесова пята интуиции приходится на вероятность. Слабое место интуиции в другом. Взаимодействие всего двух факторов ставит воображение в тупик. А комбинация многофакторности с наглядностью — в теории вероятностей что все время искрит.
1.5. Случайные величины 19 Формула Байеса. Разбиение ^ на полную группу несовместимых7' событий А\,..., Ап позволяет любое событие В записать в виде В = ВА] + ... + ВАп, откуда Р(Б) = Р(ВА{) + ... + Р(ВАп), и в силу A.5) — получается формула полной вероятности: Р(Б) = A.6) Пусть Р(Л),Р(В) > 0. Из Р(АВ) = Р(А\В)Р(В) = Р(В\А)Р(А) вытекает ч Р(В\А)Р(А) что после учета A.6) приводит к формуле Байеса Г(Л\В)- ( з1 В) ~ сильно скомпрометированной безосновательными попытками ее применейия. Неутихающее колоброжение вокруг A.7) всегда определяла со- соблазнительная интерпретация. Если А^ это гипотезы с априорными вероятностями Р(Л^), то при наступлении события В в результате эксперимента — формула определяет апостериорные вероятности Р(А]\В). Звучит красиво, но априорные вероятности, как прави- правило, не известны. А поскольку с идеей расставаться жалко, Р(^) начинают трактовать как степень уверенности. 1.5. Случайные величины Числовая функция ' Х(ш), заданная на п, представляет собой слу- случайную величину (с. в.). Примером может служить функция, прини- принимающая значения 1 или 0 при выпадении герба или решетки. ' Непересекающихся. 8* О необходимых уточнениях см. главу 10.
20 Глава 1. Основы в задачах и парадоксах Среднее значение тх — Е (X), называют матожиданием 9' Х(ш). Математическое ожидание функции-индикатора Ха(ы) множе- множества А, Г 1, если о; Е 0, если о/ Г = { равно, очевидно, вероятности Матожидание представляет собой весьма важную характери- характеристику случайной величины. Очевидно, Е (аХ + РГ) = аЕ (X) + /}Е (У). Еще можно отметить: Х(ш) ^ 0 =» Е (X) ^ 0. На вид все очень просто, но, как говорится, в тихом омуте черти водятся. Парадокс транзитивности. Сравнивая случайные величины X и У, будем говорить «X больше У по вероятности», — если Р{Х Р{Х ^ У}, т.е. вероятность неравенства X > У больше 1/2. Пусть пространство элементарных событий П состоит из 6 точек, в кото- которых св. X, У, 2, IV с равной вероятностью 1/6 принимают значения согласно таблице10): X У 7, IV 6 5 4 3 6 5 4 3 2 5 4 3 2 1 4 3 2 1 0 3 2 1 0 3 Очевидно, X = 6 с вероятностью 1/3 = 2/6. В этом случае X > У независи- независимо от значения У. С вероятностью 2/3 = 4/6 величина X равна 2. Тогда X > У, 9* Математическим ожиданием. ' Функция X, например, может быть реализована бросанием шестигранной кости, грани которой помечены цифрами {662222}.
1.5. Случайные величины 21 если У = 1, что имеет вероятность 1/2 = 3/6. Поэтому, с учетом формул умно- умножения вероятностей и суммы непересекающихся событий, итоговая вероятность неравенства X > У равна I I 1 _ 1 3 + 3' 2 ~ У Аналогично подсчитывается, что У > 2, 2 > IV, — с той же вероятностью 2/3. Получается цепочка неравенств X > У > 2 > \У. Возможность IV > X представляется в некотором роде дикой. Тем не менее № > X с вероятностью 2/3 (!). Парадокс ожидания серии. Какая в случайной «01»-последовательности п^ ком- комбинация, 00 или 01, появится раньше? Очевидно, равновероятно, поскольку после первого появления нуля на следующем шаге возникнет либо 0, либо 1, — с вероятностью 1/2. Напрашивается вывод, что среднее число шагов (среднее время ожидания) Шоо и Шо1 до появления, соответственно, серий 00 либо 01 — тоже одинаково. Но это не так. ^ Пусть га0 обозначает среднее число шагов до появления комбинации 01 при условии, что первая цифра «01 ^последовательности оказалась нулем, аШ| - среднее число шагов до появления комбинации 01 при условии, что первая цифра «01 ^последовательности оказалась единицей. Легко видеть, что 11 11 яг0 = 1 + - + -пг0, т\ = 1 -I- -га0 + -пгь откуда Шо = 3, ГП\ = 5, Шо1 = = 4. Если же гщ, га* обозначают аналоги ш0, гп\ в ситуации, когда речь идет о появлении комбинации 00, то 11, , 1 , 1 , яг0 = 1 + - + -га,, га, = 1 -I- -га0 + -га,. тк + га! ^ п В конечном итоге это дает шОо = — — 6. Писать опровержения можно во многие адреса 12\ > Не так удивительно, но заслуживает упоминания, что из «II > V по вероятности», ' Подразумевается равная вероятность появления нуля и единицы. 12' Дополнительную информацию можно найти в [22], см. также ЫЗИои-Уеп К. А тап\ща\е арргоасН ю 1Не 8Шс1у оГ оссиггепсе оГ зеяиепсе раиегпз 1п гереа1ес1 ехрептеп15 // Аппа1з оГ РгоЬ. 1980.8. Р. 1171-1176.
22 Глава 1. Основы в задачах и парадоксах вообще говоря, не следует Е {11} > Е {V}, но V(ш) > У(ш), конеч- конечно, влечет за собой Е {11} > Е {V}. Заслуживает упоминания также оборотная сторона медали. ТВ, как сильнодействующее средство, не только спасает от заблужде- заблуждений, но и создает их. Общепринято думать, например, что в лотерею играть неразум- неразумно, поскольку матожидание выигрыша меньше стоимости билета. В результате покупать лотерейные билеты приходится, оглядываясь по сторонам. При этом подсознательно все понимают, что конечный денеж- денежный выигрыш может иметь бесконечную ценность. Покупка дома, переезд, лечение, образование. Да мало ли что еще меняет судьбу, и потому в деньгах не измеряется, хотя нуждается в той или иной стартовой сумме. Почему же за 30 копеек не купить шанс? Взве- Взвешивание здесь только вредит. Но авторитет иероглифов формул и таинственной терминологии создает гипнотизирующий мираж. Другой пример — знаменитый «Петербургский парадокс». Если герб при неоднократном бросании монеты выпадает в первый раз в га-й попытке, — участнику игры выплачивается 2п рублей. Математическое ожидание выигрыша, 2.1+4.1+... + 2".1 + ... = 1 + 1 + ..., бесконечно. Поэтому, с точки зрения ТВ (как бы), за участие в игре денег можно заплатить сколько угодно — казино в любом случае проиграет. Хороший пример на тему того, как респектабельная теория направляет ход мыслей не в то русло, тогда как реальная задача не стоит выеденного яйца. Кази- Казино проигрывает в среднем, но в данном случае это не дает разумных оснований судить об одноразовой игре. Средние значения продуктивно работают в других ситуациях, но не здесь. Рассмотрим упрощенный аналог. Монета бросается один раз, и падает плаш- плашмя с вероятностью 1 - 2~100. Выигрыш при этом составляет 1 рубль. На ребро монета становится с вероятностью 2~100, и тогда выигрыш равен 2300 рублей. Матожидание выигрыша ~ 2200. Но, очевидно, больше рубля за участие в игре платить глупо. Потому что событие, имеющее вероятность 2~10 «никогда» не слу- случается, и какая разница, сколько за него обещано. Использование матожидания оказывается просто не к месту. В русле «Петербургского парадокса» было сломано немало копий при участии великих математиков. В рамках идеологии сходимости (глава 4) это довольно типичная ситуация, когда Хп сходится по вероятности к нулю, а матожидание Хп стремится к бесконечности.
1.6. Континуальные пространства 23 1.6. Континуальные пространства Пространство элементарных событий Г2 часто имеет континуаль- континуальную природу. Это может быть вещественная прямая или отрезок, Кп либо его подмножество. За кадром здесь находятся вполне естественные задачи. Вот два рядовых примера. • Стержень АВ ломается в точках Р и 0, на три куска. Какова вероятность того, что из них можно сложить треугольник? < В случае х = АР, у = Р(} возможность сло- сложить треугольник описывается неравенствами -<х + у<1; х,у<-, которым на рис. 1.2 удовлетворяют внутренние точки треугольника ЕГО. Если все точки {х, у} равновероят- равновероятны, то искомая вероятность Р = О • Во время боя в течение часа в корабль попадает два снаряда. Для заделки одной пробоины требуется 15 минут. Если пробоина еще не заделана, а в корабль попа- попадает второй снаряд, — корабль тонет. Какова вероятность потопить корабль? < Если времена попаданий снарядов 1{ и 12 равномерно распределены по квадрату 5 размера 60 мин х 60 мин, то искомую вероятность дает отношение площади многоугольника {\1{ - 12\ ^ 15} П 5 к площади 5. > Задачи подобного рода берут начало от классической задачи Бюффона об игле ' и предполагают, как правило, равномерность распределения параметров в некоторой области п. Вероятность по- попадания точки в подмножество Л С О считается при этом равной отношению площадей 8а к 5^, что выглядит достаточно логично. Безмятежное отношение к такой идеологии сохранялось до столк- столкновения с парадоксом Бертрана К В задаче Бертрана вычисляется вероятность того, что наугад взятая хорда заданной окружности больше стороны вписанного правильного треугольника. ' Игла длиной г бросается на плоскость, разграфленную параллельными прямыми, отстоящими друг от друга на расстоянии а > г. Какова вероятность того, что игла пересечет одну из параллелей? Ответ: р = 2г/(а,7г). 14) ВеКгапсМ. Са1си1 дез ргоЪаЫШез. Р., 1889.
24 Глава 1. Основы в задачах и парадоксах Бертран рассмотрел три варианта параметров, определяющих положение хорды: • расстояние до центра и угол нормали хорды с осью х; • угловые координаты точек пересечения хорды с окружностью; • декартовы координаты середины хорды. Во всех трех случаях вероятности оказались разными A/2, 1/3, 1/4). Казус пошел на пользу. Стало ясно, что внимательнее надо изучать ситуацию неравномерного распределения точек в О. Допустим, точки в О распределены с плотностью /х(о;), причем / Тогда вероятность события ш € А определяется как = [ а если на О задана случайная величина Х(ш), в том числе векторная Х(ш) = {Х\(ш),..., Хп(ш)}, то матожидание равно Е (Х) = Г Х(и))/1(и))<Ь). A.8) Сделаем теперь важный шаг. Изменим точку отсчета. Первичное про- пространство элементарных событий сыграло свою роль, и при необходимости можно обойтись без него. Во многих ситуациях это дает определенные выгоды. Урожайность капусты, например, случайная величина? По-видимому. Но на нее влияет столько факторов, что о наличии глубинного П мы можем только догадываться. Господь бросает кости по ту сторону, а мы тут наблюдаем результат — саму случайную величину. И даже в простей- простейшем случае бросания монеты — пространство «герб — решетка» лишь агрегированная иллюзия. Реальное П надо искать на другом уровне, где об устройстве Вселенной известно немного больше. Исключить исходное Г& из рассмотрения можно, переходя непо- непосредственно на описание с. в. X с помощью функции распределения: Р(х) = Р(Х < ж).
1.6. Континуальные пространства 25 Разумеется, Р(Х <х)= Г ф) Ош, Х<х но это остается за кадром. Таким образом, случайные величины мотуг характеризоваться непосредственно в терминах функций рас- распределения. Отказ от рассмотрения пространства элементарных событий носит, разумеется, условный характер. На самом деле одно пространство заменяется другим. Происходит нечто вроде агре- агрегирования. Пространством Г} случайной величины X становится вещественная прямая или ее подмножество. Вне поля зрения оста- остается более глубокий уровень, если таковой имеется. Очевидно, функция Р(х) монотонно возрастает (не убывает) и Нт Р(х) = 1, Нт Р(х) = 0. Вместо Р(х) часто используют плотность распределения р(х), связанную с Р(х) условием: х Р(х)= [ р(и)йи. A.9) -00 Из A.9) следует Р(х + Ах) - Р(х) = / р(и) йи = р(х)Ах + о(Ах), откуда р(х) = Р'(х). Понятно, что для дифференцируемости Р(х) нужны предположе- предположения, но мы на этом не останавливаемся. Более того, далее исполь- используются — в том числе — плотности, содержащие ^-функции 15\ что позволяет единообразно охватить дискретно и непрерывно распре- распределенные случайные величины. 15)См. [5, т. 2].
26 Глава 1. Основы в задачах и парадоксах Аналогом равновероятных элементарных событий служит си- ситуация равномерной плотности: 1 -, х е [а, 6]; р(х) = { Ь-а О, х$[а,Ъ]. При этом говорят о равномерном распределении X на [а, 6]. Если X вектор, то в Р(х) = Р(Х < х) под X < х подразумевается совокуп- совокупность покомпонентных неравенств. Из Р(хи...,хп)= I ... I р{щ,...,ип)йщ ...йип дпР(х],...,хп) -оо -оо вытекает Вместо Р(х) и р(х) обычно пишут Рх(я) и Р*(ж)> помечая случайную величину X и аргумент х. Мы не только будем опускать индекс, но вместо X будем иногда писать х. Конечно, это не вполне корректно, X но не более чем I /(ж) их. Строгие обозначения — не всегда благо. Если из контекста ясно, о чем речь, обозначение тем лучше — чем проще. В соответствии со сказанным 16) Е (X) = [ хр(х) Aх. При нежелании впадать в обсуждение деталей то же самое пишут в виде 16* Бесконечные пределы при интегрировании иногда опускаются, — в результате / обо- 00 значает / . Еше лучше сказать, что / обозначает интегрирование по области определения -00 функции, стоящей под интегралом.
1.6. Континуальные пространства 27 Далее хотелось бы сказать, что линейность оператора Е , Е (аХ + рУ) = аЕ (X) + рЕ (У), A.10) очевидна. Но это не совсем так. В ситуации A.8) подразумевалось, что случайные величины могут быть разные, но мера //(о;) на П одна и та же, — и тогда линейность действительно очевидна. В данном случае X, У могли «прибыть» на (-оо,оо) из разных П, к тому же предысторией уже никто не интересуется, X имеет свою плотность распределения, У — свою. Точнее говоря, надо рассматривать даже совместную плотность их распределения р(х, у). Тогда Е (аХ + РУ) = Л {ах + Ру)р{х, у) их &у = = а I хр(х) их + р I ур(у) йу = аЕ (X) + 0Е (У), где, например, р(х) = / р(ж, у) йу. Пояснение простого факта может показаться многословным, но здесь имеет смысл потратить какое-то время, если речь идет о попытке осмыслить скелетную основу ТВ. Исходное определение с. в. создает впечатление, что П задано, и время от времени в рассмотрение включаются разные случайные величины. Реальная картина обычно другая. Каждая с. в. приходит как бы со своей прямой (—оо, оо), и П постепенно расширяется с (-оо, оо) до (-оо, оо) х (-оо, оо) и т.д. Добавление к линейности Е трех аксиом типа ЕA) = 1 позволяет исполь- использовать матожидание как отправную точку — вместо вероятности. Соответствую- Соответствующий сценарий описан в книге Уиттла [25]. Разумеется, при упрощенном взгляде на предмет особой математической разницы нет, поскольку вероятность возникает тут же как матожидание функции-индикатора, Разница подходов начинает ощущаться на высоких этажах теории вероятностей, где круг дозволенных неприятностей достаточно широк. Но помимо математической — есть разница психологическая. Для кого-то понятие среднего значения может быть предпочтительнее понятия вероятности. Пример. Случайная величина, принимающая значения из ограниченного проме- промежутка, всегда имеет матожидание. При распределении на бесконечном промежут- промежутке — не обязательно. Пусть с. в. X распределена по закону Коши, характеризуемому плотностью Тогда /хёх / При переходе к моментам более высокого порядка ситуация только ухудшается.
28 Глава 1. Основы в задачах и парадоксах 1.7. Независимость События А и В называют независимыми, если Т*(В\А) = Р(В), т.е. формула умножения вероятностей A.5) переходит в Р(АВ) = A.11) Из A.11), в свою очередь, следует Р(А\В) — Понятие независимости играет фундаментальную роль в теории вероятностей, но A.11) не вполне отвечает интуитивному понима- пониманию независимости, что имеет смысл сразу оговорить. Парадокс Бернштейна. Бросают две монеты. Пусть выпадение первой монеты гербом обозначает событие 4, второй — В. Наконец, С означает, что только одна монета выпала гербом. Для симметричных монет все три события попарно независимы, поскольку Р(А) = Р(В) = Р(С) = -, Р(АВ) = Р(АС) = Р(ВС) = -. A.12) С независимостью А и В интуиция согласна, но не с независимостью Аи С (или В и С). И у нее есть основания. Независимость A.12) имеет как бы «арифме- «арифметический» характер, является результатом численного совпадения. Качественные отличия взаимосвязей событий выявляются при нарушении симметрии монет. Для несимметричных монет (с вероятностью выпадения герба ф 1/2) свойство независимости А и В вида A.11) сохраняется, а вот равенства Р{АС) = Р{А)Р{С) и Р{ВС) = Р{В)Р{С) нарушаются. Тем не менее именно «арифметическое» понимание A.11) опре- определяет независимость в теории вероятности. В применении к случайному вектору с независимыми компо- компонентами X = {Х\, Х2} это дает Р(Х! <хиХ2< х2) = Р(Х, < ж,)Р(Х2 < х2), что влечет за собой и, как следствие, = Р\(х\)р2(х2).
1.8. Дисперсия и ковариация 29 Функции Р(х\, Х2) и р(х\, Х2) называются совместными, соот- соответственно, функциями и плотностями распределения случайных величин X] и!2- Таким образом, если случайные величины незави- независимы, то их совместная плотность {функция) распределения равна произведению плотностей {функций). Это правило действует и в об- общем случае п случайных величин — и принимается за определение независимости. Исходное определение п независимых событий имеет вид В сценарии парадокса Бернштейна в случае A.12) Р(АВС) = 0 при ненулевых вероятностях событий А, В, С, откуда ясно, что из попарной независимости А, В, С — их независимость не следует. Обратно. Возможна независимость при отсутствии попарной независимости. Соответствующий пример дает бросание двух упорядоченных костей (красной и синей) [31]: Л = {(!,;): 1,2 или 5}, В = {(%,]): 4, 5 или 6}, С = {(%,3): ^ + ^ = 9}. Примеры подобного сорта свидетельствуют о наличии под- подводных течений, но на практике независимость обычно хорошо работает, минуя аномалии. Это тем более справедливо в отношении случайных величин. Там накладывается требование независимости не на два-три события, а на любые комбинации неравенств, что исключает неприятности. 1.8. Дисперсия и ковариация Скаляр -тхJ называется дисперсией случайной величины X, а — среднеквадратическим отклонением X от своего среднего значе- значения тх.
30 Глава 1. Основы в задачах и парадоксах В силу линейности оператора Е : Е (X - ттJ = Е (X2) - 2Е (Х)пгт + т\ = Е (X2) - т]. Поэтому дисперсия Б (X) равна разности Е (Х2)-т2х, где Е (X2) так называемый второй момент. Вообще, Е (Хп) именуется моментом гг-го порядка случайной величины X, в соответствии с чем матожидание — первый момент. Случайная величина X - тТ имеет нулевое матожидание, и ее называют центрированной, а моменты центрированных величин — центральными. По этой терминологии дисперсия — второй центральный момент. Из существования Е (Хп) вытекает существование Е (Хк) при любом к ^ га, причем Е(Хк) ^ [Е(Хп)]к/п. (?) Для двух случайных величин X, У рассматривают смешанные моменты Е (ХпУт). Важную роль во многих ситуациях играет ко- вариация соу (XV) = Е[(Х- тх)(У - ту)] и коэффициент корреляции гху = соу (ХУ) Очевидно, соу (ХУ) = Е (ХУ) - тхту, и соу (ХУ) = 0, если X и У независимы. Но ковариация может быть нулевой в случае зависимых X, У. Решим, например, такую задачу, считая X, У — центрированными (для про- простоты). Найдем приближение У случайной величиной 2 = аХ по квадратичному критерию: 2 Е(У-аХJ ->тш. Приравнивая нулю производную A.13) по а, получаем 2Е{(У-аХ)Х} =0, откуда A.13) а = соу (ХУ) т. е. при ненулевой ковариации (корреляции) между X и У существует «линейная зависимость» вида У = аХ + IV с ненулевым коэффициентом а и случайной величиной IV, некоррелированной с X, соу (XIV) = 0.
1.9. Неравенства 31 Практическое вычисление корреляций часто приводило к обнаружению «неожи- «неожиданных» связей мистического толка. При этом упускалось из вида, что причинная связь и функциональная — совсем разные вещи. Например, процессы, подверженные влиянию солнечной активности, в результате могут коррелировать друг с другом, а их функциональная связь может быть использована для прогноза, но не для объяснения. Пример. Случайные величины X и У=Х2, при равномерном распределении X в промежутке [-1,1], — связаны жесткой функциональной зависимостью, но их ковариация равна нулю, поскольку линейная составляющая взаимосвязи отсутствует. Некоторые учебники от термина «ковариация» вообще отказываются, заменяя его корреляцией или корреляционным моментом и называя коэффициентом корреляции ту же «нормированную» вели- величину к __ Это имеет свои минусы, но разгружает терминологию, и выглядит приемлемо. Упражнения • Если случайная величина X принимает значения только из интервала @,1), то ах < тпх. (ах - ауJ ^ ах + ауJ. (? 1.9. Неравенства Неравенство Коши—Буняковского17): A.14) * Альтернативные названия: неравенство Шварца либо Коши—Шварца.
32 Глава 1. Основы в задачах и парадоксах 4 Из Е {(А|Х| - |У|J} ^ 0 следует Л2Е (X2) - 2ЛЕ (\ХУ\) + Е (У2) ^ О, а положительность квадратного многочлена (от Л) влечет за собой отрицательность дискриминанта, что представляет собой доказываемое неравенство. > Из A.14) сразу вытекает, что коэффициент корреляции всегда по модулю меньше или равен единице. Если (р(х) ^ 0 — неубывающая при х > а функция, то 00 00 00 <р AР(х) > Г <р AР(х) > <р(а) [ йР{х) = ф)Р(Х > а), —оо а а откуда Е ШХ)) Р(Х ^ а) < 1V ч;; при условии (р(а) A.15) Выбор (р(х) = х2 и \Х - тх\ в качестве случайной величины дает неравенство Чебышева: A.16) Из A.16) следует, что оценка сверху среднеквадратического отклонения влечет за собой оценку сверху вероятности отклонения. Это позволяет переводить разговор из одной плоскости в другую — от моментов к вероятностям. Так сложилось, что A.16) затмило другие возможности. Имеет смысл держать в памяти общее неравенство A.15), из которого можно извлекать более подходящие следствия для конкретных задач. Например, неравенство Маркова Р(Х > а) при условии X ^ О или Р(|Х| ^ е) >, Р(|Х| ^ е) < е-ОЕЕ (ео|лг|) (к, е, а > 0).
1.9. Неравенства 33 Неравенство Колмогорова. Пусть последовательность независимых случайных величин Х^ имеет нулевые матожидания Е (Х^) = О и Ъ(Х;) < оо. Тогда A.17) 4 Пусть 8к обозначает сумму Х\ + ... + Хк; А^ — событие, состоящее н том, что \8]\ ^ е, но 15,1 < е при всех г < ]. Объединение непересекающихся событий А^ есть событие А, означающее тах{|5,-| ^ е, г ^ п}. Условная дисперсия = Е 2Е е\ поскольку Е [(8п - 8]J\А^] ^ 0, второе слагаемое Е [(8п - 8^)8^\А^] = 0, так как 8п - 5; и 8] независимы, потому что состоят из разных независимых слагаемых, а Е(8*\Ау) ^ е2 — по определению Ау Поэтому что и есть A.17). > Если бы максимум в A.17) достигался при к = п, неравенство сводилось бы к неравенству Чебышева. Из A.17), разумеется, следует (!) Требование независимости св. Х; в A.17) можно ослабить до г /у | у У\ П М 1 Я\ при любом ,;, т.е. заменив независимость предположением о равенстве условных матожиданий безусловным. Обоснование несложно. Независимость Х; при дока- доказательстве неравенства A.17) использовалась в двух пунктах. При обосновании Е [E. - ад | А,] =0 и Е E2п) =
34 Глава 1. Основы в задачах и парадоксах То и другое остается справедливым без предположения независимости Х;, но при условии A.18). Неравенство Иен сен а. Пусть (р(х) — вогнутая функция (выпуклая вверх) и матожидание Е (X) существует. Тогда A.19) 4 Для выпуклой вверх функции <р(х) всегда найдется функция18* 1р(х) такая, что Ф) < Ч>(у) + Иу){х ~ У)- Матожидание этого неравенства при х = X, у = ЕХ дает A.19). > 1.10. Случайные векторы Если компоненты случайного вектора X = {Х\,..., Хп} независи- независимы, то X — просто набор несвязанных друг с другом величин 19\ «Линейная часть взаимосвязей» улавливается ковариациями *у = Е {(X,- - т{){Х, - т,)} (пц = Е (X,-)). которые объединяются в ковариационную матрицу К — \кц\. Корреляционная матрица К из К получается переходом к элементам т. е. к коэффициентам корреляции. Обе матрицы К и К неотрицательно определены, поскольку Аналогично для К. Метод наименьших квадратов. Допустим, на вход объекта (рис. 1.3) действует случайный вектор X = {Хь...,Хп}. Скалярный вы- выход У не определяется входом X, поскольку еще действует нена- ненаблюдаемое возмущение (. ^ В гладком случае ^(х) = <р'(х). ' По крайней мере, в вероятностном смысле.
1.10. Случайные векторы 35 Задача состоит в построении линей- \2 ной модели20' Х Рис. 1.3 по критерию минимума среднеквадрати- ческой ошибки: 2 -* ГП1П . с 4 Минимум определяет равенство нулю производных по с;: - Е «*)' = 2Е {(у - Е « Оптимальный вектор с, таким образом, является решением системы Кхс = Кху, где Кх ковариационная матрица X, а вектор ковариации Кху имеет координаты }. > Обратим внимание, что задача по форме полностью совпа- совпадает с поиском ближайшей к вектору у точки ]^с,-ж,-, лежа- г щей в плоскости, натянутой на векторы {х\,... ,хп}. Решение последней — как известно — дает ситуация, в которой вектор у - ^2 сгхг ортогонален {хи ..., хп}, т. е. все скалярные произве- г дения (у - ^2 С1хпх] равны нулю. г Это дает естественные основания считать случайные величины с нулевой ковариацией — ортогональными. Никакой особой глу- глубины за этим нет, кроме возможности мыслить о с. в. в терминах евклидовых пространств, что иногда раздвигает горизонты. Модель 2 — ^2 сг^г обычно служит для прогноза У, что, г в свою очередь, является основой для принятия экономических или * В предположении центрированности всех случайных величин.
36 Глава 1. Основы в задачах и парадоксах технологических решений21\ Проблему поиска оптимальных моде- моделей в рассмотренной постановке называют задачей идентификации. Если линейное преобразование II — АХ преобразует случай- случайный вектор X, то, как легко проверить, ковариационные матрицы Ки и Кх связаны соотношением22^ Ки = АКхАТ9 A.20) т где А — транспонированная матрица. Равенство A.20) есть правило преобразования квадратичной формы при переходе к другому базису2 . Поскольку квадратич- квадратичная форма всегда приводится ортогональным преобразованием А к диагональной форме, то от исходного вектора X всегда можно перейти к случайному вектору V = АХ с некоррелированными компонентами. 1.11. Вероятностные алгоритмы Добавление вероятностного фактора в детерминированные задачи иногда преображает ситуацию и дает существенный выигрыш. Суть дела проще всего пояснить на примере. Проблема выяснения простоты числа ЛГ считается пока пе- переборной задачей. Малая теорема Ферма для любого простого ЛГ гарантирует равенство а^ = 1(тосШ), а<N. A.21) Нарушение A.21) означает, что N — составное. Но для некото- некоторых составных чисел24^ условие A.21) тоже выполняется, и поэтому малая теорема Ферма — не очень хорошая лакмусовая бумажка для различения простых и составных чисел. Однако возможна замена A.21) неким близким условием 25\ нарушение которого хотя бы для ' V может быть, например, котировкой акций либо параметром, характеризующим эф- эффективность работы химического реактора, прокатного стана и т. п. Р.7 23' См., например, [5, т. 3]. ' Для так называемых чисел Кармайкла. 25' Подробности и дополнительные ссылки можно найти в: Иесшеренко Ю. В. Алгоритми- Алгоритмические проблемы теории чисел // Матем. проев. 1998. 3, вып. 2. С. 87-114.
1.12. Об истоках 37 одного а < N гарантирует, что N — составное. Причем для лю- любого составного N подходящих чисел а < N существует не менее '-(N-1). При случайном выборе а < ТУ, таким образом, составное N не классифицируется как составное с вероятностью не большей 1/4, а после к проверок — с вероятностью не большей 1/4*. По- После 100 проверок вероятность ошибочной классификации числа N имеет порядок 10~60. Коллекция задач подобного сорта на сегодняшний день не так велика. Основ- Основные трудности заключаются в поиске удобных признаков типа A.21) для решения альтернативных вопросов. Известно много необходимых условий различного рода, но они в чистом виде, как правило, не годятся — по той же причине, что и A.21) в рассмотренной задаче. В целом включение в поле зрения численных методов — веро- вероятностных алгоритмов — породило довольно интересную область исследований. При этом на описанной выше схеме здесь дело не зацикливается. По поводу идеологического разнообразия мож- можно упомянуть «нашумевшую» РСР -теорему. Вольная трактовка ее примерно такова. Существует способ записи математических дока- доказательств, при котором проверка их правильности сводится к анали- анализу нескольких случайно выбранных мест, число которых не зависит от длины исходного доказательства. Поверить, конечно, трудно. 1.12. Об истоках В ТВ важную роль играют вопросы обоснования, что неред- нередко уводит изложение из сферы интересов широкой аудитории. Нижеследующий текст призван снять некоторую долю напряже- напряжения, возникающего в связи с употреблением терминов типа ^-ал- ^-алгебры. При обобщении исходной вероятностной модели с конечным множеством О на счетные и континуальные варианты п возникают проблемы. Если в конечном случае можно без предосторожностей рассматривать множество всех подмножеств п, то для бесконечных множеств это уже не так.
38 Глава 1. Основы в задачах и парадоксах Необходимость же договориться о том, какие подмножества О попадают в поле зрения, возникает из-за того, что сумма и пе- пересечение событий не должны выводить за рамки дозволенного. Но тогда приходится требовать А,ВСП => АиВ СП, АПВСП, A.22) и рассматривать совокупность Л подмножеств п, куда входят: са- само п, любое А принадлежит Л вместе с дополнением, — и выпол- выполняется A.22). Такая совокупность Л множеств называется алгеброй подмножеств О, и — а-алгеброй в более общем случае, когда в Л входят любые суммы и пересечения счетных совокупностей А& С А: Термин «а-алгебра» обладает способностью отпугивать. Но здесь, в крайнем случае, можно закрыть глаза. Понятия а-алгебры и меры Лебега (см. далее) — это внутренняя кухня ТВ, юридическая часть. Как бы лицензия на право выполнения различных манипуляций. Если речь идет об аппаратной стороне дела, то о а-алгебрах можно забыть. Точно так же никто не помнит о дедекиндовых сечениях, лицензирующих использование вещественных чисел. Далее возникает проблема задания вероятностей на П. В кон- континуальном варианте приходится задавать не Р(о;), а вероятности кубиков, например. Затем все происходит по схеме определения интегрирования. Сложные фигуры (события) аппроксимируются совокупностями все более мелких кубиков, и пределы объявляются интегралами: = Г ^(а,) аш либо Е (X) - I Ош. В итоге вероятностным пространством называют непустое множе- множество О с «узаконенным» семейством Л его подмножеств и неотри- неотрицательной функцией (мерой) Р, определенной на Л и удовлетворя- удовлетворяющей условию Р(Г2) = 1, а также 00 ч 00 ) п=\
1.12. Об истоках 39 для любой последовательности А\, А^,... Е А взаимно непересека- непересекающихся множеств А{. Другими словами, вероятностное простран- пространство определяет тройка (п, Л, Р). Подмножества из Л называют событиями. В зависимости от используемых схем предельных переходов могут получаться разные интегралы — Римана и Лебега. Интегри- Интегрирование по Риману плохо тем, что чуть что — перестает работать. Скажем, не интегрируются пределы функций. На финише, прав- правда, такого почти никогда не бывает, но многие доказательства рассыпаются. Присказка «интегрируя по Лебегу» обычно спасает положение, потому что по Лебегу интегрируется почти все. Чтобы подчеркнуть отличия, интеграл по Лебегу записывают несколько иначе. Например, так (Х)= Г Интегралы Лебега и Римана совпадают, если оба существуют. Поэтому интегрирование простых функций ничем не отличается от обычного, а при интегрировании сложных — до вычислений дело не доходит. Принципиальную важность имеет сама возмож- возможность интегрирования по Лебегу. Это сводит концы с концами. Примерно как иррациональные числа. В приближенных вычисле- вычислениях они не используются, однако, заделывая бреши, превращают вещественную прямую в нормальное игровое поле. Но если о де- декиндовых сечениях при этом можно даже не упоминать, то в ТВ иногда требуется умение произносить фразу «интегрируя по Лебе- Лебегу», не испытывая особого дискомфорта. Множество П с заданной на нем а -алгеброй Л называют измеримым про- пространством. В случае, когда П представляет собой вещественную прямую, — борелевская а-алгебра В порождается26' системой непересекающихся полуинтер- полуинтервалов (а,/?]. Элементы В называют борелевскими множествами. В случае п = Кп борелевские множества определяются аналогично (как пря- прямые произведения одномерных). Вещественная функция /(ш) называется измеримой относительно а -алгеб- -алгебры Л, если прообраз любого борелевского множества принадлежит Л. Если А— В, функция /(о;) называется борелевской. 26' Взятием всевозможных объединений и пересечений.
40 Глава 1. Основы в задачах и парадоксах 1.13. Задачи и дополнения • Парадокс де Мере связан с бросанием двух игральных костей. Вероятность выпадения двух троек в к бросаниях равна, очевидно, рк — 1 - C5/36)*. Во времена Блеза Паскаля (XVII в.) вычисление даже такого простого вы- выражения при больших к было обременительно, и оценки часто делались на основе правдоподобных рассуждений. «Одна тройка в 4 бросаниях выпа- выпадает с вероятностью > 1/2. Две тройки одновременно выпадают в 6 раз реже, чем одна. Поэтому в 24 = 4 х 6 бросаниях естественно ожидать р24 > 1/2». На самом деле р24 ~ 0,49. Логические ошибки подобного рода довольно широко распространены на бы- бытовом уровне. «Если лотерейный билет выигрывает с вероятностью р, то 2 билета — с вероятностью 2р». При малых р в первом приближении это дей- действительно верно. Однако хотя бы один герб при двух бросаниях выпадает с вероятностью 3/4, а не 2 • A/2) = 1. • Двумерное неравенство Чебышева: р{{|Х - тг\ > есгх} У {\У - ту Из обычной колоды вытаскивается карта. Если «пика» — это событие А, если «туз» — В. Легко проверяется, что А и В независимы. Но если в колоде есть джокер, — то это не так. (?) По поводу избытка парадоксов, заметим следующее. При изучении случайных величин играют роль два фактора: вероятности и значения X. Сознание же не приспособлено следить за двумя параметрами одновременно. В результате простейшие вопросы ставят в тупик. Допустим, Р{Х ^ 0} = Р{У ^ 0} ^ 1/2, причем X и У независимы. Вытекает ли отсюда Р{Х + У ^ 0} ^ 1/2? Нет. Если X, У независимо принимают значения {-1,2} с вероятностями 1/2, то Р{Х + У ^0} = 1/4. В ТВ, как и вообще в жизни, приходится решать нечетко поставленные задачи. По равновероятной выборке к чисел из N первых по счету — найти неизвестное N. Чем-то напоминает «угадать фамилию по возрасту», — но задача, вообще говоря, осмысленная. Если с. в. X — равна наибольшему числу в выборке, то откуда при достаточно больших N к + 1 Поэтому N оценивается величиной —-—X. Детали уточняются в рамках к идеологии сходимости (глава 4).
1.13. Задачи и дополнения 41 • Задача о выборе невесты в миниатюре служит образцом задач об оптимальных правилах остановки. Сценарий выглядит так. Потенциальному жениху при- приводят последовательно п девушек. В любой момент он может остановиться: «вот моя невеста», — но возможности вернуться к какому-либо предыдущему варианту нет. Как гантели полезны для упражнений, но не для созерцания, — так и эта задача. Думать можно над эквивалентным вариантом: последовательно про- просматривая числа в какой-то момент надо остановиться и выбрать & (как можно большее). Среди стратегий «просматриваются первые т чисел, после чего выбирается первое же, превосходящее все &,..., &п* — максимальную вероятность выбрать наибольшее & дает га, ближайшее к п/е. (?) • Простота базовой модели теории вероятностей (пространство элементарных событий П с заданными на нем вероятностями) нелегко далась исторически, и она нелегко достигается по сей день, ибо многие задачи к каноническо- каноническому виду сводятся с большим трудом. Это, конечно, не удивительно. Очень простая схема, но в нее укладывается все разнообразие вероятностных задач. Только «укладывание» требует иногда большой изобретательности. Поэто- Поэтому для освоения ТВ необходимо развитие навыков решения задач. В хаосе разнообразных идей и технических приемов здесь есть наезженные пути и ха- характерные модели. Определенный интерес в этом отношении представляет метод фиктивного погружения. Рассмотрим парадокс раздела ставки 21\ Матч до 6 побед прекращен досрочно при счете 5:3. В какой пропорции разделить приз? Конечно, это не парадокс, а проблема. Проблема, а не задача, потому что вопрос надо еще правильно поставить. Наиболее логичен был Ферма. «^ Его идея — в гипотетическом продолжении игры тремя фиктивными партиями (даже если некоторые из них окажутся лишними). При равно- равновероятности всех 8 исходов второй игрок выигрывает матч лишь в одном случае, — если побеждает во всех трех партиях, — поэтому справедливая пропорция 7:1. > • Погружение задачи в более широкий круг фиктивных ситуаций во мно- многих случаях дает выход из положения либо обеспечивает дополнительные удобства. Рассмотрим, для примера, задачу Банаха. В двух коробках имеется по п спичек. На каждом шаге наугад выбирается коробка, и из нее удаляется одна спичка. Найти вероятность рк того, что в момент окончания процесса, т. е. опустошения одной из коробок, в другой — остается к спичек. * Об исторических подробностях см. [22].
42 Глава 1. Основы в задачах и парадоксах < Если одна коробка пуста, а в другой — к спичек, это означает, что спички брались 2п - к раз, причем п раз из (теперь уже) пустой коробки. Поэтому рк = С2пп_*/22п~*. > При необходимости изучать задачу в целом (распределение рк при разных к) возникает определенное неудобство, связанное с выбором пространства эле- элементарных событий П. Вариант опустошения одной из коробок в момент п+^ происходит на фоне других вариантов, которые из-за переменной длины имеют разные вероятности. В итоге получается порочный круг. Для решения задачи надо построить п, а для построения п требуется указать вероятности, кото- которые ищутся. Узел развязывает добавление к настоящим — фиктивных спичек. Тогда в качестве п можно рассматривать 22п+х равновероятных вариантов длины 2п+1. Такой длины всегда хватает для опустошения одной из коробок.
Глава 2 Функции распределения 2.1. Основные стандарты Равномерное распределение в промежутке [о, Ь] имеет плотность которой соответствует функция распределения при х € [а, Ь]. Разумеется, Р{х) = 0 при х ^ а и Р{х) = 1 при х^Ь. Биномиальное распределение. Среди эталонных вероятностных мо- моделей особое место занимает схема бросания монеты, порождаю- порождающая цепочки «герб-решетка»: ГРГГР... Если при выпадении герба писать единицу, решетки — нуль, модель будет генерировать слу- случайные «01 ^последовательности: 1 0 1 1 0 ... При этом можно говорить о генерации двоичных чисел вида 0,10110... . В общем случае в результате испытания (бросания, экспери- эксперимента) единица появляется с вероятностью р Е @, 1), нуль — с ве- вероятностью д = 1 - р. Появление единицы часто именуют успехом. Проведение соответствующих независимых испытаний называют схемой, или последовательностью испытаний Бернулли. В силу независимости испытаний вероятности появления 1 или О перемножаются. Поэтому вероятность в п испытаниях получить к единиц в каком-либо определенном порядке (и, соответственно, п - к нулей) — равна р д .А поскольку к единиц расположить
44 Глава 2. Функции распределения в п разрядах можно числом способов Сп, то вероятность получить к единиц независимо от порядка их следования — равна л = сКпРкдп-к- Набор таких вероятностей {ро,..., рп} называют биномиальным распределением (в серии испытаний длины п). Можно сказать, что биномиальное распределение имеет сумма 8п = Хп, где все с. в. Х& независимы и принимают два возможных значения 1 или 0 с вероятностями р и ^= \ - р. Легко проверить: Е {8п} = пр, Б Ш = пр(\ - р), Е {{8п - пр\г) = пр([ - р)(\ - 2р). На базе бросания монеты часто говорят об игре в «орлянку»: герб — выиграл, решетка — проиграл. При этом удобно считать, что Хь принимают значения не 1 и 0, а 1 и -1. За этой схемой, в свою очередь, подразумевают иногда случайное блуждание частицы (или выигрыша). Геометрическое распределение. В схеме Бернулли вероятность появ- ления к нулей перед первым появлением единицы, очевидно, равна Рк =РЯ . Совокупность этих вероятностей (при к = 0,1, 2,...) называют геометрическим распределением1'. Вероятность первого успеха, соответственно, равна Несложный подсчет показывает: , Геометрическое распределение имеет случайная величина, равная числу испытаний до первого успеха — число промахов до первого попадания, т. е. «число лягушек, которых приходится перецеловать, пока не найдешь своего принца».
2.1. Основные стандарты 45 В качестве механизма организации последовательных испытаний Бернулли могут использоваться урновые модели. В урне находится к белых шаров и пг черных. к тп Вероятность вытащить белый шар равна р = , черный — д = . При к + тп к + тп последовательном извлечении шаров возможны два варианта: шар, вытащенный на предыдущем шаге, возвращается в урну или не возвращается. Встречаются постановки задачи с большим количеством цветов. По существу, урновой является карточная модель с популярными задачами типа: «из колоды вытаскивается п карт — какова вероятность, что к из них одной масти?». В основе урновых моделей лежит равновероятный выбор любого из шаров. Симметрию нарушает раскраска. «Сложные» в данном случае события выбора белого или черного шаров можно взять в качестве элементарных — для схемы к Бернулли. Это дает готовый механизм обеспечения вероятности р = . к + ш Иногда говорят, что погоду в теории вероятностей определяют три закона распределения: биномиальный, нормальный и пуассонов- ский. Из дальнейшего будет видно, что из этой тройки два послед- последних можно в некотором роде исключить. Нормальное распределе- распределение и пуассоновское являются асимптотическими вариантами — биномиального. Распределение Пуассона, как и биномиальное, является дискрет- дискретным, и характеризуется вероятностями Легко убедиться, что т.е. параметр а есть матожидание св. X, распределенной по закону Пуассона. Дисперсия X тоже равна а. Закон рк = аке~а/к\ получается из биномиального, если п -» оо и при этом вероятность р меняется так, что рп -» а. Действительно, С*р*A - р)п~к при условии р = а/п можно записать в виде
46 Глава 2. Функции распределения Закон Пуассона получается с учетом иг -» 1 при п -> оо. Но генеалогическое древо пуассоновского распределения имеет более важные ответвления (см. раздел 2.8). Нормальный закон распределения. Случайные величины, с которы- которыми приходится иметь дело на практике, чаще всего подчинены нор- нормальному закону распределения2^, имеющему плотности вида \2 р(х) = 1 <ТХ\/27Г B.1) Различия определяются матожиданием тпх и дисперсией ах. При- Примеры графиков плотностей B.1) изображены на рис. 2.1. Рис. 2.1 Причины, по которым нормальный закон широко распростра- распространен в природе, анализируются в разделе 2.7. Для краткости речи иногда используют обозначение М{гпх, а],). Например, Л/*@,1) обо- обозначает нормальное распределение с нулевым матожиданием и еди- единичной дисперсией. Функция распределения Л/"@, 1) имеет вид B.2) * Нормальное распределение называют также гауссовским.
2.2. Дельта-функция 47 Интеграл B.2) не выражается через элементарные функции. Вместо «стан- «стандарта» Ф(х) используется также интеграл X Ф(ж) = -4= [ е~*2B Аз, о связанный с B.2) очевидным соотношением Ф(х) + 1/2 = Ф(ж). Упражнения • Если X и У распределены геометрически, то и 7, — гшп{Х,У} имеет геометрическое распределение. (?) • Если X и У распределены нормально либо по Пуассону, то 2 = X -+- У имеет, соответственно, такое же распределение. (?) • Если X и У имеют функции распределения Рх(х) и Ру{у), то св. 7, — тах{Х, У} имеет функцию распределения Рг(х) = Рх(г)Ру(г). (?) 2.2. Дельта-функция Использование дельта-функций для записи плотностей распределе- распределения сводит воедино непрерывные и дискретные задачи и позволяет рассматривать смешанные задачи с плотностями р(х) = рсРс(х) + Р\б(х -хх) + ...+ рк6(х - хк). Плотность распределения пуассоновского закона, в частности, имеет вид Такого сорта выгоды иногда трактуются как чисто технические нюансы, спо- способствующие обозримости и единообразию результатов. Здесь можно добавить, что удобства — это, как правило, вопрос жизни и смерти математической дисциплины. Дельта-функция д(х) изначально определялась как предел единич- единичных импульсов ^ 6е(х), прямоугольной формы либо кол околообраз- околообразной (рис. 2.2), — при стремлении к нулю ширины импульса, е —> 0. ' Единичной площади, / 5е(х)йх = 1.
48 Глава 2. Функции распределения Рис. 2.2 При е -» 0 никакого разумного предела в обыч- обычном смысле нет, но ситуации, в которых возникает такая потребность, обычно сводятся к сходимости ин- интеграла 00 8е(х)<р(х) их -» (р@) при е -» О, -00 что и закладывается в понимание предела бе{х) -> б(х). 00 / Такое понимание предельных переходов работает во многих других ситуациях, составляющих базу теории обобщенных функций, где сначала вводится понятие пространства V основных функций — бесконечно дифференцируемых финитных функций. Финитных в том смысле, что (р(х) = 0 вне ограниченной области (не общей для всех, а своей для каждой (р €Т>). Обобщенные функции затем определяются как линейные функционалы / над V, ставящие любой функции (р € V в соответствие «скалярное произведение» (/, (р). Простейший пример линейного функционала дает интегральное представление В соответствии с этой идеологией обобщенная функция 6(х) — это «нечто», действующее на функции (р 6 V по правилу , <р)= 6(х)<р(х) йх = Что касается обычных функций /(ж), то они одновременно — и обобщенные, действующие на (р € V в рамках определения скалярного произведения Производные обобщенных функций определяются равенством 00 у -00 1\х)ф)йх = 00 -1 -00 №*' (X) ах B.3)
2.3. Функции случайных величин 49 что можно воспринимать как результат интегрирования по частям левого инте- интеграла. Обращение в нуль слагаемого4) /{х)(р(х)\°^оо происходит из-за финитно- сти (р(х). Для производной б'(х) равенство B.3) приводит к Следствием B.3) является также важное соотношение = 8{х), где в(х) — функция Хэвисайда, единичная ступенька: ^ Действительно, для любой функции (р € V 00 00 00 I вЧхМх) йх = - I в(х)<р'(х) Их = - У <р'(х) их = -оо -оо О т. е. производная в'(х) действует на (р так же, как 6(х). > Замена переменных при интегрировании приводит к формулам 00 00 / 6(х - а)(р(х) их — <р(а), / д(ах)<р(х) их — - -00 -00 Отметим, наконец, соотношение -00 где несобственный интеграл понимается как его главное значение. 2.3. Функции случайных величин Если У = /(X), где / — обычная детерминированная функция, а X — случайная величина с плотностью р(х), то среднее значение * Возникающего при взятии интеграла по частям.
50 Глава 2. Функции распределения У = /(X), очевидно, равно5' ту = Е(У) = Аналогично, СОУ(У;У7) = Если У = /(-^) вектор, подобным образом определяется и ковариация: - тт][^(х) - тУ]]р(х) их. С определением плотности распределения У — /(X) возни немного больше. Из рис. 2.3 видно, что6^ откуда функция распределения у} = -00 а плотность ^ — = Рх{Г\у))\[Г\у)]'\, B.4) где индексы х, у показывают, какие плотности подразумеваются. Если X и У — векторы, имеющие одинаковую размерность, и то Р(У) = 2/1 Уп у) = у... I Рх(Ну)) ае1 -00 -00 5^ Напоминаем, что бесконечные пределы в / иногда опускаются. ' Необходимые оговорки здесь и далее очевидны и для краткости — опущены. 7* Подразумевается, что у = }(х) имеет единственное решение при любом у. Общий случай рассматривается в следующем разделе.
2.4. Условные плотности 51 рЛЧу)L*\^-\ = где а индексы ж, у показывают, какие плотности имеются в виду. Упражнения • Если Р(х) непрерывная функция распределения св. X, то случайная вели- величина У = Р(Х) равномерно распределена на [0,1]. (?) • Пусть Р и С непрерывные функции распределения св. X и У. Тогда произведение 2 = ХУ имеет функцией распределения 2.4. Условные плотности При известной функции распределения Г(и, V) = Р{{7 < и, V < у} случайного вектора X = {II, V} имеем Ри{и) = Р{{7 < и} = Р{{7 < и, V < оо} = Р(и, оо). Аналогично, С другой стороны, откуда
52 Глава 2. Функции распределения Условные плотности. Если события Аи В означают, соответственно, выполнение неравенств: х<Х <х + Ах, у < У < у + Ау, то при достаточно малых Ах и Ау: | « р(х, у)АхАу, Р(Л) « р(х)Ах, ?(В\А) « р(у\х)Ау. ЧАВ) и пере- Подставляя эти равенства в формулу Р(В\А) = ходя к пределу при Ах, Ау -> 0, получаем B.5) что опреяеляет условную плотность вероятности р(у\х). Объяснять такие формулы так же легко и сложно, как объяснять, что такое чувство голода. Для кого-то, возможно, легче заменить вероят- вероятностную интерпретацию механической. Суть дела от этого не меняется. Пластинка Ь единичной массы имеет плотность р(х, у). Тогда Рх(х) = у р(х, у) Ау это плотность распределения массы по х, а р{у\хц) — относительная плотность распределения массы в сечении х = х$. Точнее говоря, плот- плотность распределения в полосе х0 < х < х0 4- Аж при нормировании массы полосы на единицу и Ах —>• 0. В любом случае с этим стоит немного повозиться, чтобы исходные поня- понятия и тривиальные по сути соотношения не отвлекали при рассмотрении более сложных ситуаций. Из B.5) вытекает часто используемая формула (х9у) = р(у\х)р(х). B.6) Понятно, что в B.6) х и у можно поменять местами.
2.4. Условные плотности 53 Условные матожидания. Через условную плотность определяются любые условные моменты, в том числе условное матожидание: Е(У\х) = Условное матожидание представляет собой решение оптимиза- оптимизационной задачи Е [У - <р(Х)]2 -> Ш1П, B.7) где минимум ищется по функции (р. Решением оказывается <р(х) = Е(У\х), т.е. (р(Х) = Е(У\Х) представляет собой наилучшее среднеквад- ратическое приближение зависимости У от X, которое называют регрессией. Не углубляясь в детали, поясним сказанное. Приравнивая нулю вариа- вариацию получаем Е [У - ^(Х)]2 = Л\у - ф)]2р(х, у) ах 4у, = о, [у - откуда, в силу произвольности вариации Использование дельта-функций. В случае жесткой функциональной связи У = }{Х) величина У принимает единственно возможное значение у = /(ж), если X = х. Поэтому что влечет за собой 9у) = рх(х)д[у- /(х) и, в силу РУ(У) = I Р<У,
54 Глава 2. Функции распределения приводит к формуле Ру(у) = ] Рх(х)б[у - /(ж)] их. B.8) Интегрирование B.8) в точках у, которым соответствуют про- простые изолированные корни х^(у) уравнения у — /(ж) = 0, дает ' что совпадает с B.4) в случае одного корня х^(у). 2.5. Характеристические функции Соотношение B.8) работает и в ситуации случайных векторов. Для суммы случайных величин 2 — X + У, в частности, = II р(х,у)8(х -х-у)Aх&у. Интегрирование B.9) по у — дает 00 рг(г) = / р(х, г - х) их. -00 При независимости X и У B.10) переходит в 00 Р*(г) = I Рх(х)ру(г - х) их. B.9) B.10) B.11) Формула B.11) представляет собой свертку плотностей, в свя- зи с чем в ТВ оказываются эффективны ; характеристические функции (х. ф.) <р(\) = I е , т.е. гХх ^ Независимо от того, конечно или бесконечно число корней. Если мера множества точек, где производная /'(ж) вырождена, — равна нулю, то это множество можно просто игнорировать без ущерба для решения задачи. ' О причинах см. далее.
2.5. Характеристические функции 55 либо е1Хх = I р(х)е1Хх их, г'2 = -1, -оо < А < оо, что в несущественных деталях отличается от стандартного преобра- преобразования Фурье плотности р(х). При условии абсолютной интегрируе- интегрируемости / \(р(Х)\ ЙА < оо, т. е. (р(Х) б^ь соответствующая плотность однозначно восстанавливается «обратным преобразованием Фурье» -00 Этот факт «территориально» принадлежит другим дисциплинам, но его обо- обоснование, в том числе, можно найти во многих стандартных курсах теории веро- вероятностей. Если с. в. Х\,..., Хп независимы, то Е/ (\(Х)-{-...-\-Хп)\ т?/^ХХ\\ ж?/^ХХп\ //-ч */-ч\ (е ч ') = &{е )... к(е ), \1Л1) то есть х. ф. (р(Х) суммы Х\ +... + Хп равна произведению х„ ф. сла- слагаемых: (р(Х) — |^[^А;(А). Это обстоятельство и определяет замет- заметную роль характеристических функций в теории вероятностей. Вот характеристические функции стандартных распределений: распределение нормальное равномерное Коши показательное показательное-2 плотность 1 (х-™*J р(х) = -=е *** аху/2п р(х)~ Ьа на [а, Ь] п(х) п Р(Х) п(х> + а>) р(ж)-ае"вх, х^О Р(х) ~ \е-* х.ф. ч>(\) хтх\-\о\)? ех\Ь _ ех\а г\(Ь - а) е-о|А| а а - гХ 1 1+А2
56 Глава 2. Функции распределения Отметим простейшие свойства х. ф. • Из |Е(ег'ЛХ)| ^ Е|е^АХ| следует \(р(\)\ < 1. • Если у?(А) — х. ф. случайной величины X, то У — аХ + /3 имеет характеристическую функцию ег ^у?(аА). Разложение в ряд экспоненты (р(Х) — Е (егХХ) приводит к B.13) к\ у " к=0 что — в связи с <р(\) — У^ (р @)— означает Е(Хк) = Ск1р(к)@), B.14) но для этого, конечно, требуется существование моментов Е (Хк). Однако, если моменты Е (Хк) существуют для к ^ ], то можно утверждать, что B.14) справедливо для тех же к ^ ]. (?) Таким образом, при известной х.ф. определение моментов сводится к простому вычислению производных ут ^@). Вместо характеристических функций иногда удобнее рассмат- рассматривать их логарифмы. Соответственно, вместо моментов B.14) — коэффициенты называемые семиинвариантами. Семиинварианты суммы неза- независимых с. в. равны суммам семиинвариантов слагаемых. (?) Очевидно, у нормального закона все семиинварианты выше второго порядка равны нулю. Пример. Пусть независимые с. в. X и У распределены равномерно, соответствен- соответственно, на промежутках [-а, а] и [-6, Ъ] (а < Ъ). Тогда 2 = X + У имеет плотность а Ь , уN(г -х-у)AхAу= — ^ ^ 6(г-х-у)Aу их, -а -Ь где р(х,у)=рх(х)ру(у). Интегрирование приводит к функции рг(г), график которой изображен на рис. 2.4. При а = Ь получается треугольное распределение.
2.6. Производящие функции 57 Если 2 = X + У и слага- слагаемые распределены нормаль- нормально, то перемножение харак- характеристических функций гх\ - -с ехр ехр дает характеристическую функцию 2: гпу)\ - -{<т ехр | г(тп а2у)\2 \, откуда видно, что сумма нормально распределенных с. в. тоже нор- нормально распределена, причем матожидания и дисперсии просто скла- складываются. Перемножение характеристических функций сразу дает анало- аналогичный результат, если слагаемые в 2 = X + У имеют распределе- распределение Пуассона или Коши. Получение тех же выводов без х. ф. более громоздко. 2.6. Производящие функции Есть такая задача о взвешивании монет. В одном из 100 мешков находятся фаль- фальшивые монеты. Настоящая монета весит 7 грамм, фальшивая — 6. Надо с помощью одного взвешивания определить мешок с фальшивыми монетами. -4 Мешки нумеруются, после чего из к -го мешка извлекаются к монет, и эти N = 1 + 2 + ... + 100 монет все вместе взвешиваются. Число недостающих до 1И грамм будет номером «фальшивого» мешка. > Вымышленная задача отражает в миниатюре идею, примени- применимую в широком диапазоне различных ситуаций. Определение. Производящей функцией числовой последовательно- последовательности по, а\, а,2,... называется ряд к=0
58 Глава 2. Функции распределения Как совокупность 1 + 2 + ... + 100 монет несла на себе всю информацию о задаче, потому что из каждого мешка было взято разное число монет, — так и производящая функция А(г) несет на себе всю информацию о последовательности ао, аь а^ ..., по- потому что а& умножаются на г в разных степенях. После такого умножения члены а^х можно безопасно складывать вместе — информация не теряется \ Разумеется, эффект от использования производящих функций возникает, если ряд ^ акгк удается свернуть. Широко известна производящая функция п A + г)п = ^С*2*, порождающая различные связи между биномиальными *=о коэффициентами: П 11 к=0 к=0 Более интересные примеры см. в [24]. Если случайная величина X принимает дискретные значения X — к с вероятностями р%, то 00 к=0 называют производящей функцией св. X. В общем случае цело- целочисленной случайной величины X производящая функция С характеристической функцией у?(А) ее связывает соотношение <р(\) = Ще% При упоминании геометрического распределения иногда имеют в виду число промахов к до первого попадания — и тогда рк = рцк. А иногда — номер х первого попадания, и тогда рх = рдх~1. В последнем случае ' Аналогичным образом получаются ряды Фурье.
2.7. Нормальный закон распределения 59 дискретное распределение биномиальное геометрическое пуассоновское дискретная плотность х. ф. <р(\) (р|А + д)й я. ф. П(г) (?* + <?)" Р 1-9* <,-«¦-*> Первые моменты определяются исходя из формул Е {X} = П'A), Е {X2} - Е {X} = П"A). Упражнения • Для независимых с. в. X и У Пх+У(г) = Пх(г)Пу(г). • Если B.15) где дЛ = рЛ+| 4-Ра;42 4-... — вероятности «хвостов» распределения, то • Если с. в. X имеет распределение р{, р2ч..., то в обозначениях предыдущего пункта: либо, на языке производящих функций, 2.7. Нормальный закон распределения Широкое распространение нормального закона ' р(х) = II) Для простоты положено тпх — 0. B.16)
60 Глава 2. Функции распределения естественно, требует объяснения. Происхождение B.16) принято относить на счет предельных теорем о суммах независимых случай- случайных величин. Об этом речь будет идти в следующих главах, но есть и другие причины, которые представляются не менее важными. Как это часто бывает, многое становится ясным при помещении задачи в более широкий контекст. Вместо случайной величины рассмотрим случайный вектор х = {хи...9хп} с независимыми координатами ж, и плотностью распределения р(х), не зависящей от направления12) х. Этих «необременительных» предположений достаточно, чтобы гарантиро- гарантировать нормальное распределение всех ж,. Обоснование несложно. Независимость координат означает .р„(жп), B.17) а независимость р(х) от направления х — постоянство плотности р(х), равно как и ее логарифма \пр(х) = 1пр, (х) + ...-+- \прп(х) B.18) на сферах х\ + ... + х\ = сопз1. Другими словами, функции B.18) и х2 = х] + ... + х\ имеют одни и те же поверхности уровня, а это возможно, лишь когда их нормали (градиенты) колли- неарны (одинаково или противоположно направлены), т.е. что дает п равенств интегрирование которых приводит к 1пр,-B,-) = -Хх] + сошг, т. е. рг(х{) = рце-**2*. Константы определяются нормировкой и заданием, например, второго мо- момента 00 ге~Хх1 Aх = 1, [ х]те~Хх] йх> = а2. -00 Окончательно р(х) = B*огГ<г ехр { - Х]+^±Х1\. B.19) I У22 ) 12' Можно иметь в виду стрельбу по плоской мишени с вертикальным отклонением Х\ и горизонтальным — х 2.
2.7. Нормальный закон распределения 61 Под нормальным распределением случайного вектора в общем случае вместо B.19) подразумевают плотность B.17) с нормальными плотностями Г (х>-тх.J т.е. Рх(х)=т&Фш:ехр Н(ж" тх)Тк~Лх ~ где Кх — ковариационная матрица, которая в данном случае диагональна, с элементами а\. на диагонали. Если р*(ж) — плотность случайного вектора х = {х]9..., жп}, то представляет собой плотность случайного вектора У — АХ, где А — невырож- невырожденная матрица. Линейное преобразование У = АХ нормально распределенного вектора X приводит к плотности Ру(у) = 7 ехр 4 — — (г/ - а)тК~\у - а)\, с коэффициентом 7, определяемым нормировкой плотности, а В соответствии с этим вектор 2 считается нормально распределенным, если его плотность равна где Кг, как уже ясно, ковариационная матрица. При данном способе изложения понятно, что многомерный нормальный закон распределения B.20) при обратном линейном преобразовании снова возвращается к форме с нормально распре- распределенными независимыми координатами. |3* Разумеется, в B.20) предполагается невырожденность Кг. Знак модуля с определите- определители К: снят, поскольку 6а Кг > 0 в силу положительной определенности Кг, см. раздел 1.8.
62 Глава 2. Функции распределения Философски настроенной части населения больше нравится интерпретация нормального закона как распределения, максимизирующего энтропию (глава 8). Точнее говоря, М"(т, <т2) есть решение оптимизационной задачи: с» Н = / р(х) 1п р(х) их -» тах при ограничениях 00 С» 00 / р(х) их = 1, / хр(х) их = га, / х2р(х) их = а2 + га2. -00 -00 -00 Складывая Я с ограничениями, умноженными на множители Лагранжа Л, \1, V, и варьируя р(х), получаем нулевую вариацию Лагранжиана: 00 -00 откуда, в силу произвольности Ар(х), следует 1 + 1п р(х) + Хх2 + цх + ^ = 0 => + 1п р(х)) + Хх2 + \1Х + ^}Др(ж) ^ = О, После согласования значений параметров с ограничениями задачи — полу- получается плотность, соответствующая ^(га, а2). 2.8. Пуассоновские потоки Последовательность событий, происходящих в случайные моменты времени, называют потоком событий. Это один из мощных пла- пластов вероятностных задач. Телефонные вызовы, аварии, обращения к оперативной памяти, заявки, посетители — список примеров практически неисчерпаем. Рассмотрим поток событий, обладающий следующими свойствами: • количества событий, поступающие на непересекающихся интервалах време- времени, независимы как случайные величины; • вероятность поступления одного события за малый промежуток А1 зависит только от длины промежутка и равна АД* 4- о(А1), где А > 0, о(А1) — бесконечно малая от А*; • вероятность поступления более одного события за время ДI есть о(А1). ^ Разобьем интервал (О, I) на п равных частей А\,..., Ап, и пусть обозначает число поступивших событий на промежутке Ак,
2.8. Пуассоновские потоки 63 В соответствии со сделанными предположениями производящая функция Ип(г) последовательности р^ = Р{Хц;(А^) = ]} не зависит от & и равна Производящая функция суммы Х\(А\) + ... + ХП(ЛП) вычисляется как произве- произведение В пределе при п ->¦ оо получается производящая функция числа событий ХA)> поступивших на интервале (О, I): п Соответствующее распределение вероятностей Л = ^е-Л< 0=0,1,2,...) оказывается пуассоновским. Постоянная Л определяет среднюю интенсивность ) поступления событии, Л = . > Проведенное рассуждение имеет пробел. Необходимо, вообще говоря, обосновать, что из сходимости производящих функций вы- вытекает сходимость распределений вероятности. В данном случае это достаточно просто, но в принципе такого сорта вопросы постоянно возникают в ТВ — см. главу 4. Рассмотренная задача легко обобщается на случай интенсив- интенсивности А, зависящей от времени. Результирующее распределение остается пуассоновским с учетом небольшой поправки: = Я = ^<Г". ц = 1\{т)йт. B.21) Временная интерпретация I, разумеется, необязательна. Речь может идти о распределении точек на любой числовой оси. А если вдуматься, то размерность I тоже не играет роли. Распределение Пуассона возникает и в случае распределения точек в пространстве при тех же исходных предположениях, в которых под А1 надо лишь понимать малые объемы. В итоге случайное число точек в области п
64 Глава 2. Функции распределения снова подчиняется распределению B.21), с той разницей, что /х определяется как /1 = I \{т)йт. п Опыт общения со студентами показывает, что закон Пуассона часто остается «вещью в себе», не находя путей к подсознанию. Положение легко выправляется размышлением над задачами. Допустим, случайная величина ^, равномерно распределенная на (О, Г), реализуется п раз, что приводит к появлению на проме- промежутке п точек. Сколько точек попадает в область $7 6 (О, Т)? Конечно, это в чистом виде схема Бернулли с вероятностью попадания отдельной точки в $7, равной р = 1/Т, где / длина (мера) п. Вероятность попадания к точек в п определяется биномиальным распределением С^рк(\ -р)п~к, и далее проторенным в разделе 2.1 путем можно переходить к распределению Пуассона. Для подсознания важна интерпретация этого пути в исходных терминах. Интервал (О, Т) и количество «бросаний» п увеличива- увеличиваются согласованно. Так, чтобы среднее число точек на единицу длины сохранялось. Вот, собственно, и вся специфика предельного перехода. Значения Тип увеличиваются в одинаковое число раз, и тогда предельное распределение числа «попаданий» в Г2 оказыва- оказывается пуассоновским. Экспоненциальное распределение. При пуассоновском распределе- распределении вероятность отсутствия событий на (О, I) равна е"м. Поэтому, если с. в. 1\ > 0 — это время наступления первого события, то р{^ > 1} = е~м, а значит, р{«! < 1} = 1 - е~М. B.22) Дифференцирование B.22) по I дает плотность экспоненциального закона Из сказанного очевидно, что экспоненциальный закон пред- представляет собой непрерывный аналог геометрического распределе-
2.9. Статистики размещений 65 ния — времени наступления первого успеха (события, поступления первой заявки, рекламации и т.п.). Показательное распределение случайного времени ожидания возникает в си- ситуации, когда ожидание в течение времени 5 не влияет на то, сколько еще придется ждать, т. е. Р{г >з + 1\т >*} = Р{г ><}, что и приводит к Р{т > 1} = е~А/, 1^0. 2.9. Статистики размещений Как путь в большой спорт пролегает через подтягивание на турнике, так и в теории вероятностей есть простые модели того же назна- назначения. Одна из них — размещение шаров по ячейкам. Шары, как и ячейки, могут быть неразличимы либо пронумерованы. Шаров г, ячеек п. Для создания атмосферы важности говорят о размещении элементарных частиц по энергетическим уровням. Не менее зна- значимо иногда распределение карт между игроками, людей по месту работы, аварий по дням недели и т. п. Если шары и ячейки различимы, то в п ячейках Г\,...,гп г\ шаров могут быть размещены числом способов . Если все гх\...гп\ такие способы равновероятны, а их всего п , то соответствующее распределение имеет вид I 1- • • • ' п- и называется статистикой Максвелла—Больцмана. Если шары (частицы) неразличимы, то число В(г,п) всевоз- всевозможных распределений равно числу целых решений гх,..., гп урав- уравнения г\+... + гп = г. Это самостоятельная комбинаторная задача. «^ Воспользуемся, для тренировки, методом производящих функций . Очевидно, функция = A-2)Л И<1, |4^ Задача совсем просто решается переформулировкой. Выстраиваем шары в ряд, и делим их на п групп п - 1 запятыми. Число различимых способов: Су+п-1-
66 Глава 2. Функции распределения при разложении в ряд порождает нужные коэффициенты, A-гр = Х>(г,п)гг. г—О В результате Д(г,п) п(о) ;,с^>.|. > При условии равновероятности различных способов возникает распределение Г1{П - 1)! Р(Г п) - В(г,п)~(п + г-1)!' называемое статистикой Бозе—Эйнштейна. При дополнительном запрете «ячейка не может содержать более одного шара» получается статистика Ферми—Дирака: п/ ч 1 г\(п-г)\ Оп ТЫ Все очень просто, но в этом и заключается секрет «подтягивания на турни- турнике». Рутинная возня с простыми моделями дает навык обращения с различимыми и неразличимыми вариантами. А это как раз граница между правильными и не- неправильными решениями. 2.10. Распределение простых чисел Вероятностный стиль рассуждений эффективно работает и на «чу- «чужих территориях», где все детерминированно. Показательна в этом отношении задача о распределении простых чисел. Количество простых чисел ', не превосходящих х, — приня- принято обозначать через тг(ж). С указанием всех простых чисел легко (идеологически) справляется решето Эратосфена, рецепт которо- которого очень прост. Из записи всех натуральных чисел вычеркивается 1 — первое невычеркнутое число 2 — простое. Далее зачеркиваются числа, делящиеся на 2, число 3 — первое невычеркнутое — простое. И так далее. 1 ' Не имеющих, по определению, делителей кроме 1 и самого себя.
2.10. Распределение простых чисел 67 При этом ясно, что в промежутке [ж, х + Ах] доля чисел, делящихся на простое р, равна \/р, а не делящихся — A — \/р). Доля же чисел в этом промежутке, не делящихся ни на одно простое число, равна причем ясно, что говорить имеет смысл о простых р меньших и о Ах <С ж, но Ах > ех при некотором малом е > 0. Самих простых чисел на [ж, ж + Дж] будет р(ж)Дж и тг(ж + Дж) - тг(ж), т. е. р(х) играет роль плотности, а формула B.23) получается из «предположения о независимости» событий делимости любого на- натурального к на разные простые числа. Дальнейшее опирается на манипуляции «асимптотического толка», несколь- несколько злоупотребляющие ссылками на здравый смысл. Для больших р приближенно: 1 — \/р = е~ . Поэтому где рк обозначает к-е простое число. В промежутке [х, х + Дж], в силу Ах <^ х, можно считать рк ~ х, и сумма по этому промежутку откуда л 1 что после дифференцирования по х приводит к уравнению р'(х) р(х) йр их р(х) х р2 х решение которого р(х) = \/(С + 1п х) при больших х переходит в
68 Глава 2. Функции распределения Что касается тг(ж), то {+ » + ...+ * +0( -±-)}. B.24) Для примера, точное значение тгD000) = 550. Первые три члена разложения B.24) дают приближение тгD000) « 554. 2.11. Задачи и дополнения • Будем считать в данном пункте, что речь идет о случайных векторах с нулевы- нулевыми матожиданиями. Любой случайный вектор X линейным преобразованием У = АХ приводится к вектору У с некоррелированными координатами16*. Действительно, матожидание матричного равенства УУТ = АХХТАТ дает Ку = АКХАТ. Неотрицательно определенная ковариационная матри- матрица Кх всегда может быть приведена17) ортогональным преобразованием А к диагональному виду Ку. • Плотность распределения Коши имеет св. X = ^/Сг* гДе независимые св. A и B распределены нормально по закону Л^@, 1). Такая же плотность распределения у \%в при условии равномерного распределения в на [—тг/2, тг/2]. Распределение Коши имеет дурную славу, поскольку обычно извлекается на свет, когда надо продемонстрировать существование «плохих» законов, не имеющих моментов. • Если все св. Х\,..., Хп независимы и имеют одинаковое распределение B.25), то п п распределена по тому же закону. (?) • Если /(х\,..., хп) — совместная плотность вектора X = {Х\,..., Хп}, то п сумма 5 = ^2 X* имеет плотность Р) йх2...<1хп. /Л ... I 16' А в случае нормально распределенного X — к вектору У с независимыми координа- координатами. 17) См. [5, т. 3].
2.11. Задачи и дополнения 69 • Проекция радиус-вектора X, равномерно распределенного на окружности радиуса г, имеет функцию распределения ..11 х . . Р(х) = - -\— агс5Ш -, ж € (-г, г), 2 7Г Г при естественном условии Р(х ^ -г) = 0 и Р(х ^ г) = 1. (?) Соответствующая плотность: р(х) = Р'(х) = ' х € (-г, г). тгуг2 - ж2 Следствие приведенных формул: при равномерном вращении коленчато- коленчатого вала поршни двигателя внутреннего сгорания большую часть времени проводят в крайних положениях. Аналогичное явление наблюдается при игре в «орлянку». • Случайные величины X, У независимы и равномерно распределены на [-1/2, 1/2] (каждая). Плотность распределения произведения 2 = ХУ равна />(*) =-21п4|*|, И^. (?) • У нормально распределенного вектора {X, У} с плотностью полярные координаты Л,Ф в представлении Х=Ксо$Ф, У распределены: Ф равномерно на [0, 2тг], а К по закону Рэлея • Пусть независимые св. Х\,... 9ХП имеют показательные распределения с параметрами Аь ..., Лп. Тогда Х = тт{Х,,...,Хп} имеет показательное распределение с параметром Л = Л) + ... + Ап. • Задач на определение тех или иных вероятностных распределений имеется великое множество, и за ними далеко ходить не надо. В любой стандартной модели «шаг влево или вправо» — и возникают неясности. При бросании мо- монеты (случайном блуждании) — биномиальное распределение, казалось бы, исчерпывает проблематику. Но это далеко не так. Вопрос о первом успехе — и появляется геометрическое распределение. Механика смены лидерства (пе- (перехода блуждающей частицы слева направо или наоборот) — и дорога уводит к закону арксинуса. Вопрос о локальных экстремумах либо попадании траекто- траектории выигрыша на некоторую кривую — и опять новые законы распределения.
70 Глава 2. Функции распределения Самые простые вопросы порождают иногда очень сложные задачи. Мо- Модель Изинга, например. Если молекулы двух типов «1», «2» располагаются в шеренгу (одномерная модель), то энергия цепочки равна где Нц — энергия взаимодействия соседних молекул, в случае, когда за мо- молекулой типа «г» следует молекула типа «]». Равновероятное расположение молекул порождает легко определяемое рас- распределение Н. (?) Но уже двумерная (а тем более — трехмерная) модель — не поддается исчерпывающему анализу18). • Источником для упражнений может служить любая задача, в том числе классическая — что лучше всего. Вот одна из таких задач. Имеются две одинаковые колоды, в каждой N карт, нумеруемых в порядке их случайного расположения. Если событие Л* обозначает совпадение карт первой и второй колоды, расположенных на к-м месте, то, очевидно, ±, и применение формулы A.3) сразу дает т. е. вероятность, что совпадет хотя бы одна карта, равна р\ « е~]. Остается задача вычисления полного распределения рь ... ,р#. (?) Среднее число совпадений, к легко определяется окольным рассуждением. (?) ^ Задача не решена, несмотря на ее значимость для кристаллографии и ферромагнетизма.
Глава 3 Законы больших чисел Идея рождения порядка из хаоса материализуется в нашем мире различными способами. Один из наглядных вариантов — закон больших чисел, который, так или иначе, говорит о стабилизации средних значений. 3.1. Простейшие варианты Если случайные величины Хг- имеют одно и то же математическое ожидание /х, то $п __ Х\ + ... + Хп п п имеет то же самое матожидание /х, и с ростом п при естественных предположениях «становится все менее случайной величиной». Раз- Различные варианты уточнения этого утверждения называют законом больших чисел. 3.1.1. Пусть некоррелированные случайные величины Х{ имеют одно и то же матожидание /х и одну и ту же дисперсию а2. Тогда среднеквадратичное отклонение 8п/п от матожидания стремится к нулю. Точнее, причем 8п/у/п растет в среднем пропорционально \1\/п, имея посто- постоянную дисперсию а . В силу некоррелированности, Е (Х{;- ц)(Х>;- //) = 0 при
72 Глава 3. Законы больших чисел Поэтому Е№Ь2 Г 1 „2 \ п Аналогично рассматривается 8п/у/п. > В комбинации с утверждением 3.1.1 неравенство Чебышева A.16) приводит к другому варианту закона больших чисел. 3.1.2. Пусть некоррелированные случайные величины Хг имеют одно и то же ма 2 любом е > О и то же матожидание // и одну и ту же дисперсию а2. Тогда при Закон больших чисел сводит концы с концами. Частотная трактовка вероятности A.1) приобретает законную силу, что устанавливает связь между абстрактными моделями и статистическими экспериментами. Если в случайной «(Непоследовательности единица (Х^ = 1) появ- появляется с вероятностью 1/2, то вероятность отклонения среднего 8п/п от матожидания 1/2 более чем на 0,1 — не превосходит 25/п, поскольку в данном случае Предположения в 3.1.1, 3.1.2 о том, что величины Хг имеют одинаковые матожидания и дисперсии, разумеется, необязательны. Тот же метод доказательства работает и в более общих ситуациях. Например, при некоррелированности Х\,... ,Хп и 1 п Ит -гГ^ О, где а} — дисперсия Хг, при любом е > 0 имеет место Ит Р П-+ОО п п > е Н где //г — матожидание
3.2. Усиленный закон больших чисел 73 Рассмотренные варианты стабилизации среднего обычно ха- характеризуются как слабый закон больших чисел, но он при осозна- осознании производит довольно сильное психологическое впечатление. Вплоть до убеждения в одушевленности механизма обращения слу- случайных цепочек в целесообразные явления. Это, конечно, вредит пониманию существа дела и плодит иллюзии. 3.2. Усиленный закон больших чисел Слабый закон больших чисел дает оценки вероятности отклонений среднестатистических сумм от матожидания и гарантирует стрем- стремление этих вероятностей к нулю. Усиленный закон больших чисел дает больше, гарантирует равенство предела среднестатистической суммы матожиданию — с вероятностью 1. На первых порах зна- знакомства с ТВ разница обычно не чувствуется, но она довольно существенна, что выявляется при рассмотрении различных видов вероятностной сходимости — см. главу 4. Основой для анализа событий, происходящих «почти навер- наверное», является следующий простой факт. 3.2.1 Лемма Бореля—Кантелли. (I) В любой последовательности событий Ль Л 2,... — при условии &) < оо — с вероятностью 1 происходит лишь конечное к=\ число событий Ап. (II) В любой последовательности А\, А2,... независимых событий — 00 при условии ^ Р(Л*) = оо — с вероятностью 1 происходит к=\ бесконечное число событий Ап. «* (\). Наступление бесконечного числа Аи Аъ... есть событие А поскольку го Р(А) = 0, что влечет за собой Р(Л) = 1. >
74 Глава 3. Законы больших чисел Для доказательства (п) достаточно проверить условие поскольку пересечение множеств меры 1 должно иметь ту же полную меру 1. В силу У^Т>(Ак) = оо и независимости Ап, а значит и Ап = п\Ап, для к=\ любого N > к: при N -> оо, что влечет за собой C.1). > Приведем теперь один из простейших вариантов усиленного закона больших чисел. Пусть некоррелированные случайные величины Х{ имеют нулевое матожидание и конечный четвертый момент. Тогда 1. C.2) П < Число ненулевых слагаемых в Е (X) + ... + ХпL — после раскрытия скобок, — в силу некоррелированности, пропорционально п2. А ограниченность четвертых моментов гарантирует при этом существование константы С такой, что Е (Хх + ... + ХпL < Сп2. Поэтому (см. раздел 1.9) Сп2 С А с В силу 2^ -,—Г7 < °о лемма 3.2.1 гарантирует конечность числа событий > е, п откуда в конечном итоге следует C.2). > Смысл предположения офаниченности четвертых моментов достаточно про- прозрачен. Иначе, при том же методе доказательства, не удалось бы установить сходимость ряда и, соответственно, воспользоваться леммой Бореля—Кантелли.
3.3. Нелинейный закон больших чисел 75 Но сам по себе рассмотренный вариант усиленного закона больших чисел довольно слаб. Более тонкие рассуждения дают те же выводы в менее ограничи- ограничительных предположениях. 3.2.2 Теорема . Пусть независимые величины Хп имеют матожи- оо 2 дания /лп и дисперсии а^. При условии У^ ^ < оо имеет место п=\ Х' + "- + Х" - М1 + -" + Мп -> 0 (п -> оо) п п с вероятностью единица. Одно из классических применений усиленного закона больших чисел указа- указано Борелем. Число хЕ [0,1] называется нормальным, если при его записи в любой 4-ичной системе счисления частота появления каждой цифры равна 1/й. Доказа- Доказательство нормальности почти всех хЕ [0,1] (за исключением множества меры 0) см. например, в [11, 15]. 3.3. Нелинейный закон больших чисел Понятно, что вместо стабилизации среднего предпочтительнее бы- было бы говорить об условиях стабилизации нелинейных функций становящихся при больших п почти константами. Формальная по- постановка вопроса могла бы опираться на следующее определение. Последовательность функций /п(#) асимптотически постоянна, ес- если существует такая числовая последовательность //п, что Р{|/П(ж) - цп\ > е} -> 0 при п -> оо C.3) для любого наперед заданного е > 02\ Либо, в более жестком варианте, можно потребовать Э {/п(#)} -> 0 при п -» оо. Классическая теория вероятностей имеет хорошие ответы на вопрос о спра- справедливости C.3) в случае /п(х) = ^ х^. Вот простейшая формулировка с неко- некоторым отступлением от стандарта. !)См., например, [18,21]. ' Под Р{*} подразумевается некоторая заданная мера.
76 Глава 3. Законы больших чисел Пусть Х( — независимые с. в. с одинаковыми матожиданиями цх и диспер- сперсия линейной функции У = С(п) • X = С\Х\ + . . . + СпХп сиями Бх = <т1. Тогда дисперсия линейной функции равна и в результате Ву -> 0 при условии ||с(п)|| -> 0 (п -> оо). При изучении нелинейных зависимостей у = /п(ж) под тем же углом зрения естественно взять за основу аналогичные ограничения на градиент Заметим, что для гладких функций условие ||У/„(а?)|| ^ уп эквивалентно в Кп липшицевости /п(х) с константой уп, ||У/п(х)-7/п(у)|К7п1|ж-у||. C.4) Если же условию C.4) удовлетворяет негладкая функция, то у нее существует сколь угодно точная гладкая аппроксимация с модулем градиента ^ уп. Рассмотрим теперь для наглядности простейший случай с. в. Хг, равномерно распределенных на [0, 1]. Другими словами, равномер- равномерное распределение на кубе О вероятностной точке зрения, собственно, можно забыть К Задана последовательность функций /п(ж), и мы интересуемся условиями, при которых отклонение }п(х) от среднего значения стремится к нулю с ростом п. Естественный ориентир задает линейный случай. Но хватит ли ограниченности градиента ||У/п(ж)|| для Б {/п} < оо в общей ситу- ситуации? Ведь разброс значений /п(ж) — разность между минимумом и максимумом — может расти пропорционально диаметру куба Сп, т.е. у/п. Если ответ положителен (а он положителен), то можно ли перейти к какой либо другой мере на Сп, не потеряв желаемых 3^ В этом, грубо говоря, и заключается идея Колмогорова изучать теорию вероятностей как часть теории меры.
3.4. Оценки дисперсии 77 выводов? Конечно, к произвольной мере перейти нельзя, ина- иначе, сосредоточив ее на концах большой диагонали куба, получим Б {/п} ~ п. Но достаточно ли, скажем, независимости Х{] Какие плотности дают максимум Б {/п}? Как от куба перейти к рассмот- рассмотрению всего пространства? Вот примерный круг вопросов, которые здесь возникают. Откладывая доказательство, сформулируем следующий резуль- результат. 3.3.1 Теорема. Пусть независимые с. в. Х{ распределены на [О, 1] с плотностями р,-(ж,-), причем все р,-(ж,-) > е > О, а последователь- последовательность функций /п(жь ..., хп) удовлетворяет неравенствам \\*!п(х)\\ ^ 7п, хе сп. Тогда при 7п < 7 < °° дисперсия Б {/п} ограничена некоторой константой, не зависящей от п. Если же 7п стремится к нулю с ростом п, то ° {/п} -> 0 лри п ^ оо, т.е. последовательность функций /п(ж) асимптотически постоянна на Сп. Рекламный вариант теоремы мог бы звучать так: все липшицевы функции большого числа переменных — константы. 3.4. Оценки дисперсии В формулировке дальнейших результатов принимает участие не- нестандартная для теории вероятностей функция р*(х) = /1(оо) [ р(г) М - ц(х), ц(х) = 11р{1) (II, C.5) -00 -00 4) которую назовем сопряженной плотностью \ Эффективный способ оценки дисперсии дает следующее утвер- утверждение. ^ Сопряженная плотность может быть ненормирована.
78 Глава 3. Законы больших чисел 3.4.1 Лемма. Пусть с. в. Х{ распределены независимо с плотностями Рг(х{), каждая из которых имеет сопряженную р*{х{). Тогда для лю- любой непрерывно дифференцируемой функции /(х\,..., хп) справедливо неравенство ° (Я < / Е (тг) рНъ) П рМ ^ • ¦ ¦ **п, (з.б) при условии существования фигурирующего в C.6) интеграла как повторного. Доказательство приводится в следующем разделе. Требование существования сопряженной плотности равносильно ограниче- ограничению на порядок убывания обычных плотностей р(х) на бесконечности, что может выражаться в терминах существования моментов. Легко убедиться, что при пере- переходе от р(х) к р*(х) порядок убывания «ухудшается на единицу». Если, например, р(х) = о(\х\~к), то р*(х) = о(\х\~к+1) при |я?| -> оо. Для р(х) = -е~'х| сопряженная плотность р'(х) = 1-(\ + \х\)е-м. Если же область определения р(х) конечна, то сопряженная плотность существует всегда. Наиболее отчетливо ее роль выявляется в ситуациях типа р(х)=рд(х) + (\-р)д(х-\), где сопряженная плотность равномерна, т. е. р*(х) > 0 там, где р(х) = 0. Компенсирующий эффект при этом заключается в следующем. Если бы, скажем, в неравенстве C.6) вместо р* стояла исходная плотность р, то такое неравенство было бы заведомо ошибочно, поскольку }{х) могла бы расти лишь там, где плотности р,(ж) = 0, и справа был бы 0 при Б (/) > 0. Сопряженная же плотность «следит» за поведением градиента /(ж) на тех участках, где исходная плотность обнуляется. Когда Х{ равномерно распределены на [0, 1], сопряженные плотности р*(х) = -х(\ - х), и C.6) переходит в Сп г=\
3.5. Доказательство леммы 3.4.1 79 что тем более влечет за собой }2Aх,...Aхп. C.8) Сп Константу в неравенстве C.8) — которое естественно назы- называть многомерным аналогом неравенства Виртингера [1] — можно уменьшить до тг~2, но в данном контексте это не представляет особого интереса. Из C.8) сразу следует, что при равномерном распределении х на Сп для /п(х) справедлив практически тот же результат, что и в линейном случае: 0 {/Л -> 0> если тах ||У/П(ж)|| -> 0 при п -> оо. X Преимущества неравенства C.7) выявляются на такой функции, как /п(х) = тах |ж,-|, х 6 Сп. г Здесь ||У/П(ж)|| = 1 почти везде, но C.7) гарантирует (после акку- аккуратных вычислений) 0{/п} ~ 1/п- Заметим, наконец, что из леммы 3.4.1 практически сразу вытекает теоре- теорема 3.3.1. Действительно, из C.6) в предположениях теоремы следует оценка где г/ = 5ир!^у-Т :же [0, 1], г = 1,..., п 1 < оо, 1р|(я) ) что, собственно, и обеспечивает требуемые выводы. 3.5. Доказательство леммы 3.4.1 Докажем сначала C.6) в одномерном случае. Очевидно, (*) - Ну)J -00 оо оо х [
80 Глава 3. Законы больших чисел Учитывая5) [У/Юл] <(*-»)/[/@12л, C.9) У У получаем 00 00 X • - у) /[/'@12 л лр(х) ар(у). (зло) -оо у у Интегрирование в C.10) идет по области, задаваемой неравенствами Изменим порядок интегрирования на следующий. По х — от I до оо, по у — от -оо до I, по I — от -оо до оо. В результате имеем ос оо I оо : - у) йР(х) AР(у) 6,1 = -оо I -оо -оо поскольку, как легко убедиться, а изменение порядка в условиях леммы законно. Таким образом, C.6) в одномер- одномерном случае установлено. Далее действуем по индукции. Пусть C.6) справедливо в размерности п — 1. Введем обозначения ™>п-\{хп) = Очевидно, О {/} = / [/(*) - ™>п-\(хп) + тп.х{хп) - ш/]2 ЛРх{хх)... йРп(жп) = кп 5' Неравенство C.9) получается, если в неравенстве Коши—Буняковского х 2 х Т \ [ иA)ьA) <й1 ^ [ и2A) <И ( V2 У У положить иA) = /'(I), уA) = 1. V2(^) Л1
3.6. Задачи и дополнения 81 п-\(хп) ЛРп(хп) + 1[тп.х{хп) - т,]2 AР я1 а из доказанного уже одномерного неравенства C.6) следует я1 Наконец ,2 \<1тп-\(хп дп-1 Я1Л \ 2 — ^ 1 дп-1 Проведенные выкладки в совокупности с индуктивным предположением обеспечивают справедливость C.6) в размерности п. Лемма доказана. 3.6. Задачи и дополнения • Несмотря на математическую тривиальность закона больших чисел, он до- довольно часто понимался превратно. Оправданием могут служить многочис- многочисленные «аномальные» эффекты в его окрестности (см. главу 4). Ограничимся упоминанием самых простых, но достаточно удивительных фактов. При п бросаниях монеты серия из гербов длины \о%2 п наблюдается с вероят- вероятностью, стремящейся к 1 при п -> оо. (?) На фоне обязательного присутствия длинных чистых серий (только гербы или только решетки) средняя длина чистой серии равна 2. Для любой несиммет- несимметричной монеты, выпадающей гербом с вероятностью р € @, 1), матожидание длины нечетных по числу бросаний серий равно 1 -р р а четных — равно 2 независимо от р. (!?) Пусть 8п = X, + ... 4- Хп, где Хк принимают значения 1,0 с вероятностя- вероятностями рк, 1 -рк (каждый раз бросается другая монета). При появления разброса вероятностей рк относительно П дисперсия 8п уменьшается. (!?)
82 Глава 3. Законы больших чисел • Усиленный закон больших чисел имеет множество вариаций. Вот один из достаточно тонких результатов А. Н. Колмогорова, где не требуется суще- существование вторых моментов. Пусть X, независимые случайные величины с одинаковым распределением и ма- тожиданием /1. Тогда г х, +... + хп г-юо П Если же матожидание X, не существует, то \ =/1=1. / /_ Р( Ьт = оо 1 = 1. ) • Снять в теореме 3.3.1 ограничение р,-(ж) > е > О без каких либо компенси- компенсирующих предположений нельзя. При обнулении плотностей на множествах ненулевой меры дисперсия /п(х) может неограниченно возрастать при огра- ограниченном по модулю градиенте. Рассмотрим, например, линейную функцию у>„(х) = ж, + (л/2- 1)я?2 + ..- + (л/п-л/п- \)хП9 считая ее определенной лишь на вершинах куба Сп. Легко проверить, что на вершинах куба Сп Ых)-<Рп(у)\<\\х-у\\. C.11) Продолжим (рп(х) с вершин куба на весь куб Сп с сохранением условия сжатия C.11), что всегда возможно [7]. Пусть /п(х) — соответствующее про- продолжение. Поскольку /п(х) принимает на вершинах куба Сп те же значения, что и <рп(х), то в случае Рг(х4) = -6(Х4) + -6(Х4 - \) дисперсии /„(ж) и (рп(х) совпадают. Но дисперсия линейной функции легко считается. В результате г)] ~1пп, т. е. Б {/п} -> оо при п -> оо. • Пусть X, распределены независимо на [О, 1] с произвольными плотностя- плотностями, и пусть задана последовательность определенных на Сп липшицевых функций /п(х) с константами Липшица уп. Тогда В {/„}-> 0, если 7п = < Если же 1/л/п = о(уп)у то найдется такая последовательность /„(ж), что В{/Л-+(Х).
3.6. Задачи и дополнения 83 • Изучение пограничных ситуаций типа рассмотренной в предыдущем пункте опирается на построение примеров последовательностей /п(х) с максималь- максимальными Б{/п}. Довольно неожиданно, что функции /„(ж), обеспечивающие максимум дисперсии, оказываются симметрическими6*. Неожиданно — с по- позиций распространенной легенды, которая главным источником статистиче- статистических закономерностей считает симметрию. Такой взгляд особенно упрочился после интересной публикации Хинчина7*. 6' См.: Опойцев В. И. Нелинейный закон больших чисел // А и Т. 1994. № 4. С. 65-75. ' Хинчин Л. Я. Симметрические функции на мног А.А.Андронова. М.: Изд. АН СССР, 1955. С.541-576. ' Хинчин Л. Я. Симметрические функции на многомерных поверхностях // Сб. памяти
Глава 4 Сходимость 4.1. Разновидности Вот три основных вида вероятностной сходимости, которые отличаются друг от друга не только по форме, но и по сути. • Последовательность случайных величин Хп сходится к с. в. X Р по вероятности, Хп —» X, если для любого е > О Р(|ХП - Х\ > е) -> 0 при п -> сю. Последовательность случайных величин Хп сходится к с, в. X в среднеквадратическом, Хп -^> X, если Е(Хп-ХJ->0. • Последовательность случайных величин Хп сходится к с. в. X почти наверное (синоним: «с вероятностью 1»), Хп -^-4 X, если - Х\ < е, к ^ п} -> 1 при п -> оо. Вспоминая, что св. Хп есть на самом деле функция Хп(ш)9 можно сказать так: Хп -1—> X, если Хп(о;) сходится к Х(о;) в обычном смысле почти для всех ш, за исключением о;-множества нулевой вероятности (меры). Перечисленные определения обладают общим недостатком — используют предельное значение X, которое не всегда известно. Для преодоления подобной трудности в анализе изобретено понятие
4.1. Разновидности 85 фундаментальной последовательности (последовательности Коти). Аналогичный трюк работает и в теории вероятностей. Последовательность с. в. Хп называется фундаментальной — по вероятности, в среднем, почти наверное, — если ?(\Хп-Хт\ > е) -> 0, Е(Хп - ХтJ -> О, Р{|Х* - Х,| <е; к,1>п}-+\, при т,п -> оо и е > 0. 4.1.1 Признак сходимости Коши. Для вероятностной сходимости Хп -» X в любом указанном выше смысле необходима и достаточна фундаментальность последовательности Хп в том же смысле. (?) Взаимоотношения. Сходимость по вероятности из перечисленных разновидностей самая слабая. Импликация «^^» => «—»» очевид- очевид«—»». на, а неравенство Чебышева1' обеспечивает «-^>» Обратное в обоих случаях неверно. ^ Последовательность независимых с. в. Хп при условии = 0}=1--, Р{Хп = п} = - п п сходится к нулю по вероятности2), но не сходится ни в среднем, ни почти наверное. Действительно, ЕХ^ = п -** 0, а расходимость почти наверное следует из леммы Борёля—Кантелли, поскольку Стоящие за кадром общие причины достаточно очевидны. Ес- Если сходимость по вероятности означает стремление к нулю меры событий {\Хп\ > е}, то для «п. н.»-сходимости требуется — доста- достаточно быстрое стремление к нулю этой меры. Понятно, что это разные ситуации. Для «с. к.»-сходимости само по себе стремление к нулю меры событий {|ХП| > е} вообще недостаточно, поскольку здесь вступает в игру другой фактор: значения Хп на «плохих траекториях». Поэто- Поэтому, кстати, «с. к.»-сходимость не следует даже из «п. н.»-сходимости. 'См. предметный указатель. 2* Поскольку Р(|Х„| > е) — \/п -4 0 при малых е.
86 Глава 4. Сходимость Пример: 1 ~ п2' * " пА Для «п. н.»-сходимости стремление к нулю Р{|ХП| > в} достаточно быстрое 3\ но ЕХя = 1 -» 0. Наконец, Хп —% 0 в случае 1 1 п' п п9 но Хп не сходится к нулю почти наверное. Итак, р «—>». Других импликаций нет. Заметим, что для последовательностей случайных векторов мо- модуль заменяется нормой — без каких бы то ни было иных измене- изменений, как в определениях, так и в выводах. Упражнения р • Если Хп — последовательность независимых случайных величин и Хп —> X, то Р{Х = ЕХ] = 1. • Для сходимости Хп —> X необходимо и достаточно Ит р(зир \Х„ - Х\ > е\ = 0 *->оо ^ п>к ) при любом е > 0. • Если Хп -> X, то существует подпоследовательность Хщ -^> X. • Если Хп -> X и Хп, X ограничены, то Хп -^А> X. • Пусть монотонная последовательность неотрицательных случайных величин, о ^ х, <: х2 ^ ..., имеет равномерно ограниченные матожидания Е {Хп} < гп < со. Тогда Хп^Х и Е{ХЛ ^Е{Х} <оо. .| > ^} = у ^ ~2 < оо, что для обоснования «п. н.»-сходимости позволяет задействовать лемму Бореля—Кантелли.
4.2. Сходимость по распределению 87 4.2. Сходимость по распределению Есть еще одна важная разновидность вероятностной сходимости, которая слабее предыдущих, и потому — шире применима. Последовательность случайных величин Хп сходится к с. в. X по распределению, Хп —* X, если последовательность соответству- соответствующих функций распределения Рп(х) слабо сходится к функции рас- распределения Р(х). Слабая сходимость Рп(х) -> Р(х) означает ' ф(х)<1Р(х)у т.е. Е{ф(Хп)}-+Е{ф(Х)} D.1) для любой непрерывной и ограниченной функции ф(х). Это равносильно поточечной сходимости Рп(х) -> Е(х) в точках непрерывности Р(х). Последнее утверждение является, вообще говоря, теоремой, — справедливой в силу монотонности и офаниченности функций распределения. Если Р(х) непре- непрерывна и Рп(х) Л Р(х), то эта сходимость равномерная, — опять-таки по причине «монотонности и ограниченности». По той же самой причине множество 1т всех функций распределения слабо предкомпактно, т. е. из любой последовательности Гп(х) можно выделить слабо сходящуюся подпоследовательность, но не обяза- обязательно к функции из 1т (за подробностями можно обратиться к [3, 9]). Р V Импликация «—>» => «—>» очевидна. Обратное неверно. На- Например, пусть речь идет о бросании симметричной монеты, и при четном и с. в. Хп = 1, если выпадает герб, и Хп = 0 в против- противном случае, а при нечетном и — Хп = 0, если выпадает герб, и Хп = 1 в противном случае. Сходимость по распределению есть, по вероятности — нет. Но р еслиХп -» 0, то Хп —> О 4.2.1 Теорема. Сходимость по распределению Хп —* X равно- равносильна равномерной (на любом конечном промежутке) сходимости у?п(А) -> (р(\) характеристических функций.
88 Глава 4. Сходимость ^ Импликация Хп А X => уп{\) ¦ вытекает из D.1), если положить ф(х) = егХх. Обратно, пусть у?„(А) -> у?(А), — тогда Е {ф(Хп}} = I ф(\Ш\)A\ -+ У ^(А)у>(А)йА = Е {ф(Х}}, -00 -00 где 0(А) — преобразование Фурье функции ф(\). > Конечно, это лишь набросок доказательства. Углубиться в де- детали можно в любом курсе теории вероятностей [3, 9, 20, 31]. Тео- Теорема 4.2.1 часто используется, значительно облегчая суммирование случайных величин. 4.3. Комментарии Различные виды вероятностной сходимости задают игровое поле для многочисленных постановок задач [19], большинство кото- которых не имеют никакого прикладного значения, но это и не тре- требуется. Задачи способствуют всестороннему изучению предмета. Тренировка, расширение кругозора, познание внутренних меха- механизмов, постановка новых вопросов, — вот, собственно, их глав- главная роль. Беда в том, как показывает опыт, что разновидности вероят- вероятностной сходимости часто остаются «вещью в себе», устроенной по формально понятным правилам, но при отсутствии удобных мысленных образов. Путеводной нити в результате — нет, и зада- задачи приходится решать «наощупь». В такого рода ситуациях, чтобы уменьшить ощущение хаоса, полезно отталкиваться от примеров. Вот вопрос, который значительную часть населения ставит в тупик. Су- Существует ли последовательность событий Л,,Л2,... такая, что Р{ЛЛ} -> 1 при п —> оо, но = 0 При ЛЮбОМ 71? Положительный ответ дает последовательность одинаково ориентированных дуг Ак длины к/{к-\-1) на единичной окружности Г2, у которых начало следующей (по номеру) дуги совмещается с концом предыдущей.
4.3. Комментарии 89 Другая проблема. Случайная величина Хп, определяемая соот- соотношениями Р{Хп = 0} = 1 - -, Р{Хп = п2} = - п п р сходится к нулю по вероятности, Хп —> 0, но Е {Хп} -» оо. Так часто бывает в некоторых типах игр, в том числе — биржевых. Ожидаемый выигрыш, как говорится, «выше крыши», на деле — почти гарантированный проигрыш. Сходимость матожиданий. Последняя «неприятность» подчеркива- подчеркивает принципиальную роль утверждений, в которых к вероятностной сходимости можно добавить сходимость матожиданий. Вот несколь- несколько полезных и достаточно простых (для обоснования) утверждений. • Пусть Хп —:—* X и все \Хп\ < V, где св. У имеет конечное матожидание. Тогда X тоже имеет конечное матожидание и Е{ХП}->Е{Х}. • Пусть Хп -^> X и все \Хп\ < оо. Тогда Е{|Х|} < оо м Последовательность Хп называется равномерно интегрируемой, если зир / \х\ йРп(х) -> 0 при М -> оо, п 3 \х\>М где Рп{х) — функция распределения Хп. Условие равномерной интегрируемости часто выполняется, и это ликвидирует массу возможных неприятностей. В условиях равномерной интегрируемости Хп: (I) 8ирЕ{|Х„|}<оо.(?) П (п) Из Хп —> X следует существование Е {X} и Е {Хп} -> Е {X}. (?) Без равномерной интегрируемости ситуация менее благоприятна. Пусть, например, X имеет распределение Коши, а „ _ Г X, если |Х| ^ п, п ~ I 0, если |Х| > п. Тогда Хп —>• X, все матожидания Е {Хп} существуют, но Е {X} = оо.
90 Глава 4. Сходимость Если же Хп = Х/п-\-2, где Е {2} < оо, — получается другая «неприятность»: Хп^2, Е{2}<ос, но ни одно Е {Хп} не существует. 4.4. Закон «нуля или единицы» Лемма Бореля—Кантелли служит простейшей иллюстрацией дей- действия механизма, исключающего из рассмотрения все вероятности за исключением крайних. Обзор существенно расширяет колмого- ровский закон [13] «нуля или единицы», утверждающий следующее. 4.4.1 Теорема. Если Х\, Х^ ... — независимые случайные величины, а событие А определяется поведением только бесконечно далекого хвоста последовательности Х\,Х^,... и не зависит от значений Х\,..., Хп при любом конечном п, — то либо Р{А} = 0, либо Р{А} = 1. D.2) События, зависящие только от «хвоста», называют остаточ- ос ными. Таковы, например, события: сходимости ряда 2_\ ^к лыбо самой последовательности Х^\ ограниченности верхнего предела Нт Хь < оо и т. п. ^ Идея доказательства проста4). Остаточное событие А — это некоторое множество А бесконечных траекторий ^, ^2> • • •> которое может быть аппроксими- аппроксимировано множеством Ае конечных траекторий %[,..., %'т. «Аппроксимировано» — в смысле Т*{АААе] < е при задании подходящего гп(е). В силу остаточности, А не зависит от Ае, т.е. Р{АОАе} = Р{А}-Р{Ае}, D.3) а поскольку и |Р{Л П Ае) - Р{Л}| ^ Р{ЛЛЛЛ < е, то D.3) при е -> 0 переходит в ПА) = \ПА}\\ что возможно лишь в случае D.2). > ' Но уточнение деталей, особенно с учетом приготовлений, обычно смазывает картину.
4.5. Случайное блуждание 91 4.5. Случайное блуждание Пусть Х\, Х2,... — независимые с. в., принимающие два значения 1 и -1, Поведение суммы 8п = Х\ + ... + Хп часто интерпретируют как случайное блуждание, имея в виду движение частицы по целочислен- целочисленным точкам действительной прямой. Принимает Хк в к-й момент времени значение 1 (-1) — частица сдвигается на единицу вправо (влевоM'. Возврат частицы в начало координат равносилен, очевидно, со- событию {8п = 0}. Понятно, что возвраты возможны только в четные моменты п — 2к. Интуитивно ясно, что в случае р — 1/2 типичные траектории бесконечно много раз проходят через нуль, а в случае р Ф 1/2 уходят в бесконечность. В точной формулировке: {0, еслирф -, 1, еслир = -, где б. ч.р. означает «бесконечное число раз». А Легко видеть (опираясь на формулу Стирлинга), что у/п ¦ 00 Поэтому ^^ ^{82к = 0} < оо и Т*{8п = 0 б.ч.р.} = 0 в случае р Ф 1/2 следует из леммы Бореля—Кантелли. 00 Что касается ситуации р = 1/2, то здесь ^^ Р{5^* = 0} = оо, но лемма Бореля—Кантелли не работает, поскольку события {8п = 0} не независимы, а колмогоровский закон «нуля или единицы» не применим, потому что собы- событие {8п = 0 б.ч.р.} не является остаточным. Но доказательство может быть завершено с помощью дополнительных ухищрений [3, 31]. 5^ С тем же успехом можно говорить о бросании монеты или о любой другой реализа- реализации схемы Бернулли. Определенную популярность имеют игровые интерпретации (задачи о разорении).
92 Глава 4. Сходимость Например, {§2к = О б. ч. р.} включает в себя остаточные события ( 8п у 8п \ . Г— 8п \ А = < \\т—— = оо, Ьт—г= = -оо > и Аи = < Ьт —г= > I/ >, I у/п у/п ) { у/п ) к которым применим закон «нуля или единицы». Альтернатива Р{л4„} = 0 ис- исключена в силу теоремы 3.1.1. А поскольку Аи -> А при V -» оо, то и Р{л4} = 1 и, как следствие, ^{81к = 0 б.ч.р.} = 1, поскольку АС{82к = 0 б. ч.р.}. > Другая, совсем простая, идея доказательства описана в разде- разделе 4.8. Еще одна принципиальная идея может опираться на закон «нуля или единицы» Хъюыта—Сэвиджа . Пусть Хи Х2,... — независимые, одинаково распределенные случайные величи- величины. Тогда вероятность любого события, инвариантного относительно перестановок конечного числа членов Хь Х2,..., — равна нулю или единице1'. Событие {8п = 0 б.ч.р.} удовлетворяет такому условию «не- «нечувствительности к конечным перестановкам», поэтому его веро- вероятность равна или 0, или 1, после чего выбор (когда нуль, когда единица) осуществляется достаточно легко. Многомерное блуждание. Пусть речь идет о блуждании частицы по двумерной целочисленной решетке. Движения влево/вправо и вверх/вниз независимы и происходят (каждое) с вероятностью 1/2. Вероятность возвращения в нуль через 2п шагов равна, оче- очевидно, *' Поэтому 00 Р{52* = 0} - оо. Далее, с теми же ухищрениями, что и выше, вероятность бесконеч- бесконечного числа возвращений в начало координат получается равной 1, что несколько неожиданно, поскольку обнуление координат теперь должно происходить одновременно. 6) Нетп Е., 8а\а§е 1.У. // Тгапз. Атег. МаЛ. 8ос. 1955. 80. №2. Р.470-501. 7' Доказательство можно найти в [3, 31].
4.6. Сходимость рядов 93 При трехмерном блуждании и тогда 00 Х> = 0} < оо, что принципиально меняет картину асимптотического поведения. Вероятность возврата становится дробной, а число возвращений на типичных траекториях конечным. Качественное отличие поведения случайных траекторий в раз- размерностях 2 и 3 часто служит поводом для удивления и некоторого философствования. Циник бы, конечно, не преминул заметить, что с тем же успехом можно удивляться сходимости ряда у^ п~ и рас- расходимости 2_\ п~ • Возражать, по сути, было бы трудно, хотя удивление — очень ценная вещь*'. Но проще, и продуктивнее, удив- удивляться существованию этого мира, добиваясь понимания по мелочам. В то же время надо признать, что новые содержательные ин- интерпретации тривиальных фактов нередко обнаруживают пропасти. 4.6. Сходимость рядов 00 В классическом анализе сходимость ряда ^^ ак означает варианты п 1 рйвно как сходимость некоторой последовательности Ап равносильна сходимости 00 ряда /^(Аь — Ак-\). Несмотря на эквивалентность языков — каждый имеет свои преимущества и недостатки. При изучении случайных последовательностей и рядов возникает аналогичная картина. 4.6.1 Теорема. Если Х\, Х2,... — независимые случайные величины 00 с нулевыми матожиданиями, то для сходимости ряда /] Х^ почти 'Лев Толстой жаловался: «Лисить стало трудно — кончается энергия заблуждения».
94 Глава 4. Сходимость наверное достаточно сходимости числового ряда: 00 {Х*}<оо. D.4) А если все Х& ограничены, Р{|Х*| < М} = 1, то условие D.4) и необходимо. <4 Из неравенства Колмогорова следует р{5ир \8п - 8к\ > е\ = \\т р{ тах \8т - 8к\ > е\ ^ - V] пхт -* О 1П>^ ) п->оо 1л<тп<п ) е2 *-** при к -> ос, что в итоге обеспечивает достаточность. С необходимостью возни несколько больше [21, 31]. > Разумеется, если Х& в теореме 4.6.1 имеют ненулевые матожи- дания тхк, то все остается в силе при дополнительном предполо- 00 жении о сходимости ряда ^^ тпхк • (?) Специфика случайных рядов (в отличие от последовательностей общего вида) проявляется в следующем полезном факте. 4.6.2 Теорема. Если Х\9Х2,... — независимые случайные величины, 00 то для ряда \_] %к понятия сходимости почти наверное по вероят- вероятности и по распределению — эквивалентны [29]. С» 00 (X) Если Р{|ХЛ| > ек] < 6к и ряды ^ ек, ^ 6к сходятся, то ^^ Хк сходится 4.7. Предельные распределения При делении на п сумма сходится в том или ином смысле к матожиданию // Специальная «нормировка» - _ 8п-пц
4.7. Предельные распределения 95 позволяет стабилизировать среднеквадратическое отклонение 5П, и под этим «микроскопом» детально изучать поведение 8П. 4.7.1 Теорема. Пусть Х\, Х^ ... — независимые случайные величи- величины, имеющие одинаковое распределение со средним // = 0 и дисперси- дисперсией а . Тогда с. в. 8п/\/п сходится по распределению к с. в. 8, имеющей нормальное распределение с нулевым матожиданием и дисперсией а2. < Пусть (р(\) — характеристическая функция Хк. В силу B.12) Разложение х. ф. в ряд B.13) дает <т2Х2 откуда при п -> оо т. е. характеристическая функция с. в. 8п/\/п сходится к х. ф. нормального за- закона Л/*@, а2), и по теореме 4.2.1 сама св. 8п/у/п сходится по распределению к нормальному закону. > Результаты типа теоремы 4.7.1 называют центральными предель- предельными теоремами. В приведенном варианте безболезненно можно отказаться от предположения об одинаковости распределения вели- величин Хк. Дальнейшие обобщения связаны с некоторыми нюансами. Пусть Тогда слабую сходимость х Г Зп-Е8п хЛ = 1 Г е_32/2 а> = п-оо \ у^Х / ч/2Т7 -00 обеспечивает условие Ляпунова: для некоторого 6 > О т*|2+*->0 при п-^оо,
96 Глава 4. Сходимость а также более свободное условие Линдеберга: для любого г 1 С — I (х - ткJ д,Рк(х) -> 0 при п -> оо, где Рк(х) — функция распределения Хк. Дополнительные результаты см. в [10]. 4.8. Задачи и дополнения • Если с. в. X распределена по Пуассону с параметром а, то случайная величина (X - а)/у/а имеет в пределе (при а -> оо) стандартное нормальное распределение. (?) • Пусть в задаче о случайном блуждании Рк обозначает вероятность попадания частицы в начало координат из положения х = к. Если частица движется вправо с вероятностью р, то При этом, как легко сообразить, Р2 = Р2. Поэтому Р\ = рР,2 -4-1 -р. Решение квадратного уравнения дает два корня: 1 и A - р)/р. В случае р = 1/2 оба корня равны 1, т. е. Р| = 1, откуда вытекает Рк = 1 при любом к, что означает бесконечное число возвратов частицы в нуль (или любую другую точку). В общем случае Рк = 1, если р ^ 1/2, и Рк = A -р)к/рк, если р > 1/2. Это можно интерпретировать как решение задачи о разорении, Рк — ве- вероятность проигрыша игроком в сумме к партий при игре против казино с неограниченным ресурсом. Если же речь идет об игре двух игроков Л и Б, первый из которых выигрывает отдельные партии с вероятностью р > 1/2 и располагает капиталом для про- проигрыша т партий, а второй — п партий, то А разоряется9) с вероятностью Вероятность разорения второго: рв = 1 - Ра- Прир-> 1/2 Ра~> ;—• • Пусть не равные тождественно нулю св. Х\, Х2, •.. имеют нулевые матожи- дания, независимы и одинаково распределены. Тогда суммы 8п = Х\ + ... + Хп обладают свойством 'п = +оо} =Р{ПттГ5'п = -оо} = 1, (?) п-юо п-юо которое при неодинаковой распределенности Хк может нарушаться. ' Первым проигрывает т партий.
4.8. Задачи и дополнения 97 • Устойчивые законы. Изучение сумм независимых с. в. привело к постановке следующего типа вопросов. Если взвешенные суммы слабо сходятся, то что можно сказать о предельном распределении Р(х)? Одно из направлений возможного ответа — устойчивость Р(х). Распределение Р(х) называется устойчивым, если независимые св. X, У, распределенные по этому закону, — при сложении, после предварительной подходящей «перенормировки», дают величину, распределенную по тому же закону. Иными словами, найдутся константы, при которых 7, = и(аХ + ЬУ - /х) имеет распределение Р(х). Точнее и проще говоря, распределение Р(х) устойчиво, если при любых ак и Ък > О существуют такие а и Ъ > О, что где звездочка обозначает свертку. Следующий результат принадлежит Леей: Если Х\,Х2,... — независимые одинаково распределенные св., и при подходящих ак и Ък > 0 суммы Х\+... + Хк- ак слабо сходятся к невырожденному распределению Р(х), то Р(х) — устойчиво. Безгранично делимые законы. Распределение Р(х) называют безгранично де- делимым, если при любом целом к существует такая функция распределения Рк(х), что А;-кратная свертка Рк(х) дает Р(х), Р(х)=Рк(х)*...*Рк(х)9 т. е. корень из характеристической функции Р(х) любой к~й степени — оказывается тоже характеристической функцией некоторого закона. Например, х. ф. у?(Л) = е~о|А| распределения Коши после извлечения корня дает х. ф. того же распределения Коши с параметром а/к. Поэтому распре- распределение Коши безгранично делимо. То же самое имеет место в отношении нормального, пуассоновского, показательного и ряда других законов. В общем случае х. ф. безгранично делимого закона обязана быть представи- мой в каноническом виде Леви—Хинчина: <р(\) = ех при некотором вещественном ^ и неубывающей ограниченной функции ц(х). При соблюдении аккуратности терминологии можно сказать следующее. Безгранично делимые законы представляют собой в точности совокупность возможных предельных распределений при суммировании независимых с. в. Тематика устойчивых и безгранично делимых законов становится интерес- интересной, когда на теории вероятностей свет начинает сходиться клином. До этого момента обычно есть масса других точек концентрации внимания.
98 Глава 4. Сходимость Центральная предельная теорема «заслоняет свет», и многие часто думают, что «суммы всегда сходятся к нормальному закону». Разумеется, это не так. Вот простой пример. Пусть п единичных масс равномерно распределены на [—п, п]. На единичную массу в начале координат действует гравитационная сила В силу равномерного распределения Хк, Г Г 5щп(Х*)Г| Г ( вЫх)\Aх 1 } (А\ Е ^ехр ^-1Г)\ = I ехр {«А-^-}^ = - \ соз (^-] Ах. -п О В итоге (детали см. в [15]) при п^^ Соответствующее предельное распределение в элементарных функциях не выражается. • Мартингалы. При изучении сходимости особую роль играют последователь- последовательности случайных величин Хп, удовлетворяющие условию 1,..., Хп] = Хп и называемые мартингалами. В случае последовательность св. Хп называют полумартингалом. Полумартингалы для процедур типа стохастической аппроксимации могут служить как раз аналогами функций Ляпунова (см. предыдущий раздел). Теория мартингалов довольно обширна [8, 16]. Ее эффективность определя- определяется простым фактом: Теорема. Мартингал Хп с равномерно ограниченными моментами Е {Хп} схо- сходится почти наверное.
Глава 5 Марковские процессы 5.1. Цепи Маркова В детерминированном случае широко распространены динамиче- динамические процессы вида *' о которых можно было бы сказать так. Какова бы ни была после- последовательность х\9... ,хП9 будущее развитие процесса (при I > п) зависит только от хп. Вероятностный аналог этого утверждения служит определением процесса Маркова, каковым называют последовательность случай- случайных величин {векторов) Х\,..., Хп,..., в которой «будущее» Х^>п определяется только величиной Хп и не зависит от предыстории Х\, ... , Хп_1. При этом подразумевается зависимость распределений с. в. Хп+1 от Хп (а так- также от п — в нестационарном случае), и речь идет о динамике условных плотностей распределения р(Хп+]\Хп). Относительно конкретных траекторий жь ..., жп,... можно говорить, что хк+\ есть реализация случайной величины ХЛ+Ь имеющей распределение Простейший пример цепи Маркова: где §п = У\ +.. .+У„, а Уп — п-н член случайной «нуль-один»-последовательности в схеме Бернулли. Очевидно, откуда ясно, что $ при I > п зависит только от 8(=п и не зависит от предысто- предыстории ^<п. ''Либо хп+\ = }(хп, п) в неавтономном варианте.
100 Глава 5. Марковские процессы Широкий класс марковских процессов дают процедуры адаптивной под- подстройки параметров вида <Рк(ск,&), E.1) где &. — измеряемый шумящий, а ск — настраиваемый параметр2). Пример испытаний Бернулли порождает двойственное чувство. С одной стороны — облегчение, поскольку выясняется, что речь идет о простых вещах. С другой — непонятно, зачем городить огород, когда со случайным блужданием и так можно разобраться. Это принципиальный момент. Общие схемы всегда связаны с «головной болью». Скажем, механическую задачу часто проще ре- решить, не переводя ее в гамильтонову форму. Стандарты порождают дополнительные проблемы, вынуждая тратить силы на канониза- канонизацию. В то же время абстрактные модели приводят разнообраз- разнообразные объекты в соприкосновение, взаимно обогащая их. Сведения о случайном блуждании становятся полезны совсем для других содержательных задач, если те укладываются в прокрустово ложе марковского процесса. И постепенно — развитие общей теории проливает свет на разнообразие частных случаев. Стоит убедиться, что задача «укладывается», как начинает работать весь арсенал уже готовых методов и фактов. Переходные вероятности. Марковский процесс с дискретным вре- временем и счетным пространством состояний называют марковской цепью. Как правило, подразумевается следующая модель. Состо- Состояния пронумерованы. Система (частица), находясь в к-й момент времени в ^'-м состоянии в (к + 1)-й момент попадает в г-е со- состояние с вероятностью Рг;, и тогда при распределении частицы по состояниям с вероятностями р^ в следующий момент получается распределение з или в векторном виде р*+1 = Рр*, где Р = [Р^] называют матрицей переходных вероятностей. ' Например, {|, &» • • • в задаче обучения распознаванию образов может быть обучающей последовательностью, а с* вектором решающего правила (дискриминантной функции).
5.2. Стохастические матрицы 101 Модель E.1) помещается в рамки данной схемы, если пространство пере- переменных ск разбить на клетки (состояния) и на базе E.1) вычислить переходные вероятности. Помимо описанной интерпретации (частица, «пребывающая» в ]-м состо- состоянии с вероятностью р*) речь может идти о множестве большого числа частиц. Динамика каждой — определяется той же матрицей переходных вероятностей Р, а р* обозначает долю частиц, находящихся в ]-м состоянии в к-й момент. Данную модель (в которой матрица Р не зависит от к) называют еще однородной цепью Маркова. Понятно, что рА:+т = Ртр*, т.е. динамика распределений р* определяется итерациями матрицы Р. При этом, очевидно, рПртп что называют уравнением Колмогорова— Чепмена. В частности, стационарные распределения р* оказываются собственными векторами матрицы Р, р* = Рр*, а сходимость р* -* р* — одним из центральных вопросов. В теории марковских процессов большое внимание уделяется классифика- классификации состояний. Состояние ж, называют достижимым из ж;, если Р^ > 0 при некотором к > 0, т.е. существует ненулевая вероятность через некоторое число шагов из ,;-го состояния попасть в г-е. Состояния, достижимые друг из друга, называют сообщающимися. Если х достижимо из у, но не наоборот, то состояние у называют несуще- несущественным. Множество всех существенных состояний разбивается на непересекаю- непересекающиеся классы сообщающихся состояний. Если такой класс всего один, — система называется неразложимой. Состояние ж, называют возвратным, если вероятность возвращения в ж, равна 1. Наконец, состояние ж, считается периодическим, если наибольший общий делитель (период состояния) чисел к, для которых Р^ > 0, — равен й > 1. 5.2. Стохастические матрицы Положительная матрица Р ^ 0 с единичными столбцовыми сум- суммами, ^2 Р%з — 1 > называется стохастической. г Легко видеть, чтобы итерационная процедура E.2) на каж- каждом следующем шаге порождала нормированное распределение, ^1 = 1 > необходимо как раз ^^ Р^ — 1.
102 Глава 5. Марковские процессы Если иметь в виду системы с конечным числом состояний, то стохастические матрицы изучаются в линейной алгебре, и там, кстати, многие результаты в под- подходящем контексте воспринимаются достаточно легко и просто. Затевать сыр-бор в рамках ТВ вряд ли имеет смысл, проще отослать к [5, т. 3]. Здесь ограничимся пе- перечислением стержневых результатов с привязкой к вероятностной интерпретации. • Собственный вектор р* ^ 0, отвечающий собственному значению Л = 1, у стохастической матрицы существует всегда, т. е. всегда существует стацио- стационарное распределение р* = Рр*. • Если матрица Р строго положительна (все Рг; > 0) или же Р > 0 при некотором к, то все стационарные вероятности р) > 0, причем итерации р* сходятся к р* > 0, а итерации Рк -* Р^, где у Р^ все столбцы одинаковы и равны р*. Процесс в этом случае называют эргодическим. • Условие «Р* > 0 при некотором &» необходимо и достаточно для примитивно- примитивности стохастической матрицы, т.е. для того, чтобы спектр Р, за исключением ведущего собственного значения Л = 1, лежал строго внутри единично- единичного круга. Примитивность Р означает отсутствие периодических состояний. В случае импримитивнойг) матрицы Р предел рк может не существовать. Но предел имеют средневзвешенные суммы, Неразложимость. Матрица Р называется разложимой (неразложимой), если оди- одинаковой перестановкой строк и столбцов она приводится (не приводится) к виду _ 0 1 где Ри и Р22 квадратные матрицы. Иными словами, Р неразложима, если не существует такого подмножества индексов 3, что Р{к = 0 для всех г Е 3, к $ 3. Система уравнений Рх = х с разложимой матрицей, по сути, имеет вид М _ Гх,1 [ о р2 т.е. Р,,Х, +Р12Х2 =Х,, Р22Х2 =Х2. Наличие автономной подсистемы Р22Х2 = х2, которую можно решать неза- независимо, — характеристическое свойство разложимой матрицы. * Не примитивной.
5.3. Процессы с непрерывным временем 103 Неразложимость Р равносильна либо неравенству (I + Р)п~1 > 0, либо существованию для любой пары индексов г,^ такого к, что Р/;- > 0, где Р/;- обозначает (г^)-н элемент матрицы Рк. Но отсюда не вытекает существование к, при котором Р > 0. Если же главная диагональ неразложимой матрицы Р строго положительна, то Рп~1 > 0. 5.2.1. Если матрица Р неразложима, то Л(Р) = 1 является ведущим собственным значением Р алгебраической кратности 1, которому отвечает строго положитель- положительный собственный вектор. Других положительных собственных значений и векторов уРнет4). 5.3. Процессы с непрерывным временем Марковские процессы с дискретным временем имеют свой круг приложений, но гораздо более типичны системы, в которых переход из состояния в состояние происходит в случайные моменты времени (поступления заявки, поломки прибора, окончания ремонта). Ситуация во многом аналогична предыдущей. Система, нахо- находясь в нулевой момент времени в ^'-м состоянии в момент Д< попадает в г-е состояние с вероятностью Р{^(АЬ), и тогда при на- начальном распределении системы по состояниям с вероятностями Д) в следующий момент получается распределение 0), E.3) или в векторном виде р(Д<) = Р(Д<)р@), а уравнение Колмого- Колмогорова—Чепмена переходит в ' что является элементарным следствием формулы полной вероят- вероятности. Выбор фиксированного шага I = пЛ сразу возвращает ситуацию в прежнее русло (с дискретным временем). 4* Но Р может иметь другие собственные значения на единичной окружности — со всеми вытекающими отсюда «неприятностями». 5^ Речь идет о стационарном случае, в котором вероятности не меняются при изменении точки отсчета.
104 Глава 5. Марковские процессы Переходы системы из состояния в со- состояние удобно мыслить происходящи- происходящими под воздействием потоков событий (отказов, заявок, восстановлений, запро- запросов, регистрации). Пусть, например, А^ обозначает интенсивность пуассоновско- го потока, под воздействием которого си- система переходит из ^-го состояния в г-е с вероятностью Х^Аг + о(АЬ) за время Аг. При этом часто модель сопровожда- сопровождается графом состояний (рис. 5.1), на котором ориентированные дуги между узлами событий отвечают возможным переходам. Рис. 5.1 Вероятность р,(<4- А1) складывается из двух частей: — вероят- ности того, что за время А1 система придет в г-е состояние из других состояний, и вероятности ргA) 11 -^^ ХкгЛ1 > — того, что система не уйдет из г-го состояния, т.е. Если положить то E.4) — после переноса р^1) влево, деления на А1 и предельного перехода А1 —> 0 — приводит к уравнениям Колмогорова При более внимательном подходе к предмету здесь возникают детали, на которых в случае беглой экскурсии лучше не оста- останавливаться, иначе создается впечатление о наличии сложностей, которых на самом деле нет. Уравнения Колмогорова в первую очередь используются для определения стационарных решений, для чего приравниваются ну- нулю правые части. Посмотрим, как это делается на примере популяр- популярной модели процесса рождения и гибели. Соответствующий граф
5.4. О приложениях 105 Рис. 5.2 состояний вытянут в цепочку (рис. 5.2). Потоки рождений, перево- переводящие систему из г-го состояния в (*" + 1)-е, имеют интенсивности А^+1, а процессы гибели, связанные с переходами г + 1 => г, — интенсивности Аг+1,г. В моделях массового обслуживания рожде- рождению сопоставляется обычно приход заявки (клиента) в систему, гибели — уход обслуженного клиента из системы. В случае ра- радиоактивного распада речь может идти о нейтронах. Генетические модели терминологических пояснений даже не требуют. Несложные выкладки показывают, что стационарное решение определяется вероятностями: А&-1,* ... Л12Л01 Рк = т А21А10/ Стандартный вариант в теории массового обслуживания: кли- клиенты в систему поступают с интенсивностью А, т. е. все А*,*+1 = А, но прием заявок прекращается при переполнении системы, А*,*+1 =0 при к ^ а. Обслуженные клиенты покидают систему с интенсив- интенсивностью //, т.е. все \к,к-\ — №• а Тогда E.5) при условии нормировки ^^ р% = 1 дает о 5.4. О приложениях Иллюстрации теории марковских цепей простейшими примерами типа бросания монеты укрепляют мнение большинства о беспо- бесполезности предлагаемых моделей. Сложными примерами, с другой
106 Глава 5. Марковские процессы стороны, мало кто интересуется. В результате марковские процессы попадают в нишу обширных, но скучных теорий. С этим, однако, ничего не надо делать, потому что такова реальность. Закономерная скука возникает из-за приведения всех задач к одной схеме. Воз- Возможностей для заблуждений почти не остается, а рутина деталей, когда «в принципе» все ясно, — не воодушевляет. В такой ситуации необходимо лишь признать факты и чест- честно расставить акценты. Область обширна и глубоко проработана, но в общем курсе теории вероятностей для нее достаточно совсем немного места. Чтобы ясно было, о чем речь, и где искать, если потребуется. Парадоксальный момент при этом заключается в том, что проблематика ТВ более чем наполовину укладывается в теорию марковских процессов. Разумеется, способ изложения случайного блуждания — дело вкуса и доброй воли, но ряд областей типа массового обслуживания без идеологии марковости много теряют. Плюс к этому, есть масса совсем простых задач — абсолютно гробовых до тех пор, пока не приходит мысль использовать схему Р&-М _ р^к представим, например, что игра в «орлянку» про- происходит на четырех монетах, каждая из которых выпадает гербом со своей вероятностью р^, а какая монета бросается следующей — определяется какой-нибудь схемой, типа изображенной на рис. 5.1, в зависимости от выигрыша или проигрыша в текущей партии. Ре- Решение сопутствующих вероятностных вопросов здесь практически невозможно без опоры на р + = Рр . Конечно, такая задача представляется надуманной. Но, скажем, в генетике есть масса проблем, которые почти без усилий ложат- ложатся в готовые марковские схемы. Например, динамика популяций по группам крови. Здесь, в принципе, все настолько прозрачно, что грубые модели даже не требуют особых пояснений, ложась в рамки рА,--М _ р^к ^еда заключается в другом. Для серьезных продвиже- продвижений не хватает «смычки». Математик не идет дальше иллюстраций, не будучи готов посвятить часть своей жизни копанию в био- биологических тонкостях. А биолог ограничивается карикатурными моделями, потому что не хватает математической квалификации.
Глава 6 Случайные функции 6.1. Определения и характеристики Случайной функцией (с.ф.) называется функция ХA), которая при любом значении аргумента I является случайной величиной. Да- Далее предполагается, что I — время, но, в принципе, I может быть и многомерным параметром. Случайную функцию времени называ- называют также случайным процессом, хотя более естественно называть слу- случайными процессами механизмы порождения с. ф. — такие как мар- марковские процессы, стохастические дифференциальные уравнения и т. п. Видимая простота определения с.ф обманчива. Неприятности, как правило, выявляются, когда случайные величины ХA) и ХA + А1) приводятся в сопри- соприкосновение, т.е. А1 устремляется к нулю. В случае непрерывности с. ф возникают трудности с независимостью ХA) и Х(з) при близких I Ф з, что порождает определенный дискомфорт. Избежать неприятностей помогает видоизменение точки зрения. Случайной функцией называют функцию двух переменных ХA,ш), где ш — точка вероят- вероятностного пространства П, на котором задана та или иная вероятностная мера. Зависимость от случая реализуется при этом каждый раз наступлением исхода щ Е П, при котором фактическое течение процесса описывается траекторией ХA, щ), которую называют также реализацией процесса или выборочной функцией. Функцию ХA, ш) = а соз BП1/1 + (р), где ш = {а, V, <р}, можно рассматривать как с.ф. Такая модель, конечно, узка — все реализации (траектории) гармонические. Но ХA, и) = — + 2^ ( ап соз — + Ьп $\п — ) , п=\ ^ ' п=\ где точку вероятностного пространства ш Е П определяют последовательности {а*, 6*}, включает в рассмотрение все интегрируемые на [—/,/] функции, — и остается задать вероятностную меру на П.
108 Глава 6. Случайные функции Плотность р(х, I) случайной функции ' ХA) определяет распределение значений Х{1) в момент I. Разумеется, более пол- полной характеристикой процесса является двумерная плотность Х2, ^\,^2), определяющая распределение значений в разные моменты времени. Понятно, что еще более полную харак- характеристику дают т-мерные плотности. Для с.ф естественным образом определяются: матожиданые 00 тх{1) = Е {Х{1)} = Г хр(х, I) их -00 и корреляционная функция2' ПххA, а) = Е {[ХA) - тх(Ь))[Х(з) - тх(з)}}, которая при 1 — 8 превращается в дисперсию Бх{1) = ПххA,1) = Е 2 Упражнения • Корреляционная функция с. ф. = 2^[0,пС0В—+ЪпВ1П—\, п=\ где случайные величины ап, Ьп не коррелированы, Е {ап} = Е {Ьп} = О, Б {ап} = Б {Ьп} = ^, определяется равенством • Пусть ХA) имеет нулевое среднее, принимает значения ±1, число перемен знака подчиняется закону Пуассона с постоянной Л. Тогда ' Зависимость от ш подразумевается, но не упоминается, чтобы не загромождать игровое поле. 2) См. раздел 1.8 по поводу терминологии «ковариация ^> корреляция».
6.2. Эргодичность 109 6.2. Эргодичность Стационарные функции. Случайный процесс Х{1) стационарен, если его характеристики не меняются при сдвиге по оси времени. Уточнять сказанное можно различным образом. Требуя, напри- например, независимость от сдвига по оси времени п-мерной плотности распределения р(хи... ,хп, <!,... Лп)- В этом случае с.ф. ХA) называют стационарной в узком смысле. Менее жесткий вариант: независимость от сдвига по оси вре- времени условного матожидания и корреляционной функции. В этом случае с.ф. Х{1) называют стационарной в широком смысле. В том и другом случае, как легко видеть, матожидание Е {ХA)} = тх = соп81, а корреляция КххA, з) зависит только от разности I — з, т.е. КххA, з) = КххA - з) = Кхх(т). Соответственно, ВхA) = КххA-1) = Кхх@). Какого рода стационарность подразумевается, обычно ясно из контекста, — и это позволяет обходиться без оговорок. Эргодичность с.ф. Случайная функция, будучи функцией двух пе- переменных, представляет собой ансамбль траекторий ХA,ш), ин- индексируемых (с определенными весами) параметром о;Е 1). Под эргодичностью X обычно понимают равенство среднего значе- значения X по ансамблю и — среднего по времени. Для стационарного процесса это означает Е { [~ / *(*) ЛЬ - тж] | = 0, F.1) где <о — произвольный момент времени, а тпх = Е {Х(Ь)}. Таким образом, в варианте F.1) речь идет о среднеквадратиче- ской сходимости (И -^» тпх при Т -^ оо. ? /
110 Глава 6. Случайные функции Понятно, что такого сорта сходимость представляет собой непре- непрерывный аналог закона больших чисел. Об эргодичности можно говорить по отношению к любой функции У{1) = <р[ХA)\ либо У{1Х,...,<„) = (р[Х(Ьх),..., Х(Ьп)]. В частности, — по отношению к корреляционной функции, оттал- отталкиваясь от 1,з) = [ХA)-тх}[Х(з)-тх]. Эргодическое свойство позволяет экспериментально опреде- определять матожидание любой стационарной функции УA) = (р[Х(Ь)] не по множеству реализаций, а по данным одной реализации на до- достаточно большом промежутке времени Т: 1 тпу и — к Разумеется, эргодичность «даром не дается». Требуются те или иные пред- предположения. В простейших постановках задачи результат достигается довольно просто. Например, к+т _ ^ ^ к+т к+т Е<{ I- 10+Т к к Поэтому эргодичность стационарной функции по отношению к матожиданию обеспечивает условие 10+Т к+Т I КххA - з) Л аз = 0, F.2) к к которое несложными преобразованиями (см. ниже) сводится к т У
6.3. Спектральная плотность 111 Переход от F.2) к F.3) осуществляется заменой т = 1 — з, 10+Т 10+Т 10+Т 10+Т-з Обозначая далее 4@ = /\х(тLт о и интегрируя по частям, получаем 1={т}A0 + Т-з)-т}A0-з)}з\^ + / {Яхт («о + Т - з) - ЕххA0 - з)}з из. к Окончательно, 1 1=21{Т-т)Ехх{т)йт. > Более общие задачи в связи с эргодичностью [2] возникают, когда речь заходит о происхождении случайного процесса ХA), который может порождаться, например, стохастическим диффе- дифференциальным уравнением или иным механизмом. В этих случаях характеристики ХA) приходится «вытаскивать» из других моделей. 6.3. Спектральная плотность Преобразование Фурье корреляционной функции стационарного процесса , вш, 00 00 П(ш) = ^- [ Е{т)е~{ыт йт «• Е(т) = [ Н{ш) -00 -00 называют спектральной плотностью сигнала ХA). Обратим внимание, что традиционные обозначения здесь вступают в проти- противоречие. Через ш принято обозначать как точку вероятностного пространства, так и круговую частоту. Но для авральных мер все-таки нет оснований. Из контекста ясно, что имеется в виду. ' Нижний индекс хх далее опущен.
112 Глава 6. Случайные функции Предположим, что ХA) является стационарной с.ф., эргодич- ной по отношению к своей корреляционной функции. Тогда Я(ш)= Шп Т-»оо F.4) где Г/2 Г/2 Д» = ^ / ЯЧт)е-'шт Aт, Я*(г) = ^ I [Х(з) - шх][Х(з + г) - тпх] Оз. -Г/2 -Г/2 Предельное соотношение F.4) справедливо в силу предполагаемой эргодич- эргодичности: Шп Е{[Д*(т)-Д(т)]2} = 0. Г-+оо Перезапись К*(ш) в виде Г/2 Г/2 *» = ^ / { / [*(«) " тх][ХA) - тх\ -Г/2 -Г/2 Г/2 Г/2 1 2тгТ [Л(з) — тпх\е аз I -Г/2 -Г/2 указывает на справедливость следующего принципиального соотношения: F.5) где Аг(а;) — преобразование Фурье сигнала Ат{1) = Хт(^) - тх, совпадающего с ХA) - тпх на промежутке I 6 [-Т/2, Т/2] и равного нулю вне этого промежутка. Важная роль соотношения F.5) заключается в фиксации вза- взаимосвязи спектра корреляционной функции со спектром самого сигнала Х(Ь). Простейшие свойства спектральной плотности. Из четности Кхх(т) вытекает 00 Кхх(т)ыпит йт = 0. -00
6.4. Белый шум 113 Поэтому ос 1 Г = у- \ Яхх(т) Вещественность и положительность Ехх(ш) вытекают из F.5). Широкое распространение в теории распространения волн на- ходит очевидное в данном контексте энергетическое соотношение: увязывающее среднюю мощность случайного сигнала с его спек- спектральной плотностью. Пример. Корреляционная функция Ехх(т) = ^е~7'г' имеет спектральную плот- плотность 6.4. Белый шум Стационарный случайный сигнал Х{1) с постоянной спектральной плотностью Яхх(и) = С во всем диапазоне частот от нуля до бесконечности — называют белым шумом. Обратное преобразование Фурье приводит в этом случае к дель- таобразной корреляционной функции 00 Пхх(т) = С Г е^т Ли = 2тгСд(т). -00 Таким образом, корреляционная функция белого шума Яхх(т) = 0 при лю- любом г Ф 0, т. е. значения сигнала в различные моменты времени ХA) и ХA + т) —
114 Глава 6. Случайные функции всегда некоррелированы. Разумеется, это идеализация. О внутренней противоре- противоречивости понятия белого шума свидетельствует также бесконечность дисперсии: 00 | = 20 I (Иш = I Но противоречия здесь, вообще говоря, не страшнее несоизмеримости диа- диагонали квадрата со стороной. Необходимо, конечно, принятие мер, связанных с преодолением достаточно серьезных препятствий, — однако бросать все и за- заниматься сообща проблемой обоснования вовсе необязательно. Это извечная проблема. Не только в математике, но и в жизни. Как идти своим путем, чтобы не отвлекаться, и насколько все же поглядывать по сторонам, чтобы не потерять гибкость и поддерживать гармонию? В математике, правда, черно-белые оттенки этой дилеммы гораздо острее и проще. В любой точке пути — развилка. Обосновывать или идти дальше? Со- Соответственно, две группы исследователей со своими симпатиями и антипатиями. Они обычно друг над другом подтрунивают, не желая согласиться, что нужно и то и другое, — хотя у каждого есть резон бежать за своим зайцем. 6.5. Броуновское движение Случайная функция Х{1) называется процессом с независимыми при- приращениями, если для любых 1ц < 1{ < ... < 1п случайные величины Х{1\) - ХAо),..., ХAп) - ХAп-\) независимы. Процесс считается однородным, если распределение Х{1) - Х(з) определяется только разностью I — в. Однородный процесс Х{1) с независимыми приращениями называют броуновским движением, или винеровским процессом, ес- если все ХAь) — ХAь-\) распределены нормально ' со средним О и дисперсией |{* -Ьк-[\- Описание Эйнштейном броуновского движения опиралось на естественные физические соображения. Если ХA) — координата броуновской частицы в момент времени I, то смещение ХA) - Х@) (для определенности Х@) = 0) представляет собой сумму большого числа «мелких» независимых слагаемых ' Предполагается также Х@, ш) = 0 почти для всех и.
6.5. Броуновское движение 115 и центральная предельная теорема дает основания рассчитывать на нормальное распределение ХA). Плотность распределения частиц р(х, I) при этом подчиняется уравнению 00 р(х, 1 + т)= I р(х-у, , у) ёу, F.6) где у(т, у) обозначает долю частиц, переместившихся из х в х + у за время т. Разложение F.6), 00 р(х, I) + трь(х, I) + о(т) = / | Р(я> 0 - УРх(х, г) + -у2рхх(х, I) + ... Жт, у) с/у, -00 в предположении симметрии у(т,у) по у и пропорциональности дисперсии времени г 2у(т,у)<1у = 21)т приводит к уравнению диффузии: вр_ F.7) решением которого при условии р(х, 0) = 6(х - у) является Винер придал физическим соображениям строгую форму, осно- основанную на представлении функций Х{1,ш) с помощью счетного множества коэффициентов Фурье5^: Х{1,ш) = ]Рап(о;)$т [п+-]тг* , ап(ш) = Г ХA,ш)вт п=о IV2/] У где подразумевается процесс на промежутке [0, 1]. Винеровский процесс занимает в теории случайных функций центральное место по целому ряду причин. В первую очередь потому, что в предположениях Х@) = 0, Е = 0, В {ХA) - Х(з)} = 1- 5) Если коэффициенты Фурье распределены нормально, то их линейная комбинация тоже распределена нормально.
116 Глава 6. Случайные функции это единственный непрерывный с вероятностью 1 процесс с неза- независимыми приращениями. Кроме того, винеровский процесс есть марковский процесс 6^ — с переходной плотностью, удовлетворяющей уравнению диффу- диффузии F.7). 6.6. Дифференцирование и интегрирование Из-за недифференцируемости винеровского процесса обычный аппарат мате- математического анализа в теории случайных функций служит лишь ориентиром. Соответствующие инструменты для изучения стохастических дифференциальных уравнений строятся на базе понятия стохастического интеграла [18]. На понятий- понятийном уровне, однако, изложение вполне можно вести с помощью классических понятий интеграла и производной. Дифференцирование случайной функции ХA), УA) = Х'Ц), оказывается перестановочно с операцией математического ожида- ожидания: что сразу следует из перехода к пределу при Д -> 0 в очевидном равенстве ; ХЦ + Д) - ХA) \ Е {ХA + Д)} - Е {ХЦ)} Е (: д Формула для вычисления корреляционной функции производ- производной Г (г) = Х'(г), Куу{1, в) = д2ЕххЦ, з) дгдз ' F.8) получается предельным переходом почти так же просто. 6* Еще винеровский процесс эквивалентно определяется как гауссовский процесс с ну- нулевым матожиданием и корреляционной функцией КA, з) = а2 тт{<, $}.
6.6. Дифференцирование и интегрирование 117 В случае стационарного процесса из F.8) сразу следует Куу{т) = - д2Кхх(т) дт2 ' Легко видеть, что спектральная плотность производной сигнала У{1) = Х'{1) равна .2 тэ В случае интегрирования 1 УA)= [д(з,1)Х(з)Aз9 где функцию д(з,1) называют ядром интегрального оператора \ характеристики УA) определяются по формулам: = { д(з,г)Е{Х(з)}Аз9 , г) аз. Г Г Г Г уу У У о о Упражнения • Пусть УA) = аA)ХA) + Р{1)Х'{1). Тогда #Д**М) дз '4г^. (?) • Если случайный сигнал Х(^) имеет корреляционную функцию д /5 а _ р-1<-*1 Пхх\г>, I) — с , В том числе — функцией Грина, см. [5, т. 2].
118 Глава 6. Случайные функции то корреляционная функция интеграла УA) = / Х(з)д,8 равна о КуУ(8, г) = 2 гшп{5,1} + е~* + е"' + енм - 1. (?) 6.7. Системы регулирования Понимание метаморфоз, которые происходят со случайными сиг- сигналами при интегрировании и дифференцировании, играет важную роль в изучении динамических систем типа где параметры и внешние силы флуктуируют случайным образом. В теории автоматического регулирования, например, рассмат- рассматривается модель Ьх = Му, в которой Ь и М — дифференциальные операторы, у — вход системы, х — выход. Преобразование Лапласа Ьх = Му дает8^ Цр)х(р) = М(р)у(р), Ь{р) и М(р) — обычные характеристические полиномы. В результате х(р) = где называют передаточной функцией системы. При работе с устойчивыми системами9* в качестве передаточной использу- используется функция IV(ш), которая по Фурье-преобразованию входного сигнала у(ш) позволяет указать Фурье-преобразование выходного сигнала х(ш) = №(ш)у(ш). 8) Например, Ьх = х + Т\± + Т^х => Цр) = р2 + Т\р + Го. 9' Когда борьба с расходящимися интегралами не подталкивает к использованию преоб- преобразования Лапласа вместо — Фурье.
6.8. Задачи и дополнения 119 В отличие от детерминированных систем, преобразование Фу- Фурье выходного сигнала, равно как и сам сигнал, — для понимания ситуации ничего особенно не дают. Здесь важны не беспорядочные флуктуации, а вероятностные характеристики сигнала, определяе- определяемые преобразованием спектра: Яхх(ш) = Щш)Щ-гш)ЯуУ(и>)9 т.е. Кхх{ш) = \№(ш)\2Куу(ш). F.9) Другими словами, при прохождении случайных сигналов через линейные системы основную роль играет не сама передаточная функция IV(ш), а ее модуль |И^(го;)|. В результате простого вычисления F.9) по спектру входного случайного сигнала определяется спектр выходного сигнала. Для вероятностного анализа это практически вся информация, которая требуется. 6.8. Задачи и дополнения • Эргодичность с. ф по отношению к корреляционной функции обеспечивается условием г 1 Г/ о при любом т, а эргодичность по отношению к дисперсии — условием г • Если Т{ обозначает время в промежутке [0,1], проводимое броуновской частицей на положительной полуоси, то, как обнаружил П. Леви, Р{т* < хЬ) = - агсзш у/х, что называют распределением арксинуса. По поводу дискретных аналогов см. раздел 7.3, а также [23, 26].
Глава 7 Прикладные области Многие из упоминавшихся ранее задач являются прикладными, но некоторые из них формируются в направления. Об этом, собственно, идет речь. Не с целью достичь горизонтов, а с намерением дать представление. 7.1. Управление запасами Продажа скоропортящегося товара сопровождается постоянным стрессом. Перезаказал — выбросил, недозаказал — упустил при- прибыль. Вся жизнь, конечно, такая. Но в продуктовом магазине — особенно. Допустим, торговое время разбито на периоды, с. в. X обозна- обозначает спрос на товар внутри периода, х — объем заказа. Непродан- Непроданный товар в течение «периода» приходит в негодность. Далее, А — розничная цена, // — оптовая. Прибыль, без учета привходящих факторов (накладные расходы, транспорт и т.д.), равна П(ж, X) = { [ (А - //)ж, X > х. Пусть Р(х) = Р{Х < х} — непрерывная функция распределения св. X, тогда Приравнивая эту производную нулю, получаем, что максимум условного матожидания прибыли достигается при заказе ж, обес- обеспечивающем равенство
7.2. Страховое дело 121 Для определения оптимального заказа, разумеется, необходимо знать Р(х) в диапазоне, который имеет отношение к реальной ситуации, — для чего требуется наблюдать и накапливать данные. Постановка задачи, безусловно, игрушечная, но на готовый каркас легко нанизывать дополнительные детали. Кроме того, игру- игрушечная модель выводит мысль из состояния замешательства и дает импульс в продуктивном направлении. 7.2. Страховое дело Клиент страхует собственность на сумму X. Страховой взнос ^Х, вероятность потери собственности р. Матожидание суммы потерь равно рХ, — поэтому страхо- страховая компания будет «в плюсе» лишь при условии ^Х > рХ, т.е. 7 > р Использование среднего в данном случае логично, по- поскольку компания имеет дело с массой клиентов, — и картина в целом определяется действием закона больших чисел. В против- противном случае опора на матожидание была бы сомнительной. Для индивидуального клиента картина совершенно иная. Мас- Массовость ситуации его не касается. Небеса подбрасывают «его моне- монету» один раз — и усреднять нечего. Это одно из противоречий бытия. Судьба армии мало что говорит об ин- индивидуальном пути солдата. Матожидание не гарантирует отдельных результатов, и выигрыш в среднем иногда равносилен проигрышу наверняка, о чем уже не раз заходила речь (см. раздел 4.1). Поэтому в такого рода ситуациях оптимизация матожидания далека от реальных потребностей. Адекватные постановки задачи возможны лишь на базе содержательного понимания проблемы. Итогом может быть, например, максимизация вероятностей тех или иных событий, которые определяются факторами, лежащими за пределами исходного описания. Выход из тупика «если страхование выгодно для компании, то оно невыгодно для клиента» нередко преподносится как некое таинство, опирающееся на громоздкие формулы. На самом деле возможная целесообразность страхования для клиента, как правило, опирается на очень простое соображение: субъективная ценность страхуемой собственности может быть гораздо выше ее рыночной стоимости X. Возьмем крайний случай. Пусть речь идет о страховании авто- автомобиля, субъективная ценность которого с точки зрения владельца
122 Глава 7. Прикладные области может быть бесконечной в следующем смысле. Потеря автомаши- автомашины (из-за отсутствия денег на покупку новой) может быть связана с потерей работы, расположения любимой девушки и т. п. Таким образом, «в случае чего» клиент теряет жизненно важные точки опоры. Поэтому для него целесообразна любая посильная плата ^Х за страховку. В этом, собственно, и заключена суть — в расхождении стои- стоимости и рыночной цены. Бывает, например, недвижимость ничего не дает кроме головной боли. И продать жалко, и толку — чуть. Стоимость меньше цены — страховка неразумна \ Довольно много моделей опираются на страхование части ры- рыночной стоимости X и подсчете средних потерь (для клиента!) за несколько периодов. Там возникает много формул — и на гума- гуманитариев это действует гипнотизирующе. 7.3. Закон арксинуса Случайное блуждание или игра в «орлянку», связанные с изучением сумм 8п = Х\ +... + Хп, где Х& Е {—1,1} («выиграл — проиграл» либо «вверх — вниз»), — имеет существенное каноническое значение, важное для понимания различных содержательных задач. Значения I = к удобно считать дискретными моментами вре- времени, а поведение 8п представлять как график в плоскости (I, 8), на котором точки (к, 8%) соединены прямолинейными отрез- отрезками. 7.3.1 Теорема. Пусть рBп, 2к) обозначает вероятность того, что в интервале времени (О, 2п) сумма 8^ принимает неотрицательное значение (выигрыш ^ 0) при 2к значениях $. Тогда G.1) 1) Криминальные варианты «застраховать и поджечь» здесь не обсуждаются.
7.3. Закон арксинуса 123 Несложное, но несколько перегруженное деталями доказательство см. у Фел- Феллера [26]. В основе доказательства лежит механизм, который в наиболее прозрач- прозрачном виде действует в классической задаче о баллотировке: На выборах кандидат А собрал а голосов, кандидат В — Ь голосов (о > Ь). а-Ь Вероятность, что в течение всего времени А был впереди Б, равна . о + о Эту задачу обычно сопровождают различные трактовки, выводящие на до- довольно широкий спектр приложений. Чтобы рассмотреть суть за фасадом формулы G.1), надо перейти к асимптотике, что одновременно полезно с вычислительной точки зрения. Кроме того, интерес представляет доля времени, когда выигрыш неотрицателен, т. е. вероятность К к=\ где 2кп равно числу значений ] е @, 2п), при которых сумма 5; неотрицательна. После некоторой технической эквилибристики получается, что при п —> оо Р{кп < хп} -> — агсзш у/х. 7Г Это и есть закон арксинуса. Вот несколько «цитат» из Феллера [26], компенсирующих сухость формулы. При 20 бросаниях симметричной монеты в «орлянке» один из игроков с вероятностью 0,35 никогда не будет впереди, и с вероятностью 0,54 — будет впереди не более одного раза. Интуиция подсказывает, что доля времени кп/п, когда суммы 5; неотрица- неотрицательны, должна быть близка к 1/2. Но это как раз наименее вероятно. Наибольшую вероятность имеют крайние значения кп/п = 0 и кп/п = 1. Выглядит абсурдно, но тем не менее вероятность того, что при 10 000 бросаний монеты один из игроков находится в выигрыше более чем 9 930 раз, а другой — менее чем 70, больше Если говорить простым языком, то причина разобранного явле- явления заключается в том, что суммы 5^- обнуляются все реже и реже. Подсознательно думается, что число ничьих (обнулений 5;) про- пропорционально длине игры п. На самом деле их число пропорцио-
124 Глава 7. Прикладные области нально у/п. Если построить график 5 = 5^, то это будет колебание со все увеличивающейся длиной волны и растущей амплитудой. 7.4. Задача о разорении Игры, связанные с бросанием монеты, кажутся наивными, но в них играют все экономические субъекты. От крупных банков до физиче- физических лиц. Поэтому сопутствующая тематика важна не столько даже для максимизации прибыли, сколько для понимания окружающей среды и собственной роли в будничном коловращении. Суть дела чаще всего проста, но некоторые явления имеют источником не вполне очевидные математические факты. Первое впечатление о тривиальности поведения случайных «01 ^последо- ^последовательностей не совсем верно. Среднее, конечно, — нуль, дис- дисперсия — одна четвертая. Но даже «нормальная» асимптотика, позволяющая легко оценивать доверительные интервалы и другие нюансы, оставляет кое-что вне поля зрения. Вопрос заключается в том, как ведут себя индивидуальные траектории 8п = Х{ + ... + Хп, Х*е{0,1}. Дипломатичный ответ «когда как» не отражает всю правду. В пове- поведении случайных сумм 8п есть общие закономерности. Некоторые естественные ожидания рушатся под давлением закона арксинуса, показывающего, что при игре в «орлянку» нет, например, никакой тенденции к выравниванию периодов лидерства. Кроме того, закон больших чисел и предельные теоремы остав- оставляют без внимания многие естественные вопросы, игровой аспект которых может быть первоочередным. Вероятность разорения. Допустим, при игре в «орлянку» ставка каж- каждой партии равна 1 юаню, начальный капитал игрока N юаней. Игра прекращается в случае разорения (обнуления капитала) либо по достижению капиталом игрока величины А. Какова вероятность разорения ^ Пусть событие К обозначает разорение игрока, У+ — выигрыш в первой партии, VI — проигрыш. Тогда
7.4. Задача о разорении 125 и в силу = ?{У.} = ±, ?{К\У+} = р(ЛГ + 1), Р{К\У.} = р(ЛГ - 1), получается т.е. Решая последнее рекуррентное уравнение при очевидных краевых условиях р@) = 1, р(А) = 0, приходим к Разумеется, вероятность достижения капиталом игрока суммы А равна Упражнения • При игре в ту же игру, но с вероятностью выигрыша в каждой партии, равной V < 1/2, возникает рекуррентное уравнение р(#) = 1/р№ + 1) + A - у)р(К - 1), решением которого служит где ^ = A -»)/». • Анализ показывает, что вероятность разорения зависит также от величины ставки в отдельной партии. Извлекая на свет эту зависимость, можно полу- получить ответы на некоторые неочевидные вопросы. Выгоднее ставить по юаню или по доллару? Сразу все или «по чуть-чуть»? Например, при игре в рулетку р = 18/38 « 0,47 — и единичная ставка в каждой отдельной партии — в соответствии с G.2) — удваивает капитал N = 20 с вероятностью 1 — B0/18J0 Вероятность же удвоения капитала при одноразовой ставке N = 20 в четыре раза больше, р = 0,47. • Из предыдущего примера напрашивается вроде бы философский вывод: «чем меньше партий играешь в проигрышную игру2*, тем лучше». Удивительно, но даже это не всегда так. 2' В данном случае игра проигрышна, поскольку р = 0,47 < 0,5.
126 Глава 7. Прикладные области Допустим, игрок выигрывает (проигрывает) серию из 2п > О партий в ру- рулетку, если его суммарный выигрыш больше (^) нуля. При наличии права выбора числа 2п (заранее) — вероятность выигрыша серии максимизирует 2п = 24, а не 2п = 2, как подсказывает внутренний голос3*. • Если двое, А и В, с начальными капиталами о и 6, играют в «орлянку», то средняя продолжительность игры4* до разорения одного из игроков — равна аЬ. (?) Таким образом, если капитал первого — доллар, а второго — миллион, то ожидаемая продолжительность игры — миллион партий (хотя Л, казалось бы, может очень быстро проиграть). Но здесь уместно вспомнить р о ситуациях, когда Хп -> 0, но Е {Хп} -> оо. 7.5. Игра на бирже и смешанные стратегии Скрытность вероятностных процессов вкупе с человеческой стра- страстью к загадочности покрывают биржевые игры мистическим тума- туманом. Свой вклад вносит также тенденция профессионалов морочить головы заказчикам. Рекомендациям покупать убыточные акции да- даются такие заумные толкования, что клиенты платят за консульта- консультации, как загипнотизированные. Суть дела, между тем, достаточно проста, но не настолько три- тривиальна, как в обыкновенных задачах оптимизации. Игрок на бирже действительно сталкивается с ситуациями, к которым человеческая психика не была подготовлена охотой на мамонтов. В формализованном виде задача может выглядеть так. Игрок имеет п различных стратегий (покупки разных акций, например) в условиях неопределенности состояния экономической среды, ха- характеризуемого т вариантами. Каждой комбинации возможностей отвечает свой выигрыш ац, где первый индекс указывает номер стратегии игрока, второй — состояния среды. Таким образом, игрок в матрице выигрышей оп ... аХт А= : : „а„1 ... опт- выбирает строку, а «природа» (или злой рок) — столбец. 3' См. ОиЫпз Ь., 5ауа§е Ь. Но^ 1о §атЫе 1Гуои тш1. №>у Уогк: МсОга>у-НШ, 1965. ' В случае единичной ставки при каждом отдельном бросании.
7.5. Игра на бирже и смешанные стратегии 127 Типичная игровая ситуация, когда нет возможности собствен- собственными действиями определить исход. Результат зависит еще от дей- действий противной стороны — другого игрока или случая. Вариантов понимания целесообразного принятия решения — есть много. Остановимся на главном и наиболее принципиальном. Пусть, например, А = Выбор первой строки (стратегии) гарантирует выигрыш не меньше 2. Удивительно, но если игра повторяется, то можно обеспечить средний выигрыш не меньше 5. Для этого надо применять, как говорят, смешанную стратегию: каждый раз выбирать не определенную, а г-ю строку с вероятностью р,-. Оптимальный в данном случае набор вероятностей: К идее вероятностных стратегий многие уже привыкли, но в прин- принципе — это революционный шаг, прорыв в понимании окружающей действительности, обнаруживающий новые возможности. В общем виде ситуация выглядит следующим образом. Имеется два игрока. Первый — выбирает строки матрицы А с вероятностями {р\,... ,рп}, второй игрок — выбирает столбцы с вероятностями {<7ь • • •, 9ш}- Матожидание первого тогда равно и он его, так или иначе, пытается максимизировать. Если игра антагонистическая (выигрыш одного есть проигрыш другого), появляется естественная логика решения. Первый так вы- выбирает {р\,... ,рп}, чтобы добиться максимума № при наихудшем для себя &{,..., ^т}, второй — наоборот. В результате решением игры оказываются наборы вероятностей обеспечивающие равенство тах тт V аиРг^ = тт тах У^ йцр^. G.3) Р Я. ^' Я. V ^* г2 г;
128 Глава 7. Прикладные области Решением G.3) является седловая точка IV(р, д), которая всегда существу- существует, что является теоремой, но это уже другая территория, и здесь нет резона останавливаться на доказательстве. Если второй игрок — отклоняется от стратегии д*, то выигрыш первого — возрастает. Следовательно, р* гарантирует средний вы- выигрыш не менее ^(р*,^*). Если второй игрок, однако, «изощрен, но не злонамерен», — как считал Эйнштейн, — то «логика седловой точки» становится менее убедительной, ибо можно добиться боль- большего, располагая прогнозом действий противной стороны. Но это уже бесконечный путь оговорок и уточнений. На фоне сказанного учет специфики именно биржевой игры достаточно очевиден, включая замену вероятностей пропорциями покупки различных акций. Реальность, конечно, намного сложнее рассмотренной модели. Но эта модель улавливает сам качественный механизм влияния неопределенности на целесообразность покупки или продажи акций. Разговоры о разумности приобретения убы- убыточных акций — это всегда не вся правда. Покупка может быть целесообразной лишь в том случае, когда, пусть с малой вероятно- вероятностью, но есть надежда на доход. Конкретно — надо взвешивать. Еще один принципиальный момент — ориентация на средний выигрыш. Здесь опять надо учитывать возможность Е {Хп} -» оо, но Хп А О, что уже не раз обсуждалось. 7.6. Процессы восстановления Процессом восстановления называют параметрически заданную слу- случайную величину к где 8% = \^ X], а случайные величины Х^ независимы и положи- тельны. Терминология проистекает из малопривлекательной, но удобной модели: Х\ — время исправной работы системы (прибора). После выхода системы из строя
7.7. Стохастическое агрегирование 129 она так или иначе восстанавливается (заменяется), время бесперебойной работы восстановленной системы — Х2, и так далее. В таком сценарии 5* — время к -го восстановления, а г}A) — число восста- восстановлений до момента времени I. Иногда под процессом восстановления подразумевают саму последовательность 5*, и тогда ясно, что можно говорить о свое- своеобразном случайном блуждании «с переменным шагом все время вправо». Снятие ограничений соблазнительно, но оно ликвидирует всякую специфику, и задача растворяется в общем изучении сумм независимых с. в. Тематика «восстановления» упоминается здесь с единственной целью. Это емкая и достаточно развитая область ТВ. Поэтому в слу- случае возникновения определенного типа потребностей — полезно знать, что такая область есть, и знать ключевые слова, по которым можно найти зацепки. Само же «общевероятностное» образование вполне может обойтись без решения рутинных задач «восстановле- «восстановления», чтобы освободить голову для простых вещей. В общем курсе ТВ возможны, конечно, и другие акценты, если — не через край. 7.7. Стохастическое агрегирование Упрощение задачи при увеличении размерности связано обыч- обычно с возможностью перехода на укрупненное описание системы. Классический образец такого перехода дает статистическая физи- физика, но гипнотизирующая роль этого примера настолько велика, что за пределами термодинамики возможности агрегирования в значи- значительной мере остаются скрытыми. Допустим, имеется сложная сеть транспортных перевозок, или вычислительная сеть с многочисленными буферными устройства- устройствами, или система почтовой связи с большим количеством маршрутов и сортировочных узлов, или телефонная связь. Во всех этих случаях детальное описание функционирования объектов практически не- невозможно, но оно, безусловно, влияет на укрупненные показатели. Сколько требуется, например, автомобилей для удовлетворительной перевозки грузов по сети? Для точного ответа нужен подробный анализ: распределение автомобилей по маршрутам, расписание,
130 Глава 7. Прикладные области пропускная способность узлов и т. п. Но часто оказывается, что ответить можно приближенно, причем этот ответ довольно точен и практически не зависит от детальной информации. Для обоснова- обоснования такой независимости в каждом отдельном случае, разумеется, необходимо самостоятельное исследование. Можно ли, например, сказать «не глядя», чему равен максимальный поток в графе, если известна лишь суммарная пропускная способность дуг? Точнее, пусть граф Г„ сп вершинами генерируется следующим образом. Дуга, соединяющая вершины г и $, появляется в Гп с вероятностью р е [е, 1] (е > 0), а ее вес о,; — реализация случайной величины, распределенной равномерно на [0,2]. Легко видеть, что среднее значение максимального потока 5(ГП) будет асимптотически стремиться к пр, но само по себе это мало что дает. Аккуратные вычисления показывают, что 8(Гп)/пр А 1 (п -> оо) и это уже говорит о возможности в данном случае асимптотического агрегирова- агрегирования, т. е. о возможности игнорирования детальной информации. Задачи подобного рода на регулярной основе почти не изу- изучались, и здесь имеется обширное поле для исследований. Идео- Идеологическую опору асимптотического агрегирования по-прежнему составляют результаты типа нелинейного закона больших чисел, но это — подоплека. На поверхности лежат совсем другие вопросы. Например, Ъ = - Х^ ^{^ь Уъ}> GА) причем известны только агрегаты X = \^ хк и У = У^ У к > по ко- к к торым необходимо вычислять Ь(Х, У). Понятно, что до обоснования агрегирования — необходимо ре- решить вопрос о подходящем выборе функции Ь(Х, У), если таковая существует \ 5) Поиск вида Ь(Х, У) в зависимости от тех или иных предположений о распределении *, Ук можно использовать в качестве упражнения.
7.7. Стохастическое агрегирование 131 Задача вида G.4) может возникать в ситуациях следующего типа. В городе имеется п почтовых отделений, хк обозначает поток за день клиентов в Л-е отделение, ук — пропускная способность А;-го отделения. Тогда суммарный проходящий через отделения поток равен пЬ. Специфика почтовой связи, разумеется, ни при чем. Пусть хк — спрос на рынке А;-го покупателя, ук — предложение А;-го продавца. Каждый покупатель случайно выбирает продавца, и тогда суммарный объем продаж оказывается равен пЬ. Конечно, механизм взаимодействия влияет на конечный результат, но в определенных предположениях существенны лишь среднестатистические характеристики этого механизма. В некоторых прикладных задачах нелинейные функции боль- большого числа переменных настолько завуалированы, что непосред- непосредственное применение результатов главы 3 выглядит проблематич- проблематичным, и более естественными оказываются специфические пути. При изучении, например, динамических систем большой раз- размерности довольно естественной представляется попытка судить об устойчивости на основе неких усредненных показателей, ха- характеризующих систему. С увеличением размерности подобные «макрокритерии» становятся все более надежными. Если си- система «устойчива в среднем» и размерность достаточно вели- велика, то вероятность устойчивости системы сколь угодно близка к единице. Уточнять сказанное можно различным образом. Пусть речь идет об асимптотической устойчивости равновесия дискретного процесса хк+{ = Ахк + Ь или непрерывного Aх —- = Ах - х + Ь, аъ где А — [аг^] — матрица размера п х п\ векторы х,Ъ Е Кп. Тогда при достаточно больших п и справедливости условия Х>,|< (е>0) G.5) с большой вероятностью можно рассчитывать на положительный ответ в обоих случаях. Точнее говоря, если элементы а^ равномерно
132 Глава 7. Прикладные области распределены на множестве G.5), то вероятность того, что матрица А — I гурвицева, — стремится к 1 при п -» оо \ Феномен стабилизации функций при больших размерностях довольно суще- существенно влияет на понимание и трактовку задач оптимизации. Упрощенно говоря, суть дела заключается в следующем. Функция у?(жь ..., ж#) «почти постоянна» — и окрестность максимума, в которой <р(х) ощутимо превышает среднее значение, весьма мала. Поэтому ошибки исходных данных могут сводить на нет усилия, направленные на точное решение задачи. Задание, например, сотни параметров с округлением до второго знака, может в принципе менять значение целевой функции в несколько раз. Кроме того, из-за неточностей моделирования сами постановки оптимизационных задач при больших размерностях становятся непо- непохожи на реальность. Возникает парадокс: чем больше учтено факторов, тем хуже становится модель. Тем не менее это обычно так. Использование небольшого числа переменных для описания системы свидетельствует, как правило, о том, что в задаче поймано и выделено главное, а большое число переменных — об обратном, о попытке вычислять температуру по движению отдельных молекул. Поэтому постановки задач большой размерности нередко имеют условную ценность, и оптимизация там по сути осуществляется не с целью поиска наи- наилучшего решения, а с тем, чтобы не попасть в чересчур невыгодный режим. В этом смысле теоремы о стабилизации дают необходимую гарантию, попасть в минимум — так же трудно, как и в максимум, и почти все выбранные наугад решения примерно одинаковы по качеству. Это, конечно, декларация — для обострения разговора. Более логичны могут быть другие схемы. Скажем, выделение в ..,Х!г) -ипах двух-трех агрегатов с последующей заменой исходной максимизации — близкой задачей: грA7,У) -»> тах. Либо замена детальных ограничений усредненными. Либо даже качественное переосмысливание исходной постановки. Феномен стабилизации может играть определенную роль и в дискретной оптимизации. Там уже сложилась традиция для не- некоторых типов задач доказывать, что те или иные эвристические алгоритмы дают решение «не хуже среднего». Было бы полезно при этом еще доказывать, что почти все допустимые решения находятся в районе среднего. Это бы позволило в «непробиваемых» ситуациях ориентировать эвристику просто на поиск допустимого решения. Вот маленькая иллюстрация К ^ Опойцев В. И. Устойчивые системы большой размерности // А и Т. 1986. № 6. С. 43-49. ' Перепелица В. А. Асимптотический подход к решении на графах // Проблемы кибернетики. 1973. 26. С. 291-314. 7' Перепелица В. А. Асимптотический подход к решению некоторых экстремальных задач
7.8. Агрегирование и СМО 133 Дуга у п-вершинного графа Гп появляется с вероятностью 1пп ее длина г|; — реализация случайной величины, равномерно распределенной на [О, 2г]. Тогда при достаточно больших п почти все графы Гп имеют хотя бы один гамильтонов контур и длина почти всех гамилътоновых контуров стабилизируется около пг. В оптимизации может представлять интерес и другой «асимп- «асимптотический ракурс». Дело в том, что эвристические алгоритмы, оцениваемые в категориях правдоподобия и здравого смысла, мо- могут при увеличении размерности давать асимптотически точные решения. Вот тривиальный пример, дающий представление, о чем речь. Пусть в классической задаче о ранце имеется п предметов, у^ — стоимость г-го предмета, г^ — его вес. Надо выбрать группу пред- предметов с максимальной суммарной стоимостью при ограниченном суммарном весе, т. е. решить задачу {Xг -» шах, где Х{ может принимать значение 1 или 0 («брать» или «не брать»). Эффективные способы точного решения задачи отсутству- отсутствуют. Естественный, но не оптимальный, алгоритм решения со- состоит в том, чтобы упорядочить предметы по удельной стоимости а = У(/щ, а потом поочередно складывать их в трюм корабля, пока соблюдается ограничение по весу. Легко видеть, что такой алгоритм будет при п —> сю асимптотически оптимален, если все г^/РГ -» 0. 7.8. Агрегирование и СМО Системы массового обслуживания (СМО) заслуживают отдельно- отдельного упоминания, ибо представляют собой обширную область, где идеология асимптотического агрегирования, по существу, занимает центральное место. В целом теория СМО развивается по аналогии со статистической физикой. В фокусе внимания находятся мак- макропараметры типа средней длины очереди или среднего времени
134 Глава 7. Прикладные области обслуживания, — зависящие от архитектуры системы и микроско- микроскопической организации ее работы, касающейся, в основном, выбора дисциплины обслуживания заявок. Ориентация на статистические методы здесь естественна и эф- эффективна. Несколько странно лишь отсутствие «термодинамиче- «термодинамического противовеса», который в физических приложениях играет полезную роль, смещая фокус внимания в иную плоскость. По- Поэтому было бы разумно ожидать развития «термодинамики СМО», что изменило бы акценты и расширило охват задач. Большой про- процент приложений из предыдущего раздела, например, вполне бы мог быть отнесен к СМО, — разумеется, при направлении мысли в другое русло. Тормозом на этом пути, безусловно, является большое разнооб- разнообразие описаний СМО на микроуровне. В Физике — легче. Уравне- Уравнения Гамильтона или Шрёдингера — в некотором роде исчерпывают варианты микроповедения изучаемых систем. А в массовом обслу- обслуживании каждый новый диссертант придумывает свою дисциплину обслуживания, не считая мелких «винтиков», — и все приходится начинать сначала. Понятно, что в такой ситуации до «термодина- «термодинамики» руки не доходят. В данном контексте представляют интерес «термодинамические закономер- закономерности», нечувствительные к микроописанию СМО. Например, формула Лигпгпла: N = ЛГ, G.6) где Л — интенсивность потока заявок, N — среднее число заявок в системе (или в очереди), а Г — среднее время пребывания заявки в системе (или в оче- очереди), — при установившемся стационарном режиме. Факт G.6), вообще говоря, тривиален, но интересно, что он нередко пре- преподносится как крупное достижение, потому что формула оказывается верной независимо от характеристик потока и обслуживания заявок. Причина «неожи- «неожиданности», разумеется, в привычке. Чувствительность макропараметров СМО к деталям микроописания настолько характерна, что ее отсутствие, конечно, воспринимается как открытие. 7.9. Принцип максимума энтропии Переход на укрупненное описание системы почти всегда может опираться на принцип максимума неопределенности, который хорошо
7.9. Принцип максимума энтропии 135 известен в термодинамике, но диапазон его применимости гораздо шире. Рассмотрим простой пример. Пусть в городе имеется п районов, Ь* — число жителей г-го района, Щ — число работающих в ^'-м районе, ж|; — число живущих г-м районе и работающих в ^'-м. Очевидно, 5>«=.Ь„ Х)*у = Я^. G.7) ; » Величины Ь,, И^ известны, необходимо оценить пассажиропотоки ж|;. Для определения п неизвестных в системе G.7) имеется всего лишь 2п уравнений. Ситуация представляется неопределенной. Тем не менее соображения о «случайном» характере происхождения величин хц позволяют решить задачу практически однозначно. Для фиксированных значений жу число способов расселения жителей равно С учетом формулы Стирлинга 1п к\ ~ к 1п к, 1п 8(Х) ^N^N-^2 жу 1п жу Поэтому максимум 8(Х) достигается на той же матрице X* г * -I = 1жуЬ что и максимум «энтропии»8' Н = — У хц 1п жу. В то же время ясно, что если набору {жу} отвечает макси- максимальное число способов расселения 8(Х*), то это и есть наиболее вероятное решение задачи. А если в некоторой г-окрестности ' В таком ракурсе задача рассматривалась в книге А. Вильсона «Энтропийные методы моделирования сложных систем» (М.: Наука, 1978).
136 Глава 7. Прикладные области решения {ж*;} сосредоточены почти все возможные способы рас- расселения, то это уже будет решением — с вероятностью, близкой к 1 (и стремящейся к 1 при ЛУ —» оо). Именно такова рассматриваемая ситуация. До пояснения этого факта остановимся на самом решении задачи - ^2 хч 1п хч "* тах' 53 хч = ^" 53 хч = ^у Метод множителей Лагранжа легко приводит к х^ = е~1~Х{~^ , откуда ясно, что все Хц представимы в виде произведения ж,; = щу^. Подстановка в ограни- ограничения дает систему уравнений 3 решая которую, окончательно имеем N что можно интерпретировать как наличие у районов «потенциалов притяжения», —р= и -у=, произведение которых дает пассажиропоток ж,;. Пониманию свойств решения х^ мог бы способствовать какой- нибудь вероятностный сценарий. Вот один из возможных вариан- вариантов. Каждого жителя охарактеризуем распределением р^ по п2 состояниям (%,]) (жить в г-м районе, работать — в ,;-м). Если на прицеле держится задача «разбросать» ТУ жителей по этим п2 состояниям так, чтобы по матожиданию было соответствие с мак- макроограничениями G.7), то рц должны удовлетворять системе А если добавить максимум неопределенности ': у ->тах, ^ См. следующую главу.
7.10. Ветвящиеся процессы 137 то по виду — получается та же задача, и те же окончательные формулы: Но теперь х^ = /] ^, где случайные величины ^ равны 1 с ве- вероятностью ру, и 0 — с вероятностью 1 — ру. Большое число сла- слагаемых гарантирует, в силу закона больших чисел, концентрацию почти всех вариантов в районе матожидания Жу = ЛГру с убывани- убыванием флуктуации пропорционально 1/у/Й. Другими словами, в малой е-окрестности максимума 8(Х*) оказываются сосредоточены почти все возможные способы расселения, о чем и шла речь выше. 7.10. Ветвящиеся процессы Каноническая модель простейшего ветвящегося процесса Гальтона— Ватсона рассматривает частицу, производящую себе подобные в ко- количестве к штук с вероятностью р*. Предмет изучения — динами- динамика ХП9 где св. Хп — количество частиц в п-й момент времени. Процессы такого рода довольно широко распространены в различных обла- областях. Динамика численности нейтронов при делении урана, распространенность того или иного гена (наследственного признака), возникновение эпидемий и т. п. Первоначальным источником интереса к модели была проблема вырождения фамилий — обнуления траектории {Хп}, начиная с некоторого щ, если подра- подразумевается, что каждый мужчина фамильного рода с вероятностью рк имеет к сыновей . Пусть С{%) обозначает производящую функцию распределения G.8) В случае Хп = к св. Хп+[ — есть сумма к независимых св. с распределением {ро>Рь • • •}> — поэтому 10^ Как всегда, речь идет об определенной идеализации, предполагающей в данном случае «синхронизацию поколений» и другие нюансы.
138 Глава 7. Прикладные области что после усреднения по Хп приводит к итерационной процедуре Пп+1(г) = Пп[G(г)], G.9) описывающей динамику Хп в терминах производящих функций. Решением G.9) в случае Хо = 1 служит Пп(г) = 0{п)(г), где 0{п)(г) обозна- обозначает п-ю итерацию О(г). Дифференцируя G.9) и полагая г = 1, имеем, в силу B.15), *=0 Так что сходимость процесса по матожиданиям определяет значение V. При V ^ 1 процесс сходится, в случае V > 1 — расходится. Из того же рекуррентного соот- соотношения G.9) легко извлекаются более тонкие результаты о поведении случайной последовательности Хп — см. [28]. Вероятность вырождения. Интуитивно достаточно очевидно, что Хп может сходиться либо к нулю, либо к бесконечности, и не может оставаться ненулевой ограниченной с ненулевой вероятностью, — разумеется, это теорема. Причем даже при больших V вероятность обнуления Хп строго положительна. Последовательность 9п = Р{Хк = 0;к>п} = Пп@), очевидно, монотонно растет, и потому имеет предел, ?п ~^ 9 ПРИ п -> оо. Величина ^ естественно интерпретируется как вероятность вырождения Хп. В случае исходного положения Хо = 1 = С[С{п)(О)] = откуда ясно, что ^ является корнем уравнения G.10) г = С{х). Из записи G.8) легко видеть, что функция С(г) выпукла, и уравнение G.10) имеет два корня: один в любом случае равен 1, другой 9^1. Если V > 1, то # < 1. Если V ^ 1, то # = 1, т. е. процесс вырождается почти наверное. Пробелы рассуждения легко восполняются.
7.11. Стохастическая аппроксимация 139 7.11. Стохастическая аппроксимация На практике широко распространены оптимизационные задачи вида Е {<2(с, х)} -> гшп, G.11) с где усреднение идет по х, а минимизация — по с. Такого сорта проблемы возникают в ситуациях, когда по случайному сиг- сигналу х надо делать те или иные выводы у = (}(с, ж), настраивая модель (?(с, х) (вектором с) оптимально в среднем. Это может быть задача идентификации: и, V — случайные вход и выход объекта, требуется построить модель у = Р(с, и), оптимальную по критерию минимума среднеквадратической ошибки )]2} -ишп. Ту же абстрактную форму имеет задача распознавания (классификации). Допу- Допустим, модель у = Р(с, х) предсказывает, к какому классу принадлежит объект х. Скажем, «у = 1», если к первому, и «у = -1», если ко второму. Естественный критерий в данном случае — минимум ошибки распознавания, I )В[Г(с, х)]} с1х -> гшп, где Р\,Р2 — плотности распределения объектов первого и второго класса, а 0 — функция Хэвисайда, равная 1 при положительном аргументе и 0 — при отрица- отрицательном. К подобному классу относятся также задачи фильтрации, прогноза, мини- минимизации рисков, потерь и т. п. При известных плотностях распределения после интегриро- интегрирования от вероятностной природы рассматриваемых задач ничего не остается. Однако плотности часто неизвестны, а если извест- известны, то либо интегрирование непосильно, либо после усреднения возникают такие «монстры», что приходится искать другой выход, который обычно находят в процедурах адаптации — подстройки параметров в процессе наблюдения за объектом. Итерационные детерминированные процедуры = <р(гк) или 2к+{ = гк + щ<р(гк) G.12) сходятся, если существует «функция Ляпунова» У(%), убывающая на траекториях G.12).
140 Глава 7. Прикладные области Нечто подобное имеет место и для стохастических процессов вида =ск+ %<р(ск, хк). G.13) Сходимость G.13) — по вероятности или почти наверное — обеспечивается при су- Ех{<Р(с,Х)} = к решению уравнения шествовании аналога «функции Ляпунова» У(с), которая убывает на траекториях G.13), но убывания теперь достаточно всего лишь в среднем: { к))} < У(ск). При этом коэффициенты ^к > 0, регулирующие величину шагов, полагаются удовлетворяющими условиям 00 00 ^2 7* = 00, ]Г7* < оо. G.14) А' к Первое из условий G.14) не дает процедуре G.13) остановиться раньше времени, а второе — предотвращает уход в бесконечность на маловероятных траекториях К Процедуры стохастической аппроксимации типа G.13) принято называть процедурами Роббинса—Монро12'. В случае (р(с, х) = У<2(с, х) процедура G.13) решает задачу G.11), а Еж{ф(с, х)} служит «функ- «функцией Ляпунова». "' Подобные меры необходимы и в детерминированном случае G.12). и' КоЬЫпз Я., Мопго 5. А 51осЬа511с арргохипа1юп те11кх1 // Апп. Ма1Ь. 51а1. 1951. 22. Р. 400-407.
Глава 8 Теория информации При изложении теории информации естественная попытка ограничиться одной канонической моделью многое оставляет за бортом. Возникает дилемма: либо не смотреть по сторонам, либо мириться с переплетением обстоятельств, согла- соглашаясь на определенную неуклюжесть. 8.1. Энтропия Энтропия, как мера неопределенности, вещь довольно простая. Но как ахиллесова пята абстрактного мышления, она мистифици- мистифицирует род людской не хуже Гарри Гудини, благодаря чему служит хорошей отдушиной для философских страстей. В то же время надо признать, что налет загадочности у эн- энтропии имеет основания. Термодинамическая сущность, не данная в ощущениях ', — как говорится, не фунт изюму. Что касает- касается сугубо информационного аспекта энтропии, то здесь, помимо неосведомленности о дробях и логарифмах, большую роль играет впечатление, что «Я = -^^р^1пр^» обеспечивает вход в вир- виртуальный мир, подтверждая его реальность. Однако — обо всем по порядку. Неопределенность (энтропия) Н при бросании т-гранной кости характери- характеризуется наличием т возможностей. Интуитивно хотелось бы, чтобы при бросании двух костей2) неопределенность была вдвое больше, т. е. Н(т2) = 2Н(т) либо Н(тп) = Н(т) + #(п), если кости имеют разное число граней. В отличие от температуры и давления. ^ При котором число возможностей равно т2.
142 Глава 8. Теория информации Ясно, что такие предположения ведут к Н(т) = К\пт, что можно интерпретировать как Н(р,..., р) = К 1п га при га равновероятных исходах, р = 1/га. Следующий вопрос, как определить Я(рь...,рп) в случае не равноверо- равновероятных исходов. Будем отталкиваться пока от следующей модели. Имеется не- несколько га,-гранных костей. Число всевозможных граней равно ^^ Ш|, поэтому Н = К\п С^2тп- С другой стороны, выбор может быть осуществлен в два приема. Сначала выбирается кость — ясно, что вероятности выбора числа граней при этом равны р, = га, I 2^,т]> ~ затем грань. Неопределенность первого шага — Я(р1,... ,рп), второго — средневзвешенная энтропия3) К^2 Если потребовать аддитивность, т. е. К 1п и ... ,рп) + К ТО Рг 1п га* что при непрерывной зависимости Н от аргументов будет справедливо и для иррациональных р,. От выбора константы К зависит лишь единица измерения энтропии. В случае (8.1) Здесь и далее действует соглашение 0 • 1о§ 0 = 0 . Двойка в основании ло- гарифмов обычно опускается, а единица измерения называется битом. Таким образом, бит соответствует неопределенности выбора из двух равновероятных возможностей (то ли нуль, то ли единица). (!) Комментарий. Вернемся к использованию средневзвешенной энтропии з) Потому что выбор на втором шаге зависит от реализации — первого. См. далее «Комментарий».
8.1. Энтропия 143 в описанной выше модели. Если выбор кости на первом шаге уже состоялся, — выбра- выбрана, скажем, 1-я кость, и речь идет об одноразовом опыте, — то неопределенность второго шага равна КХпт-1, и задача вырождается. О неопределенности обоих шагов естественно говорить в двух случаях: • либо задача решается до проведения опыта с оценкой того, что получится в среднем 4); • либо опыт двукратного выбора повторяется много раз, и тогда матожидания типа К \^ р^ 1п га, возникают из-за частотной устойчивости эксперимента. Образно характеризуя ситуацию, можно сказать так. Гроссмей- Гроссмейстер лучше новичка в шахматах понимает, что такое конь. Оба оди- одинаково знают «как ходит», но у первого это вызывает ассоциации, у второго — ощущение дискомфорта. С энтропией такая же история. Приведенный вывод (8.1) в рафинированном виде воспроизво- воспроизводит рассуждения Шеннона [30], наиболее просто выражающие суть дела. Но при первом знакомстве все же чувствуется определенная натяжка, избавиться от которой можно лишь расширив базу исход- исходных примеров и ситуаций. Это — если говорить об индуктивном подходе. В другом варианте (8.1) принимается за определение эн- энтропии, постулируются некие дополнительные свойства, — но далее все равно надо смотреть на примерах, как это работает. Само по себе определение (8.1) мало что дает, поскольку при столкновении с действительностью возникает масса вопросов, не попавших в кадр. Положение облегчает следующая формаль- формальная схема, которая, если вдуматься, ничего принципиально нового не добавляет к бросанию костей, но все-таки увеличивает угол обзора. Пусть {х{,...9хп} и {з/ь ..., уп} — возможные состояния случайных величин X и У. Состояния вектора {X, У} представляют собой комбинации пар х% и у^. Энтропия {X, У} по определению равна где ру = р(хг, у,) = Р{Х = ж,-, У = 2/,}. ' Собственно, другого варианта даже нет, поскольку исходы выбора могут ветвиться.
144 Глава 8. Теория информации В описанной ситуации часто говорят, что имеется две системы X и У с возможными состояниями {х\,... ,хп} и {у1,...,уп}« По существу ничего не меняется, но терминология иногда подталкивает мысль в новых направлениях. Если системы X и Г независимы, то р^ = ргр^ и Н(Х9У) = Н(Х)+Н(У)9 (8.2) что элементарно проверяется. Если же системы зависимы, то р(х^ у^) = р(хг)р(у^\хг) 5\ и Н(Х9У) = Н(Х) + Н(У\Х)9 (8.3) где называют полной условной энтропией, а Н(У\Хг) = - условной энтропией У при условии X — Х\\. В обоих случаях, (8.2) и (8.3), говорят об аддитивности эн- энтропии. При независимости подсистем Н(У\Х) = Н(У) и (8.3) переходит в (8.2). Некоторая чехарда при использовании (полной/неполной) условной энтро- энтропии связана с теми же обстоятельствами, которые обсуждались в «Комментарии» выше. 8.2. Простейшие свойства • Энтропия всегда неотрицательна и достигает максимума в слу- случае равновероятных возможностей. Заметим, что решение любой задачи вида ^ р(Р*)-* тах, ^2рк = \ к к определяется решением системы уравнений <р'(Рк) = А, к= 1,...,п, ) Имеется в виду р(ж,) = Р(Х = ж,-), р(у^\Х{) = Р(К = У]\Х = х,).
8.3. Информационная точка зрения 145 откуда ясно, что максимум достигается при равновероятных возможностях в очень свободных предположениях — не только в случае <р(р) = р\о%р. 8.2.1 Лемма. Пусть /]рк = /I Як — 1> т- е- Рк и Як ~ два рас- пределения, причем все Як > 0- ТЬгйа ^ (8.4) -4 Введем в рассмотрение случайную величину X, принимающую значения с вероятностями рк. Очевидно, ЕХ = ^^Рк— = 1- Применяя к с. ф. \пХ неравенство Иенсена A.19), получаем (8.4). > Условная энтропия всегда меньше или равна безусловной ЩГ\Х) < Н(Г), причем при добавлении условий энтропия не увеличивается. < Лемма 8.2.1 гарантирует Матожидание этого неравенства по X дает что означает Н(У\Х) ^ Н(У) (знак минус перед суммами переворачивает нера- неравенство). Аналогично устанавливается справедливость оговорки об убывании энтропии при добавлении условий. > 8.3. Информационная точка зрения Пусть Н(А) — энтропия исхода некоторого опыта А. Если опыт В содержит какие-то сведения относительно А, то после прове- проведения В неопределенность А уменьшается до условной энтропии ' Понятно, что в (8.4) 1п можно заменить логарифмами по любому другому основанию.
146 Глава 8. Теория информации Н(А\В). Разность = Н(А)-ЩА\В), по определению, есть количество информации, содержащееся в В относительно А. Равенство вытекает из симметрии предполагаемого свойства (8.3). Энтропия источника. На «микроуровне» это выглядит так. Если источник информации потенциально может передать $-й символ (алфавита) с вероятностью р,-, то величину информации при по- поступлении этого символа естественно принять за - 1о§2 Рг • Мато- жидание информации, либо ее среднее значение (на один символ) при длительной работе источника, будет равно т. е. — энтропии источника. Здесь имеет смысл продумать старую схему в новых терминах. Если источник сообщает один из п равновероятных символов, то .../ = К 1пп, и далее — по уже готовой колее. В итоге становится ясно, что информация и энтропия — это две стороны одного явления. Сколько поступает информации — настолько убывает энтропия (неопределенность). Чем больше энтропия источника , тем больше информации при получении его сигналов. Источник, способный генерировать единственный сигнал, никакой информации не производит. Источник, передающий только два сигнала «нуль/один», имеет единичную интенсивность (один бит на сигнал). Но при большой частоте способен производить много бит в единицу времени. Пропускная способность канала. Канал связи в общей схеме источник канал связи приемник ' Об энтропии источника естественно говорить до поступления информации, после — логичнее говорить о производстве информации.
8.4. Частотная интерпретация 147 так или иначе, ограничивает скорость передачи информации. В про- простейшем и широко распространенном случае, когда символов (сиг- (сигналов) всего два и их длительности одинаковы, пропускная способ- способность С измеряется числом символов, способных пройти по каналу в единицу времени. В общем случае С — это максимальная информация, которая может быть передана по каналу за одну секунду. Если, например, алфавит состоит из п букв и канал способен пропускать N букв в секунду (в точности или в среднем), то С = N 1о§2 п. Природа ограничений может быть различная. Скорость света, полоса про- пропускания частот, тактовая частота генератора8). Все это находится за рамками теории информации, но иногда понимание среды, в которой решаются задачи, играет важную роль. 8.4. Частотная интерпретация Пусть источник генерирует г-й символ с вероятностью р\, и симво- символы в сообщении длины N независимы. При достаточно большом N количество символов г-го вида в сообщении с большой точностью равно Nр^. Это дает вероятность сообщения т.е. (8.5) Иными словами, вероятности всех достаточно длинных сооб- щений равны р — 2 , а поскольку эти сообщения еще и незави- независимы, то их количество К = 1/р, т.е. К = Г (8.6) Таким образом, энтропия по правилу (8.6) определяет, напри- например, количество текстов, в которых буквы встречаются с «пра- «правильной» частотой. Если в определении энтропии вместо двоич- 8^ Упоминание в данном контексте генератора показывает, что ограничения источника могут быть «списаны» на ограничения канала связи.
148 Глава 8. Теория информации ных используются натуральные логарифмы, то (8.6) заменяется Если все р{ одинаковы, то Н — 1о§п, и (8.6) приводит к максимально возможному числу сообщений: К = пк. Разумеется, количество текстов, в которых соблюдается заданная частотность букв, определяется формулой (8.6) с точностью до очевидных «е-поправок». При чисто вероятностной (не частотной) трактовке требуются уточнения несколько иного рода. С какими бы вероятностями р{ источник ни генерировал символы — принципиально возможны все пк сообщений ф длины ТУ, но их вероятности р(B) различны. Тогда при любом е > О Шп Е т. е. сумма вероятностей всех сообщений, вероятности которых отличаются от 2~ более чем на е, — стремится к нулю {сколь угодно мала при большом Ы). Соответственно, вероятности сообщений в сумме стремятся к 1. Поэтому при больших N можно считать, что «наблю- «наблюдаемых» сообщений (последовательностей, текстов) имеется как бы ровно 2мн. Остальными можно пренебречь — их суммарная вероятность близка к нулю. Описанная схема служит первым приближением к действи- действительности, которым нередко и ограничиваются. Но более сложные методы вычисления энтропии заслуживают упоминания. Не столько по причине их практической значимости, сколько по теоретиче- теоретическим соображениям. Очевидно, например, что осмысленные тексты далеки от принятых выше предположений. Буквы в словах далеко не независимы — после гласной чаще следует согласная, а шестая буква шестибуквенного слова определяется по пяти предыдущим едва ли не однозначно. Принципы определения энтропии в такого рода ситуациях идейно прозрач- прозрачны. Допустим, имеет место «взаимодействие» соседних символов: у-й символ после г-го — может появиться с вероятностью р^. Энтропия следующего состо- состояния в результате зависит от г и равна И{ = - ^^ р^ 1о§2 р%] - Если при этом Рг обозначают вероятности г-х состояний9), то Н — ^^ Р%Щ. ' Стационарные вероятности марковского процесса.
8.5. Кодирование при отсутствии помех 149 8.5. Кодирование при отсутствии помех Допустим, источник генерирует буквы из некоторого алфавита, и его энтропия равна Н (бит на символ), а канал связи пропускает С (бит в секунду). Утверждать, что по каналу в среднем проходит С/Н символов в секунду, конечно, нельзя — потому что результат зависит от качества кодирования. Но скорость С/Н асимптотически достижима10' при оптимальном кодировании. Если появление п символов (букв) равновероятно, то в секунду, очевидно, может проходить максимальное количество информации При использовании алфавита из двух символов {0,1}, соответ- соответственно, /тах = С 1о§ 2 = С бит/'с. Коэффициент избыточности сообщения определяется как 1 тах где / — количество информации в сообщении, а /тах — макси- максимально возможное количество информации в сообщении той же длины. Если символы не равновероятны, то на один символ в среднем приходится количество информации — \^ Рг ^°&Рг < 1°8 ть, и в ре- результате / < /тах. Подобное явление характерно для обычного текста — буквы (символы) появляются с различными частотами. В то же время системы передачи информации, как правило, используют специальные символы, независимо от того, какого сорта информация передается (аудио, видео, текстовая). Общепринятый стандарт в цифровой технике «01 ^последовательности. Идея кодирования хорошо известна. Буквам, командам, операциям — сопо- сопоставляются различные последовательности вида 01... 101. Иначе говоря, все описы- описывается в двоичном коде — «01»-алфавите. В общем случае кодирование представляет собой запись исходной информации в любом другом алфавите по избранным правилам соответствия между группами символов. 10) Кодирование способно обеспечить скорость ^ С/Н — е при любом е > 0.
150 Глава 8. Теория информации Для конкретности, будем говорить о двоичном кодировании. Широко рас- распространены: восьмибитовый п) код ЕВСБ1С12* и семибитовый — А5СИ13). Для русского текста семибитовой кодировки недостаточно — значительная часть дво- двоичных комбинаций занята под латинские буквы и другие «надобности». Это было причиной появления восьмибитовой кодировки КОИ-8, а потом \Ушс1о\У5- кода 1251. Общепринято 8 бит (двоичных единиц) информации принимать за новую единицу измерения количества информации — один байт. Более крупная единица измерения — килобайт A Кбайт = 210 байт = 1024 байтаI4). Оптимальное кодирование. Одно и то же сообщение можно закоди- закодировать различным образом. Поэтому возникает вопрос о наиболее выгодном способе кодирования. Естественное соображение: часто встречающимся символам и словам исходного сообщения ставить в соответствие короткие «01»-комбинации, редко встречающимся — длинные. Если удастся так закодировать сообщение, что символы 0 и 1 будут встречаться одинаково часто, — это будет оптимальным кодом. Посмотрим, как это работает при кодировании русского алфавита. Среднеста- Среднестатистическая частота появления букв в текстах различна, — колеблется от ~ 1/500 для буквы «ф» до ~ 1/10 для буквы «о». Оптимальную «игру» на длине кодовых комбинаций реализует код Шеннона— Фано. Буквы алфавита упорядочиваются по убыванию частоты (вероятности) рг появления в тексте, после чего разбиваются на две группы. К первой — относят первые к букв — так, чтобы * -1 1= I 1=* после чего первой группе символов ставится в соответствие 0, второй — 1, и это определяет первый разряд кодового числа. Далее каждая группа снова делится на две приблизительно равновероятные подгруппы; первой подгруппе ставится в соответствие 0, второй — 1 и т. д. Группы с малым количеством букв быстро исчерпываются — и эти буквы в результате получают короткие коды. Легко убедиться, что в итоге кодовая запись достаточно длинного сообщения будет содержать приблизительно одинаковое количество нулей и единиц, т. е. при "' Буквы и команды кодируются восьмизначным двоичным числом — последовательно- последовательностью из 8 символов 0 или 1. 12^ Аббревиатура от Ех1епс!ес1 Втагу СосЫ Оес1та1 1п1егспапёе Сос1е. * Атепсап 51апс!агс15 СотгтПее Гог 1пГогта1юп 1п1егспап§е. 14* Стандартная шутка: начинающий программист думает, что в килобайте 1000 байт, опытный — что в километре 1 024 метра.
8.5. Кодирование при отсутствии помех 151 любой частотности исходных символов частоты нулей и единиц двоичных кодов оказываются « равны друг другу. Обратим внимание, что изложение в главе, да и в книге, ведется в основном «с точностью до е и других реверансов». За деталями можно обратиться к иным источникам, но гораздо важнее следо- следовать иерархическим принципам изучения предмета, когда, скажем, идея предельного перехода не только перестает требовать расшиф- расшифровки, но даже упоминания. В этом случае внимание не отвлекается на второстепенные подробности и концентрируется на главном. Информационная сторона оптимального кодирования очень проста, даже в самом общем виде. Вернемся к формуле (8.6). Равновероятные сообщения в количестве К = 2 могут быть пронумерованы в двоичной записи, для чего потребуется мини- минимальное число разрядов ' 1о&2 К = N11. Это и будет оптимальным двоичным кодом. Минимум разрядов (символов в «01>>-алфавите, электрических импульсов), необходимых для указания и передачи сообщения, означает наиболее эффективное использование канала связи (пе- (передачу максимума информации в единицу времени). В рамках вероятностной модели возможны все пм сообщений длины N (а не только К = 2МН), но при больших N можно считать (см. предыдущий раздел), что «наблюдаемых» сообщений имеется как бы ровно 2 . Остальными можно пренебречь — их суммарная вероятность близка к нулю. Поэтому маловероятные сообщения можно кодировать достаточно длинными «01»-после- довательностями. Из-за их маловероятное™ это в среднем почти не будет сказываться на скорости передачи информации. Когда речь идет о минимуме числа разрядов в оптимальном коде, под- подразумевается, конечно, что алфавит задан. В алфавите из миллиона символов можно одним символом записать любое из миллиона сооб- сообщений. Но тогда надо иметь систему связи, способную генерировать и передавать миллион разных символов. * В ш-ичной записи потребуется 1овт К = N11 разрядов.
152 Глава 8. Теория информации Упражнения • При энтропии источника Н {бит на букву) и независимой генерации букв — оптимальное кодирование в среднем приводит к Н двоичным знакам на букву. (?) Например, при бесхитростной нумерации букв русского алфавита в двоичной записи потребовалось бы 5 разрядов B5 = 32). С учетом частотности букв Н = - ^^ р^ 1о§2 Рг ~ 4,4. Поэтому в среднем достаточно 4,4 знака на букву, что обеспечивает код Шеннона—Фано. • В задачах оптимального кодирования чаще всего идет речь о перекодировании одних «01 ^последовательностей в другие. Пусть энтропия источника «01»- сообщений равна Н {бит на символ). Тогда длина п таких сообщений может быть уменьшена (за счет кодирования) до пН. (?) 8.6. Проблема нетривиальных кодов Из предыдущего раздела следует, что при оптимальном кодировании необходимо отталкиваться от кодирования длинных сообщений. Не букв и даже не слов, а достаточно больших кусков текста. Тогда есть возможность достичь теоретического предела. Но технически удобнее, разумеется, посимвольное кодирование без дополнительных хлопот. Поначалу кажется, что посимвольным кодированием можно обойтись, когда источник генерирует буквы независимо друг от друга. Это неверно. Рассмотрим, например, источник, генерирующий две буквы, А — с вероятно- вероятностью р, и Б — с вероятностью \ - р. Если р очень мало, то любое посимвольное кодирование далеко от оптимального. Асимптотически оптимален ЯЬЕ-код16), суть которого состоит в сообщении длин серий 17) повторяющейся буквы Б. Элементарные примеры типа ЯЬЕ-кода создают иллюзию, что проблема кодирования тривиальна. На самом деле высокоэффек- высокоэффективные коды являются часто результатом крупных достижений, с которыми все имеют дело, работая на компьютере, и не подо- подозревая о наукоемкости различных архиваторов B1Р, АЮ и др.). Элементом многих архивирирующих программ является знамени- 16* Аббревиатура от Кип Ьеп^п ЕпсосИпв. Метод широко используется при передаче растровых изображений. ' Мы не вникаем в технические подробности кодирования, связанные, например, с синхронизацией, необходимой для отделения кодов одних символов от других.
8.7. Канал с шумом 153 тый алгоритм Лемпеля—Зива, осуществляющий многоступенчатое кодирование. Идея вчерне выглядит примерно так. Сообщение про- просматривается с помощью скользящего словаря, если в тексте появ- появляется последовательность из двух ранее уже встречавшихся сим- символов, то ей приписывается свой код, затем текст «прочесывается» на предмет повторяющихся комбинаций из большего количества символов, и так — до исчерпания текста. Конечно, доведение идеи «до ума» сопряжено с преодолением массы слож- сложностей, но здесь не место вдаваться в подробности, поскольку это территория другой научной дисциплины. Однако декорации при взгляде через призму теории информации играют вдохновляющую роль. Очень интересны, например, методы МРЕС (Моушв РюШгез ЕхреЛз Сгоир), которые при кодировании используют прогноз динамики изображений (переда- (передаются только меняющиеся пиксели). В результате достигается сжатие в несколько десятков раз. Для сжатия данных неподвижных изображений широко используются методы ^ЕС (Мт Р1юЮ§гарЫс ЕхреЛ Сгоир), исключающие малосущественную инфор- информацию (не различимые для глаза оттенки) за счет виртуозного использования преобразования Фурье. Чтобы оценить возможные трудности оптимального кодирова- кодирования, имеет смысл обратиться к простой на вид задаче о взвешивании монет (см. последний раздел главы), которая, по сути, есть задача оптимального кодирования 18\ Запутанность ее решения дает повод задуматься о трудоемкости кодирования, которая является суще- существенным фактором, но остается за рамками информационного аспекта. Оптимальный код — это совсем не то, к чему надо стремиться во что бы то ни стало 19\ Это лишь границы возможного, знание которых дает понимание ситуации. 8.7. Канал с шумом При наличии шума в канале связи, вход X канал связи выходУ = 18^ Сводящаяся к указанию номера фальшивой монеты в троичной записи. 19' То же самое можно сказать о любых оптимизационных решениях.
154 Глава 8. Теория информации выходной сигнал зависит от входа X и шума ^. Если шум искажает в среднем 1 % символов, то о любом принятом символе нельзя сказать наверняка, правилен он или нет. Максимум возможного — при независимой генерации букв — утверждать их правильность с вероятностью 0,99. Но если речь идет о передаче осмысленного текста, то сообщение при 1 % ошибок можно восстановить (по словарю) с высокой степенью надежности. Понятно, что это возможно благодаря избыточности языка. В общем случае проблема заключается в том, чтобы подобную избыточность использовать наиболее эффективно. Вернее даже — не использовать, а изобре- изобрести. Другими словами, бороться с шумом специальным кодированием. Разумеется, вероятность ошибки можно понизить за счет многократного повторения каждого символа, но это слишком неэкономно. Для поиска рациональных путей необходимо понять снача- сначала присущие задаче ограничения. Какова полезная информация, проходящая по шумящему каналу? Легко видеть, что это разность / = Н(Х) - Н(Х\У) между уровнями неопределенности источника до и после приема сигнала У. В нешумящем канале Н(Х\У) = 0, т. е. принятый сигнал однозначно определяет переданный. В общем случае условная эн- энтропия Н(Х\У) служит показателем того, насколько шумит канал. При вероятности ошибки 0,01 в случае равновероятной передачи источником двоичных символов 1 1 99 99 Н(Х1У} = "Тоо1ое 155 - 1оо1ое Тоо * °'08 бит на символ- Поэтому при передаче по каналу 100 символов в секунду скорость передачи информации равна 100 - 8 = 92 бита в секунду20*. Ошибочно принимается лишь один бит из ста, но «потери» равны 8 битам из-за того, что неясно, какой символ принят неверно. • Чему равна условная энтропия Н(Х\У) при том же уровне 0,01 ошибок, если источник генерирует 0 и 1 с вероятностями р и 1 - р! • В каких ситуациях Я(Х|У) = #(Х)? 20) При р = 1/2, очевидно, Н(Х\У) = Н(Х), и скорость передачи информации нулевая, поскольку выходной сигнал не позволяет судить о входном.
8.7. Канал с шумом 155 Пропускная способность канала с шумом, по определению Шенно- Шеннона, — это максимальная скорость прохождения информации = тах[Н(Х)-Н(Х\У)} (бит в секунду), где максимум берется по всем возможным источникам информа- информации, а энтропия Н измеряется в битах в секунду. На первый взгляд, это сильно отличается от канала без шума, где под С обычно мыслится максимально возможное число проходящих импульсов. Но это не совсем так. Во-первых, система передачи может быть не двоичной. Во-вторых, сама передача символов по каналу бывает малоэффективна — символов много, информации мало. Поэтому аккуратное определение пропускной способности канала без шума в точности совпадает с данным выше определением, при условии Н(Х\У) = 0. При этом ясно, что в ситуации Н > С передача информации без потерь невозможна 21\ В этом случае, кстати, на задачу можно смотреть как на передачу информации по специфически шумящему каналу. В примере с искажением 1 % двоичных символов, если канал физически способен пропускать 100 бит/с, — его пропускная спо- способность равна 92 бит/с. Информационные потери 8 бит приходятся на Н(Х\У), ъ е. на шум. Теоремы Шеннона. Допустим, что помимо основного — есть допол- дополнительный корректирующий канал. 8.7.1. Если корректирующий канал имеет пропускную способность не меньше Н(Х\У)9 то при надлежащей кодировке возможен практи- практически безошибочный прием сообщений22' (с точностью до сколь угодно малой доли ошибок). < На философском уровне утверждение самоочевидно. На приемном конце недостает Н(Х\У) бит/с информации — ее и надо передать по дополнительному каналу. Если спуститься с небес на землю, то рассуждать можно так. Любому принятому сообщению достаточно большой длительности в I с — отвечает23) 21' Источник генерирует больше информации Н (бит в секунду), чем пропускает канал. 22) Имеется в виду, что информация Н(Х) - Н(Х\У) проходит по основному каналу. 23) См. (8.6).
156 Плавав. Теория информации К = 2Ш**'Г) возможных равновероятных сообщений источника. Чтобы указать среди них правильное, нужна информация 1Н(Х\У) бит, т.е. Н(Х\У) бит/с. > Конечно, доказательство отдает метафизикой, но такова приро- природа утверждения. Это теорема существования: хорошо закодировать можно, но как — это уже другой вопрос, не представляющий боль- большого интереса (как показывает жизнь) 24\ 8.7.2 Теорема. Пусть Н бит/с — энтропия источника, а С — пропускная способность канала с шумом. Если Н ^ С, то при надлежащем кодировании возможен практически безошибочный прием сообщений (с точностью до сколь угодно малой доли ошибок). М Теорема 8.7.2 обычно позиционируется как в высшей степени интуитивно неожиданный результат. Однако неожиданность здесь проистекает из забывчи- забывчивости интуиции, которая не помнит определения С в случае шумящего канала. На самом деле теорема 8.7.2 не что иное как переформулировка утверждения 8.7.1 при естественном допущении, что корректирующий канал с основным — могут быть объединены в один. Посмотрим, что происходит в примере с искажением 1 % двоичных симво- символов. Если канал физически способен пропускать 100 бит/с, — его пропускная способность равна 92 бит/с (см. выше). Тогда при Я ^ С, т. е. при Я ^ 92 бит/с остается 8 бит/с, которых как раз хватает для коррекции. > Теорема 8.7.2 обычно дополняется утверждением, что в случае Н > С по любому е > 0 можно указать способ кодирования, при котором информационные потери будут не больше чем Н — С + е бит/с. В данном контексте — это легкое упражнение. Коды Хэмминга. Жизнь обычно протекает вдали от фундаменталь- фундаментальных ограничений типа абсолютного температурного нуля. Тако- Таковы же ограничения, устанавливаемые теоремами 8.7.1, 8.7.2. Ре- Реальное кодирование больше ориентируется на удобство и простоту. Широкое распространение получили несколько стандартных схем кодирования, в том числе кодирование по Хэммингу. Расстояние по Хэммингу Н(А, В) между двоичными последова- последовательностями одинаковой длины определяется как число разрядов, в которых А и В не совпадают. Например, Л@01, 100) = 2. 24' Оптимально кодировать обычно в голову не приходит, потому что достижение опти мума слишком трудоемко. Не говоря о том, что еше и декодировать приходится.
8.8. Укрупнение состояний 157 Если двоичные последовательности длины п интерпретировать как вершины куба п-мерного пространства, то Н(А, В) представляет собой минимальное число ребер, по которым можно перейти из А в Б. В случае, когда все расстояния между возможными сообщени- сообщениями Н(А, В) ^ 2, — любая одиночная ошибка (в двоичном разряде) будет обнаружена, а в случае Н(А, В) ^ 3 — не только обнаружена, но и исправлена25^. Идеологическая ясность не устраняет практическую задачу та- такого кодирования полезных сигналов, чтобы они были разнесены на заданное расстояние. «Зазор» Н(А, В) = 2 легко обеспечивается введением дополнительного двоичного разряда, в который записы- записывается 0 (или 1), в зависимости от четности (или нечетности) числа единиц в кодируемой двоичной последовательности. Большие «за- «зазоры» обеспечиваются иными ухищрениями, но это уже другая история. 8.8. Укрупнение состояний Имея дело с тем или иным понятием, полезно располагать удобной для интуиции моделью. Что касается энтропии, то от содержа- содержательной интерпретации состояний системы всегда можно отвлечь- отвлечься и говорить только о номерах этих состояний, подразумевая случайную величину X, которая принимает некоторые значения, например, X = к с вероятностями р^. Если состояния равновероятны, то Я = 1о§2 п представляет собой количество двоичных разрядов, необходимых для записи всех чисел от 1 до п, а Н = 1§п — количество десятичных разрядов, необходимых для той же цели. Если состояния не равновероятны, то равно среднему количеству двоичных разрядов, необходимых для записи чисел от 1 до п, но — возможно — при их перенумерации (оптимальном кодировании). ' Для исправления ошибочной последовательности С — 0100... 10 надо найти ближай- ближайшую к С разрешенную последовательность А — 0101... 10, которая, в силу одиночности ошибки, находится на расстоянии Н(А, С) = 1.
158 Глава 8. Теория информации Число состояний может быть даже бесконечно, равно как и число разрядов, 00 необходимых для их записи. Но при условии ^Г^Рк = 1 среднее число разрядов будет равно как раз Н. Так или иначе, но для энтропии важны только вероятности состояний. Если с. в. X принимает значения 1 и 10 с вероятностями ри 1 - р, а с. в. V с теми же вероятностями равна либо 1, либо 99 Другими словами, энтропия не ощущает неопределенности значений случайной величины. В то же время ясно, что «близкие» состояния системы иногда можно считать одинаковыми, объединяя их в одно состояние. Укрупнение возможно и по другим причинам. При этом энтропия — /^ Рк 1о&2 Рк переходит в кеб причем энтропия укрупненной (агрегированной) системы всегда мень- меньше или равна исходной. (?) В случае разукрупнения системы эн- энтропия, наоборот, увеличивается. 8.9. Энтропия непрерывных распределений Энтропия случайной величины X, распределенной с плотностью р(х), определяется как 00 Н = - р(х) \о%р(х) Ах. -00 (8.7) Если X — случайный вектор, энтропия вычисляется по той же формуле с той лишь разницей, что интегрирование ведется по всему пространству. Аналогия с дискретным случаем легко просматривается, но пре- предельный переход к (8.7) невозможен, — по крайней мере, в обще- общепринятом смысле.
8.9. Энтропия непрерывных распределений 159 Естественная аппроксимация (8.7) при разбиении оси х на про- промежутки Ахь записывается в виде суммы 00 Яд = - ]Г р(хк)Ахк 1о8р(ж*), (8.8) к=-оо где хк — некоторым образом выбранные точки на промежутках Ахь. Функция р(х) заменяется в результате ступенчатой аппрокси- аппроксимацией, а рь = р(хк)Ахь становится приближенной вероятностью попадания св. X на промежуток Ах%. При этом (8.8) можно переписать в виде 00 00 Яд = - ^2 рк 1овр* + ^2 ) &=-оо к=-оо Фиксация Ахь = е превращает второе слагаемое (8.9) в константу с(е). А поскольку не так важно, каков нулевой уровень неопре- неопределенности, то (8.7) с разницей в константу приближенно равно энтропии - ^2 Рк 1°8Л- Поэтому, если договориться, что энтропия измеряется с точностью, скажем, до третьего знака, то формулой (8.7) можно пользоваться как хорошим приближением (8.8). Безболезненному оправданию предельного перехода мешает расходимость с(е) ->• оо при е ->• 0. Но из сказанного ясно, что большой беды в этом нет. Определение (8.7) вполне мотивированно, хотя и не совсем стандартным способом. Свойства энтропии непрерывных распределений в основном аналогичны свойствам энтропии дискретных распределений. В частности, имеет место адди- аддитивность вида (8.2) и (8.3) при естественной записи условной энтропии с помощью условной плотности, а также аналоги неравенств из раздела 8.2. Максимум энтро- энтропии на ограниченной области достигается при равномерной плотности. (?) Максимум (8.7) при ограничениях 00 00 I р(х) д,х = 1, I х2р(х) их = а2 -00 -00 обеспечивает нормальный закон распределения При этом Н(Х) = \о%у/2песг. 26) См. раздел 2.7.
160 Глава 8. Теория информации Если случайные векторы X, У функционально связаны линейным невы- невырожденным преобразованием У = АХ, то Н(У) = Н(Х) + 1оё с!е1 А, (?) что легко проверяется, но заслуживает внимания, ибо здесь выявляются тонкости перехода к энтропии непрерывных распределений, о которых говорилось в начале раздела. Наличие невырожденной функциональной связи У = АХ в случае дискрет- дискретного распределения к изменению энтропии не ведет, поскольку число состояний и их вероятности не меняются. В непрерывном случае аппроксимация (8.7) с по- помощью разбиения пространства на ячейки («промежутки» Ахк) претерпевает изменения при линейном преобразовании переменных. Объемы ячеек, а зна- значит, и соответствующие вероятности — меняются. Детерминант А дает как раз коэффициент искажения объема. 8.10. Передача непрерывных сигналов Шеннон, создавший теорию информации — см. [30], начинает изучение непрерывных сигналов с теоремы отсчетов27', которая сразу переводит задачу в плоскость дискретного времени. Речь идет о следующем. Информационная емкость непрерывного сигнала хA) упирается в барьер точности. Важный ориентир в переплетении обстоятельств задает неизбежная28^ ограниченность спектра хA). В представлении Фурье29^ 00 00 х{1) = [ х(и)е~21гМ & & х(у) = [ хA)е2яЫ 61 -00 -00 в условиях ограниченности спектра: х(и) ф О только при \у\ < IV, — сигнал хA) представим в виде хA)= Г х(и)е~21гМ 4ъ>. (8.10) Но х(у), как функция, заданная на конечном промежутке [-17, IV], может быть разложена в ряд Фурье с периодом 217: ^У нас ее принято называть теоремой Котельникова — см.: Котельников В. А. О про- пропускной способности «эфира» и проволоки в электросвязи // Материалы к I Всес. съезду по вопросам реконструкции дела связи. Изд. Упр-я связи РККА, 1933. ; Из-за конечности полосы пропускания частот любого канала связи. 29' Обычно в преобразовании Фурье вместо частоты V используется круговая частота ш = 2тп/, и тогда в первом интеграле появляется множитель 1/Bтг).
8.10. Передача непрерывных сигналов 161 где, с учетом (8.10), Теперь подстановка (8.12) =>• (8.11) =>• (8.10) приводит к что после несложных преобразований может быть переписано в виде ) (813) Формула (8.13) показывает, что любой сигнал х{1) с ограни- ограниченным спектром определяется значениями х{1) в дискретном ряде точек, расположенных с интервалом времени А1 = 1/BИ^), ко- который Шеннон называет интервалом Найквистазо\ Факт может показаться удивительным, поскольку речь идет не о приближен- приближенном, а о точном воспроизведении сигнала по дискретным замерам. Но это удивление философского характера. На практике, понятно, вопрос точного воспроизведения никогда не стоит. В условиях оши- ошибок измерения и других погрешностей говорить имеет смысл только об аппроксимациях хA), например кусочно-линейных, определя- определяемых точно так же значениями сигнала в дискретном ряде точек. Особая роль соотношения (8.13) заключается в указании связи необходимого интервала замеров с шириной спектра сигнала К В принципе, можно было бы ориентироваться на какую-нибудь аппрокси- аппроксимацию хA) типа полиномов Бернштейна, равномерно аппроксимирующих хA) с любой наперед заданной точностью: \хA) — Рп@1 < ^- И тогда бы речь шла о передаче конечного числа коэффициен- коэффициентов РпA), а теория — развивалась на прежней идеологической базе дискретных 30) ; Ыудшз! Н. Сег1ат 1орю8 т 1е1е§гарЬ 1гап81Ш881оп 1Ьеогу // А1ЕЕ Тгап§. Арг. 1928. 31^ Эта связь в какой-то степени метафизична, поскольку коренным образом зависит от требований к точности воспроизведения сигнала.
162 Глава 8. Теория информации сообщений. Конечно, в поле зрения оказался бы включенным фактор точности, но в определенных условиях это было бы даже хорошо. Вернемся, однако, к точке зрения Шеннона. Если функция хA) ограничена временным промежутком Г, а замеры отстоят друг от друга на 1/BИ^), то в промежутке Т всего будет 2ТУУ от- отсчетов32', которые всегда можно мыслить как координаты точки в пространстве 2ТЦ? измерений, причем из (8.13) легко следует 2ТЦГ / п \ (8.14) О п=0 что в электросвязи, например, естественно интерпретируется как энергетическое соотношение. Квадрат евклидова расстояния 2^ х ( ) оказывается равным 7№Е, где Е — энергия, выделяемая на единичном сопротивлении при прохождении тока хA) на промежутке Т. Поскольку Е = ТР, где Р = Бх — средняя мощность сигнала, то в силу (8.14) все сигналы с мощностью, меньшей Р, будут расположены в шаре радиуса либо г = \ГШР', если рассматривать промежуток Т = 1 с. С точки зрения помехоустойчивости точки (сигналы) в этом шаре надо рас- распределять равномерно, чтобы при заданном их количестве они были расположены как можно дальше друг от друга. Например, при аддитивной помехе: где ХA) — передаваемый сигнал, УA) — принимаемый, NA) — белый шум мощности Ду- В силу независимости ХA) и NA), мощность (дисперсия) сигнала на выходе равна Объем «шумящего шарика», в силу г = у2ТЙ^Ду, оценивается п' Это очевидно даже без теоремы Котельникова. Найквист, например, рассуждал так. Разложение х(Ь) в ряд Фурье на промежутке Т содержит ТШ синусов и (Т\У + I) косину- косинусов — вплоть до частоты VI. Для определения BТ\У +1) соответствующих коэффициентов достаточно и 2ТШ замеров.
8.11. Оптимизация и термодинамика 163 а объем шара выходных сигналов мощности ^ Ву — 2Т\У Деление показывает, что маленьких шариков в большом помещается приблизи- приблизительно: т.е. в шар помещается приблизительно такое количество точек (сигналов), раз- разнесенных на расстояние, не покрываемое шумом. Для записи этого количества требуется порядка ¦(¦¦2) ТИ^1о§2 A4-—- разрядов, \ Р$) что определяет число бит/с, которое можно передать по такому каналу за время Т. При Т = 1 с получается пропускная способность канала: (8.15) зависящая от полосы пропускания № и отношения сигнал/шум, Несколько «лихой» вывод формулы Шеннона (8.15) имеет два оправдания. Во-первых, он в чистом виде отражает идею. Во-вторых, на точности соот- соотношения (8.15) не имеет смысла особо настаивать, поскольку, строго говоря, здесь необходима масса оговорок. Но сам характер зависимости может служить путеводной нитью. 8.11. Оптимизация и термодинамика При описании идеального газа (трехмерного бильярда) задания энергии не хватает для фиксации термодинамического состояния. Соображение максимизации неопределенности распределения ско- скоростей молекул — решает проблему, определяя полный комплект макропараметров. И такое соображение работает во многих дру- других ситуациях, где речь идет о статистическом описании сложных систем. На формальном уровне это выглядит примерно так. Решается задача максимизации энтропии р(х) 1п р(х) -> шах
164 Глава 8. Теория информации при ограничении ' и, разумеется X Стандартный переход к лагранжиану X с последующим варьированием р(х) в конечном итоге дает что с учетом нормировки, 2^, р(я) = 1, приводит к X где параметр /л определяется энергетическим ограничением. Легко видеть, что вместо рассмотренной можно было бы решать другую задачу: * 53 р(Iп ^)= я- Ответ, с точностью до параметра /л («температуры» Т = был бы тот же самый, а при определенном соотношении К и Н ответы бы совпали в точности. Такая «взаимозаменяемость» задач широко используется в ста- статистической физике, позволяя переходить, скажем, от максими- максимизации энтропии к эквивалентной задаче минимизации энергии. Несмотря на физическую абсурдность второй задачи (энергия стро- строго постоянна), ее рассмотрение математически оправдано и часто ^ Строгое сохранение энергии обьмно заменяется сохранением в среднем, что принципиально не меняет решения, но упрощает выкладки.
8.11. Оптимизация и термодинамика 165 более удобно. Подобная «взаимозаменяемость» широко использует- используется также в математическом программировании, где каждая задача, как правило, рассматривается в паре со своей двойственной. В статистической физике для получения взаимосвязей между макропарамет- макропараметрами разработана удобная техника, опирающаяся на введение серии вспомога- вспомогательных функционалов. Сначала вводится статистическая сумма и свободная энергия Р(Т) = -Т\п2, с помощью которой (8.16) записывается в виде (распределение Гиббса) Вычисление энтропии Р - Г(х) 1^1 _ Р - г(х) —т—е т— дает зависимость Р = К- ТН. Дифференцирование Р(Т) = -Т 1п 2 по температуре, с учетом 2 = ^^ ег^1т и Р = К- ТН приводит к Н = -— и, в итоге, х А дифференциал <Ш = й{Р 4- ТН) = в силу Я = -йР/йТ, оказывается равным <Ш = Т йН, т. е. ш откуда следует, что «энергия» при возрастании энтропии Я возрастает, если Т > О, и убывает, если Т < 0.
166 Глава 8. Теория информации 8.12. Задачи и дополнения • При наличии функциональной связи 2 = /(X, У) величины X и У дают полную информацию о 2. Возможно ли, что X и У по отдельности не дают никакой информации о 2? Вопреки естественному ожиданию — возможно. Пусть X, У, 2 представляют собой п-разрядные числа в 10-тичной системе. Тогда число (функция) 2, определяемое поразрядным сложением по мо- модулю 10, 2к = обладает нужными свойствами. Например, Х = 123, У = 948 =ф 2 = 061. Понятно, что задание X никак не уменьшает число возможных вариантов 2. Если все числа равновероятны, то деление группы п подряд идущих чисел на две равные подгруппы с последующим выделением одной из подгрупп (приписыванием, например, нуля или единицы) дает информацию 1о§ 2 = 1, уменьшая исходную неопределенность 1о§п до 1о§п - 1о§2. После к анало- аналогичных шагов неопределенность уменьшится до 1о§ п - к 1о§ 2 и станет ^ 0 при условии 1о§п = 1ое п. к ^ 1о§2 Вот, собственно, и вся премудрость. Некоторые детали приходится угочнить, если п не является степенью двойки. Тогда группы чисел не делятся ровно пополам, и это уменьшает информацию некоторых шагов. Но легко прове- проверить, что итог не меняется — из-за того, что к ^ 1о§п выбирается целое. Задача становится совсем прозрачной при увеличении с самого начала п до ближайшего числа вида 2т. За кадром описанной схемы могут стоять разные интерпретации. От решения проблемы о числе вопросов при ответах «да — нет», необходимых для определения загаданного числа, — до указания числа разрядов для записи номера любого из п чисел в двоичной системе 34\ Двоичная запись чисел в последнем случае и будет оптимальным кодированием. • Того же поля ягода простейшая задача о взвешивании монет. Среди п монет есть одна фальшивая, более легкая. Найти минимальное число взвешиваний на чашечных весахъь\ необходимое для определения фальшивой монеты в самом неблагоприятном случае. Любая из монет может равновероятно оказаться фальшивой, поэтому не- неопределенность равна \о%п. Пусть пока п = Зт. Разобьем монеты на три равные кучки, и любые две из них сравним по весу. Взвешивание (опыт В\) может иметь три очевидных исхода. Любой — позволяет исключить две 34^ Либо самих чисел, если это числа от 1 до п. 35^ Позволяющих сравнивать два веса.
8.12. Задачи и дополнения 167 т л г л Л Т Л 1 Г » Г I ЛПЛПЛ X ЛТ Рис. 8.1 группы монет. Неопределенность Н(В\) = 1о§3. Энтропия (информация) к последовательных взвешиваний равна А:1о§3. Для исчерпания исходной неопределенности 1о§п необходимо к 1о§ 3 ^ 1о§п, откуда к ^ 1о§3 и. Легко убедиться, что ответ остается верным и в том случае, когда п не является степенью тройки. • Если в предыдущей задаче неизвестно, легче или тяжелее фальшивая монета, то исходная неопределенность возрастает до 1о§2п. Но естественный ответ к ^ 1о§3 2п уже не верен. Правильный ответ однако это довольно сложная задача, что свидетельствует о трудностях опти- оптимального кодирования36). Рецепт взвешиваний (кодирование) для 12 монет изображен37) на рис. 8.1. Левая (правая) стрелка обозначает ситуацию, когда перетянула левая (правая) чаша весов, средняя стрелка отвечает равновесию. Все монеты перенумерованы, буквы Л, Т означают: «легче», «тяжелее». • В р разрядах г-ичной системы можно записать г^ чисел. При этом каждая цифра может потребоваться в р экземплярах (скажем, три девятки в 999). Всего заготовленных цифр — вырезанных, например, из картона, — надо иметь N = рг. С помощью этих заготовок можно «записать» г^/г чисел. Функция г^/г достигает максимума при г = е « 2,7. Среди целых чисел максимум обеспечивает г = 3. Поэтому иногда говорят, что троичная система счисления — самая экономичная. Двоичная — ей несколько уступает. 36' При желании обязательно добиться строго максимального результата. ' Схема заимствована из статьи Г. Шестопала «Как обнаружить фальшивую монету» (Квант. 1970. 10).
168 Глава 8. Теория информации • Парадокс Гиббса. Термодинамика для энтропии идеального газа дает следу- следующую формулу: (8.17) где N — число молекул, V — объем, с(Т) — коэффициент, зависящий от температуры Т. Из (8.17) следует, что при смешении двух газов (находящихся в различных объемах V] и Уч при одинаковой температуре) суммарная энтропия возрастает на величину, пропорциональную ^ш (8Л8) Для различных газов неравенство (8.18) подтверждается опытом. Но вывод (8.18) никак не опирается на предположения о сортах смешиваемых газов. Поэтому при смешении одинаковых газов было бы также естественно ожидать возрастания суммарной энтропии. Но для термодинамики это ка- катастрофа, потому что тогда энтропия становится функцией истории газа38\ а не его термодинамического состояния. Гиббс разрешил противоречие волевым путем, постулировав, что из (8.17) надо вычесть 1п N1 ~ N 1п N. Тогда энтропия смешения действительно ока- оказывается положительной только для различных газов, и парадокс снимается. Но за введением добавки 1п N1, по существу, стоит необходимость отождеств- отождествлять состояния, получающиеся перестановками молекул, что интуитивно не вполне естественно. Определенным свидетельством того, что здесь не все так просто, может служить список исследователей парадокса: Эйнштейн, Шрёдингер, Планк, Лоренц, Нернст. 'Любое состояние газа можно считать полученным в результате устранения ряда перегородок.
Глава 9 Статистика Статистика — та же теория вероятностей, но — с другого конца. Из ста миллионов человек опросили тысячу — 777 избирателей за демокра- демократию. Какой результат голосования можно прогнозировать, и с какой надежностью? Если выводы малоубедительны, сколько человек надо (было бы) опросить, чтобы прогноз был точным? Или — как контролировать качество продукции, проверяя небольшую часть изделий? Это естественный для статистики круг вопросов. Отвлекаясь от содержательных интерпретаций, можно сказать так. Стати- Статистика — это анализ результатов опыта и определения по ним вероятностных характеристик случайных величин. Такие задачи, безусловно, — в духе ТВ. Поэто- Поэтому статистика для завоевания суверенитета часто настаивает на малосущественных тонкостях и множит количество плохо мотивированных задач, пытаясь создать «армию и пограничные войска». В результате ТВ, действующая с меньшей нату- натугой, выглядит привлекательнее. Тем не менее группировка задач вокруг анализа данных опыта заслуживает выделения в самостоятельный раздел. А если при этом соблюдать меру, статистика превращается в симпатичную и полезную ветвь теории вероятностей. В главе рассматривается идеологическая база статистики в варианте, близком к тезисному. С тяжеловесной частью можно ознакомиться по любому стандартному курсу (см. например, [9, 20]). 9.1. Оценки и характеристики Основной изучаемой моделью статистики служит многократная ре- реализация случайной величины X. При этом набор независимых случайных величин Х\,..., Хп, каждая из которых распределена так же, как и X, — называют случайной выборкой ' объема п. Любую функцию &п = (дп(Х\,..., Хп) называют статистической характеристикой (с. х.), или статистикой. Определению обычно подлежат вероятности тех или иных событий, матожидания, дис- дисперсии, корреляции и другие характеристики св. на базе с.х. ' Иногда выборкой называют реализацию Х\,...,Хп.
170 Глава 9. Статистика Например, оценку матожидания Шх можно получить по реализации случай- случайной величины 9П = (XI -4-... + Х„)/п, которая в данном случае является одной из возможных с. х. для определения тпх. Если говорить точнее, то статистика как наука каждый раз вводит гипоте- гипотезу о вероятностной природе наблюдаемых процессов. Бросается ли монета или берется, скажем, 100 знаков в двоичном разложении числа тг, — теория пред- предполагает, что это есть 100-кратная реализация св. X, принимающей значения ноль/один. Или, скажем, доля леворуких людей равна р. ТВ подменяет реальность совсем другой моделью, считая для каждого человека вероятность быть леворуким равной р. Эргодичность (среднее по вероятности равно среднему по реализации) как раз служит основанием адекватности такой модели. Первое впечатление, что с. х. тривиальны до скуки, отчасти справедливо, — но они далеко не всегда сводятся к примитивному усреднению, как в случае тпх (см. далее). Конечно, статистической характеристикой можно объявить любую функцию 6П(Х1,..., Хп), однако вопрос в том, насколько она удовлетворительна. Если, например, речь идет об оценке неизвестного параметра 0, характеризующего св. X, то оценка в на основе 6П называется р состоятельной, если 6П —» в при и ->• оо. Из закона больших чисел вытекает состоятельность среднеарифметической оценки матожи- матожидания. В оценках есть также другой существенный аспект. Оценка в на основе 6П называется смещенной/несмещенной, если матожидание Е {6П} при любом п равно/не равно в. Состоятельная оценка не обязана быть несмещенной. (?) Доверительные интервалы. Промежуток, которому принадлежит оцениваемый параметр в с вероятностью ^ 8, называют дове- доверительным интервалом, д — коэффициентом доверия, а 1 — д — уровнем значимости. О справедливости условия р{|0-е„| <*}>*, означающего в Е @П — е,@п + е) с вероятностью ^ д, можно судить с помощью неравенства Чебышева, но это даст, конечно,
9.1. Оценки и характеристики 171 только грубую оценку. Соответствующий рецепт очевиден. Если в матожидание X, а 0П его несмещенная оценка, то Практический способ действий на этой основе заключается в сле- следующем. Задается коэффициент доверия 6 = 1 - Б (@п)/е2, отку- откуда е = л/бFп)/A -д), что определяет доверительный интервал В некотором роде здесь заложено противоречие, поскольку на практике обычно имеется реализация выборки и более — ничего. Поэтому в получаемых неравенствах «неизвестное» оценивается через «неизвестное». Дисперсию Б F„) приходится определять по той же самой выборке. Однако противоречие снимается, если оценки состоятельны. Тогда Б @П) определяется с небольшой ошибкой Д, и т. е. влиянием ошибки при определении дисперсии можно пренебречь. Если речь идет о достаточно длинных выборках, то можно опираться на предельные теоремы о нормальности распределения ошибок при усреднении, что дает более точные оценки. Пусть, например, оценивается вероятность р некоторого собы- события А по выборке X [,..., Хп, где Х% принимает значения ноль/один в к-м опыте, Хъ = 1 отвечает «успеху», т.е. наступлению А. Если для оценки используется среднее Рп п то, очевидно, При больших п, в силу предельных теорем, (9Л) откуда получается необходимая связь между крайними точками доверительного интервала и уровнем значимости.
172 Глава 9. Статистика Понятно, что строгое решение (9.1) занимает много места, и приходится кстати, если для диссертации не хватает материа- материала. На самом деле доверительный интервал приближенно равен (рп - еа, рп + еа), где а = у/Щрп). Но все это хорошо работает, когда выборка достаточно вели- велика (практически, п ~ 102). При малых п приходится «танцевать» от биномиального распределения, что в отсутствие возможности воспользоваться формулой Стирлинга приводит к весьма громозд- громоздким построениям, подталкивающим к графическим методам реше- решения [20]. Оценки матожидания и дисперсии. В случае существования уев. X первых двух моментов выборочное среднее 9 __ Хх + ... + Хп П в силу Е {Хп} = тх, является несмещенной оценкой. Плюс к тому, что обеспечивает Хп —4 X, и тем более, Хп -> X. Возникает впечатление, что оценка дисперсии п обладает теми же свойствами, но это не так. Очевидно, после раскрытия в (9.2) получается откуда 1 _ Пх п-\ п п п что свидетельствует о смещенности оценки (9.2). Несмещенная оценка: Аккуратный подсчет [20] показывает: 0 фп} = ^лЛ + Н01цМ + м-М, (9.4) п п п откуда ясно, что при существовании центрального четвертого момента /х4 обе оценки (9.2) и (9.3) состоятельны: Вп -> Вх, равно как и Б'п -> Вх.
9.2. Теория и практика 173 Вопрос о том, какая из оценок (9.2), (9.3) лучше, — однозначного ответа не имеет. Несмещенная оценка точна по матожиданию, но хуже по дисперсии ошибки. Случайные векторы. В задачах со случайными векторами выборки рассматрива- рассматриваются покоординатно. Новое обстоятельство заключается в появлении смешанных моментов. Но рецептурно все остается по-прежнему. Например, оценка ковариации случайного вектора 2 = {X, У} — в естественных предположениях состоятельна, но смещена. Несмещенную оценку дает замена в знаменателе п на п - 1, как и в случае дисперсии. 9.2. Теория и практика При необходимости проведения, скажем, опроса населения — чи- чистый математик оказывается неподготовленным к решению задачи, поскольку на практике существенную роль играют «невероятност- «невероятностные» обстоятельства. Идет ли речь об опросе избирателей, о социологическом ан- анкетировании или о медицинском обследовании, — из генеральной совокупности2' необходимо выбрать некоторую долю элементов. Как это сделать? Простейший, казалось бы, вопрос, но на пути его решения очень много препятствий. Теоретически ситуация выглядит элементарно. Берется полный список, ска- скажем, людей, — и из него равновероятно выбирается какая-то часть населения. Конечно, сама организация случайного выбора — непростая штука, но основные трудности — в другом. Даже общий список с адресами и телефонами может быть проблемой. Список надо достать, завести в память компьютера миллион адресов, обработать. Проблемы на этом не заканчиваются. После получения в результате слу- случайного отбора списка фамилий приходится «бегать» за каждым респондентом и добиваться от него согласия ответить на вопросы. География случайного вы- выбора оказывается крайне неудачной. В результате — повышенные временные и материальные затраты, проблема неответивших и т. п. Поэтому на практике предпочтение в большинстве случаев отдается более изобретательным технологиям. Можно упомянуть, ' Генеральной совокупностью называют множество всех рассматриваемых элементов. Население города, например.
174 Глава 9. Статистика например, стратифицированную выборку с предварительным разби- разбиением генеральной совокупности на группы (страты) по какому- либо признаку и последующим случайным отбором внутри групп. Определенный интерес представляют гнездовые технологии, в кото- которых случайно выбирается несколько групп с поголовным опросом внутри каждой. Но все это, дрейфуя в сторону эвристики, выходит за рамки статистики как математической науки 3\ Разумеется, практическая статистика сильно себя скомпроме- скомпрометировала в экономике и социологии. Но даже в этих «скользких» областях она остается единственным средством решения опреде- определенного круга задач. В то же время, на фоне иногда анекдотических реалий, математические изыскания «о-малых» выглядят схоласти- схоластическими. Нельзя, однако, забывать, что есть задачи, где статистика играет совсем другую роль. Оценка физических констант и па- параметров (на основе многократных измерений), статистическая оптимизация моделей технологических процессов и кое-что еще, где измерения объективны и есть понимание изучаемых процессов. При этом извлечение максимума возможного во многих ситуа- ситуациях оказывается принципиальным. Ошибка статистической оцен- оценки доли поглощаемых нейтронов приводит к атомному взрыву, а плохая обработка химических анализов поверхностных проб поч- почвы влечет за собой холостое бурение километровых скважин. 9.3. Большие отклонения Пусть Уп = тах{Хь...,Хп}, где Х\9...9Хп — независимые, одинаково распределенные слу- случайные величины. Функция распределения Уп легко определяется, п п Р{Уп ^Х}=Р р|{Х; < X} = Ц Р{Х, < X} = РП(Х), 1 = 1 1=1 3' Признать статистику математикой можно, конечно, лишь с той же долей натяжки — что и физику. Статистика начинается там, где теория вероятностей, независимая от устройства Вселенной, начинает увязываться с практикой.
9.3. Большие отклонения 175 где Рп(х) — общая для всех Хг функция распределения. Понятно, что распределение с. в. Уп определяет поведение «правого хвоста» Например, при условии .Р(ж)]жа = Ь, о,Ь>0, «нормированная» св. („ = Уп/(Ьп)^а при п ->• оо сходится по распределению Статистика успехов в схеме Бернулли. При изучении суммы где «успех» Хп = 1 достигается с вероятностью р, соответствен- соответственно Хп = 0 — с вероятностью 1 - р, — удобно рассматривать нормированную сумму Теорема Муавра—Лапласа гарантирует сходимость 5* к нор- нормальному распределению Л/ХО, 1), что означает 11т Р{а < 8к < /?} = Ф(/?) - Ф(а). (9.5) >оо На практике, естественно, возникает вопрос о соотношении к и границ доверительного интервала, при котором из (9.5) 11т &->оо можно убрать, не слишком нарушая равенство. ж3 Критерием здесь может служить величина —-р < е. При боль- больших ж и Л, но малых е, ^—т.2/2 Г\Х ^ «Э^ ~ 1 — Ч>уХ) ~ что подтверждается несложными выкладками [26]. При малом объеме выборки приходится пользоваться для оцен- оценки 8к точным биномиальным распределением, но тогда возникают неудобства счета, снова ведущие к огрубленным оценкам.
176 Глава 9. Статистика Закон повторного логарифма. Идеологически другая задача возни- возникает при попытке оценить поведение возможных траекторий 5* в целом. Несмотря на нулевое матожидание и единичную диспер- дисперсию св. 5\ (при любом к), — в любой типичной реализации последовательности 8{, 829 •.. будут встречаться сколь угодно боль- большие значения. Из этого расплывчатого соображения можно извлечь точную закономерность: верхний предел 8 = л/2 (9.6) ИпГ . л-хх) у1п 1п к с вероятностью единица. Это так называемый закон повторного логарифма Хинчина. Если вернуться непосредственно к сумме 5*, то (9.6) означает, что при достаточно больших к типичные траектории не выходят за пределы 5* < кр + а\/2к1п\пк. 9.4. От «хи-квадрат» до Стьюдента Хи-квадрат распределение имеет плотность р(х) = 0 при х < 0 и п)хП'2"е~ при 1>0- где Г — гамма-функция А\ а целочисленный параметр п называют числом степеней свободы. Так распределен квадрат вектора х = {-^ь • • • ? Хп}> с нормальными координатами Х%, имеющими нулевые матожида- ния и единичные дисперсии. При п = 2 х2 -распределение совпадает с показательным. Распределение Стъюдента (I-распределение) имеет случайная величина 77'
9.5. Максимальное правдоподобие 177 где п — число степеней свободы, св. X имеет нормальное распре- распределение Л/*@, 1), а х2 распределена по закону «хи-квадрат». Распределение I, не очень подходит для запоминания. Но по таблицам — при необходимости — считается, а при больших п мало отличается от Л/"@,1), и слабо сходится к Л/^О, 1) при п-> оо. На практике распределение Стьюдента широко применяется ' в следующей стандартной схеме. Для независимых Х\,..., Хп, распределенных по закону Л/"(ш, а2), лучшие несмещенные оценки т и а2 дают статистики Лп и ип . п п - 1 При этом (Хп - т)/а подчиняется закону Л/"@,1), с. в. (п - 1)Бп/а2 = %2 — закону «хи-квадрат», а отношение (Хп - т)/а / Хп - т — = у/п - 1 / оказывается распределенным по Стьюденту, что позволяет более точно6) оцени- оценивать доверительные интервалы по заданному уровню значимости (см. [20, 21]). Некоторые тонкости, оставшиеся здесь за кадром, требуют громоздких выкладок при незначительном «идеологическом эффекте». 9.5. Максимальное правдоподобие Главная беда статистики в расхождении слова и дела. Громоздкие формулы сопровождаются приговариванием о необходимости вы- высокой точности, тогда как всем ясно, что неучтенные факторы перекрывают любые математические усилия. Поэтому оправдывать изыскания более естественно красотой самих задач. Случайные величины Х\,..., Хп независимы и одинаково распределены с плот- плотностью ро (х). Необходимо изобрести наилучшую оценку параметра в. 5' По крайней мере, так говорят. 6^ По сравнению с грубыми оценками, базирующимися на неравенстве Чебышева.
178 Глава 9. Статистика Вполне нормальная математическая проблема, способная ини- инициировать поток диссертаций и разговоры о практической значимо- значимости, необходимые для защиты территории. Червоточинка заключена в большой неоднозначночности понятия «наилучшая», не говоря о том, что разногласия начинаются уже на этапе «приемлемости». О противоречивости несмещенности и состоятельности уже гово- говорилось. Но на эту мельницу воду можно лить и лить. Метод максимального правдоподобия Фишера заключается в максимизации совместной плотности7) распределения Х\,...,Хп при полученных реализациях Х\,...,хп. Функция 6П = 6п(жь ..., хп), обеспечивающая такой максимум, называется оценкой мак- максимального правдоподобия. Идея вполне изящная, и в простых ситуациях8* хорошо работает. Но кру- кругом «мины», о которых легко догадаться, поскольку распределения и установки оптимизации могут быть другими. Естественно, например, минимизировать дис- дисперсию Е{FП - вJ}, что в общем случае будет приводить к иным решениям. Обнаруживается, правда, интересный факт — неравенство Рао—Крамера: Е{(е„-0J}^-^-, (9.7) где — количество информации по Фишеру. При обращении (9.7) в равенство оценку называют эффективной. Но это бывает, как говорят, после дождичка в четверг — что чаще всего соответствует одномерному нормальному распределению. Достаточные статистики — другая идея Фишера. В случае, напри- например, нормального распределения ре{х) со средним в вся информа- информация о в содержится в оценке @п= п ' что вытекает из независимости распределения - 6П,..., Хп - 6П}. 7^ Которая в случае зависимых Х\,... ,Хп не обязательно равна произведению рв(хь). ' Типа оценки вероятности в схеме Бернулли либо параметра распределения Пуассона.
9.6. Парадоксы 179 Это означает, что после подсчета среднего арифметического вы- выборки — сама выборка перестает быть нужной, из нее уже ничего дополнительно не выжмешь. При этом ясно, что при наличии обра- обратимой функциональной связи Тп = <р(@п) статистика Тп остается достаточной, поскольку вп можно восстановить. Это замечание подчеркивает тот факт, что в «достаточности» определяющую роль играет присутствие в оценке всей информации. Как конкретно оце- оценивать — другой вопрос. В общем случае набор функций считается достаточной статистикой относительно 0, если совместное распределе- распределение Х\,... ,Хп при фиксированных 8 \,... ,8* не зависит от в. Определять, конечно, легко — пользоваться трудно. Парадокс Фишера. Для двумерного нормального распределения с независимыми координатами, имеющими единичные дисперсии и неизвестные матожидания 0ь#2> — обычное среднее {61,62} двумерной выборки является достаточной статистикой для пары {0\, 02}. Вектор {#1,02} можно описывать в полярных координатах (г, 0), оценивая в по тангенсу 1§ F2/61), а г по величине у 6^ + 6^. В силу взаимной однозначности декартовых и полярных координат оба варианта статистики достаточны. Но распределение у О] + 62 из-за сферической симметрии относительно точки {0],0г} не зависит от в. Отсюда (вроде бы) следует, что информация об г ничего не добавляет к информации о В. В то же время ясно, что Е {F - 0J\г} зависит от г (тем сильнее, чем меньше г), и это легко подтверждается вычислением. Главная причина видимого противоречия заключена в определении доста- достаточности. Информация не потеряна, но отсюда вовсе не следует, что 6 = агс1ё -^ — хорошая оценка. Почему бы, например, оценивая 0, не танцевать от синуса отношения 02/л/01 + 02 ? 9.6. Парадоксы Парадоксы — ценная вещь в том смысле, что без них нет гра- границ. Нож теории идет как в масло, и создается впечатление, что Вселенная — изотропно-масляная во всех направлениях.
180 Глава 9. Статистика Оазисы противоречий разнообразят движение и способствуют прозрению. В статистике, правда, слишком много парадоксов не- небольшого калибра, да еще основанных на искусственных понятиях. Парадокс Стейна9). Оценка матожиданий трехмерного нормального закона по обычному среднему трехмерной выборки — не допустима. Звучит торжественно. Примерно как нарушение закона сохранения энер- энергии. И даже жалко разъяснять, что недопустимые статистики вполне приемлемы. Допустимая статистика 6* происходит из категории минимаксных оценок и ми- минимизирует «потери» при наихудшем 0, т. е. 8цр Е {(в* - вJ} = тГшр Е {(в - вJ}, в в в Конечно, это имеет смысл, но беда статистики в том, что в ней имеют смысл миллион понятий, которые не очень хорошо согласуются друг с другом. Мно- Многое из придуманного идеально подходит только для нормально распределенных величин 10). А тут Стейн — с неприятным сюрпризом. Оказывается, в «нормаль- «нормальном» случае тоже не все нормально. Штуковина, безусловно, калибра «о-малого», но как идеологическая диверсия — весома. «Разбор полетов» см. у Секея [22]. С практической точки зрения большую ценность имеют про- противоречия, демонстрирующие слабые звенья интуиции. Скажем, ловушку из раздела 1.2 вполне можно включать в школьную про- программу. Ничего сложного, но обман приходится как раз на ахилле- ахиллесову пяту здравого смысла, — что обеспечивает лечебный эффект. Главное ведь не в толщине маскирующего слоя из формул, а в точ- точности попадания в незащищенные места подсознания. Поэтому, если на парадоксы смотреть как на таблетки от хронической бес- беспечности, то заботиться надо о соответствии диагнозу. Распространенная причина заблуждений — перенос старого опыта на новые понятия. В ядре многих статистических казусов лежат противоестественные свойства вероятностных неравенств. Сравнивая случайные величины X и У, пишут X < У и говорят «X меньше У по вероятности», подразумевая ?{Х <У}> ?{Х ^ У}, (9.8) т.е. вероятность неравенства события {X < У} больше 1/2. 9) &ет С. I/ Ргос. ТЬЫ Вегке1еу Зутр.оп Ма(Ь. 5(а(. & РгоЬ. 1956. 1. Р. 197-206. 10)Даже сред хорошая оценка, 1О'Даже среднее для оценки матожидания в «не нормальном» случае — не такая уж
9.6. Парадоксы 181 Это совсем непохоже на 7 > 3, но возникающие ассоциации путают карты, порождая неприятности типа парадокса транзитивности (раздел 1.5). Свойства отношения (9.8) настолько сильно отличаются от обычного неравенства, что знак < имело бы смысл заменить каким-либо иным. Неразбериху усугубляют другие понятия больше/меньше для с. в. Говорят, например, «X меньше У стохастически», если ?{Х <т}> ?{У < г}, причем ?{Х < т0} > Р{У < т0} для некоторого т0. Оба понятия, вроде бы, естественным образом мотивированы, но могут сильно отличаться друг от друга. Например, если У равномерно распределена на [0,1], а _ Г е2У, с вероятностью е, \ У + е2A - У), с вероятностью 1 - е, то при малых е > О X > У с вероятностью 1 - е, но X < У стохастически. К сказанному можно многое добавить, но это больше подходит для самостоятельной тренировки, потому что дело не в отдельных парадоксах. Вероятностные неравенства — это главный механизм всех неприятностей в ТВ. Главный и постоянно действующий, ибо события как подмножества Л описываются неравенствами, — и ни одна задача не обходится без анализа «равно-больше-меньше». Поэтому без привычки к двойственному характеру неравенств, огра- ограничивающих множества и сравнивающих меры, ориентироваться в ТВ трудно. И что хуже всего, требуется умение держать внима- внимание на двух факторах одновременно, для чего надо быть Юлием Цезарем. Неравенства в задачах ТВ иногда лежат на поверхности, но ча- чаще — за кадром. Вот классический пример. Парадокс Эджворта (XIX в.) — изюминка из разряда «чем боль- больше данных, тем хуже результат». Практического значения, можно сказать, не имеет, но факт — принципиальный. Речь идет о возможности неравенства Аг(°) > Рх@)- (9.9) Здесь рх плотность св. X, а р$ плотность X = (Х[ + Х2)/2, где ^1 и Х2 независимы и одинаково распределены с X.
182 Глава 9. Статистика Неприятность (9.9) обеспечивает плотность 3 рх(х) = 2A +ИL' В результате Р{|Х| < е} > Р{|Х| < е} при малыхи) е > 0, что как раз означает ухудшение оценки нулевого матожидания X при увеличении объема выборки с 1 до 2. ) На самом деле годится любое е > 0.
Глава 10 Сводка основных определений и результатов 10.1. Основные понятия / Вероятностным пространством называется непустое множество П с «уза- «узаконенным» семейством А его подмножеств и неотрицательной функцией (ме- (мерой) Р, определенной на Л и удовлетворяющей условию Р(П) = 1, а также 00 п=\ для любой последовательности А\, Л2,... 6 А взаимно непересекающихся мно- множеств Л,. Другими словами, вероятностное пространство определяет тройка (Л, АР). / На роль А годится не любое семейство, поскольку сумма и пересечение событий не должны выводить за рамки дозволенного. Но тогда приходится тре- требовать А,ВСА => АиВ С А, Л П В С А дополнительно оговаривая (]6 Л, и принадлежность А любого А вместе с допол- дополнением. Такая совокупность множеств называется алгеброй подмножеств П, и — а-алгеброй, в более общем случае, когда в А входят любые суммы и пересечения счетных совокупностей Ак С А: 00 00 У Ак С А, р| Ак С А. / Множество П с заданной на нем а -алгеброй Л называют измеримым пространством. В случае, когда П представляет собой вещественную прямую, — борелевская а-алгебра В порождается1* системой непересекающихся полуинтер- полуинтервалов (а,@]. Элементы В называют борелевскими множествами. В случае п = Кп борелевские множества определяются аналогично (как пря- прямые произведения одномерных). Взятием всевозможных объединений и пересечений.
184 Глава 10. Сводка основных определений и результатов / Вещественная функция /(о?) называется измеримой относительно а -ал- -алгебры Л, если прообраз любого борелевского множества принадлежит Л. Если Л = #, говорят, что функция /(о?) — борелевская. / Любое подмножество Л 6 Л называют событием Л, а его меру Р(Л) — вероятностью события Л. Объединением или суммой событий Л и Б называют событие, состоящее в наступлении хотя бы одного из событий Л, Б, и обозначаемое как Л и В или А + В. Первое обозначение прямо указывает, какое множество в П отвечает сумме событий. Пересечением или произведением событий Аи В называют событие, состоящее в совместном наступлении Л, Б, и обозначаемое как А Г) В или АВ. Р(Л + В) = Р(Л) + Р(Б) - Р(ЛБ). / Событию «не Л» отвечает дополнение Л множества Л в П, а разность Л \ Б, или Л - Б, интерпретируется как наступление Л, но не Б. Наконец, симметрическая разность Л Д Б = (Л1)Б)\(ЛПБ) обозначает событие, состоящее в наступлении одного из Л, Б, но не двух вместе. Пустое множество 0, считается, принадлежит П и символизирует невозмож- невозможное событие. При этом Р@) = 0. / Вероятность Р(Б|Л) наступления Б при условии наступления Л — называют условной, откуда Р(ЛБ) = Р(Л)Р(Б|Л), что именуют формулой умножения вероятностей. </ Разбиение П на полную группу несовместимых (непересекающихся) собы- событий Ль ..., Ап позволяет любое событие Б записать в виде откуда Р(Б) = Р(Б Л ]) +... + Р(Б Ап), что приводит к формуле полной вероятности: Р(Б) = Р(Б|Л1)Р(Л1) + ... + Р(Б|ЛП)Р(ЛП). Формула Байеса,
10.1. Основные понятия 185 интерпретируется как правило определения апостериорных вероятностей Р(Л;|Б) по априорным Р(Ак). / Случайной величиной называется любая вещественная Л-измеримая функ- функция Х(ш), заданная на (П, Л). / Среднее значение тх = Е (X), называют матожиданием Х(ш). Математическое ожидание функции-индикатора Ха(&) множества Л, Ь если шеА'> 0, если ш $ А, равно вероятности Р(Л). Е (аХ + рУ) = аЕ (X) + /ЗЕ (Г). / В континуальном случае, когда точки в П распределены с плотностью (а>), причем / ц(ш) Аш = 1, — вероятность события ш € А определяется как а если на П задана случайная величина Х(ш), в том числе векторная Х(ш) = {Х\(ш),..., Хп(ш)}, то матожидание равно Е (X) = /* Х(и>IА(и>) йш. / Случайные величины X часто описывают с помощью функции распреде- распределения: Р(х) = Р(Х < х). При этом отказ от рассмотрения исходного пространства элементарных событий носит условный характер. Просто одно пространство заменяется другим. Новым пространством П случайной величины X становится вещественная прямая или ее подмножество. Функция Е(х) монотонно возрастает (не убывает) и НтР(х) = 1, Ит Р(х) = 0. Х-400 Х-4-00
186 Глава 10. Сводка основных определений и результатов / Наряду с Р(х) используется также плотность распределения р(х), свя- связанная с Е(х) условием: откуда / Независимость. События А и В называют независимыми, если Р(В\А) = Р(Б) (равносильно Р(А\В) = Р(^4)), т.е. формула умножения вероятностей пере- переходит в Р(АВ) = Р(А)Р(В). Определение п независимых событий имеет вид В применении к случайному вектору с независимыми компонентами X = {ХЬХ2} это дает хиХ2 < х2) = Р(Х, < х1)Р(Х что влечет за собой и, как следствие, / Скаляр - тхJ называется дисперсией случайной величины X, а ах = л/Б (X) — среднеквадра- тическим отклонением X от своего среднего значения тх. / Для двух случайных величин X, У рассматривают смешанные моменты Е (ХпУт). Важную роль во многих ситуациях играют ковариация соу (XV) = Е [(X - ш,)(У - т„)] соу (ХУ) и коэффициент корреляции / Неравенство Коши—Буняковского:
10.2. Распределения 187 / Неравенство Чебышева: Р(|Х-т / Неравенство Колмогорова.Яусть последовательность независимых случай- случайных величин Х$ имеет нулевые матожидания Е [X]} = 0 и V [X]} < ос. Тогда / Неравенство Иенсена. Пусть (р(х) — вогнутая функция (выпуклая вверх), и матожидание Е (X) существует. Тогда 10.2. Распределения / Равномерное распределение в промежутке [а, Ь] имеет плотность которой соответствует функция распределения - / Биномиальное распределение Рн = С имеет сумма 8п = Хх где все св. X* независимы и принимают два возможных значения 1 или 0 с веро- вероятностями р и д = I - р. Сумма принимает значение 8п = к с вероятностью рк. Легко проверяется: „} = пр, Б {$п} = пр(\ - р), Е {[$„ - пр]3} = прA - р)A - 2р). / Вероятность появления к нулей перед первым появлением единицы равна рк = рдк . Совокупность этих вероятностей (при к = 0,1, 2,...) называют
188 Глава 10. Сводка основных определений и результатов геометрическим распределением. Геометрическое распределение имеет случайная величина, равная числу испытаний до первого успеха. / Распределение Пуассона, как и биномиальное, является дискретным, и характеризуется вероятностями = к) = -е (к = 0,1,...). Вычисление показывает, что т.е. параметр а есть матожидание св. X, распределенной по закону Пуассона. Дисперсия X тоже равна а. / Нормальный закон распределения, обозначаемый обычно как М{тпх,а2х) имеет плотность 2 р(х) = однозначно определяемую матожиданием тх и дисперсией ах. Функция распределения Л/\0,1) имеет вид / Функции случайных величин. Если У = /(X), где / обычная детермини- детерминированная функция, а X случайная величина с плотностью р(ж), то Аналогично, Если У = /(X) вектор, подобным образом определяются и ковариации: соу (у;-У)) = 1[Ь(Х) - тиН/,(х) - тщ]р{х) с1х. / Если /(ж) обратима, то у Р{у) = Р{У < у} = Iр(Г'(з/))|[Г'(!/)]'| йу,
10.2. Распределения 189 а плотность р»(у) = рЛгЧу))\[Г(у)]'\, где индексы ж, у показывают, какие плотности подразумеваются. С той же целью может быть использована формула Ру(у) = у Рх(хЩу - /(ж)] ах. Если X и У — векторы, имеющие одинаковую размерность, и 2/1 Уп = р{у <у} = I... I р*Ш)**№\*и, -00 -00 то где / При известной совместной функции распределения Е(и, у) = Р{# < и, V < у} случайного вектора X = {и, V}, имеем ^и(и) = ^(и, оо), 1^(«) = Р(оо, у). Соответственно, (и) = I р(и, у) Ж;, р^у) = I р(и, у) 6,и. / Формула для условной плотности распределения: откуда р(ж, 2/) = р(г/|ж)р(ж). / Через условную плотность определяются любые условные моменты, в том числе условное матожидание: Е(У\х)= [ур(у\х)аУ.
190 Глава 10. Сводка основных определений и результатов / Функция <р(\) = Е (е|А ) называется характеристической функцией св. X. При записи <р(\) = I р(х)е е(Хх -оо<Л<оо это в несущественных деталях отличается от стандартного преобразования Фурье плотности р(х). / При условии абсолютной интегрируемости соответствующая плотность однозначно восстанавливается «обратным преобразо- преобразованием Фурье» Р(х) = ± Если св. Х\,... ,Хп независимы, то х.ф. <р(\) суммы Х\ + ... + Хп равна произведению х. ф. слагаемых: Это обстоятельство и определяет заметную роль характеристических функций в теории вероятностей. / Вот характеристические функции стандартных распределений. распределение нормальное равномерное Коши показательное показательное-2 плотность ^ (х-тгJ р(х) = —?=е ^Г <7Х\/27Г Р(я) = ъ _ а на [а, Ь] Р{Х) п(х> + а>) р(х) — ае ах, х ^ 0 Р(х) - ?-» х. ф. (р(\) гтхХ- \(т\>} л|'АЬ _ р|'Аа гЛF - а) е-а|А| а а-IX 1 1 + А2
10.3. Законы больших чисел 191 / Если случайная величина X принимает дискретные значения X = к с вероятностями рк, то называют производящей функцией св. X. В общем случае целочисленной случай- случайной величины X производящая функция д-распределение биномиальное геометрическое Пуассоновское д-плотность р* = скпркяп-к Рк - Рч" а* - х. ф. <р(\) (ргх + ч)п р 1 - де*А св(е|1А-1) я. ф. П(г) (Р« + д)п р 1-Яг е-а(\-г) С характеристической функцией <р(\) ее связывает соотношение = П(е'А). 10.3. Законы больших чисел / Пусть некоррелированные случайные величины X, имеют одно и то же матожидание ц и одну и ту же дисперсию а2. Тогда при любом е > 0 Х.+... + Х, п Это один из вариантов слабого закона больших чисел, в котором речь идет 5„ Хх + ... + Хп о стабилизации св. — = . п п Предположения о том, что величины X,- имеют одинаковые матожидания и дисперсии — необязательны. / Усиленный закон больших чисел. Один из вариантов: Пусть независимые 00 а2 величины Хп имеют матожидания цп и дисперсии а^ • При условии \^ —| < оо . . . + Хп '" ^п -> 0 (п -> оо) п с вероятностью единица.
192 Глава 10. Сводка основных определений и результатов </ Последовательность функций /„(ж) асимптотически постоянна, если существует такая числовая последовательность р,п, что Р{|/п(я)-А*п| >е}-+0 при п-юо для любого наперед заданного е > 0. Либо, в более жестком варианте, я)} -* 0 ПРИ и-юо. / Теорема. Пусть независимые с. в. Х( распределены на [0, 1] с плотностями рг(Х(), причем все р{(Х() > е > 0, а последовательность функций /п(жь ..., хп) удовлетворяет неравенствам \\*Ш\\ < 7». * € Сп. Гогдо и/ш 7п < 7 < °° дисперсия Б {/„} ограничена некоторой константой, не зависящей от п. Если же уп стремится к нулю с ростом п, то О {/п} -* 0 при п -)> сю, т. е. последовательность функций /п(х) асимптотически постоянна на Сп. </ В общем случае для оценки дисперсий нелинейных функций оказыва- оказывается эффективен следующий результат, опирающийся на понятие сопряженной плотности: X X р'(х) = /1(оо) I рA) Л - р(х), /!(*) = 11р{1) Л. -ОО -ОО Лемма. Пусть независимые с. в. Х( распределены независимо с плотностями Р((Х{), каждая из которых имеет сопряженную р]{Х{). Тогда для любой непрерывно дифференцируемой функции /(жь ..., хп) справедливо неравенство при условии существования интеграла как повторного. 10.4. Сходимость </ Последовательность случайных величин Хп сходится к св. X по вероят- р ности, Хп —> X, если для любого е > 0 Р(|ХП - Х\ > е) -Ю при п-юо. / Последовательность случайных величин Хп сходится к с. в. X в средне- квадратическом, Хп ——> X, если Е (Хп - XJ -4 0.
10.4. Сходимость 193 / Последовательность случайных величин Хп сходится к с. в. X почти наверное (синоним: «с вероятностью I»), Хп -1-> X, если ?{\Хк - Х\ < е, к ^ п) -> 1 при п -+ оо. Поскольку Хп есть функция Хп(ш), то Хп -^* X, если Хп(ш) сходится к Х(ш) в обычном смысле почти для всех ш, за исключением о;-множества нулевой меры. / Последовательность с. в. Хп называется фундаментальной — по вероят- вероятности^ в среднем, почти наверное, — если, соответственно, Р(|ХП - Хт\ >е)-Ю, Е(Хп - ХтJ -> 0, при т, п -» оо и е > 0. е; п} / Признак сходимости Коши. Для сходимости Хп -> X в любом указанном выше смысле необходима и достаточна фундаментальность последовательности Хп в том же смысле. / Сходимость по вероятности из перечисленных разновидностей самая слабая. Импликация «-^» =Ф- «-+» очевидна, а неравенство Чебышева обеспечи- обеспечивает «-^>» =Ф- «-+». Обратное в обоих случаях неверно. В итоге => «-+». Других импликаций нет. / Сходимость по распределению. Последовательность случайных величин Хп сходится к св. X по распределению, Хп —> X, если последовательность соот- соответствующих функций распределения Рп(х) слабо сходится к функции распределе- распределения Р(х). Слабая сходимость Рп(х) означает для любой непрерывной и ограниченной функции ф(х). Это равносильно поточечной сходимости Рп(х) —> Р(х) в точках непрерывности Р(х). р и / Импликация «->» => «->» очевидна. Обратное неверно. / Теорема. Сходимость по распределению Хп —> X равносильна равномерной (на любом конечном промежутке) сходимости <рп(\) -» <р(\) характеристических функций.
194 Глава 10. Сводка основных определений и результатов </ Сходимость матожиданий. Пусть Хп -^А X и все \ХП\ < У, где с. в. У имеет конечное матожидание. Тогда X тоже имеет конечное матожидание иЕ{Хп}-+Е{Х}. Пусть Хп ^ X и все \ХП\ < оо. Тогда Е {|Х|} < оо и Е {Хп} -+ Е {X}. / Последовательность Хп называется равномерно интегрируемой, если вир / \х\ йРп(х) -» 0 при М -» оо, п Л \х\>М где Рп(х) функция распределения Хп. / В условиях равномерной интегрируемости Хп: A) 5ирЕ{|Хп|}<оо; п (и) из Хп —± X следует существование Е {X} и Е {Хп} —^ Е {X}. / Закон «нуля или единицы». Если Х\,ХЪ... — независимые случайные величины, а событие А определяется поведением только бесконечно далекого хвоста последовательности Х\, Хъ ... и не зависит от значений Хи ..., Хп при любом конечном п, — то либо ?{А} = 0, либо ?{А} = 1. </ События, зависящие только от «хвоста», называют остаточными. Таковы, 00 например, события: сходимости ряда \^ X* либо самой последовательности X*; ограниченности верхнего предела \\т Хк < оо и т. п. Л-юо </ Теорема. Если Х\, Х2,... — независимые случайные величины с нулевыми 00 матожиданиями, то для сходимости ряда у Хк почти наверное достаточно сходимости числового ряда: 00 ]Г>{Х*}<оо. (ЮЛ) А если все Хк ограничены, Р{|Х*| < М} = 1, то условие A0.1) и необходимо. / Специфика случайных рядов (в отличие от последовательностей общего вида) проявляется в следующем полезном факте. Теорема. Если Х\,Х2,... — независимые случайные величины, то для ряда 00 2_] Хк понятия сходимости почти наверное, по вероятности и по распределению — эквивалентны.
10.5. Марковские процессы 195 / Центральная предельная теорема. Слабую сходимость Нт Р{ *^** < Л = * / е'2 *' = ф(*> п-юо ^ у/В 8П ) \/2п У -00 обеспечивает условие Ляпунова: для некоторого 6 > О т*|2+'->0 при п->оо, а также более свободное условие Линдеберга: для любого г 1 С 2 (х - Шк) йРкух) -* 0 при п -» оо, где Р*(ж) — функция распределения Хк. 10.5. Марковские процессы / Марковским процессом называют последовательность случайных величин (векторов) Х\,..., Хп,..., в которой «будущее» Х<>п определяется только величи- величиной Хп и не зависит от предыстории Х\,..., Хп-\. / Марковский процесс с дискретным временем и счетным пространством состояний называют марковской цепью. Как правило, подразумевается следующая модель. Состояния пронумерованы. Система (частица), находясь в к-й момент времени в э-м состоянии в (к + 1)-й момент попадает в г-е состояние с вероятно- вероятностью Рц, и тогда при распределении частицы по состояниям с вероятностями р* в следующий момент получается распределение или в векторном виде р*+1 = Рр*, где Р = [Р^] называют матрицей переходных вероятностей. Динамика распределений р* определяется итерациями матрицы Р: Стационарные распределения р* оказываются собственными векторами мат- матрицы Р, Р=Рр\ а сходимость р* -» р* — одним из центральных вопросов. / Отличительной особенностью матриц переходных вероятностей является условие ^^ Р^ = 1, т. е. все столбцовые суммы единичны. Такие матрицы Р ^ О % называют стохастическими.
196 Глава 10. Сводка основных определений и результатов • Собственный вектор р* ^ 0, отвечающий собственному значению Л = 1, у стохастической матрицы существует всегда, т. е. всегда существует стационарное распределение р* = Рр*. • Если матрица Р строго положительна (все Р|; > 0) или же Р* > 0 при некотором &, то все стационарные вероятности р$ > 0, причем итерации р* сходятся к р* > 0, а итерации Рк -» Р^, где у Р^ все столбцы одинаковы и равны р*. Процесс в этом случае называют эргодическим. • Условие «Р* > 0 при некотором к» необходимо и достаточно для прими- примитивности стохастической матрицы, т. е. для того, чтобы спектр Р, за исключением ведущего собственного значения Л = 1, лежал строго внутри единичного кру- круга. В случае импримитивной (не примитивной) матрицы Р предел р может не существовать. Но предел имеют средневзвешенные суммы, ЛГ-ЮО N *~^ / Матрица Р называется разложимой (неразложимой), если одинаковой перестановкой строк и столбцов она приводится (не приводится) к виду где Рп и Р22 квадратные матрицы. / Если матрица Р неразложима, то Л(Р) = 1 является ведущим соб- собственным значением Р алгебраической кратности 1, которому отвечает строго положительный собственный вектор. Других положительных собственных значений и векторов у Р нет. 10.6. Случайные функции и процессы / Случайной функцией называют функцию двух переменных ХA,ш), где ш — точка вероятностного пространства 17, на котором задана та или иная вероятностная мера. Зависимость от случая реализуется при этом каждый раз наступлением исхода ш0 € П, при котором фактическое течение процесса опи- описывается траекторией ХA), которую называют также реализацией процесса или выборочной функцией. / Плотность р(ж, I) случайной функции Х{1) определяет распределение значений ХA) в момент I. Для с. ф естественным образом определяются: матожидание тхA) = Е {*(*)} = I хр(х, I) с1х
10.6. Случайные функции и процессы 197 и корреляционная функция ПххA, в) = Е{[ХA) - тхA)][Х(з) - тх(в)]}, которая при 1 = 8 превращается в дисперсию </ Случайный процесс ХA) стационарен, если его характеристики не ме- меняются при сдвиге по оси времени. При независимости от сдвига по оси времени п-мерной плотности распре- распределения с. ф. ХA) называют стационарной в узком смысле. Менее жесткий вариант: независимость от сдвига по оси времени условного матожидания и корреляционной функции. В этом случае с. ф. ХA) называют стационарной в широком смысле. В том и другом случае матожидание и дисперсия не зависят от времени, а корреляция КххA, з) зависит только от разности 1-8. / С. ф. ХA) называют эргодинной (по отношению к матожиданию) при равенстве среднего значения X по ансамблю и — среднего по времени. Для стационарного процесса это означает где Ьо — произвольный момент времени, а тх = Е{ХA)}. Об эргодичности можно говорить по отношению к любой функции у = ?[*(*!),..., *(*„)!. В частности, — по отношению к корреляционной функции, отталкиваясь от Эргодическое свойство позволяет экспериментально определять матожида- матожидание любой стационарной функции УA) = у?[ХB)] не по множеству реализаций, а по данным одной реализации на достаточно большом промежутке времени Т. Эргодичность стационарной функции по отношению к матожиданию обес- обеспечивает условие о / Преобразование Фурье К(ш) корреляционной функции стационарного процесса, с» с» К(ш) = — / К(т)е~шг д,т <=> К(т) = / К(ш)ешт йш, -с» -с» называют спектральной плотностью сигнала Х{1).
198 Глава 10. Сводка основных определений и результатов Взаимосвязь спектра корреляционной функции со спектром самого сигнала ХA) дает соотношение г-юо : где Ат(ш) — преобразование Фурье сигнала АтA) = ХтA) - тпх, совпадающего с ХA) - тпх на промежутке I € [-Т/2, Т/2] и равного нулю вне этого промежутка. Широкое распространение имеет энергетическое соотношение с» вхх = <т2х = кхх(о) = I кхх(ш) йи, -00 увязывающее среднюю мощность случайного сигнала с его спектральной плот- плотностью. / Стационарный случайный сигнал ХA) с постоянной спектральной плот- плотностью Кхх{ш) = С во всем диапазоне частот от нуля до бесконечности — называют белым шумом. Обратное преобразование Фурье приводит в этом случае к дельтаобразной корреляционной функции ос = С [ ешт <1ш = Яхх(т) = С [ ешт <1ш = 2жС6(т). / Случайная функция Х{1) называется процессом с независимыми при- приращениями, если для любых 20 < ^ < ••• < ^п случайные величины ХA\) - ХAо),... ХAп) - ХAп-\) независимы. Процесс считается однородным, если распределение определяется только разностью I - з. Однородный процесс ХA) с независимыми приращениями называют бро- броуновским движением, или винеровским процессом, если все Х{1^) — Х(^-1) распре- распределены нормально со средним 0 и дисперсией \1к -гь-\\- / Дифференцирование случайной функции перестановочно с операцией математического ожидания. Формула для вычисления корреляционной функции производной УA) = Х'A), дЬдв легко получается предельным переходом.
10.7. Теория информации 199 Спектральная плотность производной сигнала У (г) = Х'A) равна Куу(ш) = ш2Кхх(ш). / Понимание метаморфоз, которые происходят со случайными сигналами при их интегрировании и дифференцировании, играет важную роль в изучении динамичееких систем, описываемых дифференциальными уравнениями. В отличие от детерминированных систем, преобразование Фурье выходного сигнала, равно как и сам сигнал, — для понимания ситуации ничего особенно не дают. Здесь важны не беспорядочные флуктуации, а вероятностные характери- характеристики сигнала, определяемые преобразованием спектра: где IV — передаточная функция линейной системы. 10.7. Теория информации / Энтропия (неопределенность) случайной величины, принимающей п раз- различных значений с вероятностями рх,... ,рп, определяется как При этом действует соглашение 0 • 1о§ 0 = 0 . Двойка в основании логарифмов обычно опускается, а единица измерения называется битом. Таким образом, бит соответствует неопределенности выбора из двух равновероятных возможностей (то ли нуль, то ли единица — например). / Важную роль играют свойства энтропии при рассмотрении объединен- объединенных систем. Пусть {х\,..., хп} и {у{,..., уп} — возможные состояния случайных величин X и У либо двух систем X и У. Состояния вектора {X, У} представляют собой комбинации пар ж, и у,-. Энтропия {X, У} по определению равна где р|; = р(Хг, у,) = ?{Х = ж,, У = у;}. Если системы X и У независимы, то р^ = р,-р,-, и Если же системы зависимы, то р(ж*, у^) = р( Я(Х, У) = Н(Х) + Я(У|Х), ,-), и
200 Глава 10. Сводка основных определений и результатов где называют полной условной энтропией, а Н(У\х{) = - условной энтропией У при условии X = Х(. В обоих случаях говорят об аддитивности энтропии. / Простейшие свойства энтропии: • Энтропия всегда неотрицательна и достигает максимума в случае равноверо- равновероятных возможностей. • Пусть У ]рь = 2~2 Як = I, т- е- Рк и Як ~ два распределения, причем все дь > 0. Тогда • Условная энтропия всегда меньше или равна безусловной Н(У\Х) < Н(У), причем при добавлении условий энтропия не увеличивается. / Пусть Н(А) — энтропия исхода некоторого опыта А. Если опыт В содержит какие-то сведения относительно А, то после проведения В неопреде- неопределенность А уменьшается до условной энтропии Н(А\В). Разность = Н(А) - Н(А\В), по определению, есть количество информации, содержащееся в В относительно А. / Энтропия источника. Если источник информации потенциально может передать г-й символ (алфавита) с вероятностью Рг, то матожидание передавае- передаваемой информации (на один символ) при длительной работе источника — равно энтропии источника: В итоге ясно, что информация и энтропия — это две стороны одного явления. Сколько поступает информации — настолько убывает энтропия (неопределен- (неопределенность). Чем больше энтропия источника, тем больше информации при получении его сигналов. Источник, способный генерировать единственный сигнал, ника- никакой информации не производит. Источник, передающий только два сигнала «ноль/один», имеет единичную интенсивность (один бит на сигнал). Но при большой частоте способен производить много бит в единицу времени.
10.7. Теория информации 201 / Пропускная способность канала. Канал связи в схеме источник канал связи приемник так или иначе, ограничивает скорость передачи информации. В простейшем и широко распространенном случае, когда символов (сигналов) всего два и их длительности одинаковы, пропускная способность С измеряется числом символов, способных пройти по каналу за одну секунду. В общем случае С — это максимальная информация, которая может быть передана по каналу за одну секунду. Если, например, алфавит состоит из п букв и канал способен пропускать N букв в секунду (в точности или в среднем), то С = N 1о§2 п. / Частотная интерпретация. Пусть источник генерирует 1-й символ с ве- вероятностью Рг и символы в сообщении длины N независимы. При достаточно большом N количество символов г-го вида в сообщении с большой точностью равно Ырг. Это дает вероятность сообщения р = 2 -N11 Иными словами, вероятности всех достаточно длинных сообщений равны р = 2~ЛГЯ, а поскольку эти сообщения еще и независимы, то их количество К = 2* Таким образом, энтропия по правилу К = 2МН определяет, например, количество текстов, в которых буквы встречаются с «правильной» частотой. При вероятностной (не частотной) трактовке это означает следующее. С ка- какими бы вероятностями р, источник ни генерировал символы — принципиально возможны все пм сообщений ф длины N, но их вероятности р(ф) различны. Тогда при любом е > О Шп N-+00 У" т. е. сумма вероятностей всех сообщений, вероятности которых отличаются от 2~мн более чем на е, — стремится к нулю (сколь угодно мала при большом И). Соответственно, вероятности сообщений
202 Глава 10. Сводка основных определений и результатов в сумме стремятся к 1. Поэтому при больших N можно считать, что «наблю- «наблюдаемых» сообщений (последовательностей, текстов) имеется как бы ровно 2 Остальными можно пренебречь — их суммарная вероятность близка к нулю. / Оптимальное кодирование. Естественное соображение при кодировании: часто встречающимся символам и словам исходного сообщения ставить в со- соответствие короткие «01»-комбинации, редко встречающимся — длинные. Если в результате символы 0 и 1 будут встречаться одинаково часто, — это будет оптимальным кодом. Оптимальную «игру» на длине кодовых комбинаций реализует код Шеннона— Фано. Буквы алфавита упорядочиваются по убыванию частоты (вероятности) р, появления в тексте, после чего разбиваются на две группы. К первой — относят первые к букв — так, чтобы к после чего первой группе символов ставится в соответствие 0, второй — 1, и это определяет первый разряд кодового числа. Далее каждая группа снова делится на две приблизительно равновероятные подгруппы; первой подгруппе ставится в соответствие 0, второй — 1 и т. д. Группы с малым количеством букв быстро исчерпываются — и эти буквы в результате получают короткие коды. Легко убедиться, что в итоге кодовая запись достаточно длинного сообщения будет содержать приблизительно одинаковое количество нулей и единиц, т. е. при любой частотности исходных символов частоты нулей и единиц двоичных кодов оказываются и равны друг другу. Информационная сторона оптимального кодирования в общем виде выгля- выглядит так. Равновероятные сообщения в количестве К = 2НН могут быть прону- пронумерованы в двоичной записи, для чего потребуется минимальное число разрядов 1оё2 К = N11. Это и будет оптимальным двоичным кодом. В рамках вероятностной модели возможны все п^ сообщений длины N (а не только К = 2ЛГЯ), но при больших N можно считать, что «наблюдаемых» сообщений имеется как бы ровно 2МН. Остальными можно пренебречь — их сум- суммарная вероятность близка к нулю. Поэтому маловероятные сообщения можно ко- кодировать достаточно длинными «01-последовательностями». Из-за их маловероят- ности это в среднем почти не будет сказываться на скорости передачи информации. / Канал с шумом. При наличии шума в канале связи, вход X канал связи выходУ = /(Х, выходной сигнал У = /(X, ^) зависит от входа X и шума ^. Если шум искажает в среднем 1 % символов, то о любом принятом символе нельзя сказать наверняка, правилен он или нет. Максимум возможного — при
10.7. Теория информации 203 независимой генерации букв — утверждать их правильность с вероятностью 0,99. Но если речь идет о передаче осмысленного текста, то сообщение при 1 % ошибок можно восстановить (по словарю) с высокой степенью надежности. Понятно, что это возможно благодаря избыточности языка. В общем случае проблема заключается в том, чтобы подобную избыточность обеспечить при кодировании. В нешумящем канале Н(Х\У) = 0, т. е. принятый сигнал однозначно опреде- определяет переданный. В общем случае условная энтропия Н(Х\У) служит показателем того, насколько шумит канал. При вероятности ошибки 0,01 в случае равноверо- равновероятной передачи источником двоичных символов 1 1 99 99 ~100 108 100 ~ 100 '°8 100 * °'° Поэтому при передаче по каналу 100 символов в секунду скорость передачи информации равна 100 — 8 = 92 бита в секунду. Ошибочно принимается лишь один бит из ста, но «потери» равны 8 битам из-за того, что неясно, какой символ принят неверно. Пропускная способность канала с шумом, по определению Шеннона, — это максимальная скорость прохождения информации С = тах[Н(Х) - Н(Х\У)] (бит в секунду), где максимум берется по всем возможным источникам информации, а энтропия Н измеряется в битах в секунду. На первый взгляд, это сильно отличается от ситуации канала без шума, где под С обычно мыслится максимально возможное число проходящих импульсов. Но это не совсем так. Во-первых, система передачи может быть не двоичной. Во-вторых, сама передача символов по каналу бывает малоэффективна — сим- символов много, информации мало. Поэтому аккуратное определение пропускной способности канала без шума в точности совпадает с данным выше определением, при условии Н(Х\У) = 0. При этом ясно, что в ситуации Н > С передача информации без потерь невозможна. В примере с искажением 1 % двоичных символов, если канал физически способен пропускать 100 бит/с, — его пропускная способность равна 92 бит/с. Информационные потери 8 бит приходятся на Н(Х\У), т.е. на шум. Теоремы Шеннона. Допустим, что помимо основного — есть дополнительный корректирующий канал. Если корректирующий канал имеет пропускную способность не меньше Н(Х \У), то при надлежащей кодировке возможен практически безошибочный прием сообщений (с точностью до сколь угодно малой доли ошибок).
204 Глава 10. Сводка основных определений и результатов Пусть Н бит/с — энтропия источника, а С — пропускная способность канала с шумом. Если Н ^ С, то при надлежащем кодировании возможен практически безошибочный прием сообщений (с точностью до сколь угодно малой доли ошибок). / Энтропия непрерывного распределения р(х) определяется как 00 Н = - / р(х) 1оё р(х) их. Если X — случайный вектор, энтропия вычисляется аналогично с той лишь разницей, что интегрирование ведется по всему пространству. Свойства энтропии непрерывных распределений в основном подобны свой- свойствам энтропии дискретных распределений. Максимум Н на ограниченной обла- области достигается при равномерной плотности, а максимум при заданной диспер- дисперсии — приводит к нормальному закону. / Любой непрерывный сигнал с ограниченным спектром, в силу теоремы отсчетов (теоремы Котельникова), может быть представлен в виде 5Ш7ГBШ-П) тгBШ-п) ' т. е. определяется значениями хA) в дискретном ряде точек, расположенных с интервалом времени Д* = 1/B17), где № — полоса пропускания частот (ширина спектра). Это позволяет свести изучение передачи непрерывных сигналов к дискретному случаю. Пусть где ХA) — передаваемый сигнал, УA) — принимаемый, NA) — белый шум мощности Х)^. В силу независимости ХA) и NA), мощность (дисперсия) сигнала на выходе равна Ву = Вх + ^лг • Вычисление показывает, что пропускная способность канала в данном случае, определяется полосой пропускания № и отношением сигнал/шум, 10.8. Статистика / Набор независимых случайных величин Хи ..., Хп, каждая из которых распределена так же, как изучаемая св. X, — называют случайной выборкой объема п, а любую функцию 0П = 9П(ХЬ ..., Хп) — статистической характери- характеристикой (с. х.), или статистикой. Определению обычно подлежат вероятности тех
10.8. Статистика 205 или иных событий, матожидания, дисперсии, корреляции и другие характеристики с. в. на базе с. х. / При оценке неизвестного параметра в, характеризующего св. X, оцен- оценка в на основе 0П называется — состоятельной, если 0П -» в при п -> оо, и — смещенной/несмещенной, если матожидание Е {вп} при любом п равно/не равно в. / Промежуток, которому принадлежит оцениваемый параметр 0 с вероят- вероятностью ^ 6, называют доверительным интервалом, 6 — коэффициентом доверия, а 1 — ^ — уровнем значимости. / В случае существования уев. X первых двух моментов выборочное среднее V — ^1 "^ • • • "^ Хп П в силу Е {Хп} = тх, является несмещенной оценкой. Плюс к тому, /V С)( ^ Р что обеспечивает Хп —> X, и тем более, Хп -» X. Однако несмещенной оценкой дисперсии является Пп п-\ где в знаменателе стоит п - 1 вместо интуитивно ожидаемого п. / Хи-квадрат распределение имеет плотность р(х) = 0 при х^Ои где Г — гамма-функция2), а целочисленный параметр п называют числом степеней свободы. Так распределен квадрат вектора х = "№,..., Хп), с нормальными координатами Хк, имеющими нулевые матожидания и единичные дисперсии. Распределение Стьюдента (I-распределение) имеет случайная величина 2>ГИ = у>'е-*й*.
206 Глава 10. Сводка основных определений и результатов где п число степеней свободы, св. X имеет нормальное распределение Л/'@,1)» а \2 распределена по закону «хи-квадрат». / Для независимых и одинаково распределенных св. Хх,..., Хп с плот- плотностью рв(х) метод максимального правдоподобия Фишера заключается в макси- максимизации совместной плотности распределения Х\,...9Хп при полученных реализациях жь...,жп. Функция 9П = 0п(жь ... , хп), обеспечивающая такой максимум, называется оценкой мак- максимального правдоподобия. Неравенство Рао—Крамера: где — количество информации по Фишеру.
Сокращения и обозначения ТВ — теория вероятностей с. в. — случайная величина с. ф. — случайная функция с. х. — статистическая характеристика с. к. — среднеквадратический(ая, ое) п. ф. — производящая функция х. ф. — характеристическая функция п. н. — почти наверное б. ч. р. — бесконечное число раз <* и > — начало и конец рассуждения, темы, доказательства (?) — предлагает проверить или доказать утверждение в качестве упражнения, либо довести рассуждение до «логической точки» (!) — предлагает обратить внимание / — обозначает интегрирование по области определения функции, стоящей под 00 интегралом, чаще всего: / -00 Р(л4) — вероятность события А Е (X) — математическое ожидание случайной величины X Б (X) = Е [X - Е (X)J — дисперсия случайной величины X
208 Сокращения и обозначения /лг = Е [X - Е (Х)]г — центральный момент г-го порядка <т\ = у/В (X) — среднеквадратическая ошибка М(тпх, сг2х) — нормальное распределение с матожиданием гпх и дисперсией <т\ П — пространство элементарных событий А =» В — из А следует В ж € X — ж принадлежит X 11)У, X ПУ, Х\У — объединение, пересечение и разность множеств X и У ХДУ = (Х\У) и (У\Х) — симметрическая разность множеств X и У X С У — X подмножество У, в том числе имеется в виду возможность X СУ, т. е. между X С У и X С У различия не делается 0 — пустое множество г — мнимая единица, г2 = -1 г = х + гу — комплексное число, г = г(со5 (р + г $т у?) — его тригонометрическая запись, х = Яе г — действительная часть, у = 1т г — мнимая; ~г — г* — х — гу — комплексно сопряженное число (ж, у) либо {х,у) — скалярное произведение векторов ж и у; в общем случае комплексных векторов (Ж, у) =Х1у\+...+ХпУп\ для скалярного произведения используются также эквивалентные обозначения х • у и ху \А\ = с1е1 А — определитель (детерминант) матрицы А р(А) — спектральный радиус матрицы А 6,1 = /'(I) — производная {{I) ди частная производная функции и по переменной х; эквивалентное обозна- дх чение их — градиент функции /(ж)
Литература 1. Беккенбах Э., Беллман Р. Неравенства. М., 2004. 2. Бшшнгслей П. Эргодическая теория и информация. М.: Мир, 1969. 3. Боровков А. А Теория вероятностей. М.: УРСС, 2003. 4. Босс В. Интуиция и математика. М., 2003. 5. Босс В. Лекции по математике. М.: УРСС, 2004-2005. 6. Гихман И. //., Скороход А. В. Введение в теорию случайных процессов. М.: Наука, 1965. 7. Данцер Л., Грюнбаум />., Кли В. Теорема Хелли и ее применения. М.: Мир, 1968. 8. Дуб Д. Вероятностные процессы. М.: ИЛ, 1956. 9. Дюге Д. Теоретическая и прикладная статистика. М.: Наука, 1972. 10. Золотарев В. М. Современная теория суммирования независимых слу- случайных величин. М.: Наука, 1986. 11. Кац М. Статистическая независимость в теории вероятностей, анализе и теории чисел. М.: ИЛ, 1963. 12. Кац М. Вероятность и смежные вопросы в физике. М.: УРСС, 2003. 13. Колмогоров А. И. Основные понятия теории вероятностей. М.: Наука, 1974. 14. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функцио- функционального анализа. М.: Наука, 1972. 15. Ламперти Дж. Вероятность. М.: Наука, 1973. 16. Липцер Р. Ш., Ширяев А. Н. Теория мартингалов. М.: Наука, 1986. 17. Неве Ж. Математические основы теории вероятностей. М.: Мир, 1969. 18. Прохоров Ю. В., Розанов Ю.А. Теория вероятностей. СМБ. М.: Наука, 1973. 19. Прохоров Ю. В., Ушаков В. Г., Ушаков Н. Г. Задачи по теории вероят- вероятностей. М.: Наука, 1986. 20. Пугачев В. С. Теория вероятностей и математическая статистика. М.: Наука, 1979. 21. Розанов Ю.А. Теория вероятностей, случайные процессы и математи- математическая статистика. М.: Наука, 1985.
210 Литература 22. Секей Г. Парадоксы в теории вероятностей и математической стати- статистике. М.: Мир, 1990. 23. Спицер Ф. Принципы случайного блуждания. М.: Мир, 1969. 24. Стэнли Р. Перечислительная комбинаторика. М.: Мир, 1990. 25. Уиттл П. Вероятность. М.: Наука, 1982. 26. Феллер В. Введение в теорию вероятностей и ее приложения. М.: Мир, 1967. 27. Халмош П. Теория меры. М.: ИЛ, 1953. 28. Харрис Т. Теория ветвящихся случайных процессов. М.: Мир, 1966. 29. Хида Т. Броуновское движение. М.: Наука, 1987. 30. Шеннон К. Работы по теории информации и кибернетике. М.: ИЛ, 1963. 31. Ширяев А. Н. Вероятность. М.: Наука, 1980.
Предметный указатель Аддитивность энтропии 144, 200 асимптотическое постоянство 75, 192 Байт 150 белый шум 113, 198 биномиальное распределение 44, 187 бит 142, 199 блуждание многомерное 92 больше по вероятности 20 борелевская а -алгебра 39, 183 борелевское множество 39, 183 броуновское движение 114, 198 Вероятности перехода 100, 195 вероятность разорения 124 Геометрическое распределение 44, 188 Дисперсия 29, 186 доверительный интервал 170, 205 допустимая статистика 180 Задача Банаха 41 — Бюффона 23 — идентификации 36, 139 — о баллотировке 123 — о выборе невесты 41 — о разорении 96 закон арксинуса 122 — больших чисел 71 — «нуля или единицы» 90 — повторного логарифма 176 — Рэлея 69 Игра в «орлянку» 44 избыточность сообщения 149 интервал Найквиста 161 информации количество 146, 200 информация по Фишеру 178, 206 Ковариационная матрица 34 ковариация 30, 186 код ЯЬЕ 152 — двоичный 149 — Хэмминга 156 — Шеннона—Фано 150, 202 кодирование 149 корреляционная матрица 34 — функция 108, 197 коэффициент корреляции 30, 186 Лемма Бореля—Кантелли 73 Мартингал 98 матожидание 20, 185 матрица неразложимая 102, 196 — разложимая 102, 196 — стохастическая 101, 195 меньше по вероятности 180 — стохастически 181 метод максимального правдопо- правдоподобия 178, 206 — наименьших квадратов 34 модель Изинга 70 момент 71-го порядка 30
212 Предметный указатель Независимые события 28, 186 неравенство Иенсена 34, 187 — Колмогорова 33, 187 — Коши—Буняковского 31, 186 — Маркова 32 — Рао—Крамера 178, 206 — Чебышева 32, 187 двумерное 40 нормальное распределение 46 нормальный закон 46, 188 Объединение событий 16, 184 оценка максимального правдопо- правдоподобия 178, 206 — смещенная/несмещенная 170, 205 — состоятельная 170, 205 — эффективная 178 Парадокс Бернштейна 28 — Бертрана 23 — Гиббса 168 — де Мере 40 — Кардано 11 — ожидания серии 21 — Петербургский 22 — раздела ставки 41 — Стейна 180 — транзитивности 20 — Фишера 179 — Эджворта 181 передаточная функция 118 пересечение событий 17, 184 перестановки 15 — с повторениями 15 плотность распределения 25, 186 совместная 29 поток событий 62 принцип максимума энтропии 134 произведение событий 17, 184 производная обобщенной функ- функции 48 производящая функция 191 пропускная способность канала 147, 201 процедура Роббинса—Монро 140 процесс винеровский 114, 198 — восстановления 128 — Гальтона—Ватсона 137 — Маркова 99, 195 — однородный 114, 198 — с независимыми приращения- приращениями 114, 198 Равномерная интегрируемость 89, 194 равномерное распределение 26 размещения 15 распределение арксинуса 119 — безгранично делимое 97 — Коши 27, 68 — показательное 55, 190 — простых чисел 66 — Стьюдента 176, 205 — устойчивое 97 — хи-квадрат 176, 205 — экспоненциальное 64 регрессия 53 Семиинварианты 56 система агрегированная 158 — укрупненная 158 случайная величина 19 — выборка 169, 204 — функция 107 случайное блуждание 91 случайный процесс 107 смешанная стратегия 127 событие остаточное 90, 194 сопряженная плотность 77
Предметный указатель 213 состояние возвратное 101 — достижимое 101 — несущественное 101 — периодическое 101 состояния сообщающиеся 101 сочетания 15 спектральная плотность 111, 112, 197 среднее значение 20, 185 среднеквадратическое отклонение 29, 186 статистика Бозе—Эйнштейна 66 — достаточная 178 — Максвелла—Больцмана 65 — Ферми—Дирака 66 статистическая характеристика 169, 204 стационарный процесс 109 сумма событий 16, 184 схема Бернулли 43 сходимость в среднеквадратиче- ском 84, 192 — по вероятности 84, 192 — по распределению 87, 193 — почти наверное 84, 193 — с вероятностью 1 84, 193 — слабая 87, 193 Теорема Котельникова 160 — отсчетов 160 — центральная предельная 95 Уравнение Колмогорова—Чеп- мена 101 урновые модели 45 уровень значимости 170, 205 условие Линдеберга 96, 195 — Ляпунова 95, 195 условная вероятность 18, 184 — плотность вероятности 52 условное матожидание 53, 189 Финитная функция 48 формула Байеса 19, 184 — Литтла 134 — полной вероятности 19, 184 — Стирлинга 15 функция борелевская 39, 184 — измеримая 39, 184 — распределения 24, 185 — Хэвисайда 49 функция-индикатор 20, 185 Характеристическая функция 54, 190 Центральный момент 30 центрированная величина 30 цепь Маркова 100, 195 однородная 101 Элементарное событие 10 энтропия 141, 158 — источника 146, 200 — полная условная 144, 200 — условная 144, 200 эргодичность 102, 109, 196 <т-алгебра 38, 183
Уважаемые читатели! Уважаемые авторы! Наше издательство специализируется на выпуске научной и учебной литературы, в том числе монографий, журналов, трудов ученых Россий- Российской академии наук, научно-исследовательских институтов и учебных заведений. Мы предлагаем авторам свои услуги на выгодных экономи- экономических условиях. При этом мы берем на себя всю работу по подготовке издания — от набора, редактирования и верстки до тиражирования и распространения. 1Ш55 Среди вышедших и готовящихся к изданию книг мы предлагаем Вам следующие: В. Босс Лекции по математике: линейная алгебра Книга отличается краткостью и прозрачностью изложения. Объяснения даются «человеческим языком» — лаконично и доходчиво. Значительное внимание уделяется мотивации результатов и прикладным аспектам. Даже в устоявшихся темах ощущается свежий взгляд, в связи с чем преподаватели найдут для себя немало интересного. Книга легко читается. Аналитическая геометрия рассматривается как вспомога- вспомогательный предмет, способствующий освоению понятий век- векторного пространства. Охват линейной алгебры достаточно широкий, но изложение построено так, что можно ограни- ограничиться любым желаемым срезом содержания. Для студентов, преподавателей, инженеров и научных работников. В. Босс. Лекции по математике Планируются к изданию следующие тома: Анализ (вышел) Дифференциальные уравнения (вышел) Линейная алгебра (вышел) Вероятность, информация, статистика (вышел) Геометрические методы нелинейного анализа Дискретные задачи ТФКП Вычислимость и доказуемость Оптимизация Уравнения математической физики Функциональный анализ Алгебраические методы Случайные процессы Топология Численные методы По всем вопросам Вы можете обратиться к нам: тел./факс @95) 135-42-16, 135-42-46 или электронной почтой 1Ж88@1Ж88.ги Полный каталог изданий представлен в Интернет-магазине: пИр://1Ж88.ги Научная и учебная литература
Представляем Вам наши лучшие книги: Гнеденко Б. В., Хинчин А. Я. Элементарное введение в теорию вероятностей. Гнсденко Ь. В. Очерк но истории теории вероятностей. Хинчин А. Я. Асимптотические законы теории вероятностей. ЫЙ55 Хинчин А. Я. Работы но математической теории массового обслуживания. Боровков А. А. Теория вероятностей. Боровков А. А. Эргодичность и устойчивость случайных процессов. Золотареве кия Д. И. Теория вероятностей. Задачи с решениями. Пытьев Ю. П. Возможность. Элементы теории и применения. Кац М. Вероятность и смежные вопросы в физике. Григорян А. А. Закономерности и парадоксы развития теории вероятностей. Шикин Е. В. От игр к играм. Математическое введение. Оуэн Г. Теория игр. Жуковский В. //., Жуковская Л. В. Риск в многокритериальных и конфликтных системах при неопределенности. Жуковский В. //. Кооперативные игры при неопределенности и их приложения. Смольяков Э. Р Теория антагонизмов и дифференциальные игры. Смольяков 0. Р. Теория конфликтных равновесий. Зеликин М. //. Оптимальное управление и вариационное исчисление. В. Босс. Наваждение Смирнов Ю. Л/. Курс аналитической геометрии. Гильберт Д., Кон-Фоссен С. Наглядная геометрия. Белько И. В. и др. Дифференциальная геометрия. Клейн Ф. Неевклидова геометрия. Клейн Ф. Высшая геометрия. Понтрягин Л. С. Основы комбинаторной топологии. Рашевский //. К. Риманова геометрия и тензорный анализ. Рашевскии /7. К. Курс дифференциальной геометрии. Титчмарш Э. Введение в теорию интегралов Фурье. Филипс I. Дифференциальные уравнения. Степанов В. В. Курс дифференциальных уравнении. Филиппов А. Ф. Введение в теорию дифференциальных уравнений. Картан А. Дифференциальное исчисление. Дифференциальные формы. Ландау Э. Введение в дифференциальное и интегральное исчисление. Дубровин Б. А., Новиков С. П., Фоменко А. Г. Современная геометрия. Т. 1 - Ч. Боярчук А. К. и др. Справочное пособие по высшей математике (Антилемидович). Т I -5. Краснов М.Л. и др. Вся высшая математика. Т. 1-6. Краснов М. Л. и др. Сборники задач с подробными решениями. Фейнман Р., Лейтон Р., Сэндс М. Фейнмановские лекции по физике. Вайнберг С. Мечты об окончательной теории. Пер. с амм. Грин Б. Элегантная Вселенная. Суперструны и поиски окончательной теории. Пснроуч Р. НОВЫЙ УМ КОРОЛЯ. О компьютерах, мышлении и законах физики.
ББК 22.171я73 Босс В. Лекции по математике. Т. 4: Вероятность, информация, статистика. М.: КомКнига, 2005. - 216 с. 13ВN 5-484-00168-4 Книга отличается краткостью и прозрачностью изложения. Объяснения даются «человеческим языком» — лаконично и доходчиво. Значительное вни- внимание уделяется мотивации результатов. Помимо классических разделов теории вероятностей освещается ряд новых направлений: нелинейный закон больших чисел, асимптотическое агрегирование. Изложение сопровождается большим ко- количеством примеров и парадоксов, способствующих рельефному восприятию материала. Затрагиваются многие прикладные области: управление запасами, биржевые игры, массовое обслуживание, страховое дело, стохастическая ап- аппроксимация, обработка статистики. Несмотря на краткость, достаточно полно излагается теория информации с ответвлениями «энтропийно термодинамиче- термодинамического» характера. Охват тематики достаточно широкий, но изложение построено так, что можно ограничиться любым желаемым срезом содержания. Книга легко читается. Для студентов, преподавателей, инженеров и научных работников. Издательство «КомКнша». 117312, г. Москва, пр-г 60-легия Октября, 9. Подписано к печати 21.06.2005 г. Формат 60x90/16. Печ. л. 13,5. Зак. № 130. Отпечатано в ООО «ЛЕНАНД». 117312, [.Москва, пр-т 60-летия Октября, д. МА, стр. И. I8ВN 5-484-00168-4 НАУЧНАЯ И УЧЕБНАЯ ЛИТЕРАТУРА Е-таН: 11Р55@11Р55.ги Каталог изданий в Интернете: Нйр.7/1Ж55.ги Тел./факс: 7 @95) 135^2-16 ЫП55 Тел./факс: 7 @95) 135^2^6 КомКнига, 2005 3299 Ю 29480 785484 001682
Проект издания 20 томов «Лекций по математике» В. Босса обретает краски. Автор наращивает обороты и поднимает планку все выше. Читательская аудитория ширится. В условиях информационного наводнения инструменты вчерашнего дня перестают работать. ^гоэтолгу учить надо как-то иначе. «Лекции» дают. прилгер. плохой ли, хороший — покажет врелш. Я-1о в люболА случае, это продукт нового поколения. <]Ее же «колеса», тот же «руль», та же ллателлатическая суть, — но по-другольу. В- Ъосс НАУЧНАЯ И УЧЕБНАЯ ЛИТЕРАТУРА Е-таН: 11К88@11К88.ги Каталог изданий в Интернете: М1р://1Ж55.щ Тел./факс: 7 @95) 135-42-16 УВ55 Тел./факс: 7 @95) 135-42-^6 3299 Ю 29480 9 785484 001682 Из отзывов читателей: Чтобы усвоить предмет, надо освободить его от деталей, обнажить центральные конструкции, по- понять, как до теорем можно было додуматься. Это тяжелая работа, на которую не всегда хватает сил и времени. В «Лекциях» такая работа проделывается автором. Популярность книг В. Босса среди преподавате- преподавателей легко объяснима. Дается то, чего недостает. Общая картина, мотивация, взаимосвязи. И самое главное — легкость вхождения в любую тему. Содержание продумано и хорошо увязано. Гро- Громоздкие доказательства ужаты до нескольких стро- строчек. Виртуозное владение языком. Что касается за- замысла изложить всю математику в 20 томах, с тру- трудом верится, что это по силам одному человеку. Лекции В. Босса —- замечательные математиче- математические книги. Как учебные пособия, они не всегда отвечают канонам преподавания, но студентам это почему-то нравится. Отзывы о настоящем издании, а также обнаруженные опечатки присылайте по адресу 1)К55(аI)К55.ги. Ваши замечания и предложения будут учтены и отражены на меЬ-странице этой книги в нашем интернет-магазине Нйр://1)К55.ги