/
Author: Пугачев В.С.
Tags: теория вероятностей и математическая статистика теория вероятностей математическая статистика комбинаторный анализ теория графов математика
ISBN: 5-9221-0254-0
Year: 2002
Text
УДК 519.2 ББК 22.17 П88 Пугачев B.C. Теория вероятностей и математическая статис- статистика: Учеб. пособие.— 2-е изд., исправл. и дополи.— М.: ФИЗМАТ ЛИТ, 2002.- 496 с— ISBN 5-9221-0254-0. В книге изложены основы теории вероятностей и математической ста- статистики. В первых пяти главах дается достаточно строгое изложение основ теории вероятностей в рамках конечномерных случайных величин на осно- основе традиционных курсов математического анализа и линейной алгебры. В последующих пяти главах изложены основы математической статистики: точечное и интервальное оценивание параметров распределений, плотно- плотностей и функций распределения, общая теория оценок, метод стохастических аппроксимаций, методы построения статистических моделей. Первое издание — 1979 г. Книга предназначена для студентов и аспирантов факультетов при- прикладной математики вузов и для инженеров. Табл. 7. Ил. 38. Библиогр. 135 назв. Учебное издание ПУГАЧЕВ Владимир Семенович ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Редактор Е.Ю. Ходан Оригинал-макет Д. В. Горбачева Оформление обложки А.Ю. Алехиной ЛР №071930 от 06.07.01. Подписано в печать 23.05.02. Формат 60x90/16. Бумага офсетная №1. Печать офсетная. Усл. печ. л. 31. Уч.-изд. л. 34,1. Тираж 5000 экз. Заказ № Издательская фирма «Физико-математическая литература» МАИК «Наука/Интерпериодика» 117864 Москва, ул. Профсоюзная, 90 Отпечатано с готовых диапозитивов в РГУП «Чебоксарская типография № 1» 428019, г. Чебоксары, пр. И. Яковлева, 15 ISBN 5-9221-0254-0 © Jf^^nn © B.C. Пугачев, 2002
ОГЛАВЛЕНИЕ Предисловие ко второму изданию 5 Из предисловия к первому изданию 6 Глава 1. Вероятности событий 11 1.1. Случайные явления 11 1.2. Статистический подход к описанию случайных явлений . 15 1.3. Непосредственное определение вероятностей 22 1.4. Действия над событиями 26 1.5. Аксиомы теории вероятностей 30 1.6. Условные вероятности 36 1.7. Вероятности сложных событий 41 1.8. Повторение опытов 43 1.9. Распределение Пуассона 48 Глава 2. Случайные величины 53 2.1. Общие определения. Дискретные случайные величины . 53 2.2. Непрерывные случайные величины. Плотность случайной величины 56 2.3. Обобщение понятия плотности 64 2.4. Функция распределения 69 2.5. Энтропия распределения 80 Глава 3. Числовые характеристики случайных величин . . 91 3.1. Математическое ожидание 91 3.2. Моменты второго порядка 95 3.3. Моменты второго порядка случайных векторов 102 3.4. Канонические разложения случайных векторов 112 3.5. Другие числовые характеристики случайных величин . . 121 3.6. Одномерное нормальное распределение 125 Глава 4. Проекции случайных векторов и их распределения 132 4.1. Распределения проекций случайного вектора 132 4.2. Условные распределения проекций случайного вектора . 138 4.3. Условные числовые характеристики 147 4.4. Характеристические функции случайных величин .... 151 4.5. Многомерное нормальное распределение 161 4.6. Информация, содержащаяся в случайных величинах ... 174 Глава 5. Функции случайных величин 182 5.1. Моменты функций случайных величин 182 5.2. Функция распределения функции случайного аргумента 187
Оглавление 5.3. Плотность функции случайного аргумента 199 5.4. Предельные теоремы 220 5.5. Информация, содержащаяся в функциях случайных ве- величин 223 Глава 6. Оценивание параметров распределений 239 6.1. Основные задачи математической статистики 239 6.2. Оценивание статистических характеристик 244 6.3. Частота как оценка вероятности 252 6.4. Оценки математического ожидания и дисперсии случай- случайной величины 255 6.5. Оценки математического ожидания и ковариационной матрицы случайного вектора 266 6.6. Проверка гипотез о параметрах распределений 276 Глава 7. Теория оценок 281 7.1. Общие свойства оценок 281 7.2. Основные методы нахождения оценок 293 7.3. Рекуррентное оценивание корня уравнения регрессии . . 300 7.4. Рекуррентное оценивание точки экстремума регрессии . . 307 Глава 8. Оценивание распределений 313 8.1. Оценки плотности и функции распределения 313 8.2. Приближенное представление распределений 322 8.3. Проверка гипотез о распределениях 334 8.4. Метод статистического моделирования 345 Глава 9. Статистические модели, I 351 9.1. Математические модели 351 9.2. Регрессионные модели 354 9.3. Оценивание регрессий 366 9.4. Проверка гипотез о регрессии 379 9.5. Дисперсионный анализ 387 Глав а 10. Статистические модели, II 400 10.1. Модели, описываемые разностными уравнениями 400 10.2. Оценивание величин, определяемых разностным уравне- уравнением 404 10.3. Факторные модели 425 10.4. Модели распознавания 432 10.5. Модели принятия решений 448 Приложение 460 1. Импульсная дельта-функция и ее производные 460 2. Некоторые определенные интегралы 463 3. Таблицы 468 Цитированная литература 479 Список дополнительной литературы 486 Основные обозначения 487 Предметный указатель 490
ПРЕДИСЛОВИЕ КО ВТОРОМУ ИЗДАНИЮ Во втором издании книга подверглась несущественной переработ- переработке. В нее включены все дополнения, вошедшие в английское издание книги*), уточнен материал приложения 2, дополнен список литера- литературы. В связи с тем, что базовые методы теории вероятностей и ма- математической статистики содержатся во всех широко доступных математических библиотеках и статистических пакетах программ, в соответствующих разделах книги сняты ссылки на программы на языке Фортран-4 [94]. И.Н. Синицыным и В.И. Синицыным написан материал, содержа- содержащий элементы теории информации (разд. 2.5, 4.6, 5.5, пп. 3.6.6, 4.5.10), а также в соответствии с [131] переработано изложение: — теории канонических разложений и ее применения (разд. 3.4, 10.3, п. 9.2.6); — теории характеристических функций (разд. 4.4); — теории нормального распределения (разд. 3.6, 4.5); — методов теории статистического моделирования; — методов приближенного представления плотностей распределе- распределений (разд. 8.2). Все опечатки и неточности, замеченные в первом издании и в ан- английском издании, исправлены. *) Pugachev V.S. Probability Theory and Mathematical Statistics for Engineers.— Oxford: Pergamon Press, 1984.
ИЗ ПРЕДИСЛОВИЯ К ПЕРВОМУ ИЗДАНИЮ Книга написана на основе курсов лекций, читанных автором на протяжении ряда лет студентам факультета прикладной математики Московского авиационного института им. С. Орджоникидзе (МАИ). Книга рассчитана на студентов и аспирантов факультетов приклад- прикладной математики университетов и высших технических учебных заве- заведений. Однако она может быть полезной и для инженеров и научных работников, которым приходится пользоваться статистическими ме- методами в прикладных исследованиях, а также для математиков, спе- специализирующихся в области теории вероятностей и математической статистики. Книга ориентирована в первую очередь на прикладников. Это определило ее структуру и характер. В ней дано достаточно строгое изложение основ теории вероятностей и математической статистики в рамках конечномерных случайных величин без применения теории меры и функционального анализа. За основу построения теории вероятностей принята система ак- аксиом А.Н. Колмогорова. Однако аксиомы вводятся лишь после изу- изучения свойств частот событий и подхода к понятию вероятности как абстрактному понятию, отражающему экспериментально наблюдае- наблюдаемую закономерность в поведении частот событий — их устойчивость. В результате такого подхода аксиомы теории вероятностей вводятся как естественное распространение свойств частот событий на вероят- вероятности. При изучении случайных величин почти везде, особенно в задачах математической статистики, рассматриваются сразу векторные слу- случайные величины. Это усиливает прикладную направленность книги, так как в большей части задач практики приходится иметь дело с многомерными случайными векторами (конечными множествами ска- скалярных случайных величин). Первоначально книга была задумана только как учебное пособие по одноименному курсу, однако затем возникла необходимость вклю- включить дополнительный материал по математической статистике, необ- необходимый для выполнения студентами курсовых и дипломных работ, а также обеспечения студенческих научно-исследовательских работ. В результате книга, кроме основ теории вероятностей, содержит крат-
Из предисловия к первому изданию 7 кое изложение всех основных разделов математической статистики (применительно к конечномерным случайным величинам). Кроме традиционных вопросов точечного и интервального оцени- оценивания и общей теории оценок, в книге изложены метод стохастических аппроксимаций, многомерный регрессионный анализ, дисперсионный анализ, факторный анализ, теория оценивания неизвестных парамет- параметров в стохастических разностных уравнениях, основы теории распо- распознавания и проверки гипотез, элементы общей статистической теории решений, основы метода статистического моделирования. В главе 1 изучаются основные свойства частот событий, дается частотный подход к понятию вероятности и рассматриваются слу- случаи, когда вероятности событий можно вычислять непосредствен- непосредственно из соображений равновозможности (равновероятности) различных исходов опыта. После этого дается понятие элементарного события, формулируются основные аксиомы теории вероятностей, вводятся понятия вероятностного пространства, распределения вероятностей, условной вероятности, зависимости и независимости событий и выво- выводятся основные формулы, непосредственно вытекающие из аксиом, в том числе формулы, определяющие биномиальное и полиномиальное распределения. Затем выводится распределение Пуассона. Во главе 2 рассматриваются случайные величины и их распреде- распределения, изучаются основные характеристики распределений конечно- конечномерных случайных величин — плотность и функция распределения. Показывается, что плотность как обобщенная функция, содержащая линейную комбинацию 5-функций, существует для всех трех типов случайных величин, встречающихся в задачах практики, — непре- непрерывных, дискретных и непрерывно-дискретных. Приводится пример случайной величины, не имеющей плотности такого типа. В главе 3 изучаются числовые характеристики случайных вели- величин. Сначала дается определение математического ожидания и изу- изучаются основные свойства математических ожиданий. Потом дается определение моментов второго порядка и изучаются их свойства. По- После этого определяются моменты любых порядков для действитель- действительных случайных величин. Кроме моментов, для действительных ска- скалярных случайных величин даются понятия медианы и квантилей. Глава заканчивается изучением одномерного нормального распреде- распределения. В главе 4 изучаются распределения и условные распределения проекций случайного вектора. Выводятся формулы для определения плотности проекции случайного вектора и ее условной плотности при данном значении проекции случайного вектора на дополнительное подпространство по данной плотности случайного вектора. Даются понятия зависимости и независимости случайных величин. Опреде- Определяются условные моменты. Изучаются многомерное нормальное рас- распределение и характеристические функции случайных величин.
Из предисловия к первому изданию В главе 5 излагаются методы нахождения распределений функции случайных величин по данным распределениям величин-аргументов. Рассматриваются общий метод определения функций распределения функций случайных величин, два метода определения плотностей — метод сравнения элементов вероятности и метод 5-функций — и ме- метод определения характеристических функций. Дается доказатель- доказательство предельной теоремы для сумм независимых случайных величин в случае одинаково распределенных слагаемых. В качестве примеров применения общих методов приводится вывод основных распределе- распределений, встречающихся в математической статистике. В главе 6 сначала дается постановка основной задачи математи- математической статистики — задачи оценивания неизвестных вероятностей событий, распределений случайных величин и их параметров. За- Затем рассматриваются основные виды сходимости последовательно- последовательностей случайных величин, даются общие определения, касающиеся оце- оценок и доверительных областей, и излагаются основные методы нахож- нахождения доверительных областей для неизвестных параметров. После этого изучаются частота как оценка вероятности события и оценки моментов, получаемые с помощью выборочных средних. Глава закан- заканчивается изложением основных методов проверки гипотез о парамет- параметрах распределений. В главе 7 излагается общая теория оценок параметров распреде- распределений и основные методы нахождения оценок — метод максимума правдоподобия и метод моментов. Изучается рекуррентное оценива- оценивание корня уравнения регрессии и точки экстремума регрессии мето- методом стохастических аппроксимаций. В главе 8 излагаются основные методы оценивания плотностей и функций распределения случайных величин и методы приближенно- приближенного аналитического представления распределений. Излагаются мето- методы проверки гипотез о распределениях по критериям К. Пирсона, А.Н. Колмогорова и Н.В. Смирнова и рассматривается оценивание параметров распределений методом минимума х2. В последнем пара- параграфе дается краткое изложение метода статистического моделиро- моделирования как метода приближенных вычислений и как метода научного исследования. В главе 9 изучаются регрессионные статистические модели. Сна- Сначала излагается общий метод определения средней квадратической регрессии в заданном классе функций, в частности линейной средней квадратической регрессии. Потом излагаются методы оценивания ли- линейных регрессий (регрессионный анализ) и методы проверки гипотез о регрессиях. Наконец, из общей теории построения линейных регрес- регрессионных моделей выводятся основы теории дисперсионного анализа. В главе 10 изучаются статистические модели других видов. Сна- Сначала рассматриваются модели, описываемые разностными уравнения- уравнениями, в частности, модели авторегрессии, излагается метод оценивания
Из предисловия к первому изданию 9 последовательностей случайных величин, определяемых разностны- разностными уравнениями, и неизвестных параметров в разностных уравне- уравнениях и применение этого метода к линейным и нелинейным моде- моделям авторегрессии. Затем изучаются некоторые методы построения факторных моделей (элементы факторного анализа) и модели рас- распознавания. Показывается общность некоторых задач распознавания и задач проверки гипотез о параметрах распределений. В послед- последнем параграфе дается краткое изложение элементов статистической теории решений (методов построения моделей процессов принятия решений). Ссылки на литературу даны номерами соответствующих литера- литературных источников в приложенном в конце книги списке, заключен- заключенными в квадратные скобки. Автор ни в какой мере не претендует на полноту приложенного списка литературы. В нем указаны только те источники, на которые даются ссылки в тексте. Для удобства читателей формулировки всех основных результатов и предложений выделены курсивом. Начало и конец выводов, дока- доказательств и рассуждений, приводящих к определенным результатам, отмечены треугольными указателями \> и <|. В главах 6-10 дано лишь краткое изложение основных методов современной математической статистики конечномерных случайных величин. Для более глубокого и полного изучения математической статистики можно рекомендовать книги Г. Крамера [45], М. Кендалла и А. Стьюарта [35], С. Уилкса [103], СР. Рао [86], Т. Андерсона [1], а также книги по различным разделам математической статистики, на которые даны ссылки в главах 6-10. Для изучения математических основ теории вероятностей реко- рекомендуем книги М. Лоэва [51], Ж. Неве [64] и П.Л. Хеннекена и А. Тор- тра [119]. Для справок по математическому анализу рекомендуем книги В.И. Смирнова [96, т. 1, т. 2], Г.М. Фихтенгольца [109], СМ. Николь- Никольского [69], по линейной алгебре — книги В.И. Смирнова [96, т. 3, ч. 1], А.И. Мальцева [56], Л.Н. Головиной [18], по теории матриц — книги Ф. Гантмахера [16], П. Ланкастера [48], М. Маркуса и X. Минца [57]. Последний параграф главы 8 («Метод статистического моделиро- моделирования») и главы 9, 10 написаны при активном участии И.Н. Синицы- на, который помог также отредактировать всю рукопись. Без его помощи книга, вероятно, еще не скоро была бы написана. Считаю своим приятным долгом выразить И.Н. Синицыну глубокую приз- признательность за его неоценимую помощь. Глубокую благодарность приношу также Н.И. Андрееву и Н.М. Сотскому за ценные замечания и дискуссии, способствовавшие значительному улучшению рукописи, И.В. Синицыной, взявшей на се- себя труд неоднократной перепечатки различных вариантов рукописи, Н.С. Беловой, О.В. Тимохиной, А.С. Пиунихину, И.Д. Силуяновой и
10 Из предисловия к первому изданию Н.Т. Чулюкановой за помощь в оформлении рукописи, С.Я. Вилен- кину за консультации по вычислительным аспектам изложенных в книге методов и за организацию вычислений на ЭВМ для ряда примеров. Москва т> п тт Апрель 1978 г. В.С.Пугачев
Глава 1 ВЕРОЯТНОСТИ СОБЫТИЙ 1.1. Случайные явления 1.1.1. Примеры случайных явлений. Человек в своей прак- практической деятельности на каждом шагу встречается со случайными явлениями. Без них не протекает ни один процесс. Простейшим при- примером случайных явлений служат ошибки измерений. Мы знаем, что абсолютно точных измерений не существует, и чем точнее измери- измерительный прибор, тем это более заметно. Измеряя один и тот же пред- предмет, например, взвешивая его на аналитических весах много раз, мы всегда получаем близкие, но различные результаты. Это объясняется тем, что результат каждого измерения содержит случайную ошибку и результаты разных измерений содержат различные ошибки. Предви- Предвидеть, какова будет ошибка данного конкретного измерения, или даже определить ее после измерения принципиально невозможно. Произ- Производя экспериментальное исследование какого-либо явления и систе- систематизируя результаты в виде графических зависимостей, мы убежда- убеждаемся в том, что экспериментальные точки, если их достаточно много, никогда не ложатся на одну кривую, а всегда заполняют некоторую полосу, т.е. имеет место случайный разброс экспериментальных точек. Этот разброс объясняется как ошибками измерений, так и действием других случайностей. Вторым примером случайных явлений может служить рассеива- рассеивание снарядов. Снаряды никогда не ложатся в одну и ту же точку, да- даже тогда, когда прицеливание производится по одной точке. Казалось бы, условия одинаковы для всех выстрелов. Однако снаряды летят по разным траекториям и попадают в различные точки. Предвидеть за- заранее, в какую именно точку попадет данный снаряд, принципиально невозможно потому, что мы не можем абсолютно точно знать пара- параметры состояния атмосферы во всех точках траектории, по которой летит снаряд, а от этих параметров зависят аэродинамические силы и их моменты, действующие на снаряд. В качестве третьего примера случайных явлений укажем отказы различных технических устройств. Как бы совершенна ни была совре- современная техника, иногда происходят отказы тех или иных приборов. Отказ прибора — случайное явление. Невозможно заранее предви- предвидеть, откажет он или нет, и если откажет, то в какой момент времени. К случайным явлениям относятся также шумы при приеме радио- радиопередач. Так называемый «эфир» всегда насыщен различными элек-
12 Гл. 1, Вероятности событий тромагнитными излучениями, источниками которых служат электри- электрические разряды в атмосфере, движение атмосферного электричества, работающие электрические устройства, созданные человеком, и т.п. Поэтому, как бы мы ни настраивали приемник на излучение интере- интересующей нас станции, в него всегда попадают посторонние излучения, которые мешают слушать станцию, особенно удаленную. Это прояв- проявляется в том, что наряду с принимаемой передачей мы слышим в репродукторе шум и потрескивания. Это хорошо знакомое всем явле- явление тоже представляет собой случайное явление, так как невозмож- невозможно заранее предсказать, когда и какое постороннее электромагнитное излучение попадет в приемник. Избежать же попадания посторонних излучений в приемник принципиально невозможно, раз он предназна- предназначен для приема слабых электромагнитных излучений. Испытываемая нами иногда при полете на самолете «болтанка» — тоже случайное явление. Она представляет собой случайные колеба- колебания самолета, вызываемые случайными порывами ветра в неспокой- неспокойной атмосфере. 1.1.2. Природа случайных явлений. Как и всякие явления, случайные явления вызываются вполне определенными причинами. Все явления окружающего нас мира взаимно связаны и влияют од- одно на другое (закон всеобщей связи явлений). Поэтому каждое на- наблюдаемое явление связано причинной зависимостью с бесчисленным множеством других явлений и течение его зависит от бесчисленно- бесчисленного множества факторов. Проследить все это бесконечное множество связей и определить действие каждой из них принципиально невоз- невозможно. Поэтому, изучая то или иное явление, человек ограничивает- ограничивается лишь основными факторами, определяющими его течение, и пре- пренебрегает огромным количеством второстепенных явлений. Это да- дает возможность глубже проникнуть в сущность явления, установить его закономерность. Вместе с тем, поступая так, человек обедняет явление, схематизирует его. Иными словами, он заменяет изучаемое явление подходящей упрощенной его моделью. Вследствие этого лю- любой закон науки отражает сущность изучаемого явления, но он всегда значительно беднее, уже самого явления. Никакой закон не может ха- характеризовать явление всесторонне, во всей полноте и многообразии. Наблюдаемые в реальном явлении отклонения от закономерности, вы- вызываемые совместным действием бесчисленного множества неучтен- неучтенных факторов, и представляют собой случайные явления. При экспериментальном изучении какого-либо явления с целью установления его закономерностей приходится наблюдать его много- многократно в одинаковых условиях. При этом под одинаковыми условия- условиями мы понимаем одинаковые значения всех количественных характе- характеристик контролируемых факторов. Все неконтролируемые факторы будут при этом различными. Вследствие этого действие контролируе- контролируемых факторов будет практически одинаковым при разных наблюде-
1.1. Случайные явления 13 ниях одного и того же явления. В этом как раз и проявляются законы данного явления. Случайные же отклонения от закономерности, вы- вызванные действием неконтролируемых факторов, будут различными при разных наблюдениях, причем предвидеть заранее, какими они бу- будут при данном конкретном наблюдении, принципиально невозможно. Роль случайностей в разных явлениях различна. В некоторых яв- явлениях случайные отклонения от закономерностей настолько малы, что их можно не учитывать. Однако есть и такие явления, в кото- которых невозможно подметить никаких закономерностей, и случайность играет основную роль. Примером такого явления может служить дви- движение малой частицы твердого вещества, взвешенной в жидкости, так называемое броуновское двиэюение. Под действием толчков огромного количества движущихся молекул жидкости частица движется совер- совершенно беспорядочно, без всякой видимой закономерности. В подобных явлениях сама случайность является закономерностью. При многократном наблюдении случайных явлений в них самих можно заметить определенные закономерности. Изучив эти законо- закономерности, человек получает возможность в известной степени управ- управлять случайными явлениями, ограничивать их влияние, предсказы- предсказывать результаты их действия и даже целенаправленно использовать их в своей практической деятельности. Так, например, можно проек- проектировать измерительные системы, обладающие максимальной доступ- доступной точностью, радиоприемные устройства с максимальной помехоза- помехозащищенностью, обладающие минимальным уровнем шумов, системы управления движением летательных аппаратов, обеспечивающие наи- наибольшую возможную точность навигации или наименьшее действие «болтанки» на летательный аппарат. Можно также проектировать технические системы, обладающие заданной надежностью. 1.1.3. Массовые случайные явления. Из сказанного ясно, что закономерности случайных явлений могут проявляться только при их многократном наблюдении. Отсюда можно сделать вывод, что изучению поддаются только такие случайные явления, которые мож- можно, по крайней мере принципиально, наблюдать много, практически неограниченное число раз. Такие случайные явления называются мас- массовыми. Здесь следует заметить, что для изучения массовых случай- случайных явлений нет никакой необходимости в том, чтобы все их мож- можно было фактически наблюдать много раз. Изучив закономерности простейших случайных явлений и построив на основе этого изучения соответствующую теорию, можно после этого теоретически изучать и более сложные случайные явления, в том числе и такие, которые не поддаются непосредственному наблюдению (но которые принципи- принципиально мыслимо наблюдать неограниченное число раз). Так, например, в процессе проектирования космического корабля, предназначенно- предназначенного для одного-единственного полета, можно исследовать надежность всего комплекса средств, обеспечивающих полет, произвести их рас-
14 Гл. 1. Вероятности событий чет так, чтобы получить практическую уверенность в том, что все эти средства будут работать безотказно и полет пройдет благополуч- благополучно. Сила науки в том и состоит, что, будучи основана на небольшом числе простейших положений, взятых из непосредственного наблюде- наблюдения, она позволяет открывать и предсказывать новые факты теоре- теоретическим путем, без непосредственных наблюдений. 1.1.4. Предмет теории вероятностей. Изучением закономер- закономерностей массовых случайных явлений занимается особая математиче- математическая наука — теория вероятностей. Методы теории вероятностей, называемые вероятностными или статистическими, дают возмож- возможность производить расчеты, позволяющие делать определенные прак- практические выводы относительно случайных явлений. Как и всякая прикладная наука, теория вероятностей нуждается в исходных экс- экспериментальных данных для расчетов. Раздел теории вероятностей, изучающий методы обработки результатов опытов и получения из них необходимых данных, называется математической статистикой. Теория вероятностей является мощным инструментом исследова- исследования, и поэтому она находит большое число самых разнообразных применений в различных областях науки и инженерной практики. Об- Области ее применения непрерывно расширяются. В прошлом веке тео- теория вероятностей получила применение в теории измерений, в теории стрельбы и в физике. В нашем веке она постепенно проникла в аэроди- аэродинамику и гидродинамику, радиотехнику, теорию управления, динами- динамику полета, теорию связи, строительную механику, теорию механизмов и машин, теорию волнения моря и качки кораблей, метеорологию и во многие другие области знания. Сейчас трудно назвать отрасль науки, которая не пользовалась бы вероятностными методами. В современ- современной теории процессов управления, в теоретической радиотехнике тео- теория вероятностей стала основным инструментом исследований. Вся теория современных сложных систем и процессов управления основа- основана на применении статистических методов. Теория вероятностей слу- служит фундаментом для теории надежности технических систем и для многих других прикладных научных теорий. Этот процесс непрерывного расширения областей применения тео- теории вероятностей вполне естествен и легко объясняется. Дело в том, что в начале развития каждой отрасли науки человек стремится от- открыть основные законы этой науки и ему достаточно довольно гру- грубого совпадения результатов расчета с данными опытов. Кроме то- того, техника эксперимента на начальной стадии несовершенна и не может обеспечить высокую точность измерений. По мере развития науки требования к точности расчетов повышаются, техника экспе- эксперимента совершенствуется, и случайные явления, которыми можно было пренебрегать в начале развития данной отрасли науки, начина- начинают играть все более и более значительную роль. В результате старая теория начинает во многом расходиться с экспериментальными дан-
1.2. Статистический подход к описанию случайных явлений 15 ными и возникает необходимость обратиться к теории вероятностей. Теория вероятностей во всех таких случаях неизменно дает новую теорию, более точно описывающую изучаемые явления и обеспечива- обеспечивающую совпадение результатов теоретических расчетов с эксперимен- экспериментальными данными. Так случилось в начале тридцатых годов с тео- теорией турбулентности в аэродинамике и в сороковых годах с теорией автоматического управления и радиотехникой, а потом и с другими прикладными научными теориями. Особенность вероятностных методов состоит в том, что они рас- рассматривают исследуемое явление в целом, изучают результаты сово- совокупного действия всех причинных связей, которые невозможно про- проследить по отдельности. 1.2. Статистический подход к описанию случайных явлений 1.2.1. Опыт, событие, случайная величина. Исходным пунк- пунктом для построения теории вероятностей, как и любой другой тео- теоретической науки, служат некоторые экспериментальные факты, на основе которых формируются соответствующие абстрактные поня- понятия. Чтобы рассказать об этих фактах, необходимо ввести некоторые термины. Будем называть опытом наблюдение какого-нибудь явления при выполнении некоторого комплекса условий и действий, который дол- должен каждый раз строго выполняться при повторении данного опыта. Наблюдение того же явления при другом комплексе условий и дейст- действий будет уже другим опытом. Результаты опыта можно характеризовать качественно и коли- количественно. Качественная характеристика опыта состоит в регистрации како- какого-нибудь факта, т.е. в определении того, обладают результаты опыта каким-либо свойством или нет. Любой такой факт называется собы- событием. При этом говорят, что «событие появилось (произошло)» или «событие не появилось (не произошло)» в результате опыта. Примерами событий могут служить отказ прибора в данном ин- интервале времени, попадание и промах при выстреле, получение т по- попаданий при п выстрелах. События обозначаются прописными латинскими буквами, обычно начальными, например А, В, С. Количественная характеристика опыта состоит в определении зна- значений некоторых величин, полученных в результате опыта. Такие ве- величины, которые могут принимать в результате опыта различные зна- значения, причем до опыта невозможно предвидеть, какими именно они будут, называются случайными величинами. Примерами случайных величин могут служить ошибки и резуль- результаты измерений, время безотказной работы прибора или системы,
16 Гл. 1. Вероятности событий рост и вес наугад выбранного человека, координаты точки попадания (разрыва снаряда) при выстреле, число попаданий при п выстрелах. Мы будем обозначать случайные величины прописными буквами, преимущественно из конца латинского алфавита, а их конкретные значения — соответствующими малыми буквами. Например, случай- случайные величины будем обозначать X, У, Z, а их конкретные значения, получаемые в результате опыта, — соответственно ж, у, z. Эти зна- значения называются возможными значениями или реализациями слу- случайных величин X, У, Z. С каждой случайной величиной можно связать различные собы- события. Типичным событием, связанным со случайной величиной, явля- является событие, состоящее в том, что эта случайная величина примет в результате опыта какое-нибудь значение, принадлежащее данному множеству, безразлично какое именно. Такое событие коротко назы- называется попаданием случайной величины в данное множество. 1.2.2. Частота события. Естественно сравнивать события по тому, как часто каждое из них появляется при повторении данного опыта. Если при повторении опыта одно событие появляется чаще, чем другое, то говорят, что первое вероятнее второго. Ясно, что для сравнения событий необходимо предположить, что данный опыт можно производить сколько угодно раз. В дальнейшем будем гово- говорить для краткости «производится п опытов» вместо «данный опыт производится п раз». Частотой события называется отношение числа его появлений к числу всех произведенных опытов. Таким образом, если при п опытах событие А появилось га раз, то его частота в данной серии опытов равна т/п. 1.2.3. Условные частоты. В некоторых случаях частоту собы- события приходится определять при дополнительном условии, что произо- произошло некоторое другое событие. Чтобы определить частоту события А при условии, что произошло событие В, необходимо учитывать не все произведенные опыты, а только те из них, в которых произошло со- событие В. Таким образом, если из п произведенных опытов событие В появи- появилось в га опытах, причем в к из этих га опытов появилось и событие А, то частота события А при условии, что произошло событие В, рав- равна к/т. Эта частота, как правило, не совпадает с частотой события А, вычисленной с учетом всех п произведенных опытов. Частота события А, вычисленная с учетом только тех из произве- произведенных опытов, в которых появилось событие В, называется условной частотой события А относительно события В. 1.2.4. Свойства частот. Событие называется невозможным и обозначается 0, если оно не может произойти в результате данного опыта. Событие называется достоверным и обозначается П, если оно
1.2. Статистический подход к описанию случайных явлений 17 обязательно происходит в результате данного опыта, т.е. не может не произойти. События Ai,..., Ап называются несовместными в данном опыте, если в результате этого опыта никакие два из них не могут появиться вместе. Например, попадание и промах при одном выстреле, выпаде- выпадение 1 очка, 2 очков и 3 очков при одном бросании игральной кости. Два события, несовместные в одном опыте, могут оказаться сов- совместными в другом опыте. Например, попадание и промах несовмест- несовместны при одном выстреле. Однако они совместны, если за один опыт считаются два выстрела. После приведенных определений можно перейти к изучению ос- основных свойств частот событий. 1) Частота любого события представляет собой неотрицательное число, не превосходящее 1, причем частота невозможного события равна 0, а частота достоверного события равна 1. 2) Частота появления одного из несовместных событий, безразлич- безразлично какого именно, равна сумме их частот. Это следует непосредствен- непосредственно из того, что число появлений сложного события, представляющего собой появление какого-нибудь из несовместных событий, равно сум- сумме чисел появлений этих событий. 3) Частота совместного появления двух событий А и В равна ча- частоте одного из них, умноженной на условную частоту другого. Для доказательства достаточно заметить, что если при п опытах А появи- появилось га раз, а В — к раз, причем I раз вместе с А, а к - / раз без А, то частота совместного появления А ж В равна l/п, частота А рав- равна га/n, а условная частота В относительно А равна 1/т. Очевидно, что если частота события в данной серии опытов рав- равна 0 (или 1), то из этого не следует, что событие невозможно (до- (достоверно). Так, например, если при пяти бросаниях монеты герб не появился ни разу, то из этого не следует, что появление герба невоз- невозможно. 1.2.5. Вероятность события. Замечательный эксперименталь- экспериментальный факт — основная закономерность, наблюдаемая в массовых слу- случайных явлениях, — устойчивость частот событий при большом числе опытов. Если при малом числе опытов частота события принимает со- совершенно случайно различные значения, то при неограниченном уве- увеличении числа опытов она проявляет тенденцию стабилизироваться около некоторого характерного для данного события значения. Допустим, что некоторый опыт неограниченно повторяется и по- после каждого опыта вычисляется частота события с учетом всех уже произведенных опытов. При этом обнаруживается, что вначале, ко- когда число произведенных опытов мало, случайный результат каждого опыта существенно изменяет частоту события. Однако по мере возрас- возрастания числа опытов влияние результата каждого нового опыта умень- уменьшается. Так, например, результат тысячного опыта изменяет частоту
18 Гл. 1. Вероятности событий меньше, чем на 0,001. Частота как бы стремится перестать быть слу- случайной и стабилизироваться около некоторого значения. Устойчивость частот событий дает основание считать, что с каж- каждым событием связано некоторое число — вероятност/ь этого собы- события, — около которого стремится стабилизироваться его частота. Так, например, частота появления герба при бросании монеты, очевидно, должна стабилизироваться около 1/2. Следовательно, вероятность по- появления герба равна 1/2. Вероятность события А обозначается Р(А). Это, конечно, не ис- исключает применения сокращенных обозначений, например Р(А) = р и т.п. Понятие вероятности события является первичным в теории ве- вероятностей и поэтому не нуждается в определении. Оно представ- представляет собой результат абстракции, необходимой для построения лю- любой теории. Отвлекаясь от сложных и несущественных колебаний частоты при неограниченном повторении опытов и оставляя основ- основную, существенную закономерность, наблюдаемую в данном явле- явлении, — устойчивость частоты, — мы и вводим абстрактное понятие вероятности события. Вероятность события в данном опыте — его объективная харак- характеристика. Она имеет вполне определенное значение независимо от того, собираемся мы производить опыты или нет. 1.2.6. Выборочное среднее. Основная задача эксперименталь- экспериментального изучения случайных величин состоит в том, чтобы установить, как распределяются экспериментальные точки на числовой оси, на плоскости или в пространстве. Совокупность значений наблюдаемых величин, полученных в ре- результате опытов, называется выборкой. Получив выборку, необходимо прежде всего определить положе- положение значений случайной величины на числовой прямой и их рассеи- рассеивание, т.е. размеры занимаемой ими области. За характеристику положения экспериментальных точек обычно принимают среднее арифметическое значение случайной величины, называемое выборочным средним. Предположим, что случайная ве- величина X приняла в результате п опытов значения xi,... ,хп. Тогда выборочное среднее определяется формулой п s = ±^>. (l.i) k=l 1.2.7. Выборочные дисперсия и среднее квадратическое отклонение. За экспериментальную характеристику рассеивания значений скалярной случайной величины обычно принимают среднее арифметическое значение квадратов отклонений экспериментальных значений случайной величины от выборочного среднего. Эта харак- характеристика называется выборочной дисперсией случайной величины.
1.2. Статистический подход к описанию случайных явлений 19 Если в результате п опытов случайная величина X приняла зна- значения xi,..., жп, то ее выборочная дисперсия определяется формулой ¦к-х)\ A.2) Недостатком выборочной дисперсии с практической точки зре- зрения является отсутствие наглядности — она имеет размерность квад- квадрата случайной величины. Поэтому за практическую характери- характеристику рассеивания значений случайной величины обычно принима- принимают выборочное среднее квадратическое отклонение, представляющее собой положительный квадратный корень из выборочной диспер- дисперсии, сг* = + yfd*. Для практических расчетов формуле A.2) часто придают более удобную форму. Имея в виду, что на основании A.1) п п п п k=l k=l k=l k=l можем переписать A.2) в виде п d* = а*2 = — У^ж2 — ж2. A-3) При этом, чтобы избежать разности больших чисел, в случае необ- необходимости из всех экспериментальных значений х\,..., хп вычитают произвольное число, расположенное в середине интервала, занимае- занимаемого этими значениями (правило «ложного нуля»). 1.2.8. Метод наименьших квадратов. При совместном изуче- изучении нескольких случайных величин, кроме их выборочных средних и дисперсий, необходимо определить еще какие-то характеристики за- зависимости между ними. Для отыскания приближенных зависимостей между изучаемыми экспериментально величинами обычно пользуются методом наимень- наименьших квадратов. Предположим, что требуется найти зависимость между наблю- наблюдаемыми величинами хну (не обязательно случайными). Для это- этого обычно выбирают подходящую функцию, зависящую от некото- некоторых параметров, (р(х\ ci,..., сдг), например, линейную комбинацию N определенных функций с неопределенными коэффициентами, и под- подбирают параметры с\,..., сдг так, чтобы сумма квадратов ошибок приближенной зависимости у — ср(х; ci,..., сдг) во всех эксперимен- экспериментальных точках была минимальной: п 5 = ^^[Ук - (р(хк, ci,... ,сдг)]2 = min. В этом и состоит метод наименьших квадратов.
20 Гл. 1. Вероятности событий Для минимизации S можно пользоваться различными методами отыскания экстремума функции в зависимости от способа задания функции и сложности ее вычисления. В частности, можно приме- применить обычный метод приравнивания нулю первых производных S по ci,..., с/у и решения полученных уравнений относительно с\,... ..., сдг с последующим исследованием поведения функции 5 в окрест- окрестности найденного решения. 1.2.9. Выборочные ковариация и коэффициент корреля- корреляции. Предположим, что случайные величины X и Y приняли в ре- результате п опытов пары значений xi, у\,..., жп, уп. Чтобы найти под- подходящую характеристику зависимости между величинами X и Y, подберем методом наименьших квадратов наилучшую линейную за- зависимость Y от X вида у -у = с(х -х), A.4) где х и у — выборочные средние величин X и Y соответственно. Для определения коэффициента с в A.4) методом наименьших квадратов приравниваем нулю производную по с суммы квадратов ошибок во всех экспериментальных точках k=l Решив полученное уравнение относительно с, находим в силу A.2) п с = ^Ц^ = ^7 ^2(хк - х)(Ук - V). к=1 Величина п к=1 называется выборочной ковариацией величин 1иУ. За меру зависи- зависимости между X и Y принимают безразмерную величину * _ kxy _ кху , . называемую выборочным коэффициентом корреляции величин X и Y. Так как п п п п ^2(хк -х)(ук - у) = ^2,хкУк -х^ук-у^хк+пху = к=1 к=1 к=1 к=1 k=l
1.2. Статистический подход к описанию случайных явлений 21 то формулу A.5) можно переписать в виде A.7) k=i Этой формулой обычно и пользуются на практике. При этом в случае необходимости из координат всех экспериментальных точек вычитают соответствующие координаты какой-нибудь точки, расположенной в середине области, занятой точками, чтобы избежать разностей близ- близких величин. Пять чисел ж, у, d*, d*, k*y rxy служат гру- грубой характеристикой распределения экспериментальных точек на плоскости. Точно так же распределение экспериментальных точек в га-мерном пространстве, полученное в результате совместного наблю- наблюдения га случайных величин, можно характеризовать выборочными средними, дисперсиями (средними квадратическими отклонениями) и ковариациями (коэффициентами корреляции). 1.2.10. Гистограмма. Чтобы получить более полное представ- представление о распределении экспериментальных точек, обычно разбива- ъ g replacements Рис. 1.1 ют занятую ими область на интервалы (прямоугольники, паралле- параллелепипеды) и вычисляют частоты попадания в эти интервалы (пря- (прямоугольники, параллелепипеды). Разделив эти частоты на длины ин- интервалов (площади прямоугольников, объемы параллелепипедов), по- получают относительные плотности экспериментальных точек в соот- соответствующих частях области, занятой экспериментальными точками. Полученное таким образом распределение экспериментальных точек можно изобразить графически, построив на каждом интервале прямо- прямоугольник, высота которого равна значению относительной плотности экспериментальных точек в этом интервале (рис. 1.1). Полученная в результате ступенчатая кривая называется гистограммой.
22 Гл. 1. Вероятности событий При вычислении гистограммы интервалы (прямоугольники, па- параллелепипеды) рекомендуется выбирать так, чтобы в каждом ин- интервале было по меньшей мере 10 точек (для обеспечения этого мож- можно брать интервалы разной длины). Легко понять, что гистограмму можно построить только при достаточно большом числе эксперимен- экспериментальных точек (для одномерной гистограммы не меньше 100). 1.2.11. Группированная выборка. Если одновременно с по- построением гистограммы определяются выборочные средние, диспер- дисперсии и ковариации, то для упрощения вычислений обычно считают все экспериментальные точки в данном интервале (прямоугольнике) сов- совпадающими с его центром. Полученная таким путем новая выборка называется группированной выборкой. Если пользоваться группированной выборкой, то формулы A.1)- A.3), A.5) и A.7) можно записать в виде г х —- у Pi/Xy^ г рЛх» ~ %? = ^Pvxl - ж2, A.8) г/=1 v=\ где г — число интервалов, содержащих экспериментальные точки, на каждой из осей х,у, х±,..., жг, yi,..., уг — координаты центров ин- интервалов на соответствующих осях, pi,... ,р^ — частоты попадания в интервалы оси ж, а р^ (//, v — 1,..., г) — частоты попадания в пря- прямоугольники, на которые разбита плоскость ху. Так же как частота события лежит в основе абстрактного понятия вероятности события, рассмотренные экспериментальные характери- характеристики случайных величин лежат в основе соответствующих абстракт- абстрактных понятий теории вероятностей. 1.3. Непосредственное определение вероятностей 1.3.1. Равновозможные исходы опыта. Приведенный в кон- конце п. 1.2.4 пример опыта с бросанием монеты показывает, что вероят- вероятности некоторых событий легко определяются непосредственно. Рас- Рассмотрим общую схему таких опытов. Допустим, что опыт имеет п возможных исходов, так что каждое конкретное его осуществление обязательно заканчивается одним и только одним из этих п исходов, причем нет никаких оснований считать, что при неограниченном по- повторении опыта какой-нибудь один исход может появляться чаще, чем
1.3. Непосредственное определение вероятностей 23 любой другой. В этом случае вероятность каждого исхода, очевидно, равна 1/п, так как их частоты должны стабилизироваться при повто- повторении опыта около одного и того же числа, а в сумме они должны дать 1. Иными словами, данный опыт имеет п равновозможных ис- исходов. В нашем примере с бросанием монеты таких равновозможных исходов два — появление герба и появление цифры, — и вероятность каждого из них равна 1/2. 1.3.2. Схема случаев. Допустим теперь, что при п равновоз- равновозможных исходах опыта нас интересует некоторое событие А, связан- связанное с т из этих п исходов так, что при любом из этих т исходов оно обязательно появляется и не может появиться ни при одном из остальных п — т исходов. В таком случае, как легко сообразить, ве- вероятность события А равна отношению т/п. Принято говорить, что в данном опыте имеется п случаев и из них т благоприятствуют со- событию А. Тогда вероятность события А равна отношению числа слу- случаев, благоприятствующих событию А, к числу всех равновозможных несовместных случаев: Р(А) = т/п. Пример 1.1. Опыт состоит в бросании игральной кости, имеющей форму куба, на каждой грани которого проставлено соответствующее чис- число очков от 1 до 6. В данном опыте имеется 6 случаев: появление одного очка, двух, трех, четырех, пяти и шести. Так как нет никаких оснований предполагать, что, например, два очка могут появляться чаще, чем пять очков; поэтому вероятность появления каждого данного числа очков, на- например двух, равна 1/6. Рассмотрим теперь событие А — появление чет- четного числа очков, событие В — появление числа очков, кратного трем, и событие С — появление не меньше трех очков. Событию А благопри- благоприятствуют три случая — появление двойки, четверки и шестерки; поэтому Р(А) = 3/6 = 1/2. Событию В благоприятствуют два случая — появление тройки и шестерки; поэтому Р(В) = 2/6 = 1/3. Событию С благоприят- благоприятствуют четыре случая — появление тройки, четверки, пятерки и шестерки; поэтому Р{С) = 4/6 = 2/3. Пример 1.2. В урне 10 одинаковых шаров. Из них 3 белых и 7 черных. Шары тщательно перемешивают и после этого из урны вынимают один шар. Найти вероятность появления белого шара. В данном случае нет никаких оснований предполагать, что при повто- повторении опыта какой-нибудь определенный шар будет появляться чаще, чем любой другой. Например, если шары пронумерованы от 1 до 10 так, что определить номер шара на ощупь невозможно, то нет никаких оснований предполагать, что шар № 1 может появляться при повторении опыта чаще, чем шар № 2, шар № 3 и т.д. Поэтому в данном опыте имеются 10 возможных случаев. Из них 3 благоприятствуют появлению белого шара, а 7 — появле- появлению черного шара. Поэтому вероятность появления белого шара равна 0,3, а вероятность появления черного шара равна 0,7. 1.3.3. Геометрические вероятности. В некоторых случаях, когда опыт имеет бесконечное (несчетное) множество равновозмож- равновозможных исходов, вероятности некоторых событий можно определять гео-
24 Гл. 1. Вероятности событий 2а replacements метрически как отношения длин отрезков, или площадей, или объе- объемов соответствующих фигур. Пример 1.3. Поезда метро идут в данном направлении с интервалом 1 мин. Какова вероятность того, что пассажиру придется ждать поезда не больше 20 с? В данном случае нет никаких оснований считать какой-нибудь один момент прихода пассажира в интервале между поездами более вероятным, чем любой другой. Интересующему нас событию А — ожиданию меньше 20 с — благоприятствуют все моменты интервала длительностью 1 мин, отстоящие от его конца меньше чем на 20 с. Поэтому вероятность события А можно определить как отношение длительностей двух интервалов времени: Р(А) = 20/60 = 1/3. Пример 1.4. Космический аппарат пересекает поток небольших ме- метеоритов. Некоторые части аппарата являются уязвимыми для метеоритов, поэтому столкновение любой из этих частей с метеоритом ведет к разру- разрушению космического аппарата и гибели экипажа. Столкновение с любой другой частью аппарата не опасно, и аппа- аппарат может продолжать полет. Площадь про- проекции аппарата на плоскость, перпендикуляр- перпендикулярную относительным траекториям метеоритов равна s = 100 м2. Площадь проекции уязви- уязвимых частей аппарата на ту же самую плос- плоскость равна si=12m2. Найти вероятность катастрофы р, когда один из метеоритов уда- ударяется об аппарат. В этом случае существует бесконечное множество равновозможных исходов опы- опыта — попадание метеорита в различные точ- точки проекции аппарата. Поэтому вероятность катастрофы может быть вычислена как от- отношение площади проекции уязвимых частей к площади проекции всего аппарата. В результате получим р = s\/s = 12/100 = 0,12. Пример 1.5. На плоскость с нанесенными на ней параллельными прямыми на расстоянии 2а одна от другой случайно бросается прямоли- прямолинейный отрезок длины 21. Найти ве- вероятность того, что отрезок пересе- пересечет хотя бы одну из прямых (задача Бюффона об игле). Положение отрезка относитель- относительно прямых можно характеризовать двумя координатами: расстоянием х его центра от ближайшей прямой, 0 ^ х ^ а, и углом в его наклона к прямым, 0 ^ в ^ тг/2 (рис. 1.2). Оче- Очевидно, что отрезок пересекает хотя бы одну из прямых тогда и только тогда, когда х ^ /sin(9. Если рассматривать в и х как прямоугольные декартовы 2а Рис. 1.2 Рис. 1.3
1.3. Непосредственное определение вероятностей 25 координаты точки на плоскости, то область всех возможных пар @, х) будет представлять собой прямоугольник со сторонами а и тг/2 (рис. 1.3). Собы- Событие А — выполнение неравенства х ^ Ism в — произойдет тогда и только тогда, когда точка ((9, х) попадет в заштрихованную область, ограничен- ограниченную снизу синусоидой х = Ism в (на рис. 1.3 показан случай I < а). Считая все положения точки ((9, х) в пределах прямоугольника равновероятными, можем вычислить искомую вероятность пересечения отрезка с одной из прямых как отношение площади заштрихованной области к площади пря- прямоугольника. При I ^ а это даст Р(А) = 21/тга. Предлагаем читателю само- самостоятельно решить эту задачу при I > а. В этом случае можно поставить задачу определения вероятностей пересечения двух, трех и т.д. прямых. 1.3.4. Вычисление условных вероятностей в схеме слу- случаев. Точно так же вычисляются в таких случаях условные вероят- вероятности. Пример 1.6. В урне 10 шаров — 3 белых и 7 черных. Один шар вынули и отложили в сторону. Он оказался белым. Найти вероятность того, что второй вынутый шар окажется белым. Пусть событие А — первый вынутый шар оказался белым, В — второй вынутый шар оказался белым. В данном случае нас интересует условная вероятность события В относительно А. Учитывая условие — появилось событие Д т.е. один шар вынут и он оказался белым, — приходим к выводу, что имеется 9 возможных случаев и из них 2 благоприятствуют событию В. Поэтому Р(В | А) = 2/9. Пример 1.7. Видоизменим теперь условия предыдущего примера. Предположим, что один шар из урны вынули и, не глядя, положили в другую урну. Найти вероятность того, что второй вынутый шар окажет- окажется белым. Здесь, несмотря на то, что один шар из урны вынут, возможны 10 слу- случаев, так как неизвестно, какой именно шар отсутствует. Из них 3 благопри- благоприятствуют появлению белого шара. Следовательно, вероятность появления белого, шара остается равной 3/10. Чтобы сделать это совершенно ясным, предположим, что не один, а 9 из 10 шаров переложили, не глядя, в другую урну. В урне остался один шар, но он может быть любым из 10. Поэтому, несмотря на то, что в урне всего один шар, возможных случаев 10, а бла- благоприятствующих появлению белого шара 3. Таким образом, несмотря на удаление части шаров, речь в данной за- задаче идет о безусловной вероятности появления белого шара. Объясняется это тем, что нет никакого дополнительного условия для данного опыта, вследствие чего вероятность появления белого шара не изменилась после удаления из урны части шаров. Условием, изменяющим вероятность собы- события, при котором она заменяется условной вероятностью, всегда служит появление некоторого события или предположение о том, что это событие появилось. Поэтому удаления части шаров недостаточно для того, чтобы можно было говорить об условных вероятностях. Необходимо еще произве- произвести наблюдение и определить, какие именно шары удалены из урны, или сделать предположение о том, какие шары отсутствуют. Пример 1.8. В урне 10 шаров — 3 белых и 7 черных. Один шар из урны вынут, он оказался белым. После этого шар вернули в урну и все
26 Гл. 1. Вероятности событий шары тщательно перемешали. Найти вероятность того, что во второй раз появится белый шар. В данном случае имеется вполне определенное условие — появилось событие А — первый вынутый шар оказался белым. Поэтому можно гово- говорить об условной вероятности события В — второй вынутый шар оказался белым. Однако число возможных случаев осталось равным 10, а число слу- случаев, благоприятствующих событию В, осталось равным 3. Следовательно, в данном случае Р(В\А) = Р(В) = 3/10. AUB 1.4. Действия над событиями 1.4.1. Объединение двух событий. Объединением или сум- суммой двух событий А и В называется сложное событие, состоящее в появлении хотя бы одного из событий А и В. Объединение собы- событий А и В обозначается A U В. Для несовместных событий А и В приме- применяется также обозначение А + В. Для иллюстрации на рис. 1.4 пока- показано объединение двух событий А и В для случая, когда событие А представ- представляет собой попадание случайной точки в область, обозначенную буквой Л, а со- событие В — попадание в область, обозна- обозначенную буквой В. Событие A U В в этом случае представляет собой попадание в область, граница которого обведена жирной линией. На рис. 1.4 пока- показан случай, когда области А и В имеют общую часть (пересекаются), Рис. 1.4 AUB AUB Рис. 1.5 Рис. 1.6 т.е. когда события А и В совместны. На рис. 1.5 и 1.6 показаны слу- случаи, когда области А и В не пересекаются, т.е. когда события А и В несовместны. 1.4.2. Пересечение двух событий. Пересечением или произ- произведением двух событий А и В называется их совместное появление. Пересечение событий А и В обозначается А П В или, короче, АВ.
1.4- Действия над событиями 27 На рис. 1.4 дана иллюстрация пересечения событий А и В в слу- случае, когда событие А представляет собой попадание в область Л, а событие В — попадание в область В. Пересечение А В событий А и В представляет собой попадание в отмеченную двойной штриховкой об- общую часть областей А и В. Приведенные определения объединения и пересечения событий легко распространяются на любое число событий. 1.4.3. Объединение и пересечение любого множества со- событий. Объединением или суммой множества событий AS7 s ? S, которое обозначается U As или ^ As (для несовместных собы- sts ses тий), называется появление хотя бы одного из событий As, sGS. Пересеченглем или произведением множества событий As, sG5, которое обозначается П AS1 называется совместное появление всех ses этих событий. Множество S значений индекса s в этих определениях может быть конечным, счетным или несчетным. Если, например, событие As представляет собой попадание слу- случайной точки в интервал (s,s + 1) числовой оси, a S — конечное мно- множество {0,1/2,1, 3/2, 2}, то U As представляет собой попадание в ко- конечное объединение интервалов @,1) U A/2,3/2) U A, 2) U C/2, 5/2) U B,3), т.е. в интервал @,3). Если S — счетное множество {2~р}^10, то U As представляет собой попадание в счетное объединение интер- ses (X) валов U B~р,2~р + 1), т.е. в интервал @,2). Наконец, если S — ин- тервал @,1/2), то U As представляет собой попадание в несчетное ses объединение интервалов (s,s + 1) при всех s G @,1/2), т.е. в интер- интервал @,3/2). 1.4.4. Свойства объединений и пересечений. Операции объединения и пересечения событий обладают рядом свойств, анало- аналогичных свойствам сложения и умножения чисел. Например, объеди- объединение и пересечение событий коммутативны: AUB = BUA, АВ = В А. Объединение и пересечение событий ассоциативны: (A U В) U С = A U (В U С) = (A U С) U В = A U В U С, (АВ)С = А(ВС) = (АС) В = ABC.
28 Гл. 1. Вероятности событий Наконец, объединение и пересечение событий дистрибутивны: Все эти свойства непосредственно следуют из определений объе- объединения и пересечения событий. Так, (AU В)С представляет собой совместное появление события С с событием А, или с событием В, или с А и В вместе. Событие AC U ВС тоже состоит в появлении или С вместе с Л, или С вместе с 5, или С вместе с АВ. Однако не все законы сложения и умножения чисел справедли- справедливы для объединения и пересечения событий. Так, например, собы- события A U А и А А, очевидно, совпадают с А. Следовательно, A U А = АА = А для любого события А. 1.4.5. Противоположные события. Для дальнейшего изуче- изучения действий над событиями необходимо ввести еще понятие проти- противоположных событий. Событием, противоположным событию А, называется непоявле- непоявление Л, которое обозначается А. _ Легко видеть, что событие А противоположно событию А: 2 = А. Примерами противоположных событий могут служить попадание и промах при выстреле, отказ прибора в данном интервале времени и его исправная работа в том же интервале времени. Очевидно, что противоположные события несовместны, а их объе- объединение представляет собой достоверное событие: Ясно также, что AU0 = A, Л0 = 0, 4Uft = ft5 Ап = А. 1.4.6. Свойства действий над событиями. Легко видеть, что для любых событий А и В событие A U В противоположно собы- событию АВ: AUB = АВ. Действительно, A U В есть появление хотя бы одного из событий А и .??, что равноценно непоявлению АВ. И вообще для любого мно- множества событий As, s ? 5, Uis=fl As. s?S sES
1.4- Действия над событиями 29 Событие А В представляет собой совместное появление А и В, т.е. противоположно появлению хотя бы одного из событий А или В: = AUB. И вообще для любого множества событий As, s ? S, П3.,= U Aa. ses ses Последние четыре формулы выражают принцип двойствен- двойственности: операции объединения и пересечения меняются местами при переходе к противоположным событиям. Из установленных свойств операций пересечения и объединения следует, что для любых событий А и В А = Аи = А(В U В) = АВ U АВ. A.9) Эта формула дает разложение любого события А на два непересе- непересекающихся события. Если событие А обязательно происходит при появлении некоторо- некоторого другого события В, то говорят, что событие В представляет собой часть или подсобытие события А и пишут В С А или A D В. Если события А и В могут появиться или не появиться только вместе, т.е. В С А и А С В, то они называются эквивалентными, что обозначают равенством А = В. Если В С А, то АВ = В и формула A.9) принимает вид A = BUAB. A.10) 1.4.7. Элементарные события. Читатель, знакомый с элемен- элементами теории множеств, легко заметит, что операции над события- событиями тождественны операциям над множествами. Эта аналогия между событиями и множествами объясняется тем, что каждое событие связано с определенным множеством исходов опыта так, что оно обязательно происходит при появлении одного из исходов, принад- принадлежащих этому множеству, и не происходит при появлении одного из и сходов, не принадлежащих этому множеству. Так, например, в схеме случаев п. 1.3.2 событие представляет собой объединение всех благо- благоприятствующих ему случаев. В схеме геометрических вероятностей п. 1.3.3 исходом каждого опыта является попадание в определенную точку, а каждое событие представляет собой попадание на определен- определенное множество точек. Чтобы поставить эти факты на строгую математическую основу, вводят понятие элементарного события.
30 Гл. 1. Вероятности событий Элементарным событием называется событие, не содержащее ни- никаких подсобытий, кроме невозможного события и самого себя. Ины- Иными словами, элементарное событие представляет собой событие, кото- которое не разделяется на несовместные события, ни одно из которых не является невозможным. 1.5. Аксиомы теории вероятностей 1.5.1. Пространство элементарных событий. Мы пришли к понятию вероятности, отправляясь от понятия частоты события. По- Поэтому естественно считать, что вероятности должны обладать всеми свойствами частот, вытекающими из их определения. Для вероятно- вероятностей эти свойства в общем случае не могут быть выведены *). Поэто- Поэтому основные свойства вероятностей приходится принять как аксиомы. На основании изложенного в разд. 1.2 и 1.4 мы приходим к следую- следующей модели случайных явлений. С данным опытом связано некоторое множество элементарных событий, так что в результате опыта обяза- обязательно появляется одно и только одно элементарное событие. Кроме того, с данным опытом связано некоторое множество событий, для которых определены вероятности. Множество всех элементарных событий, связанных с данным опы- опытом, называется пространством элементарных событмй и обыч- обычно обозначается О. При этом любое элементарное событие — точка пространства О — обозначается буквой ио. Каждое событие представляет собой некоторое множество элемен- элементарных событий. В частности, любое элементарное событие со пред- представляет собой множество, состоящее из одного элемента (одноточеч- (одноточечное множество). Достоверное событие представляет собой множество всех элементарных событий О. Невозможное событие представляет собой пустое множество 0. 1.5.2. Поле событий. Множество событий, для которых опреде- определены вероятности, будем называть полем событий и обозначать 5?. Чтобы принятая модель случайных явлений могла служить для построения теории вероятностей, поле событий 5? должно обладать определенными свойствами. Во-первых, если вероятность определена для некоторого собы- события Л, то естественно потребовать, чтобы она была определена и для противоположного события А. Следовательно, множество У должно содержать вместе с_любым входящим в него событием А и противо- противоположное событие А, т.е. если i G У, то и i G У. *) Для вероятностей эти свойства можно вывести только в частном случае конечного числа равновозможных несовместных исходов опыта, рас- рассмотренном в п. 1.3.2.
1.5. Аксиомы теории вероятностей 31 Во-вторых, если вероятность определена для некоторых собы- событий А и В, то естественно потребовать, чтобы она была определена и для их пересечения АВ, чтобы можно было определить условные вероятности. Поэтому множество У должно содержать наряду с лю- любыми двумя входящими в него событиями А и В и их пересечение АВ, т.е. если А, В е У, то и АВ е У. Множество событий, обладающее перечисленными двумя свой- свойствами, называется алгеброй событий. Таким образом, поле собы- событий У должно быть алгеброй событий. Изучим основные свойства поля событий, вытекающие из его опре- определения как алгебры событий. Пусть А и В — любые два события, принадлежащие полю У. По определению противоположные события А и В и их пересечение А В также принадлежат полю У. Но тогда и событие А В, противополож- противоположное событию А В принадлежит полю У. Но событие, противополож- противоположное пересечению А В, согласно принципу двойственности совпадает с объединением событий, противоположных событиям А и .??, т.е. с со- событием AU В, А В = AU В. Следовательно, поле У содержит наряду с любыми двумя входящими в него событиями А и В и их объедине- объединение AU В. Из этого свойства следует, что поле событий У содержит до- достоверное событие О. Действительно, для любого события ЛеУ иАеУ. Следовательно, и AUA = U e У. В силу ассоциативности операций пересечения и объединения со- событий поле событий У содержит любые конечные пересечения и объединения входящих в него событий. Наконец, поле У содержит невозможное событие 0 как противо- противоположное достоверному событию О. Рассмотренные свойства поля достаточны для большей части при- применений теории вероятностей. Однако для решения некоторых слож- сложных задач, выдвигаемых практикой, необходимо потребовать, чтобы поле событий У обладало еще одним свойством, а именно, оно должно содержать не только конечные, но и все счетные объединения входя- входящих в него событий, т.е. ОО 1)АкеУ, если АкеУ {к = 1,2,...). к=1 Алгебра событий, обладающая таким свойством, называется а-алгеб- а-алгеброй или борелевским полем событий. Очевидно, что сг-алгебра содержит также все счетные пересечения входящих в нее событий. Это непосредственно вытекает из принципа двойственности для случая счетного множества событий.
32 Гл. 1. Вероятности событий В простейших задачах п. 1.3.2 все элементарные события принад- принадлежат полю событий У. В общем случае поле событий может содер- содержать, а может и не содержать элементарные события. 1.5.3. Аксиомы. Перейдем к основным аксиомам теории веро- вероятностей. Аксиома 1. Каждому событию А Е У соответствует неот- неотрицательное число — вероятность этого события Р(А). Аксиома 2. Вероятность достоверного события равна 1: = 1. Аксиома 3 (аксиома сложения вероятностей). Вероятность объединения несовместных событий равна сумме их вероятностей: п п р( U А{)=У^Р(А{), если АкАкф® при кфк. A.11) \г=1 / T~i. г=1 Это справедливо как для конечного числа событий А\,..., Anj так и для счетного множества событий {А^} (при п — оо) *). Для простейших задач теории вероятностей, к которым относят- относятся, в частности, все задачи с конечным множеством равновозможных исходов опыта, рассмотренные в п. 1.3.2, достаточно принять аксио- аксиому сложения вероятностей только для любого конечного множества событий А\,..., Ап. Однако уже для задач с геометрическими веро- вероятностями, рассмотренных в п. 1.3.3, несмотря на их простоту, необ- необходимо принять аксиому сложения вероятностей для любых счетных множеств событий {А&}. Построение теории вероятностей на осно- основе сформулированных трех аксиом принадлежит А.Н. Колмогорову, работы которого положили начало созданию современной теории ве- вероятностей как строгой математической науки [39, 40]. 1.5.4. Вероятность как функция множества — мера. По- Поскольку каждое событие iG У представляет собой множество эле- элементарных событий, вероятность Р(А) представляет собой функцию множества А, определенную на поле множеств 5?. Функции множества, обладающие свойством A.11) при всех конеч- конечных п, называются аддитивными. Функции множества, обладающие свойством A.11) при п = оо, называются счетно-аддитивными или, короче, а-аддитивными или мерами. Любая а-аддитивная функция *) Ясно, что свойство сложения частот справедливо только для конеч- конечного числа событий Ai,..., Ап, так как при любом конечном числе опытов может появиться только конечное число несовместных событий. Распро- Распространение соответствующего свойства вероятностей на счетное множество событий необходимо для построения достаточно общей теории, охватываю- охватывающей все задачи, встречающиеся на практике.
1.5. Аксиомы теории вероятностей 33 множества является аддитивной, однако не всякая аддитивная функ- функция множества сг-аддитивна. В силу аксиом 1 и 3 вероятность Р(А) представляет собой неотри- неотрицательную сг-аддитивную функцию множества, т.е. неотрицательную меру. 1.5.5. Вероятностное пространство. Пространство элемен- элементарных событий П с заданной в нем алгеброй или сг-алгеброй мно- множеств 5? и определенной на 5? вероятностью — неотрицательной ме- мерой Р(А), A Е <5^, называется вероятностным пространством и обо- обозначается (О, 5?, Р). Таким образом, математической моделью любого случайного явления в современной теории вероятностей служит веро- вероятностное пространство. Соответствие между событиями некоторого множества событий и их вероятностями обычно называют распределением вероятностей. Таким образом, вероятность Р(А) как функция множества А Е 5? определяет распределение вероятностей на 5?. Пример 1.9. В любой задаче определения геометрических вероятно- вероятностей пространством элементарных событий Q служит множество всех точек соответствующего пространства (в частности, прямой или плоскости), в ко- которые возможно попадание. Так, в примере 1.3 ft есть интервал @,60с), в примере 1.4 О есть проекция космического аппарата на плоскость, перпен- перпендикулярную траектории космического аппарата, в примере 5 Q есть пря- прямоугольник, образованный интервалом [0, а] на оси х и интервалом [0, тг/2] на оси в. Полем 5? в этом случае служит множество всех подмножеств А множества О, имеющих меру (длину, площадь, объем). Вероятность Р(А) определяется формулой P(A) = v(A)/v(Q), где v(A) и v(Q) — меры (длины, площади, объемы) множеств (частей пространства) Аи(] соответственно. Распределение вероятностей можно определить вероятностями всех элементарных событий только в случае конечного или счетного множества элементарных событий. В большей же части задач, в част- частности, в простейших задачах определения вероятностей попадания в различные части того или иного пространства, множество элементар- элементарных событий несчетно, причем, как правило, ни одно из них не может считаться существенно «более вероятным», чем любое другое. Вслед- Вследствие этого вероятности всех элементарных событий в таких случаях равны нулю и потому ни в какой мере не определяют распределение вероятностей. Именно поэтому распределение вероятностей в общем случае определяется функцией множества Р(А). Рассмотренная модель охватывает все задачи современной тео- теории вероятностей. В каждой вероятностной задаче можно определить некоторое вероятностное пространство. Правда, пространство элемен- элементарных событий часто оказывается очень сложным. Однако для раз- развития теории вероятностей и для ее приложений конкретная струк-
34 Гл. 1. Вероятности событий тура пространства элементарных событий не существенна, вследствие чего можно не задавать это пространство в явном виде, а ограничить- ограничиться лишь предположением о его существовании. Понятие вероятностного пространства дает возможность поло- положить в основу построения теории вероятностей методы теории мно- множеств, теории меры и функционального анализа. В частности, все выводимые дальше свойства вероятностей и многие другие, которы- которыми приходится пользоваться для построения более сложных разде- разделов теории вероятностей — теории случайных функций и др., непос- непосредственно вытекают из общих свойств меры. 1.5.6. Свойства вероятностей. Изучим теперь свойства веро- вероятностей, вытекающие из аксиом. Так как невозможное событие 0 несовместно с любым другим со- событием А, А0 = 0, то из A.11) следует, что Р(А U 0) = Р(А) + Р{0). С другой стороны, так как A U 0 = А (добавление невозможного со- события не изменяет события А)у то P(AU 0) = Р(А). Следователь- Следовательно, Р@) = 0, т.е. вероятность невозможного события равна нулю. Если В С А, то, представив А разложением A.10) на два несов- несовместных события, А = В + АВ, получим в силу A.11) Р(А) = Р(В) + + Р(АВ), откуда следует, что Р(В) ^ Р(А). Таким образом, если событие В может произойти только вме- вместе с событием А, то вероятность события В не может быть больше вероятности события А. А так как любое событие А может произойти только вместе с достоверным событием О, А — AQ С О, то никакое событие не мо- может иметь вероятность, большую вероятности достоверного события, т.е. 1. Таким образом, вероятности любого события принадлежит интервалу [0,11: 0 ^ Р{А) <С 1. Представив объединение совместных событий А\,..., Ап в виде объединения несовместных событий: U Ai = Аг U А2Аг U A3A^A2 U ... U An3i ... ~Ап-и г=1 получим на основании A.11) Р( U ЛЛ= Р(Л!) + P(A2Al) + PiAzAui) + ... ... + Р(АпА1...Ап_1). A.12) А так как A2A1cA2j АзА^сАз, ..., АпА± .. .Зп_х с Ап, то
1.5. Аксиомы теории вероятностей 35 и мы получаем / п \ п 'Щ. A.13) г=1 Это неравенство, называемое свойством полуаддитивности вероят- вероятности, справедливо для любого конечного или счетного множества событий {^4fc} (т.е. как при конечном п, так и при п = оо). Представляет интерес вычислить вероятность объединения сов- совместных событий. Применяя формулу A.12) для двух событий А\ — А и А2 = В, получим P(AUB) = Р(А)+Р(ВА). С другой стороны, на основании A.9) В ~ В A U В А, и, следовательно, Р{В) = Р(АВ)+Р(ВА). Определив отсюда Р(ВА) и подставив в предыдущее равенство, по- получим Р(А UB) = Р{А) + Р(В) - Р{АВ). Таким образом, мы доказали теорему сложения вероятностей: ве- вероятность объединения любых двух событий равна сумме их веро- вероятностей минус вероятность их пересечения. Предоставляем читателю самостоятельно вывести соответствую- соответствующую формулу для вероятности объединения любого числа совмест- совместных событий (применив, например, метод индукции). 1.5.7. Полная группа событий. Совокупность событий {А^} (конечная или счетная) называется полной группой событий, если хо- хотя бы одно из них обязательно появляется в результате опыта. Иными словами, события Ai,... ,^4П5 ^ ^ оо, образуют полную группу, если их объединение есть достоверное событие: LL4& = О. Из аксиомы сложения вероятностей следует, что если события А\,..., Ап несовместны и образуют полную группу, т,о сумма их вероятностей равна единице: = 1. AЛ4) г=1 Противоположные события несовместны и образуют полную груп- группу. Поэтому из A.14) следует, что сумма вероятностей противопо- противоположных событий равна единице: Р(А)+Р(А) = 1. A.15)
36 Гл. 1. Вероятности событий Эта формула очень важна для практики. Во многих задачах вероят- вероятность интересующего нас события трудно вычислить, в то время как вероятность противоположного события вычисляется очень легко. В таких случаях формула A.15) дает вероятность интересующего нас события. 1.6. Условные вероятности 1.6.1. Условная вероятность. Свойство умножения частот да- дает естественный способ определения условной вероятности. Условной вероятностью Р(А\ В) события А относительно собы- события В в случае, когда Р(В) ф 0, называется отношение вероятности пересечения событий А и В к вероятности события В: A.16) При таком определении условной вероятности теорема умножения частот, очевидно, распространяется и на вероятности: Р(АВ) = Р(А) Р(В | А) = Р(В) Р(А | В). A.17) Таким образом, вероятность совместного появления двух событий равна вероятности одного из них, умноженной на условную вероят- вероятность другого. Из определения A.16) следует, что условные вероятности различ- различных событий относительно одного и того же события В, Р(В) ф О, удовлетворяют аксиомам 1, 2 и 3. Следовательно, вся развиваемая дальше теория справедлива и для условных вероятностей. Из A.17) следует, что вероятность совместного появления лю- любого числа событий равна вероятности одного из них, умноженной на условную вероятность другого относительно первого, на услов- условную вероятность третьего относительно пересечения двух первых и т.д., на условную вероятность последнего относительно пересе- пересечения всех предыдущих: Р(А1А2 ¦ ¦ ¦ Ап) = Р(Аг) Р(А2 | Аг) Р(А3 \ АХА2)... ...Р(Ап\А1А2...Ап_1). A.18) Это следствие легко выводится из A.17) по индукции. Пример 1.10. В урне 12 шаров — 5 белых и 7 черных. Из урны выни- вынимают два шара. Найти вероятность того, что оба шара окажутся белыми. Введем события: А — первый (или условно считающийся первым, если шары вынимаются одновременно) шар белый, А — второй шар белый. Тогда будем иметь Р(А) = Р(В) = 5/12, Р(В | А) = Р(А | В) = 4/11
и по формуле A.17) 1.6. Условные вероятности 37 12 11 33 Пример 1.11. В урне 16 шаров — 5 белых, 7 черных и 4 красных. Найти вероятность того, что среди вынутых из урны четырех шаров первый будет белым, второй — черным, а остальные два — красными. Введем события: А\ — первый шар белый, А2 — второй шар черный, As — третий шар красный, А^ — четвертый шар красный. Тогда получим Р(А{) = 5/16, Р(А2 | Аг) = 7/15, Р(А3 | AU2) = 4/14, Р(А4\А1А2Аг) = 3/13 и по формуле A.10) Р(АгА2АзА4) = — • — • — • — = —. V У 16 15 14 13 104 Чтобы убедиться, что эта вероятность не зависит от того, в каком по- порядке берутся события, возьмем эти события в другом порядке, например Аз,А\,А^А2. Тогда получим Р(А4 | АгАх) = 3/14, Р(А2 \ АзАгА4) = 7/13, Пример 1.12. В теории надежности функцией надежности или про- просто надежностью pit) обычно называют вероятность исправной работы прибора от момента t = 0 до текущего момента t. В качестве исходной ха- характеристики прибора при этом принимают интенсивность отказов Х= lim Г(* + Д*1*), At-+O At представляющую собой предел отношения условной вероятности отка- отказа прибора, исправно работавшего до момента t в интервале времени (t,t + At), к величине этого интервала At при At —»¦ 0. Интенсивность от- отказов Л определяется экспериментально, по крайней мере для простейших элементов и блоков. Задача состоит в том, чтобы, зная интенсивность от- отказов как функцию времени Л = А(?), найти функцию надежности pit). Для решения задачи назовем отказ прибора в интервале времени (t,t + At), событием А, а его исправную работу до момента t — событи- событием В. Исправную работу прибора до момента t + At назовем событием С. Событие С можно выразить через события А л В. Для того чтобы система исправно работала до момента t + At, необходимо, чтобы она работала ис- исправно до момента t и чтобы она работала исправно в интервале времени от t до t + At. Следовательно, событие С представляет собой пересечение двух событий: события В и события, противоположного событию А, т.е. С = В А. Отсюда на основании A.17) следует, что Р{С) = Р{В)Р(А\В). (I) Но Р(В) как вероятность исправной работы системы до момента t пред- представляет собой искомую функцию надежности pit): P(B)=p(t). (II)
38 Гл. 1. Вероятности событий Вероятность Р{С), т.е. вероятность исправной работы системы до момен- момента t + At, представляет собой значение той же функции надежности в мо- момент t + At: P(C)=p(t + At). (Ill) Наконец, Р(А \ В) представляет собой условную вероятность отказа систе- системы в интервале времени (t,t-\-At), которая выражается через интенсив- интенсивность отказов системы Л формулой Р(А | В) = p{t + At 1t) = XAt + o(At), где o(At), как всегда, означает бесконечно малую высшего порядка по срав- сравнению At. Применяя для вычисления условной вероятности противополож- противоположного события А формулу A.15), найдем Р(А \B) = l-\At + o(At). (IV) Подставляя выражения (II), (III) и (IV) в (I), получим pit + At) = pit) A - XAt) + o(At). Теперь остается раскрыть в правой части полученного равенства скобки, перенести pit) налево, разделить все члены на At и перейти к пределу при At —>- 0. При этом слева получим производную р it). В результате получа- получается дифференциальное уравнение для функции надежности р'@ = -\P(t). (v) В качестве начального условия естественно принять условие, что система начинает работать в исправном состоянии, т.е. р@) = 1. Дифференциаль- Дифференциальное уравнение (V) и начальное условие р@) = 1 полностью определяют ис- искомую функцию надежности pit). Легко проверить непосредственной подстановкой, что интеграл урав- уравнения (V), равный единице в начальный момент, определяется формулой (VI) 1.6.2. Зависимые и независимые события. Два события на- называются независимыми, если появление одного из них не изменяет вероятности другого, или, иными словами, если появление одного из них не содержит никакой информации о другом. События А и В называются зависимыми, если появление одного из них изменяет вероятность другого. Для независимых событий А и В РЩВ)=Р(А), Р{В\А) = Р{В). A.19) Действительно, вероятность события А, когда известно, что В произо- произошло, есть условная вероятность А относительно В. Если при появле- появлении события В вероятность события А не изменяется, то это означает, что условная вероятность события А относительно В совпадает с ве- вероятностью события А, которую, в отличие от условной вероятности, называют безусловной.
1.6. Условные вероятности 39 Очевидно, что для независимости событий А и В достаточно од- одного из двух равенств A.19); второе автоматически будет выполнено в силу A.17) Для зависимых событий А и В Р{А\В)фР{А), Р(В\А)фР(В). A.20) Очевидно, что два несовместных события А и В всегда зависимы, так как появление одного из них исключает другое, вследствие чего РЩВ)=Р(В\А) = 0. События А\,..., Ап называются независимыми, если каждое из них не зависит от каждого из остальных и от всех возможных их пересечений. Заметим, что для независимости событий А\,..., Ап их попарная независимость необходима, но недостаточна. Пример 1.13. Пусть А и В — произвольные независимые события, вероятности которых равны 1/2, и С — АВ U АВ. Очевидно, что Р(С) = Р(АВ) + Р(АВ) = Р{А)Р(В) + Р(А)Р(В) = 1/2, Р{С | А) = Р(В) = 1/2, Р{С | В) = Р(А) = 1/2. Таким образом, А, В л С попарно независимы. Однако Р(С \ АВ) = 1, так как если происходит событие АВ, то происходит и С. Следовательно, собы- события А, В л С зависимы. Предлагаем читателю самостоятельно вычислить остальные условные вероятности в этой задаче. 1.6.3. Теорема умножения вероятностей для независимых событий. Рассмотрим случай независимых событий А\,..., Ап. > Если события А\,..., Ап независимы, то события Ап и А\ А2 ... ... Ап-\ независимы, события Ап_\ и А± А2 ... ^4п-2 независимы, и так далее, события Дз и А1А2 независимы, и, наконец, события А\ и А^ независимы. Поэтому Р(Ап | АгА2 ... Д..!) = Р(Ап), Р(Ап_г | АгА2 ... Ап_2) = P(An_i), Р(Аз | AiA2) = Р(Аз), Р(А2 | Аг) = Р(А2), и формула A.18) принимает вид Р(Аг А2 ...Ап) = Р(АХ) Р(А2)... Р(Ап). < A.21) Таким образом, вероятность пересечения независимых событий равна произведению их вероятностей. Пример 1.14. В условиях примера 1.4 найти вероятностьрш катастро- катастрофы, когда т метеоритов попадают в космический аппарат.
40 Гл. 1. Вероятности событий Для того чтобы событие А, т.е. катастрофа, произошло, необходимо и достаточно, чтобы по крайней мере один из т метеоритов, попадающий в аппарат, повредил одну из его уязвимых частей. В этом случае простей- простейшим способом вычисления вероятности А является вычисление вероятно- вероятности дополнительного события А, т.е. вероятности безопасного продолжения полета космического аппарата. Событие А происходит тогда и только то- тогда, когда ни один из т ударяющих метеоритов не попадает в уязвимые части. Эффект каждого ударяющего метеорита, очевидно, не зависит от эффектов других (аппарат или разрушен метеоритами, или безопасно про- продолжает свой полет). Поэтому согласно теореме умножения вероятностей для независимых событий A.21) вероятность того, что ни одни из попавших метеоритов не разрушил корабль, равна Р(А) = A-р)т (ш = 1,2,...), (I) где р — вероятность разрушения аппарата одним попавшим метеоритом, найденная в примере 1.4. Для нахождения вероятности катастрофы А соот- соотношение A.15) между вероятностями дополнительных событий может быть использовано при Рт = Р(А) = 1-A-р)т (т = 1,2,...). (П) Для р = 0,12, найденной в примере 1.4, и т = 10 имеем рш = 1-@,88I0 «0,7213. Как мы увидим в п. 1.8.4, прямое вычисление этой вероятности является довольно трудным. Пример 1.15. В урне 12 шаров - 5 белых и 7 черных. Из урны вы- вынимают один шар, отмечают его цвет и возвращают в урну. После этого шары тщательно перемешивают и из урны вынимают второй шар. Найти вероятность того, что оба раза появится белый шар. В данном случае, поскольку после первого вынимания шар возвраща- возвращают в урну, информация о появлении белого шара при первом вынимании не изменяет вероятности появления белого шара при следующем. Поэтому события А (появление белого шара в первый раз) и В (появление белого шара во второй раз) независимы и вероятность их совместного появления равна произведению вероятностей: Пример 1.16. В урне 16 шаров — 5 белых, 7 черных и 4 красных. Из урны 4 раза вынимают по одному шару, возвращая каждый раз шар в урну. Найти вероятность того, что первый шар будет белым, второй — черным, а третий и четвертый — красными. В данном случае события А\ — первый шар белый, А2 — второй шар черный, As — третий шар красный, Аа — четвертый шар красный незави- независимы. Поэтому Р(Л Л Л Л Л 5 7 5 4 35 Р{А,А2А3АА) = _._._._ = __.
1.7. Вероятности сложных событий 41 1.7. Вероятности сложных событий 1.7.1. Формула полной вероятности. Предположим, что с данным опытом связана полная группа несовместных событий Hi,... ..., Нп, вероятности которых Р(Нг) (г = 1,..., п) известны. Нас ин- интересует событие А, для которого известны условные вероятности Р(А | Н{) (г = 1,..., п) относительно всех событий Hi,..., Нп. Требу- Требуется найти вероятность события А. \> Эта задача решается очень просто. Поскольку события Hi,... ..., Нп образуют полную группу, их объединение есть достоверное событие. Событие А может появиться только вместе с каким-нибудь событием Hk- Таким образом, событие А есть объединение событий AHi,..., АНп. Так как события Hi,..., Нп по условию несовместны, то события AHi,..., АНп тоже несовместны, и мы можем применить аксиому сложения: п п Р(А) = Р ( .U Отсюда, пользуясь формулой A.17), получаем i). < A.22) г=1 г=1 Итак, вероятность события А равна сумме вероятностей собы- событий Hi,... ,Нп, умноженных на соответствующие условные веро- вероятности события А. Формула A.22) называется формулой полной вероятности. Она широко применяется в теории вероятностей и в ее приложениях. Пример 1.17. На эксплуатацию приходят однотипные приборы, вы- выпускаемые тремя заводами в пропорции гц : П2 : пз (т.е. на каждые щ при- приборов, выпускаемых первым заводом, приходятся П2 приборов, выпускае- выпускаемых вторым заводом, и пз приборов, выпускаемых третьим заводом). Пред- Предположим, что марка завода на приборах отсутствует и что интенсивность отказов (постоянная) для приборов первого завода равна Ai для приборов второго завода — А2 и для приборов третьего завода — Аз. Найти функцию надежности данного прибора. В данной задаче имеем три несовместных события, образующих полную группу: Hi — данный прибор выпущен первым заводом, Нч — данный прибор выпущен вторым заводом, Нз — данный прибор выпущен третьим заводом. Вероятности этих событий легко определяются: Р(Нк) = "* (* = 1,2,3). П\ + П2 + Пз
42 Гл. 1. Вероятности событий Условные вероятности интересующего нас события А ~ исправной ра- работы прибора до момента t — относительно событий Hi, Н2, Н3 легко опре- определяются по формуле (VI) примера 1.12: Р(А | Hi) = e"Alt, Р(А | Я2) = е~Х2\ Р(А | Я3) = е~Хз\ Пользуясь формулой полной вероятности A.22), находим вероятность ис- исправной работы прибора до момента t (т.е. искомую функцию надежности прибора): 711 + Tl2 + ^3 Пример 1.18. Космический аппарат, пересекающий поток небольших метеоритов, может иметь столкновения с 1,2,...,га,... метеоритами или совсем не сталкиваться ни с одним из них. Вероятность т столкновений равна am=fime-^/m\ (т = 0,1, 2,...). (I) Условные вероятности катастрофы, когда происходит 1,2,...,т,... столк- столкновений, были найдены в примерах 1.4 и 1.14: рш = 1-A-р)т (ш = 0,1,2,...). (II) В этом случае мы имеем полную группу несовместимых событий Нт (га = 0,1, 2,...), т.е. ни одного столкновения Но, одно столкновение Hi, и в общем случае всего т столкновений Нт (га = 0,1, 2,...). Вероятности этих событий р(Нт) определяются уравнением (I). Соответствующие условные вероятности события А, т.е. катастрофы р(А | Нт), даются уравнением (II). Подставляя эти вероятности в формулу полной вероятности A.22), получим оо оо оо . . Р(А) = V" атрт = У* — е~м - Y" ^ ( Р) е~» = 1 - е~^. m^O m=0 m^O Для p = 0,12 и /7, = 0,01 это уравнение дает р(А) = 1 - е~0'0012 « 0,0012. 1.7.2. Формула Бейеса. В задачах практики нас часто интере- интересует полная группа несовместных событий Hi,..., Нп, вероятности которых P(Hi) (i — 1,...,п) известны. Эти события непосредствен- непосредственно не наблюдаемы, но можно наблюдать некоторое событие А, с ни- ними связанное, для которого известны условные вероятности Р(А\ Hi) (г — 1,... ,п). Допустим, что произведен опыт, в результате которого появилось событие А. На основании этого опыта требуется сделать выводы относительно событий Hi,..., Hnj т.е. определить, как изме- изменились их вероятности после произведенного опыта. Иначе говоря, нужно найти условные вероятности событий Hi,..., Нп относительно события А. \> На основании теоремы умножения вероятностей A.17) Р{АНк) = Р{А) Р(Нк | А) = Р(Нк) Р(А |
1.8. Повторение опытов 43 Отсюда следует Р(Нк)Р(А\Нк) Р(Нк\А) = Р(А) Подставляя сюда выражение вероятности события А из формулы пол- полной вероятности A.22), получим . (* = 1,...,п).< A.23) Эта формула обычно называется формулой Бейеса. Она решает поставленную задачу. Вероятности Р(Нк) (fc = l,...,n) интересующих нас событий i?i,..., iJn до опыта обычно называются априорными вероятностями от латинского a priori, что значит «сперва», т.е. в данном случае до то- того, как был произведен опыт. Вероятности P(Hk \А) (к = 1,..., п) тех же событий после опыта называются апостериорными от латинского a posteriori, что значит «после», т.е. в данном случае после опыта. Пример 1.19. В условиях примера 1.17 предположим, что прибор про- проработал безотказно время Т (событие А). Найти апостериорную вероят- вероятность того, что прибор выпущен к-м заводом (/с = 1, 2, 3). Подставив вероятности P(Hi), Р(Я2), Р(#з), P(A\Hi), P(A\H2), Р(А | i/з), заданные в примере 1.17, в формулу Бейеса A.23), находим апо- апостериорную вероятность того, что прибор выпущен к-м заводом: р(И | л\ = 1.8. Повторение опытов 1.8.1. Случай постоянных условий опыта. Рассмотрим сложный опыт, состоящий из нескольких более простых опытов, в каждом из которых может появиться или не появиться некоторое со- событие А. Опыты называются независимыми, если вероятность интересую- интересующего нас события А в каждом опыте не зависит от результатов других опытов. Предположим, что производятся п независимых опытов, в каждом из которых вероятность события А равна р. Требуется найти вероятность Pm?n того, что событие А появится m раз. t> Для того чтобы при п опытах событие А появилось m раз, необ- необходимо и достаточно, чтобы появилась одна из последовательностей событий В\,..., Вп, в которых m из событий_#1,..., Вп совпадают с А, а п — m с противоположным событием А. Очевидно, что чис- число таких последовательностей равно числу сочетаний из п по ш, т.е.
44 Гл. 1. Вероятности событий С™ — п\/[т\ (п — ш)!], О! = 1. В силу независимости опытов вероят- вероятность каждой такой последовательности по теореме умножения для независимых событий A.21) равна pmqn~m, где q = 1 — р. Наконец, в силу несовместности всех возможных последовательностей искомая вероятность Pm,n, равна сумме вероятностей всех последовательно- последовательностей, состоящих из т событий А и п — т событий А, т.е. сумме С™ слагаемых, равных pmqn~m: Рт,п = C™pmq"-m = m!(wnlm), pmq"-m (m = 0,1,..., n). < A.24) Возьмем теперь вспомогательную переменную и и заметим, что величина Pm,nUm = C™pmqn~mum представляет собой общий член разложения функции (q + pu)n по формуле бинома Ньютона. Таким образом, вероятность Pm,n представляет собой коэффици- коэффициент при ит в разложении функции ?>„(«) = («+ри)" A.25) по степеням и. Функция (рп(и) называется производящей функцией для вероят- вероятностей Pm?n. К полученному результату можно прийти также методом индук- индукции, заметив, что при п = 1 задача имеет очевидное решение Род — Ч-> Pii = р, и применив известное соотношение между биномиальными коэффициентами Можно также, исходя из того, что A.27) вывести из A.11) и A.21) рекуррентную формулу для производящих функций: (fn(u) =<Pn-i(u)(q + pu), A-28) а затем получить A.25). Элементарными событиями в данном случае служат все конеч- конечные последовательности {В\,... ,Вп}, где каждое В^ представляет собой событие А или противоположное событие А. Полем событий У служит алгебра всех возможных объединений этих элементарных со- событий, дополненных невозможным событием. Вероятность каждого элементарного события равна pmqn~rn, где т, — число событий В^ в
1.8. Повторение опытов 45 последовательности {??i,..., Вп}, совпадающих с А (га = 0,1,..., п). Вероятность любого события определяется как сумма вероятностей входящих в него элементарных событий. Соответствие между числами т — О,1,..., п и вероятностями Pm,n определяемое формулой A.24), называется биномиальным распреде- распределением. 1.8.2. Случай переменных условий опыта. Формулы A.24) и A.25) легко обобщаются на случай, когда вероятность события А имеет различные значения в разных опытах (повторение опытов в переменных условиях). Если опыты независимы и вероятность собы- события А в к-м опыте равная, q^ = 1 — pk (к = 1,...,п), то вместо A.24) совершенно таким же путем получается формула Рт,п = ^Ph ---PimQi^+i •••&„ (m = 0, l,...,n), A.29) где сумма распространена на все возможные разделения чисел 1, 2,... ..., пна две группы, одна из которых содержит га чисел (н,г2,...,гт), а другая — п — т чисел (гт+1,..., in). Число таких разделений рав- равно С™. Легко понять, что вероятность Pm?n в этом случае представляет собой коэффициент при ит в разложении по степеням и производя- производящей функции A.30) К этому результату тоже можно прийти по индукции или получив рекуррентную формулу (fn(u) = (pn-i(u)(qn +Pnu). A.31) 1.8.3. Вероятность появления события не меньше данно- данного числа раз. Во многих задачах практики приходится определять вероятность того, что интересующее нас событие А появится при п опытах не меньше чем данное число к раз. t> Очевидно, что сложное событие — появление события А не меньше чем к раз — представляет собой объединение п — к + 1 несов- несовместных событий: появление А ровно к раз, появление А ровно к + 1 раз, и т.д., появление А ровно п раз. Следовательно, искомая веро- вероятность Rk,m того, что при п опытах событие А появится не меньше чем к раз, равна п Rk,n = Рк,п + Рк+1,п + • • • + Рп,п — 2_^ Рт,п- A.32) гп=к
46 Гл. 1. Вероятности событий Эту вероятность можно также вычислить, определив сначала веро- вероятность противоположного события, т.е. вероятность того, что собы- событие А появится меньше чем к раз, и вычтя ее из единицы: к-1 ¦К-к,п ~~ -L м),п П,п • • • -^к — 1,п ~~ -L / ¦^т,п- ^ (l.ooj т=0 Ясно, что всегда целесообразно пользоваться той из формул A.32) и A.33), у которой в сумме меньше слагаемых. Очевидно, что в A.32) сумма содержит п — к + 1 слагаемых, а в A.33) — к слагае- слагаемых. Следовательно, формулой A.32) целесообразно пользоваться, если п — к + 1 ^ к, т.е. если к ^ (п + 1)/2. Если к < (п + 1)/2, т.е. к < п — к + 1, то целесообразно пользоваться формулой A.33). 1.8.4. Вероятность хотя бы одного появления события. Чаще всего приходится вычислять вероятность того, что интересую- интересующее нас событие появится хотя бы один раз (т.е. не меньше чем один раз). Очевидно, что в этом случае при любом п ^ 2 целесообразно пользоваться формулой A.33), так как сумма в ней содержит только одно слагаемое Ро,п- В результате получим ТУ -| ТУ 1 /7/7 П (Л *\А\ В частном случае постоянных условий опыта, q\ — q<± — ... = qn = q, и формула A.34) принимает вид Й1,п = 1-дп. A.35) Формулы A.34) и A.35) легко выводятся непосредственно без при- применения формулы A.33). Для этого достаточно вычислить вероят- вероятность противоположного события —непоявления события А ни ра- разу. Вероятность того, что при п независимых опытах событие А не появится ни разу, равна произведению вероятностей непоявле- непоявления А в первом, втором, третьем, и т.д., n-м опытах, т.е. произве- произведению qiq2 ... qn- Вычитая эту вероятность из единицы, мы получим формулу A.34). 1.8.5. Случай опытов с несколькими событиями. Если в результате каждого опыта появляется одно из полной группы несов- несовместных событий Ai,...)Ar, вероятности которых равны соответ- соответственно pi,... ,j9r, p\ + ... + рг — 1, то вероятность того, что при п опытах А\ появится т\ раз, А2 — Ш2 раз и т.д., Аг — тг раз, mi + ... ... + тг = п, определяется формулой mi\m2\...mr\ r>m
1.8. Повторение опытов 47 t> Эта формула легко получается последовательным применением формул A.29). Вероятность того, что событие А\ появится т\ раз при п опытах, согласно A.29) равна Условная вероятность события Аъ в каждом из оставшихся опы- опытов при условии, что А\ в этих опытах не появляется, очевид- очевидно, равна Р2/{Р2 ~\- • • - ~\- Рг)• Поэтому условная вероятность того, что в Ш2 + ... + тг опытах, в которых не появляется А\, событие А<± по- появится гп2 раз, согласно A.29) определяется формулой P2 _ i + .-.+J Продолжая таким образом, находим условную вероятность того, что событие Ak появится ть, раз в ть, + ... + тг опытах при условии, что события Ал,..., Ah-л в этих опытах не появляются: \рк + • • • + Рг Перемножая найденные вероятности, мы и получим формулу A.36). <\ Производящая функция вероятностей Pmiv..,mr, (mi + ... + тг = = п) определяется формулой уп(и1,...,иг) = (ргщ + ... +ргиг)п, A.37) причем Pmi,...,mr представляет собой коэффициент при и™1 ... и™г в разложении этой функции по степеням переменных щ,..., иг. Элементарными событиями в данном случае служат конечные последовательности {??i,..., ??п}, где каждое В^ представляет со- собой одно из событий Ai,... }Ап. Полем событий служит алгебра всех возможных объединений этих событий, дополненных невозмож- невозможным событием. Вероятность каждого элементарного события рав- равна р™1 ... p™v, где rrii — число событий Bj, в последовательности {??i,..., Вп}, совпадающих с Ai (г = 1,..., г). Вероятность любого события равна сумме вероятностей входящих в него элементарных событий. Распределение вероятностей, определяемое формулой A.36), на- называется полиномиальным.
48 Гл. 1. Вероятности событий 1.9. Распределение Пуассона 1.9.1. Потоки событий. На практике приходится встречаться с событиями, которые происходят в случайные моменты времени. Такие события образуют последовательность событий, называемую обычно потоком событий. Примерами потоков событий могут служить вызо- вызовы абонентов на телефонной станции, пересечения перекрестка транс- транспортными средствами, вызовы скорой медицинской помощи, отказы технической системы, приходы клиентов в обслуживающую органи- организацию (например, парикмахерскую) и т.д. Часто можно считать, что поток событий удовлетворяет следую- следующим условиям: 1) для любых двух непересекающихся интервалов времени веро- вероятность появления любого данного числа событий в течение одного из них не зависит от того, сколько событий появляется в течение дру- другого; 2) вероятность появления одного события в течение бесконечно малого интервала времени (?, t + At) есть бесконечно малая величина порядка At; 3) вероятность появления более одного события в течение интер- интервала времени (t,t + At) есть бесконечно малая высшего порядка по сравнению с At. Обозначим pm(ti,t2) вероятность появления га событий в интер- интервале времени (ti,^). Тогда условия 2) и 3) запишутся в виде Pl(t,t + At) = \(t)At + o(At), A.38) =o(At), A.39) где X(t) — некоторая неотрицательная функция*). 1.9.2. Уравнение для вероятности непоявления событий. Поставим задачу: для потока событий, удовлетворяющего услови- условиям 1), 2) и 3), найти вероятности того, что в данном интервале времени (to, t) появится т событий (га = 0,1, 2,...). t> Считая момент to фиксированным, обозначим искомые вероят- вероятности pm(t) (га = 0,1, 2,...). Для вычисления po(t) заметим, что po(t + At) представляет собой вероятность пересечения двух событий: ни одного события в интерва- интервале (to,t) и ни одного события в интервале (t, t + At). Согласно усло- условию 1) эти события независимы. Поэтому po(t + At) = po(t)po(t, t + At). A.40) *) o(At), как всегда, означает бесконечно малую высшего порядка по сравнению с At, так что lim = 0. ^ ' А^О At
1.9. Распределение Пуассона 49 Но на основании A.38) и A.39) сю po(tJ, + At) = l-^2pk(t,t + At) = 1- \(t)At + o(At). A.41) k=l Подставив это выражение в A.40), получим Po(t + At) = Po(t) - Po(t) X(t)At + o(At), откуда Po(t + At) - Po(t) . o(At) Xt = -\(t)po(t) + -дГ. При At —> 0 правая часть этого равенства стремится к определенному пределу — X(t)po(t). Следовательно, существует и предел левой части. Таким образом, вероятность po(t) дифференцируема при любом f ив пределе при At —> 0 мы получаем дифференциальное уравнение p'0(t) = -X(t)po(t). A.42) Для нахождения начального значения вероятности ро (t) достаточ- достаточно положить в A.41) t — to перейти к пределу при At —> 0. Тогда по- получим po(to) = 1. 1.9.3. Уравнения для вероятностей различных чисел со- событий. Для составления уравнений для вероятностей Pi(t),p2(t),... заметим, что т событий могут появиться в интервале времени (to, t + At) одним из следующих т + 1 несовместных способов: все т событий появляются в интервале (to,t) и ни одного в интервале (?, ? + Д?), га — 1 событий появляются в интервале (to,t) и одно в интервале (?, t + At) и т.д., все га событий появляются в интерва- интервале (t,t + At). Поэтому на основании аксиомы сложения вероятно- вероятностей и теоремы умножения вероятностей независимых событий A.21) имеем pm(t + At) = pm(t)po(t,t + At) Отсюда на основании A.38), A.39) и A.41) получаем pm(t + At) = pm(t) + [pm-i(t) -pm(t)]X(t)At + o(At). Следовательно, Рассуждая далее совершенно так же, как и при выводе уравнения A.42), получаем дифференциальное уравнение p'm{t) = A(t)[pm_i - pm{t)] (га = 1, 2,...). A.43)
50 Гл. 1. Вероятности событий Начальные значения вероятностей р\ (t), р<± (t),... все равны нулю в силу того, что роОо) = 1, Рт(к) = 1 (ш = 1, 2,.. .)• 1.9.4. Решение уравнений. Приняв за независимую перемен- переменную величину А* = jx(r)dr, A.44) приведем уравнения A.42) и A.43) к виду dp о dpm . / 1 о \ (л лк\ -f- = -Po, -j— = -Ртп + Ртп-1 (ш = 1,2,...). A.45) Начальные условия примут вид ро = 1, рш = 0 (ш = 1,2,...) при /i = 0. Легко убедиться непосредственной подстановкой, что интегра- интегралы уравнений A.45), удовлетворяющие начальным условиям, опреде- определяются формулой Pm = !Qe~" (™ = 0,1,2,...)- < A.46) Таким образом, для данного интервала времени (to,t) мы имеем счет- счетное множество элементарных событий: ни одного события в этом ин- интервале, одно, два и т.д., и вероятности этих событий определяются формулой A.46). Следовательно, формула A.46) определяет распре- распределение вероятностей. Это распределение вероятностей называется распределением Пуассона. Поэтому поток событий, удовлетворяющих условиям 1), 2) и 3), называется пуассоновским потоком. Параметр // распределения Пуассона, как мы увидим в п. 3.2.1 (пример 3.2), пред- представляет собой среднее число событий, происходящих в данном интер- интервале времени (to,t). Функция X(t) называется интенсивностью пуас- соновского потока. Пример 1.20. Найти вероятность того, что числа электронов, выле- вылетающих из катода электронной лампы в течение интервала времени дли- длительности t, будет равно т, если среднее число электронов, испускаемых в единицу времени, равно Л = const. Поток электронов можно считать пуас- пуассоновским. На основании A.44) в данном случае ц = Xt. Подставив это выражение в A.36), получим Р^ = ~Ге~М (го = 0,1, 2,...). Пример 1.21. Интенсивность потока вызовов телефонной станции (т.е. средняя плотность вызовов — предел отношения среднего числа вызо- вызовов в течение бесконечно малого интервала времени (t,t + At) при At —>- 0) равна X(t). Найти вероятность того, что в течение интервала времени (t\, ?2) на станцию поступит т вызовов. В данном случае можно с достаточной точностью считать, что поток вызовов удовлетворяет условиям, при которых поток является пуассонов-
1.9. Распределение Пуассона 51 ским. В самом деле, в силу отсутствия связи ляежду действиями отдельных абонентов вероятность любого данного числа вызовов в интервале време- времени (f 1, ^2) практически не зависит от того, сколько вызовов поступает в те- течение других интервалов времени, не пересекающихся с интервалом (ti, ?2). Вероятность практически одновременного поступления двух и больше вы- вызовов можно считать равной нулю. Поэтому можно считать выполненными и условия 2) и 3). Тогда искомую вероятность можно вычислить, пользуясь ti распределением Пуассона, по формуле A.46) при /j, = f X(r)dr. ti Вместо вызовов телефонной станции можно рассматривать вызовы ско- скорой помощи, предъявления определенных объектов техники в ремонтную организацию, выезды транспортных средств на перекресток, прибытия кли- клиентов в обслуживающую организацию и т.п. Во всех таких случаях общее число событий, происходящих в течение длительного интервала времени, практически неограничено, а для относительно малых интервалов време- времени можно считать выполненными условия 1)-3), при которых поток можно считать пуассоновским, конечно приближенно, как всегда в задачах прак- практики. То же относится и к явлениям радиоактивного распада вещества. Потоки распада атомов можно считать пуассоновскими. 1.9.5. Случайное распределение точек в пространстве. Распределение Пуассона получается также и в случае, когда точки распределяются случайным образом не на числовой оси, а на плоско- плоскости, поверхности или в пространстве. Предположим, что выполнены условия: 1) для любых двух непересекающихся областей вероятность попа- попадания любого данного числа точек в одну не зависит от того, сколько точек попадает в другую; 2) вероятность попадания одной точки в бесконечно малую об- область представляет собой бесконечно малую того же порядка, что и площадь (объем) этой области; 3) вероятность попадания более одной точки в бесконечно малую область представляет собой бесконечно малую величину высшего по- порядка по сравнению с площадью (объемом) этой области. Тогда вероятность попадания т точек в данную область В опре- определяется формулой A.46) при = Г A(r)dr. A.47) А* в Все предыдущие выкладки остаются при этом в силе. Пример 1.22. При разрыве снаряда неконтактного действия осколки распределяются по некоторой поверхности с плотностью \{t). При очень большом общем числе осколков условие 1) можно считать выполненным для любых областей, малых по сравнению с общей областью, покрываемой осколками. Условия 2) и 3) можно считать выполненными в силу практи- практической невозможности попадания двух и более осколков в одну точку. По- Поэтому для вычисления вероятностей попадания различного числа осколков
52 Гл. 1. Вероятности событий в данные области (обычно малые по сравнению с обшей областью разлета осколков) можно пользоваться распределением Пуассона, вычислив /л по формуле A.47). 1.9.6. Пуассоновское приближение биномиального рас- распределения. Заметим, что вычисления по формуле A.29), определя- определяющей биномиальное распределение, при большом п становятся очень громоздкими. Однако при малой вероятности р биномиальное рас- распределение при большом п хорошо аппроксимируется пуассоновским распределением. Действительно, при малой вероятности р для всех и ? @,1) q+pu = 1+р(и- 1) «е^) = е~р -ери*). Подставив это выражение в формулу A.28) для производящей функ- функции, находим Pm,n*ij^pe-nP (m = 0,1,2,...). A.48) Эта формула дает пуассоновское приближение биномиального распределения. Она достаточно точна при большом числе опытов п и при достаточно малой вероятности р события в одном опыте. Аналогично получается приближенная формула A.46) при /i = = pi + ... + рп для вероятности Рт^п в случае переменных условий опыта при большом п и малых р\,..., рп. Предлагаем читателю самостоятельно показать, что распределе- распределение Пуассона является пределом последовательности биномиальных распределений при р — \ijn (п — 1, 2,...), где // — данная постоянная. *) Предоставляем читателю самостоятельно убедиться в этом, предста- представив ez формулой Маклорена с остаточным членом второго порядка в форме Лагранжа.
Глава 2 СЛУЧАЙНЫЕ ВЕЛИЧИНЫ 2.1. Общие определения. Дискретные случайные величины 2.1.1. Определение случайной величины. В п. 1.2.1 было да- дано интуитивное определение случайной величины, основанное на экс- экспериментально наблюдаемых фактах, и было показано, что с каждой случайной величиной можно связать некоторые события — ее попада- попадания в различные множества. Для изучения случайных величин необ- необходимо, чтобы для некоторого множества таких событий были опре- определены вероятности, т.е. чтобы это множество событий принадлежало полю событий 5?, связанному с данным опытом. Мало того, целесооб- целесообразно потребовать, чтобы это множество событий само представляло собой поле событий (подполе поля J^). Таким образом, мы приходим к следующему определению случайной величины. Случайной величиной называется величина, которая принимает в результате опыта одно из множества возможных значений и с ко- которой связано некоторое поле событий — ее попаданий в заданные множества, — содержащееся в основном поле событий 5?\ 2.1.2. Скалярные и векторные случайные величины. Слу- Случайные величины могут быть как скалярными, так и векторными. В соответствии с общим определением вектора мы будем называть векторной случайной величиной или случайным вектором любую упорядоченную совокупность скалярных случайных величин. Так, например, n-мерный случайный вектор X представляет собой сово- совокупность п скалярных случайных величин {Xi,..., Хп}. Эти величи- величины Xi,... ,ХП будем называть координатами случайного вектора X. Координаты случайного вектора в общем случае могут быть комплексными случайными величинами (принимающими в результа- результате опыта комплексные числовые значения). Однако от комплексных величин всегда можно избавиться, заменив каждую комплексную ве- величину парой действительных — ее действительной и мнимой частя- частями. Таким образом, n-мерный вектор с комплексными координатами всегда можно рассматривать как 2п-мерный вектор с действительны- действительными координатами. Впрочем, это не всегда выгодно, во многих случаях удобнее рассматривать комплексные случайные величины. В дальней- дальнейшем будем для краткости называть вектор с комплексными коорди- координатами комплексным вектором, а вектор с действительными коорди- координатами действительным вектором.
54 Гл. 2. Случайные величины Очевидно, что вместо случайного вектора можно рассматривать случайную точку в соответствующем пространстве. Это совершенно равноценные понятия. Кроме скалярных и конечномерных векторных случайных вели- величин, в теории вероятностей приходится изучать и случайные величи- величины более сложной природы, в частности случайные бесконечные чис- числовые последовательности (бесконечномерные векторы) и случайные функции. Мы будем изучать здесь только конечномерные случайные величины. 2.1.3. Распределение случайной величины. Каждое собы- событие поля 5?х С J^7, связанного со случайной величиной X, представ- представляет собой попадание величины X в некоторое множество А. Это со- событие записывается в виде X ? А (X принадлежит множеству А). Из свойств поля событий следует, что множества А, соответствующие всем событиям {X ? A} ? Уж, образуют алгебру или cr-алгебру мно- множеств я/ в пространстве значений величины X. Соответствие между множествами iGi/и вероятностями попадания в них величины X представляет собой распределение вероятностей в пространстве зна- значений величины X. Это распределение вероятностей называется рас- распределением (законом распределения) случайной величины X. В дальнейшем будем рассматривать только распределения действительных случайных величин (скалярных или векторных). При этом всегда будем отождествлять события вида X ? А с соответст- соответствующими множествами А. В некоторых случаях все возможные значения случайной величи- величины, за исключением, может быть, некоторого множества значений TV, имеющего нулевую вероятность (P(N) — 0), принадлежат некоторо- некоторому подпространству или какому-нибудь другому многообразию про- пространств ее значений. В таких случаях говорят, что распределение случайной величины полностью сосредоточено на этом подпрост- подпространстве или многообразии. Пространство значений случайной величины X с алгеброй или бт-алгеброй я/ множеств в нем и определенной на этих множествах вероятностью образуют вероятностное пространство, называемое ве- вероятностным пространством случайной величины X. 2.1.4. Дискретная случайная величина. Рассмотренные в п. 1.2.1 и в разд. 1.8, 1.9 примеры случайных величин показывают, что некоторые случайные величины имеют только конечное множе- множество возможных значений, как, например, число появлений или часто- частота события при п опытах. Другие имеют счетное множество возмож- возможных значений, как, например, число событий пуассоновского потока, происходящих в течение данного интервала времени. Третьи имеют несчетное множество возможных значений, как, например, время без- безотказной работы прибора, ошибки измерений, координаты точки по- попадания при стрельбе. Случайные величины первых двух типов во
2.1. Общие определения. Дискретные случайные величины 55 многих отношениях значительно проще, чем величины третьего типа. Поэтому их целесообразно выделить в отдельный класс. Дискретной случайной величиной называется случайная величи- величина с конечным или счетным множеством возможных значений. 2.1.5. Распределение дискретной случайной величины. Распределение дискретной случайной величины полностью опреде- определяется вероятностями всех ее возможных значений. Действительно, приняв за элементарные события возможные значения, получим ко- конечное или счетное множество элементарных событий. Вероятности этих элементарных событий полностью определяют распределение дискретной случайной величины. Таким образом, если X — случайная величина с возможными значениями #]_,... , ждг, то ее распределение определяется формулой Сумма всех этих вероятностей равна единице, N так как события X = х\,..., X = xn несовместны и образуют полную группу (случайная величина X принимает в результате опыта какое- нибудь одно и только одно из значений xi,..., xn)- Вероятностным пространством дискретной случайной величи- величины X служит множество ее значений {х\,..., хм } с алгеброй всех под- подмножеств этих значений и вероятностью, равной для каждого подмно- подмножества сумме вероятностей значений, входящих в это подмножество. Однако за вероятностное пространство дискретной случайной ве- величины можно принять и все пространство, точками которого явля- являются ее возможные значения, с cr-алгеброй всех подмножеств этого пространства и вероятностью, значение которой на каждом подмно- подмножестве равно сумме вероятностей возможных значений, содержащих- содержащихся в этом подмножестве. Пример 2.1. Распределение числа X появлений события при п опы- опытах определяется формулой Р(Х = т) = Рш,п (тп = 0,1,..., тг), где вероят- вероятности Рт,п вычисляются по формула разд. 1.8. В данном случае Pl=Po,n, P2=Pl,n, -.., Рп + 1 — Рп,п- В частности, биномиальное распределение определяется в силу A.24) фор- формулой Р(Х = т) = C™pmqn-m (m = 0,1,..., п). Пример 2.2. Распределение частоты Y события при п опытах опре- определяется формулой V п) т'п ' '' ' ' '
56 Гл. 2. Случайные величины Пример 2.3. Распределение Пуассона (в частности, распределение числа X событий пуассоновского потока, происходящих в течение данно- данного интервала времени) определяется формулой A.46): Р(Х = т) = ^ е-" (ш = 0,1, 2,...). Пример 2.4. Распределение ?г-мерного случайного вектора X. коор- координатами которого служат числа Х\,..., Хг появлений несовместных со- событий Ai,..., Аг, образующих полную группу, при п опытах определяется формулой A.36): 77ii + ... + тг = п. Вектор X в данном случае имеет полиномиальное распределение, пол- полностью сосредоточенное на (г — 1)-мерной плоскости х\ + ... + хг = п r-мерного пространства. 2.2. Непрерывные случайные величины. Плотность случайной величины 2.2.1. Плотность случайной величины. Распределение слу- случайной величины с несчетным множеством возможных значений невозможно задать вероятностями отдельных значений. Поэтому необходим другой подход к таким случайным величинам. В разд. 1.2, где мы имели в виду в основном случайные величины с несчетным множеством значений, мы видели, что распределение экспериментальных значений действительной случайной величины удобно характеризовать их относительной плотностью, которая пред- представляет собой отношение частоты попадания в интервал к длине это- этого интервала. При неограниченном увеличении числа опытов частота стремится стабилизироваться около вероятности. Кроме того, длины интервалов Ах при неограниченном увеличении числа опытов можно неограниченно уменьшать. В результате гистограмма будет стремить- стремиться к некоторой кривой, ординаты которой выражают отношения веро- вероятности к длине интервала. Таким образом, мы приходим к понятию плотности случайной величины. Предположим, что поле событий J^, связанное со случайной вели- величиной X, содержит попадания ее в любые интервалы (прямоугольни- (прямоугольники в случае векторной величины X. Плотностью (или плотностью вероятности) скалярной случай- случайной величины X называется предел отношения вероятности попада- попадания ее значения в бесконечно малый интервал [ж,ж + Аж) к длине
2.2. Непрерывные случайные величины 57 этого интервала Ах при стягивании его в точку ж: /(ж) = lim д^ • BЛ) Кривая, изображающая плотность, обычно называется кривой рас- распределения. Она представляет собой теоретический аналог гистограм- гистограммы. На рис. 2.1 представлен примерный вид кривой распределения. Если понимать неравенства меж- между векторами как совместное вы- У полнение таких же неравенств меж- между соответствующими координатами / \^ y=f(x) векторов (например, BSjrfe B®||a<%%iignts < bk, fc = l,...,n), Аж в знамена- знаменателе формулы B.1) как произведе- произведение Ах\ Аж2 ... Джп, а Аж —у 0 как —" тах(Аж1 ... Ажп) —у О, то формула B.1) определит плотность n-мерного рис ^ \ случайного вектора X. Таким образом, плотностью случайного вектора называется пре- предел отношения вероятности его попадания в бесконечно малый пря- прямоугольник [ж, ж + Аж) к объему этого прямоугольника Аж при стя- стягивании его в точку ж. 2.2.2. Непрерывная случайная величина. Плотность как обычная функция существует только в том случае, когда при всех ж существует предел в B.1) (конечный или бесконечный). Поэтому име- имеет смысл выделить класс случайных величин, для которых это усло- условие выполняется. Непрерывной случайной величиной называется такая случайная величина, вероятность попадания которой в любую бесконечно ма- малую область бесконечно мала и для которой при каждом ж существу- существует конечный или бесконечный предел B.1)*). Из этого определения следует, что вероятность попадания непрерывной случайной величи- величины в любую точку (или на любую кривую при п > 1, поверхность при п = 3, гиперповерхность при п > 3) пространства ее значений равна 0. Если плотность /(ж) непрерывна в точке ж, то для любой последо- последовательности прямоугольников {Rp}, содержащих точку ж, сходящейся к точке ж, Rp+1 С Rp, limRp = П Rp = ж, /(ж) = lim p , B.2) p=i *) Достаточно, чтобы предел в B.1) существовал почти при всех ж, т.е. при всех ж, кроме некоторого множества нулевой меры. Множеством нуле- нулевой меры называется такое множество, которое можно покрыть интервала- интервалами (прямоугольниками) сколь угодно малой суммарной длины (площади, объема).
58 Гл. 2. Случайные величины где v{Rp) — объем прямоугольника Rp (длина интервала Rp при п = = 1, площадь при п = 2). \> Для доказательства формулы B.2) зададим произвольно ма- малое г > 0 и выберем настолько малый прямоугольник RPo, чтобы для любой точки х' ? RPo было |/(х')-/(*)!<§• B.3) Тогда для любого р > ро, неравенство B.3) будет выполнено при всех х' е Rp, так как Rp С RPo при р > р0. Пусть Хр — ближайшая к началу координат вершина прямоуголь- прямоугольника Rp, Хр ^ х' для всех ж' G йр. На основании B.3) \f(xp)-f{x)\<\. B.4) С другой стороны, из B.1) следует, что для всех достаточно малых прямоугольников Rp Р(х е RP) ,, |. B-5) Из B.4) и B.5) следует, что для всех достаточно больших р -ГЬг) I f / Отсюда вследствие произвольности г > 0 следует B.2). <\ Будем называть областью любое связное множество точек, имею- имеющее определенный объем (длину при п = 1, площадь при п — 2). Лег- Легко понять, что любую область можно представить в виде счетного объединения попарно непересекающихся прямоугольников. Пусть В — любая область. Если плотность f(x) непрерывна в замкнутой области, полученной путем добавления к области В ее границы, то ^^«М, B.6) где т и М — нижняя и верхняя грани значения плотности f(x) в области В: т = inf /(ж), М = sup f(x). хев хеВ \> Пусть {Rp} — последовательность попарно непересекающих- непересекающихся прямоугольников, объединением которых является область В. Предположим, что Р(Х G B)/v{B) > М. Тогда это же неравенство справедливо, по крайней мере, для одного из прямоугольников, из
2.2. Непрерывные случайные величины 59 которых составлена область В, скажем для R^: P(lG Rk)/v(Rk) > > М. Действительно, если F(lG Rk)/v(Rk) < М для всех прямо- прямоугольников Rkj то в силу аксиомы сложения Р(х е в) = ? ррг е я*) < м ?v(Rk) = Mv(B). к=\ к=1 Обозначим прямоугольник Д/,, для которого P(lG Rk)/v(Rk) > М, через R(l\ Разделим каждую сторону прямоугольника Д^1) пополам. Тогда прямоугольник Д^1) разобьется на 2п равных прямоугольников и, по крайней мере, для одного из них, скажем для Ry = ДB\ будет выполнено то же неравенство: Р(Х ? R^)/v(R^) > М. Продолжая этот процесс деления прямоугольников, получим последовательность прямоугольников {Д(р)}, для каждого из которых Пусть хо — точка, принадлежащая всем прямоугольникам Rw. Оче- Очевидно, что такая точка существует и единственна. Следовательно, по- последовательность, прямоугольников {i?(p)} сходится к точке жо, и в силу B.2) и B.7) /(жо)=Л^ >М Полученное противоречие доказывает правое неравенство B.6). Ана- Аналогично доказывается левое. <\ Из B.6) следует, что формула B.2) справедлива и в том случае, когда {R(p;} представляет собой произвольную последовательность областей, содержащих точку ж, и сходящуюся к точке х. \> Действительно, обозначив через тр и Мр нижнюю и верхнюю грани f{x) в области Rp, применив неравенства B.6) к каждой обла- области Rp и приняв во внимание, что последовательности {тр} и {Мр} сходятся к f(x) в силу непрерывности /(ж), убеждаемся в справедли- справедливости высказанного утверждения. <! 2.2.3. Вероятность попадания в область. Определим вероят- вероятность попадания непрерывной случайной величины X в данную об- область А. \> Предположим сначала, что плотность f(x) величины X непре- непрерывна в замкнутой ограниченной области А. Возьмем произвольную последовательность разбиений области А
60 Гл. 2. Случайные величины На рис. 2.2 показано одно такое разбиение для двумерного векто- вектора X (п = 2). Пусть dp — максимальный из наибольших диаметров областей А[р) (к = 1,..., Np): dp = max sup \x — x'\, lim dp = 0, '" x,x'eA[p) гщ', Mjf' — соответственно нижняя и верхняя грани f(x) в области А^'. Тогда при всех р будем иметь Рис. 2.2 к=1 и в силу справедливости неравенства B.6) имеем m) Следовательно, при всех р к=1 A) B.8) к=1 Из теории интегралов Римана известно, что при р —у оо обе суммы в B.8) сходятся к одному и тому же пределу, равному интегралу от функции /(ж), распространенному на область А. Следовательно, веро- вероятность попадания непрерывной случайной величины X в область А определяется формулой Р(Х = f f( x)dx. B.9) Если плотность f(x) кусочно непрерывна и ограничена в замкну- замкнутой области Л, то разбив А на части, в каждой из которых f(x) непре- непрерывна, и применив аксиому сложения, убеждаемся в том, что форму- формула B.9) справедлива и в случае кусочно непрерывной ограниченной плотности f(x). Если плотность f(x) неограничена в области А или сама область А неограничена, то, представив А как предел последовательности огра- ограниченных областей, в каждой из которых f(x) ограничена, как это делается при определении несобственных интегралов, убеждаемся в справедливости формулы B.9) и в таких случаях. При этом несоб- несобственный интеграл в B.9) всегда существует как предел последова- последовательности неотрицательных интегралов, не превосходящих 1. <!
2.2. Непрерывные случайные величины 61 Таким образом, вероятность попадания случайной величины X в данную область А равна интегралу от плотности этой величины по области А. В случае скалярной величины X формула B.9) определяет веро- вероятность попадания величины X в интервал А = (а,/?): /з Р{а < X < C) = Г /(ж) dx. B.10) а В случае n-мерного вектора X интеграл в B.9) представляет со- собой n-кратный интеграл по всем координатам вектора х. Область А обычно определяется некоторыми неравенствами, из которых нахо- находятся пределы интегрирования по всем переменным. Величина f{x) dx, которая в силу B.1) представляет собой с точ- точностью до бесконечно малых высшего порядка вероятность попадания величины X в бесконечно малую область объема dx, называется эле- элементом вероятности. Вероятностным пространством непрерывной случайной величи- величины X служит пространство ее значений с алгеброй множеств, для которых существует интеграл Римана в B.9), и вероятностью, опре- определяемой формулой B.9)*). Таким образом, плотность непрерывной случайной величины полностью определяет ее распределение. 2.2.4. Свойства плотности. Изучим теперь основные свойства плотности. 1) Из определения непосредственно следует, что плотность не мо- может быть отрицательной, f(x) ^ 0. 2) Учитывая, что выполнение неравенств — оо < X < оо представ- представляет собой достоверное событие (как в случае скалярной, так и в слу- случае векторной величины X), из B.9) получаем сю / f(x)dx = l. B.11) В случае n-мерной векторной величины X интеграл здесь следует понимать как гг-кратный интеграл от — оо до оо по всем координа- координатам х\,..., хп вектора х. Таким образом, плотность неотрицательна и интеграл от нее по всему пространству значений случайной величины равен единице. *) Легко понять, что совокупность всех множеств, для которых фор- формула B.9) и аксиома сложения определяют вероятность, образует алгебру, но не а-алгебру. Чтобы класс множеств, для которых формула B.9) опре- определяет вероятность, был сг-алгеброй, необходимо понимать интеграл как интеграл Лебега. Тогда формула B.9) определит вероятность на сг-алгебре борелевских множеств [42].
62 Гл. 2. Случайные величины Любая функция, обладающая этими двумя свойствами, может слу- служить плотностью случайной величины. Пример 2.5. Равномерное распределение. Так называется распреде- распределение непрерывной случайной величины, плотность которой постоянна в некотором интервале (а, Ь) и равна нулю вне этого интервала: Хе(аМ> B.12) О при х $ (а,Ь). Равномерное распределение характерно для фазы случайных колеба- колебаний. Во многих задачах практики приходится рассматривать гармониче- гармонические колебания со случайными амплитудой и фазой. В таких случаях фа- фаза часто оказывается случайной величиной, равномерно распределенной в пределах периода колебаний. Равномерное распределение характерно также для ошибок грубых из- измерений. Если измерение какой-либо величины производится с точностью до целых делений шкалы, без определения на глаз доли деления, то ошиб- ошибка измерения может иметь любое значение, не превосходящее по абсолют- абсолютной величине половины деления шкалы, причем нет никаких оснований считать вероятности разных значений различными. Больше того, можно с уверенностью сказать, что при большом числе таких измерений все значе- значения ошибки в пределах от минус половины деления до плюс половины де- деления шкалы будут встречаться одинаково часто. Поэтому ошибка грубых измерений, производимых с точностью до целых делений шкалы, представ- представляет собой случайную величину, равномерно распределенную в пределах от —А/2 до +А/2, где А — цена деления шкалы. Равномерным распределением пользуются также при вычислении гео- геометрических вероятностей на числовой прямой (см. пример 1.3). Пример 2.6. Нормальное распределение определяется плотностью {-1-c(x-aJ}, О 0. B.13) = ^-exp Это распределение, занимающее особое место среди всех распределений, мы изучим в разд. 3.6. Пример 2.7. Логарифмическое нормальное (логнормальное) распре- распределение определяется плотностью ±} О 0, B.14) где 1(х) — единичная ступенчатая функция, равная 1 при х > 0 и 0 при х < 0. Случайная величина с таким распределением неотрицательна. Пример 2.8. j-распределение определяется плотностью BЛ5)
2.2. Непрерывные случайные величины 63 где T(z) — гамма-функция, определяемая формулой оо ГО) = /VV^, z>0. B.16) о Частным случаем 7"Распределения при /i = 0 является показательное распределение f(x) = ke~kxl(x). B.17) Показательное распределение широко применяется в теории надежности технических устройств и в теории обслуживания. Частный случай 7-распределения при любом натуральном fi называется распределением Эрланга. Пример 2.9. C-распределение определяется плотностью f(x) = B(p,q)xp-1(l-x)q-1l(x)l(l-x), p,q>0, B.18) где через B(p,q) обозначена бета-функция Г(р)Г(в) B(p,q) = Г(р Пример 2.10. Равномерное распределение в области В n-мерного про- пространства определяется плотностью где 1в(х) — индикатор области В (функция, равная 1 в области ВиО вне области В), a v(B) — объем (мера) области В. В частности, равномерное распределение на прямоугольнике \х\ < а, \у\ < Ь на плоскости определяется плотностью Нх,у) = ±1(а-\х\тЬ-\у\). B.20) Равномерное распределение внутри эллипса х2/а2 + у2/Ъ2 = 1 на плос- плоскости определяется плотностью Равномерным распределением на плоскости и в пространстве пользу- пользуются при вычислении геометрических вероятностей (примеры 1.4 и 1.5). Пример 2.11. Нормальное распределение в n-мерном пространстве определяется плотностью i^ {5(жТ ~аТ) с{х~а)}' B-22) где вектор х представлен в форме матрицы-столбца, верхний индекс «Т» означает операцию транспонирования матрицы, С — симметричная по- положительно определенная матрица, а \С\ — определитель матрицы С. В разд. 4.4 мы подробно изучим многомерное нормальное распределение.
64 Гл. 2. Случайные величины 2.2.5. Случайная величина как функция элементарного события. Из определения случайной величины следует, что при по- появлении любого элементарного события каждая случайная величина принимает одно значение. Следовательно, случайная величина пред- представляет собой функцию элементарного события. Так, в примере 2.1 число появлений X события А представляет собой функцию элементарного события, принимающую значение т при появлении любого элементарного события uj = {i?i,..., Вп}, в ко- котором га из событий В\,..., Вп совпадают с Лип — га — с А. В примере 2.4 случайный вектор X представляет собой функ- функцию элементарного события, принимающую значение {rai,...,rar} при появлении любого элементарного события uj = {Bi,..., Вп}7 в котором nik из событий Bi,...,Bn совпадают с Ak (к = 0,1,... , г; TTii, • • • ,тпг = 0,1,... , n; mi + ... + тг = п). Любая случайная величина X, если принять за элементарные со- события точки пространства ее значений, представляет собой функцию элементарного события, которая при появлении элементарного собы- события uj = х принимает то же значение и; = х, X = х(<и) —и. Координата Хр любого случайного вектора X = {Xi,... ,ХП} представляет собой функцию элементарного события, которая при по- появлении элементарного события и = х = {xi,... ,хп} принимает зна- значение С0р — Хр, Хр = Xp(uj) = UJp (р — 1, . . . , п). Наконец, случайная величина Y — <р(Х), представляющая собой данную функцию случайной величины X, есть функция элементар- элементарного события, которая при появлении элементарного события uj — х принимает значение ip(uj) = ip(x), Y = ip(uj). Однако не всякая функция элементарного события является слу- случайной величиной. Чтобы функция элементарного события ср(и:) была случайной величиной, необходимо, чтобы каждому множеству А неко- некоторого поля в пространстве ее значений она ставила в соответствие одно определенное множество элементарных событий, принадлежа- принадлежащее полю 5?. Такие функции называются измеримыми относительно соответствующих полей. Таким образом, любая случайная величина представляет собой из- измеримую функцию элементарного события. Это принимается за опре- определение случайной величины при построении теории вероятностей на основе теории меры. 2.3. Обобщение понятия плотности 2.3.1. Плотность дискретной случайной величины. Предел в формуле B.1), определяющей плотность, может существовать толь- только в том случае, когда вероятность попадания случайной величины в любой бесконечно малый интервал длины (объема в случае п-мерного
2.3. Обобщение понятия плотности 65 пространства) Ах бесконечно мала. Если вероятность в B.1) пред- представляет собой бесконечно малую низшего порядка по сравнению Ах при каком-нибудь значении ж, то предел в B.1) можно считать рав- равным бесконечности и принять f(x) = oo. Если же вероятность в B.1) стремится к нулю при Ах —у 0, как, например, в случае дискретной величины X, то определить плотность как обычную функцию вообще невозможно. Определить плотность в таких случаях можно только с помощью обобщенных функций. Чтобы подойти к определению плотности дискретной случайной величины X с возможными значениями х\,..., ждг и их вероятностя- вероятностями pi,... ,pni рассмотрим отношение в B.1) при разных значениях ж, предполагая, что ни один из интервалов {xk,Xk+i) (к = 1,..., N — 1) не содержит ни одного возможного значения величины X. Если точ- точка х не совпадает ни с одной из точек Ж1,...,ждг, то при любом достаточно малом Ах интервал [ж, х + Аж) не содержит ни одно- одного значения величины X и вероятность попадания в этот интервал равна 0. Следовательно, плотность /(ж) дискретной случайной ве- величины X существует и равна нулю при всех ж ф Ж1,... ,ждг. При х — Xk вероятность попадания в интервал [ж, ж + Аж) равна pk при всех достаточно малых Аж. Вследствие этого формула B.1) дает /(ж) = оо при ж = Ж1,..., ждг. При этом вероятность попадания в ин- интервал (хк — ?, Xk + s) равна pk при любом достаточно малом е > 0, так как этот интервал содержит значение ж/, величины X и не содер- содержит других ее значений. С другой стороны, согласно формуле B.10) вероятность попадания в этот интервал равна интегралу от плотности в пределах от Хк — е до Xk + s. Следовательно, при любом достаточно малом е > 0 хк+е f(x)dx=pk (Jb = l,...,iV). B.23) хк-е Таким образом, плотность дискретной случайной величины равна нулю всюду, кроме точек xi,..., ждг, в которых она «делает всплески в бесконечность», причем «площади всплесков» в точках Ж1,...,ждг равны соответственно р\,..., pjy. Такую плотность можно предста- представить себе как предел плотности, равной нулю всюду, кроме малых интервалов (хк — 1,Хк -\-1) (к = 1,..., N). и равной соответственно Pi/2/,... ,рдг/2/ в этих интервалах (рис. 2.3), при / —у 0*). Ясно, что этот предельный переход не определяет плотность как функцию пе- переменной х в обычном смысле, так как никакая функция не может удовлетворять условию B.23) при любом е > 0; интеграл от любой (интегрируемой) функции по бесконечно малому интервалу бесконеч- *) Само собой разумеется, что вместо прямоугольных «импульсов» на рис. 2.3 можно взять любые другие «импульсы», имеющие основание 21 и площади, равные pi,... ,Pn-
cements ~66 Гл. 2. Случайные величины но мал и вследствие этого не может оставаться равным pk при про- произвольно малом г > 0. Тем не менее подобные предельные переходы У хк+1 Х2 XN Рис. 2.3 имеют определенный смысл и целесообразны для многих физических и технических приложений. Они приводят к понятию импульсной E-функции (см. приложение 1). Пользуясь E-функцией, можно определить плотность дискретной случайной величины X формулой N п Л(т — г ) B 24") Действительно, подставив выражение B.24) в B.9), приходим к вы- выводу, что вероятность попадания дискретной случайной величины в любую область А равна сумме вероятностей тех значений xv, которые содержатся в области А. Следовательно, задав плотность дискретной величины X формулой B.24), мы полностью определяем распределе- распределение этой величины. 2.3.2. Непрерывно-дискретные случайные величины. Кро- Кроме дискретных и непрерывных, в задачах практики встречаются и та- такие скалярные случайные величины, для которых отличный от нуля предел в B.1) существует при всех ж, кроме конечного или счетного множества значений xi,... , ждг, имеющих отличные от нуля вероят- вероятности pi,... jPn- Такие случайные величины называются непрерывно- дискретными. Плотность непрерывно-дискретной скалярной случайной величи- величины X определяется формулой N f{x) = h(x) + У2р„6(х - х„), B.25)
2.3. Обобщение понятия плотности 67 где fi(x) — неотрицательная функция, представляющая собой предел в B.1) при х ф х\,..., xn *) • Для непрерывно-дискретной случайной величины X формула B.11) дает Любая функция вида B.25), удовлетворяющая этому условию и усло- условию fi(x) ^ 0, может быть плотностью непрерывно-дискретной вели- величины. 2.3.3. Непрерывно-дискретные случайные векторы. Рас- Распределение случайного вектора может иметь значительно более слож- сложную структуру, чем распределение скалярной величины. Отличные от нуля вероятности могут быть сосредоточены не только в отдель- отдельных точках n-мерного пространства, но и на кривых, поверхностях, а при п > 3 и на многообразиях большей размерности. В задачах прак- практики встречаются только такие случайные векторы, у которых во всех точках пространства значений, кроме, может быть, конечного или счетного множества многообразий с сосредоточенными вероятно- вероятностями, существует предел конечный или бесконечный в B.1). Любой такой вектор имеет плотность, которая может содержать S-функции. Если на m-мерном многообразии h{x) — 0, т < 7г, сосредоточена от- отличная от нуля вероятность р, то плотность случайного вектора X содержит слагаемое вида g{x)8(h{x)). При интегрировании по лю- любым п — т координатам вектора х S-функция исчезает и получает- получается выражение д(х) |J(#)|, где согласно правилу замены переменных в кратном интеграле J(x) — якобиан координат вектора h (x) по соот- соответствующим п — т координатам вектора х. Интеграл от этого выра- выражения по оставшимся т координатам вектора х равен р. Таким образом, если в пространстве значений вектора X поло- положительные вероятности р\,..., р^ сосредоточены на многообрази- многообразиях hi(x) = 0,..., Нн(х) = 0, а в остальных точках существует предел в B.1), то плотность вектора X определяется формулой N Пх) = Мх) + ^,9к(хN(кк(х)), B.26) к=1 *) Множество значений случайной величины, имеющих отличные от нуля вероятности, не может быть более чем счетным. В самом деле, не больше одного значения может иметь вероятность больше 1/2, не больше трех значений могут иметь вероятности в интервале A/4,1/2); и вообще не больше 2Р — 1 значений могут иметь вероятности в интервале B~р, 2~p+l). Следовательно, расположив все такие значения в порядке убывания веро- вероятностей, их можно все перенумеровать.
68 Гл. 2. Случайные величины где Л (ж), 9i(x), • • • i9n(x) ~ неотрицательные функции, причем 9\{х),... i9n{%) зависят от выбора соответствующих функций hi(x)...., /гдг(ж). В частности, уравнение к-то многообразия иногда можно записать, выразив явно какие-нибудь координаты вектора х через остальные. Приняв совокупность этих координат за вектор х", а совокупность остальных координат за вектор ж', представим урав- уравнение многообразия в виде х" = (pk(xf). Этому соответствует функ- функция hk(x) = х" — cpk(xf). При этом точку Xk, в которой сосредоточе- сосредоточена вероятность р^, можно считать многообразием нулевой размерно- размерности с уравнением х — х^. В этом случае hk (х) = х — Xk и можно при- принять дк(х) = 9к(хк) =Рк- В частном случае дискретного вектора X, все распределение ко- которого сосредоточено в точках xi,...,ждг, /if» =0, hk(x) =х-хк, 9к(х) =Рк (fe = l,...,iV) и B.26) принимает вид B.24). В другом частном случае непрерыв- непрерывного вектора предел в B.1) существует во всех точках пространства значений, д\{х) = ... = ^дг(ж) = 0 и /(ж) = fi(x). Во всех остальных случаях вектор X будет непрерывно-дискретным. Как мы увидим в примере 4.5, координаты непрерывно-дискрет- непрерывно-дискретного случайного вектора могут быть непрерывными величинами. 2.3.4. Вырожденные распределения. Рассмотрим подробнее частный случай вырожденного распределения величины X, пол- полностью сосредоточенного на одном m-мерном многообразии, гп, < п, уравнение которого h(x) = 0 допускает явное решение относительно каких-нибудь п — m координат вектора х. Представив уравнение этого многообразия в виде х" — ^(ж;), получим из B.26) следующую фор- формулу для плотности вектора X *): f(x)=g(x'N(x"-v(x')). B.27) Таким образом, если случайная величина X" является опреде- определенной функцией другой случайной величины X1', X" = (р(Х'), то их совместная плотность (плотность составного случайного вектора X = {Х',Х"} определяется формулой B.27). Функция g(xf) в B.27), как мы увидим в примере 4.5, представляет собой плотность величи- ны X . В частном случае вырожденного распределения величины X, со- сосредоточенного на подпространстве или сдвинутом подпространстве, *) Так как ^-функция в B.27) равна нулю всюду вне многообразия х" = </?(ж')> т0 функцию д{х) = д(х',х") можно заменить ее значением на этом многообразии: д(х\ х") — д{х\ ^р(х')) = д\(х'). Отбрасывая индекс у найденной таким путем новой функции, получим B.27).
2.4- Функция распределения 69 имеющем уравнение х" = Ах' + с, где А — в общем случае, прямо- прямоугольная матрица, а с — вектор сдвига, формула B.27) принимает вид f(x)=g(x'N(x"-Ax'-c). B.28) 2.3.5. Вероятность попадания в область. Дискретными, неп- непрерывными и непрерывно-дискретными случайными величинами исчерпывается все множество случайных величин, встречающихся в задачах практики. Мы показали, что для этих трех типов случай- случайных величин распределение полностью определяется плотностью. Это дает основание в приложениях теории вероятностей принять плот- плотность за основную характеристику распределения любой конечномер- конечномерной случайной величины. При этом будет справедлива формула B.9) для вероятности попадания случайной величины в любую данную об- область. Однако в общем случае при интегрировании в формуле B.9) следует учитывать все принадлежащие области А части ее границы, на которых сосредоточена отличная от нуля вероятность (на которых аргументы ^-функций, входящих в /(ж), обращаются в нуль). Так, например, при вычислении вероятности попадания в интервал [а, /3) следует учитывать, что вероятность значения а случайной величи- величины X может быть отличной от нуля. Тогда получим /3-0 C-е Р(а ^ X < /?) = Г f(x) dx = lim f f(x) dx. J e-^o J a—0 ot—e 2.4. Функция распределения 2.4.1. Функция распределения и ее связь с плотностью. Функцией распределения случайной величины X называется вероят- вероятность неравенства X < ж, рассматриваемая как функция параметра х: F{x) =P(X <х). B.29) Функция распределения непрерывной, дискретной или непрерыв- непрерывно-дискретной случайной величины может быть выражена через плотность. Для этого достаточно вычислить вероятность неравенства X < х в формуле B.29) по формуле B.9) или B.10): X F{X) = Р(-оо < X < х) = [ f(u) du, B.30) — оо где в n-мерном случае интеграл представляет собой n-кратный инте- интеграл, причем интегрирование по переменной щ, производится от — оо до Xi (г = !,...,??).
70 Гл. 2. Случайные величины Дифференцируя формулу B.30) по ж в случае скалярной величи- величины X и вспоминая, что производная интеграла по верхнему пределу равна значению подынтегральной функции при этом верхнем преде- пределе, получаем f(x) = F'(x). B.31) Таким образом, плотност/ь скалярной случайной величины есть про- производная функции распределения. В случае векторной величины X напишем формулу B.30) в ска- скалярной форме Х\ Xv ,...,xn)= / ... / f(uu...,un)dui...dun — оо — оо и продифференцируем ее один раз по xi, один раз по х-2 и т.д., один раз по хп. В результате получим Таким образом, плотность п-мерной случайной величины пред- представляет собой симметричную смешанную производную п-го поряд- порядка функции распределения. 2.4.2. Свойства функции распределения скалярной вели- величины. Изучим свойства функции распределения скалярной случай- случайной величины. 1) Из формулы B.30) следует, что функция распределения — не- неубывающая функция х. 2) Из B.30) и свойства B.11) плотности следует, что F(-oo) = lim F(x) = 0, F(oo) = lim F(x) = 1. x—У — oo x—>-oo 3) Из B.30) и соглашения в п. 2.2.1 о том, как надо понимать инте- интегралы от плотности, следует, что функция распределения непрерывна слева: F(x) = F(x — 0). 4) Функция распределения дискретной случайной величины воз- возрастает скачками в точках xi,...,xjy соответственно на ^i,...,р^ и постоянна в любом интервале, не содержащем ни одного из значе- значений Ж1,...,ждг, так как вероятность события X < х не изменяется при изменении х в таком интервале. Таким образом, функция распре- распределения дискретной случайной величины изображается ступенчатой линией (рис. 2.4). 5) Из свойств интеграла с переменным верхним пределом следует, что функция распределения непрерывной случайной величины непре- непрерывна и дифференцируема на всей числовой оси. Однако ее произ- производная может быть и разрывной функцией, как, например, в случае равномерного или показательного распределения (рис. 2.5).
\.4- Функция распределения 71 ag replacements y=F(x) О Х\ Х2 Рис. 2.4 Рис. 2.5 Рис. 2.6 6) Функция распределения непрерывно-дискретной случайной ве- величины имеет точки разрыва х\,..., xjy со скачками соответствен- соответственно pi,..., рм и непрерывна и дифференцируема во всех остальных точках числовой оси (рис. 2.6).
72 Гл. 2. Случайные величины 2.4.3. Вероятность попадания скалярной величины в ин- интервал. Зная функцию распределения скалярной случайной величи- величины, можно вычислить вероятность ее попадания в любой полузамкну- полузамкнутый интервал [а,/?). \> В самом деле, так как события X < аи а ^ X < C несовместны и их объединение есть событие X < /3, то Р(Х </3)= Р(Х < а) + Р(а ^ X < /3), откуда в силу B.29) следует Р(а <С X < f3) = F(P) - F(a). < B.33) Таким образом, вероятность попадания случайной величины в данный интервал равна приращению ее функции распределения на этом интервале. Положив в B.33) C = а + е, ? > О, и устремив е к нулю, получаем Р(Х = а)= F(a + 0) - F(a). B.34) Таким образом, вероятность попадания случайной величины в дан- данную точку равна скачку ее функции распределения в данной точке. Пример 2.12. Найти закон распределения времени Т безотказной ра- работы системы с момента начала эксплуатации при постоянной интенсивно- интенсивности отказов Л (см. пример 1.11). Найдем сначала функцию распределения этой случайной величины, т.е. вероятность того, что случайная величина Т будет меньше, чем t: F(t) = = Р(Т < t). Но это есть вероятность того, что система откажет до момен- момента t. Вероятность безотказной работы системы до момента ?, т.е. Р(Т > t), представляет собой функцию надежности системы p(t). При постоянной интенсивности отказов Л функция надежности p(t) = e~xt. Следовательно, F{t) = Р(Т <t) = l- P(T ^t) = l -p(t) = A - e~xt) l(t). При t < 0 эта вероятность равна 0, потому что исправная система не может отказать до начала ее эксплуатации (конечно, предполагается, что ее на- начинают эксплуатировать в исправном состоянии). Следовательно, F{t) — 0 при t < 0. Дифференцируя полученную формулу, находим плотность вре- времени Т безотказной работы f(t) = \e-xtl(t). Таким образом, время безотказной работы системы (момент первого отказа) при постоянной интенсивности отказов Л имеет показательное рас- распределение с параметром к = Л. Пример 2.13. Найдем распределение интервала времени Т между двумя последовательными событиями пуассоновского потока событий по- постоянной интенсивности Л. В этом случае среднее число событий, происхо- происходящих в интервале времени длительности ?, равно (л — Xt. Функция распре- распределения интервала Т между двумя последовательными событиями потока
2.4- Функция распределения 73 есть, очевидно, вероятность того, что в интервале времени длительности t произойдет хотя бы одно событие: F(t) = Р(Т < t). (I) Вероятность противоположного события — в интервале времени длитель- длительности t не произойдет ни одного события — вычисляется по формуле A.46) при /л = At, m = 0: ро = e-Af. (II) Следовательно, F{t) = l-Po = l-e-xt. (Ill) Но это — та же формула, которая была получена в предыдущем примере для функции распределения времени безотказной работы системы. Таким образом, интервал времени между двумя последовательными событиями в пуассоновском потоке постоянной интенсивности представляет собой слу- случайную величину, распределенную по показательному закону. Пример 2.14. Некоторая система эксплуатируется в течение време- времени to. Если она откажет в течение этого времени, то ее ремонтируют и сно- снова используют, пока она не прослужит срок to- Найти закон распределения времени S работы системы после первого ремонта. Очевидно, что случайная величина S связана с временем Т работы си- системы до первого отказа соотношениями 5 = 0 при T^to, S = to-T при T<t0. Так как S ^ 0, то при s ^ 0 ее функция распределения G(s) равна 0. При s > 0 она выражается через функцию распределения F(t) времени Т безот- безотказной работы системы формулой G(s) = P(S < s) = P(t0 -T <з) = Р(Т >to-s) = = 1 - Р(Т <to-s) = l- F(t0 - з). (I) Подставляя сюда выражение F(t) из примера 2.12, получаем G(s) = e~4t°-s) при 0 < s < t0. (II) Наконец, G(s) — 1 при s > to, так как S < to. Из (II) видно, что Таким образом, функция G(s) имеет разрыв со скачком e~xt° в точ- точке s = 0. Во всех остальных точках числовой оси она непрерывна. При любом s G @, to) она имеет производную Хе~х^ь°~3\ а при любых s < 0 и s > to ее производная равна нулю. Следовательно, S представляет со- собой непрерывно-дискретную случайную величину с одним исключительным значением. Ее плотность определяется формулой о(ч) -С'(*)- /Ле"Л(*°) + e-Xt°8(s) при в € [0, to], SW"(jW"\0 при si [0,to\- Пример 2.15. Текущее значение входного сигнала X нелинейного эле- элемента представляет собой непрерывную случайную величину с функцией
74 Гл. 2. Случайные величины распределения F(x). Зависимость текущего значения выходного сигнала У этого элемента связано со значением входного сигнала X в тот же момент времени соотношением {X при \Х\ ^ а, а при \Х\ > а, (I) —а при \Х\ < —а (элемент с такой характеристикой называется ограничителем). Найти рас- распределение выходного сигнала. Ясно, что функция, распределения G(y) случайной величины Y равна О при любом у ^ —а (неравенство Y < у при у ^ —а невозможно) и равна 1 при любом у > а (событие Y < у при у > а достоверно). При \у\ < а собы- событие Y < у совпадает с событием X < у. Следовательно, G(y) = F(y) при \у\ < а. Очевидно, что если F(—a) > 0, F(a) < 1, то функция распределе- <Ш$е&Ьу) имеет разрыв со скачком F(—a) при у = —а и разрыв со скач- ком 1 — F(a) при у — а. При всех остальных значениях у функция G(y) непрерывна и дифференцируема. Следовательно, в этом случае у пред- представляет собой непрерывно-дискретную случайную величину с двумя ис- исключительными значениями —ала. Ее плотность определяется формулой a) при |у|< а, (II) где f(x) — плотность случайной величины X. Вне интервала (—а, а) 9{У) = 0. Пример 2.16. Пусть X — непрерывная случайная величина с плот- плотностью f(x). Найти закон распределения длины пересечения случайно- случайного интервала (X — 1,Х + 1) с данным интервалом (а, 6), предполагая, что 2/ < Ь — а. Примером практической задачи такого типа может служить, а 1 1 I I 1 а х—1 х х+1 Ъ I 1 1 1 +1 а Ъ х—1 1 Ml— х—1 х а х+1 г 1 1 111 а х—1 х Ъ х+1 Рис. 2.7 например, следующая задача из теории стрельбы. Войска противника со- сосредоточены на участке линии фронта от точки а до точки Ъ. При вы- выстреле снаряд уничтожает на линии фронта все на интервале длины 21. При этих условиях снаряд поражает войска противника, расположенные на той части интервала (а,&), которая накрывается случайным интерва-
2.4- Функция распределения 75 лом (X — /, X + /), где X — случайная координата центра зоны поражения. Подобные задачи о перекрытиях часто возникают в теории стрельбы. В зависимости от значения х величины X накрытая часть интерва- интервала (а,Ъ) будет равна или 21 (рис. 2.7, а), или нулю (рис. 2.7, б) или любо- любому промежуточному значению в интервале @, 21) (рис. 2.7, в и рис. 2.7, г): [7 = 0 при X < а — I и при X > Ь + /, U = X -а + l при а-1 < X < а + 1, U = Ъ + 1-Х при Ъ-КХ <Ъ + 1, U = 21 при а + 1 < X <b-l. Для выполнения неравенства U < и при 0 < и ^ 21 необходимо, чтобы удо- удовлетворилось одно из двух несовместных неравенств X — а + / < и или Ъ + / — X < и. Поэтому функция распределения G{u) случайной величи- величины U определяется формулой G(u) = P(U <а) = Р(Х -а + Ки) + Р(Ъ + 1-Х < и) = = Р(Х <и + а-1) + Р(Х >Ъ + 1-и). Выразив последние вероятности через плотность по формуле B.10), получим и+а-1 G[u)= f f{x)dx+ [ f{x)dx, (I) — oo b+l — u b+l-u G(u) = \- f f(x)dx. (II) u+a-l Так как накрытая часть интервала (а, Ъ) не может быть отрицательной, то G(u) = 0 при и ^ 0. А вследствие того, что U не может превосходить 2/, событие U < и достоверно при любом и > 2/, вследствие чего G(u) = / при и > 21. Но из формулы (II) следует, что lim G(u) = 1- [ f(x) dx, a-l b-l G{21) = 1- / f(x)dx. a+l Следовательно, функция распределения G(u) терпит разрывы в точках и = 0 и и = 21 со скачками, равными соответственно = lim G(u) = 1 - / f(x)dx, и-^0 J a-l b-l P2 = l-GBl)= J f(x)dx.
76 Гл. 2. Случайные величины Таким образом, накрытая часть интервала (а, Ь) представляет со- собой непрерывно-дискретную случайную величину U, реализации которой сплошь заполняют интервал [0, 2/], и при этом вероятности двух исключи- исключительных реализаций 0 и 2/ отличны от нуля. Плотность накрытой части интервала (а, Ь) на основании B.31) опреде- определяется формулой д(и) = gi(u)+PlS(u)+P2d(u - 21), (III) где д\ (и) — 0 при и ^ 0 и при и^ 21, а в интервале @, 2/) равна произ- производной функции распределения G(u), определяемой формулой (I) и (II). Дифференцируя формулу (I) по правилу дифференцирования определен- определенного интеграла по верхнему и нижнему пределам, получим при 0 < и < 21 9l(u) = G\u) = f(u + a-l) + f(b + l- и). (IV) Естественно возникает вопрос: существуют ли случайные величи- величины, не относящиеся ни к одному из рассмотренных трех классов слу- случайных величин, с которыми приходится встречаться в задачах прак- практики? Чтобы убедиться в том, что существуют, достаточно привести пример такой случайной величины. Пример 2.17. Рассмотрим случайную величину X, функция распре- распределения которой F(x) определяется следующим образом: принимается F(x) = 0 при х ^ О, F(x) = 1 при х ^ 1; затем интервал @,1) делится на три равные части и в средней части (при х ? A/3, 2/3]) принимает- принимается F(x) = 1/2; каждая из оставшихся частей снова делится на три рав- равные части, и в средних частях принимается соответственно F(x) = 1/4 и F{x) = 3/4; каждая из оставшихся частей в свою очередь, делится на 3 равные части, и на средних частях F(x) принимается равной соответствен- соответственно 1/8, 3/8, 5/8, 7/8; этот процесс деления оставшихся частей на 3 равные У replacements 3/4 1/2 1/4 0 - _-" _-" 1/3 2/3 1 х Рис. 2.8 части продолжается неограниченно; и каждый раз на средней части F(x) определяется как среднее арифметическое ее значений на соседних интер- интервалах, на которых она уже определена (рис. 2.8). При этом в силу свойства непрерывности функции распределения слева F(x) определится и во всех
2.4- Функция распределения 77 точках интервала @,1), не принадлежащих ни одному из интервалов, на которых она определена описанным образом. Ясно, что построенная таким путем функция распределения F(x) непрерывна. Суммарная длина интер- интервалов, на каждом из которых она постоянна, равна 1. Действительно, один интервал постоянства F(x) имеет длину 1/3, два имеют длину 1/9, четы- четыре — 1/27, и вообще 2Р интервалов постоянства F(x) имеют длину 1/3P+1. Следовательно, суммарная длина всех интервалов постоянства F(x) равна 3 ' 9 ' 27 ' '•• ' 3^+1 . р=0 Таким образом, суммарная длина интервалов постоянства F{x) совпадает с длиной интервала @,1), на котором она изменяется от 0 до 1. Следователь- Следовательно, множество точек роста функции F(x) имеет нулевую меру. Несмотря на это, множество точек роста функции F(x) несчетно. В самом деле, функ- функция F(x) непрерывна, вследствие чего ее изменение в любой точке (не на интервале, а в одной точке) равно нулю, и если бы множество ее точек роста было счетным, то она вообще не могла бы изменяться и была бы по- постоянной (сумма счетного множества нулей всегда равна нулю как сумма бесконечного ряда, все члены которого равны нулю). Таким образом, функция F(x) непрерывна и имеет производную, рав- равную нулю, во всех точках числовой оси, кроме несчетного множества то- точек ее роста, имеющего меру нуль. В точках же роста функция F(x) не имеет производной. Очевидно, что случайная величина с такой функцией распределения не является ни дискретной, ни непрерывной, ни непрерывно- дискретной. Чтобы дать более общий пример, обозначим только что определенную функцию распределения через Fq(x). Пусть (р(х) — монотонно возрастаю- возрастающая функция с произвольной областью определения на числовой оси и с областью значений [0,1], ф(х) — монотонно возрастающая функция, отоб- отображающая интервал [0,1] на себя (т.е. с областью определения и областью значений [0,1]). Очевидно, что случайная величина с функцией распределе- распределения F{x) — tp(Fo(tp(x))) также не будет ни дискретной, ни непрерывной, ни непрерывно-дискретной при любом выборе монотонно возрастающих функ- функций сриф. В дальнейшем будем рассматривать только такие случайные ве- величины, которые имеют плотность, возможно содержащую линейную комбинацию ^-функций. 2.4.4. Вероятность попадания случайного вектора в пря- прямоугольник. Пусть X — n-мерный случайный вектор, F(x) — его функция распределения. Обозначим через А\ '' F приращение функ- функции распределения F(x) при изменении к-й координаты Xk вектора х и при неизменных значениях Х{ остальных координат, г ф к. На осно- (к) вании аксиомы сложения величина А)- ' F представляет собой вероят- вероятность попадания величины X в прямоугольник со стороной / по к-й оси и с бесконечными в обоих направлениях сторонами по остальным осям.
78 Гл. 2. Случайные величины Применяя последовательно аксиому сложения, приходим к зак- заключению, что вероятность попадания случайного вектора X в прямо- прямоугольник R, сторонами которого по осям Хкг, • • •, Хкр служат интервалы 1\,..., 1Р, а остальные стороны которого совпадают с соответствующими координатными осями, определяется формулой Р(Х е R) = A^l} ... A^p)F. B.35) 2.4.5. Свойства функции распределения случайного век- вектора. Изучим основные свойства функции распределения случайного вектора. 1) Из определения B.29) и неотрицательности плотности следу- следует, что функция распределения F(x) случайного вектора X является неубывающей функцией каждой из координат вектора х. 2) Из B.29) и свойства B.11) плотности следует, что F{x) —у О, когда хотя бы одна координата вектора х стремится к — оо, и F(x) —у —У 1, когда все координаты вектора х стремятся к +оо. 3) Из B.29) и соглашения в п. 2.3.5 о том, как надо понимать инте- интегралы от плотности, следует, что функция распределения F(x) непре- непрерывна слева по каждой координате вектора х. 4) Из формулы B.35) следует, что для любых натуральных р ^ п, любых fci,..., кр, 1 ^ к\ < к<± < ... ... < кр ^ п, и любых интервалов 1\,..., 1Р. Любая функция F(x), обладающая этими четырьмя свойствами (точнее, свойствами 2), 3) и 4), поскольку 1) представляет собой следствие свойства 4)), может быть функцией распределения слу- случайной величины. Это доказывается совершенно элементарно, если существует про- производная F'(x) (F'(x) = dnF(x)/dx\... дхп в случае n-мерного век- вектора X), возможно, содержащая линейную комбинацию ^-функций. В этом случае, по доказанному в разд. 2.2 и 2.3, существует случай- случайная величина X, для которой f{x) — Ff(x) служит плотностью. Функ- Функция F(x) служит для этой величины X функцией распределения. Доказательство в общем случае требует привлечения теории меры и здесь не приводится. 2.4.6. Зависимые и независимые случайные величины. Случайные величины X и Y называются независимыми, если собы- события X G А и Y G В являются независимыми для любых множеств А и В, соответствующие вероятности которых определены. Случайные величины X и Y называются зависимыми, если существуют множе- множества Аи В, для которых события X G А и Y G В являются зависимы- зависимыми. Эти определения относятся как к скалярным, так и к векторным случайным величинам.
2.4- Функция распределения 79 Из этих определений и условий независимости событий п. 1.6.2 следует, что случайные величины X и Y являются независимыми то- тогда и только тогда, когда отсутствие информации об одной из них меняет распределение другой. > Если случайные величины X и Y являются независимыми, то- тогда согласно определению события X < х и Y < у являются незави- независимыми для любых х и у. Следовательно, в силу теоремы умножения вероятностей независимых событий A.21) Р({Х < x}{Y < у}) = Р(Х < х) ¦ P(Y < у), ИЛИ ,y) = F1(x)-F2(y). < B.36) Таким образом, совместная функция распределения независимых случайных величин равна произведению их функций распределения. \> В силу соотношений B.32) и B.31) между функциями распре- распределения и плотностями из B.36) следует, что f{x,y) = h{x)h{y) B.37) (в случае векторов X и Y формула B.36) должна быть один раз про- продифференцирована по каждой компоненте вектора ж и по каждой компоненте вектора у для получения соотношений B.37)). <\ Таким образом, любое из условий B.36) и B.37) необходимо для независимости случайных величин X uY. \> Теперь покажем, что B.37) также достаточно. Для этого вычис- вычислим вероятность пересечения событий X Е А и Y Е В, предполагая, что условие B.37) выполнено. Подставляя выражение B.37) в форму- формулу B.9), получаем*) р = ({х е A}{Y е В}) = = JJ f(x:y)dxdy = J dx J fi(x)f2(y)dy = j fi(x) J f2(y)dy, АхВ Л В А В или, вследствие B.9), P=({IG A}{Y G B}) = P(X G A) P(Y G B) для любого А и В. Отсюда следует, что события X G А и Y G В яв- являются независимыми для любого А и В, если B.37) выполнено. Это *) А х В представляет собой прямое произведение множеств А и Б, т.е. множество упорядоченных пар {ж, у}, таких, что х G А, у G В.
80 Гл. 2. Случайные величины доказывает достаточность условия B.37) для независимости случай- случайных величин X и Y. Условие B.36), очевидно, тоже достаточно, так как B.37) следует из B.36). < Таким образом, каждое из условий B.36) и B.37) необходимо и достаточно для независимости случайных величин X uY. Случайные величины Х\,..., Хп называются независимыми, ес- если события Xk Gife (k = 1,... , п) являются независимыми для лю- любых множеств А\,..., Ап, для которых определены соответствующие вероятности. Случайные величины Х\,... ,Хп называются зависи- зависимыми, если существуют такие множества Ai,... ,Ап, для которых события Xk ? Ak (к = 1,... , п) являются зависимыми. Эти опреде- определения касаются как скалярных, так и векторных случайных вели- величин ХЬ...,ХП. Аналогично так же, как и в случае двух случайных величин, из этого определения следует, что для независимости Х\,..., Хп необ- необходимо и достаточно, чтобы их совместная функция распределе- распределения {плотность, если она существует) была равна произведению их функций распределения {соответственно плотностей). Примеры зависимых и независимых событий приведены в п. 4.2.3. 2.5. Энтропия распределения 2.5.1. Энтропия как мера неопределенности результатов опытов. Для того чтобы выяснить, что может служить мерой неопре- неопределенности результатов наблюдения случайного явления, рассмот- рассмотрим опыт, в результате которого появляется одно из несовмест- несовместных событий Е]_,..., Е^, образующих полную группу. Результат рассматриваемого опыта проще всего можно характеризовать номе- номером появляющегося события Е% {г = 1, 2,..., N). Для этого необходимо пе- перенумеровать все возможные результаты опыта в какой-нибудь си- системе счисления. Как известно, в двоичной системе счисления всякое число z может быть представлено в виде z = а0 • 2° + пг • 21 + а2 • 22 + ... + ак • 2к, B.38) где каждое из чисел ао, а\,..., а& может быть равно единице или ну- нулю. Число z вполне определяется в двоичной системе последователь- последовательностью чисел ao,ai,..., a& совершенно так же, как в десятичной си- системе всякое число вполне определяется последовательностью чисел, показывающих, сколько в данном числе содержится единиц, десят- десятков, сотен и т.д. Число к + 1 является числом двоичных знаков, кото- которыми изображается число z. Установим следующие правила нумерации возможных результа- результатов опыта:
2.5. Энтропия распределения 81 — равновероятные результаты опыта будем обозначать одним и тем же числом двоичных знаков; — чем больше вероятность данного результата опыта, тем мень- меньшим числом двоичных знаков будем стараться его обозначить. Произвести нумерацию возможных результатов опыта в двоичной системе, руководствуясь перечисленными двумя правилами, можно, например, следующим образом. Разобьем все возможные результа- результаты опыта на две группы так, чтобы сумма вероятностей результатов опыта, входящих в одну группу, была как можно ближе к 1/2. Всем результатам опыта, входящим в одну группу, припишем первый дво- двоичных знак 1, а всем результатам опыта, входящим в другую группу, припишем первый двоичный знак 0. Для определения второго дво- двоичного знака разобьем каждую из двух групп в свою очередь на две подгруппы так, чтобы сумма вероятностей результатов опытов, вхо- входящих в каждую подгруппу, была как можно ближе к 1/4. Продолжая таким образом, мы получим после к разбиений такие группы, что сум- сумма вероятностей входящих в каждую группу результатов опыта будет приблизительно равна 2~к. Если после к разбиений в какой-либо из полученных групп окажется только один возможный результат опы- опыта, то дальнейшее разбиение этой группы будет невозможным, и мы выразим номер составляющего эту группу результата опыта получен- полученным &-значным двоичным числом. Легко видеть, что, если вероят- вероятность какого-нибудь возможного результата опыта равна 2~fe, где к — какое-нибудь целое положительное число, то его номер выразится к- значным двоичным числом. Для того чтобы понять, как можно из- измерить неопределенность результата рассматриваемого опыта, пред- предположим, что вероятности всех возможных результатов опыта выра- выражаются числами 2~Ш{ (г = 1,..., N), где mi,..., тдг — целые поло- положительные числа такие, что N J2^~mi =1. B.39) г=1 Тогда номер результата опыта, вероятность которого равно 2~т\ выразится т,;-значным двоичным числом. При таком способе нуме- нумерации количество двоичных знаков (в том числе которым придет- придется зарегистрировать полученный результат опыта, чтобы полностью определить его) можно рассматривать как случайную величину с возможными значениями mi,... , m^v, вероятности которых равны соответственно 2~mi,..., 2~mN. Естественно попытаться принять за меру неопределенности рассматриваемого опыта математическое ожидание числа двоичных знаков, необходимых для того, чтобы полностью определить результат этого опыта, т.е. величину Н = mi • 2~mi + m2 • 2~т2 + ... + mN • 2~WiV. B.40)
82 Гл. 2. Случайные величины Совершенно так же можно определить номера возможных резуль- результатов опыта в какой-нибудь другой, например, в а-ичной системе. Для этого следует разбить все возможные результаты опыта на а групп и каждой группе приписать одно из а возможных значений первого знака а-ичного числа. Затем каждую из групп разбить на а подгрупп, приписав каждой из подгрупп одно из а возможных значений второго знака а-ичного числа. Если вероятности всех возможных результатов опыта равны a~mi (i = 1,..., TV), где mi,..., ттгдг — такие целые чис- числа, что N Y,a-mi=l, B.41) г=1 то результат опыта, имеющий вероятность а~т\ получит номер, вы- выражаемый mi-значным числом в а-ичной системе счисления. Рас- Рассматривая число знаков в а-ичном числе, которым придется обозна- обозначить полученный результат опыта, чтобы полностью определить его как случайную величину, можно принять за меру неопределенности результата опыта математическое ожидание этой случайной вели- величины: Н = mia-mi + т2а-т2 + ... + mNa-mN. B.42) Формулы B.40) и B.42) могут быть объединены формулой N B-43) г=1 где pi = Р(Е{) (i = 1,..., iV), а логарифмы следует взять при основа- основании 2 в случае формулы B.40) и при основании а в случае форму- формулы B.42). Так как loga z = log2 z/ log2 a = log2 ^loga 2, то вопрос о вы- выборе основания логарифмов является вопросом о единицах измерения неопределенности опыта. В случае формулы B.40) неопределенность измеряется в двоичных знаках, а в случае формулы B.42) — в а-ичных знаках. Таким образом, за меру неопределенности результатов опы- опыта в случае, когда вероятности всех возможных результатов опыта Ei,..., En могут быть выражены целыми отрицательными степеня- степенями какого-нибудь целого числа а, может быть принята величина Н. определяемая формулой B.43). Выбор основания логарифмов определяет единицу измерения эн- энтропии. Для практических приложений удобно выражать энтропию через двоичные логарифмы. Единицей измерения энтропии в этом случае служит один двоичный знак. Эта единица имеет специальное название бит. Так как в общей теории единицы измерения безразлич- безразличны, то мы будем считать в дальнейшем, что основание логарифмов равно некоторому положительному числу a: log и = \ogau.
2.5. Энтропия распределения 83 Пример 2.18. Пусть имеется восемь возможных результатов опыта с вероятностями 1/4, 1/4, 1/8, 1/8, 1/16, 1/16, 1/16, 1/16. Тогда изложенный способ разбиения результатов опытов на группы и определения номера каж- каждого результата опыта в двоичной системе можно представить следующей таблицей: Рг 1/4 1/4 1/8 1/8 1/16 1/16 1/16 1/16 Двоичные знаки 1-й 1 1 0 0 0 0 0 0 2-й 1 0 1 1 0 0 0 0 3-й 1 0 1 1 0 0 4-й 1 0 1 0 Двоичный номер 11 10 011 010 ООН 0010 0001 0000 Математическое ожидание количества двоичных знаков, необходимых для того, чтобы полностью определить результат опыта, в данном случае равно Я = 2- 2-1 + 2. 3-1+4. 4- ^ = 2^биТ. Если вероятности всех восьми возможных результатов опыта равны друг другу, то мы получим таблицу р% 1/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8 Двоичные знаки 1-й 1 1 1 1 0 0 0 0 2-й 1 1 0 0 1 1 0 0 3-й 1 0 1 0 1 0 1 0 Двоичный номер 111 110 101 100 011 010 001 000 и, следовательно, Я = 8 • 3 - = 3 бит.
84 Гл. 2. Случайные величины Обобщая изложенные соображения об измерении неопределенно- неопределенности результатов опытов, естественно принять в качестве меры неопре- неопределенности опыта, в результате которого появляется одно из N несов- несовместных событий Е\,..., En , образующих полную группу, величину N # = -]>>; logp;, B.44) где TV г=1 Величина Н, определяемая формулой B.44), называется энтро- энтропией данного опыта. Основанием логарифмов в выражении энтро- энтропии может служить любое положительное число а (не обязательно целое). Выражение для энтропии B.44) содержит только вероятности раз- различных возможных результатов опыта и не содержит никаких других количественных характеристик опыта. Поэтому нет необходимости связывать понятие энтропии опыта, имеющего конечное число воз- возможных исходов, с какой-либо случайной величиной. Однако вслед- вследствие того, что со всяким подобным опытом можно связать некото- некоторую дискретную случайную величину, например, номер появляюще- появляющегося события, нам удобно будет для дальнейшего относить понятие энтропии к случайной величине. Пусть X — дискретная случайная величина, закон распределения которой выражается формулой Pi=P(X = Xi) (i = l,...,i\T). B.46) Выражение B.44) мы будем называть энтропией случайной ве- величины X и обозначать, когда это будет необходимо, через i?[X]. Из формулы B.44) следует, что энтропия является непрерывной неотрицательной функцией вероятностей р\,..., рдг, которая равна нулю только в том случае, если одна какая-либо из вероятностей Pi,...,Pn равна единице, а остальные равны нулю, т.е. когда вели- величина X неслучайна и рассматриваемый опыт не содержит никакой неопределенности. При этом мы считаем, что значение функции pi при pi — 0 равно lim щ logpi = 0 (г = 1, 2,..., N). 4O Pi Докажем теперь, что при данном п энтропия принимает макси- максимальное значение при pi = ... = pjy = 1/АГ, т.е. когда все возможные значения случайной величины X равновероятны. > Для доказательства воспользуемся неравенством справедливым при любом и ^ 0.
2.5. Энтропия распределения 85 Замечание. Справедливость неравенства устанавливается сле- следующим образом. Если и ^ 1, то 1/t ^ 1/и при 1 ^ t ^ и и f dt ^ 1 f ^ 1 ( 1 \ Л 1 = / — ^ - dt = - (и -1) = 1 . J t и J их и 1 1 Если 0 ^ и ^ 1, то -1/t ^ -1/ii при ii ^ t < 1 и 1 1 1 f dt ^ l f J+ 1 (Л \ Л Х \пи = — — > — dt = — A - и) = 1 . J t и ] иу J и На основании неравенства B.47) для любых положительных чи- чисел pi, qi (г = 1,..., N), удовлетворяющих условию N N y^pi = y^qi = 1, B.48) г=1 г=1 справедливо неравенство N ^ Pi log— ^ 0. B.49) г=1 Действительно, на основании B.47) и B.48) N N R (I-*)- Так как знак равенства в B.47) имеет место только при и = 1, то знак равенства в B.50) и B.49) имеет место только в том слу- случае, когда qi = Pi (г = 1,..., N). Полагая в B.49) q\ — ... = qjy = = 1/iV, получим TV -^Pilogp2-^logiV. B.51) г=1 Знак равенства здесь имеет место только при pi = ... = рдт = 1/N. В этом случае энтропия принимает, очевидно, значение logiY. Так как log TV монотонно возрастает при увеличении TV, то максимальное возможное значение энтропии дискретной случайной величины явля- является монотонно возрастающей функций числа возможных значений случайной величины. Таким образом, неравенство B.51) доказывает, что при данном числе возможных значений N энтропия случайной
86 Гл. 2. Случайные величины величины максимальна в том случае, когда все возможные значения случайной величины равновероятны. <\ Любому опыту с конечным числом возможных исходов соответ- соответствует распределение вероятности, которое может рассматриваться как распределение дискретной случайной величины (т.е. номер эле- элементарного события). И наоборот, любой случайной величине с ко- конечным множеством возможных значений соответствует опыт с ко- конечным числом возможных исходов. Таким образом, в дальнейшем мы будем говорить об энтропии распределения случайной величины вместо энтропии опыта. Соответственно мы обозначим энтропию слу- случайной величины X через i?[X]. В п. 4.6.4 будет доказано, что указанные свойства энтропии с до- дополнительным требованием, что энтропия совместного распределения независимых случайных величин должна быть равна сумме их энтро- энтропии, однозначно определяют энтропию формулой B.44). 2.5.2. Энтропия непрерывной случайной величины. Те- Теперь мы распространим определение энтропии на непрерывные слу- случайные величины. Для этого вернемся к случайной величине с ко- конечным множеством возможных значений. Так как энтропия такой случайной величины независима от ее возможных значений, мы мо- можем ограничиться случайной величиной X с целым числом возмож- возможных значений 1,..., N. Введем функцию N(x), значение которой при любом х представляет собой число значений X, которое не превыша- превышает х. Очевидно, что N(x) равно наибольшему целому числу, которое не превышает ж, т.е. N(x) = [ж], а производная N'(x) равна N N'(x) = ^5{x-v). B.52) Используя формулу для N(x) и формулу B.24) для плотности дис- дискретной случайной величины, мы можем переписать B.44) как оо Н[Х} = - I f(x)logJ^dx. B.53) Чтобы распространить эту формулу на непрерывные величины, за- заметим, что так как возможные значения непрерывной скалярной случайной величины распределены непрерывно на числовой оси R, функция N(x) значений X может быть взята равной х: N(x) = х. Тогда B.53) принимает вид оо Н[Х] = - I f(x) log f(x) dx. B.54)
2.5. Энтропия распределения 87 Эта формула принимается как определение энтропии непрерывной случайной величины, скалярной или векторной. Замечание 1. Читателю, знакомому с теорией меры, нетруд- нетрудно понять, что f(x)/N'{x) представляет собой производную Радона- Никодима вероятностной меры случайной величины X по мере, величина которой при любом множестве представляет собой чис- число возможных значений X, принадлежащих этому множеству. Для непрерывных случайных величин производная Радона-Никодима по лебеговой мере адекватна формуле B.54). Энтропия непрерывной случайной величины в общем случае зави- зависит от распределения случайной величины, в то время как энтропия дискретной случайной величины зависит от вероятностей возможных значений и не зависит от распределения самих возможных значений на числовой оси. Замечание 2. В том случае, когда существенно фиксировать размерность случайной величины X и интервал численных значе- значений 1XJ связанный с X, энтропия Н[Х] определяется формулой сю сю Н[Х] = - J /Or) \og[lxf(x)] dx = - I /Or) log f{x) dx - log/,. — ею —сю Отсюда видно, что выбор интервала lx определяет положение нуля на шкале энтропии — начало отсчета энтропии случайной величины X. Это начало отсчета в принципе может быть выбрано произвольно, однако оно должно быть одним и тем же при сравнении между собой различных энтропии. Дополнение неслучайного количества (числа) к случайной вели- величине не меняет энтропию, так как согласно свойству C) плотности энтропия Y = X + с отличается от энтропии X только заменой пе- переменных х — у — с в формуле B.54). Пример 2.19. Энтропия равномерного распределения (пример 2.10) в области В с конечным объемом (длина, площадь) согласно B.54) выража- выражается формулой HiX\ = f-^logv(B)dx = logv(B). Пример 2.20. Энтропия (пример 2.8) показательного распределения равна оо Н[Х] = - [ ke~kx(\ogk -kx\oge)dx = - log к + loge = l
Гл. 2. Случайные величины В отличие от энтропии дискретной случайной величины энтропия непрерывной случайной величины может в общем случае принимать как положительные, так и отрицательные значения. Лишь для слу- случайных величин с ограниченной плотностью f(x) < А, если принять 1Х < 1/А, энтропия будет всегда положительной. Многие свойства энтропии могут быть установлены с помощью следующего неравенства: / f(x) log Щ dx > 0, B.55) которое справедливо для любых плотностей f(x) и д(х). Это неравен- неравенство является непосредственным следствием неравенства B.47). Так как равенство в B.47) справедливо тогда и только тогда, когда и = 1, равенство в B.55) будет иметь место тогда и только тогда, когда д(х) = f(x). Неравенство B.55) также справедливо, если /(ж) и д(х) представ- представляют собой плотности дискретных или дискретно-непрерывных слу- случайных величин с теми же значениями и с вероятностями, отлич- отличными от нуля. Значение отношения двух линейных комбинаций тех же E-функций в точке разрыва любой из этих J-функций в этом случае должно пониматься как отношение соответствующих коэффи- коэффициентов. 2.5.3. Увеличение энтропии, вызванное сглаживанием плотности. Теперь докажем, что любое сглаживание плотности непрерывной случайной величины подразумевает увеличение энт- энтропии. > Пусть X — случайная величина с плотностью /(ж), (р(х,у) — любая ограниченная кусочно непрерывная неотрицательная функ- функция, удовлетворяющая условиям оо оо J <р(х, y)dx= J ф, у) dy = 1. B.56) — оо —оо Тогда функция оо g(y)= J <p(x,y)f(x)dx B.57) — оо и функции cp(x,y)f(x) и ср(х,у)д(у), очевидно, представляют со- собой некоторые плотности. Пусть Y — случайная величина с плот-
2.5. Энтропия распределения ностью д(у). Тогда, применяя B.56), находим Н[Х] - H[Y] = = / f(x)\ogf(x)dx- J J ip(x,y)f(x)logg(y)dxdy = — oo —oo —oo oo oo = J J (p(x,y)f(x)log^dxdy = Так как (p(x,y)f{x) и (р(х,у)д{у) являются плотностями, то значение последнего интеграла является неотрицательным в B.55). <\ В частном случае, когда X и Y имеют одну и ту же размерность и У = X + Z, a Z — случайная величина, не зависящая от X, плот- плотность Y определяется формулой B.56), где р(х,у) = h(y - z), h(z) — плотность Z. Отсюда, по доказанному свойству, энтропия суммы неза- независимых случайных величин не может быть меньше, чем энтропия каждого из слагаемых. Это подразумевает, что энтропия любой слу- случайной величины, равная сумме увеличивающегося числа независи- независимых случайных величин, представляет собой монотонно возрастаю- возрастающую функцию времени. Этот факт подчеркивает хорошо известный закон статистической физики: энтропия любой физической системы всегда со временем увеличивается. Другие свойства энтропии будет рассмотрены в разд. 4.6. 2.5.4. Экстремальные свойства некоторых распределе- распределений. Некоторые распределения обладают интересным экстремаль- экстремальным свойством в некоторых классах распределений. В частности, такими являются нормальные, равномерные и показательные распре- распределения. Докажем теорему: если энтропия распределения с плотностью /о(ж), принадлежащей некоторому классу распределений С, может быть представлена в виде оо Н[Х] = - f f(x) log fo(x) dx, B.58) где f{x) — любая плотность класса С. то fo(x) является единствен- единственным распределением, обладающим максимальной энтропией среди всех распределений класса С.
90 Гл. 2. Случайные величины \> Пусть Y — случайная величина, плотность f(y) которой при- принадлежит классу С. Ее энтропия выражается формулой f(x) log f(x)dx. Вычитая эту формулу из B.58) и используя B.55), получаем Н[Х] - H[Y] = I f(x) log Ш dx z 0. — сю Так как это равенство справедливо тогда и только тогда, когда f(x) = /о(ж), плотность /о(х) является единственной плотностью в классе С, обладающем максимальной энтропией. <\ Пример 2.21. Рассмотрим класс С n-мерных распределений, пол- полностью содержащихся в ограниченной области В. Пусть X — случайная величина, равномерно распределенная в В, fu(x) = 1b(x)/v(B) — ее плот- плотность, 1в(х) — индикатор области В. Тогда для любой плотности /(ж) класса С J f(x)dx = J и тогда Н[Х] = ~ f fu (х) log fu(х) dx = log v(B) J fu(x) dx = -J f(x) log fu(x) dx. в в в Отсюда по доказанной теореме заключаем, что равноллерное распределение является единственным распределением, обладающим максимальной эн- энтропией среди всех распределений непрерывных случайных величин с воз- возможными значениями, полностью находящимися в той же ограниченной области. Мы покажем в гл. 3 и 4, что нормальные и показательные распре- распределения обладают теми же экстремальными свойствами в некоторых классах распределений.
Глава 3 ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН 3.1. Математическое ожидание 3.1.1. Математическое ожидание дискретной случайной величины. Распределение полностью характеризует случайную ве- величину. Чтобы определить распределение случайной величины, надо задать ее плотность вероятности или функцию распределения. Одна- Однако такая полная, исчерпывающая характеристика случайной величи- величины довольно сложна. Между тем для решения многих задач прак- практически вовсе не нужно знать распределения случайных величин, а достаточно знать лишь некоторые числа, характеризующие их рас- распределения, так называемые числовые характеристики случайных величин. Для грубой характеристики скалярной случайной величины можно, так же как и в разделе 1.2, ограничиться ее средним значе- значением и величиной разброса возможных значений. Чтобы подойти к определению среднего значения случайной величины по данному ее распределению, рассмотрим выборочное среднее дискретной случай- случайной величины X с возможными значениями х\,..., xjy и вероятностя- вероятностями этих значений рг,...,ры соответственно. Очевидно, что при доста- достаточно большом числе опытов п каждое из значений х\,..., xn должно появляться многократно. Предположим, что величина X приняла тп\ раз значение xi, rri2 раз значение Ж2, и т.д., т^ раз значение ждг, nil + ... + rriN — п. Тогда выборочное среднее выразится формулой N N 1 х = - у mkxk = у xk —. к=1 к=1 Но тк/п есть частота значения хк (к = 1,..., N). Следовательно, вы- выборочное среднее дискретной случайной величины равно сумме всех ее возможных значений, умноженных на их частоты. При неограниченном увеличении числа опытов п частоты зна- значений xi,..., xn стремятся стабилизироваться около их вероятно- вероятностей. Поэтому, чтобы определить среднее значение случайной ве- величины X как абстрактную характеристику ее распределения, до- достаточно заменить в полученной формуле частоты mi/n,... ,тдг/п значений х±,..., xn их вероятностями pi,... ,Pn- Это приводит к сле- следующему определению.
92 Гл. 3. Числовые характеристики случайных величин Математическим ожиданием или средним значением дискрет- дискретной случайной величины называется сумма всех ее значений, умно- умноженных на их вероятности. Математическое ожидание случайной величины X мы будем обо- обозначать MX или, сокращенно, тх *). На основании данного определения математическое ожидание дис- дискретной случайной величины X выражается формулой N тх = MX = Y^%kPk. C.1) k=-\ Математическое ожидание произвольной (однозначной) функ- функции ip(X) дискретной случайной величины X на основании данного определения выражается формулой N M<p(X) = Y,<P(xk)Pk. C.2) k=i Действительно, в данном случае величина Y = ip(X) представля- представляет собой дискретную случайную величину с возможными значениями (^(^i),..., (p(xn) и вероятностями этих значений, равными pi,... ,рдг соответственно. Если некоторые из значений ip(xk) функции ip(x) сов- совпадают, то вероятность этого общего значения величины Y = ip(X) равна сумме соответствующих вероятностей р*. Таким образом, фор- формула C.2) определяет математическое ожидание величины Y = ц>(Х) и в этом случае. 3.1.2. Общее определение математического ожидания. Пользуясь формулой B.24) для плотности дискретной случайной ве- величины, можно записать C.2) в виде оо = [ ip(x)f(x)dx. C.3) Эту формулу естественно положить в основу определения математи- математического ожидания для случайных величин всех трех типов, встреча- встречающихся в задачах практики. Математическим ожиданием функции (р(Х) случайной величи- величины X с плотностью f(x) называется интеграл C.3). В частном случае непрерывной величины X и кусочно непре- непрерывной функции ip(x) интеграл C.3) представляет собой интеграл Римана. *) Иногда, особенно в иностранной литературе, математическое ожида- ожидание величины X обозначается ЕХ (от английского expected value — ожи- ожидаемое значение).
3.1. Математическое ожидание 93 Ясно, что математическое ожидание функции ip(X) существует тогда и только тогда, когда ОО [ \ip(x)\f(x)dx < оо*). C.4) — оо Чтобы получить формулу для вычисления математического ожи- ожидания функции ip(X) в случае непрерывно-дискретной величины X, подставим в C.3) выражение B.25) ее плотности. Тогда получим ОО ДГ М<р(Х)= / ф)Мх)(Ь-^^2фк)рк. C.5) Если в частном случае областью возможных значений величины X служит не вся числовая ось, а только какой-нибудь ее интервал (а, 6), то плотность fix) равна нулю вне этого интервала и интегрирование в C.3) производится от х = а до х — Ъ. В этом случае интеграл C.4), а следовательно, и математическое ожидание величины (р(Х) заведомо существует. В частном случае при ip(x) = x формула C.3) определяет матема- математическое ожидание случайной величины X: ОО тх = MX = I xf(x)dx. C.6) — (X) В случае векторной величины X интегралы в C.3) и C.6) пред- представляют собой кратные интегралы, распространенные на все про- пространство значений величины X. Функция ц>(х) в C.3) может быть скалярной (действительной или комплексной), векторной или мат- матричной. При этом, как обычно, интеграл от векторной (матричной) функции понимается как вектор (матрица), координатами которого (элементами которой) служат интегралы от соответствующих коор- координат векторной (элементов матричной) функции. Принимая во внимание сказанное, приходим к выводу, что математическое ожидание тх случайного вектора X с координа- координатами Х\,..., Хп представляет собой вектор с координатами mi — \, ..., тп = МХп. *) Если интеграл расходится, то интеграл Римана ъ J cp(x)f(x)dx — а может или иметь предел, или не иметь, когда а, Ъ —>- сю независимо.
94 Гл. 3. Числовые характеристики случайных величин 3.1.3. Свойства математических ожиданий. Основные свойства математического ожидания вытекают непосредственно из свойств интеграла. 1) Если функция ip(x) представляет собой постоянную ц>(х) = с, то в силу свойства B.11) плотности вероятности оо оо Me = I cf(x) dx = с j f(x) dx — с. — оо —оо Таким образом, математическое ожидание неслучайной величины равно самой величине. 2) Далее, из свойств интеграла следует k=l _оо k=l п = J J п оо п J M*)f(x)dx = J2ckMMX). C.7) kl fe=] QQ k=l Заметим теперь, что любые комплексные случайные величины Xk = Х'к + iX% (к — 1,..., п) можно рассматривать как функции 2п-мерного случайного вектора X с координатами Х[, X",..., Х'п, X", Xk = ip(X) (к = 1,..., п) *). Поэтому из C.7) следует, в частности, что для любых скалярных случайных величин Х\,..., Хп, действитель- действительных или комплексных, _ _ C.8) k=l k=l Таким образом, математическое ожидание линейной функции случайных величии равно той же самой функции от их математи- математических ожиданий (свойство линейности операции математического ожидания**)). В частном случае п = 1 отсюда следует, что при умножении слу- случайной величины на число ее математическое ожидание умножа- умножается на то же число. *) В разделе 4.1 будет показано, что, рассматривая действительную слу- случайную величину как координату некоторого случайного вектора и вычис- вычисляя ее математическое ожидание как математическое ожидание функции этого случайного вектора по формуле C.6), мы получим тот же результат, что и при вычислении по формуле C.3). **) Операцией или оператором математического ожидания мы на- называем переход от случайной величины к ее математическому ожиданию.
3.2. Моменты второго порядка 95 3) При с\ — ... = сп = 1 из C.8) вытекает теорема сложения ма- математических ожиданий: математическое ожидание суммы случай- случайных величин всегда равно сумме их математических ожиданий: 4) Ясно, что формулы C.7)-C.9) справедливы как для скалярных величин, так и для матричных (в частном случае — векторных, ес- если пользоваться представлением векторов в виде матриц-столбцов) величин с, X, ci,..., cn, Xi, ..., Хп. Из C.8) следует, что для любой неслучайной матрицы С и случайной векторной или матричной вели- величины X мех = смх. (з.ю) Точно так же из C.8) вытекает формула МХС = (МХ)С. C.11) Само собой разумеется, что в случае прямоугольных (не квадратных) матриц С и X буква С в C.10) и C.11) не может означать одну и ту же матрицу. Из свойства 1) и C.11) получаем М(АХ + а0) = АМХ + а0. C.12) 5) Из свойств интеграла имеем \МХ\ ^ М\Х\. C.13) 3.2. Моменты второго порядка 3.2.1. Дисперсия и среднее квадратическое отклонение. Теперь можно определить абстрактные аналоги всех выборочных чис- числовых характеристик раздела 1.2. Для этого достаточно заменить все выборочные средние математическими ожиданиями. Предварительно введем понятие центрированной случайной величины. Центрированной случайной величиной называется разность меж- между случайной величиной и ее математическим ожиданием, т.е. от- отклонение случайной величины от ее математического ожидания. Мы будем отмечать центрированные случайные величины индексом 0 сверху, Х° = X - тх, Y° = Y - ту и т.д. Дисперсией скалярной случайной величины называется математи- математическое ожидание квадрата модуля соответствующей центрированной случайной величины.
96 Гл. 3. Числовые характеристики случайных величин Дисперсию случайной величины X будем обозначать DX или, со- сокращенно, Dx *): Dx = DX = М\Х°\2 = М\Х - тх\2. C.14) Средним квадратическим или стандартным отклонением ах случайной величины X называется положительный квадратный ко- корень из ее дисперсии: ах = л/Вх~=угВХ. C.15) Чтобы получить формулу для вычисления дисперсии, достаточ- достаточно положить в общей формуле C.3) для математического ожидания функции случайной величины ip(X) = |Х°|2 = \Х — тх\2 и соответ- соответственно (р(х) = \х — тх\2. Если X — действительная случайная вели- величина, то формула C.3) даст ОО DX = DX= Г (х- mxff{x) dx, C.16) — ОО где f(x) — плотность величины X. Если X — комплексная случайная величина X = X' + iX", то формула C.3) даст (X) (X) DX=DX= I I \x'+ ix"-mx\2f{x',x")dx'dx", C.17) — оо —оо где f{x'1x") — совместная плотность случайных величин X' и X". Подставив в C.16) выражение B.24), получим формулу для дис- дисперсии действительной дискретной случайной величины: N DX = DX = ?)(я* - ™*JPk- C.18) k=i Подставив в C.16) выражение B.25), получим формулу для дис- дисперсии непрерывно-дискретной случайной величины: оо N DX = DX= {х)^) оо N = {х-тхJ^х)Aх + ^{хк-тхJрк. C.19) Пример 3.1. Найти математическое ожидание и дисперсию числа X появлений события А при п независимых опытах, если вероятность собы- события А в каждом опыте равна р (биномиальное распределение — пример 2.1). *) Иногда, особенно в иностранной литературе, дисперсия величины X обозначается VX от английского variance (изменчивость).
3.2. Моменты второго порядка 97 По формуле C.2) находим п п mx=J2 тРт,п = Y, ™СпРтЯп-т, в = 1 - Р- (I) т=0 т=0 Для вычисления суммы (I) воспользуемся производящей функцией A.25): п Vn(u)=J2P^nUm = (q + pu)n. (II) т=0 Дифференцируя формулу (II) по it, получаем п /„(«) = J2 тРт,пит-1 = npiq + pu)"-1. (Ill) т=0 Положив в (III) и = 1и учитывая, что q + р = 1, находим Для вычисления дисперсии воспользуемся формулой C.17): п п Dx = ^ (т - прJРш,п = ^ т2Рт,п - т=0 т=0 п п Y2 п + П2/ ^ Ря>т. (IV) Вторую сумму в (IV) мы уже вычислили, она равна пр. Третья сумма в (IV) равна 1 в силу основного свойства дискретных распределений (то же, конечно, получится, если положить в выражении производящей функ- функции A.25) п=1). Для вычисления первой суммы умножим (III) на и и продифференцируем результат по и: du *- m=0 = —-[npu(q + pu)n X] — np(q + npu){q + pu)n 2. (V) Положив в (V) и = 1, находим П d Y] т2рш,п = ~[шр'п(и)] = np(q + пр). (VI) ^-""^ «It w = l ?тг=О Подставив найденные выражения сумм в (IV), получаем Dx = npg. Пример 3.2. Найти математическое ожидание и дисперсию случай- случайной величины X, распределенной по закону Пуассона (пример 2.3). По формуле C.2) находим математическое ожидание: Z_-/ Z_-/ 979! ^ -1 т=1 т=1
98 Гл. 3. Числовые характеристики случайных величин По формуле C.18) находим дисперсию: -Bai-1)V m —е""+//У ^-e"". (II) т=1 т=0 Вторую сумму в (II) мы уже вычислили, она равна в силу (I) fi. Третья сумма равна 1. Остается вычислить первую сумму: \~^ / -, \ А6 —и, 2-й \~^ М 2 /ттт\ > тут — 1) е = и, е > — = п . (Ш) Подставив найденные выражения сумм в (II), получаем Dx — /i. Таким об- образом, математическое ожидание и дисперсия случайной величины, распре- распределенной по закону Пуассона, равны параметру fi в A.46). Пример 3.3. Для равномерно распределенной в интервале (а,Ь) слу- случайной величины X (пример 2.5) формулы C.3) и C.17) дают шж = ь ъ xdx _а + Ъ _ [( а + 5\2 dx _ (b - аJ 12 Пример 3.4. Для случайной величины X, распределенной по показа- показательному закону (пример 2.8), получаем /с о о Пример 3.5. В условиях примера 2.14 математическое ожидание и дисперсия времени S работы системы после первого ремонта определяются по формулам C.5) и C.19): т о = j SAe-A(t°-s) ds + 0 • е-Л*° = *0 - I A - е"^), ds [0 - t0 + \ A - e~Xt°)] Пример З.6. В качестве примера случайной величины, не имеющей математического ожидания и дисперсии, рассмотрим случайную величи- величину X, распределенную по закону Кошщ который определяется плотностью f(x) = --T—^ гу. C.20) v у тг Ъ2 + (х - аJ у J
3.2. Моменты второго порядка 99 В этом случае оо оо оо С х bdx 1 Г , . ч du Ъ [ udu т*= J пЬ^ + (Х-аГ = п J {а + Ьи)гТ^=а+п J ГТ^- — оо —оо —оо Несобственный интеграл в этой формуле расходится, так так при а, /3 —»- сю In/-. n1\ [lA + P ( Следовательно, случайная величина X не имеет математического ожида- ожидания. Однако если учесть симметрию распределения Коши относительно точки а и соответственно понимать интеграл в смысле главного значения Коши [69, 109], то будем иметь Ь .. Г тх — а Н— hm / - 7Г iV->oo J 1 N udu г = a. -N В этом случае дисперсия случайной величины X определится формулой оо оо b [ (х-aJ dx _ b2 f и2 du _ тг J b2 + (x — аJ 7Г — oo —oo Таким образом, случайная величина, распределенная по закону Коши, не имеет дисперсии даже в том случае, если ее математическое ожидание счи- считать существующим и равным а из соображений симметрии. 3.2.2. Ковариация и коэффициент корреляции. Ковариа- цией скалярных случайных величин X и Y называется матема- математическое ожидание произведения центрированной первой случай- случайной величины и сопряженной центрированной второй случайной величины: kxy = MX°Y°. C.21) Чтобы получить формулу для вычисления ковариации действи- действительных случайных величин X и У, достаточно рассматривать X°Y° = (X — mx)(Y — ту) как функцию случайных величин X и Y и применить формулу C.3): оо оо кху = / I (x-mx)(y-my)f(x,y)dxdy, C.22) — оо —оо где f(x,y) — совместная плотность величин X и Y. Чтобы получить формулу для вычисления ковариации комплекс- комплексных случайных величин X = X' +JX" и F = F/ + iF//, достаточ- достаточно рассматривать произведение X°Y° как функцию четырехмерного
100 Гл. 3. Числовые характеристики случайных величин случайного вектора с координатами Х',Х",У',У". Тогда получим оо оо оо оо кху = / / / / (х1 + ix" -mx)(yf + iy" - my) x — оо — оо — оо —сю x f(x',x\y',y")dx'dx"dy'dy\ C.23) где f(x',x",y',y") — совместная плотность случайных величин Х\ X", У, У". За характеристику зависимости между двумя случайными вели- величинами X и Y принимается отношение их коварнации к произведению их средних квадратических отклонений. Эта безразмерная величина называется коэффициентом корреляции величин X и Y: k h /DxDy C.24) Таким образом, чтобы получить числовые характеристики дву- двумерного случайного вектора, следует добавить к математическим ожиданиям и дисперсиям его координат еще их ковариацию или ко- коэффициент корреляции. Очевидно, что ковариация случайной величины X с самой собой равна ее дисперсии, кхх = Dx, а ее коэффициент корреляции с самой собой равен единице, гхх = 1; кху = Дт, гху = 1 и в более общем слу- случае, когда Y0 — Х°, rriy ф тх. Пример 3.7. Найти ковариацию координат случайного вектора, рав- равномерно распределенного на прямоугольнике |ж| < а, \у\ < Ъ (пример 2.10). Подставив в C.22) выражение B.20) плотности и имея в виду, что в данном случае тх = ту = 0, получим а Ъ Пример 3.8. Для двумерного случайного вектора с равномерным распределением внутри эллипса х2/а2 + у2/Ъ2 = 1 (пример 2.10) тх — = ту =0 и а у kXy = I dx I Пример 3.9. Для двумерного случайного вектора с равномерным распределением внутри эллипса х2 /а2 + (у — схJ /Ь2 = 1 тх = ту = = 0 и W сх+Ъл dx cx — b\/ • J 1-ж2/а2 /" f -Ж2/а2 тгаЬ ca2
3.2. Моменты второго порядка 101 3.2.3. Коррелированные и некоррелированные случайные величины. Зависимость между случайными величинами, характе- характеризуемая коэффициентом корреляции, называется, корреляцией. Слу- Случайные величины называются коррелированными, если их коэффици- коэффициент корреляции отличен от нуля. Случайные величины называются некоррелированными, если их коэффициент корреляции равен нулю. Из C.24) следует, что случайные величины не коррелированы тогда и только тогда, когда их ковариация равна нулю. Легко видеть, что для некоррелированности случайных величин достаточно, чтобы их совместное распределение было симметрично относительно какой-нибудь прямой, параллельной одной из осей ко- координат. Пример 3.10. Ковариация случайных величин X и Y = X2 в случае равномерного распределения X в интервале {—а, а) равна 0: [ J 2а — а Следовательно, величины X и Y = X2 не коррелированы, несмотря на то что они связаны самой жесткой зависимостью — функциональной. 3.2.4. Моменты первого и второго порядков. Математиче- Математическое ожидание, дисперсия и ковариация представляют собой частные виды моментов случайных величин. Моментом первого порядка {первым моментом) случайной вели- величины называется ее математическое ожидание. Моментом второго порядка {вторым моментом) скалярной (в общем случае комплексной) случайной величины X называется мате- математическое ожидание квадрата ее модуля: 1Х = М\Х\\ C.25) Центральным моментом второго порядка величины X называет- называется момент второго порядка центрированной величины Х° — X — тх, т.е. ее дисперсия. Моментом второго порядка величины X относительно точки а называется момент второго порядка разности X — а: >ух(а) = М\Х-а\2. C.26) Очевидно, что jx = 7.x-@), Dx = -fx{mx). Смешанным моментом второго порядка скалярных случайных величин X и Y называется математическое ожидание произведения первой величины и сопряженной второй: 1ху = MXY. C.27)
102 Гл. 3. Числовые характеристики случайных величин Центральным смешанным моментом второго порядка величин X и Y называется смешанный второй момент центрированных случай- случайных величин Х° и Y0, т.е. ковариация величин X и Y. Смешанным моментом второго порядка величин X и Y отно- относительно точек а и Ъ называется смешанный второй момент разно- разностей X — а и Y — Ь: Ъу{а, Ъ) = М(Х - a)(Y - Ъ). C.28) Ясно, что jxy = 7arj/@,0), kxy = jXy(mXjmy). > Подставив в C.25) и C.27) X = тх + X°,Y = my+Y° и поль- пользуясь свойствами C.7) и C.9) математических ожиданий, получим выражения моментов второго порядка через математические ожида- ожидания и центральные моменты второго порядка: mxm xmy. Аналогично из C.26) и C.28) получаем jxx(a) = Dx + \тх -а|2, (а, Ь) = кху + (тх - а)(ту - Ь). О C.29) C.30) C.31) C.32) Таким образом, все моменты второго порядка выражаются через математические ожидания случайных величин и их центральные моменты второго порядка. Формула C.31) показывает, что дисперсия, случайной величи- величины представляет собой наименьший из всех ее моментов второго порядка. 3.3. Моменты второго порядка случайных векторов 3.3.1. Момент второго порядка, ковариационная матрица, корреляционная матрица. Моментом второго порядка (вторым моментом) случайного вектора X называется матрица вторых мо- моментов всех его координат: Г.т- — 7и 712 721 722 7in 72п Лп1 7п2 — IVl у\.рУ\ C.33) Момент второго порядка центрированного случайного векто- вектора Х° — X — тх называется ковариационной матрицей случайного
3. Моменты второго порядка случайных векторов 103 вектора X: kn: kpq = C.34) Представив вектор Х в форме матрицы-столбца, можем перепи- переписать определения второго момента и ковариационной матрицы слу- случайного вектора X в виде Гх = C.35) где звездочка означает операцию транспонирования матрицы с заме- заменой всех ее комплексных элементов соответствующими сопряженны- сопряженными числами. Матрица, элементами которой служат коэффициенты корреляции координат Х\,..., Хп случайного вектора X, называется его корреля- корреляционной матрицей: 1 Г 21 Т\2 1 1 C.36) \> Подставив в первую формулу C.35) X — тпх + Х° и пользуясь свойствами C.7) и C.9) математических ожиданий, получаем соотно- соотношение между моментом второго порядка, ковариационной матрицей и математическим ожиданием случайного вектора: Гх = Кх +mxm*r. <\ C.37) 3.3.2. Взаимный момент второго порядка и взаимная ко- ковариационная матрица. Обобщая определение C.35), назовем вза- взаимным моментом второго порядка (вторъш моментом) двух слу- случайных векторов X и Y матрицу (в общем случае прямоугольную) Гху = MXY*. C.38) Взаимной ковариационной матрицей или ковариацией случай- случайных векторов X и Y назовем взаимный момент второго порядка со- соответствующих центрированных случайных векторов Х° — X — тх ° 0° yy Взаимные момент второго порядка, ковариационная матрица и математические ожидания векторов X и Y связаны соотношением, аналогичным C.37): = К ху . C.39)
104 Гл. 3. Числовые характеристики случайных величин Случайные векторы X и Y называются коррелированными, если Кху ф 0, и некоррелированными, если Кху — 0. Из этого определения следует, что векторы X и Y не коррелированы тогда и только тогда, когда каждая координата одного из них не коррелирована со всеми координатами другого. 3.3.3. Операторы моментов второго порядка. Как известно, любая матрица определяет линейный оператор, отображающий одно пространство в другое (или в то же самое). Линейный оператор Тх, определяемый матрицей Гж, называется оператором момента второго порядка случайного вектора X. Ковариационным оператором случайного вектора X называется оператор момента второго порядка соответствующего центрирован- центрированного случайного вектора Х°, т.е. оператор Кх, определяемый ковари- ковариационной матрицей Кх вектора X. Аналогично определяются взаимный оператор момента второго порядка и взаимный ковариационный оператор двух случайных век- векторов X и Y. В частном случае ковариационный оператор Кх скалярной слу- случайной величины X представляет собой оператор умножения на дис- дисперсию Dx этой случайной величины. 3.3.4. Свойства моментов второго порядка. 1) Из C.33)- C.35) следует, что моменты второго порядка случайных векторов обладают эрмитовской симметрией (являются эрмитовыми): г* = мх**х* = мхх* = г^ Ър = Ъя, (з.4О) 2) Из C.35) следует, что матрицы Гх и Кх неотрицательно опре- определенны. \> Действительно, для любого вектора (матрицы-столбца) и имеем иТТхп = М(итХ)(Х*п) = М(Хти)(Хти) = М\Хти\2 ^ 0, C.41) причем знак равенства возможен тогда и только тогда, когда Хти — 0 с вероятностью 1, т.е. когда координаты случайного вектора X связа- связаны линейной функциональной зависимостью. Поэтому со М\Хги\2 = / \xTu\2f(x) dx= [ \xTu\2f(x) dx > 0, -oo \xTu\>0 если P(\XTu\ > 0) = J f{x) dx > 0 > 0, \xTu\>0
3.3. Моменты второго порядка случайных векторов 105 где неравенство под знаком интеграла указывает, что областью ин- интегрирования служит часть пространства, в которой выполнено это неравенство. О Таким образом, момент второго порядка случайного вектора, представляет собой эрмитову неотрицательно определенную мат- матрицу. В п. 3.4.7 мы увидим, что всякая матрица, обладающая эти- этими двумя свойствами, может служить ковариационной матрицей, а следовательно, и моментом второго порядка некоторого случайного вектора. 3) Легко убедиться также в том, что при изменении порядка слу- случайных векторов их взаимные второй момент и ковариационная матрица переходят в эрмитовски сопряженные матрицы: Гух = Т*ху, Кух = К*ху. C.42) 4) Из неотрицательной определенности матрицы ГХ(КХ) следует, что ее определитель действителен, неотрицателен и равен нулю тогда и только тогда, когда координаты случайного вектора X (со- (соответственно Х° = X — тх) связаны линейными функциональными зависимостями. Действительно, определитель эрмитовой матрицы равен произ- произведению ее собственных значений, а собственные значения неот- неотрицательно определенной эрмитовой матрицы все неотрицательны. Отсюда следует, что определитель матрицы ГХ(КХ) неотрицателен и равен нулю тогда и только тогда, когда она имеет нулевое собствен- собственное значение. Если нуль является m-кратным собственным значением матри- матрицы ТХ(КХ) (т.е. га из п ее собственных значений равны нулю), то в пространстве значений вектора X существуют га взаимно ортого- ортогональных векторов cpi,..., (fm, для которых Гх<Рр = 0 (р= 1,...,га). Умножив это соотношение слева на (/?* и учитывая C.35), получаем <р;гх(Рр = м<р;хх\р = м\^;х\2 = о. Отсюда следует, что с вероятностью 1 Таким образом, в случае га-кратного нулевого собственного значе- значения матрицы Гх координаты вектора X связаны га независимыми линейными соотношениями. В этом случае распределение вектора X полностью сосредоточено на п — га-мерном подпространстве, образо- образованном п — га собственными векторами матрицы Тх, соответствую- соответствующими отличным от нуля собственным значениям (соответственно на
106 Гл. 3. Числовые характеристики случайных величин (n — т)-мерном подпространстве, образованном п — т собственными векторами матрицы Кх, сдвинутом на вектор тх). Иными словами, матрица ТХ(КХ) имеет ранг г тогда и только тогда, когда распреде- распределение случайного вектора X полностью сосредоточено на г-мерном подпространстве (соответственно на г-мерном подпространстве, сдвинутом на вектор тх). 5) Выразив на основании C.36) элементы ковариационной матри- матрицы Кх формулой kpq — Tpq^Jkppkqq, убеждаемся в том, что и определи- определитель корреляционной матрицы неотрицателен и равен нулю тогда и только тогда, когда случайные величины X®,... ,Х^ связаны ли- линейными функциональными зависимостями. При этом ранг корреля- корреляционной матрицы равен г тогда и только тогда, когда распределение вектора X сосредоточено на г-мерном подпространстве, сдвинутом на вектор тх. Таким образом, при любом п In 721 712 722 Ъ _7nl fe u feln fen 0, C.43) и аналогичное неравенство справедливо для определителя корреля- корреляционной матрицы. 6) При п — 2 неравенства C.43) и аналогичное неравенство для корреляционной матрицы дают |ri2| ^ 1. C.44) |7l2| ^ л/711722, |fel2| ^ Vfellfe22, Последнее неравенство убеждает нас в том, что коэффициент корре- корреляции случайных величин не может быть по модулю больше еди- единицы, и его модуль равен единице тогда и только тогда, когда цен- центрированные случайные величины связаны линейной зависимостью. 7) Положив Х\ — X, Х<± — У, перепишем первое неравенство C.44) в виде \MXY\2 ^ M\X\2M\Y\2. C.45) Знак равенства здесь имеет место тогда и только тогда, когда случай- случайные величины X и Y связаны линейной зависимостью с\Х + c^Y — 0. 8) Заметим, что все установленные свойства матриц Гх и Кх при- присущи матрицам Гх и Кх, определяемым формулами C.35), и в том случае, когда X представляет собой произвольную прямоугольную матрицу. В этом случае элементы матриц Гх и Кх определяются фор- формулами vqri ь. _ Y r=l
3.3. Моменты второго порядка случайных векторов 107 Вводя векторы (матрицы-столбцы) Хр = [Хр1 ... Хрт]Т (р= 1,...,п), можем представить формулы, определяющие jpq и kpq, в виде T lm = MXTpXq, km = Тогда, положив Х\ — X, Х<± — Y-, перепишем первую формулу C.44) в виде \MXTY\2 <С M\X\2M\Y\2, C.46) где модули следует понимать как модули (евклидовы нормы) век- векторов: |X|2 = f>p|2, |F|2=f>p|2. C.47) р=1 р=1 Знак равенства в C.46) имеет место тогда и только тогда, когда случайные векторы X и Y связаны линейной зависи- зависимостью с\Х + c<iY — 0. 3.3.5. Линейные преобразования случайных векторов. Рас- Рассмотрим теперь случайный вектор У, полученный линейным преоб- преобразованием вектора X: Y = AX + a0. C.48) Его математическое ожидание определяется формулой C.13), кото- которую мы перепишем в виде ту = Атх + а0. C.49) Вычитая C.49) из C.48), получаем Y0 = АХ°. Пользуясь этим со- соотношением и определением C.35), находим ковариационную матрицу вектора Y: Ку = МУ°У°* = МАХ°Х°*А*. Но в силу C.11), C.12) и C.35) МЛХ°Х°*Л* = А(МХ°Х°*)А* = АКХА*. Следовательно, КУ = АКХА\ C.50) Эта формула показывает, что при преобразовании случайного век- вектора X линейным оператором с матрицей А его ковариационная
108 Гл. 3. Числовые характеристики случайных величин матрица умножается слева на матрицу А, а справа на эрмитов- ски сопряженную матрицу А*. В частном случае, когда Y — скалярная случайная величина, А представляет собой матрицу-строку, А — [а± ... ап], и формула C.50) определяет дисперсию случайной величины Y: ВУ = p,q=l В частном случае некоррелированных случайных величин Х\,..., Хп, эта формула принимает вид п Y\2' C-52) где Dp = kpp — дисперсия величины Хр (р = 1,..., п). В частном слу- случае при п — 1 отсюда следует, что при умножении случайной вели- величины на число ее дисперсия умножается, на квадрат модуля этого числа. Аналогично выводится формула Kzu = AKxyB* C.53) для взаимной ковариационной матрицы случайных векторов Z = AX + aOj U = BY + b0. C.54) В частном случае при Y — X формула C.53) принимает вид KZU = AKXB*. C.55) Эта формула определяет взаимную ковариационную матрицу случай- случайных векторов Z и U, полученных двумя разными линейными преоб- преобразованиями одного и того же случайного вектора X: Z = AX + aOj U = BX + b0. C.56) В частном случае скалярных величин Z и U матрицы А и В представляют собой матрицы-строки, А = [а± ... ап], В — \Ь\ ... Ьп], и формула C.55) определяет ковариацию случайных величин Z и U: п kzu = ^2 kPqapl>q- C.57)
3.3. Моменты второго порядка случайных векторов 109 В частном случае некоррелированных координат Х\,..., Хп векто- вектора X эта формула принимает вид п kzu = J2DPapbP, C.58) p=i где Dp = kpp (p= l,...,n). Чтобы привести формулу C.50) в случае некоррелированных ве- величин Х\,..., Хп к удобному для приложений виду, будем рассмат- рассматривать p-R столбец матрицы А как матрицу-столбец ар: ар = [а1р а2р ... атр]Т (р = 1,... ,п). Тогда формула D8), определяющая вектор У, перепишется в виде Формула C.50), определяющая ковариационную матрицу вектора У, в силу того, что kpq = 0 при q ф р, примет вид где Dp = kpp — дисперсия величины Хр, т.е. р-й элемент диагональной матрицы Кх {р — 1,..., п). Формула C.60), конечно, может быть выведена непосредственно из C.59) с учетом свойств C.7), C.10), C.11) и C.12) математических ожиданий. К аналогичной форме приводится в случае вектора X с некорре- некоррелированными координатами и формула C.55). Заметим, что в случае линейных преобразований без сдвига C.48), C.54), C.56), когда а0 = Ьо = 0, соотношения C.50), C.53), C.55) спра- справедливы также и для вторых моментов Г. Следует, однако, помнить, что если ао,&о Ф 0, то формулы C.50), C.53), и C.55) справедливы только для ковариационных матриц К. Пример 3.11. Найти математическое ожидание и дисперсию часто- частоты Р события А при п независимых опытах, если вероятность А в каждом опыте равна р. Пусть Хк — число появлений события А при одном к-м опыте. Эта величина имеет два возможных значения 0 и 1, вероятности которых равны соответственно q = 1 — р и р. Поэтому ее математическое ожидание гпк и дисперсия Dk определяются по формулам C.2) и C.18): rrik = O-q + l-p = p, (I) Dk = @ - pf • q + A - pf • p = p2 - q + q2 • p = pq. (II)
110 Гл. 3. Числовые характеристики случайных величин Таким образом, все величины X],..., Хп имеют одинаковые математиче- математические ожидания и дисперсии, равные соответственно р и pq. Частота события при п опытах определяется формулой так как число его появлений при п опытах равно сумме чисел его появлений в отдельных опытах, т.е. Х\ + ... + Хп. Таким образом, частота Р представ- представляет собой линейную функцию случайных величин Х\,..., Хп. Поэтому для нахождения ее математического ожидания можно применить форму- лу C.49): МР = — у^ МХк = — (пр) = р. (IV) п *-^ п Для вычисления дисперсии частоты Р заметим, что на основании теоремы, которая будет доказана в п. 4.2.4, из независимости опытов вытекает некор- некоррелированность случайных величин Х\,..., Хп. Поэтому для вычисления дисперсии можно применить формулу C.52): п DP=\Y^DXk = \{npq) = P-l. (V) п2 ^—' п2 п Этот же результат получится, если воспользоваться результатами вы- вычислений математического ожидания и дисперсии числа X появлений собы- события А при п опытах в примере 3.1 и заметить, что в силу того, что Р = Х/п, МР=- MX, DP= Д- DX. п п2 Наконец, заметив, что X = Х\ + ... + Хп, можно значительно проще получить результаты примера 3.1 по формулам для математического ожи- ожидания и дисперсии суммы некоррелированных случайных величин. Пример 3.12. Найти математическое ожидание и дисперсию сред- среднего арифметического значения X действительных случайных величин Х\,..., Хп. По формулам C.49) и C.51) находим 1 -2 p=l где kpq = MXpXq. В частном случае некоррелированных величин ..., Хп последняя формула принимает вид p=i где Dp = крр (р = 1,..., п). Наконец, в случае, когда величины Xi,..., Хп не коррелированы и имеют одинаковые математические ожидания и дис- дисперсии, равные соответственно тх и Dx, полученные формулы дают MX = -{nmx) = mx, DX = \ (nDx) = —. (Ill) п п2 п
3.3. Моменты второго порядка случайных векторов 111 Пример 3.13. Найти математическое ожидание и ковариационную матрицу случайного вектора Z, координаты которого Z\,..., Zn представ- представляют собой числа появлений значений xi,..., xn дискретной случайной ве- величины X при п независимых опытах, если в каждом опыте Р(Х = хи) = Ри (v=l,...,N). Пусть Z^%> — случайный вектор, координатами которого служат чис- числа появлений значений xi,..., xn в одном г-м опыте. Очевидно, что воз- возможными значениями вектора Z^ служат единичные векторы Д^-мерного пространства ei = {1,0,...,0}, е2 = {0,1,...,0}, ..., eN = {О,..., 1}, так как в одном опыте появляется только одно из значений xi,..., xn- Ве- Вероятности этих значений равны pi,... ,рлг- Следовательно, математическое ожидание вектора Z^ равно N {) ^ P. (I) Таким образом, математическое ожидание вектора Z^%> представляет со- собой вектор р, координатами которого служат вероятности pi,... ,Pn значе- значений xi,... ,xn случайной величины X. Для определения ковариационной матрицы вектора Z^%> найдем сначала его момент второго порядка Г'. За- Заметив, что 7/-я координата вектора Z^ равна 1 с вероятностью ри и 0 с вероятностью 1 — ри, находим диагональные элементы матрицы Г': Ъ„ = 12-р»+02-A-р„)=Р*. (П) Так как никакие две координаты вектора Z^ не могут быть одновременно отличными от 0, то их произведение равно 0 с вероятностью 1. Поэтому ^y'Ufji = 0 при 11 ф v. Определив моменты второго порядка координат векто- вектора Z^\ с учетом (I) и (II) можно найти их дисперсии и ковариации по формулам C.29) и C.30): Ки = Vv - pt = р„A - ри), Таким образом, из (III) следует, что ковариационная матрица К векто- вектора Z^%> определяется формулой К = А-ррТ, (IV) где Л — диагональная матрица с элементами pi,...,pjv, ар — вектор- столбец с теми же элементами. Заметив теперь, что находим математическое ожидание и ковариационную матрицу вектора Z: mz = пр, Kz = п(Л - ррТ). (V)
112 Гл. 3. Числовые характеристики случайных величин 3.4. Канонические разложения случайных векторов 3.4.1. Разложение по собственным векторам. Во многих за- задачах практики удобно оперировать случайными векторами с некор- некоррелированными координатами. В связи с этим возникает задача при- приведения любого случайного вектора к вектору с некоррелированными координатами (декорреляции координат случайного вектора). Эта за- задача равноценна задаче приведения ковариационной матрицы к диа- диагональной форме. \> Из линейной алгебры известно, что любая эрмитовская (сим- (симметричная) матрица может быть приведена к диагональной фор- форме унитарным (ортогональным) преобразованием. Пусть Ai,..., An — собственные значения матрицы Кх (неотрицательные в силу неотри- неотрицательной определенности Кх\ ipi,---,(fn ~ соответствующие ортонормированные собственные векторы. Тогда будут справедливы соотношения Кх(рр = \р(рр (р=1,...,п), C.61) (Vp,Vq) = V*qVP = $pq (P,Q = l,...,n)*). C.62) Пусть Ф — квадратная матрица, столбцами которой служат собствен- собственные векторы: Ф = [<pi ... <рп]. C.63) Покажем, что случайный вектор U = Ф*Х° C.64) имеет некоррелированные координаты. Для этого найдем по форму- формуле C.50) его ковариационную матрицу: или, в силу C.61), Ки = : [Xiipi ... Отсюда, принимая во внимание C.62), получаем ...Кх<рп], Ai О О А2 о о AnJ *) В первой части формулы скалярное произведение записано в обыч- обычной форме, а во второй — в матричной, когда векторы представлены в форме матриц-столбцов; ёрр — 1, Spq = 0 при р ф q (символ Кронекера).
3.4- Канонические разложения случайных векторов 113 Таким образом, ковариационная матрица случайного вектора U диа- гональна. Следовательно, его координаты не коррелированы и их дис- дисперсии равны соответствующим собственным значениям ковариаци- ковариационной матрицы Кх, DUP — Хр (р = 1,..., п). Из C.64) вытекает следующая формула для координат вектора U: Up = <р;Х° = (Х°, <рр) (р = 1,..., п). C.65) Эта формула показывает, что координаты вектора U представляют собой проекции случайного вектора Х° на собственные векторы. Наконец, представив вектор Х° — X — тх разложением по бази- су {</?i,..., рп}, получаем X = тх + ^2(Х°, ?р)?р = rnx + ^2 Uptfp. C.66) p=i p=i Эта формула дает разложение случайного вектора X по собственным векторам его ковариационной матрицы. Сравнив C.66) с C.59) и при- применив формулу C.60), получим разложение ковариационной матрицы случайного вектора X по собственным векторам: Случайные величины Ui(fi,..., Un(fn в разложении C.66) по соб- собственным векторам называются главными компонентами случай- случайного вектора X. Это название объясняется тем, что среди про- проекций вектора X на все возможные направления максимальную дисперсию, равную наибольшему собственному значению Ai, имеет проекция на собственный вектор (fi и при любом s среди проекций вектора Х° — U\ip\ — ... — Us-\Lps-i на все возможные направления максимальной дисперсией, равной s-му по величине собственному зна- значению As, обладает проекция на собственный вектор (р8 (экстремаль- (экстремальное свойство собственных значений) [96, т. 3, ч. 1]: \^ = sup cp*Kx<p, s-l Xs = sup p=i 3.4.2. Вычисление собственных значений и собственных векторов. Для получения разложения случайного вектора по собственным векторам необходимо найти собственные значения и собственные векторы его ковариационной матрицы. Эта задача
114 Гл. 3. Числовые характеристики случайных величин сводится к решению алгебраического уравнения n-й степени \Кх-\1\ = 0*). и соответствующих систем однородных линейных уравнений C.61), что связано со значительными вычислительными трудностями. По- Поэтому для вычисления собственных значений и собственных векторов обычно применяют приближенные вычислительные методы линейной алгебры [107]. 3.4.3. Каноническое разложение. Определение собственных значений и собственных векторов всегда связано с громоздкими вы- вычислениями. Между тем ковариационная матрица может быть приве- приведена к диагональной форме бесчисленным множеством других спосо- способов, если отказаться от требования унитарности преобразования. \> Пусть /i,..., /п — произвольные линейно независимые век- векторы. Определим случайные величины Vp = f^X° {р — 1,... ,п). На основании C.50) и C.55) дисперсии и ковариации величин Vi,..., Vn определяются формулой Отсюда видно, что величины Vi,...,Vn не коррелированы тогда и только тогда, когда f^KxJq — 0 при q ф р. Чтобы _определить векторы Д,..., /п, удовлетворяющие усло- условию fpKxfq =0, q ф р, возьмем произвольные линейно независимые векторы д\,..., дп и положим fi=9i, D1= DVj. = flKx'h, Xl = D^lK~h. Тогда будем иметь jjx\ — D^1 fiKxf\ — 0. Положим теперь /2 = 92 + c2i/i и определим с<±\ из условия f^Kxfi — 0 или, что то же, f?xi — 0. Так как /2TXi = д%Х! + c2ifix1 = glxx + с2Ь то условие f^x\ =0 дает С21 = —g^x\. Определив таким образом вектор *) Через / мы обозначаем единичную матрицу.
3.4- Канонические разложения случайных векторов 115 дисперсию D2 = j^KxJ2 величины Vi — f^X° и вектор х<± — — D^XKXJ2 будем иметь f^X2 — D^1 /2 Kxf2 = 1 и в силу эрмитовой симметрии ковариационной матрицы Продолжая этот процесс, определим последовательно векторы Л = 92, fs =g8- {gTsxi)h - ...- (gjxs-^fs-u C.68) случайные величины V8, их дисперсии Ds и векторы х8 V.=fJX°, Ds = fjKjs, xt = jj-Kxfa. C.69) При этом векторы f8 и х8 будут удовлетворять условиям fpxq — — х\ fp ~ $pq (T-e- $pq — 0 пРи q Ф р и Spq = 1 при q = р), в силу которых величины Vp и Vq будут некоррелированными при q ф р. На основании C.68) формулы C.69) можно переписать в виде Vs =gj(x°-J2 VpXp ), Ds= gjKx^ge, xs = i- K^gs, C.70) DPxpX; C.71) p=l ковариационная матрица случайного вектора s-l р=1 Формулы C.70) и C.71) дают возможность последовательно отщеп- отщеплять от вектора некоррелированные слагаемые V8x8, каждое из ко- которых не коррелировано с соответствующим остатком Xs+i (и всеми последующими остатками), не вычисляя векторов f8. Если ранг матрицы Кх равен размерности пространства п, то мы получим таким путем п векторов Д,..., /п и ни одна из величин Di,..., Dn не будет равной 0. При этом третья формула C.69) опре- определит п векторов х\,..., хп. Если ранг г матрицы Кх меньше размерности пространства п, то при некотором р ^ г + 1 получится Kxfp = К^др = 0, Dp = 0,
116 Гл. 3. Числовые характеристики случайных величин и вектор хр останется неопределенным. В таком случае можно про- продолжить вычисления по формулам C.68)-C.71), приняв хр = 0. По- Поступая так, мы найдем в результате п векторов Д,..., /п и г отличных от нуля векторов х8. Изменив в случае необходимости нумерацию век- векторов fs и ;cs, можем считать отличными от нуля векторы xi,... ,хг. Тогда векторам Д,..., Д. будут соответствовать некоррелированные случайные величины V\ = ffX°,..., Vr = f^X° с отличными от ну- нуля дисперсиями Di,..., Dr, а дисперсии величин Vr+\ — /Д^Х0,... ... ? уп = /JX° будут равны 0. Вследствие этого величины Уг+1,..., Vn равны 0 с вероятностью 1 и координаты случайного вектора Х° связаны п — г линейными зависимостями /Д^А = ... = /JA° = 0. Рассмотрим теперь случайный вектор p=i Так как fJX° = Vs, fjxp = 5sp (s = l,...,n; p=l,...,r) и Vr+i = ... = Vn = 0 почти наверное при г < п, то fjY = fJX°-V.=0 (8 = 1,...,r), fjY = fJX° = Vs=0 п.н. (s = r + l,...,n). Таким образом, координаты вектора Y связаны п линейными зависи- зависимостями. Вводя матрицу F, столбцами которой служат векторы /s, F=[fi...fn], можем написать эти зависимости в виде FTY = 0. Очевидно, что векторы Д,..., /п линейно независимы в силу линей- линейной независимости исходных векторов д\,..., дп. Поэтому определи- определитель матрицы F не может быть равным 0. Следовательно, Y = 0 (по- (почти наверное в случае, когда г < п). Таким образом, X = 7Tlx+ Это равенство точное при г = п и выполняется с вероятностью 1 при г < п. Таким образом, мы выразили случайный X через случайный век- вектор V с некоррелированными координатами Vi,...,Vr (и, следова- следовательно, с диагональной ковариационной матрицей). Сравнив C.72)
3.4- Канонические разложения случайных векторов 117 с C.59) и применив формулу C.60), получаем соответствующее выра- выражение для ковариационной матрицы случайного вектора X: г кх = Y,DPxPxt- < C-73) Представление случайного вектора X в виде линейной функции некоррелированных случайных величин C.72) называется его канони- каноническим разлоэюением. Соответствующее разложение C.73) называет- называется каноническим разложением ковариационной матрицы случайного вектора X. Векторы х\,... ,хг называются координатными вектора- векторами канонического разложения. 3.4.4. Различные формы канонического разложения. Из неоднозначности решения задачи приведения ковариационной матри- матрицы к диагональной форме (произвольности выбора исходных линейно независимых векторов #i,... ,gn) следует, что для любого случайного вектора с конечным моментом второго порядка существует бесчис- бесчисленное множество канонических разложений. Разложение по собственным векторам является одним из кано- канонических разложений. Оно получается, если за исходные векторы $1,..., дп взять сопряженные собственные векторы Tpi,..., Трп. Тогда будем иметь в силу C.61) и C.62) fP = <РР, Vp = (р*Х° = Up, Dp = Ар, Хр = (рр (р = 1,..., п) и формулы C.72) и C.73) примут соответственно вид C.66) и C.67) (если г < п, то Ar+i = ... = Ап = 0 и соответственно E/r+i = ... ... = Un = 0п.н.). Очевидно, что, вводя соответствующие множители в выражения случайных величин Vp и обратные множители в выражения векто- векторов хр, можно сделать дисперсии величин V\,..., Vr равными любым заданным числам, например, сделать все их равными 1, или добить- добиться того, чтобы все векторы #i,..., хт были единичными. В последнем случае сумма дисперсий величин V\,..., Vr будет равна сумме дис- дисперсий координат Xi,...,Xn случайного вектора X, т.е. следу его ковариационной матрицы: P = Yj DXh = Yj khh p=l h-1 h=i Действительно, из C.73) этом случае следует, что h—\ h—\ p=l p=l h—\ p—\
118 Гл. 3. Числовые характеристики случайных величин В частности, для разложения по собственным векторам всегда п п ^2^р = ^2khh = tr Kx p=l h=l (это следует также из известного факта, что при ортогональном пре- преобразовании след матрицы не изменяется). 3.4.5. Простейший способ получения канонического раз- разложения. Вычисления по формулам C.68), C.69) будут проще, если принять за исходные векторы д\,..., дп единичные векторы осей ко- координат ei,..., еп. В этом случае if = [1 0 ... 0], D1= fcn, xlq = D~1kql (q = 1,... ,n), и формулы C.68), C.69) последовательно дают s-l Ds =kss -^22 9=1 Kps 2_^ DqXqpXqs J (p S + 1, . . . , П), Kps — 2_^ DqXqpXqs J (p = S + 1, . . . , П), s-1 Jsp z= ~%ps ~ / J %qsjqp \P — !?•••? S ~ ^) i q=P+l Jss ;= J-j Jsp == Если Ds — 0, то в соответствии с общим методом полагаем xs\ = ... • • • = х8П = 0. Объем вычислений, необходимых для нахождения каноническо- канонического разложения случайного вектора по формулам C.74), в десятки, а в некоторых случаях в сотни раз меньше объема вычислений, необходи- необходимых для нахождения собственных значений и собственных векторов случайного вектора. При этом далеко не всегда приходится вычислять векторы fp. Предоставляем читателю самостоятельно показать, что форму- формулы C.74) можно получить, приняв за случайную величину V\ первую координату вектора Х°, V\ = Xj3, а затем положив последовательно Х^ = x8i Vi + ... + жв>в_1 K-i + Vs и определив arsi,... ,?s,s-i из условия некоррелированности величи- величины Vs с У1,...,К_1.
3.4- Канонические разложения случайных векторов 119 3.4.6. Геометрический смысл канонического разложения. Заметим теперь, что так как уравнение и1Кхи = const в случае матрицы Кх с действительными элементами представля- представляет собой уравнение эллипсоида (эллипса при п — 2) в силу неотри- неотрицательной определенности Кх, то задача нахождения канонического разложения действительного случайного вектора равносильна геомет- геометрической задаче нахождения сопряженных относительно эллипсоида направлений и приведения его уравнения к канонической форме (в общем случае в косоугольных координатах). В частном случае, при- приняв за оси координат оси эллипсоида, получаем прямоугольную систе- систему координат, в которой уравнение эллипсоида имеет каноническую форму. Этой системе координат соответствует разложение случайного вектора по собственным векторам. Из этой геометрической интерпре- интерпретации ясно, почему разложение случайного вектора на некоррелиро- некоррелированные слагаемые называется каноническим. Эллипсоид с уравнением иТК~1и = 1 (в случае матрицы Кх с действительными элементами) будем называть эллипсоидом рассеи- рассеивания. 3.4.7. Построение случайного вектора с данной ковариа- ковариационной матрицей. Докажем теперь утверждение о том, что любая неотрицательно определенная эрмитова матрица К может быть кова- ковариационной матрицей (а следовательно, и моментом второго порядка) случайного вектора. \> Пусть Ai,..., Лп — собственные значения, <^1?..., ipn — соот- соответствующие собственные векторы матрицы К, U\,..., Un — произ- произвольные некоррелированные случайные величины с нулевыми ма- математическими ожиданиями и дисперсиями, равными соответствен- соответственно Ai,..., Лп *). Рассмотрим случайный вектор k=i *) Например, можно взять случайные величины Up = Up + illp' (р = 1,..., п) и определить совместную плотность величин U[, U",... ...,Un,Un формулой j\UUUi,...,Un, Un) = /l (Ui, Hi ) . . . Jn{Un, Un), где /i ,..., /n — произвольные двумерные плотности, удовлетворяющие условиям МUp — О, DUP = Хр (р = 1,..., п). Когда матрица К имеет ранг г < п, Лг+1 = ... = Ап = 0 и случайные величины Ur+i, • • •, Un с ве- вероятностью 1 равны 0. В этом случае следует положить fp(u\ и") = 6(и) 8(и") (р = г + 1,..., п).
120 Гл. 3. Числовые характеристики случайных величин Его ковариационная матрица определяется формулой C.67). А так как \pLpp — Kifp и, следовательно, Xp(fp = Ц>рК, то Но так как в силу C.62) Ф*Ф = = ФФ* = /, 4>п\ Ч>*пЧ>п\ и, следовательно, Ф* = Ф х. Таким образом, Кх = К. <\ 3.4.8. Совместное каноническое разлолсение двух случай- случайных векторов. Построим каноническое разложение двух случайных векторов X и Y с одними и теми же координатными векторами в n-мерном евклидовом пространстве. Эта задача вполне аналогична известной задаче об одновременном приведении двух матриц к диа- диагональной форме. Покажем, что совместные канонические разложения случайных векторов X, Y и их ковариационных матриц Кх, Ку (причем Кх имеет ранг 77? ^ п) допускают следующее совместное представление: X = тх Кх = = ту т к - Y% и а* C.75) C.76) и=1 Здесь Vv — (fyX0 — некоррелированные случайные величины с ну- нулевыми математическими ожиданиями и единичными дисперсиями, a uv — Kxifv (v — 1, 2,..., га), Wv — (p^Y0 — некоррелированные слу- случайные величины с нулевыми математическими ожиданиями и дис- дисперсиями 7i/ {у — 1? • • •, rri), равными соответствующим собственным значениями матрицы А — К~хКу. \> Действительно, имеем = !,..., га).
3.5. Другие числовые характеристики случайных величии 121 А так как <ри представляет собой собственный вектор матрицы А = = К~1КУ, отвечающий собственному значению jv, то и мы получаем MWyW^ — ^v8Vfl. Следовательно, разложения C.75), C.76) для Y и Ку являются каноническими. При этом uv — Kxkpv — l 3.5. Другие числовые характеристики случайных величин 3.5.1. Моменты высших порядков. Моменты первого и вто- второго порядка во многих случаях оказываются недостаточными. По- Поэтому для более полной характеристики случайных величин вводят моменты высших порядков. При этом обычно ограничиваются дей- действительными величинами, что не приводит к потере общности (см. замечание в п. 2.1.2). Моментом порядка г (r-м моментом) скалярной случайной ве- величины X называется математическое ожидание ее r-й степени: аг = МХГ. C.77) Центральным моментом порядка г случайной величины X назы- называется 7*-й момент соответствующей центрированной случайной вели- величины Х° — X — тх: fir = М(Х°У = М(Х - тх)г. C.78) Молгентами порядка г случайного вектора X называются мате- математические ожидания произведений Х\1,..., Х%п, соответствующих всем целым неотрицательным fci,..., kn, дающим в сумме г: afcl ,...,*„ =МХ1*1...Х*», fci+... + fcn = г. C.79) Центральными моментами порядка г случайного вектора X на- называются моменты порядка г соответствующего центрированного случайного вектора Х° — X — тх: №,...,*„ =M(X1°)ftl...(X°)fc", k1 + ... + kn=r. C.80) Аналогично определяются моменты относительно любой данной точки. Моменты а относительно начала координат обычно называют начальными.
122 Гл. 3. Числовые характеристики случайных величин Пользуясь формулой бинома Ньютона и свойствами математиче- математических ожиданий, можно выразить начальные моменты через централь- центральные, и наоборот. В частности, для моментов скалярной случайной ве- величины получаем соотношения ar = J2 Срг1ЛРт^, ixr = J2(-lY-pC?aPmrx-p. C.81) р=0 р=0 Очевидно, что все моменты нулевого порядка равны 1. Момент первого порядка скалярной случайной величины X по определению представляет собой ее математическое ожидание, а± — тХ1 а моменты первого порядка случайного вектора X — математические ожидания его координат. Все центральные моменты первого порядка равны ну- нулю. Центральный момент второго порядка скалярной случайной ве- величины X представляет собой ее дисперсию, а центральные моменты второго порядка случайного вектора X — элементы его ковариацион- ковариационной матрицы. Совокупность моментов r-го порядка случайного вектора пред- представляет собой тензор r-го ранга*). В этом случае для всех ft],... ..., ftn ^ 0, fti + ... + ftn = г будем иметь a/ii,...,/ir, = 71...1 2...2 hx h2 hn Кроме моментов первого и второго порядков, на практике иногда пользуются моментами третьего и четвертого порядков. Моментами высших порядков пользуются редко. Центральный момент третьего порядка характеризует несиммет- несимметричность распределения относительно математического ожидания. Поэтому за характеристику несимметричности распределения при- принимают безразмерную величину — отношение третьего центрального момента к кубу среднего квадратического отклонения: ^3 МЗ ^3 /о Q0\ 71 = ^ = W = W ( } Эта величина называется асимметрией или скошенностью распре- распределения случайной величины. *) Как известно [128] любой вектор представляет собой контравари- антный тензор первого ранга, из C.79) и C.80) следует, что совокупность моментов порядка 2 является контравариантным тензором ранга г. Значит верхние индексы должны быть заменены нижними индексами. Мы исполь- используем нижние индексы поскольку в книге не встретятся другие тензоры.
3.5. Другие числовые характеристики случайных величин 123 Центральный момент четвертого порядка при данной дисперсии может служить характеристикой удельного веса больших отклоне- отклонений от математического ожидания, а это в свою очередь определяет характер максимума в точке тх симметричного распределения — «островершинность» или «плосковершинность» кривой распределе- распределения. Поэтому за характеристику поведения кривой распределения вблизи точки тх принимают безразмерную величину называемую эксцессом распределения случайной величины X. Смысл вычитания 3 из /m/a^I прояснится в п. 3.6.2. Пример 3.14. Для 7-распределения (пример 2.8) в силу B.16) к^Г(а + 1) ' В частном случае для показательного распределения (jj, = 0) ar =r\/kr. Пример 3.15. Для /^-распределения (пример 2.9) A f „r+P-in _ „«-1 . _ Г(р + д)Г(р + г) Пример 3.16. В условиях примера 2.14 моменты времени S работы системы после первого ремонта определяются формулой to t0 ar= J sr[Xe-x{t°-'s) + e-Xf0S(s)] ds = J sr\e-Ht°-s) ds = Пример 3.17. В условиях примера 2.16 21 ar = f ur[f(u + а - I) + f(b + I - u)]du + Bl)rP2. 0 3.5.2. Моменты линейных функций случайных величин. Теперь рассмотрим m-мерный случайный вектор У, который пред- представляет собой линейную функцию n-мерного случайного вектора X, Y — АХ + ао. Обозначив элемент матрицы А через а?, где р — номер строки, ag- номер столбца, перепишем соотношение между X и Y в тензорном обозначении: Yp = прХа + аОр (р = 1,..., га). Здесь повторяющийся индекс а (или какой-либо другой), один сверху, а другой снизу, указывает, как обычно, суммирование по всем
124 Гл. 3. Числовые характеристики случайных величин величинам а (а = 1,...,п). Умножая соответствующие выражения центрированных случайных величин Ypi,..., Yp°2 и взяв математи- математическое ожидание, получаем следующее выражение для r-х централь- центральных моментов случайного вектора Y через центральные моменты слу- случайного вектора X: kPi,..,Pi=a%---a%K1,..,°r (Pi,...,Pr = l,-..,m). C.84) Формула C.84) представляет собой соотношение между момента- моментами порядка г случайного вектора X и случайного вектора Y, полу- полученное как результат линейного преобразования X. В частном случае при г = 2 формула C.84) приводит к форму- формуле C.50) в тензорных обозначениях для действительных случайных векторов X и Y ар aq Если ао = 0, формула C.84) также справедлива и для начальных моментов. Но следует помнить, что если а^ ф 0, то формула C.84) справедлива только для центральных моментов. 3.5.3. Квантили. Моменты случайных величин удобны, когда все необходимые моменты (практически не выше четвертого поряд- порядка) существуют. Однако, как показывает пример 3.6, случайная вели- величина может не иметь моментов. Поэтому для скалярных случайных величин иногда вводят другие числовые характеристики, связанные со значениями функции распределения. За характеристику положения распределения на числовой оси (среднее значение) принимают точку Ci/2? B которой функция распре- распределения переходит от значений, меньших 1/2, к значениям, большим 1/2: F(d/2) ^ 1/2, i^(Ci/2 + 0) ^ 1/2. Такая точка ?jy2 назы- называется медианой случайной величины. Медиана всегда существует и может даже быть неоднозначно определенной. Действительно, функ- функция распределения изменяется монотонно от 0 до 1. Поэтому всегда найдется такая точка Ci/2? B которой она скачком или непрерывно пе- переходит через значение 1/2. Если же существует интервал (а,/?), на котором F(x) — 1/2, то любая точка этого интервала может служить значением медианы. Для характеристики разброса значений случайной величины пользуются точками, в которых функция распределения переходит через другие значения. Точка ?р, в которой функция распределения переходит от значений, меньших р, к значениям, большим р (р Е @,1)) называется квантилем порядка р: F((p) ^ p, F((p + 0) ^ р. Все кван- квантили существуют у любой действительной скалярной случайной вели- величины, и некоторые из них могут быть определены неоднозначно. Это доказывается совершенно так же, как существование медианы.
3.6. Одномерное нормальное распределение 125 Чаще всего пользуются, кроме медианы Ci/2? квантилями (,\/4 и Сз/45 которые называются квартилями. Величина Е — (Сз/4 ~ Ci/4)/2 при этом принимается за характеристику разброса значений случай- случайной величины и называется срединным или вероятным отклонени- отклонением или семиинтерквартильной широтой распределения случайной величины. Иногда пользуются квантилями ?0,ъ Со,2, • • •, Со,9, которые называются децилями. Легко видеть, что с помощью квантилей можно характеризовать распределение с любой степенью точности, если взять их достаточно много. Недостаток квантилей состоит в том, что для них не существу- существует простых формул типа C.52) для перехода от случайных величин к линейным функциям этих случайных величин, в частности к их суммам. Пример 3.18. Для распределения Коши (пример 3.6) медиана рав- равна а в силу симметрии распределения. Для срединного отклонения Е имеем уравнение Р(\Х — а\ < Е) — 1/2 или а + Е 7Г J dx 2 Е 1 Отсюда находим Е = Ъ. Таким образом, параметры а и Ъ распределения Коши представляют собой медиану и срединное отклонение случайной ве- величины. 3.6. Одномерное нормальное распределение 3.6.1. Коэффициент перед экспонентой. Изучим теперь нормальное распределение на числовой оси (пример 2.6). Это распределение определяется плот- плотностью f(x) = Ле"с(ж~аJ/2, с>0. C.85) PSfrag replacements На рис. 3.1 показана нормаль- ная кривая распределения, изоб- изображающая эту плотность. Эта кривая, как видно из C.85), сим- симметрична относительно точки а, в которой плотность достигает мак- максимума. Коэффициент при показа- ис' тельной функции определен из условия равенства единице интеграла от плотности, распространенного на всю числовую ось.
126 Гл. 3. Числовые характеристики случайных величин Чтобы вывести выражение для этого коэффициента, обозначим его А. Тогда получим А Г e-<x~aJ/2dx = 1. — оо Заменой переменных х — а +1 у/2/с интеграл в левой части приво- приводится к известному интегралу Пуассона: Отсюда, принимая во внимание, что (приложение 2) оо Г e~f2 dt = л/тг, C.86) 3.6.2. Моменты. Из симметрии нормальной кривой распреде- распределения относительно точки х — а непосредственно следует, что ма- математическое ожидание случайной величины X, распределенной по нормальному закону, равно параметру а в выражении нормальной плотности, тх = а. К этому же результату приводит и формальное вычисление тх по формуле C.3): тх = \ — e-t2 I оо П_ [te-t У С7Т J e-t2dt+ П_ [te-t2dt = У J в силу формулы C.86) и равенства нулю последнего интеграла как интеграла от нечетной функции в симметричных относительно начала координат пределах. Таким образом, параметр а в выражении C.85) одномерной нор- нормальной плотности представляет собой математическое ожида- ожидание случайной величины. Центральные моменты нормально распределенной случайной ве- величины X определяются согласно C.78) и C.6) формулой оо оо x = ±(^r ffe^dt.
3.6. Одномерное нормальное распределение 127 Отсюда видно, что все нечетные центральные моменты нормально распределенной случайной величины равны нулю. Для центральных моментов четных порядков получаем ^(!O"е"'!<а- <387» О Интегрируя по частям, имеем оо 2р-1Bу [ 2р_2 t2 , 2р-1 -1Bу [ Г\~с) .Г о Таким образом, мы получили рекуррентную формулу А*2р= ^-^2р-2- C.88) Положив здесь р=1 и имея в виду, что все моменты нулевого по- порядка равны 1, находим дисперсию нормально распределенной слу- случайной величины X: Таким образом, параметр с в выражении C.85) нормальной плот- плотности представляет собой величину, обратную дисперсии случайной величины, с = D~x — \±^v. Для получения общей формулы для четных центральных момен- моментов перепишем C.88) в виде {12р = Bр- l)/i2//2p-2- Положив здесь последовательно р = 2,3,...,/с и перемножив полу- полученные равенства почленно, получим после сокращений 1л2к = 1. з • ... • Bк - I)i4 = Bk - 1)!! i4- C.89) Эта формула выражает все четные центральные моменты нормально распределенной случайной величины X через ее дисперсию Dx — \i2- В частности, при к = 2 формула C.89) определяет центральный мо- момент четвертого порядка \±± — Ъ\±\. Подставив это выражение в C.84), убеждаемся в том, что эксцесс нормального распределения равен нулю.
128 Гл. 3. Числовые характеристики случайных величин Нормальное распределение широко распространено в природе. В большинстве задач практики распределение случайной величи- величины можно считать нормальным. Поэтому нормальное распределе- распределение обычно принимается за эталон для сравнения распределений. Асимметрия и эксцесс вводятся для того, чтобы характеризовать отклонение распределения от нормального. Поэтому их определя- определяют так, чтобы для нормального распределения они были равны ну- нулю. Этим и объясняется ввод слагаемого —3 в определение C.84) эксцесса. Учитывая, что а — тх, с = D~x — <т~2, выражение C.85) для од- одномерной нормальной плотности часто записывают в виде опуская для краткости индексы у математического ожидания т — тж, дисперсии D — Dx и среднего квадратического отклоне- отклонения о — о~х. Формула C.90) показывает, что нормальное распределение полно- полностью определяется моментами первого и второго порядков. Зная ма- математическое ожидание и дисперсию нормально распределенной слу- случайной величины, можно найти ее плотность. 3.6.3. Вероятность попадания в интервал. Выведем теперь формулу для вероятности попадания нормально распределенной слу- случайной величины X в данный интервал (а,/3). Подставив выражение C.90) плотности в общую формулу B.10) для вероятности попадания в интервал, получим dx- После замены переменных х — т + az, z = (х — т)/о~ будем иметь Р(а<Х <( = = (а—т) /а (f3 — m)/a (a—m)/a = -±= [ e^l*dz--±= [ e-*'*dz. л/2тг J л/2тг J о о Неопределенный интеграл от функции e~~z I2 не выражается в эле- элементарных функциях. Поэтому для вычисления интегралов в преды-
3.6. Одномерное нормальное распределение 129 дущей формуле вводят новую функцию и Ф(и) = -L [e~z2/2dz. C.91) о Для этой функции, называемой функцией Лапласа, составлены табли- таблицы (приложение 3, табл. 1) *). При помощи функции Лапласа преды- предыдущая формула для вероятности попадания нормально распределен- распределенной случайной величины в интервал (а, C) может быть представлена в виде Р(а <Х< в) = ф(?^*)-ф(а^ь Y C.92) В этой формуле явно показано, что параметры т и а представляют собой соответственно математическое ожидание тх и среднее квад- ратическое отклонение ах случайной величины X**). Докажем теперь, что функция Лапласа нечетная. Заменив в C.91) и на — и, будем иметь •'-»' = ts~!'-*"<•¦ О Сделав замену переменных z — — s, получим и Ф(-и) = / е~^2/2 dz = -Ф(гв), л/2тт J что и доказывает нечетность функции Ф(и). Вследствие этого в таблицах даются ее значения только для положительных зна- значений и. 3.6.4. Случай симметричного интервала. В частном случае, когда интервал (а, /3) симметричен относительно математического ожидания, а = тх — е, /3 — тх + е формула C.92) дает Р(тх -е<Х <тх + г) = Р(\Х - тх\ < е) = ф(—)-ф(-—). *) В дальнейшем при ссылках на таблицы всегда имеются в виду таб- таблицы, приведенные в приложении 3. **) В разных руководствах функцию Лапласа определяют по-разному. Различные определения отличаются одно от другого масштабом аргумента, масштабом самой функции и пределами интеграла. Соответственно изме- изменяются и формулы для вероятности попадания.
130 Гл. 3. Числовые характеристики случайных величин Отсюда, принимая во внимание нечетность функции Ф(и), получаем Р(\Х-тх\<е)=2ф(—). C.93) \<Ух / Пример 3.19. Полагая в формуле C.93) последовательно е = <тж, 2<тж, 3<тж, 4сгж и пользуясь таблицей функции Лапласа (приложения 3, табл. 1), находим Р(\Х -тх\<ах) = 2ФA) и 0,683 « 0,68, Р(|Х - тж| < 2сгж) = 2ФB) « 0,954 « 0,95, Р(\Х - тх\ < Зсгж) = 2ФC) « 0,997, - тж| < 4<тж) = 2ФD) « 0,999994. Таким образом, с вероятностью около 68% значения нормально распреде- распределенной случайной величины отклоняются от ее математического ожидания не больше, чем на одно среднее квадратическое отклонение, с вероятно- вероятностью 95% — не больше чем на два средних квадратических отклонения и с вероятностью 99,7% — не больше чем на три средних квадратических отклонения. Мы видим, что нормально распределенная случайная величина лишь с вероятностью 0,3% может отклониться от своего математического ожида- ожидания больше чем на три средних квадратических отклонения. Иными сло- словами, в среднем лишь в трех опытах из тысячи, ее отклонение от матема- математического ожидания будет больше Зсгж. Поэтому обычно считают областью практически возможных значений нормально распределенной случайной величины интервал (тх — Зах, тх + 3<тж). Положив в C.92) а = — оо, /3 = х и приняв во внимание, что Ф(оо) = 1/2, находим функцию распределения нормально распреде- распределенной случайной величины: () 1-. C.94) 3.6.5. Квантили. Из симметрии нормального распределения непосредственно следует, что медиана совпадает с математическим ожиданием, Ci/2 = rnx = а, и что A/2 - Ci/4 = Сз/4 - Ci/2 = Ex, гДе Ех — срединное отклонение величины X. Для определения срединно- срединного отклонения Ех достаточно положить в формуле C.94) х = ?3/4 = = тх + Ех и приравнять полученное выражение 3/4. Тогда получим уравнение Ф ( — ) = -. Корень этого уравнения обычно обозначается тр р\/2 (р — 0,4769...). Таким образом, —- = pv2, откуда находим сре- <?х динное отклонение Ех = р\/2ах »
3.6. Одномерное нормальное распределение 131 3.6.6. Энтропия. Подставляя выражение плотности C.90) в B.54), мы находим энтропию одномерного нормального распреде- распределения *) оо Н[Х] = ~ Й = \ log 2ttD + \ log e = log л/2тгеГ>. C.95) Пусть С — класс всех одномерных непрерывных распределений с дисперсией D, Jn{%) — {2itD)~l/2e~x I2D — нормальная плотность с дисперсией D. Тогда для любой плотности f(x) класса С будет 00 оо 1 f(x) dx= f fN(x) dx = A C.96) — оо —оо и поэтому формула C.95) может быть записана в виде оо Н[Х] = - I f{x) (- \ log 2ttD - ^ log e) dx = — оо оо f(x) log fN(x)dx. C.97) Отсюда по теореме п. 2.5.4 заключаем, что нормальное распреде- распределение является единственным распределением, обладающим макси- максимальной энтропией среди всех непрерывных распределений с одной и той же дисперсией. *) Мы принимаем тх — 0, так как X и X — тх имеют одну и ту же энтропию (п. 2.5.2).
Глава 4 ПРОЕКЦИИ СЛУЧАЙНЫХ ВЕКТОРОВ И ИХ РАСПРЕДЕЛЕНИЯ 4.1. Распределения проекций случайного вектора 4.1.1. Проекции вектора. Любой вектор х = {х\,... , iV-мерном пространстве можно однозначно представить в виде N х = ^хкек, D.1) к=1 где ei,..., едг — единичные векторы осей координат, ei = {l,0,...,0}, е2 = {0,1,...,0}, ..., е„ = {0,...,0,1}. Выберем какие-нибудь п из N векторов ei,..., едг, скажем еГ1,... ..., еГп, ri < Г2 < ... < гп, п < N. Подпространством, образованным векторами еГ1,..., еГп, называется множество всех векторов х JV-мерного пространства, у которых отличны от нуля только коор- координаты хГ1,..., хГп , а остальные равны нулю. Два подпространства, одно из которых образовано каким-нибудь п из векторов ei,..., e^v, a другое — всеми оставшимися, называются взаимно дополнительны- дополнительными. Например, подпространство, образованное векторами ei,...,en, и подпространство, образованное векторами en+i,..., едг, взаимно до- дополнительны. Проекцией вектора х на подпространство, образованное вектора- векторами еГ1,... ,еГп, называется вектор х'', полученный из ж заменой всех его координат, кроме хГ1,..., хГп, нулями: п х1 = ^2xrherh, D.2) В частности, проекцией вектора х на fc-ю координатную ось — од- одномерное подпространство, образованное вектором е&, является век- вектор Xk?k- Ввиду того, что проекция вектора х на к-ю координат- координатную ось полностью определяется одним числом хи, мы в дальнейшем не будем делать различия между проекцией вектора на ось и соот- соответствующей его координатой, разумеется, если это не может выз- вызвать путаницу. Пусть Si,..., sjsf-n — оставшиеся числа из множества {1,..., N} после выбора из него чисел ri,...,rn, расположенные в порядке
4-1. Распределения проекций случайного вектора 133 возрастания, si < ... < sjsr-n- Вектор х', определяемый формулой D.2), и вектор N-n х" = ^2xshe8h D.3) h=l представляют собой проекции вектора х на два взаимно дополнитель- дополнительных подпространства. Сумма этих двух проекций равна вектору ж, х' + х" — ж, так как сумма в D.3) содержит все слагаемые суммы D.1), которые не входят в сумму D.2), и не содержит ни одного слагаемого суммы в D.2). Если X — iV-мерный случайный вектор, то его проекция на под- подпространство, образованное единичными векторами еГ1,..., еГп, пред- представляет собой п-мерный случайный вектор, а его проекция на до- дополнительное подпространство — (N — п)-мерный случайный вектор. Так как изменением нумерации векторов в1,...,едг (т.е. их по- порядка) всегда можно любые п из них сделать п первыми, то в дальнейшем, рассматривая проекцию Лг-мерного вектора на п-мерное подпространство, мы всегда будем считать, что это подпростран- подпространство образовано единичными векторами ei,...,en. Тогда дополни- дополнительное подпространство будет образовано единичными вектора- векторами en+i,..., вдг. При этом для простоты будем полагать N — п + т и обозначать (п + т)-мерный вектор буквой z, а его проекции на п-мерное и дополнительное m-мерное подпространства — соответ- соответственно буквами х и у. Иными словами, будем полагать z\ — = x1,...,zn = xn, zn+1=y1,...,zn+m=ym и х = {х!,...,хп}, у = = {?/i,...,7/m}. 4.1.2. Функция распределения проекции случайного век- вектора. Предположим, что известна функция распределения F(x,y) двумерного случайного вектора Z с координатами (проекциями на оси координат) X, Y, и поставим задачу определить распределения случайных величин X и У, рассматриваемых по отдельности. > В силу определения B.29) и соглашения п. 2.2.3 о записи нера- неравенств между векторами F(x,y) = P({X<x}{Y<y}). D.4) Для нахождения функции распределения F\(x) случайной величи- величины X достаточно заметить, что выполнение неравенства X < х рав- равноценно совместному выполнению этого неравенства и достоверного неравенства Y < оо. Поэтому Fi(ar) = Р(Х < х) = Р{{Х < x}{Y < оо}). D.5) Из сравнения этой формулы с D.4) видно, что F1(x) =F(x,oo). <\ D.6)
134 Гл. 4- Проекции случайных векторов и их распределения Совершенно так же определяется функция распределения i^B/) случайной величины Y: F2(y) = F(oo,y). D.7) Таким образом, чтобы найти функцию распределения одной ко- координаты двумерного случайного вектора, следует полоэюить пере- переменную, соответствующую другой координате, равной оо. 4.1.3. Плотность проекции случайного вектора. Найдем теперь плотность случайной величины X. \> Применив для вычисления вероятности в D.5) формулу B.9) и изменив обозначение переменной интегрирования ж на w, получим X ОО Ж ОО F1(x) = du f(u,y)dy= I < I f{u,y)dy\du. — oo — oo Сравнив эту формулу с B.30), получаем следующую формулу для плотности fi(x) случайной величины X: оо fi(x)= I f(x,y)dy. < D.8) Совершенно так же получаем формулу для плотности /2B/) слу- случайной величины Y: оо Ш)= I f{x,y)dx. D.9) — ОО Таким образом, чтобы найти плотность одной координаты дву- двумерного случайного вектора, следует проинтегрировать его плот- плотность по переменной, соответствующей другой координате. Формулы D.6) D.9) справедливы и в том случае, когда X и Y представляют собой любые случайные векторы. Если X представ- представляет собой n-мерный случайный вектор с координатами Х\,... ,Хп, a Y — т-мерный случайный вектор с координатами Y\,..., Ym, то f(x,y) является плотностью составного (п + т)-мерного случайного вектора с координатами Х\,..., Хп, Y\,..., Ym, т.е. совместной плот- плотностью п + т случайных величин Х\,..., Хп, Y\,..., Ym; интеграл по переменной у в D.8) следует понимать как m-кратный интеграл по координатам вектора у, а интеграл по переменной х в D.9) — как n-кратный интеграл по координатам вектора х. Таким образом, формулы D.6)-D.9) определяют распределения проекций любого случайного вектора на взаимно дополнительные подпространства. Распределения проекций X и Y случайного вектора [XTYY]T называются маргинальными распределениями.
4-1. Распределения проекций случайного вектора 135 > Формула D.8) дает возможность доказать сделанное в п. 3.1.2 утверждение, что математическое ожидание проекции (в частности, одной координаты) случайного вектора можно вычислить по форму- формуле C.3), рассматривая эту проекцию как функцию случайного векто- вектора. Действительно, рассматривая величину X как функцию случай- случайного вектора {X, У}, по формуле C.3) получаем оо оо оо оо тх = / / xf(x1y)dxdy = xdx f(x,y)dy, — оо —оо —оо —оо или, в силу D.8), т>х = / xfi(x)dx. То же получается по формуле C.6). <\ Пример 4.1. Плотность двумерного нормально распределенного слу- случайного вектора определяется формулой B.22) примера 2.11 при п = 2: Л/СЦС22 — с\ 2 г I , 2/) = - ^ ехр|--[сц(ж-а) + + 2с12(ж - а)(у - Ь) + с22B/ - &J]}. D.10) Для определения плотности проекции этого случайного вектора на ось х подставим выражение D.10) в D.8): Л/СЦС22 — C12 /- j 21 /iO*O = — expj--ci](x-a) | x 00 У I 2 — 00 у СЦС22 — cf2 Воспользовавшись для вычисления интеграла формулой (приложение 2) оо У I 2 J — оо получаем = /спсз^с?, |_ 1 (cllC22cf2)(,-^|_ V 27ГС22 ^2 С22 J Сравнив эту формулу с C.90), видим, что проекция X двумерного нор- нормально распределенного случайного вектора {X, У} на ось х распределена
136 Гл. 4- Проекции случайных векторов и их рас нормально, причем ее математическое ожидание равно а, тх = а, а диспер- дисперсия определяется формулой Dx = ^-^-. D.13) СЦС22 — С\2 По симметрии заключаем, что проекция У вектора {X, У} на ось у распре- распределена нормально, причем ее математическое ожидание равно Ь, ту = 6, а дисперсия определяется формулой Вычислим еще ковариацию величин X и У. Полагая для кратко- краткости х — тх = ж — а = ?i, 2/ — ту = у — b = v, по формуле C.22) находим kXy — у/ СЦС22 - cf2 2тг уСцС22 - 2?Г(?22 оо / — оо 2 оо / — оо оо — оо оо оо f f ( 1 2 2 1 / / uv ехр< - (сци -\-2ci2uv-\-C22V ) ? du dv = 2 J J I ^/C22 2 —oo PS Применив для вычисления интеграла по t формулу которая легко выводится дифференцированием формулы D.11) по пара- параметру г/, получаем f2 Г У Последний интеграл вместе с квадратным корнем перед ним согласно C.16) и D.12) представляет собой дисперсию Dx величины X, которая определя- определяется формулой D.13). Следовательно, кху = С-^2-- D.15) СЦС22С2 Формулы D.13)-D.15) показывают, что ковариационная матрица двумер- двумерного нормально распределенного случайного вектора и матрица С коэф- коэффициентов квадратичной формы в выражении D.10) плотности являются взаимно обратными матрицами. В п. 4.4.2 мы увидим, что это справедливо и для случайного вектора любой размерности. Пример 4.2. Предлагаем читателю самостоятельно найти плотность проекции n-мерного нормально распределенного случайного вектора на (п — 1)-мерное подпространство, образованное какими-нибудь п — 1 осями координат. Пример 4.3. Показать, что если двумерный вектор распределен рав- равномерно на прямоугольнике (пример 2.10), то его проекция распределена
4-1. Распределения проекций случайного вектора 137 равномерно на соответствующей проекции этого прямоугольника. Обоб- Обобщить этот результат на равномерно распределенные векторы на паралле- параллелепипедах в любых конечномерных пространствах. Пример 4.4. Для случайного вектора, равномерно распределенного внутри эллипса (пример 2.10), формула D.8) дает при х В данном случае, несмотря на равномерное распределение случайного век- вектора на плоскости, его координаты не распределены равномерно. Это и по- понятно: при каждом значении х вероятность попадания в бесконечно малый интервал длины Ах пропорциональна длине хорды эллипса, проходящей через точку х перпендикулярно оси х (рис. 4.1). Следовательно, и плот- плотность величины X пропорциональна длине этой хорды. Отсюда ясно, что У ments Рис. 4.1 Рис. 4.2 кривая распределения величины X на интервале (—а, а) представляет собой половину эллипса х (рис. 4.2). Предлагаем читателю самостоятельно показать, что полученная фор- формула определяет распределение проекции случайного вектора на ось жив более сложном случае вектора, равномерно распределенного внутри эллип- эллипса, оси которого не совпадают с осями координат (пример 3.9). Найти для этого случая также распределение проекции вектора на ось у. Пример 4.5. Рассмотрим случай, когда величина Y является опреде- определенной функцией случайной величины X, Y = ц>(Х). В этом случае, как было показано в п. 2.3.4, совместная плотность случайных величин X и Y определяется формулой f(x,y) =9(хN(у-(р(х)). Подставив это выражение в D.8), находим плотность величины X: оо fi(x)= J g(xN(y-ip(x))dy = g(x). — оо Эта формула доказывает высказанное в п. 2.3.4 утверждение, что множи- множитель д(х) представляет собой плотность случайной величины X. И это верно как в случае скалярных, так и в случае векторных величин X и У.
138 Гл. 4- Проекции случайных векторов и их распределения Точно так же по формуле D.9) находим плотность величины У: оо hiy)= J g(xM(y-(p(x))dx. — оо Для вычисления этого интеграла следует разбить область, где д(х) ф О, на интервалы монотонности функции (р(х) и на каждом таком интервале сде- сделать замену переменных г\ = р(х), после чего останется выполнить интегри- интегрирование по 7;, пользуясь определением интеграла от ^-функции (формула (П. 1.5) приложения 1). Мы выполним здесь это вычисление для частного случая примера 3.10, когда ip(x) = ж2, д(х) = A/2а) 1(а — |ж|). В этом случае Сделав замену переменных г/ = ж2, будем иметь в первом интеграле х = —yfij, а во втором х = -\-y/fj. В результате получим а2 Ну) = ~ Таким образом, обе координаты случайного вектора являются в данном случае непрерывными случайными величинами, несмотря на то, что его плотность содержит множителем ^-функцию. Это иллюстрирует сказанное в п. 2.3.4. Пример 4.6. В случае вырожденного распределения в n-мерном про- пространстве, подставив выражение B.28) плотности в D.8) с заменой х и у соответственно на х и ж", найдем плотность случайного вектора X' (проек- (проекции вектора X на подпространство, образованное т первыми единичными векторами ei,..., em): оо Ms') = / 9(х) S(x" - А{х' - с') - с") dx" = д{х'). 4.2. Условные распределения проекций случайного вектора 4.2.1. Условная плотность проекции случайного вектора. В задачах практики, имея дело со случайными векторами, часто при- приходится определять распределение одних координат случайного век- вектора при известных значениях других — так называемые условные распределения. С такой задачей мы встречаемся, например, когда ин- интересующая нас случайная величина X непосредственно не наблюда- наблюдаема, но может наблюдаться некоторая другая величина Y. Например, при любом измерении мы наблюдаем не саму измеряемую величи- величину X, а лишь результат измерения У, представляющий собой сумму
4-2. Условные распределения проекций случайного вектора 139 измеряемой величины и ошибки измерения. В таких случаях, опре- определив из опыта значение у величины У, приходится искать соответ- соответствующее условное распределение величины X. Основная трудность при нахождении таких условных распределений состоит в том, что со- событие В вида Y = у, относительно которого приходится определять условные вероятности, имеет вероятность, равную нулю, в то время как определение A.16) условной вероятности применимо только в слу- случае, когда Р(В) ф 0. Рассмотрим сначала непрерывный двумерный случайный вектор с плотностью f(x,y). В этом случае P(Y = у) = 0. Поэтому форму- формула A.16) не определяет условные вероятности событий при усло- условии Y = у. В то же время интуитивно ясно, что условная плотность величины X при данном у существует и пропорциональна плотно- плотности f(x,y) при данном фиксированном значении у (условная кри- кривая распределения величины X при данном у изображается в неко- некотором масштабе соответствующим сечением поверхности распределе- распределения z — /(ж, 2/)). Из этих соображений, принимая во внимание свой- свойство B.11) плотности и формулу D.9), получаем следующее выраже- выражение условной плотности величины X при данном значении у вели- величины Y: fi(x\y)=f(x,y)/Mv). D.16) Аналогично находим условную плотность величины Y при данном значении х величины X: f2(y\x)=f(x,y)/f1(x). D.17) > Чтобы дать строгое определение условного распределения од- одной координаты случайного вектора при данном значении другой, найдем сначала условное распределение величины X относительно события 2/i ^ Y < ?/2, имеющего отличную от нуля вероятность. По формуле A.16) находим условную функцию распределения: (х) - Р(Х < х \ул < Y < у,) - П{Х < x}{yi ^Y <у2) Применив для вычисления вероятностей формулы B.9) и B.10), по- получим X УЧ 2/2 РуиуЛх) = I dujf(u,v)dv I I h(v)dv. < D.18) — оо у г уг Положим теперь у± = у, у2 = У + А?/ и определим условное рас- распределение случайной величины X при данном значении у величи- величины У, имеющем нулевую вероятность, как предел условного распре- распределения X относительно события у ^ Y < у + Ау при Ау —у 0.
140 Гл. 4- Проекции случайных векторов и их распределения \> Чтобы осуществить предельный переход, перепишем форму- формулу D.18) в виде У2 X 2/2 FvuУ2(х) = [dv J f(u,v)du I f f2(v)dv. D.19) 2/i — oo у г Если интеграл ¦JO Г tf J du при любом х и функция /г(^) — непрерывные функции v в точ- точке v = у, то они непрерывны также и в некоторой окрестности точ- точки у. Поэтому, положив 2/i = у, у2 —у + Ау, можно при достаточно малом Ау применить к интегралам в D.19) теорему о среднем значе- значении. В результате будем иметь = f f(u,v)du I /2(V), rirf Z (y,y + Ay). — oo Так как 77, ?/ —> у при Ay —> 0, то правая часть полученного равен- равенства стремится к определенному пределу при Ау —> 0, если /2B/) 7^ 0- Следовательно, в этом случае существует и предел левой части, ко- который по определению представляет собой условную функцию рас- распределения F\ (x\y) случайной величины X при данном значении у величины Y. Таким образом, получаем ) = lim Fyiy+Ay(x) = / f{u,y)du / f2(y). D.20) — 00 Сравнив правую часть с выражением B.30) функции распределе- распределения через плотность, получаем формулу D.16) для условной плот- плотности fi(x | у) величины X при Y = у. <\ Таким образом, мы доказали, что при всех значениях у, при ко- которых /2B/) и интеграл в D.20) при любом х являются непрерыв- непрерывными функциями у и /г(?/) ф 0, условная плотность величины X при данном, значении у величины Y определяется формулой D.16). При /2B/) = 0 условное распределение величины X при Y — у остает- остается неопределенным (не существует). Отметим, что условия, при которых была выведена форму- формула D.20), могут выполняться и в том случае, когда f(x,y) содержит й-функции (примеры 4.5 и 4.6). > Для определения условного распределения величины X при значении у8 величины У, имеющем отличную от нуля вероятность ps, заметим, что событие Y = у8 (попадание в прямую у = у8) может
4-2. Условные распределения проекций случайного вектора 141 иметь отличную от нуля вероятность только в том случае, когда f(x,y) содержит слагаемое gs(x)S(y — ys)- Положив в D.19) у\ = у8, у2 — ys + Ay, будем иметь при любом Ау > О х J gs(u)du ) = Pa+O(Ay) • В пределе при Ау —у 0 получаем для условной функции распределе- распределения F\(x \ys) и условной плотности fi(x | ys) формулы X If 1 F1(x\y8) = — / g8(u)du, fi{x\ya) = —g8(x). D.21) Ps J Ps — oo Эти формулы справедливы и в том случае, когда gs содержит линей- линейную комбинацию й-функций. <\ Очевидно, что все наши рассуждения справедливы и в том случае, когда X и Y представляет собой случайные векторы. Поэтому фор- формулы D.16) и D.21) определяют условное распределение проекции случайного вектора на любое подпространство при данном значении его проекции на дополнительное подпространство. Пример 4.7. В условиях примера 4.1, подставив в D.16) выраже- выражение D.10) плотности f(x,y) и выражение (аналогичное D.12)) плотно- плотности /2B/), находим условную плотность проекции двумерного нормально распределенного случайного вектора на ось х при данном значении его про- проекции на ось у: fi(x | у) = y|L exp{-i en [х - а + |i (у - Ь)]'}. D.22) Сравнив эту формулу с C.90), видим, что условное распределение величи- величины X при данном значении у величины Y нормально, причем математиче- математическое ожидание и дисперсия X равны соответственно С12 / ,ч 1 а (У-о) и —. СЦ Си По симметрии заключаем, что условное распределение величины У при данном значении х величины X нормально и при этом математическое ожи- ожидание и дисперсия Y равны соответственно Ъ (х — а) и —. С22 С22 Пример 4.8. Используя результаты примера, найти условное распре- распределение одной координаты n-мерного нормально распределенного случай- случайного вектора при данных значениях всех остальных координат (т.е. при данном значении проекции случайного вектора на (п — 1)-мерное подпро- подпространство, образованное остальными осями координат).
142 Гл. 4- Проекции случайных векторов и их распределения Пример 4.9. В условиях примера 4.4 1 f (т I ,.\ _ JU W 2a/L -У2/Ъ2 "V"V* б2 Таким образом, условное распределение величины X в данном случае рав- равномерно в интервале \х\ < ау/1 — у2/Ъ2, длина которого зависит от у. Мы видели в примере 4.4, что безусловное распределение величины X в этом случае не является равномерным. Читатель легко самостоятельно убедится в том, что и в более сложном примере 3.9 условные распределения проекций случайного вектора равно- равномерны на соответствующих интервалах. Пример 4.10. В условиях примера 4.5 очевидно, что условное рас- распределение величины Y при данном значении х величины X определяется плотностью /2B/1 х) — $(у ~ ^(ж))- Действительно, при данном х величина Y с вероятностью 1 принимает единственное возможное значение <р(х). Тоже самое дает на основании ре- результата примера 4.5 и формула D.17). В частности, она справедлива в случае вырожденного распределения B.28). 4.2.2. Теорема умножения плотностей. Формулы D.16) и D.17) можно переписать в виде f(x,y) = h(x)f2(y\x)=f2(y)h{x\y). D.23) Эта формула выражает теорему умножения плотностей: совместная плотность двух случайных величин (скалярных или векторных) рав- равна плотности одной из них, умноженной на условную плотность другой, \> Заметим, что формула D.23) верна и в том случае, когда Л (ж), или /2B/), или они обе содержат ^-функции. Действительно, если, на- например, N /2B/) = h2(y) + ^2psS(y - 2/s), 8=1 то N f2(y)fi(x I у) = h2(y)fi(x I у) + ^2p8fi(x I ys) S(y - ys). D.24) 8=1 В сумме мы заменили fi(x\y) функцией fi(x\ys) ввиду того, что (р(у) ё(у — ys) — Lp(ys) 5(y — ys) для любой функции ip(y), посколь- поскольку 8(у - у8) = 0 при всех у ф у8. Так как при всех уфуъ>>.,ук суммы в обеих последних формулах равны нулю и, следовательно, /2B/) = h2(y), то вследствие D.16) правая часть формулы D.24) равна /(ж, у) при всех у ф 2/i,..., ум- Сумма же в D.24) на основании D.21) представляет собой как раз ту линейную комбинацию 5-функций, ко- которую следует ввести в функцию f(x,y), чтобы учесть отличные от
4-2. Условные распределения проекций случайного вектора 143 нуля вероятности р\,..., рдг значений 2/i,..., 2/лг случайной величи- величины У. Таким образом, правая часть формулы D.24) совпадает с /(ж, у) при всех х и у. <\ По индукции из D.23) для любого числа случайных величин имеем Ь . . . , Хп) = /l(xi) f2(x2 | ^i) /3(Ж3 I Xl, X2) . . . fn(xn \ %1, • • • , ^n-l), D.25) где fk(%k | ^i,...,Xjfe_i) является плотностью случайной величины Х& при данных значениях х\,..., Xk-i случайных величин Х\,..., X^_i. Соотношение D.25) сохраняет свой вид независимо от порядка нуме- нумерации Xl, ..., Хдг и соответствующих плотностей. 4.2.3. Зависимые и независимые случайные величины. В п. 2.4.6 были получены два необходимых и достаточных условия неза- независимости случайных величин. Установим третье необходимое и до- достаточное условие в терминах условных распределений. Сравнив D.23) с B.37), заключаем, что для независимости слу- случайных величин X uY необходимо и достаточно выполнение условий Мх\у) = Мх), h(y\x) = h{y). D.26) Очевидно, что оба эти условия необходимы, но достаточно выполне- выполнения одного из них, так как в силу D.22) каждое из тождеств D.27) является следствием другого. Аналогично, устанавливается, что для независимости п случай- случайных величин необходимо и достаточно, чтобы все условные распре- распределения совпадали с безусловными распределениями. Пример 4.11. В примерах 4.1 и 4.7 случайные величины X и Y за- зависимы, если ci2 ф 0, и независимы, если ci2 =0. Из D.15) следует, что величины X и У коррелированы, если с\2 ф^-> и не коррелированы, если ci2 = 0. Таким образом, координаты нормально распределенного двумерно- двумерного случайного вектора зависимы, если они коррелированы, и независимы, если они не коррелированы. Пример 4.12. В примере 4.3 проекции случайного вектора незави- независимы. Пример 4.13. В примерах 4.4 и 4.9 проекции случайного вектора за- зависимы, несмотря на то что, как мы видели в примере 3.8, они не коррели- коррелированы. В более сложном случае примера 3.9 проекции случайного вектора зависимы и в то же время коррелированы. Пример 4.14. В примере 4.5 проекции случайного вектора X и Y за- зависимы. Это следует из формального сравнения /2B/) и /г(у |ж), получен- полученных в примерах 4.5 и 4.10. При этом X и У в общем случае коррелиро- коррелированы. В частных случаях они могут быть и некоррелированными. Так, в примере 3.10 и в более общем случае четных функций д(х) и <р(х) величи- величины X и У не коррелированы. В случае четной д(х) и нечетной <р(х) вели- величины X и У коррелированы.
144 Гл. 4- Проекции случайных векторов и их распределения Попарной независимости величин Х\,..., Хп, недостаточно для того, чтобы они были независимыми. Пример 4.15. Пусть Х\ и Х2 — независимые случайные величины, каждая из которых имеет два возможных значения 0 и 1 с вероятностя- вероятностями 1/2, Хз = XiX2 + A — Xi)(l — Х2). Величина Хз также имеет два воз- возможных значения 0 и 1, вероятности которых равны 1/2, так как Р(Х3 = 0) = Р(Хг = 0) Р(Х2 = 1) + P(Xi = 1) Р(Х2 = 0) = 1/2, Р(Х3 = 1) = 1 - Р(Х3 = 0) = 1/2. Величины Xi,X2 и Хз попарно независимы, так как = 0, Хз = 0) = Р(Х: = 0) Р(Х2 = 1) = i = Р(Хг = 0) Р(Х3 = 0), Xi = 0, Хз = 1) = Р(Х: = 0) Р(Х2 = 0) = i = P(Xi = 0) Р(Х3 = 1), P(Xi = 1, Хз = 0) = Р(Х: = 1) Р(Х2 = 0) = i = P(Xi = 1) Р(Х3 = 0), Р(Х! = 1, Хз = 1) = Р{Х1 = 1) Р(Х2 = 1) = i = Р(Х! = 1) Р(Х3 = 1), 4 и аналогичные равенства справедливы для Х2, Хз. Однако P(Xi = 0, Х2 = 0, Хз = 0) = 0 ф Р{ХХ = 0) Р(Х2 = 0) Р(Х3 = 0). Следовательно, величины Xi,X2 и Хз зависимы. Пример 4.16. Трехмерный случайный вектор X = {Х1,Х2,Хз}, рав- равномерно распределенный на поверхности тетраэдра с вершинами в точках @, 0, 0), @,1,1), A, 0,1), A,1, 0), имеет плотность /О) 1 ж2 + хз — 2)], где l(o,i) (ж) — индикатор интервала @,1). Любая координата этого вектора распределена равномерно в интервале @,1), а его проекция на любую коор- координатную плоскость распределена равномерно на квадрате @,1) х @,1) = = @,1J. Следовательно, величины Xi,X2 и Хз попарно независимы. В то же время они зависимы, так как в противном случае распределение векто- вектора X было бы равномерным в кубе @,1K. Пример 4.17. Плотность n-мерного случайного вектора X определя- определяется формулой /О) = /iOi)... fn(xn) + g(x), где fi(x),..., fn{x) — любые плотности (возможно, содержащие линейные комбинации ^-функций), а д(х) — любая функция, удовлетворяющая усло- условиям: !) \д(х)\ ^ fi(xi) - - fn(xn) при всех хи...,хп\ 2) / д(х) dxk = 0 при всех xi, г ф к (к = 1,..., п).
4-2. Условные распределения проекций случайного вектора 145 Этим условиям удовлетворяет, например, функция g(x) = gi(xi)...gn(xn), где gi(x)...., дп(х) — любые нечетные функции, модули которых при всех х меньше соответствующих функций fi(x),..., fn(x). Интегрируя плотность f(x) по какой-нибудь одной координате, убеждаемся в том, что любые п — 1 из координат вектора X независимы, причем fk(xk) есть плот- плотность координаты Хк {к — 1,...,п). Однако все п координат вектора X зависимы, если д(х) ф 0. Подобных примеров можно привести много. В частности, этот пример легко распространяется на векторные величины Х\,..., Хп. 4.2.4. Независимые величины не коррелированы. Дока- Докажем, что независимые случайные величины всегда не коррелированы. \> Подставив выражение D.26) совместной плотности независи- независимых случайных величин X и Y в формулу C.22) для ковариации, получаем кху= / / (х-тх)(у -my)fi{x)f2{y)dxdy = -00-00 оо оо ¦x)fi(x)dx j (y-my)f2(y)dy. (x-mx) — СЮ Но оо оо оо У (y-my)f2(y)dy= j yf2(y)dy-my J f2(y)dy = 0. — оо —оо —оо Следовательно, kxy = 0, что и доказывает наше утверждение. О Зависимые случайные величины, как показывают примеры 4.11- 4.14, могут быть коррелированными, а могут быть и некоррелирован- некоррелированными. 4.2.5. Независимость функций независимых величин. До- Докажем, что если величины Х-\,... ,Хп независимы, то и любые их функции Y\ — cp(Xi),... ,Yn = (р(Хп) независимы. > Действительно, в этом случае р( П { \ к=1 = / ... / fi(x1)...fn(xn)dx1...dxn = = П / Л0**) dxk = f[ РAрк(хк) е вк) к1 k1 k=1 для любых множеств В\,..., Вп в соответствующих пространствах. <\
146 Гл. 4- Проекции случайных векторов и их распределения 4.2.6. Теорема умножения математических ожиданий. В п. 3.2.4 была выведена формула C.30), связывающая математиче- математические ожидания, ковариацию и смешанный начальный момент второ- второго порядка двух случайных величин. В случае действительных вели- величин X и Y эта формула имеет вид Ixy = kxy + тхту. D.27) Отсюда следует, что если случайные величины X и Y не коррелиро- ваны (кху = 0), то jxy = mxmy, или MXY = MX - MY. D.28) Таким образом, математическое ожидание произведения двух некор- некоррелированных действительных случайных величин равно произведе- произведению их математических ожиданий. Эта теорема умножения мате- математических ожиданий справедлива, в частности, для независимых случайных величин, так как независимые величины, как было пока- показано в п. 3.2.3, всегда не коррелированы. Естественно возникает желание обобщить эту теорему на любое число величин. Однако некоррелированности и даже попарной неза- независимости случайных величин для этого уже недостаточно. Пример 4.18. В условиях примера 4.15 величины Х\, Х2 и Хз попарно независимы, а следовательно, и не коррелированы. Их произведение имеет два возможных значения 0 и 1, причем значение 1 достигается только при Xi — Х2 — 1, а вероятность этого равна 1/4. Следовательно, МХ1Х2Х3 — = 1/4. В то же время МХХ = МХ2 = МХ3 = 1/2 и МХХ • МХ2 • МХ3 = = 1/8. Следовательно, теорема умножения математических ожиданий в данном случае не справедлива. \> Если случайные величины Х\,..., Хп независимы, то для лю- любых функций (pi(Xi),..., срп(Хп) Мср1(Х1)ср2(Х2) .. .ipn(Xn) = — 00 —сю сю = / (pi(^i)/i(Xi)(iXi / (p2(x2)f2(X2)dX2... / Pn Xi) Мср2(Х2)... причем математическое ожидание в левой части существует тогда и только тогда, когда существуют все математические ожидания в пра- правой части. <\
Jf.,3. Условные числовые характеристики 147 Таким образом, если случайные величины Xi,... ,Хп независи- независимы, то математическое оэюидание, произведения любых п функций этих величин, каждая из которых зависит только от одной из ве- величин Xj_,...,Xn, равно произведению математических ожиданий этих функций: Мч>х(Хх)ч>2(Х2)... <рп(Хп) = Mip^Xj.) MMX2) ¦ ¦ ¦ М<рп(Хп). D.29) Эта теорема справедлива как для скалярных, так и для векторных величин Х\,..., Хп и для произвольных комплекснозначных функ- функций </>!,...,<?„. В частном случае действительных величии Х\,..., Хп можно взять cpi(Xi) = Xi,..., срп(Хп) = Хп, и мы получаем обобщение тео- теоремы умножения математических ожиданий на любое число случай- случайных величин: лштематическое ожидание произведения независимых действительных случайных величин равно произведению их матема- математических ожиданий. Так как комплексную случайную величину можно рассматривать как функцию двумерного случайного вектора, координатами которо- которого служат ее действительная и мнимая части, то из D.29) следует, что теорема умножения математических ожиданий справедлива и для независимых комплексных случайных величин. Пример 4.19. Показать, что теорема умножения математических ожиданий справедлива для действительных случайных величин Х\,..., Хп, если все их смешанные центральные моменты до порядка п включительно равны 0. 4.3. Условные числовые характеристики 4.3.1. Условное математическое ожидание. Все введенные в гл. 3 числовые характеристики можно определить и для условных распределений. В частности, из формулы C.3) вытекает определение условного математического ожидания данной функции tp(Y) случайной вели- величины Y при данном значении х случайной величины X: M[<p(Y) \х] = I <p(y)f2(v I х) dy, D.30) где /2 (у | х) — условная плотность величины Y при данном значении х величины X. Эта формула определяет условное математическое ожи- ожидание как в случае скалярных, так и в случае векторных величин X, Y
148 Гл. 4- Проекции случайных векторов и их распределения Из формулы D.30) как частный случай вытекает формула для условного математического ожидания случайной величины У при данном значении ж величины X: сю M[Y\x}= f yh(y\x)dy. D.31) — сю 4.3.2. Регрессия. Обозначение $2{у\х) применяется для плот- плотности случайной величины У, зависящей от параметра ж, и в том слу- случае, когда ж не является значением некоторой случайной величины X. Формулы D.30) и D.31) в этом случае определяют математические ожидания величин У и ip(Y) как функции параметра х. Математическое ожидание случайной величины Y как функция параметра ж, от которого зависит распределение У, называется ре- регрессией Y на х. В частном случае, когда параметр х представляет собой возможное значение некоторой случайной величины Х1 регрес- регрессия У на ж представляет собой условное математическое ожидание величины Y при X — х. График функции у = M[Y \ х] в случае скалярных ж и У называ- называется кривой регрессии У на ж. Если параметр ж представляет собой значение случайной величи- величины X, то, кроме регрессии У на ж, можно определить также регрес- регрессию X на у. 4.3.3. Условные моменты. Определив условное математиче- математическое ожидание, можно определить и все условные моменты случай- случайных величин. Ясно, что все условные характеристики случайных ве- величин при данном значении ж случайной величины X в общем случае являются определенными функциями ж. Поэтому их можно рассмат- рассматривать до опыта как функции случайной величины X. В этом случае они сами будут случайными величинами. Условное математическое ожидание случайной величины Z — — (p(Y), рассматриваемое как функция случайной величины X, М[(р(У)|Х], называется условным математическим ожиданием случайной величины Z = ip(Y) относительно X. Так как условные математические ожидания и другие условные моменты случайных величин относительно случайной величины X сами являются случайными величинами, то для них, в свою очередь, можно определить числовые характеристики, в частности математи- математические ожидания и моменты. Пример 4.20. В примерах 3.9, 4.4 и 4.9
4-3. Условные числовые характеристики 149 и /г (у | ж) = 0 при других значениях у. Поэтому сх+Ъл/1-х2/а2 M[Y\x] = -—J== [ ydy = cx. (II) Таким образом, условное математическое ожидание Y при X — х в данном случае равно сх. Условная дисперсия величины Y при X = ж, в соответствии с результа- результатом примера 3.3, определяется формулой D[Y\x] = ~(a2-x2). (Ill) Предлагаем читателю самостоятельно доказать, что в этом случае Пример 4.21. В случае двумерного нормального распределения (при- (примеры 4.1 и 4.7) условное математическое ожидание и условная дисперсия величины Y при X — х определяются формулами M[Y\x] = Ъ- — (ж-a), D[Y\x] = —. (I) С22 С22 Таким образом, уравнение кривой регрессии У на ж имеет в данном случае вид у = Ъ-С-^(х-а). (II) С22 Аналогично находим уравнение кривой регрессии X на у: х = а- — (у-Ъ). (III) сп Легко видеть, что кривая регрессии У на ж представляет собой диаметр эллипса рассеивания, сопряженный с направлением оси у, а кривая регрес- регрессии X на у — диаметр, сопряженный с направлением оси х. 4.3.4. Формула полного математического ожидания. Вы- Выведем одну часто применяемую в теории вероятностей формулу. \> Применив формулу C.3) для вычисления математического ожидания функции ip(X,Y) случайного вектора {X, У}, можем на- написать СЮ (X) <p(x,y)f(x,y)dxdy, D.32) — ОО — ОО где f(x,y) — плотность случайного вектора {X, Y}. Подставив сюда выражение f(x,y) из D.23): f(x,y) = fi(x)f2(y\x),
150 Гл. 4- Проекции случайных векторов и их распределения будем иметь оо оо Mip{X,Y) = / { / <p( — ОО — ОО Но интеграл в фигурных скобках представляет собой условное мате- математическое ожидание случайной величины ip(X, Y) при данном зна- значении х величины X: ОО J (p(x,y)f2(y\x)dy = M[ip(x,Y)\x]. — оо Следовательно, предыдущую формулу можно переписать в виде сю Мср(Х, Y)= J М[ф, Y) | x\h (х) dx. D.33) — СЮ Правая часть этого равенства представляет собой математическое ожидание функции = М[<р(Х,?)\Х] случайной величины X. Следовательно, Mip(X, Y) = M[M[ip(X, Y) \X]]. < D.34) Эта формула называется формулой полного математического ожидания. Она показывает, что при вычислении математического ожидания функции двух случайных величин можно сначала найти условное математическое ожидание этой функции при фиксирован- фиксированном значении одной из величин-аргументов, а потом найти матема- математическое ожидание этого условного математического ожидания, рас- рассматриваемого как функция этой случайной величины. Формула D.34) справедлива как для скалярных, так и для вектор- векторных случайных величин X и Y. В последнем случае все интегралы в предыдущих формулах следует понимать как кратные интегралы по соответствующим пространствам. Формула D.34) верна и для комплексных случайных величин (в том числе векторных) X и Y. Чтобы убедиться в этом, достаточно понимать /i (ж) и /2 (у \ х) в предыдущих выкладках как плотности случайных векторов, образованных действительными и мнимыми ча- частями величин X и Y (или всех их координат). В частном случае при tp(X, Y) = Y формула D.34) дает = M[M[Y\X]]. D.35)
4-4- Характеристические функции случайных величин 151 Таким образом, математическое ожидание условного матема- математического ожидания случайной величины Y относительно X равно безусловному математическому ожиданию величины Y. В частном случае дискретной величины X, подставив в D.33) вы- выражение B.24) плотности Д(ж), получим N M(p(X,Y) = Y^PkM[Y\xk]. D.36) k=l Пример 4.22. Число приборов, поступающих в течение дня в ремонт- ремонтную мастерскую, представляет собой случайную величину, распределенную по закону Пуассона с математическим ожиданием р. Вероятность того, что поступивший прибор потребует большого ремонта, равна р. Найти мате- математическое ожидание числа поступающих за день приборов, требующих большого ремонта. При данном числе п поступивших за день приборов число приборов, требующих большого ремонта, представляет собой случайную величину, распределенную по биномиальному закону. Поэтому, в соответствии с ре- результатом примера 3.1, M[Y\n]=np (n = 0,1,2,...). (I) Вероятность того, что в течение дня поступит п приборов, в соответствии с A.46), определяется формулой pn = !±le-iJ> (n = 0,1,2, ...)• (II) Подставив полученные выражения вероятностей и условных математиче- математических ожиданий в формулу D.36), получим . .71 M[Y] = J2'P™ 71 = 0 4.4. Характеристические функции случайных величин 4.4.1. Характеристическая функция. Характеристической функцией действительной случайной величины X называется мате- математическое ожидание случайной величины ехр{гЛтХ}, рассматри- рассматриваемое как функция действительной переменной Л. На основании C.3) характеристическая функция величины X вы- выражается через ее плотность f(x) формулой сю g(X) = Mexp{iXTX} = f exp{i\Tx}f(x) dx. D.37)
152 Гл. 4- Проекции случайных векторов и их распределения Эта формула определяет характеристическую функцию как для ска- скалярной, так и для векторной величины X. Размерность вектора Л, очевидно, всегда совпадает с размерностью случайного вектора X. Так как |егЛ ^| = 1 при всех действительных Л, то любая действи- действительная случайная величина имеет характеристическую функцию. Характеристическая функция случайной величины полностью и однозначно определяет ее распределение. Мы докажем это утвержде- утверждение для случайных величин, имеющих плотность, возможно содер- содержащую линейную комбинацию й-функций. Доказательство в общем случае читатель найдет, например, в [51, 119]. \> Плотность непрерывной случайной величины неотрицательна и интегрируема. Поэтому, предположив, что она непрерывна всюду, кроме, может быть, конечного множества точек (линий, поверхностей, гиперповерхностей в случае векторной величины), можем предста- представить ее интегралом Фурье: л fix) = щ^ lim^ I exp{-iXTx}g(X) dX. D.38) -Л Эта формула определяет f(x) во всех точках ее непрерывности, т.е. при всех ж, кроме, может быть, некоторого множества точек нулевой суммарной меры. Следовательно, она полностью определяет распре- распределение непрерывной случайной величины. Формулу D.38) обычно записывают в виде оо № = —^ / ехр{-»Аг:ф(А) d\, D.39) — ОО где интеграл понимается в смысле главного значения Коши в случае, когда он сходится не абсолютно [69, 109]. Формула D.39) определяет плотность и в случае дискретной или непрерывно-дискретной величины X, так как в силу формулы (П. 1.15) приложения 1 ^-функция представима интегралом Фурье: 5(х) = — оо —оо Таким образом, формула D.39) определяет плотность, а следова- следовательно, и распределение по данной характеристической функции для всех трех типов случайных величин, встречающихся в задачах прак- практики. < 4.4.2. Свойства характеристических функций. Изучим свойства характеристических функции. 1) Из D.37) следует, что характеристическая функция непрерыв- непрерывна и что \д(Х)\ ^ 1, д@) = 1, д(-Х) = д(Х).
4-4- Характеристические функции случайных величин 153 2) Характеристическая функция положительно определенна: для любых значений Ai,..., Xjy переменной Л и любых комплекс- комплексных &,..., &у N p,q=l Из определения характеристической функции и свойств матема- математических ожиданий следует N N p,q=l p,g=l N = м Можно доказать, что любая непрерывная положительно опреде- определенная функция </(А), где ^@) = 1, может быть характеристической функцией случайной величины [51, 119]. 3) Характеристическая функция #2(аО величины Y = АХ + а, по- лученной в результате линейного преобразования величины X, выра- выражается через характеристическую функцию д\ (А) величины X фор- }д1(АТ1л). D.41) По определению 02 (АО = Мехр{фТУ} = = Mexp{z/iT(AX + а)} = ехр{фТа}Мехр{г/лтАХ} = T(AT/i)TX} = exp{ijjTa}g1(AT/i). 4) Из D.41), в частности, следует, что характеристическая функ- функция проекции случайного вектора на любое подпространство G равна сужению его характеристической функции на это подпространство, В самом деле, если а = 0 и А — матрица проектирования на G, то Ат = А, .4 А = А для любого A G G и А А = 0 для любого вектора А, ортогонального к G. В частном случае, когда подпространство G образовано некоторы- некоторыми единичными координатными векторами, для нахождения харак- характеристической функции проекции вектора X на подпространство G следует в выражении #i(A) положить равными нулю все координаты вектора А в дополнительном подпространстве. 5) Характеристическая функция д(Х) суммы независимых слу- случайных величин Х\,..., Хп равна произведению их характеристиче- характеристических функций 0fe(A) (k = 1...., п): п $*(А). D-42) к=1
154 Гл. 4- Проекции случайных векторов и их распределения Действительно, по теореме умножения математических ожида- ожиданий D.29) п g(X) = Mexp{iXT(XL + ... + Хп)} = Ц Mexp{iXTXk}. 6) Если Xi,... ,Хп — независимые случайные величины, то ха- характеристическая функция д(\), X — [Ai ... Ап]т составного случай- случайного вектора X = [Х\ ... Хп]Т равна произведению характеристиче- характеристических функций gk(^k) (к = 1,..., п) величин Х\,..., Хп: п D-43) Действительно, по теореме умножения математических ожида- ожиданий D.29) g(\) = Mexp{iXTX} = п ГХ)} = Д Mexp{i\lX X! + ... + \ГпХп)} = Д Mexp{i\lXk}. к=1 Наоборот, если совместная характеристическая функция вели- величин Xi,... ,ХП (составного вектора X = [Х\ ... Хп]Т) выражается формулой D.43), то величины Xl, ..., Хп независимы. Это следует из формулы D.39), выражающей плотность через характеристическую функцию. Таким образом, случайные величины Xi,... ,Хп независимы то- тогда и только тогда, когда их совместная характеристическая функ- функция равна произведению их характеристических функций. Пример 4.23. Характеристическая функция дискретной величины X с возможными значениями xi,..., xn и их вероятностями pi,... ,рдг опре- определяется формулой N = У^Ри ехр{гЛ7 хи}. Пример 4.24. Для биномиального распределения J2 C™pmqn-meiXm = (peiX+qT. т=0 Пример 4.25. Для распределения Пуассона т=0 г??,=0
4-4- Характеристические функции случайных величин 155 Пример 4.26. Для равномерного распределения в интервале (а,Ъ) 7 - a iX{b - a) а Пример 4.27. Характеристическая функция скалярной нормально распределенной случайной величины X определяется формулой g(X) = . / exp<^ iXx — — > dx = . \ exp<^ iXt > dt. — oo —oo Применив формулу (П.2.1) приложения 2, получаем д(Х) = ехр|гЛш - ^}. D.44) Пример 4.28. Для 7-распределения (к-гХ)оо где интегрирование производится по лучу / в плоскости комплексной пере- переменной у, выходящему из начала координат в направлении вектора к — i\. Применив теорему Коши о равенстве нулю интеграла по замкнутому кон- ТУРУ от аналитической функции, не имеющей особых точек в области, ограниченной контуром, убеждаемся в том, что интегрирование по лучу / можно заменить интегрированием по положительной части действитель- действительной оси. Тогда в силу определения B.16) гамма-функции интеграл будет равен Г(/х + 1) и мы получим д(Х) = F+1(/c - гЛ)"^. D.45) Пример 4.29. В частном случае показательного распределения jj, — О и формула D.45) принимает вид Пример 4.30. В другом частном случае %2-распределения jj, — п/2 — 1, к — 1/2 и формула D.45) дает д(Х) = A - 2гА)""/2. Пример 4.31. Для распределения Коши (пример 3.6) ° eiXxdx beiXa 7 eiXudu /1Л У A) /ХЧ Ъ [ eiXxdx beiXa 7 ei — оо —оо Для вычисления последнего интеграла в (I) заметим, что 1 = 1 Г_^ !_1 Ь2 + и2 2blu + ib u-ibl
156 Гл. 4- Проекции случайных векторов и их распределения Тогда после подстановки (II) в (I) и интегрирования по замкнутому конту- контуру, содержащему интервал (—R.r) и полуокружность радиуса R в верхней полуплоскости при А > 0 и в нижней полуплоскости при А < 0, получим устремив R —>- оо окончательный результат я(А) = ехр{гаА-Ь|А|}. (III) 4.4.3. Связь между характеристической функцией и мо- моментами. Чтобы установить связь между характеристической функ- функцией и моментами случайной величины, рассмотрим сначала случай скалярной величины. Ее характеристическая функция в соответствии с D.37) определяется формулой оо д(Х) = [ eiXxf(x)dx. \> Предположим, что существует момент r-го порядка аг величи- величины X. В этом случае существует и производная ОО = V I xreiXxf{x) dx = irMXreiXX. Положив здесь А = 0, находим выражение для момента аг через ха- характеристическую функцию: ar=rVr)@). D.46) Если величина X имеет моменты до порядка v включительно, то на основании D.46) характеристическую функцию д(Х) можно пред- представить формулой Маклорена: Jl^\r+Ru, D.47) где Rv — остаточный член. Заметив, что е~гХгГ1хд(Х) представляет собой характеристичес- характеристическую функцию центрированной случайной величины Х° = X — тх, из D.46) получим [^]=о. D.48) Если случайная величина X имеет конечные центральные момен- моменты до порядка v включительно, то функцию е~гХгПх д(\) можно пред- представить формулой Маклорена: v -г e-iXm*g(\) = 1 + Y, г~^Г У + К- < D-49)
4-4- Характеристические функции случайных величин 157 Совершенно так же для n-мерного случайного вектора X полу- получаем формулы для моментов a^lv..^n и /i/^,...,/^, hi + ... + hn = r: D.50) и выражения функций д(А) и е~гЛ тхд(Х) через моменты: 5± 1 + J2{Г Е 0^Ь А* ''' Х"П + К> r=2 h! + ...+hn=r "" П' D.51) где равенство под знаком внутренней суммы указывает, что суммиро- суммирование распространяется на все значения /ii,..., hn = 0,1,..., г, сумма которых равна г. Полученные соотношения дают два простых и удобных спосо- способа вычисления моментов случайной величины: способ дифференци- дифференцирования характеристической функции и способ разложения ее по степеням Л. Пример 4.32. Для скалярной нормально распределенной случайной величины X на основании D.44) имеем = V = V А V А. 2ss\ ^ 2ss\ s=0 s=0 Сравнив эту формулу с D.49), находим Bs)! V2s-1 = 0, fl2s = -^ DSX. Этот результат совпадает с полученным в п. 3.6.2. В данном случае способ разложения характеристической функции в ряд значительно проще, чем непосредственное вычисление моментов. Если распределение случайной величины, полностью сосредоточе- сосредоточено в ограниченной области, то ее моменты всех порядков существу- существуют и полностью определяют ее распределение. \> Для доказательства достаточно заметить, что если \Х^\ < h (к = 1,..., п), то \ahi_ • • • dhn I < li1 • • • lnn •> вследствие чего члены ряда Маклорена характеристической функции по модулю меньше соответ- соответствующих членов сходящегося при всех Ai,..., Ап ряда ОО L 1 r=l hx + ...+hn=r где/ = [h ...ln]T. <
158 Гл. 4- Проекции случайных векторов и их распределения 4.4.4. Семиинварианты. В некоторых случаях удобно пользо- пользоваться разложением по степеням Л не самой характеристической функции, а ее логарифма. Если существуют моменты скалярной случайной величины X до порядка v включительно, то на основании формулы Маклорена ^^У+К. D.52) Г = 1 Коэффициенты называются семиинвариантами или кумулянтами случайной вели- величины X. Если существуют моменты n-мерного случайного вектора X до порядка v включительно, то формула Маклорена дает 1п5(А) = ?г ? ^At'-^+K. D.54) Коэффициенты называются семиинвариантами или кумулянтами случайного век- вектора X. Ясно, что семиинварианты порядка г выражаются через мо- моменты до порядка г включительно, и наоборот. Семиинварианты обладают одним интересным свойством: семи- семиинварианты суммы независимых случайных величин равны сум- суммам соответствующих семиинвариантов слагаемых. Это следует из свойств 5) характеристических функций 4.4.5. Порядок остаточных членов в разложениях. Оста- Остаточные члены в D.47), D.49), D.51), D.52) и D.54) имеют поря- док о(|А|"). \> Представив exp{iATX} формулой Маклорена и имея в виду, что |АТХ| ^ |А| • \Х\, получаем д(Х) = 1 + i\Tmx + $^ М{\ТХУ + й„, D.56) г=2 где |Д„| = i \M(\TXy(exp{i9\TX} - 1)| ^ < ^ |А|" М\Х\" ¦ | ехр{ШтХ} - 1)| = 0(|А|"). Последнее выражение представляет собой сходящийся интеграл, а
4-4- Характеристические функции случайных величин 159 функция \х"\ • | exp{iOXTx\ — 1)|, О ? @,1), равномерно непрерывна по х на любом конечном интервале. Следовательно, при Л —У оо M\X\V • | ехр{ШтХ} - 1)| _> 0. Так как ехр{—iXTmx}g(X) есть характеристическая функция цен- центрированной случайной величины Х°, то из доказанного следует, что и< = о(|ЛГ). Наконец, подставив в формулу z) = г=1 выражение 2: = д(Х) — 1 из D.56) убеждаемся в том, что и R'l = = о(|А|"). < В частности, положив в D.56) и D.57) v = 2, получаем для харак- характеристической функции случайной величины X с конечными момен- моментами второго порядка Ыд(Х) = г\Ттх - \ \ТКх\ + о(|Л|2) D.58) (эта формула справедлива и в случае, когда X имеет только моменты первого и второго порядков). 4.4.6. Соотношения между семиинвариантами и момента- моментами. Очевидно, что существуют некоторые соотношения между семи- семиинвариантами, с одной стороны, и моментами — с другой стороны. \> Для того чтобы получить эти соотношения для скалярной слу- случайной величины с конечными моментами до порядка г/, подставим в = imx\ + \n[exp{-i\mx}g(X)] - = imx\ Г=1 выражение D.49) для величины ехр{—iXTmx}g(X) и переставим чле- члены, собрав все члены одной и той же степени в одно слагаемое. Срав- Сравнив коэффициенты в полученном выражении с соответствующими ко- коэффициентами в D.52), найдем [/г/2] Для получения обратных соотношений подставляем в г=1
160 Гл. 4- Проекции случайных векторов и их распределения выражение D.52) для величины z — —iXm + \ng(X) = — iXxi + \ng(X) и переставляем члены, собирая все члены одной и той же степени Л в одно слагаемое. Сравнив коэффициенты в выражении, полученном с соответствующими коэффициентами в D.49), получим [h/2] ^[ E Аналогично выводятся соотношения между семиинвариантами и моментами n-мерного случайного вектора Р1 + ._^)/2] Jthlt...hn = fihlt....hn - 2 ^Г~ х p E ...+vnp=hn k=l All! ... i Е -¦ E Эти формулы справедливы для всех /г1?..., hn = 0,1, 2,..., /ii + ... • • • + hn ^4. Все первые семиинварианты случайного вектора совпа- совпадают с соответствующими компонентами его математического ожи- ожидания, в то время как вторые и третьи семиинварианты совпадают с соответствующими центральными моментами. 4.4.7. Семиинварианты линейных функций случайных величин. Чтобы полученные соотношения между семиинварианта- семиинвариантами n-мерного случайного вектора X и тех, что представляют линей- линейную функцию величины X, Y = АХ + ао, n-мерного случайного век- вектора Y, используем формулы D.61) и C.84). Совокупность семиинвариантов так же, как и моментов порядка г случайного вектора X, представляет собой тензор r-го ранга. При этом удобно пользоваться следующими тензорными обозначениями: >Qii,...,/in =ll...l 2...2 ... П...П- hi h-2 hn Тогда, применяя тензорные обозначения, получим для семиинвариан- семиинвариантов величины Y ]У _ nai narix / _ -i \
4-5. Многомерное нормальное распределение 161 Таким образом, семиинварианты случайной величины и семиин- семиинварианты линейной функции этой случайной величины связаны те- теми же соотношениями, что и моменты. 4.5. Многомерное нормальное распределение 4.5.1. Математическое ожидание нормально распределен- распределенного вектора. Изучим нормально распределенные случайные векто- векторы. В соответствии с B.22) напишем выражение плотности п-мерного нормально распределенного вектора X в виде /Or) = Anexp{-± (хТ - ат)С(х - а)}. D.63) Результаты изучения одномерного и двумерного нормальных распре- распределений в разделе 3.6 и в примерах 4.1 и 4.7 наводят на мысль, что параметр а в D.37) представляет собой математическое ожидание слу- случайного вектора X, а = mx = MX, матрица коэффициентов С квад- квадратичной формы в показателе степени обратна по отношению к кова- ковариационной матрице Кх вектора X, а коэффициент Ап при показа- показательной функции определяется формулой Так как это верно для п = 1 и п = 2, то для доказательства этого утверждения в общем случае проще всего применить метод индук- индукции. Предположив, что утверждение верно для (п — 1)-мерного век- вектора, докажем, что в таком случае оно верно и для n-мерного вектора. \> Пусть X' — случайный вектор, образованный первыми п — 1 координатами вектора X, X' = {Xi,... ,Xn_i}, и представим плот- плотность f(x) в соответствии с D.23) в виде произведения плотно- плотности fi(x') вектора X' и условной плотности последней координа- координаты Хп вектора X: f(x) = fi(x')f2(xn\x'). D.65) Для этого достаточно разложить f(x) на два множителя, один из ко- которых не зависит от xnj а другой при интегрировании по ж, в бесконеч- бесконечных пределах дает постоянную величину, не зависящую от х'. Тогда выбором подходящих числовых множителей к этим двум функциям получим требуемый результат. Выделим в показателе степени в D.63) все слагаемые, зависящие от хп. Для этого положим для краткости и = х — а и представим мат-
162 Гл. 4- Проекции случайных векторов и их распределения рицу коэффициентов С в виде блочной матрицы: С = си С21 С12 С22 Cl С2,п-1 С2п С2,п-1 Сп-1,п-1 Cln С2п Сг с - [cT cnn где С\ — матрица коэффициентов при upuq (р, q = 1,... , n — 1), а с — матрица-столбец коэффициентов при ирип (р = 1,...,п — 1). Точно так же матрицу-столбец и разобьем на два блока и' и ип, и = = [и1 ип]т. Тогда будем иметь uTCu = [ulT un] = \utTurt си' Спп\ [Un Ly\U т" CUn I /тл / / / Т / , =U CiU +U CUn + с1 и' + cnnixn ипсти' + сппи2п = u'TCiu' + 2ипсти' + сппи2п, так как и с — си' *). Дополнив два последних слагаемых до полного квадрата и снова пользуясь равенством сти! = ufTc, получим итСи = ufTClUf + cnn \ul + 2ип С-^ J (Г/J Спп Вводя для краткости матрицу С' = Сг - —, Спп перепишем полученное равенство в виде итСи = ufTCfuf D.66) D.67) Подставив это выражение в D.63) и вспомнив, что и — х — а и соот- соотf(x) = Апехр{-\ (х'т - alT)C'(x' -a') 1 Г ст 12>| --спп \хп -ап-\ (У - af)\ \. D.68) *) Читатель, которого затрудняют выкладки с блочными матрицами, легко убедится в справедливости этого равенства, представив его в скаляр- скалярной форме.
4.5. Многомерное нормальное распределение 163 Интеграл от второй показательной функции по хп в бесконечных пределах не зависит от х1', в чем можно убедиться, приняв за пере- переменную интегрирования выражение в квадратных скобках вместо хп. Следовательно, эта показательная функция пропорциональна услов- условной плотности f2(xn | х') случайной величины Хп при данном значе- значении х' величины X'. Сравнив эту показательную функцию с выраже- выражением C.85) одномерной нормальной плотности, получаем /2(ж„ | х') = л/f^ ехр{-? спп \хп - а,п + —{х1 - а')} }. D.69) Оставшийся множитель в D.68) представляет собой плотность слу- случайного вектора X': Л (*') = АпХ[^ exp{-i (xlT - а'т)С'(х' -а')}. D.70) Из D.67) следует, что матрица С положительно определенна, так как при любом векторе и1 и ип = —{сти')/спп имеем и'тС'и' = итСи > 0. Следовательно, распределение вектора X1 нормально. А так как по предположению для (п — 1)-мерного нормального распределения на- наше утверждение справедливо, то An_i = АпХ \— = , D.71) С'КХ, = L D.72) где Kxi — ковариационная матрица случайного вектора X1, и а1 = = MX' или, что то же, ар = тпр — МХР (р = 1,..., п — 1). Таким образом, величины ai,...,an_i равны математическим ожиданиям mi,...,ran_i случайных величин Xl, ...,Хп-\. Вслед- Вследствие симметрии выражения плотности D.63) относительно перемен- переменных #1,..., хп заключаем, что и величина an, равна математическому ожиданию тпп случайной величины Хп. Поэтому а = MX, что и дока- доказывает первую часть утверждения для n-мерного распределения. <\ 4.5.2. Ковариационная матрица. Докажем теперь, что кова- ковариационная матрица Кх вектора X равна С~1. \> Положим Yn = хп-ап + — {X1 ~ а'). D.73) Спп При данном значении х1 вектора X1 условное распределение величи- величины Yn нормально и, очевидно, получается соответствующим сдвигом
164 Гл. 4- Проекции случайных векторов и их распределения условного распределения величины Хп. При этом гр п—1 М[Хп | х'} = о„ - —• {х1 - а1) = тп - V] — (ж„ - тр), Cnn p=i Cnn D.74) Поэтому из формулы D.73) следует, что условная плотность величи- величины Yn при X' — х' нормальна и определяется формулой 9(Уп\х') = ^e*v{-\cnnyl и, следовательно, не зависит от х'. Это значит, что случайная вели- величина Yn не зависит от случайных величин Х±,... ,Xn-i. Но незави- независимые величины всегда не коррелированы. Следовательно, ковариа- ции случайной величины Yn со всеми величинами Xi,..., Хп-\ равны нулю. Для вычисления этих ковариации, принимая во внимание, что перепишем D.73) в виде п-1 V — Y0 _ \"^ Срп V0 Умножив это равенство на X® и взяв математическое ожидание, най- найдем ковариацию Yn и Хг. Учитывая, что по доказанному она равна О при г = 1,...,п — 1, получим соотношения п-1 km + У" — krp = 0 (г = 1,... ,п - 1), D.75) ^-"^ С-пп р=1 откуда находим п-1 Y^ krpcpn = 0 (г = 1,... ,п - 1). D.76) p=i Перепишем теперь D.72) с учетом D.66) в скалярной форме: п-1 р=1 или, так как csn = cnsj п-1 п-1 p=l p=l
4-5. Многомерное нормальное распределение 165 Но из D.75) следует, что п-1 _ V~^ Срп , _ , 7 ГьГр — ГЬГП' *—** спп Поэтому предыдущую формулу можно переписать в виде п ^Tkrpcps = Sr8 (r,s = l,...,n-l). D.77) P=i Формулы D.76) и D.77) показывают, что равенства D.77) справед- справедливы при s = 1,..., п; г = 1,...,/г — 1. Вследствие симметрии выра- выражения D.63) плотности относительно переменных xi,...,xn спра- справедливы и равенства, получаемые из D.77) круговой подстановкой индексов 1,...,п. Следовательно, равенства D.77) справедливы при всех г, s = 1,..., п. Это и доказывает, что матрицы С и Кх являются взаимно обратными. <\ 4.5.3. Коэффициент при показательной функции. Дока- Докажем последнюю часть утверждения — равенство D.64). \> Заметим, что так как спп — элемент матрицы С, обратной по отношению к Кх, а алгебраическое дополнение элемента кпп в опреде- определителе \КХ\ есть \КХ>\, то спп = lAVl/li^l- Подставив это выражение в D.71) и учтя, что определители взаимно обратных матриц являются взаимно обратными величинами, мы и получим формулу D.64) для коэффициента Ап в D.63). <\ Таким образом, при любом п коэффициент Ап в выражении нормальной плотности определяется формулой D.64), а = тх, С = = К~г. Поэтому выражение D.63) плотности нормально распределен- распределенного случайного вектора X можно написать в виде Эта формула показывает, что многомерное нормальное распределе- распределение полностью определяется математическим ожиданием и ковариа- ковариационной матрицей случайного вектора. Таким образом, нормальное распределение всегда полностью определяется моментами первого и второго порядков. Нормальное распределение случайного вектора с математическим ожиданием т и ковариационной матрицей К коротко обозначает- обозначается N(m,K). Таким образом, утверждение, что случайный вектор X имеет распределение N(m,K) означает, что он распределен нор- нормально и его математическое ожидание и ковариационная матрица равны соответственно т и К. В частности, утверждение, что ска- скалярная (действительная) случайная величина X имеет распределе- распределение N(m,K) означает, что она распределена нормально и ее ма- математическое ожидание и дисперсия равны соответственно т и D.
166 Гл. 4- Проекции случайных векторов и их распределения Заметим, что, доказав формулу D.64) мы попутно вычислили сложный n-кратный интеграл ОО . exp{-1-uTCu}du= у/Bж)»\Кх\ = ^^- D-79) — оо Этот результат является одним из многочисленных примеров реше- решения математических задач чисто вероятностными методами. Исполь- Используя вероятностные закономерности, часто удается вычислять слож- сложные интегралы без выполнения интегрирований или упрощать их до такой степени, чтобы дальнейшее интегрирование стало элементар- элементарным, а также решать многие другие задачи. 4.5.4. Условные распределения координат. Формула D.69) показывает, что условное распределение каждой координаты нор- нормально распределенного случайного вектора при данных значениях всех остальных координат нормально, причем условное математиче- математическое ожидание и условная дисперсия координаты Хп определяются формулами Т п—1 М[Хп | х'} = ап- — (У - а') = гпп ~У2 -^ (хр - гар), xf} = —. С-пп Таким образом, от х' зависит только условное математическое ожида- ожидание величины Хп, представляющее собой сдвинутую линейную функ- функцию х', т.е. переменных х\,..., жп-ь Из установленных фактов как следствие вытекает, что распреде- распределения и условные распределения проекций нормально распределенного случайного вектора на любые подпространства нормальны. \> Переписав формулу D.74) в виде п-1 М[Хп | х'] =тп+ g(xf - га') = тп + ^ дР(хр - гар), D.80) p=i на основании соотношений D.77) при s = п, г = 1,...,п — 1, убежда- убеждаемся в том, что элементы матрицы-строки д, равные др = —срп/спп, удовлетворяют уравнениям п-1 ^2 krp9p = krn (r = 1,..., п - 1), Р=1 или, в векторной форме при д = [д\ ... gn-i], Кх,д = к, D.81) где к — вектор с координатами fein,..., fcn_i,n. <\
4.5. Многомерное нормальное распределение 167 Таким образом, условное математическое ожидание случайной величины Хп при X1 — х1 представляет собой сдвинутую линейную функцию х' в D.80), коэффициент g которой определяется линейным алгебраическим уравнением D.81). Теперь рассмотрим (п + т)-мерный нормально распределенный случайный вектор Z = [XTYT]T, где X — n-мерный вектор, а У — m-мерный вектор. Для нахождения условного нормального распреде- распределения случайного вектора У при заданном значении х величины X достаточно найти условное математическое ожидание и условную ко- ковариационную матрицу величины У. > Чтобы найти условное математическое ожидание величины У при заданном X = ж, заметим, что условное математическое ожида- ожидание каждой компоненты величины У задано формулой D.80), где матрица-строка g определяется формулой D.81) с Кх вместо К'х, к — взаимная ковариационная матрица соответствующей компонен- компоненты величины У и X. Матрицы /с, соответствующие всем компонентам величины У, представляют собой строки взаимной ковариационной матрицы Кух величин У и X, в то время как соответствующие мат- матрицы g представляют собой строки матрицы коэффициентов в вы- выражении ту | х = M[Y | х] как линейной функции X — тпх. Обозначив снова эту матрицу коэффициентов через д, получим из D.81) сле- следующее уравнение для д: дКх=Кух. D.82) Для того чтобы найти условную ковариационную матрицу Ку | х при данном X = ж, используя D.78), запишем выражение условной плотности величины У при данном X = х: f(y\x) = [Birr\Ku\x\]-1 где и = х — mx, v = у — ту. Используя эту формулу и D.78), нахо- находим совместную плотность величин X и Y, т.е. плотность величи- величины Z = [XTYT]T, f(y,x) = [B*)n+m\Kx\\Ky\x\] Согласно теореме п. 4.5.2 матрица коэффициентов квадратичной формы в экспоненте представляет собой обратную матрицу для ко- ковариационной матрицы величины Z: Кх Кху КуХ Ку
168 Гл. 4- Проекции случайных векторов и их распределения Поэтому имеем уравнение для Ку | х где Im — т х m-единичная матрица. Решив это уравнение, получа- получаем следующие выражения для условного математического ожидания ту | х и условной ковариационной матриц Ку \ х величины Y при дан- данном X — х: ту\х = ту+д(х-ту), Ку\х = Ку - дКху. < D.83) Таким образом, условное математическое ожидание и условная ковариационная матрица случайного вектора Y при заданном зна- значении х случайного вектора X определяются формулами D.83), где коэффициент g задается уравнением D.82). 4.5.5. Случай некоррелированных координат. Рассмотрим частный случай, когда координаты случайного вектора X не корре- лированы. > В этом случае krp = 0 при г ф р и, следовательно, cpq = 0 при q ф р, срр = — (р = 1, • • •, п). Крр Выражение D.78) плотности при этом принимает вид жь...,жп) = ===ехр{ — ) | = fi(x1)f2(x2)... /п(ж„). Отсюда видно, что в случае некоррелированных координат нормаль- нормально распределенного случайного вектора его плотность равна про- произведению плотностей его координат. Следовательно, координаты случайного вектора в этом случае независимы. <\ Таким образом, координаты нормально распределенного случайно- случайного вектора не коррелированы тогда и только тогда, когда они неза- независимы. 4.5.6. Вырожденное нормальное распределение. Форму- Формулы D.63) и D.78) определяют плотность для нормального распреде- распределения только в том случае, когда определитель матрицы Кх не ра- равен нулю и, следовательно, ранг матрицы Кх совпадает с размерно- размерностью п случайного вектора X. Если ранг матрицы Кх равен г < п, то, как мы знаем из результатов п. 3.3.4, между координатами векто- вектора Х° существует п — г линейных зависимостей, вследствие чего рас- распределение полностью сосредоточено на r-мерном подпространстве,
4-5. Многомерное нормальное распределение 169 сдвинутом на вектор тх (если тх не принадлежит этому г-мерному подпространству). Выражение плотности случайного вектора X в этом случае, как мы видели в п. 2.3.4, содержит множителем E-функцию (п — г)-мерного аргумента. > Если ранг матрицы Кх равен г < п, то существует отличный от нуля диагональный определитель порядка г матрицы Кх. Соот- Соответствующая обратимая матрица Кх> определяет нормальное распре- распределение проекции X1 случайного вектора на подпространство, обра- образованное соответствующими осями координат: Щ ехр Н{х' ~ т'№ V - т')}' где т' = MX'. Проекция X" случайного вектора X на дополнитель- дополнительное (п — г)-мерное подпространство однозначно определяется из урав- уравнений ^Х° = О (р = г + 1,..., п), где yv+ъ • • • •> Фп — собственные векторы матрицы КХ1 соответствующие (п — г)-кратному нулевому собственному значению. Чтобы решить эти уравнения, представим матрицы-столбцы ^, I и тх в блочном виде: Т г / Т пТ 1 лгТ г лг!Т лгиТл Т г /Т пТ л ср* = [еру ср!р!1 ]? X = [X J X J ], m^ = [m m J j. Тогда уравнения примут вид ?ртХ'° + ^/ТХ//0 =0 (р = г + 1,..., п). D.85) Собственные векторы yv+i, ...,<?„, определяются уравнениями Кхсрр = 0 (р = г + 1,..., п). Представив матрицу Кх в блочном виде: к=\к* кх,х,л Х [Кхпх, Кхп J ' можем написать эти уравнения в виде Кхчр'р + Кх/Хшр'р' = 0, Кхпт/(р'р + Кхшр'р' = 0 (р = г + 1,... ,п). D.86) Так как матрица Кх> обратима, первое уравнение можно решить от- относительно ф'р. В результате получим ip'p = —K~}~KX!X"Lp"p. Отсюда, принимая во внимание, что в силу C.42) Kj,^, =Kxixu, получаем (р'рт = —(р'р'тКхпх!К~,1. Подставив это выражение в D.85), получаем Таким образом, мы получили систему однородных линейных уравне- уравнений относительно координат вектора Х"° — KxnxiK~}X'^. Докажем,
170 Гл. 4- Проекции случайных векторов и их распределения что определитель этой системы не равен нулю. Для этого подставим выражение (р'рТ из первого уравнения D.86) в соотношение ортого- ортогональности векторов {tpp}: Получим DT(^fl ~ ^"ж'^/Vl) = $pq (p = Г + 1, . . . ,n). При любом фиксированном q = г + 1,..., n правая часть одного из этих уравнений равна 1. Но система неоднородных линейных урав- уравнений имеет решение только тогда, когда ее определитель отличен от нуля, что и доказывает наше утверждение. После этого уравне- уравнение D.87) дает Х"° = Кхпх,К~}Х^, или X" = тп" + Кхпх!К~}{Х1 - га'). D.88) Отсюда следует, что условная плотность вектора X" при данном зна- значении х' вектора X' определяется формулой Ых" | х') = 6(х" - т" - Кх„х,К-}{х! - т1)). Подставив это выражение и выражение D.84) плотности fi(x') в фор- формулу, найдем плотность случайного вектора X: f{x)= , Y ещ>\-\{х' -m'fK-^x1 -m')\ x х ё(х" - т" - Кхпх<К~} (х' - га')). < D.89) Распределение вероятностей, определяемое этой формулой, назы- называется вырожденным нормальным распределением. Так как Й-функцию всегда можно рассматривать как нормальную плотность, соответствующую ковариационной матрице, все элементы которой равны 0, то для вырожденного нормального распределения справедлива доказанная выше теорема, что распределения и условные распределения всех проекций нормально распределенного случайного вектора на любые подпространства, образованные осями координат, нормальны. Однако проекции случайного вектора на любые подпространства, образованные осями координат, могут быть распределены нормально и в том случае, когда распределение этого вектора отлично от нор- нормального. Пример 4.33. Плотность тг-мерного вектора X определяется фор- формулой
4.5. Многомерное нормальное распределение 171 где /лг(ж) — любая нормальная плотность, а д(х) — любая функция, удо- удовлетворяющая условиям: 1) \д(х)\ ^ //у(ж) при всех ж; 2) / д(х) dxk — 0 при всех xi, i / к (к = 1,..., п). Интегрированием по любой координате вектора х убеждаемся в том, что проекции вектора X на все подпространства, образованные осями ко- координат, распределены нормально. Однако распределение вектора X при д{х) ф 0 отлично от нормального. 4.5.7. Характеристическая функция. Подставляя выраже- выражение D.78) для плотности n-мерного нормально распределенного век- вектора X в D.37), получаем оо д(\) = [Bп)п\Кх\]-1'2 I ехр{гЛтх - \(хт - m^K^x - mx)) dx. Для вычисления этого интеграла используем формулу (П.2.2) прило- приложения 2. Тогда получаем д(Х) = ехр{гЛттж - \\ТКХ\}- D.90) > Используя D.41) и D.90) находим характеристическую функ- функцию линейной функции Y = АХ + а$ нормально распределенного случайного вектора X: x+a0)-^IAKxAIfij. D.91) Но согласно C.49) и C.50) Атх + а® = ту и АКХАТ — Ку представля- представляют собой математическое ожидание и ковариационную матрицу слу- случайного вектора Y. Отсюда следует, что характеристическая функ- функция любой линейной функции нормально распределенной случайной величины определяется формулой D.90). Теперь мы можем распространить формулу D.90) на вырожден- вырожденные нормальные распределения. Применяя D.88), мы представляем n-мерную нормально распределенную случайную величину X п.4.5.6, ковариационная матрица которой Кх имеет порядок г < п через слу- случайный вектор X1 с невырожденным нормальным распределением: 1Л V.U1, где 1Г — единичная г х г матрица. Согласно D.91) характеристиче- характеристическая функция X определяется формулой D.90), что и доказывает на- наше утверждение. <\
172 Гл. 4- Проекции случайных векторов и их распределения Таким образом, характеристическая функция как вырожденно- вырожденного, так и невырожденного, определяется формулой D.90). А фор- формула D.91) справедлива для любых линейных функций нормально распределенных случайных величин. 4.5.8. Линейные функции нормально распределенных случайных величин. Формула D.91) показывает, что любые линей- линейные функции нормально распределенных случайных величин нормаль- нормально распределены. Этот результат имеет большое значение для теории вероятностей и ее применения. Как следствие этого результата коэффициенты канонического раз- разложения (п. 3.4.3) нормально распределенного случайного вектора в особенности его разложения по собственным векторам ковариацион- ковариационной матрицы имеют совместное нормальное распределение. Так как некоррелированные нормально распределенные случайные величины независимы, коэффициенты канонического разложения нормалььно распределенного случайного вектора всегда независимы. Из этих результатов так же следует обобщение теоремы п. 4.5.4: распределения и условные распределения проекций нормально рас- распределенных случайных векторов на любых подпространствах нор- нормальны. 4.5.9. Моменты. Для нормально распределенного п-мерного случайного вектора на основании D.90) имеем оо = ? s=0 00 -2s ~ / , oiTj / , kPiqi .. .kpsq6\Pi\qi .. .\Ps\qs. D.92) s=0 p1,q1,...,ps,qs=i Отсюда видно, что все центральные моменты нечетного порядка нор- нормально распределенного случайного вектора равны нулю. Для цен- центрального момента четного порядка h\ + ... + hn = 2в из сравнения D.91) и D.92) вытекает формула \\.. .hn\ v-^ , , ( s lkk D.93) где сумма распространена на все возможные различные переста- перестановки 2s индексов р1? д1?... ,ps, gs, из которых hi индексов рав- равны 1, /i2 равны 2, ..., hn равны п. Очевидно, что число таких перестановок, а следовательно и число слагаемых в сумме D.93) равно Bs)!/(fti! /12!... hn\). Положив в D.93) последовательно s = 2, hi — 4, hk = 0 при к > 1; hi = 3, /12 = 1, hk = 0 при к > 2; hi = = h2 - 2, hu = 0 при к > 2; hi = 2, h2 = h3 = 1, hk = 0 при к > 3;
4.5. Многомерное нормальное распределение 173 hi = /12 = Ы — ^4 = 1, hk — 0 при & > 4, получим следующие форму- формулы для центральных моментов четвертого порядка: А&40...0 = 3fen, /i310...0 = 3&Ц&12, /i220...0 = &11&22 + 2&]22> ^2110...О = &11&23 + 2&12&13, D.94) 0. ..0 = &12&34 + ^13^24 + ^14^23- Формулы D.93) и D.94) выражают центральные моменты нор- нормально распределенного случайного вектора через элементы его ко- ковариационной матрицы. Заметим, что приведенный вывод формулы D.93) для моментов нормально распределенного случайного вектора при помощи разло- разложения его характеристической функции в ряд крайне прост, в то вре- время как непосредственное вычисление моментов по формулам п. 3.5.1 было бы весьма громоздким. Формулы D.44) и D.90) показывают, что для нормально распре- распределенной случайной величины все семиинварианты выше второго порядка равны нулю. Следовательно, семиинварианты случайной ве- величины, начиная с третьего порядка, характеризуют отклонение ее распределения от нормального. 4.5.10. Энтропия. Для того чтобы оценить энтропию п-мер- ного нормального распределения, мы подставим выражение плотно- плотности D.78) в B.41). Тогда, опуская индекс п, мы получаем*) Н[Х] = сю I TArl/2[У \Tle] dx = = log у/Bж)»\К\ + /°ge / хТК-1хе-*Тк~lx'2 dx. — сю Для вычисления последнего интеграла используем равенство xTK-1x В результате будем иметь = tr[ /ЛГ / xxTe-xTKlx'2dx] = tx{K~lK) =til = n. l^B)\K\ J J *) Мы принимаем тпх = 0, так как X — тпх имеют одну и ту же энтро- энтропию (п. 2.5.2).
174 Гл. 4- Проекции случайных векторов и их распределения Применяя этот результат, получаем Н[Х] = log у/Bп)п\К\ + \ logе х п = log у/Bъе)п\К\. D.95) Пусть С — класс всех n-мерных непрерывных случайных величин с данной ковариационной матрицей К, а X — нормально распреде- распределенная случайная величина с ковариационной матрицей К, /дг(ж) — ее плотность. Тогда сю Н[Х] = I fN(x)[logy/BK)»\K\ + ±xTK-1xloge] dx = — СЮ [СЮ К'1 [ xxTfN(x)dx . J J — сю Но для любой плотности f(x) класса С сю сю / ххТ f(x) dx = / ххт/n(x) dx = К. — сю —сю Отсюда [сю К-1 J xxTf(x)dx\ = — сю сю = J f(x) [log ^/{2ж)п\К\ + \ xTK~lx\oge] dx = — сю сю = - I f(x)logfN(x)dx. — сю По теореме п. 2.5.4 заключаем, что нормальное распределение яв- является единственным распределением, обладающим максимальной энтропией среди всех распределений непрерывных случайных величин с одной и той же ковариационной матрицей. 4.6. Информация, содержащаяся в случайных величинах 4.6.1. Средняя условная энтропия. Для измерения неопреде- неопределенности случайной величины X после наблюдения случайной ве- величины Y естественно заменить в B.54) плотность fi(x) соответст- соответствующей условной плотностью fi(x\y). На основании определения математического ожидания (п. 3.1.2) формулу B.54) можно перепи- переписать также в виде Н[Х] = —M[log/(X)]. Тогда мы получим условную
4-6. Информация, содержащаяся в случайных величинах 175 энтропию величины X при данном значении у случайной величи- ны Y, так как Н[Х \ у] = -M[logh{X \ у) \ у). Для того чтобы найти условную энтропию до того, как был про- проведен опыт, мы используем среднюю условную энтропию случайной величины X относительно случайной величины У, т.е. математиче- математическое ожидание условной энтропии MiJ[X|F], рассматриваемое как функция случайной величины Y. Таким образом, средняя условная энтропия случайной величины X относительно случайной величи- величины Y определяется формулой сю сю НУ[Х] = -Mlog/i(X|r) = - I I f (х, у) logh(x\ у) dxdy. D.96) — сю —сю Докажем теорему о том, что средняя условная энтропия случай- случайной величины X относительно случайной величины Y не может превышать энтропию случайной величииы X и равна ей тогда и только тогда, когда случайные величины X uY являются независи- независимыми. > Из B.54) и D.96), используя теорему умножения плотнос- плотностей D.23) и неравенство B.42), находим fi(X\Y) bfi(X)f2(Y) поскольку функция fi(x)f2(y) представляет собой плотность. Это ра- равенство справедливо тогда и только тогда, когда fi(x)f2(y) = /(ж,у), т.е. случайные величины X и Y являются независимыми. <\ Мы доказали теорему, предполагая, что случайные величины X, Y и [ХТ YT]T являются непрерывными. Эта теорема и все другие по- положения в остальной части главы так же, как и неравенство B.55), являются справедливыми для дискретных случайных величин при ис- использовании B.53) вместо B.54). 4.6.2. Теорема сложения энтропии. Теперь установим основ- основные свойства энтропии, точнее, теоремы сложения. D> Применяя теорему умножения плотностей D.23), мы находим энтропию совместного распределения случайных величин X и Y: H[X,Y] = -Мlog f(X,Y) = -Мlog fr(X) - Мlog f2(Y\X) = = H[X] + HX[Y]. Отсюда по симметрии также имеем H[X,Y}=H[Y}+Hy[X].
176 Гл. 4- Проекции случайных векторов и их распределения Тогда H[X,Y] = Н[Х] + HX[Y] = H[Y] + НУ[Х]. < D.97) Таким образом, мы доказали, что энтропия совместного распре- распределения двух случайных величин равна сумме энтропии одной из них и средней условной энтропии другой. По индукции для любых случайных величин Х\,..., Хп получаем из D.97) следующее выражение для энтропии совместного распреде- распределения величин Х\,..., Хп: Н[Хи.. .,Хп] = ЩХ,] + НХ1[Х2] + ... + НХ1,...,Хп_1[Хп]. D.98) Если случайные величины Xi,...,Xn являются независимыми, то формула D.98) дает #[ХЬ...,ХП] = ]Г#[Х,]. D.99) k=i Таким образом, энтропия совместного распределения независи- независимых случайных величин равна сумме их энтропии. 4.6.3. Информация о случайной величине, находящейся в другой случайной величине. При наблюдении случайной величи- величины мы получаем некоторую информацию о других случайных вели- величинах, зависящих от Y. Естественно измерять информацию о случай- случайной величине X, заданной по наблюдениям величины У, с помощью разницы между энтропией величины X и ее условной энтропией от- относительно величины Y (т.е. остаточной энтропией, которая остается в X после наблюдения величины Y). Таким образом, количество информации о случайной величине X, содержащееся в другой случайной величине У, определяется следую- следующей формулой: 1У[Х]=Н[Х]-НУ[Х]. D.100) Теорема п. 4.6.1 подразумевает, что количество информации 1У[Х\ не может быть отрицательным и равно нулю тогда и только то- тогда, когда случайные величины X uY являются независимыми. Эта теорема согласуется с нашими интуитивными предположениями о за- зависимости, независимости и информации. \> Подставляя B.41) и D.96) в D.100) и снова используя теорему умножения плотностей D.23), мы можем переписать D.100) в виде T D.101) Симметрия этого выражения подразумевает, что Iy[X] = IX[Y] = Н[Х] + H[Y] - H[X,Y]. < D.102)
4-6. Информация, содержащаяся в случайных величинах 111 Таким образом, количество информации в случайной величине У о случайной величине X равно количеству информации в случайной величине X о случайной величине У. Формула D.101) определяет качество информации не только для непрерывных случайных величин X и У, но также и для дискретных и дискретно-непрерывных случайных величин, поскольку отношения fi(x | y)/fi(x) и f(x,y)/fi(x) в этих случаях определены. Так, напри- например, для дискретных величин X, У получим log = Xi)p(y = yjy D.103) Пример 4.34. Случайная величина X имеет 16 равновероятных воз- возможных значений, которые разделены на четыре группы, по четыре воз- возможных значения в каждой группе. Во время опыта определяется номер группы, к которой принадлежит появляющееся в результате опыта значе- значение случайной величины X. Требуется определить количество информации о случайной величине X, получаемое в результате опыта. Номер группы, к которой принадлежит появляющееся в результате опыта значение случайной величины X, можно рассматривать как случай- случайную величину У, имеющую четыре равновероятных значения. При каждом данном значении величины Y случайная величина X имеет четыре рав- равновероятных значения, и, следовательно, условная энтропия величины X при каждом данном значении величины У равна log2 4 = 2 бита. Средняя условная энтропия случайной величины X относительно У как математиче- математическое ожидание условной энтропии также равна log2 4 = 2 бита. Безусловная энтропия случайной величины X равна log2 16 = 4 бита. Применяя форму- формулу D.49), находим количество информации о величине X, доставляемое регистрацией значения величины У: 1У[Х] =4-2 = 2 бита. Полученный результат имеет следующий смысл. До рассматриваемого опы- опыта для определения значения случайной величины X необходимо четыре двоичных знака в соответствии с двоичной нумерацией всех возможных значений случайной величины X: 1-я группа 0000 0001 0010 ООН 2-я группа 0100 0101 ОНО 0111 3-я группа 1000 1001 1010 1011 4-я группа 1100 1101 1110 1111 Первые два двоичных знака номера возможного значения величины X можно рассматривать как двоичный номер группы. Вторые два двоичных
178 Гл. 4- Проекции случайных векторов и их распределения знака номера возможного значения величины X можно рассматривать как двоичные номера этого значения в данной группе. После опыта, когда номер группы становится известным, для полного определения значения случай- случайной величины X необходимы два двоичных знака. Приведенный пример наглядно иллюстрирует понятие количества информации. Следует, однако, заметить, что такая простая и нагляд- наглядная иллюстрация получается только в случае равновероятных зна- значений как случайной величины X, так и случайной величины У. В других случаях энтропия случайной величины X и количество ин- информации о величине X, доставляемое наблюдением величины У, не будут выражаться целыми числами, и наглядность примера теряет- теряется. Однако эта потеря наглядности не может считаться существенной, если принять во внимание, что энтропия и количество информации как математические ожидания определяют лишь средние количества двоичных знаков, необходимые для регистрации значений случайной величины и результатов опыта. Пример 4.35. Пусть Z = [X Y]T — нормально распределенный дву- двумерный случайных вектор с невырожденным распределением, Dx и Dy — дисперсии X и У, кху — их ковариация. Тогда согласно C.95) и D.95) Н[Х] = log y/2ireDx, H[Y] = log y/27reDy, Н[Х, Y] = log [2<ireyjDxDy-k*y]. Подстановка в D.102) дает Iy[X] = IX[Y] = \ log D'D< = log -* , z uxUy — кХу VI — v r — коэффициент корреляции случайных величин X и У. Таким образом, для нормально распределенного случайного вектора количество информа- информации об одной из составляющих случайного вектора, получаемое в резуль- результате наблюдения другой составляющей, зависит только от коэффициента корреляции этих двух составляющих. Пример 4.36. Пусть X и У — п- и га-мерные случайные векторы с сов- совместным невырожденным нормальным распределением, Кх,Ку,КХу — их ковариационные и взаимные ковариационные матрицы. Тогда C.95), D.95) и D.102) дают Н[Х] = log y/Bire)»\Kr\, H[Y] = log Iy[X}=Ix[Y]=1-loglKxllKy \KZ\ ' Kz — ковариационная матрица случайного вектора Z — [ХТ YT]T. Пользуясь формулами п. 3.4.8, нетрудно выписать соответствующие вы- выражения в терминах совместных канонических разложений векторов X и У. 4.6.4. Единственность определения энтропии дискретной случайной величины. В п. 2.5.1 мы определили энтропию дискрет- дискретной случайной величины формулой B.44) и, обобщив это определе-
4.6. Информация, содержащаяся в случайных величинах 179 ние на непрерывные случайные величины, вывели основные свойства энтропии, согласующиеся с нашими интуитивными представления- представлениями о неопределенности статистических опытов. Возникает естествен- естественный вопрос: может быть, можно принять за меру неопределенности опытов какую-либо другую характеристику, обладающую теми же свойствам, что и энтропия? Оказывается, что это невозможно. Эн- Энтропия как мера неопределенности опыта с конечным числом воз- возможных исходов однозначно определяется тремя своими основными свойствам: — энтропия является непрерывной функцией вероятностей воз- возможных значений случайной величины; — если рассматривать только случайные величины с равноверо- равновероятными значениями, то энтропия является монотонно возрастающей функцией числа возможных значений случайной величины: — энтропия обладает свойством аддитивности, выражаемым фор- формулами D.98) и D.99). \> Для доказательства рассмотрим сначала Аг независимых случайных величин Xi,... ,Хдг, каждая из которых имеет п равно- равновероятных возможных значений. Так как, согласно второму свойству, энтропия случайной величины с равновероятными возможными зна- значениями является функцией числа возможных значений п, то, обо- обозначив эту функцию через /(га), можем написать H[Xi]=f(n) (i = l,...,N). D.104) Рассмотрим теперь векторную случайную величину, составляющими которой являются величины Xi,...,X/v. Вследствие независимости случайных величин Х±,..., Xn эта векторная случайная величина имеет nN равновероятных возможных значений. Следовательно, ее энтропия, т.е. совместная энтропия случайных величин Xl,...,X/v, равна f(nN): AT H[Xu...,XN] = f(nN). D.105) С другой стороны, на основании третьего свойства энтропии, выра- выражаемого для независимых случайных величин формулой D.99), имеем N Н[Хи.. .,XN] = ]Г tf [Xj = Nf(n). D.106) г=1 Сравнивая D.105) и D.106), получим равенство f(nN) = Nf(n), D.107) справедливое для любых целых положительных п и АГ. Пусть m — произвольное целое положительно число. Тогда су- существует такое целое положительное число /с, что mk <^nN <Cm*+1. D.108)
180 Гл. 4- Проекции случайных векторов и их распределения Вследствие второго свойства энтропии имеем f(mk) sC f(nN) sC f(mk+1), D.109) или, учитывая D.107), kf(m) ^ Nf(n) <С (& + l)/(m). D.110) Отсюда находим С другой стороны, логарифмируя неравенства D.108), получим fclogm ^ iVlogra ^ (к + l)logm. D.113) Эти неравенства вполне аналогичны неравенствам D.110). Поэтому, совершенно так же, как из D.110) были выведены неравенства D.112), из D.113) следует logn_fe 1 log га A TV v J Из D.112) и D.114) вытекает неравенство /(га) log га ^ N' ^Л1Ь) Так как это неравенство справедливо при любом целом Ат > 0, то оно равноценно равенству ¦l^r = =^. D.116) /(га) log га Фиксируя здесь m и рассматривая п как переменную, может перепи- переписать это равенство в виде /(га) = clogn, D.117) где с — постоянная. Рассмотрим теперь случайную величину X, имеющую п возмож- возможных значений, вероятности которых представляют собой рациональ- рациональные числа: Pi = ^i (г = l,...,n), ^Tmi = k. D.118) г=1 Введем вспомогательную случайную величину У, зависимую от X, имеющую 77^ равновероятных возможных значений при X — Х{ (г = 1,..., га). Очевидно, что векторная случайная величина, состав-
4-6. Информация, содержащаяся в случайных величинах 181 ляющими которой являются случайные величины X и У, имеет ш 1 + ... + mjv — & возможных значений, причем все эти значения равновероятны. Применяя для вычисления энтропии векторной слу- случайной величины [X, Y]T и условной энтропии случайной величины Y формулу D.117), будем иметь H[X,Y] = clog/с; H[Y\xi]=c\ogmi (i = 1,... ,n). D.119) Средняя условная энтропия случайной величины Y относительно X будет на основании определения D.96) и формул D.118) и D.119) равна п п HX[Y] = ^2piH[Y\xi] =c^^logmi. D.120) г=1 i=l Энтропия случайной величины X может быть теперь определена на основании третьего свойства из формулы D.97), представляющей со- собой частный случай формулы D.98): п Н[Х] = H[X,Y] - HX[Y] = clogk - cJ2 ^logmi = n n тг . mi г=1 Таким образом, из второго и третьего свойств энтропии следует, что в случае рациональных вероятностей возможных значений слу- случайной величины ее энтропия должна выражаться формулой D.121). А так как энтропия на основании первого свойства является непре- непрерывной функцией вероятностей возможных значений случайной ве- величины, то формула D.121) должна быть справедливой и в случае произвольных вероятностей pi,... ,рп. <\ Итак, мы доказали, что перечисленные в начале п. 4.6.4 три свой- свойства энтропии дискретной случайной величины вполне определяют ее аналитическое выражение с точностью до постоянного множите- множителя. Но вопрос о выборе этого множителя представляет собой по су- существу вопрос о выборе единиц измерения энтропии, или, что одно и то же, основания логарифмов в формуле B.44). Следовательно, фор- формула B.44) дает единственное возможное выражение энтропии пре- прерывной случайной величины, удовлетворяющее перечисленным в на- начале п. 4.6.4 трем свойствам.
Глав а 5 ФУНКЦИИ СЛУЧАЙНЫХ ВЕЛИЧИН 5.1. Моменты функций случайных величин 5.1.1. Точные формулы для первых и вторых моментов. В п. 3.1.3 и п. 3.3.5 мы научились находить первые и вторые моменты линейных функций случайных величин. Для определения этих момен- моментов достаточно знать первые и вторые моменты величин-аргументов и не требуется знать распределения величин-аргументов. Иначе об- обстоит дело с нелинейными функциями случайных величин. \> Предположим, что случайный вектор Y (в общем случае ком- комплексный) представляет собой данную функцию действительного слу- случайного вектора X, имеющего плотность /(ж), Y — ц>(Х). Моменты величины Y можно определить по формуле C.3) для математического ожидания функции случайной величины. Пользуясь этой формулой и представляя векторы в виде матриц-столбцов, на основании опре- определений C.35) получаем т ОО = MY = Mip(X) = Г cp(x)f(x) dx, E.1) Ту = MYY* = M<p{X) <p{X)* = I <p{x) <p(x)*f(x) dx, E.2) — OO Ky = MY°Y°* = M[tp(X) - my}[p(Xy - m*y} = = I [ф) - гпуЫх)* - m*y]f(x) dx. < E.3) — oo Точно так же по формуле C.3) определяется взаимный второй момент и взаимная ковариационная матрица двух случайных век- векторов, представляющих собой данные функции Y — (р(Х), Z — ф(Х) действительного случайного вектора X: оо Yyz = MYZ* = Mip(X) ф(Х)* = J ф) ф(х)*/(х) dx, E.4) — оо оо Kyz = MY°Z°* = J [ф) - ту][ф(х)* - m*z]f(x) dx. E.5)
5.1. Моменты функций случайных величин 183 Формулы E.1)—E.5) применимы и к функциям комплексного слу- случайного вектора. В этом случае под X следует понимать 2п-мерный действительный случайный вектор, координатами которого служат действительные и мнимые части координат n-мерного комплексного случайного вектора-аргумента. В частном случае одномерных векторов Y и Z формулы E.1)—E.5) определяют математические ожидания и моменты второго порядка скалярных функций случайных величин. Формулы E.1)—E.5) показывают, что для определения матема- математических ожиданий и моментов второго порядка нелинейных функ- функций случайных величин необходимо в общем случае знать плотность величин-аргументов. Предлагаем читателю самостоятельно доказать, что в частном случае линейных функций (р(Х) и ф(Х) из формул E.1), E.3) и E.5) вытекают соответственно формулы C.49), C.50) и C.55) для мате- математических ожиданий и ковариационных матриц линейных функций случайного вектора X. Пример 5.1. Шарики для шариковых клапанов изготовляются с ошибками в радиусе, распределенными по нормальному закону с матема- математическим ожиданием го и средним квадратическим отклонением а (конеч- (конечно, су <С го). Найти математическое ожидание и дисперсию площади диа- диаметрального сечения шарика. Площадь S диаметрального сечения шарика выражается через его слу- случайный радиус известной формулой S = 7гЯ2. Следовательно, случайная величина S в данном случае является нелинейной функцией случайной ве- величины R. Поэтому для определения т3 и Ds следует воспользоваться фор- формулами E.1) и E.3). Применяя формулу E.1), будем иметь оо = J Последний интеграл вместе с множителем 1/о"л/2тг представляет собой на- начальный момент второго порядка случайной величины Я, который на осно- основании формулы C.29) равен г2, + сг2. Следовательно, ms = тг(го + сг2). После этого формула E.3) дает оо г> 2 1 f/2 2 2ч2 Г 1 (Г - Г0\2\ Ds=7v —= / г - г0 - сг expj -- ( j \ dr. — оо Вычислив интеграл (что можно сделать, раскрыв скобки под знаком инте- интеграла и путем интегрирования по частям избавившись от четвертой степе- степени г), получим Ds =2тг2сг2Bго+сг2).
184 Гл. 5. Функции случайных величин Пример 5.2. Найти математическое ожидание и дисперсию случай- случайной величины У = Xs - kX, где X — случайная величина, равномерно распределенная на интерва- интервале (—а,а). Плотность величины X в интервале (—а,а) равна 1/Bа), а вне этого интервала равна нулю. Поэтому, применяя формулу E.1), получаем а ту = — f(xs- kx) dx = 0. (I) — a После этого формула E.3) дает } 7 \2, 15а4 - 42/са2 + 35/с2 2 -кх) ** = 105 а' (П) Пример 5.3. В условиях примера 5.2 найти ковариацию случайных величин Y = X3- kX, Z = X3 + IX. Сначала находим по формуле E.1) математическое ожидание случай- случайной величины Z, которое оказывается равным нулю. После этого по фор- формуле E.5) находим 7 1 /\ з 7 w з , , чл 15а4 - 21/са2 + 211а2 - ЗШ 2 yz=Z2aj^X ~ ^ + Х) = 105 п ' 5.1.2. Метод линеаризации. Сложность вычисления матема- математических ожиданий, дисперсий и ковариаций нелинейных функций случайных величин приводит к естественному желанию пожертвовать точностью ради простоты и найти простые приближенные форму- формулы, подобные формулам для моментов линейных функций случайных величин. Для получения таких приближенных формул обычно при- применяют метод линеаризации, который состоит в замене нелинейных функций достаточно близкими к ним линейными функциями. \> Рассмотрим сначала случай скалярной функции скалярной случайной величины X. В этом случае линеаризация нелинейной функции (р(Х) сводится к замене кривой у = (р(х) некоторой прямой у = ах + Ь. Если удастся подобрать прямую, достаточно близкую к кривой в области практически возможных значений случайной ве- величины X (в случае нормального распределения случайной величи- величины X в интервале (тх — Зах,тх + Зсгж), то можно рассчитывать на то, что математическое ожидание и дисперсия соответствующей ли- линейной функции случайной величины X будут близкими к математи- математическому ожиданию и дисперсии нелинейной функции.
5.1. Моменты функций случайных величин 185 Посмотрим теперь, как следует выбрать прямую, заменяющую данную кривую. Так как плотность случайной величины обычно име- имеет большие значения вблизи математического ожидания и меньшие вдали от математического ожидания (возможные значения случайной вели- величины расположены «гуще» около мате- математического ожидания и «реже» вда- вдали от него), то У y=tp(x) более высокой точности приближения прямой к заданной кривой около мате- математического ожидания случайной вели- величины-аргумента, т.е. около точки х — тх. Поэтому наиболее естественным спосо- способом линеаризации для наших целей яв- является замена кривой у = ср(х) отрезком касательной к ней в точке х = тх (рис. 5.1). При такой замене истин- истинная нелинейная зависимость случайной величины Y от X заменяется приближенной линейной зависимостью ><(р(тх)+(р!(гпх)Х°. Рис. 5.1 Y E.6) Само собой разумеется, что для возможности такой замены необхо- необходимо существование производной функции (р(х) в точке х = тх. С аналитической точки зрения замена нелинейной функции (р(х) ли- линейной функцией E.6) равноценна замене приращения функции (р(х) в точке тх ее дифференциалом. Аналогично получаем формулу E.6) в случае векторной функ- функции случайного вектора X, дифференцируемой в точке тх. В этом случае (pf(mx) следует понимать как матрицу частных производных всех координат вектора tp(x) по всем координатам вектора х в точ- точке х = тх: dxi дх2 дхп E.7) CrXn J х=тх Заменив функцию (р(Х) линейной функцией E.6), можно приме- применить для вычисления математического ожидания и ковариационной матрицы случайного вектора Y формулы C.49) и C.50). В результате получим приближенные формулы ту » <р(тх), Ку Кх E.8 Формулы E.8), справедливые как для действительных, так и для комплексных скалярных или векторных случайных величин X и У,
186 Гл. 5. Функции случайных величин позволяют достаточно просто, без сложных вычислений приближен- приближенно определять математические ожидания и моменты второго поряд- порядка любых нелинейных функций случайных величин, непрерывных вместе со своими первыми производными. Эти формулы тем точнее, чем меньше отклоняется функция (р(х) от заменяющей ее линейной функции E.7) в области практически возможных значений величины- аргумента X. Чем сильнее отклоняется функция (р(х) от линейной функции E.7), тем меньше должны быть дисперсии координат векто- вектора X для того, чтобы можно было пользоваться формулами E.8). Ес- Если (р(х) слабо отклоняется от линейной функции (т.е. (р'(х) изменяется медленно с изменением ж), то формулы E.8) могут быть достаточно точными и при больших дисперсиях координат вектора X. Если (р(х) значительно отличается от линейной ((р'(х) изменяется быстро), то формулами E.8) можно пользоваться только при достаточно малых дисперсиях координат вектора X. Пример 5.4. В условиях примера 5.1 найти математическое ожидание и дисперсию площади диаметрального сечения шарика методом линеари- линеаризации. В данном случае S = <p(R) = ttR2 . Поэтому <р'(г) — 2тгг и формулы E.8) дают ms « <p(mr) = (f(r0) = тгго, тл \ г / \ |2 2 \ f / \ |2 2 л 22 Ds и \<р (mr)\ а = \<р (го)\ а = 4тгг0сг . Сравнив эти формулы с точными формулами примера 5.1 видим, что ме- метод линеаризации в данном случае дает хорошую точность, если а2 <С Гд, т.е. если дисперсия радиуса шарика мала по сравнению с квадратом его математического ожидания. Например, при а и 0,1го относительная ошиб- ошибка определения ms методом линеаризации составляет 1%, а относительная ошибка определения дисперсии Ds — 0,5%. Пример 5.5. Решить пример 5.2 методом линеаризации. В данном случае (f(x) = х3 — кх, (р'(х) = Зх2 — к, и формулы E.8) дают тпу = (р(тпх) = <р@) = 0, Dy = \ipf(mx)\2Dx = \<p'@)\2Dx = k2Dx. Вспомнив, что дисперсия случайной величины, равномерно распределен- распределенной на интервале длины 2а, равна а3/3 (пример 3.3), получим окончатель- окончательно Dy и к2а2/3. Сравнив этот результат с точной формулой примера 5.2, видим, что в данном случае метод линеаризации дает хорошую точность, если а2 ^С к. Пример 5.6. Решить пример 5.3 методом линеаризации. В данном случае (р(х) представляет собой двумерный вектор с коорди- координатами (fi(x) = х3 — кх, ч>2(х) = х3 + 1х,
5.2. Функция распределения функции случайного аргумента 187 и вторая формула E.8) дает U у ">VZ I _ . I "М т-к Г 771 \ & J-SX ПиНУ, откуда находим yz I ~ I п I П Г h /1 — i д I ~ i \»4 ki\- \_klDx fDx kyz = -klDx = -^f. Сравнив эту формулу с точной формулой примера 5.3, видим, что в данном случае метод линеаризации дает хорошую точность, если а2 ^С к, I. Пример 5.7. Ролики для подшипников изготовляются с ошибками, приводящими к тому, что каждый ролик представляет собой эллиптиче- эллиптический цилиндр с полуосями го + Х\ и го + Х2 высоты Iq + Хз, где го и Iq — номинальные значения радиуса и высоты ролика, а Х\, Х2, Хз — случайные ошибки производства, представляющие собой координаты нормально рас- распределенного случайного вектора с нулевым математическим ожиданием. Найти математическое ожидание и дисперсию объема ролика. В данном случае V = ^р(Х) = тг(го + Х\)(го + Х2)Aо + Х3), '/_ , _ * dtp д<р д<р , ^ hro/o тгго^о 7гг0], 2 дхз ж=0 и формулы E.8) дают mv и (р(тх) = (р@) = k Dv и [ 1] I кзз 7ГГо1о + 2(к13 + к2зIого В частном случае независимых ошибок Х\,Х2,Хз, к\2 — к\з — к2з — 0 и Dvtt<K2rl[{D1+D2)ll + D3rll где D\ = кц, D2 = &22, D3 — кзз- Пример 5.8. Оценить точность определения математического ожида- ожидания и дисперсии случайной величины У = (р(Х) для случая скалярных X и Y предполагая, что функция <р(х) имеет ограниченную вторую производ- производную в области возможных значений величины X. 5.2. Функция распределения функции случайного аргумента 5.2.1. Общий принцип определения распределений функ- функций. Во многих задачах практики, особенно в математической ста- статистике, необходимо уметь находить распределение функции слу- случайного аргумента. Мы будем решать эту задачу, предполагая все случайные величины, как скалярные, так и векторные, действитель- действительными. Способы нахождения распределения функции Y = (р(Х) слу-
188 Гл. 5. Функции случайных величин У чайной величины X основаны на следующем очевидном положении. Чтобы случайная величина Y попала на множество В, необходимо и достаточно, чтобы величина X попала на множество А в значений ж, которым соответствуют значения функции (р(х), принадлежащие мно- {I у* жеству В, Ав — {х : (р(х) G В} *). ^-^ / На рис. 5.2 это проиллюстриро- S >^ / | вано для скалярных величин X и Y. Поэтому вероятность попада- попадания величины Y = (р(Х) на мно- множество В равна вероятности попа- попадания величины X на множество Ав = {х: (р(х) G В}. 0 7 рис> 5.2 5.2.2. Нахождение функции распределения. В зависимости от того, как выбрать множество В, по- получаются разные способы нахождения распределения величины Y. В частности, если принять В = {Y < у}, вероятность попадания ве- величины X на соответствующее множество Ав = Ау — {х : (р(х) < у} будет представлять собой функцию распределения случайной вели- величины Y — (р(Х). Очевидно, что для возможности определения функции распреде- распределения величины Y — (р(Х) необходимо и достаточно, чтобы функ- функция (р(х) удовлетворяла единственному условию: при любом у должна быть определена вероятность попадания случайной величины X на множество Ау = {х : ip(x) < у}. Такие функции называются измери- измеримыми. Функции, с которыми приходится встречаться в задачах прак- практики, всегда бывают не только измеримыми, но по большей части и непрерывными, а часто и дифференцируемыми. Предположим, что известна плотность fi(x) случайной величи- величины X. Тогда на основании сформулированного принципа функция распределения F2(y) случайной величины Y = (р(Х) определяется формулой Ыу) = f fi(x)dx= J h(x)dx. E.9) Ау ср(х)<у Эта формула справедлива как для скалярных, так и для векторных случайных величин X и Y (включая случаи, когда одна из них ска- скалярная — одномерный вектор, а другая векторная). Пример 5.9. Дана плотность fi(x,y) двумерного случайного век- вектора (X, Y). Найти распределение отношения координат этого векто- вектора Z = Y/X. *) Такое множество Ав называется прообразом множества В (соот- (соответствующим функции (f(x)) и обозначается (р~г(В), Ав = (р~1(В).
5.2. Функция распределения функции случайного аргумента 189 Учитывая, что у/х < z при у < zx, если х > О, и при у > zx, если х < О, находим по формуле E.9) функцию распределения величины Z: оо zx F2(z) = I fi(x,y)dxdy= J dx I fi(x,y)dy+ I dx I fi(x,y)dy. y/xKz — oo zx 0 —oo Дифференцируя эту формулу по z, находим плотность величины Z: оо f2(z)= J \x\Mx,zx)dx. E.10) — оо В частности, в случае круговой симметрии распределения аргументов fi(x, у) = р(х2 + у2) и формула E.10) дает Замена переменных и = x\J\ + z1 приводит эту формулу к виду оо f2(z) = Y^ j up(u2) du. 0 Интеграл здесь представляет собой постоянную, которая легко определяет- определяется из условия равенства единице интеграла от плотности f2 (z) всей области возможных значений отношения Z = Y/X, т.е. от — оо до оо. В итоге полу- получаем распределение Коши (пример 3.6): f2(z) = — —. 7ГA + Z1) Пример 5.10. Распределение n-мерного случайного вектора X задано плотностью fi(x) = р(хТСх), где С — положительно определенная симмет- симметричная матрица. Найти распределение квадратичной формы Y = ХТСХ. По формуле E.9) находим F2(y) = / р(х Cx)dx. Любую симмет- хтСх<у ричную положительно определенную матрицу можно ортогональным пре- преобразованием привести к диагональной форме. Обозначим буквой Л диа- диагональную матрицу, элементами которой служат собственные значения Ai,..., \п матрицы С. Тогда, имея в виду, что определитель ортогонально- ортогонального преобразования равен единице, получим после соответствующей замены переменных F2(y) = / p(uTAu)du. ит Аи<у Положим теперь л/Хи = ра*), где р — скалярная неотрицательная пере- переменная (модуль радиуса-вектора точки в n-мерном пространстве), а а — n-мерный вектор с единичным модулем, ата = 1 (координаты ai,... ,ап вектора а представляют собой направляющие косинусы радиуса-вектора *) \/Л представляет собой диагональную матрицу с элементами л/Xi, ...
190 Гл. 5. Функции случайных величин точки n-мерного пространства). Перейдем от переменных интегрирова- интегрирования ui,..., ип к переменным р, а\,..., an-i • Якобиан преобразования в силу соотношений ир — рар/\/\Р~ и а1а = а\ + ... + а2п — 1 равен «1 Р J = OL2 ч/Аз Otn-1 О О ^= 0 ... А так как и1Аи = ратар = р2, то наш интеграл принимает вид F2(y)= p(p)p dp ... «/ J J OLn V Л\ ... An Интеграл по переменным ai,... ,an-i представляет собой постоянную ве- величину с. Поэтому Дифференцируя эту формулу по г/, находим плотность величины У: Постоянная с определяется из условия ^(оо) = 1. В частном случае нормально распределенного вектора X р(хтСх) = и полученная формула принимает вид Чу) /2 B/) =Рп{у) = ~ уп12-1е-у/2_ 2»/2Г(п/2) У Это распределение, часто встречающееся в математической статистике, на- называется х2 -распределением, так как величина с таким распределением в статистике называется хи-квадрат. Натуральное число п в E.11) назы- называется числом степеней свободы. Сравнение E.11) с B.15) показывает, что х -распределение представляет собой 7"РаспРеДеление с параметра- параметрами к = 1/2, fj, = (n/2) - 1 (пример 2.8). Пример 5.11. Вектор X имеет нормальное распределение с шаровой симметрией в n-мерном пространстве, причем дисперсии всех координат вектора X равны 1. Найти распределение случайной величины Y = ХТАХ, где А — неотрицательно определенная симметричная матрица ранга г < п, обладающая, свойством идемпотентности А2 — А. Матрица А представляет собой матрицу ортогонального проектирова- проектирования на некоторое r-мерное подпространство. А так как проекция нормаль-
5.2. Функция распределения функции случайного аргумента 191 но распределенного вектора на любое подпространство распределена нор- нормально (п. 4.5.8), причем шаровая симметрия распределения при ортого- ортогональном проектировании сохраняется, то на основании результатов приме- примера 5.10 интуитивно ясно, что распределение величины У представляет собой X2-распределение с г степенями свободы. Чтобы строго доказать это, при- приведем матрицу А ортогональным преобразованием к диагональной форме. Так как ранг матрицы А равен г < п, то п — г собственных значений матри- матрицы А будут равны нулю, Ar+i = ... = \п = 0. Пусть (pi,... ,ipn — ортонорми- рованные собственные векторы матрицы А, Ф — п х r-матрица, столбцами которой служат собственные векторы (pi,..., <рг, соответствующие отлич- отличным от нуля собственным значениям Ai,..., Хп, Фо — п х (п — г)-матрица, столбцами которой служат собственные векторы <^r+i, • • •, Рп, соответству- соответствующие нулевому собственному значению, Л — диагональная матрица поряд- порядка г с элементами Ai,..., Аг. Тогда можем написать АФ = ФЛ, АФ0 = 0. Так как по условию А2 = А, то на основании первого из этих соотноше- соотношений А2Ф = ФЛ, а с другой сторовы, А2Ф = А(АФ) = АФА = ФЛ2. Таким образом, Л = Л2, что для диагональной матрицы возможно, только если Л представляет собой единичную матрицу порядка г, Л = 1Г. Таким образом, АФ = Фи матрица А выражается формулой Рассмотрим теперь случайный вектор U = ФтX. Его ковариационная матрица на основании C.50) равна Ки = ФтКХФ = ФТФ, так как по усло- условиям задачи Кх = /. Но ФТФ = 1Г в силу ортонормальности собственных векторов (pi,..., (рп. Поэтому Ки = 1Г. Наконец, UTK~lU = UTU = ХТФФТХ = ХТАХ = У. Таким образом, интересующая нас случайная величина У представляет со- собой квадратичную форму, которая с коэффициентом 1/2 стоит в показателе степени в выражении нормальной плотности r-мерного вектора U. Следова- Следовательно, по доказанному в примере 5.10 величина У имеет %2-распределение с г степенями свободы: Доказать, что и в более общем случае, когда X имеет распределение N@,Kx) (может быть, и вырожденное), случайная величина Y = ХТАХ имеет х2-распределение с г степенями свободы, если матрица В — = Кх AKJ представляет собой матрицу ортогонального проектирования на некоторое r-мерное подпространство (т.е. имеет ранг г и обладает свой- свойством идемпотентности В2 — В). Пример 5.12. В условиях предыдущего примера найти распределение случайной величины У = ХтX — пХт, X = A/гг) ^ Хр. Р=1
192 Гл. 5. Функции случайных величин В данном случае Р=1 где 1- _ 1 п 1 п 1 п 1 1 п 1 п 1 п - ... 1- 1 - п 1 п 1 п - Эта матрица имеет ранг г = п — 1, иА = А. Следовательно, величина Y, согласно результатам примера 5.11, имеет %2-распределение с г = п — 1 сте- степенями свободы: f ( \ _ 1B/) (те —3)/2 -у/2 Пример 5.13. Распределение случайных величин X и Y определяется формулой /i(x, у) = хк12~ху112-\{х + у) 1(х) 1(у), где q(t) — произвольная функция (которая может содержать ^-функции). Найти распределение отношения Z = Y/X. Подставив данное выражение fi(x,y) в E.10), получим /2B) = г = г1'2'1 {к+1)'2- {х{1 + z)) dx. Замена переменных и = хA + z) дает „(fc+O/2-l, (u)) du. Последний интеграл представляет собой постоянную величину. Его мож- можно вычислить из условия нормировки (равенства интеграла от плотности единице). В результате получаем + Q/2) г/2-i/-, /2(г) = Г(*/2)Г(«/2) ^ A + г) 1W- E-12) Подчеркнем, что это распределение не зависит от вида функции q(t). Таким образом, при любой функции q(t) в выражении плотности fi(x,y) распре- распределение отношения Z = Y/X определяется плотностью E.12). Положив, в частности, q(t) — се~1^'2 при соответствующем выборе по- постоянной с, получаем следующий результат: плотность отношения двух независимых случайных величин X и У, имеющих \2-распределения с к и I степенями свободы соответственно, определяется формулой E.12). Пример 5.14. Распределение n-мерного случайного вектора X име- имеет шаровую симметрию, /i(x, у) = р(хТх). Найти распределение случайной
5.2. Функция распределения функции случайного аргумента 193 величины I ~( 77 П """-=?, Х=-Ухк. E.13) По формуле E.9) находим F-2(t) = Jp(xTx)dx, At где множество At определяется формулой (п-1) Выполним такое ортогональное преобразование вектора ж, при котором ве- величина Хл/п переходит в первую координату у\ вектора у. Для этого доста- достаточно, чтобы все элементы первой строки матрицы преобразования А были равны п~1'2. Тогда, имея в виду, что АТ = А, \А\ = 1, получим F2(t)= J p(yTy)dy. Положив у = ра, где рна имеют тот же смысл, что и в примере 5.10, и имея в виду, что якобиан преобразования в данном случае равен (—l)n+ pn~ Join-, получим т) = с I do*. dan.^ где для краткости положено оо Jpn-Ip(p)dp. с = о Выразив в явной форме пределы интегрирования по переменным ai,... ..., an-i, получим F- (t) — f f f da'2 •••dan-1 2 J J J /]_ _ a2 _ 2 Интегрирование по «2, • • •, «n-i производится по п — 2-мерному шару ра- радиуса д/l — af, объем которого пропорционален A — af)(n)/2. При этом подынтегральная функция в центре шара равна A — а\)~1'2. Поэтому ин- интуитивно ясно, что интеграл по переменным «2, • • • ,otn-i пропорционален A — а\)(n~3)/2. Чтобы строго доказать это, достаточно ввести новые пе- переменные интегрирования 02 = аг/д/1 — <^2, • • •, Pn-i = otn-\jyj\ — ol\. То- Тогда, объединив постоянный интеграл по переменным /?2,... ,/5n-i с посто- постоянным множителем с и обозначив новую постоянную буквой а, получим
194 Гл. 5. Функции случайных величин тт I П — 1 Наконец, вводя новую переменную интегрирования г = ац/ ^ приве- дем полученную формулу к виду —гь/2 Л 1 Дифференцируя эту формулу, находим плотность величины Т: П — 1 у Постоянная а легко определяется из условия ^(оо) = 1. Для вычисления интеграла достаточно сделать замену переменных tgip = t/л/п — 1 и при- принять во внимание, что ГA/2) = д/тг. Тогда получим Ч~"/2. E.14) га- 1 Это распределение, часто встречающееся в математической статистике, на- называется распределением Стъюдента или, короче, Т-распределением. Вели- Величина Т, определяемая формулой E.13), называется стъюдентовым отно- отношением*). Число к = п — 1 называется числом степеней свободы [19, 115]. Полезно отметить, что распределение стьюдентова отношения Т не за- зависит от функции р{и). Для любого случайного вектора X, распределение которого обладает шаровой симметрией, случайная величина Т имеет Т- распределение E.14). Пример 5.15. В условиях примера 5.14 найти совместное распределе- распределение случайных величин U = X и S = ХтX — пХ2. По формуле E.9) находим /т р(х х) dx. xTx-nx2<s Выполнив ортогональное преобразование предыдущего примера, получим F2(u,s)= J J ...у p(yTy)dy2...dyn. После замены переменных у2 ~ р/3-2,..., уп — pfin, fi'i + • • • + fin = 1, так же как в предыдущем примере, получим F2(u,s)=c j J pn-2P{yl + p2)dp, -OO 0 где с определяется из условия ^2@0,00) = 1. Доказать, что при любой функции p(v) случайные величины U и S не коррелированы и что они независимы тогда и только тогда, когда p(v) = BnD)-n'2e/(\ *) Стьюдент (Student) — псевдоним английского ученого Госсета (W.S. Gosset).
5.2. Функция распределения функции случайного аргумента 195 Пример 5.16. Показать, что если совместное распределение п-мер- ного вектора X и m-мерного вектора У обладает шаровой симметрией в (п + т)-мерном пространстве, то случайная величина где n m n ^—' ' m ^—-^ имеет Т-распределение cn + m-2 степенями свободы: ¦2. E.16) Пример 5.17. Пусть X — случайная п х m-матрица, m < n, X — матрица-строка, элементами которой служат средние арифметические эле- элементов соответствующие столбцов матрицы X: р Случайная величина Т = ^п(п - 1)XS~1XT, S = ХТХ - пХтХ, E.17) называется обобщенным стьюдентовым отношением. Для любой случай- случайной матрицы X, плотность которой определяется формулой f1(x)=p(tTxCxT), E.18) где р(и) — любая функция (конечно, удовлетворяющая условию, чтобы функция fi(x) была плотностью, возможно, содержащей ^-функции), С — положительно определенная симметричная матрица, a tr A — след матри- матрицы А, случайная величина Т имеет плотность В частном случае при m = 1 это распределение совпадает с распределением абсолютной величины стьюдентова отношения E.13). Пример 5.18. В условиях предыдущего примера найти совместное распределение случайного вектора (матрицы-строки) X и случайной мат- матрицы S. Показать, что они не коррелированы при любой функции р(и) и что они независимы тогда и только тогда, когда р(и) = у/\С\п/B7i)nrn e~v'2. Пример 5.19. Пусть Х\ и Х-2 — случайные матрицы п\ х m и п-2 х m соответственно, Х\ и Х-2 — матрицы-строки, элементами которых служат средние арифметические_^шементов соответствующих столбцов матриц Х\ и Х2, Sk = Xfr Xk — пХ\ Xk (к = 1, 2), Н = Si + &. Показать, что если рас- распределение блочной (щ + П2) х т-матрицы X, Хт = [Х^ Х^], определя-
196 Гл. 5. Функции случайных величин ется формулой E.18), то случайная величина U = >^(п1+п2-2) - _ х2)н.1(хт _ хт2) E.20) у ТЬ\ + П2 имеет плотность E.19), где п = п\ + п-2 — 1. Пример 5.20. Если в условиях примера 5.17 р(и) = у/\С\п/Bтг)™е-и/\ а С = К~1, то плотность матрицы 5 определяется формулой wnm(s) = cnmBm|^|)~(n-1)/2|s|(n-m'/2-1 exp{-i tr*"^} E.21) в области положительно определенных матриц s пространства квадратных матриц порядка га и равна нулю вне этой области. Через \К\ и \s\ в фор- формуле E.21) обозначены соответственно определители матриц К и s, a _ 1 Cnm ~ 7Гт(т-1)/4Г((п _ 1)/2) Г((п - 2)/2) ... Г((п - ш)/2) ' Распределение, определяемое плотностью E.21), называется распреде- распределением Уишарта. Оно играет большую роль в математической статисти- статистике [104, 105]. Пример 5.21. Если в условиях примера 5.15 S' = ХТХ, то отношение определителей матриц S и S\ V = \S\/\S'\, имеет плотность Это /^-распределение с параметрами р = (п — га)/2 и q = га/2 (пример 2.9). Пример 5.22. Функция распределения F\(x) скалярной случайной величины X непрерывна. Найти распределение случайной величины Y = F1(X). При любом у G @,1] событие У = F\(X) < у происходит тогда и только тогда, когда X < х = F^'1(y). Поэтому F2(y) = F1(Fr1(y)) = y при 2/6@,1]. При у ^ 0 событие У = Fi(X) < у невозможно, а при у > 1 — достовер- достоверно. Поэтому F-2(y) = 0 при ^0 и ^2 (у) = 1 при у > 1. Таким образом, при любой непрерывной функции распределения F\(x) случайная величи- величина У = F\(X) распределена равномерно на интервале [0,1]. Предлагаем читателю самостоятельно найти распределение случайной величины У = F\ (X) в случае, когда функция распределения F\ (ж) имеет разрывы. Найти плотность величины X в этом случае. 5.2.3. Приведение случайного вектора к вектору с неза- независимыми координатами. Рассмотрим п-мерный случайный век- вектор X — {Xl, ... ,ХП}, у которого непрерывны функция распределе- распределения Fi(xi) первой координаты и условные функции распределения F2(x2 | xi),... ,Fn(xn |жь ... ,xn_i). Этому условию, в частности, удо- удовлетворяет любой случайный вектор, плотность которого не содержит
5.2. Функция распределения функции случайного аргумента 197 ^-функций. Во многих задачах теории вероятностей и ее приложений оказывается полезным преобразовать случайный вектор так, чтобы в результате получить вектор с независимыми координатами. На основании результатов п. 4.4.5 эта задача легко решается для нормально распределенных векторов применением канонических раз- разложений, в частности разложения по собственным векторам. \> Для преобразования случайного вектора с произвольным рас- распределением, удовлетворяющим поставленным условиям, можно вос- воспользоваться результатом примера 5.20. Введем случайные величины ..., Yn = Fn(Xn Xb...,Xn_!). E.23) Так как F2(x2 \ xi), ..., Fn(xn | х\...., хп-\I рассматриваемые как функции первого аргумента, представляют собой непрерывные функ- функции распределения, то по доказанному в примере 5.22 случайная ве- величина Yi, и все последующие случайные величины Y&, независи- независимо от значений у1,..., yk_x е [0,1] предыдущих величин Yi,..., Yk-i (к — 2,..., п), распределены равномерно на интервале [0,1]. Таким об- образом, условное распределение каждой величины Y& не зависит от значений 2/ь ... ,2/fc-i предшествующих величин. Следовательно, сов- совместная плотность величин Y\,..., Yn равна произведению их плот- плотностей. Отсюда по доказанному в п. 4.2.6 вытекает, что случайные величины Yi,..., Yn независимы. <\ Итак, формулы E.23) решают поставленную задачу — определя- определяют такое преобразование случайного вектора X, в результате которого получается вектор Y с независимыми и вдобавок равномерно распре- распределенными на интервале [0,1] координатами (отсюда следует, что век- вектор Y равномерно распределен в n-мерном кубе со сторонами [0,1] по всем осям). Обратное преобразование, определяемое рекуррентными формулами Хх = Ff1^), Х2 = F-1 (У2 | Хг), ... ..., Xn = F-1(Yn\X1,...,Xn-1), E.24) дает выражение координат вектора X через независимые равномерно распределенные на интервале [0,1] случайные величины Yi,...,Yn. Р> Распространим полученные результаты на случайный вектор X с любой функцией распределения. Если F\(x\) (или F^(xk | xi,... ..., Xk—i)) как функция х^ имеет разрывы, тогда она не имеет значе- значений в соответствующих интервалах и обратные функции F^x(yi) (или F^x{yk | #i,..., Xk-i)) не определены в этих интервалах. Приняв ее за постоянную в каждом из этих интервалов, мы определяем все обрат- обратные функции F~1(y1), F^1(yk\xu...,xk-i) везде в интервале [0,1].
198 Гл. 5. Функции случайных величин Тогда формулы E.24) определят X как функцию случайного векто- вектора У, равномерно распределенного в кубе [0,1]к и E.23) будет служить обратным преобразованием. <\ Теперь мы можем найти такое преобразование случайного векто- вектора X, в результате которого получается случайный вектор Z с незави- независимыми координатами, каждая из которых имеет наперед заданную функцию распределения. > Пусть Gi(zi),...,Gn(zn) — заданные строго возраста- возрастающие функции распределения. Определим координаты векто- вектора Z уравнениями У 1 y=Fk(x\xi,...,xk-i) у/ хк 0 / /y=Gk(z) '-к х, z Gk(Zk)=Yk E.25) Рис. 5.3 где г i,..., i n — случайные ве- величины, определямые форму- формулами E.23). Так как функции Gi,...,Gn по условию строго воз- возрастающие, то формулы E.25) устанавливают взаимно однозначное соответствие между величинами Yi,...,Yn, с одной стороны, и ве- величинами Zi,...,Zn, с другой. Очевидно, что случайные величи- величины Z\,..., Zn независимы как функции независимых случайных ве- величин Yi,...,Yn (п. 4.2.5), и функцией распределения величины Zk служит Gk(zk). Действительно, P(Zk < zk) = P(Gk(Zk) < Gk(zk)) = P(Yk < Gk{zk)) = Gk(zk). < Таким образом, формулы E.23) и E.25) определяют преобразо- преобразование случайного вектора X, в результате которого получается век- вектор Z с независимыми координатами Z\,..., Zn, имеющими задан- заданные функции распределения Gi(zi),..., Gn(zn). Обратное преобразо- преобразование, определяемое рекуррентными формулами ..., Xn = F-l{Gn(Zn)\Xu...,Xn.l), E.26) выражает вектор X через вектор Z с независимыми координатами, имеющими заданные функции распределения. На рис. 5.3 показано соответствие между значениями Xk и Zk случайных величин Xk и Zk- Заметим, что в случае, когда функция распределения одной из величин Х\,..., Хп сохраняет постоянное значение на каком-нибудь интервале, взаимная однозначность соответствия между векторами X и У и векторами X и Z нарушается. В этом случае формулы E.24)
5.3. Плотность функции случайного аргумента 199 и E.25) не определяют значения х вектора X при некоторых значе- значениях у вектора Y. Однако это не существенно, потому что каждый интервал постоянства функции распределения представляет собой множество нулевой вероятности, с которым можно не считаться. Впрочем, можно принять, что в данном случае формулы E.24) и E.25) для соответствующих у определяют весь интервал постоянства функции распределения. 5.3. Плотность функции случайного аргумента 5.3.1. Метод сравнения вероятностей. В п. 5.2.2 мы научи- научились находить функцию распределения функции случайного аргу- аргумента, а затем дифференцированием функции распределения опре- определять плотность, если, конечно, она существует. Однако часто целесообразно непосредственно находить плотность функции случай- случайной величины по данной плотности величины-аргумента. При этом на функцию (р(х) придется наложить дополнительные ограничения, одной ее измеримости в общем случае недостаточно. Мы будем пред- предполагать, что функция (р(х) имеет кусочно непрерывные первые про- производные по всем координатам вектора ж и не постоянна ни на каком множестве значений аргумента ж, имеющем отличную от нуля веро- вероятность. \> Согласно общему принципу п 5.2.1 вероятность попадания слу- случайной величины Y = <р(Х) на любое множество В равна вероятности попадания величины X на прообраз множества В, Ав = {х: (f(x) G ? В}. Выразив эту вероятность через плотность fi(x) случайной ве- величины X, получим P(Y еВ) = Р(*(Х) е В) = Р(Х е Ав) = J fi(x) dx. E.27) Ав С другой стороны, P(YeB) = Jf2(y)dy, E.28) в где /2B/) ~ неизвестная плотность случайной величины Y. Сравнение формул E.27) и E.28) показывает, что для определения /2B/) доста- достаточно заменой переменной преобразовать интеграл E.27) в интеграл, распространенный на область В. Предположим сначала, что векторы X и Y — <р(Х) имеют одну и ту же размерность п и уравнение у — <р(х) при любом у имеет един- единственное решение х в области возможных значений случайной вели- величины X (в области, где плотность f\{x) отлична от нуля). Для это- этого необходимо и достаточно, чтобы якобиан координат вектора (р(х) по координатам вектора х сохранял знак в области, где fi(x) > 0, и
200 Гл. 5. Функции случайных величин ements обращался в нуль только в изолированных точках этой области. На рис. 5.4 дана иллюстрация для случая скалярных X и Y. Сделав в формуле E.27) замену переменных у — (р(х), х — tp~l(y) и приняв во У y+dy У 0 / dx у X У У+dy У у=(р(х) 0 dx Рис. 5.4 внимание, что область интегрирования А в перейдет при этом в В, будем иметь P{Y E.29) где J(y) — якобиан координат вектора х = <р 1(у) по координатам вектора у: dyi dip'1 dyi дср1 х dyn д^рп1 дуп E.30) (производная функции ip 1{у) в случае скалярных X и Y). Срав- Сравнив E.29) с E.28) и приняв во внимание, что обе эти формулы спра- справедливы для любой области В, получаем следующее выражение для плотности случайной величины Y = (р(Х): E.31) Предположим теперь, что размерность т вектора Y = <р(Х) мень- меньше размерности п вектора X, т < п, и уравнение у — (р(х) при всех у имеет единственное решение относительно каких-нибудь т коорди- координат вектора х в области, где fi(x) > 0. Обозначим через х' вектор, образованный этими т координатами, через х" — вектор, образован- образованный п — т оставшимися координатами вектора х. Тогда наше урав- уравнение перепишется в виде у — tp(x', х"). Пусть х' — (р~г(у, х") — реше-
5.3. Плотность функции случайного аргумента 201 ние этого уравнения относительно х!. Сделав в E.27) замену перемен- переменных х' — ip~x (у, ж"), получим совершенно так же, как и в предыдущем случае, СО P(Y eB)= Jdy I fifr^fax")^') \J(y,x")\dx", E.32) В — оо где J(y,x") — якобиан координат вектора х' — ср~1(у,хп) по коорди- координатам вектора у: Сравнив E.32) с E.28), находим плотность случайной величины Y: оо h(y)= J h(v~\y,u),u)\J{y,u)\du. < E.34) — со Замечание 1. Эту формулу можно получить также другим пу- путем. Дополнив вектор Y до n-мерного вектора, добавив к нему коор- координаты Ym+i - Хт+Ь ..., Yn = Хп, приведем задачу к предыдущему случаю. Определив по формуле E.31) совместную плотность векто- векторов Y и X" — {Xm_|_i,... ,ХП}, можем после этого найти плотность вектора Y по формуле D.9) интегрированием по х" по области всех возможных значений случайного вектора X". Замечание 2. Если векторы X и Y — ^р(Х) имеют одинаковые размерности п, а уравнение y — if{x) при каждом у имеет конечное или счетное множество решений относительно х в области возможных значений вектора X, то область интегрирования Ав следует разбить на части, в каждой из которых содержится не больше одного решения этого уравнения, а затем выполнить соответствующую замену пере- переменных в каждом из полученных интегралов. Предоставляем читате- читателю самостоятельно найти плотность случайной величины Y = (р(Х) таким путем. Мы решим здесь эту задачу более удобным для данного случая методом сравнения элементов вероятности (п. 5.3.2). Пример 5.23. В условиях примера 5.13 найти распределение случай- случайной величины F Z. X/k I Так как уравнение / = kz/l при любом I имеет единственное решение z = lf/k, то плотность g(f) величины F можно определить по форму- формуле E.31). Подставив в нее вместо fi(x) выражение плотности /2B) вели- величины Z, получим
202 Гл. 5. Функции случайных величин Это распределение тоже часто встречается в математической статистике и называется F-распределением с I и к степенями свободы. Распределение величины U = In F/2 в частном случае, когда X и У — независимые случай- случайные величины, имеющие %2-распределение соответственно с к и I степенями свободы, было впервые найдено Фишером [112, 113]. Распределение вели- величины F при тех же условиях получено Снедекором [99]. При q(t) = ce~t//2 и соответствующем выборе с из полученного результа- результата следует, что отношение двух независимых величин с \2 -распределением, деленных на соответствующие числа степеней свободы, имеет F-распре- F-распределение с этими числами степеней свободы. Этим и объясняется широкое распространение F-распределения. Интересно отметить, что предельные случаи F-распределения при к = оо и при I — оо представляют собой 7-распределения величин F и F~l соответственно: 1/ е Г(*/2) В предельном случае при к = I = оо /оо,ос(/) = <?(/ — 1). Пример 5.24. В условиях примера 5.17 случайная величина п-тп 2 n{n-m) — 1—г .г = — i = ло А m(n — 1) m независимо от вида функции р(и) имеет F-распределение с т и п — т сте- степенями СВОбоДЫ fm,n-m(f)' Пример 5.25. Если величина F имеет F-распределение fik(f), то ве- величина V = A + lF/k)~l имеет /^-распределение с параметрами р = к/2, q = 1/2 (пример 2.9), а величина W = F(k/l + F)~x имеет /^-распределение с параметрами р — 1/2, q = к/2. Отсюда следует, что если величина V имеет /^-распределение с па- параметрами p,q, то величина F = (k/l)V(l — V)~x имеет F-распределе- ние f2p,2q(f), а величина G = кA — V)/IV имеет F-распределение f2P,2q(g)- Пример 5.26. Найти распределение полярных координат точки на плоскости Я, О, если известна плотность fi(x,y) декартовых коорди- координат X, У. В данном случае R = (pi(X,Y) = л/Х2 + У2, S = (p2(X,Y) = arctg — причем угол О лежит в первой четверти при X > О, У > 0, во второй при X < О, У > 0, в третьей при X < О, У <0 ив четвертой при X > О, У < 0. Уравнения г = ^/х2 + у2, 0 = arctg(у/х) имеют единственное реше- решение х = г cos0, у = r sin в при любых г ^ 0, в Е [0, 2тг). Поэтому, cos 0 —г sin 0 sin 0 г cos в
5.3. Плотность функции случайного аргумента 203 и формула E.31) дает /2(r,0) = r/i(rcos0,rsin0). (I) Отсюда интегрированием по в или по г находим соответственно плот- плотность /з(г) радиуса-вектора R случайной точки и плотность /4@) полярного угла в: /3 (r) = r f f(rcosO,r sin 0) d0, (II) о oo /4(r) = / rf(r cos 0,r sin в) dr. (Ill) 0 В частном случае распределения с круговой симметрией f(x,y) = = /i(x2 + у2) и полученные формулы принимают вид оо /з(г) = 2nrh(r2), /4@) = Jrh(r2)dr. (IV) О Таким образом, в случае круговой симметрии распределения на плос- плоскости полярный угол распределен равномерно в интервале [0, 2тг), и следо- следовательно, Ja(O) = 1/2тг при 0 G [0, 2тг). Впрочем, это ясно и из интуитивных соображений. В случае нормального распределения с круговой симметрией h{u) = = BtvD)~1 exp{—u/BD)} и формула для /з(г) принимает вид г>0. (V) Это распределение называется распределением Рэлея. Аналогично в случае нормального распределения с шаровой симмет- симметрией в трехмерном пространстве получаем для радиуса-вектора R распре- распределение Максвелла /з(г) = л/2/тг1)з Г2 ехр{-~}, г > 0. (VI) Если распределение на плоскости имеет круговую симметрию с цен- центром, смещенным относительно начала координат, то, выбрав соответствен- соответственно оси координат, будем иметь /i(x, у) = h((x — аJ + у2) и 2тг /з(г) = г f h(r2 - 2arcose + a2)d0, (VII) о оо /4(r)= f rh(r2 -2ar cos в + a2) dr. (VIII) о В частном случае нормального распределения /i(n) = BttD)~1 e~ и формула для /з(г) принимает вид 2тг о
204 Гл. 5. Функции случайных величин Интеграл в этой формуле не сводится к элементарным функциям. Его мож- можно выразить через бесселеву функцию тг 2тг т / \ 1 / U COS в in 1 / U COS в in lo(u) = — е аи = — /е сш. тт J 2тг J о о В результате получим {}() (X) Распределение, определяемое этой формулой, называется нецентральным распределением Рэлея. Пример 5.27. Найти плотность случайного вектора Y = АХ + с, если известна плотность вектора X. В случае, когда векторы X и Y имеют одинаковую размерность п и ранг матрицы А равен п, уравнение у = Ах + с имеет единственное решение х = А~х(у — с) и формула E.31) дает где \А\ — определитель матрицы А. В частном случае нормального распределения вектора X (п. 4.5.3) ш и полученная формула дает J ^ \У) //г\ \n I 7/ И Л I 9 i(yT - сТ - ттхАт)А-1ТК-1А-\у - с - Атпх)}. Это нормальное распределение, причем математическое ожидание векто- вектора Y равно тпу — Агпх + с, а его ковариационная матрица равна Ку = = АКХАТ в полном соответствии с формулами C.49) и C.50). Предоставляем читателю самостоятельно рассмотреть случай, когда размерность вектора Y и ранг матрицы А равны m < n, случай, когда раз- размерность вектора Y равна m ^ п, а ранг матрицы А равен г < т, и случай, когда m > п. Доказать, что во всех этих случаях при нормальном распреде- распределении fi(x) распределение /г(у) тоже нормально (является вырожденным нормальным распределением при г < m и при m > п). Таким образом, случайные величины, полученные в результате любых линейных преобразований нормально распределенных случайных величин, распределены нормально. Этот ваэюный результат имеет большое зна- значение для теории вероятностей и ее применений. Отсюда следует, что ко- коэффициенты канонического разложения нормально распределенного слу- случайного вектора, в частности, его разложения по собственным векторам, распределены нормально (имеют совместное нормальное распределение). А так как из некоррелированности координат нормально распределенного случайного вектора следует их независимость, то коэффициенты канони-
5.3. Плотность функции случайного аргумента 205 ческого разложения нормально распределенного случайного вектора всегда независимы. Из результатов этого примера вытекает также следующее обобщение теоремы п. 4.5.6: проекции нормально распределенного случайного вектора на любые подпространства распределены нормально. Пример 5.28. Случайный вектор X распределен нормально, причем ранг г его ковариационной матрицы Кх меньше его размерности п. Найти плотность вектора X. Мы знаем (п. 4.5.6), что в этом случае вектор X имеет вырожден- вырожденное нормальное распределение D.89), которое полностью сосредоточено на r-мерном подпространстве, образованном первыми г собственными векто- векторами матрицы Кх, сдвинутом на вектор гпх (если тх не принадлежит этому r-мерному подпространству). На основании результатов предыдущего при- примера распределение вектора X можно выразить через распределение в этом подпространстве. Пусть Ф — матрица, столбцы которой представляют собой, как и в п. 4.5.6, ортонормированные собственные векторы <^i,..., (рп, матрицы Кх. Эта матрица ортогональна, вследствие чего ее определитель равен единице, |Ф| = 1. На основании результатов предыдущего примера случайные вели- величины Uk = Фк{.Х — тх) (к = 1,..., г) независимы, имеют нулевые матема- математические ожидания и дисперсии, равные соответственно г отличным от пу- пуля собственным значениям Ai,..., Аг матрицы Кх. Поэтому распределение вектора Х° = X — тх в r-мерном подпространстве, образованном собствен- собственными векторами <?>ь ..., (prj определяется плотностью 1 Г „2 V^tt^Ai.-.A,. Случайные величины Uk = ^Г^° (к = г + 1,..., п) имеют нулевые матема- математические ожидания и нулевые дисперсии, вследствие чего они с вероят- вероятностью 1 равны 0. Поэтому их плотности представляют собой ^-функ- ^-функции 6(ик) (к = г + 1,..., п). Следовательно, плотность n-мерного случай- случайного вектора U = [Ui ... Un]T определяется формулой Л(«) = ^f^=^^=^ exP1 ~2 2^ хк t <5("r+1) • ¦ -5Ю- Это вырожденное нормальное распределение в пространстве значений слу- случайного вектора X, в котором за оси координат приняты направления соб- собственных векторов матрицы Кх. Пользуясь формулой E.31), находим плот- плотность случайного вектора X: М) \ Мх) = \ e у/Bтг)гЛ1 ...An t^i х 6((fr+i(x - mx))... S((fl(x - mx)). E.37) Мы получили другую форму вырожденного нормального распределения, отличную от D.89). Предоставляем читателю самостоятельно показать, что в случае г = п формула E.37) совпадает с формулой D.78), определяющей плотность n-мерного нормально распределенного вектора.
206 Гл. 5. Функции случайных величин Пример 5.29. Пусть X и Y — две случайные величины (скалярные или векторные одной и той же размерности) с совместной плотностью fi(x, у). Найти плотность их суммы Z = X + Y. Так как уравнение z = х + у при любом z имеет единственное реше- решение как относительно ж, так и относительно г/, то можно воспользоваться формулой E.34). В результате получим оо ос h(z)= f fi(x,z-x)dx= f /i(z - у,у) dy. E.38) — oo —oo В частном случае независимых слагаемых /i(#,y) = gi(x)g2(y) и oo oo h{z)= j gi(x)g2(z-x)dx= j gi(z - y)g2(y)dy. E.39) — oo —oo Интегралы такого типа называются сверткой функций д\ и д2 и обозна- обозначаются д\ * д2. Таким образом, плотность суммы независимых случайных величин равна свертке плотностей слагаемых, f2 = д\ * д2. Так как сумма неслучайных величин не может быть случайной вели- величиной, а любая неслучайная величина имеет плотность, представляющую собой ^-функцию, то из E.39) следует, что свертка двух ^-функций является ^-функцией: оо " 6(х - a)S(z -x-b)dx = d(z-a- b). E.40) Это свойство ^-функции можно также вывести предельным переходом, с помощью которого ^-функция определена в приложении 1. Из общего результата примера 5.27 следует, что свертка двух нормаль- нормальных распределений представляет собой нормальное распределение. Предла- Предлагаем читателю самостоятельно получить этот результат по формуле E.39). Пример 5.30. Найти плотность суммы двух независимых случайных величин, имеющих х2"РаспРеДеления с к и I степенями свободы соответ- соответственно (пример 5.10, формула E.11)). В данном случае Ql(x) и формула E.39) дает о l(z) о Последний интеграл представляет собой так называемую бета-функцию: -• E-41)
5.3. Плотность функции случайного аргумента 207 Пользуясь этой формулой, получаем (М-0/2-1 -*/2 Таким образом, сумма независимых случайных величин, распределен- распределенных по закону х2, также имеет \2 -распределение с числом степеней сво- свободы, равным сумме чисел степеней свободы слагаемых. Пример 5.31. Найти распределение суммы Z независимых случайных величин X и Y, распределенных по закону Пуассона с параметрами Ли// соответственно. В данном случае = Е Ь е~А<5(ж ~fc)> 92(у) = Е ^ h h=o и формулами E.39) дает с / \ "^"^ ХкLLh -Х-и /з(г)= 2^ * k,h=O fc,/i=0 Собрав вместе слагаемые, соответствующие одинаковым значениям сум- суммы & + h = m, имея в виду, что у. AV =lA m! fe m_fc = Z^ А;! Л-! m! ^ k\(m-k)\ k+h=m k=0 V ' получим m=0 Таким образом, сумма независимых случайных величин, распределен- распределенных по закону Пуассона, также распределена по закону Пуассона с пара- параметром, равным сумме параметров распределений слагаемых. 5.3.2. Метод сравнения элементов вероятности. Метод сравнения элементов вероятности основан на выборе в качестве мно- множества В бесконечно малого элемента dy пространства значений слу- случайной величины Y и нахождении вероятности попадания величи- величины Y = ip(x) в этот элемент. Множитель при dy будет в этом случае искомой плотностью случайной величины Y = ip(x). \> Предположим, что векторы X и Y имеют одинаковую размер- размерность и уравнение у = (р(х) при каждом у имеет множество решений (f^1 (y),i 6 I(у), в области возможных значений величины X (т.е. в об- области, где fi(x) ф 0). На рис. 5.5 задана иллюстрация для случая ска- скалярных величин X и Y (на рис. 5.5, как мы видим, 1(у) = {1, 2, 3,4, 5}, а 1(у') — {1,2,5}). В этом случае элемент вероятности fi{y)dy равен сумме элементов вероятности, соответствующих всем элементам dxi,
208 Гл. 5. Функции случайных величин ag replacements У у' У+dy У 0 / \ d хл d y=V - i к / Ч к Х2 d Ixa d X5 X Рис. 5.5 i G I{y)i пространства значений величины X, объединение которых представляет собой прообраз элемента dy (рис. 5.5): Подставив сюда выражения xi через у, xi = ipi'1 (у), и выражения эле- элементов dxi через dyi, dxi — \Ji(y)\dy, где Ji(y) — якобиан координат вектора Х{ — ^1(у) по координатам вектора у (производная функ- функции (р^ (у) в случае скалярных X и У), получим после сокращения на dy /2B/)= Е h{^\y))\Uy)V < E.42) Метод сравнения элементов вероятности представляет собой со- сокращенную форму следующей последовательности вполне строгих операций: 1) вычисление вероятности попадания величины Y — (р(Х) в бес- бесконечно малый объем Ау ее пространства значений, содержащий дан- данную точку у, с помощью интегральной теоремы о среднем значении; 2) вычисление таким же путем вероятности попадания величи- величины X в объединение элементарных объемов Axi, г G 1(у), ее прост- пространства значений, представляющее собой прообраз Ау, U Axi = ф~ iei(y) 3) приравнивание полученных таким путем вероятностей; 4) нахождение выражений элементарных объемов Axi через Ау; 5) деление полученного равенства на Ау; 6) переход к пределу, когда элементарный объем Ау стягивается в точку у, с попутным доказательством существования предела.
5.3. Плотность функции случайного аргумента 209 \> В случае, когда вектор Y — <р(Х) имеет размерность т < п, а уравнение у — <р(х) не имеет единственного решения относитель- относительно т координат вектора х ни при каком выборе этих коорди- координат, следует дополнить вектор Y до п- мерного добавлением коор- координат Ym+i — Xm+i,..., Yn — Хп, вычислить плотность полученного n-мерного вектора по формуле E.42), а затем интегрированием по вектору и = {ут+1, • • • ? Уп} найти плотность величины Y. В результа- результате получим формулу ОО /2B/)=/ E M<P74v,u),u)\Ji(v,u)\du, E-43) -оо iel(y,u) где (р^1(у,и), г Е 1(у,и), — решения уравнения у — ip(x) относитель- относительно вектора х' — {^i,... ,жт} в области возможных значений величи- величины X, a Ji(y,u) — якобиан координат вектора х\ — (р^1(у,и) по коор- координатам вектора у. < \> Рассмотрим, наконец, случай, когда вектор Y = (р(Х) имеет размерность т > п. В этом случае вектор Y можно представить как совокупность n-мерного вектора Y1 — ip^ (X) и (т — 7?)-мерного векто- вектора Y" — if2(X). При этом разбиении вектора Y (его замене проекция- проекциями на два взаимно дополнительных подпространства) следует вклю- включить в Y' такие координаты вектора F, чтобы уравнение у' — (fi(x) имело единственное решение х в области возможных значений вели- величины X, если, конечно, это возможно при каком-нибудь выборе п из т координат вектора Y. Если это уравнение имеет единственное решение х — (f^1(yf), то плотность случайного вектора Y' можно вы- вычислить по формуле E.31). Что касается вектора Y"', то, подставив в Y" = (р2(Х) выражение X = ip^iY'), получим Y" = ip2(ip-1(Y')). Та- Таким образом, Y" представляет собой вполне определенную функцию случайной величины У;, и, следовательно, условная плотность Y" при данном значении у' величины Y' представляет собой й-функцию 8{у" — ^{^i V{у')))- На основании теоремы умножения плотнос- плотностей D.23) плотность составного случайного вектора Y выразится в этом случае формулой f2(y) = h(Vi4y'))\J{y')\S(y" - V2(Vi\y')))- < E-44) Если уравнение у' = (р± (х) при любом выборе п из т коорди- координат вектора у имеет множество решений (р^(уг), г G 1(уг), в области возможных значений величины X, то вектор Y" при данном значе- значении у' вектора Y' имеет дискретное множество возможных значений (p2((f^l(y')), г Е 1(у'), вероятности которых определяются формулой h(xt)dxj = h^n\y'))\Ji{y)\ Рг Е Mxk)dxk Е h(v(y'))\J(y')\'
210 Гл. 5. случайных величин Следовательно, условная плотность вектора Y" при данном значе- значении у' вектора Y' согласно B.24) равна ? M<pu(v')) Шу'Жу" - МрпЧу'))) Умножив эту условную плотность величины Y" на плотность величи- величины Y', вычисленную по формуле E.42), найдем плотность случайного вектора Y: Е -М<РиШ)- E-45) Пример 5.32. Найти распределение s-й степени случайной величи- величины X, Y = Xs (s — натуральное число). При нечетном s уравнение у = Xs имеет единственное действительное решение х = у1^ при любом у. Поэтому плотность величины Y = Xs можно найти по формуле E.31): При четном s уравнение у — Xs имеет два действительных решения х — — ±y1//s при у ^ 0 и ни одного при у < 0. Поэтому для нахождения плот- плотности величины Y — Xs придется применить формулу E.42). В резуль- результате получим У у— cos х /2 (У) = 1 г. В частном случае величины X с плотностью •^ ;~ 2"/2-1Г(п/2) " и У = X2 полученная формула дает *Л.Л_ ЧУ) яп/2-1-у/2 Рис. 5.6 Jzvyy 2-/2Г(п/2) У Таким образом, в этом случае величина Y — X имеет х -распределе- -распределение E.11). Поэтому распределение величины X с такой плотностью fi(x) называется х-распределением. Пример 5.33. Найти плотность случайной величины У = cosX при равномерном распределении величины X в интервале (—тг,тг). В данном случае при каждом значении г/, \у\ < 1, обратная функция имеет две ветви: ^1{у) = arccos г/, <^^г(г/) = — arccos г/ (рис. 5.6). Форму- Формула E.42) дает
5.3. Плотность функции случайного аргумента 211 Распределение вероятностей, определяемое этой формулой, называется рас- распределением арксинуса. Оно характерно для ошибок угломерного прибора с эксцентрично закрепленным по отношению к оси вращения визирного устройства лимбом (диском, на котором нанесена шкала). Пример 5.34. Найти плотность функции У = X2 ~ кХ случайной величины X, равномерно распределенной в интервале @, а), к<а. В данном случае обратная функ- функция имеет две ветви _._ . о у — х —кх/ Pbfrag replacements а — ка ¦ -к2/4 при — к2 /4 < у < 0 и одну только первую ветвь при 0 < у < а2 — ка (рис. 5.7). Поэтому в правой части Рис. 5.7 формулы E.42) будет два слагаемых при — к2/А < у < 0 и одно первое слагаемое при 0 < у < а2 — ка. В резуль- результате получим 2 к2 при - — < у < О, при 0 < у < а — ка. Вне интервала (—к2/4, а2 — ка) /г (у) = 0. Пример 5.35. Пользуясь формулами E.31), E.34)-E.45) показать, что формула C.6) дает для математического ожидания функции Y = <р(Х) случайной величины X то же значение, что и формула C.3): MY = М<р{Х) = = I у/2 (у) с/у. Пример 5.36. С помощью формул этой главы доказать теорему п. 4.2.5: если величины Xi,... ,Хп независимы, то и случайные величины У\ = <pi(Xi),..., Yn = <pi(Xn) независимы при любых функциях <pi,... ,<рп (с помощью формул E.31), E.34)-E.45) это доказывается для дифферен- дифференцируемых функций (pi,..., <рп, а с помощью формулы F.9) — для любых измеримых функций (pi,. .., (рп). Пример 5.37. Если расположить значения п независимых скалярных случайных величин Х\,..., Хп, имеющих одну и ту же функцию распреде- распределения F(x), в порядке возрастания, то г/-е по порядку значение называется v-м нижним значением, а г/-е в порядке убывания называется v-м верх- верхним значением. Найти распределения i/-ro нижнего U и г/-то верхнего V значений.
212 Гл. 5. Функции случайных величин В данном случае проще всего применить метод сравнения элементов ве- вероятности. Вычислим элемент вероятности величины U, соответствующий бесконечно малому интервалу (и, и + du) (т.е. вероятность попадания v-то нижнего значения U в этот интервал). Чтобы величина U попала в интер- интервал [и,и -\- du), необходимо и достаточно, чтобы какие-нибудь г/ — 1 из п величин Х\,..., Хп приняли значения, меньшие чем и, одно значение попа- попало в интервал [и, и + du), а остальные п — v приняли значения, не меньшие чем и + du. Таким образом, мы имеем схему повторения опытов с тремя несовмест- несовместными событиями, образующими полную группу, А\ = {X < и}, Л 2 = {X > > и + du} и Аз = {и ^ X < и + du}, вероятности которых при одном опыте равны соответственно F(u), 1 — F(u) и f{u) du (с точностью до бесконечно малых высших порядков). Поэтому для вычисления искомой вероятности можно применить формулу A.36) для полиномиального распределения при г = 3. Тогда получим h(«) Ли = -(v_ly\n_vy_ F»-\u)[l - F(u)]n-"f(u) du. Эта формула определяет плотность z/-ro нижнего значения U: Точно так же находим плотность z/-ro верхнего значения V: h(v)du = {v _ ^ _ v)i F-»[l - FMr VW- E-47) В частности, при i/ = 1 отсюда получаются форм}шы для плотностей наименьшего и наибольшего значений U = min Х/е, У = max X&: /1(«) = n[l-F(u)]-1/(«), /2(«) = nF-1(«)/(«). E.48) Для нахождения совместной плотности is-ro нижнего и is-ro верхнего значений [/, V при v ^.п/2 достаточно заметить, что для попадания U в интервал (и, u + du), а У в интервал (v,v-\-dv), v > и, необходимо и до- достаточно, чтобы какие-нибудь v — 1 из величин Х\,..., Xn приняли зна- значения, меньшие и, какие-нибудь v — 1 других приняли значения, не мень- меньшие v + dt>, п — 2v попали в интервал [и + du, v), одно попало в интервал [и, и + du) и одно в интервал [v,v-\-dv). Таким образом, задача сводится к схеме повторения опытов с пятью событиями, вероятности которых рав- равны F(u), 1 — F(v), F(v) — F(u), f(u) du, f(v) dv. Пользуясь формулой A.36) при г = 5, получаем после сокращения на dudv следующее выражение для совместной плотности и-то нижнего и z/-ro верхнего значений U, V: х [F(v) - F(u)]n-2"[1 - F(u)r-7(«)/(w) 1(« - «)• E-49) Последний множитель l(v — и) добавлен потому, что событие V < U при v ^ п/2 невозможно, вследствие чего f(u, v) = 0 при v < и.
5.3. Плотность функции случайного аргумента 213 В частном случае при v — 1 из E.49) получается формула для сов- совместной плотности наименьшего и наибольшего значений U = min Xk, V = max Xk\ /(u, v) = n{n - l)[F(v) - F(u)]n~2f(u)f(v) l(v - u). E.50) Пример 5.38. В условиях предыдущего примера найти распределение разности между i/-m верхним и i/-m нижним значениями S = V — U. Так как уравнение s = v — и при любом s имеет единственное решение v = u + s, то на основании E.34) плотность величины 5 определяется фор- формулой ^ /3(s)= [ f(u,u + s)du. E.51) — схэ Подставив сюда выражение E.49) функции /(и, г>), получим х [F(u + s) - F(u)]n"[l - F(u + s)]"/^)/^ + s) du. E.52) В частном случае при v — 1 отсюда получаем плотность так называе- называемой широты разброса п независимых случайных величин S = max Xk — ^n, Xk (широты выборки в задачах статистики): оо = гг(гг - 1) l(s) J [F(u + s) - F(u)]/(u)/(u + s) ds. E.53) Пример 5.39. Пусть X — случайная величина, равномерно распреде- распределенная в интервале [0,1]. Как мы увидим в п. 8.4.2, любая такая случайная величина может быть представлена в виде случайного двоичного числа: {Vu} — последовательность независимых случайных величин, каждая из которых с вероятностью 1/2 принимает одно из двух возможных значений 0 или 1. Функции величины X сю сю Ух = ^(Х) = ]Г 1^-12-", У2 = J2 tj,=i представляют собой независимые случайные величины, каждая из которых равномерно распределена на интервале [0,1], и, следовательно, случайный вектор Y = {Yi, Уг} равномерно распределен в квадрате [0,1]2. Очевидно, это распределение не является вырожденным. Обобщая эту конструкцию, мы можем определить гг-мерную векторную функцию величины X с неза- независимыми компонентами, равномерно распределенными в интервале [0,1] для любого п.
214 Гл. 5. Функции случайных величин Более того, модифицируя упомянутую конструкцию, мы можем опре- определить несчетное множество независимых случайных величин, каждая из которых равномерно распределена в интервале [0,1]. Объединяя эти результаты с результатами п. 5.2.3, получаем множество случайных векторов любых размерностей с невырожденными распределе- распределениями. 5.3.3. Применение дельта-функции. Еще один метод нахож- нахождения распределений функций случайных величин основан на приме- применении ^-функции. > Если Y = (р(Х), то величина Y при любом значении х вели- величины X имеет единственное возможное значение ip(x), и условная вероятность этого значения при данном х равна 1. Поэтому услов- условная плотность величины Y при X — х представляет собой S-функцию: h(y\x) = 6(у -ч>{х)). Следовательно, совместная плотность величин X и Y — <р(Х) опреде- определяется формулой f(x,y) = fi(x)S(y - ip(x)). Отсюда, выполнив интегрирование по ж в соответствии с D.9), нахо- находим плотность случайной величины Y: ос Ш) = I fi(x)8{y - ф)) dx. < E.54) Эта формула определяет плотность величины Y — ip(X) как в слу- случае скалярных, так и в случае векторных величин X и Y. Она особен- особенно удобна для нахождения плотности функции случайной величины в случаях, когда функция ip(x) имеет постоянные значения в некоторых областях пространства значений величины X, вероятности попадания в которые отличны от нуля. В таких случаях формула E.54) автома- автоматически дает линейную комбинацию соответствующих ^-функций в выражении плотности /2B/), в то время как формулы E.31), E.42)- E.45), так же как и метод сравнения элементов вероятности, оказы- оказываются неприменимыми (следует отметить, что формула E.9) спра- справедлива и в таких случаях). Предоставляем читателю самостоятельно вывести из E.54) фор- формулы E.31), E.42)-E.45), выполнив интегрирование после соответ- соответствующей замены переменных и, если потребуется, разбиения области интегрирования на части. Пример 5.40. Найти распределение выходного сигнала ограничителя (пример 2.15), если дана плотность fi(x) входного сигнала X. В примере 2.15 мы нашли плотность выходного сигнала У, определив сначала его функцию распределения (т.е. применением формулы E.9) к
5.3. Плотность функции случайного аргумента 215 данной частной задаче). Сейчас мы решим эту задачу, пользуясь форму- формулой E.54): а а оо = / /i (х)ё(у + a)dx+ fi (x)S(y - х) dx + / /i (x)S(y - a) dx = — оо —а а a oo = /i (v) + % + a) I h (x) dx + 8(y - a) J /i (x) dx. Пример 5.41. Найти распределение суммы Z независимых случайных величин X и У, распределенных рав- равномерно на К^! соответственно, Ъ > а. У По формуле E.54) находим а Ъ /2B) = — j dx j 5(z - х - у) dy. —a—b a—b 0 Ь—a a+6 x Так как точка 2 — х расположена в ин- интервале (—6, Ь) только при z — х + Ъ > рис 5 g >0,г — х — 6<0, то интеграл по пере- переменной у равен разности единичных ступенчатых функций l(z — х + Ь) — l(z — х — b) и а h(z) = ~ J[l(z - Подынтегральная функция здесь отлична от нуля только при z — b < x < < z + b. Интервал (z — 6, z + b) не пересекается с интервалом интегрирова- интегрирования (—а, а) при z < —а — 6 и при z > а + 6, (z — b. z + Ъ) П (—а, а) = (—a, z + b) при z G (—a — 6, a — 6), (z — 6, 2 + Ь) П (—a, a) = (—а, а) при z G (a — 6, 6 — a), (z — 6, 2 + Ъ) П (—a, a) = (z — 6, а) при z G F — a, a + 6). Поэтому /2B) = 0 при 121 > a + 6, /2 («) = —- (a + 6 + 2) при z G (—a — Ь, а — 6), 4ao 1 26 1 при z G (а — 6, 6 — а), (а + 6 — г) при ? ? F — а, а+ 6). График этой плотности показан на рис. 5.8. 5.3.4. Применение характеристических функций. В неко- некоторых случаях для нахождения распределений функций случайных величин целесообразно применение метода характеристических функ- функций.
216 Гл. 5. Функции случайных величин \> Рассмотрим случайную величину Y = <р(Х), где <р(х) — любая измеримая функция. Согласно определению D.37) характеристиче- характеристическая функция #2 (А) величины Y дается формулой ос д2(Л) = Мехр{гЛтУ} = М exp{iXTcp(X)} = Г ехр{{\Т(р(Х)}^(х) dx, E.55) где Д(ж) — плотность случайной величины X. Определив таким пу- путем характеристическую функцию величины У, можно по формуле D.39) найти ее плотность: ОС Ш) = -щ^ I ехр{гАтуЫА) d\. < E.56) — оо Подставив выражение E.55) в E.56), изменив формально порядок интегрирования и приняв во внимание формулу (П. 1.15) приложе- приложения 1, вновь получим E.54). Пример 5.42. Найти распределение суммы двух независимых вели- величин X и У, распределенных равномерно в интервалах (—а, а) и (—6,6) со- соответственно, а > Ъ. Формулы E.55) и E.56) дают -a -b сю sin Ла sin ЛЬ T, 1 f sin Ла sin ЛЬ cos Xz 1 f -i\z sin Ла sin ЛЬ 1 f = / e ал = / 2тгаЬ У Л тгаЬ J — сю —сю сю- = / [cos(a — 6 + z)X + cos(a — 6 — z)X — 4тгаЬ J о — cos(a + 6 + z)\ — cos(a + 6 — z)X] —. Л Отсюда на основании известной формулы . — cos аи о сю Г- получаем = —- (\а + 6 + z\ + |a + 6 - z\ - \а - b + z\ - \a - 6 - z\). Sab Sab Этот результат совпадает с результатом примера 5.41. Пример 5.43. Координаты случайного вектора X независимы и име- имеют распределение N@,D). Найти совместное распределение величин X и S = ХтX — пХ2, где X — среднее арифметическое координат вектора X.
5.3. Плотность функции случайного аргумента 217 По формуле E.55) находим Замена переменных у = Ах, где А — ортогональная матрица, все элементы первой строки которой равны 1/^/п, дает л/пх = у\, и интеграл преобразу- преобразуется к произведению п интегралов сю g(Ai,A2) = —тг- / ехр< —— B7rD)n/2 J I л/п 2D — сю Пользуясь формулой (П.2.1) приложения 2, получим Отсюда в силу свойств 6) и 3) характеристических функций и формул D.44) и D.45) при /х = (п — 3)/2 и к = 1/2 следует, что величины I и 5 неза- независимы, X имеет распределение ЛГ(О, D/n), a 5/D — х2-распределение с /с = гг — 1 степенями свободы. Пример 5.44. Строки п х m-матрицы Х представляют собой незави- независимые m-мерные векторы, имеющие одно и то же распределение JV(O, .К"), X — матрица-строка, элементами которой служат средние арифметические элементов соответствующих столбцов матрицы X (пример 5.17). Найти сов- совместное распределение величин X и S = ХТX — пХ1 X. По формуле E.55) находим +iti\2S} = сю ЯЛ' +tT\2{xTx-nxTx)- UrxK-'x где Ai — матрица-столбец m х 1, а А2 — симметричная m x т-матрица. Применив ортогональное преобразование предыдущего примера к каждому столбцу матрицы ж, получим где у — матрица-строка 1 х т. Пользуясь формулой (П.2.2) приложения 2,
218 Гл. 5. Функции случайных величин получим окончательно .9(Л1;Л2) = е Отсюда в силу свойств 6) и 3) характеристических функций и D.90) следует, что величины X л S независимы, причем X имеет распределение А7@, К/п), а характеристическая функция величины S определяется формулой 9s(X) = \i- 2iK\\-{n~1)/2. E.57) где Л — симметричная т х m-матрица. Чтобы найти распределение вели- величины S, остается заметить, что gs(X) абсолютно интегрируема, и приме- применить формулу E.56). В результате после довольно громоздких выкладок получим для S распределение Уишарта, определяемое плотностью wnm(s) (пример 5.20) [105]. Пример 5.45. Совершенно так же в условиях примера 5.44 находим распределение величины S' = ХТX: оо 9АХ) = [{2,)Ак\]^ I МШХхТх~ \ **K-lxT}x=\I-2iK\\-"'\ — оо Сравнивая эту формулу с E.57), видим, что величина S' имеет распреде- распределение Уишарта wn+\,m(sf). Пример 5.46. Найти распределение суммы Z независимых случайных величин X и Y с распределениями Коши Ш=1а*+°х-аГ ЫУ^^р + Ь-ьГ A) Используя результат примера 4.31, находим характеристическую функ- функцию Z: д(Х) = gi(X)gi(\) = ехр{гЛ(а + Ъ)-(а + /3)|Л|}. (II) Но (II) представляет собой распределение Коши с параметрами с = а + Ъ и 7 = а -\- /3. Таким образом, сумма независимых случайных величин, рас- распределенных по закону Коши, представляет собой таксисе распределение Коши с параметрами, равными суммам соответствующих параметров. 5.3.5. Метод моментов. Если функция ip(x) ограничена, то для нахождения распределения величины Y — ср(Х) по X данному рас- распределению величины X можно применить метод моментов. По доказанному в п. 4.4.3 распределение ограниченной случайной величины полностью определяется ее моментами. Поэтому в данном случае достаточно вычислить моменты величины Y = <р(Х). Пример 5.47. В условиях примеров 5.44 и 5.45 найти распределение отношения определителей матриц S и S', V = / Заметив, что \S'\ = |5|A + пХХ~1ХТ), E.58)
5.3. Плотность функции случайного аргумента 219 и приняв во внимание положительную определенность матрицы $, прихо- приходим к выводу, что \S'\ ^ \S\ ^0. Таким образом, распределение величины V полностью сосредоточено на интервале [0,1]. Следовательно, распределение величины V полностью определяется ее моментами. Для вычисления моментов величины V выведем сначала формулы для моментов величин \S\ и \Sf\. На основании формулы E.21), определяющей плотность wnm(s) матрицы S, Заметив, что подынтегральная функция, умноженная на представляет собой плотность wn+2r,m(s), получаем M\S\r = Bm\K\y -^S- = B ft Г(+ при любом г > —{п — т)/2. Так как распределение матрицы S' по доказан- доказанному в примере 5.45 определяется плотностью wn+L,m(s'), то для нахожде- нахождения моментов определителя \S'\ достаточно заменить в E.59) п на п + 1. В результате будем иметь mist = BТО|^1Г Cn+1'm = Bта|^1Г П n{ Cn + 2r + l,m fj^ Г((П + 1 %)/2) при любом г > — (п + 1 — га)/2. Перейдем теперь к вычислению моментов величины V = l^l/IS'l. За- Заметив, что в силу E.58) V = A + nXS~1XT)~1, т.е. представляет собой функцию величин 1и5, пользуясь найденной в примере 5.44, совместной плотностью 1и5, можем написать MVr = ^ (-Т/ [[ ^ Is B-IKIW2 W // 'K ' X x exp<— ti К Ls xK 1xT\dxds — _ Cnm ff 1 I |(те + 2т—m)/ B™\K\)n/2V^ JJ \8'r H Г 1 r^-1 1 xexp|--trK s-- Последний интеграл, умноженный на ч-(тг + 2г)/2/тг-т/2 представляет собой M\S'\ r в случае, когда гг заменено на гг + 2г. Следо- Следовательно, для вычисления этой величины достаточно применить форму- формулу E.60), заменив в ней п на п + 2г и г на —г. В результате получим МТ/Г _ cnm cra+2r+i,m _ Г(п/2)Г((п -m)/2 + r) "" cn+2r,m cn+i,m "" Г((п-т)/2)Г(п/2 + г)'
220 Гл. 5. Функции случайных величин Сравнив эту формулу с формулой примера 3.16 для моментов /3-распреде- ления, приходим к выводу, что величина V имеет /3-распределение с пара- параметрами р = (п — га)/2и q = т/2. Этот результат совпадает с результатом примера 5.18. Однако там этот результат был получен для произвольной функции р(и) примера 5.17. Здесь же он получен для частного случая нор- нормального распределения матрицы X. Заметим в заключение, что в силу E.58) величина V связана — с обоб- обобщенным стьюдентовым отношением Т (пример 5.17) зависимостью п — Пользуясь этой зависимостью и найденным распределением величины V, можно легко получить результат примера 5.17 для частного случая нор- нормального распределения матрицы X. 5.4. Предельные теоремы 5.4.1. Простейшая предельная теорема. Метод характери- характеристических функций удобен для нахождения предельных распределе- распределений функций неограниченно возрастающего числа случайных вели- величин. Мы применим его для доказательства простейшей предельной теоремы. Если {Xk} — последовательность независимых величин, имею- имеющих одно и то же распределение с математическим ожиданием т и ковариационной матрицей К, то последовательность распределе- распределений случайных величин Zn = ^=(X° + ... + X°), Xl=Xk-m (n = l,2,...), сходится к нормальному распределению N@,K). \> Пусть д(Х) — характеристическая функция каждой из вели- величин Xk- На основании D.41) и D.42) характеристическая функ- функция дп(Х) величины Z7 определяется формулой Отсюда находим Но на основании D.62) , / Л \ iXTm ХТКХ (\Х\2\ In а —= = —— -==г- + о L-L- . \у/п) л/n л/2п V п )
5.4- Предельные теоремы 221 Подставив это выражение в E.61), получим Отсюда видно, что \пдп(Х) —> — - Хт КХ при п —> ос. Хт Таким образом, дп(Х) стремится к характеристической функции нор- нормального распределения Лг@, К) при каждом Л. Можно доказать, что отсюда следует сходимость последовательности распределений вели- величин Z kN(Q,K) [17, 44]. <\ Доказанная теорема, очевидно, справедлива и в том случае, когда ранг ковариационной матрицы К меньше размерности m величин Xv. В этом случае предельное распределение N@,K) будет вырожден- вырожденным. Пример 5.48. В примере 3.11 было показано, что биномиальное рас- распределение можно рассматривать как распределение суммы независимых величин Х\,..., Хп, каждая из которых имеет два возможных значения О и 1 с вероятностями q = 1 — р и р соответственно. Каждая из этих величин имеет математическое ожидание m = р и дисперсию D = pq. На основании доказанной теоремы распределение случайной величины Zn = -р (X! + ... + Хп - пр) у/П стремится к N@,pq) при п —>- оо (теорема Лапласа). Пример 5.49. Так как среднее арифметическое X независимых оди- одинаково распределенных_случайных величин Х\,..., Хп связано с величи- величиной Zn соотношением X — Zn/^/n + m, то по доказанной теореме величи- величина X распределена асимптотически нормально N(m,K/n). Пример 5.50. В примере 3.13 было показано, что случайный вектор Z^l\ координатами которого служат числа появлений значений х\,..., xn дискретной случайной величины X в одном г-м опыте, имеет математиче- математическое ожидание р = [р\ ... ры ]Г и ковариационную матрицу К — Л — ррт', где pl,...,pn — вероятности значений xi,...,xn соответственно, а Л — диагональная матрица с элементами р\,..., р^. По доказанной теореме слу- случайный вектор где Z —вектор, координатами которого служат числа появлений Z\,..., Zn значений x'i,..., xn при п опытах, распределен асимптотически нормаль- нормально ЛГ(О, Л — ррт). Отсюда следует, что вектор частот Р = [pi ... pN ]T зна- значений Ж1,..., жлг, равный Р = U/у/п + р распределен асимптотически нор- нормально ЛГ(О, (Л — ррт)/п).
222 Гл. 5. Функции случайных величин Рассмотрим теперь случайный вектор V с координатами Vu = Фи -Ри)\/п/ри 0=1,..., АО- Математическое ожидание вектора V равно нулю, а его ковариационная матрица Kv определяется формулой Kv=l- qqT, q = [ sjpi . . . л/piv ]T. Согласно полученному результату распределение вектора V стремится к N(O,KV) при п —> оо. Найдем асимптотическое распределение случайной величины Y = nY{Pv-pvJ =VTV при п —> оо. Для этого воспользуемся последним результатом примера 5.11. В данном случае матрица А представляет собой единичную матрицу поряд- порядка ЛГ, а В — Kv IKj — Kv — 1 — qqT имеет ранг N — 1 и представляет собой матрицу ортогонального проектирования, так как qTq = ХХл/iVJ = = YlVv — 1, следовательно, (ggTJ = q(qTq)qT = qqT и Htf = / - 2qqT + (ggTJ = / - qqT = K,. Согласно последнему результату примера 5.11 величина У = УТУ имеет асимптотическое ^-распределение с N — 1 степенями свободы. Координаты вектора У связаны очевидным скалярным соотношением qTV = 0, вытекающим из равенств ^2 Р» =Y2p» — ^ (напомним, что q — вектор с координатами у/pi,..., у/pn)• Именно поэтому ковариационная матрица вектора V имеет ранг N — 1. Теорема о сходимости распределения величины VTV к \2-распределе- \2-распределению ciV-1 степенями свободы была доказана К. Пирсоном [72, 73]. 5.4.2. Значение предельных теорем. Из доказанной предель- предельной теоремы следует, что распределение сумм случайных величин Х\,..., Хп при достаточно большом п как угодно близко к нормаль- нормальному N(^2mv,nK). Теорема о сходимости последовательности распределений надле- надлежащим образом нормированных сумм центрированных случайных ве- величин к нормальному распределению при весьма общих условиях рас- распространяется на случай независимых величин Xv с различными рас- распределениями, а также на случай зависимых величин Xv [54, 55, 17, 44, 120]. Предельные теоремы образуют обширный раздел современной теории вероятностей. Они объясняют причины широкого распростра- распространения нормального распределения и механизм его формирования. На основании предельных теорем можно утверждать, что во всех случа- случаях, когда случайная величина образуется в результате суммирования большого числа независимых или слабо зависимых случайных вели- величин, дисперсия каждой из которых мала по сравнению с дисперсией суммы, распределение этой величины оказывается практически нор- нормальным.
5.5. Информация, содержащаяся в функциях случайных величин 223 5.5. Информация, содержащаяся в функциях случайных величин 5.5.1. Информация в функциях случайных величин. Пусть 1иУ- случайные величины, Z = ip(X) — функция величины X. Задача состоит в том, чтобы сравнить объемы информации для У, содержащиеся в X и Z. \> Если (р(х) представляет собой взаимно однозначное отображе- отображение области возможных значений величины X в пространстве зна- значений величины X, то согласно E.31) плотность величины Z и ее условная плотность, заданная при Y = у, выражаются через соответ- соответствующие плотности величины X формулой Mz)=f1(V>-1(z))\J(z)\, 93(z\y) = h^-1(z)\y)\J(z)\. Но объем информации в Z для Y определяется в соответствии с фор- формулой D.101) как I IV] - ЛЛое 93{Z'Y) - М log f^W Iy) - lz [Y\ - M log -j-^y- - M log M(p.4z)) - fjXW =1Х\У]. < Таким образом, доказана теорема о том, что все функции величи- величины, X, представляющие собой однозначные отображения в област/а возможных значений величины X в пространство значений величи- величины X, содержат тот эюе объем информации для любой другой слу- случайной величины Y', равной объему информации в X для величины Y. На практике замена случайной величины X некоторой функцией Z — ср(х) представляет собой преобразование сигнала, который наце- нацелен на сокращение данных, т.е. при значительном уменьшении раз- размерности вектора, представляющего данные. Любое такое преобра- преобразование сопровождается ошибками, которые подразумевают, что для любого данного значения х величины X результат преобразования Z представляет собой случайную величину. Возникает вопрос: каково изменение объема информации, вызванное преобразованием случай- случайной величины X? Интуитивно ясно, что объем информации не может быть увеличен преобразованием. Теорема, доказанная ранее показы- показывает, что взаимно однозначное отображение сохраняет объем инфор- информации. Таким образом, вполне естественно заинтересоваться тем, су- существуют ли преобразования, сокращающие размерность величины X и в то же время сохраняющие объем информации. Ответы на эти вопросы будут даны в последующих двух пунктах. Докажем, что ни одно преобразование не может увеличить объем информации. Мы по- покажем, что, имея некоторую предварительную информацию о распре- распределениях, иногда бывает возможным найти функцию наблюдаемой
224 Гл. 5. Функции случайных величин случайной величины, содержащую тот же объем информации, что и у самой наблюдаемой случайной величины, но имеющую значительно меньшую размерность. Классическими примерами таких функций в задачах результатов наблюдений являются достаточные статистики (п. 6.2.2). 5.5.2. Никакое преобразование случайной величины не может увеличить объем информации. Теперь мы оценим изме- изменение объема информации, вызванное заменой наблюдаемой случай- случайной величины другой случайной величиной. D> Пусть Y — изучаемая случайная величина, X — наблюдаемая случайная величина, Z — случайная величина, связанная со случай- случайной величиной X, fs(z\x) — условная плотность величины Z с задан- заданным значением х величины X. Предположим, что для любого значе- значения х величины X случайные величины Y и Z являются независимы- независимыми (т.е. они условно независимы при данном значении х величины X). Это предположение отражает тот факт, что ошибки преобразований являются всегда независимыми от случайной величины У, для кото- которой требуется информация. В таких условиях совместная плотность величин X, Y и Z определяется формулой f(x,y,z) = Мх)Му | x)fs(z | х). E.62) В соответствии с D.101) разница между объемами информации IX[Y] и IZ[Y] выражается формулой Ix[Y}-IZ[Y} = Mlog ^Щ, E.63) где д2^У | z) — условная плотность величины Y с заданным значением величины Z. Используя E.62) и формулы п. 4.2.1, получаем оо / f\{x)f2{y\x)fs{z\x)dx 92(y\z)=--^s . E.64) / fi(x)fs(z\x)dx — оо Формула E.63) может быть переписана в виде оо оо оо IX[Y]-IZ[Y]= I I I f{x,y,z)log^^dxdydz = — оо —оо —оо оо оо = / / h(x)h(z\x)dxdz I f2(y\x) log
5.5. Информация, содержащаяся в функциях случайных величин 225 Согласно B.55) последний интеграл является неотрицательным. То- Тогда IZ[Y] ^ ^с[Х]- Равенство возможно тогда и только тогда, ко- когда #2 (у | х) совпадает с /2 (у \ х). В свою очередь это условие может быть удовлетворено, только если Z представляет собой функцию ве- величин X, Z = (р(Х). <\ Если (р(х) является взаимно однозначным отображением обла- области возможных значений величины X в n-мерном пространстве, то f3(z\x) = S(z — (p(x)), и замена переменных и = ip(x), x — ср~1(х) в формуле E.64) дает оо f Mx)h(y\x)S(z-V(x))dx 92{У I Z) - = \y)) S(z ~ и) \J\ du I h^-\u))&{z-u)\3\du — oo где J — якобиан компонентов функции ср~1(и) по компонентам век- вектора и. Таким образом, IZ(Y) — IX(Y), если ip(x) представляет собой взаимно-однозначное отображение. Так мы получаем еще раз резуль- результат п. 5.5.1. 5.5.3. Достаточные преобразования. Теперь рассмотрим слу- случай, когда размерность функции ip(x) меньше, чем размерность функ- функции у(х). \> Если размерность ср(х) равна г < п, то мы берем такую век- векторную функцию ip(x) размерности п — г, что уравнения ср(х) = z, ф(х) = и имеют единственное решение относительно х в области воз- возможных значений функции X, и вводим вспомогательную случайную величину U — ф(Х). Замечание. Чтобы найти такую функцию ф(х), достаточно взять за и множество криволинейных координат точки на гиперплос- гиперплоскости ip(x) = z. Тогда получаем взаимно однозначное соответствие между значениями х и парами {z.u}. Из E.63) имеем Ix[Y] - IZ[Y] = Mlog fl{X)f3(Z)g3(Y\Z) MX)MY)p(Z\Y) ь fi(X)p(Z\y
226 Гл. 5. Функции случайных величин где p(z | у) — условная плотность величины Z при Y = у. Теперь, так как уравнения ср(х) = z, ф(х) = и имеют единственное решение отно- относительно х в области возможных значений величины X, плотности /i (ж) и Д (х 12/) могут быть выражены через соответствующие плот- плотности случайного вектора [ZT UT]T, Z = ip(X), U = ф(Х). Применяя формулу E.31), имеем Л(аО=/з(*)91(«1*Ш1|. М*\У)=Р(*\У)ЯЫУ,*)Ш, E-66) где z = ц>(х), и = ^(ж), ^i (u\z) — условная плотность величины U при Z = z, q(u\y,z) — условная плотность величины U при Y = у, Z = z, J\ — якобиан компонентов вектора [zT uT]T относительно компонен- компонентов вектора х. Используя E.66), мы преобразуем E.65) в С помощью теоремы умножения плотностей D.23) и формулы D.8) находим совместную плотность величин Y. Z, U h(y,z,u) = f2(y)p(z\y)q(u\y,zL совместную плотность величин Z, U сю h2(z,u)= / f2(y)p(z\y)q(u\y,z)dy — сю и условную плотность величины U при Z — z сю qi(u\z)=f^^ = j^-) f f2(y)p(z\y)q(u\y,z)dy. E.67) — сю Тогда получаем сю сю сю IX[Y]-IZ[Y]= I I I f2(y)p(z\y)q(u\y,z)logq-^^-dydzdu = — сю —сю —сю сю сю h{y) Pi* I У) dy dz I q(u | y, z) log *j$$ du. Принимая во внимание, что f2(y)p(z\y)qi(u\z) представляет собой некоторую плотность и используя неравенство B.55), получаем, что 7.[У] = /Ж[У] тогда и только тогда, когда q(u | у, z) — q-±(u \ z), т.е.
5.5. Информация, содержащаяся в функциях случайных величин 227 если q(u\y,z) является независимой от у: q(u\y,z) — q(u \ z). В этом случае E.67) дает следующее условие: оо qi(u\z) = ^фу J f2(y)p(z\y)dy= |з(^у =q(u\z). — оо Поэтому IZ[Y]=IX\Y]. < Мы называем преобразование Z = ip(X) случайной величины X достаточным преобразованием для У, если для любого другого преобразования U = ф(Х) такого, что уравнения (р(х) = z, ip(x) = z имеют единственное решение относительно х в области возможных значений величины X, а условная плотность случайной величины U — ф(Х) при Y = у, величина Z = z является независимой от у: q(u \y,z) = q(u | z). Таким образом, мы доказали теорему: любое пре- преобразование наблюдаемой случайной величины ведет к потере инфор- информации и только взаимно однозначное отображение и достаточные преобразования сохраняют объем информации. 5.5.4. Энтропия случайных последовательностей. В прак- практических приложениях теории вероятностей большую роль играют неограниченные случайные последовательности. Так, например, пере- передаваемые по телеграфу сообщения представляют собой случайные по- последовательности букв и цифр. Весьма важной характеристикой слу- случайных последовательностей является энтропия, которая определяет некоторые важные асимптотические свойства случайных последова- последовательностей [132,133]. В разд. 5.4 мы уже встречались с последователь- последовательностями случайных величин и, в частности, с последовательностями независимых случайных величин как с простейшим видом случайных последовательностей. Однако для приложений недостаточно рассмат- рассматривать только последовательности независимых случайных величин. В самом деле, легко понять, что вероятность появления той или иной буквы или цифры при передаче очередного знака телеграфного со- сообщения никак нельзя считать совершенно независимой от того, ка- какие буквы или цифры предшествуют данной: например, вероятность появления буквы «а» после буквы «п» довольно велика, в то время как вероятность появления буквы «а» после буквы «ы» практически равна нулю. Во многих случаях оказывается возможным считать слу- случайную последовательность простой целью Маркова. Последователь- Последовательность дискретных случайных величин Xi, X2,..., имеющих одни и те же возможные значения xi,... ,жп, называется простой цепью Мар- Маркова^ если условные вероятности значений х\,..., хп для каждой по- последующей случайной величины Х^ зависят только от значения непо- непосредственно предшествующей случайной величины Xk-i и не зависят от значений, которые принимают другие предшествующие случайные величины Xl, ..., Х&_2. В частности, случайные величины Xi, X2,...
228 Гл. 5. Функции случайных величин могут представлять собой значения одной и той же случайной ве- величины X в ряде опытов. В этом случае говорят, что рассматри- рассматриваемая последовательность опытов представляет собой простую цепь Маркова. Пусть q-Lj — условная вероятность того, что величины Х^ примет значение Xj при условии, что величина Xk-i принимает значение х\ (г, j = 1,... ,гг). Если рассматриваемая последовательность случай- случайных величин представляет собой последовательность значений одной и той же случайной величины в ряде опытов, то qij представляет собой вероятность появления значения Xj случайной величины при условии, что в результате предшествующего опыта она принимает значение х\. Иными словами, q^ есть вероятность перехода от х\ к значению Xj в следующем опыте. Цепь Маркова вполне определяется вероятностя- вероятностями перехода qij (г, j — 1,..., п). Если безусловные вероятности значе- значений х\,..., хп одинаковы для всех случайных величин цепи Маркова, то цепь Маркова называется эргодической. В этом случае безуслов- безусловные вероятности pi,... ,рп значений xi,...,хп вполне определяются вероятностями перехода q^. Понятие цепи Маркова легко обобщает- обобщается на более сложные случаи, когда условные вероятности различных возможных значений каждой последующей величины зависят от зна- значений не одной, а нескольких непосредственно предшествующих ве- величин. В отличие от простых цепей Маркова такие последователь- последовательности называются сложными цепями Маркова. В дальнейшем мы будем рассматривать только эргодические простые цепи Маркова. При этом для простоты будем считать, что рассматриваемая цепь Маркова представляет собой последовательность значений одной слу- случайной величины X в ряде опытов. Энтропией цепи Маркова называется средняя условная энтропия случайной величины X в каждом данном опыте. Согласно определе- определению средней условной энтропии D.96) энтропия цепи Маркова выра- выразится формулой # = - ^PiQij log qij. E.68) D> Для вывода свойств цепи Маркова, определяемых ее энтропи- энтропией, обозначим через Mi число появлений значения х\ величины X (г = 1,.... п), а через Мц — число переходов от значения Xj к значе- значению Xj (г, j = 1,..., п) при N опытах. Согласно закону больших чисел (п. 5.4.1) при достаточно большом числе опытов N для любых поло- положительных е и 5 справедливы неравенства >1-ё (г = 1,...,п), E.69) >1-S (i,j = L...,n). E.70)
5.5. Информация, содержащаяся в функциях случайных величин 229 Mi, N Заметим теперь, что из неравенств ] <е, \MijMi-qijl <е E.71) вытекают неравенства \Мщ - Npiqij\ < Nqije <: Ne, При совместном выполнении обоих неравенств E.72), очевидно, вы- выполняется также неравенство \Mij-Npiqij\ <2Ns. E.73) Невыполнение этого неравенства возможно только в том случае, если не выполняется хотя бы одно из неравенств E.72). Но первое нера- неравенство E.72) может нарушиться только в том случае, если нару- нарушится первое неравенство E.71), а второе неравенство E.72) может нарушиться только в том случае, если нарушится второе неравен- неравенство E.71). Следовательно, для нарушения неравенства E.73) необ- необходимо нарушение хотя бы одного из неравенств E.71). Вероятности невыполнения каждого из неравенств E.71), согласно E.69) и E.70), меньше произвольно малого числа 8, если N достаточно велико. А так как вероятность появления хотя бы одного из нескольких событий не может быть больше суммы вероятностей этих событий, то вероят- вероятность нарушения неравенства E.73) при достаточно большом N будет не больше 26: P(\Mij - Npiqij\ ^ 2Ns) < 28. E.74) Оценим теперь вероятность того, что неравенство E.73) нару- нарушится хотя бы для одной пары значений индексов г, j. Эта вероят- вероятность на основании только что сделанного замечания не больше сум- суммы вероятностей невыполнения неравенства E.73) для всех возмож- возможных пар индексов г, j. Но, по доказанному, вероятность невыполнения неравенства E.73) для каждой данной пары индексов i,j меньше, чем 28, если N достаточно велико. Следовательно, вероятность невы- невыполнения неравенства E.73) хотя бы для одной пары значений г, j меньше, чем п - Npiqij\ ^ 2Ns) < 2п28. E.75) А так как 6 произвольно мало при достаточно большом JV, то нера- неравенство E.73) с вероятностью, сколь угодно близкой к единице, будет выполнено для всех значений г, j, если число опытов ЛГ достаточно велико. <\
230 Гл. 5. Функции случайных величин Доказанное предложение можно написать в виде формулы lim P(\Mij - Npiqij\ <: 2Ne) = 1 (г, j = 1,... ,n). E.76) TV-xx) D> Рассмотрим теперь вероятность появления какой-либо произ- произвольной последовательности значений случайной величины X при N опытах. Эта вероятность, очевидно, равна произведению безусловной вероятности значения, которое величина X принимает в первом опы- опыте, и условных вероятностей значений, появляющихся в последующих опытах. Принимая во внимание, что число переходов от значения xi к значению Xj величины X при N опытах мы обозначили через Mij (i^j = 1,..., п), и обозначая значение величины X в первом опыте че- через хк, получим выражение для вероятности появления произвольной заданной последовательности значений величины X при N опытах: Так как при N опытах могут появиться различные последовательно- последовательности значений величины X, имеющие различные вероятности, то ве- вероятность появляющейся последовательности можно рассматривать как случайную величину. В формуле E.77) это отражено тем, что но- номер К значения величины X в первом опыте и числа переходов Мц являются случайными величинами. Положим Мц = N(piqij + Sij) (i,j = l,..., n). E.78) Подставив выражение E.78) в E.77), получим после логарифми- логарифмирования п - = log N Ч Рк n = bg J- + NH - N T Sij lQg Qij > E-79) PK i% или hlogh = ilogh+H ~ ? Siilogqij- E'80) Подставляя выражение E.78) в неравенство E.73), приведем его к следующему виду: \Sij\ <2e. E.81)
5.5. Информация, содержащаяся в функциях случайных величин 231 Из E.80) следует, что при совместном выполнении неравенства E.73) и равноценных им неравенств E.81) имеет место неравенство E.82) ' Рк fT±i ~ qij V J При достаточно большом N и достаточно малом е правая часть нера- неравенства E.82) будет меньше произвольного числа т] > 0. Правая часть неравенства E.82) может быть сделана сколь угодно малой только в том случае, если ни одна из вероятностей q^ не равна нулю. Если некоторые вероятности q^ равны нулю, то ввиду того, что последо- последовательности с нулевой вероятностью Q нас не интересуют, в произве- произведении в формуле E.77) и соответственно в суммах в формулах E.79), E.80) и E.82) члены с нулевыми вероятностями q^ должны отсут- отсутствовать. В этом случае правая часть неравенства E.82) также может быть сделана сколь угодно малой. Значит, так как при произвольно малом е вероятность совместного выполнения всех неравенств E.75), а следовательно и всех неравенств E.81), согласно E.78), сколь угод- угодно близка к единице, если N достаточно велико, то и вероятность того, что левая часть неравенства E.82) будет меньше произволь- произвольно малого числа ту, сколь угодно близка к единице при достаточно большом N и Таким образом, мы доказали, что при достаточно большом числе опытов N с вероятностью, как угодно близкой к единице, появля- появляется одна из таких последовательностей значений случайной вели- величины X, вероятности которых удовлетворяют неравенствам a-N(H+v)<Q<a-N(H-ri)^ E84) где а — основание логарифмов, г] — произвольное малое число. Доказанное предложение резко ограничивает число практически возможных последовательностей при неограниченном возрастании числа опытов. Найдем соответствующие условия. \> Расположим все возможные последовательности значений ве- величины X при N опытах в порядке убывания их вероятностей и поставим задачу оценить наименьшее число наиболее вероятных по- последовательностей, сумма вероятностей которых не меньше данного числа q, не равного нулю или единице. Обозначим искомое число наиболее вероятных последовательностей через v(q). Так как при достаточно большом N сумма вероятностей последовательностей, вероятности которых не удовлетворяют неравенствам E.84), меньше произвольно малого числа ($, то в число v{q) наиболее вероятных последовательностей войдут все последовательности, вероятности
232 Гл. 5. Функции случайных величин которых больше a~N^H~v\ и некоторое число v\{q) последовательно- последовательностей, вероятности которых удовлетворяют неравенствам E.84). Сле- Следовательно, v(q) — v\{q) + ^2•> гДе и2 — число возможных последова- последовательностей, вероятности которых больше a~N(H~r]). Последователь- Последовательности, вероятности которых меньше a~N(H+v\ очевидно, не войдут в число наиболее вероятных последовательностей, имеющих суммар- суммарную вероятность q, так как по условию q < 1, а сумма вероятно- вероятностей всех последовательностей, вероятности которых удовлетворяют неравенствам E.84), как угодно близка к единице и, следовательно, больше q при достаточно большом N. Таким образом, вероятность каждой из i/(q) наиболее вероятных последовательностей больше, q<l. E.85) Отсюда находим: log v{q) - N(H + rj) < 0 E.86) ^-Я<4. E.87) С другой стороны, так как сумма вероятностей всех последователь- последовательностей, вероятности которых не удовлетворяют неравенствам E.84), меньше произвольно малого числа S, то сумма вероятностей vi(q) последовательностей, вероятности которых удовлетворяют неравен- неравенствам E.84), больше q — 5. А так как вероятность каждой из этих последовательностей меньше a~N(H~r]), то q-S<vi (q)a-N{H-^ < p{q)a-N{H-^ . E.88) Отсюда находим logfa -S)< log v(q) - N(H - г]) E.89) ^8)-,. E.90) Неравенства E.87) и E.90) доказывают, что lim ^ = Н, E.91) так как rj произвольно мало при достаточно большом N. <\ Таким образом, каково бы ни было число q @ < q < 1) и как бы мало ни было положительное число rj, наименьшее число наиболее вероятных последовательностей v(q), имеющих суммарную вероят-
5.5. Информация, содержмщаяся в функциях случайных величин 233 носгпъ, не меньшую чем q, удовлетворяет неравенствам если N дост,ат,очно велико. На первый взгляд может показаться парадоксальным, что чис- число наиболее вероятных последовательностей с общей вероятностью q определяется равенством E.91) независимо от значения q, от кото- которого требуется лишь, чтобы оно не было равно нулю или единице. В действительности ничего парадоксального в этом нет. Если q\ < q^, то числа v{q\) и v{cti) и их разность неограниченно возрастают, но при этом разность v{fti) — v{fh) растет медленнее, чем v{qi) и victi)-, так что у {fix) и v{fti) являются бесконечно большими величинами одного порядка. Пример 5.51. Сообщение передается двоичным кодом. Энтропия по- последовательности на один знак равна 0,75 бит. Найти общее число возмож- возможных реализаций и число практически возможных реализаций последова- последовательности, содержащей 100 знаков. В данном случае N = 100, п = 2, К = 1, Н = Hi — 0,75. Общее число возможных реализаций равно nN = 2100. Чис- Число практически возможных реализаций на основании изложенного равно 2^нг _ 21000,75 __ 2?5 Отношение числа всех возможных реализаций к чис- числу практически возможных равно = 2ZO = 1024z'5 > 30 • 10° Таким образом, в данном случае число практически возможных реализа- реализаций сигнала составляет меньше чем одну тридцатимиллионную долю числа всех возможных реализаций. Для более длинных последовательностей эта доля будет еще значительно меньше. Так, например, для N = 1000 отно- отношение числа всех возможных реализаций к числу практически возможных реализаций больше 1075. Полученный результат имеет чрезвычайно большое значение для прак- практики, так как позволяет резко ограничить число практически возможных реализаций передаваемых сигналов. А именно, доказанное предложение и рассмотренные примеры показывают, что из полного числа nN = 2N log2 a всех возможных реализаций сигнала практически возможно появление лишь 2ЛЯ1 реализаций. При большом N л Hi < Hi max = log2 n число 2NHl составляет лишь ничтожно малую долю числа nN. Таким образом, лишь ни- ничтожно малая доля всех возможных реализаций оказывается практически возможной, а подавляющее число остальных реализаций имеет ничтожно малую суммарную вероятность появления. Зная энтропию последователь- последовательности, можно определить число практически возможных ее реализаций и учитывать в практических расчетах только это относительно небольшое число реализаций, а с подавляющим числом остальных реализаций совер- совершенно не считаться. Пример 5.52. Передача сообщения ведется на русском языке буква- буквами русского алфавита. Энтропия русской речи, приходящаяся в среднем на одну букву, приблизительно равна двум двоичным знакам. Определить
234 Гл. 5. Функции случайных величин число практически возможных сообщений, составленных из 100 букв, и сравнить его с числом всех возможных последовательностей по 100 букв русского алфавита. Так как в русском алфавите 32 буквы (е и ё считают- считаются одинаковыми), то п = 32, N = 100, К = 1, Я = Hi = 2, 2NHl = 2100'2 = = 2200 и N 2200 3240 Таким образом, из всех возможных последовательностей, составленных из 100 русских букв, лишь ничтожно малая доля представляет собой имею- имеющие смысл последовательности русских букв, а остальные являются слу- случайными наборами букв. Это говорит о том, что язык обладает большой избыточностью. Действительно, так как то каждой имеющей смысл последовательности из N букв можно по- поставить в соответствие другую последовательность, составленную из s = = NHi/ \og2 n букв. Иными словами, все имеющие смысл сообщения, со- составленные из N букв, можно закодировать последовательностями, состав- составленными из s букв каждая. При этом все возможные последовательности из s букв будут иметь смысл. Так как для любого европейского языка вели- величина Hi/ log2 п не превышает 0,5, то все имеющие смысл сообщения можно закодировать приблизительно вдвое более короткими последовательностя- последовательностями букв. Это и доказывает, что лишь 50% букв в нашей речи независимы, а остальные практически полностью определяются законами грамматики. Иными словами, наш язык обладает большой избыточностью, и лишь при- приблизительно 50% букв в нем несут информацию. Избыточность языка позволяет практически достоверно расшифровать сообщения с ошибками, заменяя ошибочные буквы правильными. Именно поэтому мы легко обнаруживаем опечатки в тексте и исправляем их. Если бы язык не обладал избыточностью, то каждая ошибочная буква меняла бы смысл написанного, и опечатки было бы невозможно обнаруживать и исправлять. 5.5.5. Кодирование сообщений. Применим изложенные в п. 5.5.4 соображения к задаче кодирования сообщений. Для того что- чтобы закодировать сообщение, необходимо последовательности его зна- знаков поставить в соответствие другую последовательность знаков. Про- Простейшим примером кодирования может служить замена последова- последовательности букв алфавита последовательностями точек и тире азбуки Морзе. Другим примером кодирования может служить сопоставление звукам устной речи последовательностей букв. Кодирование может сопровождаться потерей информации, и только в случае обратимого кода, т.е. кода, допускающего однозначную расшифровку (декодиро- (декодирование), количество информации остается неизменным. Поэтому необ- необходимо всегда стремиться применять обратимые коды. Очевидно, что при кодировании надо стараться по возможности сокращать текст, так как при этом сокращается время передачи со- сообщений и увеличивается скорость передачи информации. В приме-
5.5. Информация, содержащаяся в функциях случайных величин 235 ре 5.52 мы видели, что вследствие избыточности речи можно при кодировании сжать текст в log2 n/H\ раз. При этом обеспечивается взаимно однозначное соответствие между имеющими смысл последо- последовательностями, содержащими по N букв, и всеми возможными по- последовательностями по s — NHi/ \og2n букв, т.е. обеспечивается об- обратимость кода и возможность его однозначной расшифровки. Легко понять, что при сжатии текста больше чем в log2 n/H\ раз код станет необратимым, так как число возможных последовательностей букв будет меньше числа практически возможных сообщений. Однако практическое осуществление кодирования с максималь- максимальным сжатием текста очень затруднительно вследствие практической невозможности перебрать все возможные варианты сообщений раз- различной длительности. Поэтому практически осуществляется кодиро- кодирование не целых сообщений, а отдельных групп знаков. При этом, очевидно, чем чаще встречается данная группа знаков, тем более ко- короткой последовательностью знаков ее следует кодировать. Иными словами, при кодировании следует стремиться к тому, чтобы кодиро- кодировать более короткими последовательностями знаков те группы знаков, которые имеют большую вероятность появления. 5.5.6. Передача информации по каналу с шумами. Сово- Совокупность устройств, с помощью которых некоторое физическое яв- явление используется для передачи информации, называется каналом. Вследствие искажения в канале передаваемых сигналов шумами, неизбежно действующими в канале, каждому принятому сигналу У, вообще говоря, не будет соответствовать один возможный переданный сигнал X. Иными словами, после приема сигнала Y переданный сиг- сигнал X не будет полностью определен, а остается случайным. Неопре- Неопределенность переданного сигнала X будет характеризоваться средней условной энтропией X относительно Y. Поэтому количество инфор- информации о переданном сигнале X, содержащееся в принятом сигнале У, определяется формулой D.100). Количество информации в каждом знаке передаваемого сигнала в зависимости от способа кодирования будет различным. Поэтому ко- количество информации, передаваемое по каналу в единицу времени, будет зависеть от способа кодирования и от числа передаваемых в единицу времени знаков сигнала. Максимальное количество инфор- информации, которое может быть передано по данному каналу в единицу времени, называется пропускной способностью этого канала. Считая, что через Н[Х] и НУ[Х] в D.100) обозначены соответственно энтро- энтропия и средняя условная энтропия сигнала, приходящиеся на единицу времени, pi обозначая пропускную способность канала через С, можем записать сформулированное определение пропускной способности ка- канала в виде С = max{Iy[X]} = гпах{Я[Х] - НУ[Х]}. E.93)
236 Гл. 5. Функции случайных величин Предположим, что информация передается по каналу со ско- скоростью Н = Н[Х], меньшей пропускной способности канала С, и оце- оценим вероятность ошибки при расшифровке принятого сигнала. Для этого обозначим через Я(т) и Щт^ соответственно значения Н[Х] и НУ[Х], при которых достигается максимум в E.93). Тогда E.93) даст С = нМ-Щт\ E.94) На основании доказанного в п.5.5.4 максимальное число практически возможных реализаций переданного сигнала данной длительности Т при том способе кодирования, при котором i?[X] достигает макси- максимального значения Н(т\ равно 2th ™ , а число практически возмож- возможных реализаций сигнала X, соответствующих одной реализации при- принятого сигнала У, при этом равно 2Тну . Иными словами, максималь- максимальное число практически возможных различных последовательностей знаков, каждая из которых может быть передана в течение времени Т по данному каналу, равно 2th m . При этом каждой принятой после- последовательности знаков соответствует 2 у практически возможных переданных последовательностей. Если информация, содержащаяся в сигнале X, передается со ско- скоростью Н бит/с, то число практически возможных реализаций этого сигнала длительности Т равно 2ГН < 21П ™ . Рассмотрим такой спо- способ кодирования, при котором каждой из практически возможных реализаций переданного сигнала сопоставляется одна из 2ТН по- последовательностей знаков, т.е. из общего числа 2th m точек выбира- выбирается 2ТН точек. При этом вероятность того, что данная точка будет занята одной из возможных реализаций передаваемого сигнала, равна 2ТЯ/2ТЯ m — 2~т(н m ~H\ Но вероятность появления хотя бы одно- одного из нескольких событий не может быть больше суммы вероятностей этих событий. Поэтому вероятность того, что при кодировании бу- будет занята хотя бы одна из 2тну точек, соответствующих данной реализации принятого сигнала У, кроме той, которая соответствует действительно переданной реализации сигнала X, будет меньше, чем 2тну • 2~т(н m ~H. Для вероятности ошибки рош при передаче сиг- сигнала X имеем неравенство Рош <^ или, принимая во внимание E.94), Рош ^2-т^с~н\ E.95) При Н < С это выражение стремится к нулю при Т —У оо. Таким обра- образом, мы доказали, что при передаче информации по каналу с пропуск-
5.5. Информация, содержащаяся в функциях случайных величин 237 ной способностью С со скоростью Н < С можно закодировать пере- передаваемый сигнал так, что вероятность ошибки будет сколь угодно мала при достаточно большой длительности передаваемого сигна- сигнала Т. Это предложение представляет собой основную теорему Шен- Шеннона [134]. Более тонкие математические методы дают возможность доказать, что эта теорема верна и при Н = С. Очевидно, однако, что возможность передачи информации по ка- каналу с шумами со сколь угодно малой вероятностью ошибки может быть достигнута лишь ценой запаздывания, необходимого для рас- расшифровки принятого сигнала, так как декодирование можно осуще- осуществить лишь после того, как будет передана вся последовательность знаков сигнала. Рассмотрим теперь случай передачи информации по каналу, имею- имеющему пропускную способность С, со скоростью Н > С. Из E.93) сле- следует, что при любом кодировании Н -Ну <С С, E.96) откуда НУ^Н -С. E.97) Таким образом, при передаче информации по каналу с пропускной способностью С со скоростью Н > С неопределенность в принятом сигнале не Л4ожет быть меньше, чем Н — С бит/с. В этом состоит вторая основная теорема Шеннона [134]. Число практически возможных реализаций переданного сигнала при данном принятом сигнале в этом случае равно 2ТНу1 причем все эти реализации практически одинаково вероятны, и вероятность каж- каждой из них равна 2~1Ну. Следовательно, вероятность выбора действи- действительно переданной реализации из 2ТНу практически возможных ре- реализаций при данном принятом сигнале равна 2~ТНу, а вероятность ошибки равна 1 — 2~ТНу. Отсюда, принимая во внимание E.97), по- получаем для вероятности ошибки следующее неравенство: Рош = 1 - 2-гя» ? 1 - 2-т<я-с'. E.98) Из этого неравенства следует, что вероятность ошибки стремится к единице при Т —У оо, если Н > С. Этот результат показывает, что пе- передача информации со скоростью, превышающей пропускную способ- способность канала, практически невозможна. Пример 5.53. Определить необходимую пропускную способность cs канала с шумом. Обозначим через Dx дисперсию сигнала X, несущего ин- информацию. Если шум V суммируется в канале с сигналом X, то в каждый момент времени У = Х + У E.99) и HX[Y] = H[V]. E.100)
238 Гл. 5. Функции случайных величин Таким образом, средняя условная энтропия принимаемого сигнала Y рав- равна энтропии шума и, следовательно, не зависит от способа кодирования информации. На основании E.99) и E.100) формулу E.93) для пропускной способно- способности канала можно переписать в виде С = тах{Я[Х + V]} - H[V]. E.101) Так как шум V обычно можно считать нормально распределенной слу- случайной величиной в каждый момент времени, то энтропию его значения при данном значении t можно вычислить по формуле C.95) Я! [У] = log2 y/2izeDv. E.102) При этом значения шума, разделенные промежутком времени между дву- двумя последовательно передаваемыми значениями сигнала, можно считать независимыми. Тогда, если в секунду по каналу передается s значений сиг- сигнала X, то энтропия шума в единицу времени будет равна H[V] = з log2 V27reDv. E.103) Для вычисления тах{Я[Х + У]} вспомним, что из всех случайных ве- величин, имеющих одну и ту же дисперсию Dx + Dv, максимальной энтро- энтропией обладают нормально распределенные случайные величины. Поэтому наибольшее количество информации в каждом значении сигнала можно получить, если пользоваться для передачи информации нормально распре- распределенным случайным сигналом. В этом сигнале наибольшая возможная эн- энтропия на один знак сигнала равна тах{Нг[Х + V]} = log2 ^2<7re(Dx +DV). E.104) А так как совместная энтропия нескольких случайных величин не может быть больше суммы их энтропии и равна сумме их энтропии, только когда они независимы, то для получения максимальной энтропии сигнала X + V на единицу времени необходимо пользоваться сигналом X с независимыми значениями. В этом случае при передаче в единицу времени s значений сигнала будем иметь тах{Я[Х + V]} = slog2 y/2ire(Dx + Dv). E.105) Из E.101), E.103) и E.105) следует, что при передаче s значений сигнала в единицу времени максимальное количество информации, которое может быть передано в единицу времени по каналу, равно Cs = max{tf [X + V]} - H[V] = | log2 (l + gl). E.106) Формула E.106) определяет пропускную способность канала.
Глава 6 ОЦЕНИВАНИЕ ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЙ 6.1. Основные задачи математической статистики 6.1.1. Определение статистических характеристик из опы- опыта. Для получения исходных данных для вероятностных расчетов, так же как и для получения исходных данных для любых других практических расчетов, приходится обращаться к опыту. Методы ана- анализа результатов опытов и определения по ним вероятностей событий и характеристик случайных величин дает математическая стати- статистика — обширный раздел современной теории вероятностей. Из нашего подхода к определению основных понятий теории веро- вероятностей в предыдущих главах непосредственно вытекают и способы определения основных статистических характеристик из опыта. Так, мы знаем, что за вероятность события можно принять его частоту при большом числе опытов, за математическое ожидание и диспер- дисперсию случайной величины — выборочное среднее и выборочную дис- дисперсию, за ковариацию и коэффициент корреляции двух случайных величин — выборочные ковариацию и коэффициент корреляции. На- Наконец, плотность случайной величины можно определить как отно- относительную плотность экспериментальных точек в соответствующих интервалах. Однако при этом остается много неясных вопросов. При любом измерении или экспериментальном определении какой-либо ве- величины всегда возникает вопрос о точности определения этой вели- величины. Так и в нашем случае прежде всего возникает вопрос: с какой точностью мы получаем вероятность события, принимая за нее часто- частоту этого события? Что надо сделать, чтобы повысить точность опре- определения вероятности события? Сколько нужно произвести опытов, чтобы получить вероятность события с заданной точностью? Подоб- Подобные вопросы возникают и при определении характеристик случайных величин. Все эти вопросы необходимо уметь решать, чтобы знать, на- насколько можно доверять полученным из опыта данным и основанным на них расчетам, полагаться на них в нашей практической деятель- деятельности. Прежде всего, ясно, что не может быть речи о точном определении вероятности события по конечному числу опытов. Конечно, случайно частота события может оказаться равной его вероятности. Но это ма- маловероятно и обнаружить это совпадение невозможно. Частота собы- события, полученная в результате опытов, практически всегда отличается от его вероятности.
240 Гл. 6. Оценивание параметров распределений Однако и о приближенном в обычном смысле определении вероят- вероятности события по результатам опытов говорить не приходится. Говоря о приближенном определении какой-либо величины, мы обычно под- подразумеваем, что можно указать пределы погрешности, из которых ошибка не выйдет. Частота же события случайна при любом числе опытов из-за случайности результатов отдельных опытов. Так, на- например, если мы будем много раз определять частоту одного и того же события, скажем появления герба, по результатам 100 опытов, то будем получать различные значения частоты этого события. Из-за случайности результатов отдельных опытов частота может довольно значительно отклоняться от вероятности события. Поэтому, опреде- определяя неизвестную вероятность события как частоту этого события при большом числе опытов, мы не можем указать пределы погрешности и гарантировать, что ошибка не выйдет из этих пределов. Из-за случай- случайности результатов опытов полной гарантии, что ошибка не выйдет из любых заданных пределов, быть не может. Поэтому в математической статистике обычно говорят не о приближенных значениях неизвест- неизвестных величин, а об их подходящих значениях, оценках. В дальнейшем мы будем называть все подлежащие определению величины — вероятности событий, числовые характеристики и рас- распределения случайных величин — статистическими характеристи- характеристиками, а найденные по результатам опытов их значения — оценками. Оценив по результатам опытов ту или иную статистическую ха- характеристику, естественно поставить вопрос: насколько согласуется с опытными данными предположение (гипотеза) о том, что неизвест- неизвестная характеристика имеет именно то значение, которое получено в результате ее оценивания? Так возникает второй важный класс задач математической статистики — задачи проверки гипотез. Таким образом, основными задачами математической статистики являются разработка методов нахождения оценок и исследования точ- точности их приближения к оцениваемым характеристикам и разработка методов проверки гипотез. 6.1.2. Виды вероятностной сходимости. В гл. 1 и гл. 3 на основе интуитивных представлений мы пришли к выводу, что при уве- увеличении числа опытов п частоты событий и выборочные средние зна- значений случайных величин должны приближаться к соответствующим вероятностям и математическим ожиданиям. Однако вследствие слу- случайности результатов опытов о сходимости в обычном смысле здесь говорить не приходится. В связи с этим возникает необходимость вве- введения новых понятий сходимости и предела, отличных от принятых в элементарном математическом анализе. Последовательность случайных величин {Sn} называется сходя- сходящейся в среднем квадратическом (с.к. сходящейся) к случайной ве- величине 5, если M\Sn — S\2 —У 0 при п —У оо.
6.1. Основные задачи математической статистики 241 Последовательность случайных величин {Sn} называется сходя- сходящейся по вероятности (п.в.) к случайной величине 5, если при лю- любом е > О P(\Sn - S\ ^ е) -+ 0 при n ^ оо. Последовательность случайных величин {Sn} называется схо- сходящейся почти наверное (п.н.) к случайной величине 5, если P(Sn -»• S) = 1. Эти определения относятся как к скалярным, так и к конечно- конечномерным векторным случайным величинам. В последнем случае \х\ означает модуль (норму) вектора х. Так как любую неслучайную величину можно рассматривать как случайную величину с единственным возможным значением, имею- имеющим вероятность, равную единице, то приведенные определения отно- относятся и к сходимости последовательности случайных величин к неслу- неслучайной величине, в частности к нулю. 6.1.3. Неравенство Чебышева. Связь между разными ви- видами сходимости. Интуитивно ясно, что всякая с.к. сходящаяся по- последовательность сходится к тому же пределу и п.в. Для доказа- доказательства выведем сначала одно важное в теории вероятностей нера- неравенство. \> При произвольных е > 0 и р > 0 для любой случайной величи- величины X (скалярной или векторной) имеем Р(\Х\ > г) — / f(r\flr<— I \т\р f(r\ fir < \x\^e \x\^e — oo Здесь в первом и втором интегралах неравенство под знаком интегра- интеграла означает, что областью интегрирования служит множество всех ж, удовлетворяющих этому неравенству. Таким образом, при любых е > 0 и р > О Это неравенство обычно называется неравенством Чебышева. При практическом применении этого неравенства число р > 0 выбирается так, чтобы было MIX]17 < оо. Применив неравенство F.1) к случайной величине X = Sn — S при р = 2, получаем
242 Гл. 6. Оценивание параметров распределений Отсюда непосредственно следует сходимость п.в. всякой с.к. сходя- сходящейся последовательности. Обратное в общем случае неверно. Чтобы доказать это, достаточно привести соответствующий пример. Пример 6.1. Пусть Sn — случайная величина с плотностью f ( \- 1 П ( -1 9 ^ U[S)~ 7Г 1 + П^2 [n-L,Z,...) (распределение Коши). Так как ? П? P(\Sn\ <s)= [ fn(s)ds = - [ -^ = - arctg(ne) -»• 1 при п —>- оо, то Pd^nl ^ ?) —> 0 при любом ? > 0. Поэтому последователь- последовательность {Sn} сходится п.в. к нулю. Однако M|SVi|2 = оо при любом п (при- (пример 3.6), вследствие чего последовательность {Sn} не сходится с.к. к нулю. Легко сообразить, что и всякая последовательность случайных величин {Sn}, сходящаяся п.н. к S, сходится к S и п.в. О Действительно, из сходимости п.н. {Sn} к S следует, что для любого ? > 0 P(\Sm - S\ ^ ? хотя бы при одном т ^ п) -» 0 при п -» оо. Но P(\Sn — S\ ^ е) ^ P(\Sm - S\ ^ ? хотя бы при одном т ^ п), откуда и следует сходимость п.в. последовательности {Sn} к S. <\ Обратное в общем случае неверно. Пример 6.2*). Пусть Бп — случайная величина с двумя возможны- возможными значениями 0 и 1, вероятности которых равны соответственно 1 — A/п) и 1/п, причем при любых натуральных ni,...,nfc случайные величины БП1, - • • 5 Snk независимы. Последовательность {Sn} сходится п.в. к 0, так как при любом в, 0 < е < 1, P(\Sn\ >e) = P(Sn = 1) = ^ ->0 при п^оо. Однако эта последовательность не сходится п.н. к 0. Действительно, при любом в, 0 < ? < 1, Р(|$т| < ? при всех тп ^ п) ^ ^ P(\Sm\ < е при всех т, п ^ m ^ N) — - Д^гп-Uj- ^ n+l""^-l TV " 7V ' Отсюда в силу произвольности iV следует, что при любом п вероятность Зт\ < ? при всех т ^ п) меньше сколь угодно малого положительного Примеры 6.2 и 6.3 заимствованы из книги Бартлетта [3].
6.1. Основные задачи математической статистики 243 числа. А это и значит, что вероятность сходимости последовательности {Sn} равна 0, т.е. {Sn} не сходится п.н. к нулю. Заметим, что последовательность {Sn} в данном случае с.к. сходится к нулю, так как M|5n|2 = 1/п —> 0 при п —»¦ оо. Таким образом, мы имеем пример последовательности случайных величин, сходящейся п.в. и с.к., но не сходящейся п.н. Пример 6.3. Пусть Sn — случайная величина с двумя возможными значениями 0 и п, вероятности которых равны соответственно 1 — A/п) и 1/п2. Последовательность {Sn} сходится п.в. к нулю, так как при лю- любом е > 0 для всех достаточно больших п P(\Sn\ ^e) = P(Sn = п) = ^2 ->0 при п-^оо. Последовательность {Sn} сходится к 0 и п.н., так как Р(|$га| ^ в ХОТЯ бы при ОДНОМ ГП ^ п) ^ ОС ОС ^ У^ Р(БШ — т) = *) —- —>- 0 при п —>- оо и, следовательно, PdSVnl < е при всех га ^ п) —> 1 при п —»¦ оо, что и дока- доказывает сходимость последовательности {Sn} к нулю с вероятностью 1, т.е. сходимость п.н. Однако последовательность {Sn} не сходится с.к. к нулю, так как M\Sn\2 = 1 при любом п. Пример 6.4. Пусть Sn — случайная величина с возможными значе- значениями 0 и 1, вероятности которых равны соответственно 1 — A/п2) и 1/п2. Показать, что последовательность {Sn} сходится к 0 и п.в., и п.н., и с.к. Приведенные примеры показывают, что последовательность слу- случайных величин может быть сходящейся п. в., но не сходящейся с.к. или п. н., может быть сходящейся п.н., но не сходящейся с.к. и наобо- наоборот. Таким образом, как класс с.к. сходящихся последовательностей, так и класс п.н. сходящихся последовательностей являются подклас- подклассами последовательностей, сходящихся п.в., причем эти два подкласса имеют непустое пересечение. Так как в силу C.29) M\Sn - S\2 = D(Sn - S) + \MSn - MS\\ F.2) то для с.к. сходимости последовательности {Sn} к S необходи- необходима и достаточна сходимость последовательности математических ожиданий {MSn} к MS и сходимость последовательности диспер- дисперсий разностей Sn — S к нулю. Из F.2) следует также, что для с.к. сходимости последовательно- последовательности случайных величин {Sn} к неслучайной величине а необходима и достаточна сходимость последовательности математических ожида- ожиданий {MSn} к а и сходимость последовательности дисперсий {DSn} к нулю. Сходимость по вероятности, сходимость в среднем квадра- тическом и сходимость почти наверное представляют собой особые,
244 Гл. 6. Оценивание параметров распределений вероятностные виды сходимости. В частном случае последователь- последовательности неслучайных величин все эти три вида сходимости совпадают с обычной сходимостью. Таким образом, каждый из трех видов ве- вероятностной сходимости представляет собой естественное обобщение обычного понятия сходимости на случайные величины. 6.2. Оценивание статистических характеристик 6.2.1. Оценки. В математической статистике обычно рассмат- рассматривают только действительные случайные величины. Это не ограни- ограничивает общности, так как любую комплексную случайную величину можно рассматривать как двумерный случайный вектор с действи- действительными координатами. Поэтому везде в этой главе мы будем счи- считать все случайные величины, в том числе и функции случайных ве- величин, действительными. Результаты опытов мы будем везде рассматривать как случайные величины. Поэтому будем обозначать результаты опытов и все функ- функции результатов опытов большими буквами. При практическом при- применении полученных формул следует заменять в них все случайные величины их реализациями, полученными в результате опытов. Любая функция результатов опытов, которая не зависит от неиз- неизвестных статистических характеристик, называется статистикой. Оценкой статистической характеристики в называется статистика, реализация которой, полученная в результате опытов, принимается за неизвестное истинное значение параметра в. Ясно, что не всякая статистика может служить оценкой данной статистической характеристики. Поскольку результаты опытов слу- случайны, любая статистика представляет собой случайную величину. Чтобы статистика могла служить оценкой данной статистической ха- характеристики #, необходимо, чтобы распределение этой статистики было сосредоточено в достаточной близости от неизвестного значе- значения в. так, чтобы вероятность больших отклонений этой статистики от 0 была достаточно мала. Тогда при систематическом многократном применении этой статистики в качестве оценки данной характеристи- характеристики в среднем будет получаться достаточная точность. Вероятность больших отклонений будет мала, и они будут встречаться редко. Же- Желательно еще, чтобы при увеличении числа опытов точность резуль- результатов оценивания увеличивалась. В связи с этим вводят следующие определения, касающиеся оценок. Оценка статистической характеристики в называется состоятель- состоятельной, если она сходится по вероятности к в при неограниченном уве- увеличении числа опытов п. Чтобы оценка характеристики в была состоятельной, достаточно, чтобы ее математическое ожидание стремилось к #, а ее дисперсия
6.2. Оценивание статистических характеристик 245 стремилась к нулю при неограниченном увеличении числа опытов п. Это непосредственно следует из результатов п. 6.1.3. Оценка 0 статистической характеристики в называется несмещен- несмещенной, если ее математическое ожидание равно в при любом числе опы- опытов п. Оценка в характеристики 0 называется смещенной, если ее математическое ожидание не равно в. Разность М0 — в называется смещением оценки 0. Качество оценки часто характеризуют математическим ожидани- ожиданием квадрата модуля отклонения оценки от оцениваемой характери- характеристики (средним квадратом ошибки): В случае несмещенной оценки 0 средний квадрат ошибки 8 представ- представляет собой дисперсию оценки 0 в случае скалярной характеристики в и сумму дисперсий координат оценки 0 в случае векторной характе- характеристики в. Множество чисел J, соответствующих всем оценкам 0 данной ха- характеристики #, при данном числе опытов п, как и всякое множество неотрицательных чисел, имеет точную нижнюю грань So = infM|0-0|2. ё Естественно стремление пользоваться такими оценками, для которых средний квадрат ошибки S или равен Jq, или близок к So. Для нахож- нахождения таких оценок во многих случаях оказывается полезным понятие достаточной статистики. 6.2.2. Достаточные статистики. Статистика 5 (скалярная или векторная) называется достаточной для характеристики 0, если при любом выборе другой статистики Sf (тоже скалярной или векторной), для которой не существует зависимостей вида i/j(S,Sf) — 0, условное распределение статистики Sf при данном значении s статистики S не зависит от в. Иными словами, статистика S достаточна, если знание значений любых других статистик не дает никакой дополнительной информации о в сверх той, которая содержится в S. Если достаточная статистика существует, то она не может быть определена однозначно. > Действительно, предположим, что статистика S достаточна. На основании D.16) условная плотность любой статистики S' при данном значении s величины S определяется формулой
246 Гл. 6. Оценивание параметров распределений где /(s, s' \ 0) —совместная плотность величин S, S', зависящая от па- параметра в, a /i(s|0) — плотность величины 5. Левая часть форму- формулы F.3) не зависит от в вследствие достаточности статистики S. Рас- Рассмотрим любую функцию Si = (f(S) статистики S, такую, что урав- уравнение si — ip(s) имеет единственное решение s — (p~1(si) в области возможных значений величины S. Пользуясь формулой E.31), нахо- находим плотность величины Si и совместную плотность величин Si, S': где J(si) — якобиан координат функции </? 1(si) по координатам век- вектора si. Условная плотность статистики S' при данном значении si статистики Si согласно D.16) определяется формулой Сравнив эту формулу с F.3), получаем Так как правая часть этой формулы не зависит от #, то и левая часть не зависит от в, что и доказывает достаточность статисти- статистики Si = (p(S). < Таким образом, любая статистика, связанная с достаточной статистикой взаимно однозначной зависимостью, тоже доста- достаточна. Докажем, что если совместная плотность результатов опы- опытов Х\,..., Хп может быть представлена в виде д(хи...,хп \в) = /i((/?Oi,...,xn) |<9), то статистика S — (f(Xi,..., Хп) достаточна. \> Пусть S' — ip(Xi,..., Хп) — любая статистика, для которой не существует зависимостей вида x(S, S') — 0. Предположим сначала, что сумма размерностей векторов S и S' равна сумме размерностей векторов Х\_,... ,Хп и что при любых значениях s и s' из областей значений функций ср и ф уравнения (р(хг , . . . , Хп) = S, Ф(Х! ,...,Xn)=s' имеют множество решений {х^ (s,sf), k — 1,..., n}, / G I(s, s'). Тогда совместная плотность величин S и S' определится по формуле E.34): f(8,s'\6)= Yl 9(X«\8,S'),...,X«H8,8')\6)\J,(S,8%
6.2. Оценивание статистических характеристик 247 где \Ji(s,sf)\ — якобиан координат векторных функций х[ (s,s'),... ..., Хп (s, s') по координатам векторов s и s', I Е /(s, s'). Но так как функции xi = x\\s, s'),... , жп = a4 (s, s'), Z?/(s,s'), удов- удовлетворяют уравнениям Следовательно, Отсюда, интегрируя по s;, находим плотность величины S: fl(8\O)=h(8\0)[ Из полученных формул следует, что условная плотность величины Sf при данном s не зависит от в1 что и доказывает достаточность статистики S. Точно так ж:е доказывается достаточность статистики S — = ip(Xi,..., Хп) в случае, когда сумма размерностей векторов 5 и S' не совпадает с суммой размерностей векторов Xl, ..., Хп. <\ Очевидно, что, если s — ip(xi,... ,жп) представляет собой взаим- взаимно однозначное отображение области возможных значений резуль- результатов опытов Xi,...,Хп в n-мерном пространстве, то 5 = ip(Xi,... ..., Хп) является достаточной статистикой. Действительно, в этом случае любая другая статистика S' — ф(Х±,..., Хп) представляет со- собой функцию 5, S' — хE), поскольку уравнение (f(xi,... ,жп) = s имеет единственное решение относительно х\,..., хп в области воз- возможных значений Х\:..., Хп. Следовательно, условная плотность S' при S ~ s является дельта-функцией 6(s' — x(s)) и? значит, не зави- зависит от в. Понятие достаточной статистики тесно связано с понятием до- достаточного преобразования (п. 5.5.3). А именно, статистика S — — ip(Xi,..., Хп) достаточна для в тогда и только тогда, когда функ- функция if представляет собой достаточное преобразование для в.
248 Гл. 6. Оценивание параметров распределений \> В самом деле, если S — (p(Xi,..., Хп) является достаточной статистикой, то по определению функция ip представляет собой достаточное преобразование. Для доказательства обратного утверж- утверждения заметим, что, если S — (f(Xi,... ,Хп) является достаточным преобразованием, то по определению п. 5.5.3 для любого преобразо- преобразования Sf = (fi(Xi,... ,Хп) такого, что s = ^(xi,... ,хп), s' = (fi(xi,... ... ,жп), 5 представляет собой взаимно однозначное отображение об- области возможных значений Х\,..., Хп в п-мерном пространстве в это же пространство. Поэтому условное распределение S' при 5 = s не зависит от в. Но любая статистика S" = ^(Xi,... ,Хп) той же раз- размерности, что и ?', не удовлетворяющая условию вида ip(S,Sf) = О, может быть представлена в этом случае как функция от 5, S", т.е. S" = r)(S,S"). Следовательно, условное распределение S" при S — s, не зависят от в. <\ Покажем, что количества информации о в в результатах опыта Х\,..., Хп, с одной стороны, и в достаточной статистике S = (p(Xi,... ..., Хп), с другой стороны, совпадают. \> В самом деле, это утверждение немедленно следует из соответ- соответствующего утверждения п. 5.5.3, если в является реализацией случай- случайной величины 0. Если в неслучайна, то мы определяем количество информации о в в случайной величине У, заменяя в определении (п. 5.5.3) операцию математического ожидания относительно X — в на операцию осреднения по области возможных значений в с некото- некоторой весовой функцией р@). Но это, очевидно, эквивалентно допуще- допущению, что в является значением некоторой случайной величины 0 с плотностью р(в). Поэтому высказанное утверждение и распространя- распространяется на случай неслучайного в. <\ Таким образом, во-первых, никакая статистика не может со- содержать больше информации о 0, чем результаты опыта, и, во- вторых, только достаточная статистика содержит такое эюе ко- количество информации о в, как и результаты опытов. 6.2.3. Доверительные интервалы и области. Как уже было сказано в п. 6.1.1, вследствие случайности результатов опытов невоз- невозможно установить достаточно узкие пределы, из которых ошибка оценки (т.е. отклонение оценки от оцениваемой характеристики) не выходила бы с полной гарантией. Поэтому возникает задача опре- определения по результатам опытов таких пределов, из которых ошибка оценки не выходила бы с заданной вероятностью. Например, приняв частоту события Р за оценку его вероятности р, установить по ре- результатам тех же опытов такую границу возможных отклонений Р от J9, которую модуль ошибки \Р — р\ не превосходил бы с задан- заданной вероятностью а. Эта граница, естественно, будет тоже случайной в силу случайности результатов опытов. Таким образом, речь идет
6.2. Оценивание статистических характеристик 249 о нахождении по результатам опытов такого случайного интервала (т.е. интервала со случайными концами), который с заданной вероят- вероятностью а содержал бы неизвестное значение вероятности р. Случайный интервал, полностью определяемый результатами опытов и не зависящий от неизвестных характеристик, который с заданной вероятностью а накрывает неизвестную скалярную стати- статистическую характеристику #, называется доверительным интерва- интервалом для этой характеристики, соответствующим коэффициенту дове- доверил а. Величина 1 — а называется уровнем значимости отклонения оценки. Концы доверительного интервала называются доверитель- нъши границами. Обобщение понятия доверительного интервала на случай век- векторной характеристики в приводит к понятию доверительной об- области. Доверительной областью для векторной характеристики #, соот- соответствующей коэффициенту доверия а, называется такая случайная область, полностью определяемая результатами опытов и не завися- зависящая от неизвестных характеристик, которая с вероятностью а содер- содержит неизвестное значение в. Очевидно, что доверительная область определяется заданным ко- коэффициентом доверия а не однозначно, существует бесконечное мно- множество доверительных областей, соответствующих одному и тому же значению а. Обычно стараются определить доверительные области, имеющие минимальные размеры при данной вероятности а. Этому условию часто удовлетворяют хотя бы приблизительно области, сим- симметричные относительно оценки О характеристики в. 6.2.4. Методы определения доверительных областей. Для определения доверительных интервалов и областей обычно применя- применяются три основных метода. Первый метод, удобный в случае положительного скалярного па- параметра #, основан на нахождении распределения отношения оцен- оценки О параметра в к самому параметру в. Если оценка О такова, что это распределение не зависит от неизвестных характеристик, то, зная это распределение, можно найти вероятность попадания отношения @/в в любой интервал и, наоборот, по заданной вероятности а найти интервал, вероятность попадания Q/6 в который равна а. Любой та- такой интервал будет доверительным интервалом для 0. Обычно стара- стараются получить доверительный интервал, симметричный относительно оценки. Однако это не всегда возможно. В некоторых случаях ниж- нижняя доверительная граница получается отрицательной, что не имеет смысла. Поэтому доверительный интервал для положительного пара- параметра О определяют формулой тах{0, A - еа)ё} < О < A + sa)Q. F.4)
250 Гл. 6. Оценивание параметров распределений При ?а Е @,1] этот интервал симметричен относительно 0. При еа > 1 симметрия не достигается. Неравенства F.4) выполняются то- тогда и только тогда, когда 0 тах{0,1 — еа} ' Поэтому формула F.4) определяет доверительный интервал для 0, соответствующий коэффициенту доверия а, если sa удовлетворяет уравнению в тах{0,1-еа} = а Второй метод состоит в том, что для каждого возможного зна- значения неизвестного параметра в выбирают такую область, содержа- содержащую в, в которую оценка 0 попадает с заданной вероятностью а. Эта область в общем случае зависит от в и, конечно, от а. Поэтому мы обозначим ее Da{6). Тогда можем написать Р(в е Da{9)) = a. После этого для каждого фиксированного значения оценки 0 опре- определяют множество значений параметра в, при которых 0 G Da@). Это множество {в : 0 G DaF)} в общем случае зависит от 0 и а. Поэтому мы обозначим его Да@). Очевидно, что в G Да@) тогда и только тогда, когда 0 G Da@) при этом в. Действительно, если при данном значении в оценка 0 приняла значение в G Da@), то по определению области Аа(в) данное значение в принадлежит Аа(в), 0 G {в : в G Da@)} = Аа(в). Наоборот, если оценка 0 приняла такое значение ?, что в G Аа(в) = {в :в е Da@)}, то в G Da@). Следова- Следовательно, при любом в Р(в е Д«(в)) = Р(в е Da{0)) = а. F.5) Это равенство показывает, что область Аа(&) представляет собой до- доверительную область для параметра в, соответствующую доверитель- доверительному уровню а. Третий метод основан на нахождении скалярной функции (p(Q,SjO) оценки 0, некоторой другой статистики S и неизвестного параметра в, обладающей следующими свойствами: 1) при любом значении s статистики 5 и любом значении в неравенство ip@,s,0) < с, с > 0, при возрастании с определяет мо- монотонно возрастающее семейство вложенных одна в другую обла- областей D(s, в, с) = (в : ipF, s, в) < с};
6.2. Оценивание статистических характеристик 251 2) (pF,s,6) = 0 при любых s,6 и (pF,s,6) > О при любых 6,8,6, 6 ф О, и, следовательно, точка 6 — 6 принадлежит области D(s,6,c) при любых с > 0, s, 6; 3) распределение случайной величины Т = (/?(©, S, 6) не зависит от 6. Зная распределение величины Т — cp(Q, S,6), можно опреде- определить такое ?а > 0, чтобы с вероятностью а выполнялось неравен- неравенство ip(Q,S,6) < еа: P(<p(Q,S,0)<ea) = a. F.6) Эта формула определяет случайную область cp(Q,S,6) < sa, накры- накрывающую неизвестное значение параметра 6 с вероятностью а, т.е. до- доверительную область для 6, соответствующую коэффициенту дове- доверия а. Многомерные доверительные области трудно представить нагляд- наглядно. Поэтому возникает вопрос о нахождении таких доверительных интервалов 1\(О),..., /г@) для координат 6\,..., 6Г векторного пара- параметра 6, чтобы вероятность одновременного накрытия всех 6\,..., 6Г соответствующими интервалами была не меньше заданного а (т.е. о нахождении прямоугольной доверительной области для 6, соответ- соответствующей коэффициенту доверия, не меньшему чем а). Введем события А^ = {6k G /^@)} (к = 1,..., г) и обозначим пря- прямоугольную область в r-мерном пространстве, образованную интер- интервалами /г @),..., Ir @), через /@). На основании принципа двойственности и свойства полуаддитив- полуаддитивности вероятности A.13) р(в е /(в)) = ( Д) (^) к=1 Отсюда видно, что для решения поставленной задачи достаточ- достаточно найти доверительные интервалы /i@),...,/г@) для координат вектора 6, соответствующие коэффициенту доверия 1 — A — a)jr. Тогда вероятность одновременного накрытия этими интервалами всех #i,..., вг будет не меньше а. Фактически она во многих случаях может быть значительно больше а *). Основную трудность в практическом применении изложенных ме- методов представляет нахождение распределений различных статистик, в частности оценок. В настоящее время эти вопросы достаточно хо- хорошо разработаны только для случая нормального распределения на- наблюдаемых случайных величин. *) Другие методы нахождения совместных доверительных интервалов для координат векторного параметра читатель найдет в [103].
252 Гл. 6. Оценивание параметров распределений При определении оценок статистических характеристик и довери- доверительных областей для них по результатам опытов обычно считают опыты независимыми в смысле определения, данного в п. 1.8.1. В со- соответствии с этим определением будем считать опыты независимыми, если вероятность любого события и распределение любой случайной величины в каждом опыте не зависят от результатов предшествую- предшествующих опытов. Кроме того, предположим, что вероятности наблюдае- наблюдаемых событий и распределения наблюдаемых случайных величин не изменяются от опыта к опыту. Таким образом, везде в дальнейшем будем считать случайные результаты различных опытов независимы- независимыми событиями и случайными величинами, имеющими одни и те же вероятности и распределения во всех опытах. Нахождение оценок статистических характеристик обычно назы- называют точечным оцениванием, а нахождение доверительных интерва- интервалов — интервальным оцениванием. 6.3. Частота как оценка вероятности 6.3.1. Состоятельность. Пусть р — неизвестная вероятность интересующего нас события А, Р — частота этого события при п опы- опытах, рассматриваемая как случайная величина — функция случайных результатов опытов. О Чтобы исследовать частоту Р как оценку вероятности события, воспользуемся формулами для математического ожидания и диспер- дисперсии частоты, полученными в примере 3.11: МР = р, °Р=^> 4 = 1-Р- F.7) Отсюда видно, что математическое ожидание частоты события равно его вероятности, а дисперсия частоты стремится к нулю при неограни- неограниченном увеличении числа опытов п. Следовательно, частота события с.к. сходится к его вероятности при п —> оо. Но из с.к. сходимости вытекает и сходимость по вероятности (п.в.). Таким образом, частота события сходится п.в. к вероятности этого события при неограниченном увеличении числа опытов п. В этом состоит теорема Якова Бернулли — первая и простейшая тео- теорема из серии теорем, объединяемых под названием закона болъш,их чисел, который устанавливает вероятностную сходимость эксперимен- экспериментальных статистических характеристик к соответствующим теорети- теоретическим характеристикам. Таким образом, закон больших чисел под- подтверждает наши интуитивные представления об устойчивости частот событий и характеристик случайных величин и тем самым обосновы- обосновывает все практические применения теории вероятностей. На основании доказанной теоремы Якова Бернулли и первой фор- формулы F.7) частота события является состоятельной несмещенной
6,3, Частота как оценка вероятности 253 оценкой его вероятности. Более того, как мы увидим в примере 7.3, частота представляет собой несмещенную оценку вероятности с ми- минимальной дисперсией. Поэтому никакие другие оценки вероятности обычно не применяются. О Остановимся несколько подробнее на смысле выводов, вытекаю- вытекающих из проведенного исследования. Из теоремы Якова Бернулли сле- следует, что при любых e,S > 0 при всех достаточно больших числах опытов п имеет место неравенство Р{\Р-р\>е)<5. F.8) В силу произвольности г и S и принципа практической уверенности отсюда следует, что при достаточно большом числе опытов п полу- получение отклонения частоты от вероятности, превосходящего по вели- величине произвольно малое наперед заданное число ?, можно считать невозможным событием. На этом и основано использование частоты в качестве оценки вероятности события. 6.3.2. Доверительные интервалы. Для нахождения довери- доверительных интервалов для вероятности обычно пользуются вторым ме- методом п. 6.2.4. О Для каждого значения вероятности pG @,1) задают интер- интервал Da(p) = [a>a(p),ba(p)), концы которого определяются из условий F-9) где F(x) — функция распределения частоты, т.е. функция биноми- биномиального распределения m=0 Тогда будем иметь Р(Р е Da(p)) = Р(аа(р) ^Р< Ъа(р)) 2 "• Знак ^ вместо = здесь и соответственно ^ в F.9) берется потому, что вследствие дискретности частоты точные равенства, как прави- правило, недостижимы. Для определения соответствующего доверительно- доверительного интервала Аа(Р) = {р : аа(р) ^ Р < Ьа(р)} достаточно найти его границы путем решения неравенств аа{р) ^ Р и Р < Ъа{р) относи- относительно р. Вместо этого обычно пользуются следующим графиче- графическим построением. Определив аа(р) и Ъа{р) для каждого р? (ОД)? строят в координатах (р,р) кривые р = аа(р) и р = Ьа(р) (рис. 6.1). Эти кривые при каждом значении р определяют на соответствую-
254 Гл. 6. Оценивание параметров распределений p 1 0,8 0,6 0,4 0,2 0 i i i -^ i , 1 Л5и \ f'/ ^ 1 | 1 | j | ] | 1 1 Г I .i 0,2 0,4 0,6 i J 0,8 ¦ I P Рис. 6.1 щей вертикальной прямой интервал Da(p) = [аа(р),Ьа(р)). Очевид- Очевидно, что, и наоборот, при каждом значении р частоты Р эти кривые определяют на соответствующей гори- горизонтальной прямой интервал Аа(р) = = {р : р е [аа(р),Ьа(р))}, представляю- представляющий собой реализацию доверительного интервала Аа(Р), соответствующую данной реализации р частоты Р (см. рис. 6.1). < В силу дискретности частоты кри- кривые р = аа(р),р = Ьа(р) являются сту- ступенчатыми, причем высоты всех сту- ступенек равны 1/п, а ширина каждой ступеньки равна длине соответствую- соответствующего интервала значений р, при кото- которых аа (р) сохраняет постоянное значе- значение до очередного изменения скачком на 1/п. Однако для простоты их обычно заменяют непрерывными кривыми. Графики для опреде- определения доверительных интервалов при оценивании вероятностей для а = 0,95 и а = 0,99 были построены Клоппером и Е. Пирсоном [37]. 6.3.3. Приближенное определение доверительных интер- интервалов. При большом числе опытов п (практически при n ^ 100) определение доверительных интервалов для р — существенно упроща- упрощается. Как показано в примере 5.48 распределение случайной величины Y = \/п(Р - p)/y/pq = (X — np)/^/npq стремится к нор- нормальному распределению N@,1) при п —> оо. Вследствие этого биномиальное распределение при достаточно большом числе опы- опытов п как угодно мало отличается от нормального. Это дает возмож- возможность при больших п пользоваться нормальной функцией распреде- распределения вместо точной биномиальной для приближенного определения доверительных интервалов для вероятности. > Предположив, что частота Р распределена нормально, в силу симметрии нормального распределения и формул F.7) получим аа (Р) = Р — ?а л/РЦ/П1 ^ (Р) — Р + ?а \[щрП, где еа определяется в силу C.93) уравнением = а. F.10) Практически корень га уравнения F.10) определяется по табл. 3. По- Поскольку еа не зависит от р, кривые р = аа(р) ир = Ьа(р) в этом слу- случае представляют собой части эллипса п(р — рJ — еарA — р) с цен- центром в точке р = р — 1/2, касающегося вертикальных прямых р = 0
6.4- Оценки математического ожидания и дисперсии 255 и р = 1 (рис. 6.2). Доверительные границы Pi,P-2 в этом случае легко находятся из уравнения эллипса путем решения его относительно р: el/2n 1+eg/n , An2' F.11) Пример 6.5. При 100 опытах событие А появилось 68 раз. Таким об- образом, частота Р события А приняла значение 0,68. Найдем доверительный интервал для вероятности р = Р(А), соответ- соответствующий коэффициенту доверия а = 0,95. Так как число опытов п в данном случае велико, то можно считать, что частота Р распределена приблизительно нормально, и применить упрощенный метод. В соответ- соответствии с F.10) находим по табл. 1 функ- функции Лапласа Ф(и) значение еа аргумента и, при котором она равна а/2 = 0,475; получа- получаем еа = 1,96. После этого по формулам F.11) находим Pi и 0,583, Р2 ~ 0,763. Таким обра- образом, доверительным интервалом для вероят- вероятности р = Р(А), соответствующим коэффи- коэффициенту доверия а = 0,95, в данном случае 0 Рис. 6.2 служит интервал @,583; 0,763). Этот интервал представляет собой реализа- реализацию случайного интервала (Рг,Р2), с вероятностью а — 0,95 содержащего неизвестную вероятность р = Р(А). Вторая формула F.7) показывает, что среднее квадратическое от- отклонение частоты обратно пропорционально у/п. Следовательно, точ- точность оценки вероятности повышается с увеличением числа опытов пропорционально у/п. Как мы увидим дальше, эта закономерность распространяется и на моменты первого и второго порядков случай- случайных величин. 6.4. Оценки математического ожидания и дисперсии случайной величины 6.4.1. Оценка математического ожидания. Естественной оценкой математического ожидания случайной величины X служит среднее арифметическое ее экспериментальных значений Х\,..., Хп (выборочное среднее) п Х=1-Ухк. F.12) \> Чтобы исследовать эту оценку, воспользуемся формулами для математического ожидания и дисперсии среднего арифметического, полученными в примере 3.12: МХ = тх, DX=—. F.13)
256 Гл. 6. Оценивание параметров распределений Отсюда следует, что выборочное среднее случайной величины с.к. схо- сходится к ее математическому ожиданию при п —> оо. Но из с.к. сходи- сходимости вытекает сходимость п.в. Таким образом, мы доказали теорему Чебышева: выборочное сред- среднее случайной величины с конечными моментами первого и вто- второго порядков сходится п.в. к ее математическому ожиданию при неограниченном увеличении числа опытов п. На основании теоремы Чебышева и первой формулы F.13) вы- выборочное среднее представляет собой состоятельную несмещенную оценку математического оэюидания случайной величины. <] Доказанная теорема может быть обобщена на случай зависимых испытаний (опытов), если вместо теоремы Чебышева воспользовать- воспользоваться следующей теоремой Маркова: среднее арифметическое случайных величин с одним и тем же математическим ожиданием и конеч- конечными моментами второго порядка {п.в.) сходится к математиче- математическому ожиданию при условии, если сумма дисперсий и ковариаций случайных величин растет медленнее, чем п2 при п —У оо. \> Действительно, воспользуемся первой формулой системы (II) примера 3.12 п DX = ^2 X/ ^' p,q=l где kpq — дисперсии и ковариаций Х\, Х^,... (р, q = 1, 2,...). Отсюда видно, что DX —> 0, если двойная сумма растет медленнее п2 при п —У оо. < Очевидно, kpq = kpq —> 0 при q —у оо равномерно относительно р. Следовательно, применяя теорему Маркова, заключаем, что выбороч- выборочное среднее случайной величины является состоятельной несмещен- несмещенной оценкой математического оэюидания в случае зависимых испы- испытаний при условии, что ковариация двух результатов равномерно стремится к нулю при увеличении разности номеров испытаний. Доказанные теоремы справедливы также и для конечномерных векторных случайных величин, если их непосредственно использовать для всех компонент векторной случайной величины. Докажем теперь теорему Хинчина: среднее арифметическое п независимых одинаково распределенных случайных величин с мате- математическими ожиданиями тх (п.в.) сходятся к тх при п —> оо. \> В самом деле, пусть случайная величина X имеет матема- математическое ожидание тх и характеристическую функцию #(А). То- Тогда в случае независимых испытаний характеристическая функция выборочного среднего X в силу D.41), D.42) и теоремы п. 4.4.5 будет равняться
6.4- Оценки математического ожидания и дисперсии 257 Отсюда при п —у оо имеем X —у тх (п.в.). < Таким образом, теорема Хинчиыа показывает, что требование ко- конечности моментов второго порядка не являетя необходимым условием. Отметим также, что теорема Хинчина, позволяет заключить: вы- выборочное среднее является состоятельной несмещенной оценкой ма- телгатического ожидания для всех случайных величин с конечными математическими ооюиданиями. Наконец, обратим внимание на то, что выборочное среднее не все- всегда может служить оценкой, например, медианы случайной величи- величины, не имеющей математического ожидания. Пример 6.6. В случае когда случайная величина X распределена по закону Коши, то в силу примера 4.31 имеем д(Х) = ехр{гЛа — Ь|Л|}. Поэтому характеристическая функция выборочного среднего X будет равна 91 (А) = [д(\/п)]п = [ехр{(гАа - Ь|А|)/п}]п = ехр{гАа - Ь|А|}. Значит, распределение X является распределением Коши и совпадает с рас- распределениями Xi,... ,Хп. Таким образом, выборочное среднее не может служить оценкой медианы, если случайная величина не имеет матема- математического ожидания. При этом выборочная медиана может служить со- состоятельной оценкой параметра а распределения Коши [45]. 6.4.2. Оценки дисперсии. Естественной оценкой дисперсии случайной величины служит ее выборочная дисперсия Dl = \JT(Xk-Xy. F.14) k = l \> Для вычисления математического ожидания и дисперсии этой оценки, учитывая, что МХк = MX — тх, представим F.14) в виде [ k=l Тогда будем иметь k=l n *-—' n n n k=l Таким образом, n-1 . < F.15)
258 Гл. 6. Оценивание параметров распределений Эта формула показывает, что D* является смещенной оценкой дисперсии Dx со смещением, равным —Dx/n. \> Для вычисления дисперсии оценки D* найдем сначала ее мо- момент второго порядка MD*2. Имея в виду, что k,l=l n n A;=l м\ (хуу (х"ку =^м *-^ п2 L k=l J k,l,h=l г П П n2 z_^ ^ k* 2-^ = Ь \ E M(*°L+3 E m 3(;~ где \i2 — DXJ a ^/4 — четвертый центральный момент величины X, получаем после элементарных преобразований MDX2 = —— [/i4 + (n — 1)^2] H—з [^4 "*" ^(n ~ -'¦)/i2]- После этого по формуле C.29) находим Г = MDf - При выводе этих формул мы воспользовались независимостью ре- результатов опытов Х\,..., Хп, и применили теорему умножения мате- математических ожиданий (п. 4.2.6). Формулы F.15) и F.16) показывают, что MD* -»> Дт, DD* -»> 1)ж при п -^ оо. Таким образом, оценка D* с.к. сходится к Dx. Отсюда следует сходимость п.в. D* к Dx, т.е, состоятельность оценки D*.
6.4- Оценки математического ожидания и дисперсии 259 \> Чтобы получить несмещенную состоятельную оценку диспер- дисперсии DXJ достаточно, как это видно из F.15), умножить оценку D* на га/(га — 1). В результате получим оценку Дисперсия этой оценки в силу F.16) определяется формулой DDX = n f^4 - 2(f4-2gi} + i^M. F.18) (n — IJ (n — IJ n(n — IJ v y В частном случае нормального распределения случайной величи- величины X, как было показано в п. 3.6.2 /i^ = 3^ и формула принимает вид Для сравнения вычислим средний квадрат ошибки смещенной оценки D* дисперсии Dx для случая нормального распределения X. В этом случае, учитывая, что \i± — Ъ\х\ — 3D^, из F.15) и F.16) полу- получаем 1 - Dxf = [M(Dl - Dx)f + DDl = ^1 D \. Отсюда видно, что смещенная оценка D* точнее несмещенной оцен- оценки Ъх, так как Bга - 1)/п2 < 2/га < 2/(га - 1). 6.4.3. Доверительные интервалы для математического ожидания. Задача определения доверительных интервалов для ма- математического ожидания и дисперсии для произвольного числа опы- опытов п решена только для случая нормально распределенной случай- случайной величины X. \> Если дисперсия Dx известна, то доверительный интервал для математического ожидания находится очень простер Для этого до- достаточно заметить, что среднее арифметическое X как линейная функция нормально распределенных случайных величин распреде- распределено нормально. Поэтому на основании F.13) и C.93) Определив еа из условия Ф(га) = «/2, получим доверительный ин- интервал для гаж, соответствующий коэффициенту доверия а, в виде X - eaJ^ <mx<X+ eaJ^. < F.20)
260 Гл. 6. Оценивание параметров распределений При большом числе опытов п этот метод можно применить для приближенного определения доверительных интервалов для гпх при любом распределении величины X, так как при большом п распреде- распределение величины X стремится к нормальному (разд. 5.4). Оценивать математическое ожидание при известной дисперсии приходится при измерении какой-либо величины прибором, точность которого известна. В этом случае математическое ожидание результа- результатов измерений равно сумме измеряемой величины и систематической ошибки прибора, а дисперсия равна известной дисперсии ошибки при- прибора. \> Для нахождения доверительного интервала для математиче- математического ожидания тх в случае неизвестной дисперсии Dx обычно поль- пользуются третьим методом разд. 6.4. Введем n-мерный вектор результа- результатов опытов U — [Х\ ... Хп]Т и величину S = UTU — пХ2. Покажем, что случайная величина Т = у/п(п - 1) ^= представляет собой стьюдентово отношение (пример 5.14). Для этого заметим, что при любом а n Xk-XJ = Y,[Xk-a-(X-a)]2 = k=i k=l n n = 2_,{Xk — aJ — 2(X — a) ^^(X^ — a) + n(X — aJ = n k=l так как n 2_^(Xk — a) = n(X — a). k=i Положив в полученном равенстве один раз а = шж, а другой раз а = 0, получим к=1 к=1 к=1 откуда следует, что (п - \)DX = ^{Хк - XJ = U0TU° - п(Х0J = UTU - пХ2 = S. k=l
6.4- Оценки математического ожидания и дисперсии 261 Это равенство показывает, что величина S выражается через центри- центрированный вектор U0 так же, как и в примере 5.14, что и доказывает на- наше утверждение. Следовательно, величина Т имеет Т-распределение с к = п — 1 степенями свободы, определяемое плотностью 2 Так как это распределение не зависит от неизвестных параметров rnx,DXj то величина Т может служить в качестве функции (^@,5,в) п. 6.2.4: 1 — (р(Х, Ь,тх) — уп[п — 1) j=—. Согласно п. 6.2.4 доверительный интервал для тх определяется те- теперь неравенством ¦ X - р ?а^ F.21) где еа определяется уравнением Р(|Г| < еа) = Sk(ea) = 2Jsk(t)dt = a. F.22) О Практически га находится непосредственно по таблице по данным к и а (табл. 3). Чтобы преобразовать полученный доверительный интервал для гпх к более удобному виду, заметим, что по доказанному выше S = (n-1)DX. F.23) Подставив это выражение в F.21), получим \Х - та или F.24) В таком виде обычно и записывается доверительный интервал для математического ожидания случайной величины. При больших к Т-распределение мало отличается от нормаль- нормального. Действительно,
262 Гл. 6. Оценивание параметров распределений где Ck — постоянный множитель в s&(?). Отсюда видно, что и, следовательно, Sk(t) —У Bтг)~1/2е~г I2 при к —у оо (с& —У Bтг)~1/2, так как Sk(t) — плотность при любом к и сходимость второго множи- множителя к е~1 /2 равномерна на любом конечном интервале). <\ Таким образом, при больших к (практически при к > 120) величи- величину еа можно определять, как и при оценке математического ожидания при известной дисперсии, из условия Ф(еа) = а/2, пользуясь табл. 1 функции Лапласа. 6.4.4. Доверительные интервалы для дисперсии. Для на- нахождения доверительного интервала для дисперсии Dx обычно поль- пользуются первым методом п. 6.2.4, применяя его к оценке У Dx среднего квадратического отклонения ах = y/Dx. \> Так как величина U = Х°/\JDX имеет нормальное распределе- распределение JV@,1), то согласно результату примера 5.12 величина = (UTU-nX2)/Dx имеет х2-распределение с к — п — 1 степенями свободы Vh(z) - 1 к/2-1 -z/2 -,/ ч Pk[Z) ~ 2*/2Г(Л/2) [ }' Поэтому, учитывая, что согласно F.23) Dx/Dx = S/(kDx) = Z/k и, следовательно, к \ -в.)У' где через A — га)+ обозначена величина тах@,1 — еа), получим для еа уравнение F.25) Отсюда находим доверительный интервал для среднего квадратиче- квадратического отклонения и дисперсии: max@,1 - sa)VD~x < y/Ul < A + sa)VD~x. < F.26) Для определения еа, удовлетворяющего уравнению F.25), состав- составлена таблица значений еа в зависимости от к и а (табл. 4).
6.4- Оценки математического ожидания и дисперсии 263 > При больших к х2"РаспРеДеление близко к N(^/k — 1/2,1/2). Чтобы доказать это, достаточно показать, что распределение вели- величины Т = \[TZ — л/2к — 1 стремится к JV@,1) при /с —>¦ оо. Пользуясь формулой E.31), находим плотность величины Т: /*(*) = (* Отсюда находим lnfk(t)=lnak 2к/2Г(к/2) = lnbk + где через а^ обозначен для краткости постоянный множ:итель в выра- выражении плотности /*•(?), a In bk — сумма всех постоянных, полученных в результате произведенных преобразований. Из полученной формулы видно, что fk(t) —У Bтг)~1/2е~1 /2 при к —> оо, что и доказывает наше утверждение. Практически можно считать величину \/~Z распределен- распределенной нормально при к > 30. В этом случае целесообразно отказаться от симметричного относительно оценки у Dx доверительного интервала и взять симметричный интервал для статистики Т = \/2Z — \/2к — 1. Тогда, определив еа из уравнения Р(|Т| < еа) = 2Ф(га) = а и имея в виду, что \t\ < ea при т.е. при получим доверительный интервал для Dx в форме \kkDx r— \kkDx < VDX < F.27)
264 Гл. 6. Оценивание параметров распределений Оценка, распределение которой стремится к нормальному при неограниченном увеличении числа опытов п, называется асимпто- П^— тически нормальной. Таким образом, мы показали, что оценка уDx среднего квадратического отклонения асимптотически нормальна. 6.4.5. Доверительные области для математического ожи- ожидания и дисперсии. Мы нашли доверительные интервалы для ма- математического ожидания и дисперсии по отдельности. Однако при совместном оценивании математического ожидания и дисперсии нас интересует вероятность того, что оба параметра тх и Dx будут за- заключены в соответствующих интервалах. Иными словами, нас инте- интересует доверительная область для двумерного векторного парамет- параметра (mx,Dx). Чтобы найти такую область, воспользуемся вторым ме- методом п. 6.2.4. cements /^~ Vdx \Jdx Рис. 6.3 \> Зададим область DaF) — Da(mX7 Dx) на плоскости (X, у Dx) в виде прямоугольника (рис. б.З, а) Da{9) = где A - ёа)+ = max@,1 - Sa). Тогда область Aa(Q) = {(mx,Dx) : (X,DX) e Аа(в)} определится формулой Да@) = {(mx,Dx) : \тх -Х\< ea\j^, F.28) Эта область представляет собой трапецию (рис. б.З, б). Чтобы найти
6.4- Оценки математического ожидания и дисперсии 265 вероятность Р((Х, Dx) E DaF)), воспользуемся тем, что при нормаль- нормальном распределении наблюдаемой случайной величины X статисти- статистики X и S независимы (пример 5.15). Так как X имеет нормальное рас- распределение N(mx,Dx/n), a Z = S/Dx = kDx/Dx — ^-распределение с к = п — 1 степенями свободы (пример 5.12), то Р((Х, Dx) € Da{9)) =р(\Х- тх < Определив еа и 8а из уравнений Ф(еа) = Су/а/2, Lk(Sa) = у/а/с, где с — произвольно выбранное чис- число, найдем по $§&Щ№РЩт^\^ доверительную область вектор- 4Ch ного параметра (mx,Dx), со- соответствующую коэффициенту доверия а, и можем быть уверены, что в среднем в 100а% случаев точка (mx,Dx) будет находиться в найденной области Да@). <\ 30 27,5 20 10 Пример 6.7. По данным экс- экспериментальным значениям слу- случайной величины X, полученным в результате 20 опытов (по выбор- выборке): 8, 42, 22, -40, 18, 38, 2, -16, 17,9 10 20 Рис. 6.4 30 40 тх 34, 6, 54, 20, 74, 0, 4, —28, 36, 44, 16, 24 — найти оценки и доверительные интервалы для тх и Dx, соответствующее коэффициенту доверия а = 0,95. По формулам F.12) и F.17) находим оценки mx,Dx и ах = y/Dx: 20 dx = : 756,84, 19 Эх и л/756,84 и 27,5. По данным к = п — 1 = 19 и а = 0,95 находим по табл. 3 и 4 еа = 2,09 для тх и еа = 0,380 для Dx. После этого формулы F.24) и F.26) дают доверительные интервалы для тх и Dx: 5,4 <тх < 30,4, 17,0 < \/D~x < 38,0. Для определения доверительной области для векторного параметра (mx,Dx) находим по таблице функции Лапласа 1 и по табл. 4 еа = 2,23, 5а = 0,464 из условий 2Ф(ва) = у/а = 0,974, Ьк(ёа) = у/а = 0,974. После этого по формуле F.28) находим доверительную область 17,9 - 0,499л/Д^ <тх< 17,9 + 14,7 < у/Щ < 40,3.
266 Гл. 6. Оценивание параметров распределений На рис. 6.4 изображена эта трапеция. Для сравнения показан прямо- прямоугольник, образованный ранее найденными и доверительными интервала- интервалами для тх и Dx (заштрихован на рис. 6.4). Для сравнения найдем прямоугольную доверительную область с коэф- коэффициентом доверия не меньше а — 0,95. Согласно п. 6.2.4 для этого доста- достаточно найти по формулам F.24) и F.26) доверительные интервалы для гпх и Dx, соответствующие коэффициенту доверия оц = 1 — A — а)/2 = 1 — — 0,05/2 = 0,975. В результате получим 4,1 <тх < 31,7, 14,5 < >/Щ < 40,5. Эта прямоугольная доверительная область показана на рис. 6.4 штриховой линией. 6.4.6. Оценки моментов. На основании результатов, получен- полученных для математических ожиданий, состоятельной несмещенной оцен- оценкой момента любого порядка служит среднее арифметическое значе- значение соответствующей степени случайной величины. Однако точное определение доверительных интервалов для моментов оказывается трудной задачей. Для приближенного определения доверительных ин- интервалов при большом числе опытов обычно пользуются асимптоти- асимптотической нормальностью оценок моментов. На основании центральной предельной теоремы (п. 5.4.1) распределение оценки момента любого порядка как суммы независимых случайных величин при достаточ- достаточно большом числе опытов как угодно мало отличается от нормаль- нормального. Поэтому, зная математическое ожидание и дисперсию оценки момента, можно приближенно определить доверительные интервалы. Математическое ожидание оценки момента равно самому моменту в силу несмещенности оценки. Нахождение дисперсии оценки не пред- представляет никаких принципиальных трудностей, хотя и сопряжено с громоздкими выкладками. 6.5. Оценки математического ожидания и ковариационной матрицы случайного вектора 6.5.1. Оценки ковариации и коэффициента корреляции. Результаты разд. 6.4 позволяют находить оценки и доверительные ин- интервалы для математических ожиданий и дисперсий координат слу- случайного вектора, рассматриваемых по отдельности. Чтобы научить- научиться оценивать ковариационную матрицу случайного вектора, остается рассмотреть оценки ковариации. На основании сказанного в п. 1.2.9 естественной оценкой ковари- ковариации случайных величин X и Y служит их выборочная ковариация Кху = I Е№ - X)(Yk - Y), F.29) k=i
6.5. Оценки математического ожидания и ковариационной матрицы 267 где Xl, Yi,..., Xn, Yn — случайные результаты опытов, а X, Y — вы- выборочные средние величин X и Y. Совершенно так же, как для оцен- оценки D^ дисперсии Dx, находим МК*у — {п — 1)кху/п. Отсюда видно, что К*у — смещенная оценка со смещением —кху/п. Чтобы получить несмещенную оценку Кху, достаточно умножить К*у на п/{п — 1). В результате получим -У). F.30) k=l Дисперсия этой оценки выражается через центральные моменты \ivq случайного вектора {X, У}: DKxy = (п-1J (п-1J + + Г7^ TTi • (б-31) Эта формула выводится совершенно так же, как F.18). В частном случае нормального совместного распределения величин X и У чет- четвертый момент /i22 выражается через элементы ковариационной мат- матрицы /i22 = /^20/^02 + 2/J>li = DxDy + 2fc^ (п. 4.5.9), и F.31) принимает вид DKxy = ВхВ„***У. F.31) На основании F.17) и F.30) оценку коэффициента корреляции кху величин X и У определяют формулой = ww= \±(Xk-X)(Yk-Y)\ lk = l J 6.5.2. Оценки математического ожидания и ковариацион- ковариационной матрицы. Полученные результаты дают оценки математическо- математического ожидания и ковариационной матрицы любого случайного вектора. Пусть X — m-мерный случайный вектор, Xi,...,Xn — его экс- экспериментальные значения, X&i,..., Х&т — координаты вектора Х& (к = 1,..., п), X — выборочное среднее вектора X: Хк. F.34)
268 Гл. 6. Оценивание параметров распределений Введем матрицу С/, строками которой служат векторы Xi,...,Xn: 1 Хц Х\2 . . . Х\т U = : = F.35) Хп \-Xni ХП2 ... Хпт_ Тогда в силу равенства п п ^Г(Хкр - Xp)(Xkq - Xq) - ^ XkpXkq - nXpXq - k=l k=l kp - mp)(Xkq - mq) - n(Xp - mp)(Xq - mq), F.36) k=i которое выводится совершенно так же, как аналогичное равенство в п. 6.4.2, определим оценку ковариационной матрицы Кх формулой n-1 UTU-nXXT п-1 F.37) Таким образом, оценкой математического ожидания тх случайного вектора X может служить его выборочное среднее X, а несмещен- несмещенная оценка его ковариационной матрицы Кх определяется формулой F.37). < 6.5.3. Доверительные области для математического ожи- ожидания. Осталось научиться определять доверительные области для математического ожидания и ковариационной матрицы случайного вектора. \> Найдем сначала доверительную область для вектора тх. Для этого применим третий метод п. 6.2.4. Согласно результатам приме- примеров 5.17 и 5.24 статистика п(п - т) (-^Т t\q-\(-v \ имеет F-распределение Jm,7i—m\J) — m W2 Г(п/2) Г(ш/2)Г((п-ш)/2) -mJJ -n/2 Эта плотность не зависит от неизвестных параметров тх и Кх. По- Поэтому функция X,S,mx) = F = — (X -mx)S (A - mx)
6.5. Оценки математического ожидания и ковариационной матрицы 269 удовлетворяет всем требованиям п. 6.2.4, и доверительная область для гпх определяется неравенством (Хт - mTx)S-\X - mx) < ^—^ fa, F.38) где fa ~ верхняя 100A — а)-процентная точка F-распределения fm,n-m, определяемая уравнением fa P(F < fa) = Fro,n_ro(/a) = ffm,n-m(f)df = a. F.39) 0 Для определения fa по данным а, 1 = тик = п — т составлены таблицы [117] (табл. б). Уравнение в координатах ? определяет га-мерный эллипсоид (эллипс при га = 2) с центром в случайной точке X, случайные размеры и направления главных осей которого определяются матрицей S и числом fa. Дове- Доверительная область F.38) представляет собой множество внутренних точек этого случайного эллипсоида. Из F.39) следует, что этот эллип- эллипсоид накрывает неизвестную точку тх с вероятностью а. <\ 6.5.4. Распределение выборочного коэффициента корре- корреляции. Перейдем к определению доверительных интервалов для ко- коэффициентов корреляции. Из результатов примера 5.20 следует, что в случае нормального распределения вектора X случайная матрица S имеет распределение Уишарта, определяемое плотностью Р 1 2 в области положительно определенных матриц s и wnm(s) = 0 вне этой области. Для определения доверительного интервала для ко- коэффициента корреляции достаточно рассмотреть случай двумерно- двумерного вектора X, га = 2. В этом случае совместная плотность элементов 5ц, 5i2,/S22 матрицы S определяется формулой -^ (б-40) где для краткости положено А = &11&22 — kf2- Области симметрич- симметричных положительно определенных матриц в трехмерном пространстве с прямоугольной системой координат (зц, S12, S22) соответствует об- область, ограниченная половиной конуса, определяемая неравенствами sn,S22 ^ 0, s\2 ^ 5ц522)- Вне этого конуса wn2(sn, S12, S22) = 0.
270 Гл. 6. Оценивание параметров распределений \> Чтобы найти распределение оценки (б.33) коэффициента кор- корреляции, заметим, что Л12 = S12/VS11S22, вследствие чего плот- плотность fn(p) оценки i?42 можно определить по формуле E.32): ОС ОО fn(p) = >^n2(sil4 О О Подставив сюда выражение F.40) и вводя новые переменные интегри- интегрирования х = su/кц, у = S22/&22, получим после несложных преобра- преобразований (I _ д2\(п-4)/2 ш= A р) 4тг(п-3)!A-г2)(™-1)/2 ОО ОО X О О Замена переменных у — х tg2 ср дает ?п^ 2тг(п-3)!A-г2)(--1)/2 Х тг/2 х / ° 9 г dip / ж"~"ехр cos2 if J I 2A — r2) cos2 9? о о Приняв за новую переменную интегрирования t во внутреннем ин- интеграле модуль аргумента показательной функции вместо ж, найдем ОО п-2 Г 1 ~ rpsin2(p I 7 ж ехр^ т ^гт ?—x>dx = Fl 2A -г2) cos2 <p J о A — rpsin2(p)n~1 о 2n-1(l-r2)n-icos2n-2^ / — -—- (п - Подставив это выражение в предыдущую формулу, получим _ 2\(n-4)/2 / sin2n У A — rpsh о 2\(п-4)/2 1 /' 51 "Р j * 2 У A - sinn~2
6.5. Оценки математического ожидания и ковариационной матрицы 271 Наконец, принимая во внимание, что sin# = sinGr — в), приведем по- полученную формулу к виду F.41) Эта формула, определяющая плотность выборочного коэффици- коэффициента корреляции, получена Фишером [110]. Интеграл в F.41) вычисля- вычисляется элементарно (например, подстановкой и — tg@/2)). Однако при этом получится очень громоздкое выражение. Чтобы получить ком- компактную формулу, выведем, следуя Фишеру, рекуррентную формулу для интегралов тг/2 Т ( \ - f sinn-2 fld(9 ln[Z) " J (l-.sin^- 0 \> Дифференцируя эту формулу по z, получаем = (п - 1) у A_^sing)ra = (п - Отсюда следует, что /n(^) = Vn_x{z)/(п — 2). Это и есть искомая ре- рекуррентная формула. Применяя ее, находим Таким образом, задача свелась к вычислению интеграла тг/2 / — z sin 0 * Подстановкой и = tg@/2) и соответственно sin# = 2гл/A + г/2), б?0 = = 2du/(l + г/2) после элементарных тригонометрических преобразо- преобразований получаем тг/2 Таким образом, j , ч _ 1 сГг~2 arccos(—^
272 Гл. 6. Оценивание параметров распределений Подставив это выражение в F.41), получим формулу Фишера 1 /_, 9 \ (г Up) = тг(га-З)! arccos(—rp) d(rp)n~2 < F.42) Ясно, что все написанные формулы для fn(p) определяют fn(p) только в интервале [—1,1]. Вне этого интервала fn(p) = 0. 6.5.5. Доверительные интервалы для коэффициента кор- корреляции. Для определения доверительного интервала для коэффи- коэффициента корреляции г обычно пользуются вторым методом п. 6.2.4, совершенно так же, как это де- делается для неизвестной вероятности (п. 6.3.2). Определив при каждом значении г Е (—1,1) интервал ?=ba(r) -1 -1- 1 г 9=аа(г) из условия P(R<aa(r))=P(R>ba(r)) = 1 -а F.43) строим на плоскости (г,?) кривые Рис-6-5 г = аа(г) и? = Ьа(г) (рис. 6.5). Эти кривые при любом значении 9 оценки R коэффициента корреляции определяют соответствующую реализацию Аа(9) = {г : аа(г) < 9 < < ^а(г)} доверительного интервала Aa(R) для г, соответствующего коэффициенту доверия а (рис. 6.5). Практически кривые 9 = аа(г) и 9 = ba(r) можно построить, пользуясь таблицами функции распреде- распределения величины R г Fn(r) = j fn(p)dp, -1 которые составлены Дэвид [26, 27]. Для приближенного определения доверительного интервала для г можно воспользоваться тем, что, как заметил Фишер, распределение случайной величины - 2 = ^ггъ F-44) даже при небольших значениях п близко к нормальному распределе- распределению 2(n-l)'n-3
6.5. Оценки математического ожидания и ковариационной матрицы 273 Дэвид исследовала точность приближения распределения вели- величины Z к нормальному и рекомендует пользоваться приближенным нормальным распределением для Z при п ^ 25, отбрасывая при этом слагаемое г/2{п — 1) в выражении математического ожидания вели- величины Z. Тогда, определив еа из условия P(\Z — тх\ < еа/л/п — 3) = = 2Ф(еа) = а, получим приближенный доверительный интервал для коэффициента корреляции г в виде 1 , 1 + R ?а ^ 1 , 1 + Г 1 1 + R ?а - 1П < - In < - In - + 2 \-R у^^З 2 1-r 2 \-R у^^З Отсюда, имея в виду, что функция монотонно возрастающая и обратная функция определяется форму- формулой е2у - 1 ж = — = thy, е2У + 1 у' преобразуем доверительный интервал для г к виду th( -In ^г . )r < th -In + , ). F.45) V2 i-R ^^Ъ) V2 i-R у^^З/ v y 6.5.6. Доверительные области для ковариационной мат- матрицы. Для определения доверительных областей для ковариацион- ковариационной матрицы в га (га + 1)/2-мерном пространстве можно применить второй метод п. 6.2.4. Пользуясь распределением Уишарта E.21), выбираем для каждой данной матрицы Кх область Da(Kx), вероятность попадания в кото- которую оценки Кх = S/(n — 1) равна а: Р(КХ е Da(Kx)) = J wnm(s) ds = а. Da(Kx) Тогда множество матриц Кх, для которых данное значение Кх при- принадлежит Da(Kx), Аа(Кх) = {Кх : Кх е Da(Kx)}, будет доверитель- доверительной областью для Кх, соответствующей коэффициенту доверия а. Об- Область Da(Kx) можно задать в виде прямоугольника (параллелепипе- (параллелепипеда) в га(га + 1)/2-мерном пространстве. Стороны этого прямоуголь- прямоугольника по осям Крр можно выбрать так, как мы выбирали их в п. 6.4.4 для дисперсии. \> Чтобы найти совместную доверительную область для вектора тх и матрицы Кх (в га (га + 3)/2-мерном пространстве), воспользуем- воспользуемся тем, что при нормальном распределении наблюдаемого вектора X вектор X и матрица S независимы, причем X имеет нормальное рас-
274 Гл. 6. Оценивание параметров распределений пределение N(rnx,Kx/n), a S — распределение Уишарта wnm(s). Бу- Будем искать область Da(mx,Kx) в виде _ п(ХТ - ттх)К-\Х - mx) < еа, аа(Кх) < Кх < Ьа(Кх)} *). Тогда будем иметь Р((Х,КХ) G Da(mx,Kx)) = Р(п(Хт - mTx)K-\X - mx) < < еа) Р((п - 1)аа(Кх) <S<(n- 1)Ъа(Кх)). Определив еа, аа(Кх) и Ъа{Кх) из уравнений Р(п(ХТ - ml)K-x(X -mx)< ea) = с^, Р{[п - 1)аа(Кх) <S<(n- 1)Ъа(Кх)) = ^, получим доверительную область для (тх,Кх) в виде Аа(Х,Кх) = {(Х,КХ) : п(тТх - ХТ)КХ\Х - тх) < еа, аа(Кх) <КХ< ba(Kx)}. <i Пример 6.8. В результате 20 опытов получена выборка для двумер- двумерного случайного вектора {X. У}: (8,10), (-9,-17), (-2,-3), B,-1), (-30,-21), (9,-2), A5,10), (-10,0), (-2,-10), A,18), A1,-13), (-24,-12), (-8,-2), B7,18), F,5), (-8,-9), (-6,10), @,-6), A7,4), (-18,-20) Найти оценки математических ожиданий, дисперсий, ковариации и ко- коэффициента корреляции величин X, У, доверительную область для вектора математического ожидания, доверительные интервалы для дисперсий и ко- коэффициента корреляции и совместные доверительные интервалы для всех пяти параметров жж, ту, Dx, Dy, г при а = 0,95. По формулам F.12), F.17), F.30) и F.33) находим оценки mx,my,Dx, Dy,kxy и гху: ж = -1,05, j/= -2,05, 2Х =su/19« 194, 2У = s22/19 и 136, кху = si2/19 и 111, ' U,Do, /SHS22 где 511 = 3681, si2 = 2111, S22 = 2583. По табл. 7 находим для а — 0,95, I = т = 2, к = п — т = 18 значе- значение fa = 3,55. После этого формула F.38) определяет реализацию довери- *) Неравенства между матрицами, так же как и между векторами, по- понимаются как соответствующие неравенства для всех элементов матрицы.
6.5. Оценки математического ожидания и ковариационной матрицы 275 acements -30 -20 -10" —I 1 И- 10 20 30 н 1 1— ¦¦-20 Рис. 6.6 тельной области для вектора [тх ту]1 как множество внутренних точек эллипса 0,5113(тж + 1,05J - 0,8358(жж + 1,05)(ту + 2,05) + + 0,7287(жу + 2,05J = 19,72. На рис. 6.6 этот эллипс показан вместе со всеми экспериментальными точ- точками. Определив по табл. 4 значение еа = 0,380 по данным а = 0,95, к = = п — 1 — 19, находим по формуле F.26) доверительные интервалы для дис- дисперсий координат случайного вектора: 8,6 < \J~D~X < 19,2, 7,2 < ^fWy < 16,1. Наконец, определив по табл. 1 значение еа = 1,96, для которого 2Ф(ва) = а = 0,95, находим по приближенной формуле F.45) доверитель- доверительный интервал для коэффициента корреляции: /1, 1,68 1,96 \ /I, 1,68 ],96\ th(-ln- 7=) < г < th -In- h -7=1, 42 0,32 y/vfJ \2 0,32 y/l7 J или, выполнив вычисления, 0,338 < г < 0,862. Совместные доверительные интервалы для жж, my, Dx, Dy и г, соответ- соответствующие а = 0,95, согласно концу п. 6.2.4 можно определить как довери- доверительные интервалы для каждого из этих параметров, соответствующие ко- коэффициенту доверия он = 1 — A — а)/Ъ — 0,99. В результате получаем -20,96 <тх < 18,86, -18,72 < ту < 14,62, 5,8 < \/~D~x < 22,0, 4,9 < л/В~у < 18,5, 0,200 < г < 0,895.
276 Гл. 6. Оценивание параметров распределений Найдем еще совместные доверительные интервалы для величин тх и ту. Для этого следует определить доверительные интервалы для каж- каждой из величин тх,ту, соответствующие коэффициенту доверия «2 = = 1 — A — а)/2 = 0,975. В результате получим -8,80 <тх < 6,70, -8,47 < ту < 4,37. Для сравнения на рис. 6.6 показан прямоугольник, образованный совмест- совместными доверительными интервалами для тх и ту. 6.6. Проверка гипотез о параметрах распределений 6.6.1. Задачи проверки гипотез. Задаче построения довери- доверительных областей для параметров распределений родственна задача проверки гипотез об этих параметрах. Из сказанного в п. 6.1.1 яс- ясно, что никаких точных утверждений о параметрах распределения по результатам опытов делать нельзя. Можно лишь высказывать раз- различные предположения о них — гипотезы. Задача проверки гипотез состоит в том, чтобы установить, противоречит принятая гипотеза экспериментальным данным или нет. Возможны два основных типа гипотез о неизвестных параметрах распределения. Гипотеза первого типа представляет собой предполо- предположение, что неизвестный параметр в (скалярный или векторный) име- имеет данное значение, скажем #о, или принадлежит данному множеству значений. Гипотеза второго типа состоит в том, что неизвестные пара- параметры в двух независимых выборках (или в большем числе выборок) имеют одни и те же значения. Ясно, что гипотеза второго типа, по существу, представляет собой предположение, что две серии опытов, в которых получены выборки, произведены в одних и тех же услови- условиях, так как только при выполнении определенного комплекса условий в каждом опыте вероятности событий и характеристики случайных величин имеют одни и те же значения во всех опытах. Характерной причиной изменения условий опыта часто являются различного рода дрейфы (тренды) — медленные неконтролируемые изменения различ- различных величин, характеризующих условия опытов. При этом изменение величины считается медленным, если в течение любой одной серии опытов ее можно считать практически постоянной и только в интер- интервале времени между двумя сериями опытов ее изменение может быть существенным. Задача проверки гипотез второго типа в таких случа- случаях представляет собой задачу обнаружения существенных дрейфов за время между двумя сериями опытов. Алгоритм, в соответствии с которым экспериментальным данным ставится в соответствие решение принять или отвергнуть гипотезу, называется правилом решения или решающим правилом. 6.6.2. Проверка гипотез о значении параметра. Задача про- проверки гипотез первого типа легко решается с помощью доверитель- доверительных областей. Если данное значение во (данное множество значений)
6.6. Проверка гипотез о параметрах распределений 277 принадлежит полученной реализации доверительной области (имеет непустое пересечение с ней), то можно считать, что гипотеза не про- противоречит экспериментальным данным. В противном случае гипоте- гипотеза отвергается. При таком решающем правиле вероятность отклонить гипотезу в случае, когда она верна, равна 1 — а. Пример 6.9. В условиях примера 6.5 гипотезу о том, что вероятность события А равна 0,5, следует отвергнуть, так как точка р = 0,5 не принадле- принадлежит доверительному интервалу @,583; 0,763), соответствующему а = 0,95. Вероятность отвергнуть правильную гипотезу в данном случае равна 0,05. Пример 6.10. В условиях примера 6.8 гипотезу о некоррелированно- некоррелированности случайных величин следует отвергнуть, а гипотезу о том, что коэф- коэффициент корреляции заключен в интервале @; 0,5), можно принять, так как точка г = 0 не принадлежит доверительному интервалу @,338; 0,862), а интервал @; 0,5) пересекается с этим доверительным интервалом. Другой подход к задаче проверки гипотез первого типа будет дан в п. 10.4.6. 6.6.3. Проверка гипотез о совпадении значений парамет- параметра. Для решения задачи проверки гипотез второго типа часто приме- применяется видоизмененный третий метод п. 6.2.4. Видоизменение состоит лишь в том, что вместо неизвестного параметра в в число аргументов функции ср включается его оценка по второй выборке. Пусть ©1 и 02 — две оценки параметра в, полученные по двум независимым выборкам. Предположим, что удалось найти скалярную функцию <?>(©i, 02, S) оценок 0i, 02 и некоторой статистики 5, обла- обладающую следующими свойствами: 1) при любых фиксированных значениях в\ и s величин 0i и S неравенство ^(#i,#2,s) < с при возрастании с определяет моно- монотонно возрастающее семейство вложенных одна в другую областей 2) cpF,6,s) = 0 при любых (9, s и <?>(#i,#2, s) >0 при любых #1, #2,s, #i ф 02 (и, следовательно, точка в\ = в2 принадлежит области DFi, s, с) при любых с > 0, в\ и s); 3) распределение случайной величины Т = ^(©1,02,5') в случае справедливости гипотезы не зависит от неизвестного параметра в. Тогда, определив 5а из уравнения P(ip(Q1,e2,S)<6a)=a, получим следующее правило решения, соответствующее коэффици- коэффициенту доверия а: если ^(©i,©2,5') < Sa, то гипотеза не противоречит экспериментальным данным; если же ^(©i,©2,5') ^ Sa, то гипотеза отвергается. При этом вероятность отвергнуть гипотезу в случае, ко- когда она верна, равна 1 - а.
278 Гл. 6. Оценивание параметров распределений Применим изложенный общий метод для проверки гипотезы, что математическое ожидание случайной величины одно и то же (неиз- (неизвестное) значение в двух независимых сериях опытов. Рассмотрим две серии независимых наблюдений нормально распределенной ве- величины X (или двух случайных величин Х\ и I2) с неизвестным математическим ожиданием тх и ковариационной матрицей Кх. Ги- Гипотеза, подлежащая проверке, состоит в том, что тх предполагается одинаковым в обеих сериях опытов. Матрица Кх при этом считается одной и той же в обеих сериях опытов. Пусть п\ и п2 — число опытов в первой и второй сериях, Xl и Х2 — случайные выборочные сред- средние в двух сериях опытов, JJ\ и ?/2 — матрицы, столбцами которых служат выборочные значения наблюдаемого, случайного вектора X в двух сериях опытов, Sk = UkUl - пкХкЩ = и°ки°Т - пкХ°кХ°кт (к = 1,2), m — размерность наблюдаемого вектора X. Согласно результатам примеров 5.19 и 5.24 случайная величина Ь — ¦ г (Л1 - А2 )П (Xi ra(ni + П2) имеет F-распределение /m,ni+n2-m-i(/)- Так как это распределение не зависит от неизвестных тпх и Кх, то функция +712-771-1) f^T —T,1(^ -= . (хг-х2)н (x1-x2) ш(П1+П2) удовлетворяет всем необходимым условиям. Поэтому можно принять следующее решающее правило для проверки гипотезы о равенстве математических ожиданий в двух сериях опытов: если ^7Т Tl у\/ ^ m(m +n2) (а ла\ -A2J < /a -, гт, (O.4b) } nm2(ni +n2 -m- 1) ч J где fa — верхняя 100A — а)-процентная точка F-распределения fm,ni+n2-m-i(f), то гипотеза принимается; в противном случае она отвергается. В первом случае говорят, что расхождение двух средних незначимо и может быть вызвано только случайностью результатов опытов. Во втором случае говорят, что расхождение значимо и мало- маловероятно, что оно вызвано только случайностью результатов опытов. Значимое расхождение указывает на возможность различия матема- математических ожиданий в двух выборках (вследствие неконтролируемого различия в условиях опытов). Величина fa практически определяется по табл. 7 по данным а, I — m и к = п\ + ?72 — m — 1.
6.6. Проверка гипотез о параметрах распределений 279 В частном случае скалярной наблюдаемой величины X (га = 1) можно преобразовать полученное решающее правило так, чтобы вме- вместо .F-распределения пользоваться Т-распределением. На основании результатов примера 5.16 случайная величина /711712G11 +П2 -2) (-= -^ имеет Г-распределение sni+n2_2(?). Так как это распределение не за- зависит от тх и Dx — KXJ то за функцию (p(Xi,X2,H) можно принять статистику Т. Тогда получим следующее правило: если 2 - 2) (O.47J где ta определяется уравнением Р(|Т| < ta) = а, то гипотеза прини- принимается; в противном случае она отвергается, расхождение между дву- двумя средними признается значимым. Практически ta определяется по табл. 3 по данным а и к — п\ + П2 — 2. Ясно, что F.46) при га = 1 совпадает с F.47) (пример 5.17). Для дополнительного подкрепления решения о том, что расхожде- расхождение двух средних незначимо, можно вычислить вероятность получе- получения расхождения, большего чем наблюденное. В случае скалярной величины X эту вероятность Р(|Т| > |t|), где t — полученная в ре- результате опытов реализация величины Т, можно найти по табл. 3. Значение этой вероятности P(F > /) в общем случае согласно ре- результату примера 5.25 равно значению функции распределения для /3-распределения с параметрами р = (щ + П2 — т — 1)/2, q = га/2 в точке v = [1 + ra//(ni + п.2 — т — I)]? где / — полученная в резуль- результате опытов реализация величины F. Пример 6.11. В условиях примера 6.6 по второй выборке, содержащей результаты 30 опытов, получено среднее 23,5 и S2 = 354. Проверить гипо- гипотезу о равенстве математических ожиданий в двух сериях опытов, приняв а = 0,95. В данном случае п\ = 20, пъ — 30, т = 1, х\ = 17,9, Х2 = 23,5, s\ = = 14 380, s2 = 23 354, h = si + s2 = 37 734, ta = 2,013 и _ ~X2\ = |17,9 - 23,5| = 5,6 < 2,013 Поэтому гипотезу о совпадении математических ожиданий можно принять. Для подкрепления этого решения найдем значение величины Т, полученное в результате опытов: 20 -3°-48 A7,9 -23,5) ^-0,692. 50 • 37 734 V ' ' } После этого по табл. 3 находим для к = 48 Р(\Т\ > 0,692) и 0,493. Таким образом, с вероятностью 0,5 можно получить еще большее расхождение средних, чем наблюденное.
280 Гл. 6. Оценивание параметров распределений 6.6.4. Исключение аномальных наблюдений. Изложенный метод проверки гипотезы о совпадении математических ожиданий в двух выборках можно, в частности, применить для проверки гипотезы об аномальности наблюдения, давшего в результате изолированную точку, удаленную от группы остальных экспериментальных точек. При таком «выскоке» экспериментальной точки из группы осталь- остальных точек естественно возникает мысль, что этот «выскок» произо- произошел из-за неконтролируемого нарушения условий опыта и поэтому «выскочившую» точку следует отбросить, признать аномальной. Яс- Ясно, что для принятия такого решения нужны веские основания. Так возникает задача проверки гипотезы об аномальности наблюдения. Предположим, что в результате п + 1 опытов одно значение слу- случайной величины оказывается на значительном удалении от группы п остальных значений. Без потери общности можно считать, что откло- отклонение произошло в (п + 1)-м опыте. Для проверки гипотезы об ано- аномальности значения хп+\ достаточно рассматривать его как вторую выборку, состоящую из одной экспериментальной точки хп+\. Тогда можно будет применить изложенный метод. В данном случае п\ — п, П2 = 1, Х<2 — Xn+i, $2 = 0 и F.46) дает следующее решающее прави- правило: значение Хп+\ наблюдаемой величины X признается аномальным и отбрасывается, если / лгТ \~Т \ С — 1 / ~у~ -\г \ \ -f rITl\Tl -f- 1J \ ± /7,^-1/ 1 -г п(п — ГП) где fa — верхняя 100A — а)-процентная точка F-распределения fm,n-m(f)] в противном случае оно учитывается. Точно так же в случае скалярной величины X F.47) дает правило: значение Хп+\ признается аномальным и отбрасывается, если (X X n+iJ a]J п(п-1) ' где ta определяется по табл. 3 по данным а и к = п — 1; в противном случае Xn+i учитывается. Пример 6.12. В результате 21 опыта получены 20 экспериментальных точек примера 6.8 и еще одна точка E0,40), удаленная от группы осталь- остальных. Проверить гипотезу об аномальности этой точки. По табл. 6 для а = 0,95, ? = ж = 2, к = п — ж = 18 находим fa = 3,55. Так как (хТ - x^s^ixi - х2) = [0,5113E0 + 1,05J - 0,8358E0 + 1,05)D0 + 2,05) + + 0,7287D0 + 2,05J] • 10~3 и 0,827 > 3,55 ¦ ^-^- и 0,414, 20 • 18 то точку #21 = [50 40 ]т можно признать аномальной и исключить.
Глава 7 ТЕОРИЯ ОЦЕНОК 7.1. Общие свойства оценок 7.1.1. Некоторые соотношения. Для каждой статистической характеристики можно найти много различных оценок. Мы это ви- видели на примере оценок дисперсий и ковариаций. Другие оценки для дисперсии нормально распределенной случайной величины мож- можно получить, выразив дисперсию Dx = \i^ из формулы C.89) че- через любой четный центральный момент /х2& и заменив в получен- полученном равенстве момент /i2& его оценкой. За оценку математическо- математического ожидания случайной величины с симметричным распределением можно принять ее выборочную медиану, т.е. среднее Xv+\ из экс- экспериментальных значений величины X, пронумерованных в поряд- порядке возрастания, при нечетном числе опытов п — 2v + 1 и полусум- полусумму двух средних [Xv + Xv+\)j2 или величину XXv + A — A)X^+i, Л ? @,1) при четном числе опытов п — 2v. Естественно стремить- стремиться находить в известном смысле наилучшие оценки с минималь- минимальной дисперсией или смещенные оценки с минимальным средним квадратом ошибки (п. 6.2.1). Для этого необходимо изучить общие свойства оценок и установить некоторые общие методы их нахож- нахождения. Как и прежде, будем рассматривать результаты опытов (не обяза- обязательно независимых) Х\,..., Хп как координаты п-мерного случай- случайного вектора (строки случайной п х m-матрицы в случае т-мерного наблюдаемого вектора X) U и обозначим через д(и\в) плотность ве- величины U, зависящую от неизвестного параметра в. Любая оцен- оценка параметра в согласно определению п. 6.2.1 представляет собой функцию результатов опытов U, не зависящую от в: 0 = (f(U). Ма- Математическое ожидание этой оценки в общем случае зависит от параметра в: = f <p(u)g(u\e)du = mv(e). G.1) Для несмещенной оценки 0 по определению т(р(в) = 0. \> Будем считать в общем случае параметр в r-мерным вектором и соответственно через d/дО обозначать оператор градиента: д/дв — = [д/двх ... д/двг]Т. Тогда будем иметь дт/д0 = [d/двг ... д/двг] и,
282 Гл. 7. Теория оценок дифференцируя формулу G.1) по #, получим т„ сю = J ф. дтЫд(и\в) ( |т, g(u\0)du = }-\\. G.2) Здесь, как и в п. 5.1.2, тп'^(в) представляет собой квадратную мат- матрицу с элементами m'pqF) = dmpF)/d6q, где m\{6),... ,mr{6) — ко- координаты вектора mip{0). При этом производные функции 1пд(и\в) по в\,..., вг могут существовать в обычном смысле или как обобщен- обобщенные функции, содержащие линейные комбинации 5-функций. Точно так же, дифференцируя формулу CXJ / g(u\e)du=l, находим ИЛИ сю сю дв Из G.4) и из G.2) следует формула M@-<?)Zt = m[@-<?) Таким образом, случайный вектор G.3) G.4) G.5) имеет нулевое математическое оэюидание и его ковариацил с ошиб- ошибкой в — в оценки в = ip(U) равна матрице производных rn'^iO) век- вектора Мв = т^ (в) по 6>i,... ,0Г. <\ 7.1.2. Нилсняя грань рассеивания оценки скалярного па- параметра. Из равенства G.5) можно получить нижнюю грань рассе- рассеивания оценки в. D> Рассмотрим сначала случай скалярного параметра в. В этом случае все величины в G.5) скалярные и к математическому ожида- ожиданию в левой части можно применить неравенство C.45) для моментов
7.1. Общие свойства оценок 283 второго порядка скалярных случайных величин. В результате полу- получим ИЛИ [m'v(9)f^M{Q-eJ-DZ, G.6) Отсюда в случае, когда DZ < оо, получаем неравенство >dz = одЫд/дв, G-7) где для краткости опущены аргументы U и в функции д. Это нера- неравенство впервые получено Фишером [111] (см. также [28, 45, 84, 114]). В частном случае несмещенной оценки в т'^F) = 1, М(в — вJ — = DQ и неравенство G.7) принимает вид \ = ш^т < ^ Это неравенство определяет нижнюю грань (не обязательно точ- точную) дисперсии несмещенной оценки. Никакая несмещенная оценка не может иметь меньшую дисперсию, чем правая часть G.8). Если DZ = оо, то неравенства G.6) и G.7) становятся тривиаль- тривиальными и не определяют нижнюю грань среднего квадрата ошибки. Это имеет место, например, в случае разрывной функции д(и | в) с зави- зависящими от 0 точками разрыва. В этом случае производная dinд/дО содержит ^-функции, а (д\пд/двJ не существует (квадрат 5-функции не имеет смысла). 7.1.3. Эффективная оценка скалярного параметра. Оцен- Оценка 0, для которой в G.7) имеет место знак равенства, называется эффективной. \> По доказанному в п. 3.3.4 знак равенства в G.6), а следова- следовательно, и в G.7) получается тогда и только тогда, когда случайные величины в — в и Z = д\пд/дв связаны линейной зависимостью: Z = дЫ9^в) = с(в -в)= сЫи) - в], G.9) где коэффициент пропорциональности с может зависеть от 0, но не зависит от U. Из G.9) и из G.4) следует, что математическое ожидание эффективной оценки 0 всегда равно в, 0 = в. Таким образом, любая эффективная оценка является несмещенной. <\ Коэффициент с в G.9) легко определяется. Имея в виду, что для эффективной оценки DQ — 1/DZ, из G.9) находим DZ = c2DQ = c2/DZ,
284 Гл. 1. Теория оценок откуда следует с = DZ = Ddlng/дв. Ясно, что эффективная оценка существует тогда и только тогда, когда функция д\пд(и | 6)/86 представима в виде G.9). В этом случае правая часть неравенства G.8) представляет собой точную нижнюю грань дисперсии для несмещенных оценок: ЬЖ™ GЛ0> Если функция д\пд/дв не может быть представлена в виде G.9), то эффективной оценки не существует. В этом случае правая часть в G.8) не является точной нижней гранью дисперсии несмещенной оценки. Заметим, что из несмещенности любой эффективной оценки сле- следует, что ни для какой смещенной оценки в G.7) не может быть знака равенства. Тем не менее, во всех случаях, когда существует эффектив- эффективная оценка, существует смещенная оценка более точная, чем эффек- эффективная, т.е. с меньшим средним квадратом ошибки. Однако несмещен- несмещенными оценками обычно не пользуются, чтобы избежать систематиче- систематических ошибок при небольшом числе опытов п. При большом же п за- заметного выигрыша в точности по сравнению с эффективной оценкой не получается. Поэтому эффективными оценками пользуются всегда, когда они существуют. Для любой несмещенной оценки в = y>(U) отношение правой ча- части неравенства G.8) к левой называется эффективностью этой оцен- оценки и обозначается е(ср): е(<р) = —J1 = -^— . G.11) VV^ DS-DZ DS-дЫд/дв Эффективность любой эффективной оценки равна 1. Эффективность любой другой несмещенной оценки представляет собой положитель- положительное число, меньшее единицы. Из G.9) ясно, что если эффективная оценка существует, то она единственная, так как формула G.9) не может быть справедлива для двух различных функций if. Оценка, эффективность которой стремится к единице при неогра- неограниченном возрастании числа опытов, называется асимптотически эффективной. 7.1.4. Нижняя грань рассеивания оценки векторного па- параметра. Перейдем к случаю векторного параметра в. Перепи- Перепишем G.7) в виде где 7<р — М(О — ОJ — второй начальный момент ошибки оценки О = cp{U), а ? — вспомогательная переменная. Таким образом, квад-
7.1. Общие свойства оценок 285 ратичная форма одной скалярной переменной ? в левой части G.12) ни при каких значениях ? не может быть больше квадратичной фор- формы в правой части. Это наводит на мысль, что, построив аналогичные квадратичные формы для случая векторного параметра #, мы сможем распространить этот факт на многомерные оценки. Пусть 0 = (f(U) — оценка r-мерного векторного параметра в. Мо- Момент второго порядка ошибки этой оценки определяется формулой Естественно предполагать, что между координатами вектора в — в не существует линейных зависимостей. В этом случае матрица Г^ обра- обратима. Естественно также считать, что между координатами вектора mip{0) не существует зависимостей вида <р{гп\(в),..., гпг(в)) = 0. В та- таком случае матрица т^@) обратима. При этих условиях обобщение неравенства G.12) на случай векторного параметра в имеет вид €тГёЧ < ?r/?tf*/v& G-13) где через \1^ для краткости обозначена матрица, обратная т^@), ц^ — (т^), а ? — вспомогательная векторная переменная (матрица- столбец) . D> Чтобы доказать G.13), вычислим момент второго порядка слу- случайного вектора Имеем Г„ = MVVT = Т~гМ{% - в)(вт - Отсюда, учитывая, что М@ - в)(вт - вт) = Г^, MZZT = Kz, М(в - 0)ZT = m; = »~\ MZ(eT - вт) = mf/ = (ц%)-\ получаем Но любой момент второго порядка представляет собой неотрицатель- неотрицательно определенную матрицу (п. 3.3.4), вследствие чего ?TFV? ^ 0 при всех ?, откуда и следует G.13). В частном случае несмещенной оцен- оценки 0 171^F) = 0