Text
                    ЧАСТЬ ПЕРВАЯ
ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ.
ГЛАВА ПЕРВАЯ
ОСНОВНЫЕ СВОЙСТВА И ОПРЕДЕЛЕНИЕ МАТЕМАТИЧЕСКОЙ
ВЕРОЯТНОСТИ
1.	Наиболее обычная и важная теоретическая схема, которой мы
пользуемся для познания внешнего мира и для предвидения отдель-
ных фактов, состоит в том, что на основании предшествующего
опыта утверждается достоверность наступления события ’ известного
класса А, если осуществлен некоторый определенный комплекс условий
а, каковы бы ни были прочие обстоятельства. Поскольку в данном кон-
кретном опыте соблюдены условия а, наступление факта А неизбежно.
В дальнейшем нам придется еще рассмотреть в свете теории
вероятностей, на чем покоится и насколько обоснована эта уверен-
ность , и мы увидим, что абсолютной достоверностью наши
предвидения о ходе реальных явлений никогда не могут обладать;
но пока нам нет надобности на этом останавливаться. Заметим лишь’
что предполагаемый нами закон, связывающий комплекс а с фак-
том А, только тогда будет практически полезен, если совокупность
условий а не слишком сложна и не слишком трудно поддается
наблюдению; если, напротив, неуловимое изменение условий опыта
влечет за собой противоположный результат, если, даже при самой
совершенной технике, время, нужное для исследования того, соблю-
дены ли условия а или нет, превышает продолжительность опыта, —
то такой закон оказывается непригодным для предвидения факта Д,
который мы называем тогда случайным. Хотя опыты этого рода
мало распространены в лабораториях, но в практической жизни
почти ни один наш поступок не мог бы быть совершон, если бы
мы хотели знать с безусловной достоверностью, что соблюден
весь комплекс условий, обеспечивающий наступление нужного
нам факта: мы обычно не выскакиваем на улицу из окна,
но предпочитаем спуститься по лестнице, хотя и здесь можно упасть
Теория вероятностей,	1

2 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ и разбиться на-смерть, между тем как прыжок из окна не всегда смертелен. Поступая так или иначе, мы руководствуемся не уверен- ностью в наступлении определенного результата, а сознательной или инстинктивной оценкой его вероятности. Таким образом, говоря, что некоторый факт А случаен, т.-е. не может быть предсказан с безусловной уверенностью, мы на этом не успокаиваемся, а стре- мимся ввести вместо слишком усложнившегося комплекса а, из кото- рого А вытекает всегда, такой более простой комплекс условий р, при наличии которого в данном опыте наступление факта А имеет определенную вероятность. При этом, пока речь идет только об отдельном конкретном опыте, особенно важны те случаи, когда, как в вышеуказанном примере, наступлению рассматриваемого события приписывается очень большая или очень малая вероятность, подразумевая под этим, что факты очень вероятные происходят почти всегда, а маловероятные — почти никогда. Теория вероятностей, дающая правила для вычисления вероятно- стей одних событий, когда известны вероятности некоторых других, имеет одной из главных своих целей установление таких фактов, вероятности которых очень велики; поэтому в том обстоятельстве, что эти последние факты в действительности почти всегда осуще- ствляются, можно видеть экспериментальное подтверждение объектив- ной правильности общих предпосылок, лежащих в основе теории вероятностей. Вместе с тем и всякая специальная схема теории вероятностей, служащая для описания или объяснения определенной группы явлений, может считаться объективно соответствующей действительности тогда и только тогда, когда факты, теоретически обладающие очень большой вероятностью, на самом деле осуще- ствляются почти всегда. 2. Основное допущение теории вероятностей (постулат су- ществования математической вероятности) состоит в том, что существуют такие комплексы условий (J, которые (тео- ретически по крайней мере) могут быть реализованы неограниченное число раз, при наличности которых в данном опыте наступле- ние факта А имеет определенную вероятность,, выражающуюся математическим числом. Таким обра- зом, если факт В также обладает при соответствующих условиях определенной вероятностью, то всегда имеет место одно из трех соотношений: вер. А—вер. В; вер. А^> вер. В; вер. А <^вер. В.
ОСНОВНЫЕ СВОЙСТВА И ОПРЕДЕЛЕНИЕ < MATEMAT. ВЕРОЯТНОСТИ 3 Так же, как и в случае закономерных связей, о которых мы гово- рили вначале, опыт имеет решающий голос в вопросе о том, воз- можно ли при осуществлении данного комплекса условий и пол- ной неопределенности прочих обстоятельств приписать факту А определенную вероятность. Одной из важнейших целей прикладной теории вероятностей, или статистики, именно и является установлен ние a posteriori, при помощи применения соответствующих мате- матических теорем, совместимо ли с наблюденными статистическими данными допущение, что в ряде опытов, где были осуществлены известные одинаковые условия р, факт А имел определенную по- стоянную вероятность. Таким образом можно, например, считать довольно точно проверенным экспериментально, что при бросании с достаточной высоты симметрично сделанной игральной кости появление на верхней ее грани определенного числа очков имеет во всех опытах ту же самую вероятность, С более специальными статистическими примерами этого рода мы встретимся в дальнейшем, и на них нам пока незачем останавливаться. Но следует заметить, что во многих простых опытах — между прочим в обычных играх в карты, кости, лото и т. д. — мы без всяких статистических наблюдений усматриваем a priori, что некоторые результаты А и В данного опыта следует признать равновероятными (равно- возможными), т.-е. имеющими равные вероятности. Основанием для этого суждения служит в большинстве случаев симметрия, а именно допущение, что при самом внимательном анализе фактических усло- вий каждого опыта нельзя указать ни одного обстоятельства, кото- рое нужно было бы изменить в постановке опыта, если бы мы взаимно заменили названия фактов А и В. Например, тщательным и добросовестным перемешиванием карт полной колоды мы дости- гаем— или по крайней мере одинаково перед каждой игрой стремимся достигнуть — полной независимости в расположении карт от их значения или масти, так, чтобы объективно учитываемые условия предстоящей игры не изменились от того, назовем ли мы козы- рем (т.-е. привилегированной в каком-нибудь отношении мастью) бубновую или какую-нибудь другую масть; благодаря указанной симметрии при вынимании карты из колоды считают одинаково вероятным появление бубновой масти и какой-нибудь другой, напри- мер трефовой. Точно так же, если в урне имеется несколько перенумерованных шаров, не различимых на ощупь и тщательно перемешанных, то физические условия опыта вынимания шара сим- 1*
4 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ метричны по отношению к любым номерам, и появлению шара, с одним номером мы приписываем ту же вероятность, что и появле- нию шара со всяким другим. Указанные примеры, по отношению к которым все следствия теории можно считать экспериментально проверенными, являются* типичными образцами опытов, при которых соответствующие факты имеют определенную вероятность. Таким образом утверждение, что- некоторый факт А (при опытах, где соблюден определенный комплекс условий 0) имеет известную вероятность, а именно ту же самую, что и появление данного шара в определенном опыте с урной вышеуказанного образца, означает, что объективные условия для: возникновения в рассматриваемых опытах факта А равноценны по существу условиям, осуществляемым в соответствующем схема- тическом опыте с шарами. Например, если мы говорим, что при некоторых определенного рода опытах вероятность наступления события А равна вероятности! извлечения данного шара из урны, в которой находятся 100 оди- наковых шаров, то мы этим желаем выразить, что в каждом отдель- ном опыте мы так же мало можем рассчитывать на наступление факта Л, как на появление указанного шара из рассматриваемой урны; в частности, при многократном повторении опыта нет никаких объективных оснований ожидать, что факт А будет появляться чаще (или реже), чем данный шар при повторении извлечения из нашей урны (полагая, что вынутый шар всегда кладется обратно и тща- тельно смешивается с остальными). 3. В дальнейшем, опыты с шарами и картами будут служить нам иллюстрациями для пояснения общих правил, которыми нужно- руководиться при установлении соотношений между вероятностями одних фактов, когда известны определенные соотношения между вероятностями некоторых других связанных с ними’ фактов. Пра- вила эти, из которых дедуктивным путем выводятся все положения; теории вероятностей, сводятся к трем аксиомам.* 1) аксиома сравнения вероятностей, 2) аксиома о несовмести- мых событиях, 3) аксиома о совмещении событий. Следует заметить, что первые две аксиомы, говоря о вероятности какого-нибудь факта Л, всегда имеют в виду существование неко- торого неизменного комплекса условий опыта; напротив,, последняя аксиома (о совмещении) связывает вероятность факта А при одних данных условиях а с вероятностью того же факта при.
ОСНОВНЫЕ СВОЙСТВА И ОПРЕДЕЛЕНИЕ MATEMAT. ВЕРОЯТНОСТИ 5 другом соответствующем комплексе условий Для того, чтобы лучше уяснить самостоятельное значение последней аксиомы, мы отложим ее формулировку до второй главы, ограничившись пока рассмотрением первых двух аксиом и простых, но важных следствий, которые вытекают из них. Введем предварительно несколько основных понятий и терминов, которыми нам неоднократно придется пользоваться. Положим, что из колоды карт вынимается одна карта, и интересующее нас собы- тие А заключается в появлении туза безразлично какой масти; в таком случае каждый из фактов av а2, а2, появления туза ^соответственно бубновой, трефовой, пиковой и червонной масти назы- вается частным случаем события А. Таким образом всякий частный случай а события А характеризуется тем, что наступление а означает также и наступление А. Понятно, что появление Аг туза черных мастей а2 или а2 также является частным случаем появления А туза вообще. Часто бывает полезно делать различие между частными случаями в узком и широком смысле слова: если мы знаем, например, что в колоде кроме тузов черных мастей есть и красные тузы, так что событие А возможно и без наступления его частного случая Av то A-j называется частным случаем А в узком смысле слова (или, короче, видом события Л); напротив, если бы налич- ность красных тузов нам не была известна, т.-е. если бы мы не были уверены в возможности появления А помимо Av мы ограничились бы утверждением, что Аг есть частный случай А (в широком смысле слова), не исключая, таким образом, допущения-^ что Аг вполне тождественно с событием А. Итак, утверждая, что а частный случай в узком смысле слова (или вид) события А, мы выражаем не только то, что А несомненно осу- ществляется, коль скоро наступило л, но также и то, что осуществление А возможно и без по- явления а. Очевидно, что, применяя вышеуказанным образом термин вид, мы должны в соответствии с нашим интуитивным представлением о „вероятности* принять, что всякое событие А всегда более вероятно, чем некоторый его вид (частный случай в узком смысле слова) а, т.-е. вер. А вер. а. Естественно поэтому принять следующую аксиому: Аксиома сравнения вероятностей. Если а есть вид (част- ный случай в узком смысле слова) события А, то вер. а < вер. А;
6 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ обратно, если между вероятностями фактов аг и А. существует неравенство вер. <^вер. А, то оно озна- чает, что вер. аА~вер. а, где а есть некоторый вид. события А. Согласно первой части нашей аксиомы мы принимаем, например,., что в некоторых определенных условиях вероятность рождения ребенка вообще больше, чем вероятность рождения мальчика. Из первой части этой аксиомы вытекают два следствия, которые и непосредственно очевидны: 1. Если факт А достоверен (т.-е. необходимр должен наступить), а факт В только возможен, то наша уве- ренность в наступлении А больше, чем в насту- плении В (вер. А > вер. В), ибо В является лишь одним из видов, осуществления А. 2. Если факт В возможен, а событие С невоз- можно, то мы больше рассчитываем на появление В, чем на появление С (вер. В>вер. Q, так как событие В может произойти и без С. Иначе говоря, достоверность есть максимальная вероятность, а невозможность есть минимальная вероятность. Таким образом все достоверные факты имеют одну и ту же макси- мальную, т.-е. наибольшую вероятность, а невоз можные факты имеют минимальную, т.-е. наимень- шую вероятность. Поясним теперь вторую часть высказанной аксиомы. Когда мы говорим, что вероятность смерти в течение года больше,, чем вероятность смерти в течение месяца, то последний факт есть частный случай первого. Но что выражает утверждение, что вероятность смерти А в течение года для лиц одной категории (на- пример для стариков 70 лет) больше, чем вероятность смерти а3 в те- чение года для лиц другой категории (например для юношей 20 лет)? Очевидно, что здесь не может быть речи о том, что аг является частным случаем А; но если мы введем частный случай а события Л, заключающийся в смерти старика в течение некоторого более или менее короткого промежутка времени, то, согласно первой части аксиомы, по мере уменьшения рассматриваемого промежутка времени уменьшается и вероятность факта а*. в согласии со вто- рой частью аксиомы утверждение, что вер. А^>вер. ау озна- чает существование такого срока (примерно три недели), для;
ОСНОВНЫЕ СВОЙСТВА И ОПРЕДЕЛЕНИЕ MATEMAT. ВЕРОЯТНОСТИ 7 которого вер. а=вер. аг т.-е. вероятность старику умереть в тече- ние некоторого определенного срока, меньшего, чем год, та же, что вероятность юноше 20 лет умереть в продолжение года. Разумеется, фактическое указание такого вида а события Л, что вер. а—вер. av может представлять более или менее значительные затруднения, но тем не менее теоретическая возможность этого прин- ципиально необходима для того, чтобы утверждение вер. А > вер. имело смысл. 4- Переходим к следующей аксиоме. Аксиома о несовместимых событиях. Если известно, что события А и А2 несовместимы между собой, и, с д р у- гой стороны, события В и В2 также между собой несовместимы, при чем вер. А = вер, В и вер. А1—вер.Вуу то вероятность факта С, заключающегося в насту- плении события А или события Av равна вероят- ности факта С*, заключающегося в наступлении В или Вг т.-е. вер. (А или А1) = вер. (В или В-Р). Понятие несовместимости двух фактов А и Ал вряд ли нуждается в особом пояснении: оно означает, что наступление в данном опыте одного йз них невозможно в случае наступления другого. Высказанную аксиому можно формулировать еще иначе: вероят- ность наступления какого-нибудь одного из двух несовместимых событий А или Аг есть величина, которая вполне определяется вероятностями каждого из них в отдельности, т.-е. представляет собой определенную функцию вер. А и вер. вовсе не зависящую от природы самих фактов А и Ар иными словами, вер. (А или Aj)=/ (вер. А, вер. Ар). (1) Например, если по тем или иным основаниям мы знаем, что для лица данной категории, вступающего в брак, вероятность овдо- веть в течение трех лет равна вероятности, что при вынимании шара из данной урны появится белый шар, а вероятность овдоветь после трех лет равна вероятности появления черного шара, то веро- ятность вообще овдоветь для лица указанной группы равна вероят- ности появления из урны шара белого либо черного цвета. Высказанную аксиому нетрудно распространить на какое угодно число несовместимых событий. А именно: Следствие 7. Если Лг Л2, Л3,..., Ап между собой несовместимы и факты В19 В2, В3,..., Вп также
8 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ .между собой несовместимы, при чем вер. А1 = вер. Вг вер. А2 — вер. В2,..., вер. Ап = вер. Вп, то вер. (Д2 или Д.,... или Аг^—--вер. (ВА или В2... или Вп). В самом деле, наше утверждение для п = 2 соответствует выше формулированной аксиоме; поэтому для доказательства его в общем виде достаточно показать, что если утверждение справедливо для некоторого значения п, то оно верно также и для числа Итак, дано, что Дл+1 несовместимо ни с одним из событий Д2,..., Ап; следовательно Дл+1 несовместимо также и с насту- плением факта а, состоящего в появлении Аг или А... или Ап, точно так же Вп+1 несовместимо с фактом состоящим в насту- плении Вг или В2. .. или Вп. Но мы полагаем уже известным, что вер. (Д2 или А2... или Ал) = вер. (Вт или В2... или т.-е. вер. а = вер. и кроме того, по условию, вер. Ап+1=вер. Bn±v Следовательно, в силу нашей аксиомы вер. (а или Ап+г) = вер. (£ или Вл+1), т.-е. вер. (Д2 или А2... или Ап+3) = вер. (В2 или В2. . . Вл+1), что и требовалось доказать. С другой стороны, сопоставляя обе аксиомы, получаем Следствие 2. Если А и Д2 несовместимы между собой, а В и Вг несовместимы между собой, при чем вер. А = вер. В и вер. Д2 > вер. Bv то вер. (Д или Д2) > вер. (В или В2), В самом деле, согласно аксиоме сравнения вероятностей, можно указать такой вид аг факта Д2, что вер. аг ~ вер. Вг В таком случае наступление А или аг будет частным случаем в узком смысле слова факта (Д или и следовательно вер. (А или Д2)> С>вер. (А или а-^^вер. (В или В2). Следствие второе, очевидно, равнозначно утверждению, что функция f (вер. Д, вер. Д:), которая стоит в формуле (1), возрастает при воз- растании одной из двух вероятностей, от которых она зависит, если другая из них остается неизменной. Тем более, конечно, функция /воз- растает, если обе вероятности увеличиваются. Таким образом получаем: Следствие З.Если (при сохранении прежних усло- вий несовместимости) вер. А^>вер.В и вер. А^^вер.В^ то вер. (Д или Д2) > вер. (В или В^). Применяя затем тот же способ математической индукции, кото- рым мы воспользовались для доказательства следствия (1), нетрудно
ОСНОВНЫЕ СВОЙСТВА И ОПРЕДЕЛЕНИЕ MATEMAT. ВЕРОЯТНОСТИ 9 распространить следствия (2) и (3) на произвольное число фактов, и получаем Следствие 4. Если события А]у А2, . . ., Ап между собой несовместимы, а, с другой стороны, события Вр В.,, .. ., Вп несовместимы между собой, при чем вер, АТ вер, Вр . . ., вер. Ап_г вер, Bn_v вер, Ап^> вер. Вп, то вер. (/Ц или А2,,, или Ап)^>вер, (В1 или В2,,, или В). Предположим теперь, в частности, что рассматриваемые нами несовместимые между собой случаи Дг Д2, ..., Ап имеют равные вероятности и, кроме того, единственно возможны, т.-е. один из фактов Av Д2,...,Дл непременно должен наступить; предположим также, что и события Вг В2, ...,Вп несовместимы между собой, равновероятны и единственно возможны. Нетрудно понять, что при таких условиях вероятность каждого из событий А должна быть равна вероятности события В; действительно, если бы этого не было, т.-е. если бы мы допустили, например, что вер. Аг > вер. Вг то мы имели бы также вер. А2^> вер. В2, . . ., вер. Ап^> вер. В п, и благодаря следствию (4) пришлось бы признать, что вер, (/Ц или А2.. . или > вер. (Bj или В2. .. или Вл), что невозможно, так как наступление А2 или А2... или Ап достоверно, равно как и наступление ВА или В2. . .или Вп, Аналогичным образом убеждаемся в недопустимости предположения, что вер, Аг вер. Вр а потому, какова бы ни была физическая природа фактов А и фактов В, мы вынуждены им приписать одну и ту же вероятность. Принимая во внимание следствие (1), мы выводим отсюда Следствие 5. Если событие X происходит в неко- тором опыте, допускающем /г равновероятных, несо- вместимых и единственно возможных исходов Av .Д2,..., Ап, тогда и только тогда, когда наступает какое-нибудь и з т (т <^п) определенных исходов Др Д2,..., Ат (иначе говоря, если факту X благо- приятствуют только случаи Av Д2,..., Дт); если, с другой стороны, и событию У благоприятствуют ,т определенных случаев Bv,,.,Bm из каких-нибудь п равновероятных, несовместимых и единственно возможных случаев В,, Во,.. ., В , — то событие X и событие Y имеют равные вероятности. Последнему утверждению, очевидно, можно дать и такую фор- мулировку:
10 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ Если событию X благоприятствуют т случаев из общего числа всех п единственно возможных несовместимых и равновероятных случаев, то веро- ятность события X зависит только от чисел т и п (а не от природы рассматриваемого опыта), т.-е. вер. X — F (т, п), (2> где F(myn) есть некоторая определенная функция, которая должна быть установлена раз навсегда. Какова же эта функция F (ту п) ? Можем ли мы ее выбрать по своему усмотрению, или же, напротив, наш выбор в той или иной мере предопределен принятыми нами аксиомами ? Ответ на этот вопрос дает следующая основная 5. Теорема. Если событию X т случаев из общего числа теорема. благоприятствуют п несовместимых,. равновероятных и единственно возможных случаев /Ц, Л2,..., а событию Y благоприятствуют тг случаев из несовместимых, равновероятных и е ди нственно возможных случаев Bv . . ., Вп^, т о вер. X = вер. К, если напротив, вер. X вер. Yt если т.ч тт. ' В самом деле, предположим сначала, что - = — —; общее зна- п Пу чение этих обеих дробей можно представить в виде несократимой * М дроби — 7V Иными словами, обозначая соответственно через k и га ТП множители, на которые нужно сократить дроби - и —1-, чтобы. привести их к несократимому виду ~, можем написать: т п пг т ту п пу М т — kM, п = kN, т1 = k}AY = kAN.
ОСНОВНЫЕ СВОЙСТВА И ОПРЕДЕЛЕНИЕ MATEMAT. ВЕРОЯТНОСТИ 11 Располагая все случаи Л2, . .., Ап в виде таблицы, содер- жащей k строк и Af столбцов (kN — ri) । /И N — M I ......^т + 1........ J ^2 ^/г±2......^т + 2....... i/*///. I............................ i ^2k' ‘ + k......4^ можем поместить в первых М столбцах все т — kM благоприятные событию X случаи, а в остальных столбцах тогда будут все неблагоприятные случаи. Таким образом, если появление любого из случаев 1-го столбца^ назовем событием появление любого из случаев 2-го столбца назовем а2 и т. д., то мы будем иметь всего Af несовместимых и единственно возможных событий, av а9)>.ч , aN, которые,, на основании следствия (1), будут равновероятны, при чем первые М из них благоприятствуют нашему факту X. Аналогичным обра- зом убеждаемся в том, что и событие Y можно рассматривать как наступающее при одном из /И случаев из общего числа соответ- ствующих N единственно возможных, несовместимых и равноверо- ятных случаев bv b2,t..,bN, которые получаем, соединяя, подобно предыдущему, случаи Bnv в N групп по k^ случаев в каждой группе. Следовательно, согласно следствию (5), вер. X = вер. F, и первая часть нашей теоремы таким образом доказана. Предположим далее, что —>—— Ввиду того, что на осно- п пг вании только что полученного вывода вероятность события X и события Y не изменяется от того, что числа т и п будут умно- жены на одно и то же целое произвольное число А, а числа и будут помножены на какое-нибудь другое число мы можем, не нарушая общности, предположить, что наши дроби т пг. — и - '- имеют равных знаменателей, т.-е. п—пл. а П Пу 1 В таком случае вид Хг события X, который состоит в появлении.
12 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ только одного из Шу случаев, благоприятствующих событию X, будет иметь ту же вероятность, что событие К, а потому, согласно аксиоме сравнения вероятностей, вер. Х^>вер. К, что и требова* лось доказать. Таким образом мы, видим, что вероятность события X т зависит только от отношения — числа б л а го при* п я г н ы х этому событию случаев к общему числу всех единственно возможных, несовместимых и равно* вероятных случаев, при чем с возрастанием отно- шения — возрастает и вероятность события X. п Другими словами функция, фигурирующая в формуле (2), в дей- т ствительности зависит только от одной переменной — и возрастает одновременно с этой последней, т.-е. можем написать, что вер. X—F^^, (3) т\ ж т где г I — \ есть возрастающая функция дроби Нетрудно убедиться, с другой стороны, что всякая возрастаю- щая функция F действительно удовлетворяет обеим принятым нами аксиомам. В самом деле, если Х{ есть вид события X, то число случаев mit благо- приятствующих Х^ представляет лишь часть числа т случаев, которые благоприятствуют событию X при том же числе п всех возможных случаев; поэтому > ~1, и аксиома сравнения удовлетворяется благодаря тому, что FС Другой стороты, аксиома о несовместимых событиях тоже удовлетворена. Действительно, если А и А{- два несовместимых собы- тия, то благоприятствующие им соответственно т и т{ случаев различны между собсй, так что факту % состоящему в наступлении А или/,, благо- приятствуют т + т1 случаев из общего числа п несовместимых, равноверо- ятных и единственно возможных случаев; следовательно вер. (4 или Точно так же, если двум др; гим несовместимым между собой событиям В и благоприятствуют соответственно и случаев из общего числа
ОСНОВНЫЕ СВОЙСТВА И ОПРЕДЕЛЕНИЕ MATEMAT. ВЕРОЯТНОСТИ 13 некоторых п несовместимых, равнэверзятных и единственно возможных., случаев, то /О ГУ Ч f \ вер. (В или В^-- F (--- Таким образом, замечая, что по доказанной теореме условия вер. А —вер. В, вер. Ар -вер. В{ означают, что т т пр п п' ’ п ~~ п' * заключаем, что zzz-f-zw< tri +/и/ п ri ’ а потому /л л ' T7/m^rfni\ /г> вер. (А или At)= Fl—— I -- F I-------—-l^eep. (В или B^,. т-е, вторая аксиома также удовлетворена. 6. Только что полученный вывод показывает нам, что на осно- вании принятых допущений мы должны назвать вероятностью собы- тия Л, которому благоприятствуют tn случаев из общего числа п всех единственно возможных, несовместимых и равновероятных слу- чаев, некоторую определенную раз навсегда, возрастающую функцию _ / т \ F |— • Таким образом мы с одинаковым правом могли бы, \ п / в согласии с нашими аксиомами, условиться называть математиче- т т ской вероятностью как само отношение —, так и с—, где с — п п определенная постоянная, или, например, выражение т т _____ п п — т 1 щ п (т.-е. отношение числа благоприятных случаев к числу неблаго- приятных) 1), или еще log — и т. д. Напротив, мы не можем, как было доказано выше, назвать вероятностью, например, отноше- т ние —, если не хотим нарушить принятых аксиом, диктуемых нам повседневным опытом и здравым смыслом. 1) При последнем соглашении невозможное событие имело бы вероят- ность равную 0, а вероятность достоверного события была бы бесконечна- вероятностью события могло бы быть любое положительное число.
14 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ Выбор той или иной возрастающей функции т\ г I — ] всецело зависит от нашего усмотрения \ п / и определяется исключительно техническими удоб- ствами. Выводы теории вероятностей совершенно не зависят по существу от этого выбора и сохранят свою силу так же, как законы физики, которые не нарушаются от того, назовем ли мы температурой абсолютную температуру или какую-нибудь опреде- ленную функцию ее, как, например, число градусов по Реомюру или Фаренгейту. Изменяется лишь определенным образом словесная формулировка законов и теорем и численные значения интересующих п нас величин (так, например, при т = —, т.-е. если событию А благо- приятствует половина всех равновозможных случаев, то вероятность будет равна — или 1 в зависимости от того, условимся ли мы называть вероятностью . т т дробь — или же ——- п п — т чае достаточно будет указать, какова выбранная / т \ FI — I, чтобы без всяких затруднений от одной во всяком слу- нами функция системы теорем и значений вероятностей перейти к другой, подобно тому, как при помощи идеально точного словаря каждое предложение можно перевести с одного языка на другой, не нарушая его смысла. Следуя общепринятому соглашению, приводящему к наиболее простой формулировке большинства теорем теории вероятностей, мы условимся раз навсегда называть, математиче- т ской вероятностью сооытия А отношение — числа п т случаев, благоприятствующих Л, к числу п всех единственно и равновозможных несовместимых случаев, т.-е. остановим наш выбор на функции т\ т гI - — \ п / п Таким образом, в частности, невозможное событие имеет вероятность 0, а вероятность достоверного события равна —= 1. Всякое возможное, но не до- п стоверное событие имеет вероятность, заключен- ную между 0 и 1.
ОСНОВНЫЕ СВОЙСТВА И ОПРЕДЕЛЕНИЕ MATEMAT. ВЕРОЯТНОСТИ 15 Примеры. 1) При бросании игральной кости вероятность выпадения 3 1 четного числа очков равна — , если мы считаем появления всех граней равновероятными. 2) Если в урне 20 одинаковых шаров, отличающихся только цветом, из коих 4 шара красных, 6 голубых и 10 белых, и мы считаем, что каждый шар имеет одинаковую вероятность быть вынутым, то вероятность вынуть 4 1 красный шар равна — вероятность вынуть голубой шар равна 63 я 4 + 6 10 1 1Q, а вероятность вынуть вообще цветной шар равна— т.-е. столь же велика, как и вероятность вынуть белый шар *) Очевидно, непра- 1 вильнэ было бы сказать, что вероятность появления красного шара равна □ основываясь на том, что мы имеем единственно возможных 3 исхода опыта красный, голубой или белый шар), так как следует принять во внимание, что ввиду различного числа шаров каждого цвета указанные 3 случая нельзя считать равновероятными. 7. Сделанное нами техническое соглашение относительно вели- чины, которую мы, в согласии с принятыми аксиомами, условились называть математической вероятностью события А, когда ему в известном опыте благоприятствуют т из п единственно и равно- возможных несовместимых случаев, позволяет нам дать определен- ное выражение функции / в формуле (1), при помощи которой, на основании аксиомы о несовместимых событиях, должен быть указан совершенно общий прием для вычисления вероятности наступления любого из двух несовместимых событий А и 5, если вероятности каждого из них в отдельности известны. А именно, легко доказать следующую теорему, известную под названием теоремы сложения вероятностей: Теорема. Если событие А состоит в наступлении Одного из двух несовместимых фактов а или при чем вер. а = р> вер. {?= рг то вер. В самом деле, предположим, что р и рг — рациональные числа (т.-е. правильные дроби), так что, по приведении их к одному зна- менателю, можем написать О Заметим, что утверждение равенства этих двух вероятностей, как и вообще все утверждения о равенствах и неравенствах вероятностей, вовсе не зависят от принятого нами определения математической вероятности.
16 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВСРОЯТНОСТЕЙ где т, mv п—целые числа. Допустим, что т п\ мы увидим дальше, что противоположное предположение: т п3 соот- ветствующее недопустимо. Возьмем урну с п одинаковыми шарами, так чтобы появление каждого из них было равновероятным;, в таком случае, если т шаров будет красных, а т1 — голубых, то событие а появления красного шара будет иметь ту же вероят- т < ность — = п, что и наше событие а; точно так же событие Ь, п состоящее в появлении шара голубого цвета, будет иметь ту же вероятность рх = , что и данное событие [L Таким образом,, согласно аксиоме о несовместимых событиях, л / Оч / zn-j-zw, т . т. вер. А=вер. (а или $)—вер. (а или Ь) — —5-----=----1---= п п п =р+р» так как событие (а или Ь) есть появление красного или синего шара, которому благоприятствуют т ту шаров из общего числа п равновозможных шаров. Из нашего рассуждения видно, что если т-\- ту= п, то вер.А =—-—i = т.-е, А достоверно. Таким образом, если два несовместимых события единственно возможны (иначе говоря, если второе событие соответствует отсут- ствию, т,-е. ненаступлению первого, и наоборот), то сумма их вероятностей равна единице. Отсюда ясно, что если два события а и [J несовместимы, то сумма их вероятностей р-\~р1 не может быть больше 1, так как в противном случае, согласно следствию (2), вероятность насту- пления а или была бы больше единицы, т.-е. больше достоверности. Во многих случаях, как мы увидим дальше, события могут иметь определенные вероятности, хотя нельзя указать непосред- ственно всех равновозможных исходов соответствующего опыта; при этом теоретически вероятность может оказаться иррациональ- ным числом. Поэтому для полноты доказательства теоремы следует рассмотреть случай, когда одно или оба числа р и иррациональны. Пусть ~ пред. рл~пред. ?п', п “ СО Н — со
ОСНОВНЫЕ СВОЙСТВА И ОПРЕДЕЛЕНИЕ MATEMAT. ВЕРОЯТНОСТИ 17 где и р,/ правильные дроби, при чем pft> р > р/, и. с другой стороны» пусть = пред, с^пред. с/, п — ОО п — СО где и с/ также рациональные числа, при чем зй>Р1> V* Согласно сделанному выше замечанию достаточно ограничиться предпо- ложением» что р 4- Pi <С 1; следовательно, при п достаточно большом имеем также 4- 4? < 1 (и тем более р/ 4- zn < 1)* Поэтому можем построить два несовместимых факта ал и имеющих соответственно вероятностями рациональные числа рл и в таком случае, по доказанному, вероятностью (ал или 0Л) будет сумма р„ 4- которая на основании следствия (3) должна быть больше, чем вер-. А; таким же образом убеждаемся, что р/ 4- */ меньше, чем вер, А; но так как рп 4 znt так же, как и р/ + а/, стремится с увеличением п к тому же самому пределу pA~Pi, то вер, А не может быть равна никакому иному числу, кроме р 4 рР 8. Распространим теорему сложения на произвольное число событий 1). Если событие^заключается в появлении любого из несовместимых фактов а2,..., имеющих соответственно вероятности pv р2....у р& то вер. А =Р1 . -\-рк. (4) Действительно, в случае k~2 наше утверждение уже содер- жится в доказанной теореме; следовательно, достаточно показать, что если оно правильно для данного значения k = /г, то оно справе- дливо и для /г-|- 1. С этой целью замечаем, что событие А, состоящее в появлении одного из п 4-1 фактов а15. « ., ал+1, можно рас- сматривать как состоящее в появлении одного из двух фактов: или а2. ., или ап или ал+1). Применяя теорему сложения вероятно- стей к последним двум фактам, находим, что вер. А = вер. (а1 или а2. .. или а„) 4- вер. ял+1 = (Р1 р2 . . . -4- />„) -L рп^, ]) Нетрудно проверить, что если бы мы условились называть -вероят- щ . г. / т \ ностью вместо — некоторую определенную возрастающую функцию г 1 — I, то формулу (4) пришлось бы заменить такою: вер. А = F (¥ (/>,) + з (р2) + . . . -^ <? (рА), где <f есть функция обратная F; так, хнапример, если/•', то мы имели бы: вер. Л =(/+ VPi+ • • • + v'Pk^2- Теория вероятностей. 2
18 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ следовательно, если для k~n правильность нашего утверждения была уже установлена, то оно справедливо и для 1. Если несовместимые события а2, а2,. .., един- ственно возможны (т.-е. если одно из них обяза- тельно должно наступить), то P1A-Pi+ ••• О) Например, если мы обозначим через р2 вероятность для новоро- жденного ребенка умереть на первом году жизни, через р9—веро- ятность умереть на втором году жизни и т. д<, то указанные веро- ятности необходимо удовлетворяют равенству (5), где k есть число лет, более которого индивиды рассматриваемого класса новорожден- ных не могут прожить. В дальнейшем мы будем обозначать через /1 факт ненаступле- ния события Д, т.-е. отрицание события Д; таким образом, в част- ности, вер. Д вер. Д=1. (5 bis) При применении теоремы сложения необходимо помнить, что все факты, вероятности которых складываются, должны быть несо- вместимы. Например, вероятность, что одно из двух данных лиц умрет в течение года, не равна сумме вероятностей для каждого из них умереть в течение года, так как не исключена возможность их со- вместной смерти; напротив, мы в праве утверждать, согласно теореме сложения, что для каждого лица вероятность умереть в течение 2 лет равна сумме вероятностей смерти в течение первого года и вероятности умереть в течение второго года. Теорема сложения вероятностей позволяет нам исчерпывающим образом резюмировать всю математическую часть I главы следую- щим положением: Основной принцип теории вероятностей. Условие, необхо- димое и достаточное для того, чтобы при данном определенном комплексе условий вероятности фактов Дг Д„,... могли быть соответственно равны числам р2, pQi. . ., состоит в том, чтобы числа эти были не отрицательны и чтобы вероятность собы- тия, заключающегося в наступлении одного или другого из нескольких несовместимых фактов, была
ОСНОВНЫЕ СВОЙСТВА И ОПРЕДЕЛЕНИЕ MATEMAT. ВЕРОЯТНОСТИ 19 всегда равна сумме вероятностей каждого из них, при чем вероятности достоверных событий должны быть равны 1, а невозможные факты должны иметь вероятность, равную 0. Далеко не всегда бывает возможно в конкретных задачах уста- новить с достаточным основанием, какие вероятности следует при- писать каждому из интересующих нас событий; единственное фор- мальное требование, которому при данном неизменном комплексе условий эти вероятности должны удовлетворять, выражено в ука- занном основном принципе, который применяется не только для проверки логической непротиворечивости принятых значений веро- ятностей, но и для установления неравенств, которым неизвестные вероятности должны удовлетворять.
ГЛАВА ВТОРАЯ ТЕОРЕМА УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 1. Читатель, который дал себе труд внимательно прочесть вск> первую главу, должен испытать некоторое недоумение, что мы фор- мулировали только что основной принцип теории вероятностей^ как будто забыв о сделанном вначале указании, что теория вероят- ностей опирается еще на одну аксиому (о совмещении). Дело в том, что вышеуказанный принцип говорит о свойствах вероятностей событий при предположении, что наличный комплекс условий, при которых рассматриваются наши события, остается неизменным. Между тем мы указали вначале, что вероятность каждого факта существенно зависит от того, каков тот комплекс условий, который предполагается реализованным. Поэтому весьма важным является выяснение вопроса о том, возможно ли определен- ным образом связать вероятности фактов, при одном комплексе условий, с вероятностями тех же фактов, если данные условия будут изменены и, в частности, если станет известным, что некото- рый факт, который раньше мы считали только вероятным, в дей- ствительности осуществился. Понятно, что принцип, формулирован- ный в конце главы I, не может служить мостом для перехода от значений вероятностей при одном комплексе S условий к системе значений, соответствующей другому комплексу Sj эту роль выпол- няет аксиома о совмещении событий. Мы называем факт а совмещением событий А и Ву если насту- пление факта а означает совместное осуществление обоих событий А и В. В частности, если событие А есть частный случай факта В, то а тождественно с А, так как наступление А влечет за собой осуще- ствление В *), и, следовательно, вер. а = вер. А (например, при одном бросании игральной кости совмещение факта А появления 6 очков с фактом В появления четного числа очков—равнозначно факту Д, так как 6 есть четное число); с другой стороны, если факты А ч) См. стр. 5.
ТЕОРЕМА УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 21 и В несовместимы между собой, то их совмещение а невозможно — вер. а = 0 (например, если факт А есть появление 6 очков, а факт В состоит в появлении нечетного числа очков). Таким образом, если нам известны вероятности двух фактов А и В, то этого недостаточно для того, чтобы определить вероятность их совмещения; в частности, если при наступлении А событие В несомненно, то вер. а^=вер. А; если же, в случае наступления Д, событие В невозможно, то вер. а —0. Но, в общем случае, после наступления факта А событие В может быть и не достоверным и не невозможным, а только получать ту или иную вероятность,— тогда и совмещение их а в зависимости от этого будет получать ту или иную вероятность. Следует отметить как особо важный слу- чай, когда при наступлении факта А событие В сохраняет ту же вероятность, какую оно имело до того, как стало известным насту- пление факта А; мы говорим тогда, что событие В независимо от А (как будет показано дальше, в таком случае событие А также независимо от В, т.-е. осуществление факта В также не изменяет значения вероятности Д). В противном случае события А и В на- зываются зависимыми. Примером двух независимых событий может служить появление 6 очков при бросании игральной кости и появление туза при вынимании карты из некоторой колоды карт. В примерах, рассмо- тренных выше, когда А есть частный случай В или несовместимо с В, факты Д и В зависимы, и даже весьма значительно; зависи- мыми являются также факты Д и В заболевания одною и тою же заразной болезнью двух лиц, живущих в одной квартире. 2. Если нам известны только вероятности обоих фактов Д и В и мы по той или иной причине не можем принять в расчет, какую вероятность получает один из фактов, когда становится известным осуществление другого, — то для вероятности совмещения Д и В нельзя указать определенного значения, но можно на основании прин- ципа (стр. 18) предыдущей главы установить некоторые неравенства, которым эта вероятность должна удовлетворять. Действительно, мы можем утверждать только, что вер. (Д и В)- -вер. (Д и В)=вер. Д, ) вер. (Д и В)~\-вер. (Д и В)=вер. В, I вер. (Д и В)~\-вер. (Д и В) = вер. А, вер. (А и В)-]— вер. (Д и В) = вер. В, ;
22 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ где А есть отрицание (т.-е. ненастурление) А, и В есть отрицание В, так как первое из равенств (6) означает, что наступление факта А возможно либо совместно с фактом В либо с В и аналогичные значения имеют и остальные равенства. На первый взгляд может показаться, что из четырех уравнений (6) можно определить неиз- вестные вероятности четырех совмещений: А и В, А и В, А и В, А и В, если даны вероятностит) факта А и факта В; но в действи- тельности одно из этих уравнений является следствием из трех других, так как оба последние уравнения (6) равнозначны одному уравнению вер, (А и Ву\-вер. (4 и В)-\-вер. (Л и В)-\-вер, (Л и В)= 1 (6 bis) (выражающему, что все указанные четыре совмещения единственно возможны), из которого они могут быть соответственно получены вычитанием из (6 bis) каждого из первых двух уравнений (6). Поэтому, принимая во внимание, что мы имеем только 3 независи- мых уравнения, одному из рассматриваемых совмещений можем приписать произвольную вероятность, и тогда вероятности прочих совмещений получат вполне определенные значения; необходимо только, чтобы ни одна из этих вероятностей не оказалась отрица- тельной. Таким образом, придавая вер, (Л и В) то или иное зна- чение, получим: вер, (Л и В) = вер. А—вер, (Л и В), вер. (Л и В)=вер. В- вер, (Л и В), вер. (А и £?)=1 — вер. А — вер. Ввер. (Л и В). Для того, чтобы все совмещения имели неотрицательные вероятно- сти, следовательно, необходимо и достаточно, чтобы вер. (Л и В) удовлетворяла неравенствам: вер. (Л и Z?) Л-0, вгр. (Л и ВуеСвгр. Л, вер. (Л и В')^вср. В.. вер. (Л и Ву^ вер. А-\-вер. В—1. (7) Например, если вер. Л —0,5, вер. В:- =0,9, то необходимо и достаточно соблюдение неравенства 0,4 вер. (А и В) 0,5 для того, чтобы все взроятности получили неотрицательные значения в соответствии с основным принципом. 3. Аксиома совмещения событий- Если а есть частный случай факта Л, то вероятность а при данных уело- 9 Напоминаем, что вер. Л =~1 —вер. А и вер. В--1 —вер. В.
ТЕОРЕМА УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 23 виях зависит только от вероятности факта Л при тех же условиях и от вероятности, которую при- обретает а в случае осуществления факта Л. Иными словами, если есть частный случай какого-нибудь другого факта Лр то вероятности событий а и при данных условиях равны, если вер. А ~ вер. Л2 при данных первоначальных условиях и если вероятность, которую получает а после’ осуще- ствления Л, равна вероятности, которую получает аг в случае осу- ществления факта Лг При этом следует заметить, что если а есть совмещение факта Л с некоторым другим фактом В, то при осуществлении факта Л наступление события а (т.-е. совмещения Л и В) становится равно- значным наступлению одного только факта В; поэтому нашу аксиому можно формулировать и таким образом: вероятность совмещения Л и В (при данных условиях) зависит исключительно от вероятности Л (при тех же усло- виях) йот вероятности, которую приобретает факт/? после осуществления Л. В частности, в случае незави- симых событий, т.-е. когда вероятность факта В, после осуществле- ния события Л, остается та же, что и при первоначальных условиях, наша аксиома означает следующее: вероятность совмеще- ния Л и В зависит только от первоначальных веро- ятностей этих фактов, если события Л и В неза- в и с и м ы. Разъясним сначала аксиому совмещения для случая независимых событий. Рассмотрим два явления, которые протекают вне всякой связи между собой, так что исход одного из них совершенно не влияет на исход другого; иными словами, тот или другой результат первого опыта не зависит от исхода второго опыта, и наоборот, т.-е. вероятность определенного исхода одного опыта не изменяется от того, что становится известным результат другого опыта. Оба явления или опыта называются тогда независимыми Примером двух таких независимых опытов может служить бросание игральной кости, с одной стороны, и вынимание шара из урны, в которой имеется одинаковое число белых и черных шаров, — с другой. Наша аксиома утверждает в данном примере очевидную истину, что если мы считаем равновозможными все шесть граней кости и, с другой стороны, столь же вероятным появление черного шара, как и белого, то вероятность совмещения факта появления
24 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ черного шара с появлением 6 очков равна вероятности совмещения белого шара с 5 очками и вообще каждое из 12 возможных совме- щений (шара белого цвета *с любой гранью или черного шара с любой гранью) имеет одну и ту же вероятность, так как каждое из них представляет совмещение двух независимых фактов с соот- ветственно равными вероятностями. Вероятность каждого из этих совмещений (ввиду принятого нами соглашения о том, чтобы называть математической вероятностью события отношение числа благоприятствующих ему равновероятных, независимых и ственновозможных случаев к общему числу случаев) равна един- 1 12’ Перейдем теперь к рассмотрению примеров, поясняющих общую аксиому совмещения. Допустим, что Иван покупает по одному билету в двух лотереях, а Петр покупает билет только в первой лотерее с тем, чтобы купить один билет во второй лотерее лишь в том случае, если он выиграет в первой. (Мы допускаем, что по окончании первой лотереи билеты второй еще не будут все распроданы.) Вероятность Ивана и Петра выиграть в первой лотерее одна и та же, но первоначальная вероятность у Ивана, для кото- рого обе игры независимы, выиграть во второй лотерее, очевидно, больше, чем у Петра, который участвует в последней лотерее только в случае выигрыша в первой. Тем не менее, полагая, что более поздняя покупка билета не меняет шансов выигрыша, т.-е. что вероятность для Петра, когда он купит билет после своего первого выигрыша, выиграть во второй лотерее будет та же, что и для Ивана, мы утверждаем, что вероятность выиграть в обеих лотереях одна и та же у Ивана и у Петра; наше последнее утвер- ждение представляет применение аксиомы совмещения к данному примеру, так как оно выражает, что вероятность совмещения обоих выигрышей зависит лишь от вероятности первого выигрыша (кото- рая, по предположению, у Ивана и Петра одинакова) и от вероят- ности второго выигрыша, после осуществления первого (которая также одинакова у обоих игроков). Возьмем другой пример. Положим, что вероятность для здорового десятилетнего ребенка умереть в течение года равна Р, а вероят- ность заболеть скарлатиной равна Q. Эти два числа не дают нам возможности судить о том, какова вероятность для здорового десяти- летнего ребенка заболеть и умереть в течение года от скарлатины. Искомая вероятность зависит от вероятности Q заболеть скарлатиной
ТЕОРЕМА УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 25 и от вероятности R для всякого десятилетнего ребенка, заболевшего скарлатиной, умереть; иными словами, вероятность совмещения у одного и того же ребенка этих двух зависимых фактов — забо- левания скарлатиной и смерти — та же, что вероятность совмещения двух независимых фактов: заболевания скарлатиной одного ребенка десяти лет и смерти другого такого же ребенка, больного скарла- тиной. Из теоремы, которую мы сейчас докажем, будет вытекать, что вероятность смерти от скарлатины для ребенка равна произведению Q7? и, таким сит от Р. В дальнейшем, для упрощения письма, чать первоначальных условиях. Если же дополнительно к этим первоначальным условиям прибавляется све- дение, что произошел некоторый факт В, ятность А после осуществления В мы будем означать через (Д)в. событий А и В мы (Л, В) = (В, Л). Таким образом аксиома совмещения математически выражается так: (А, В) = Ф[(Д), (В)л] = Ф[СВ), (Д)д], (8) где Ф есть некоторая раз навсегда определенная функция. Теорема умножения вероятностей, которую мы сейчас докажем, устанавли- вает форму этой функции. 4. Теорема умножения совмещения вероятности приобретает событие здорового десятилетнего образом, вовсе не зави- мы будем обозна- через (71) вероятность факта А при данных вероятность будем обозначать то веро- о б- же совмещения символом вероятностей 1). А и В равна А В, когда становится событий события Вероятность произведению на вероятность, которую извест- ным осуществление факта Л; иными словами, (ДВ) = (4).(В)л. (9) 9 Функция Ф получила бы другую форму, отличную от (9), если бы нами было сделано другое соглашение относительно того, что мы будем на- зывать математической вероятностью. Так, например, если бы называли вероятностью ^вместо отношение где /«—число благоприятных случаев, а п — общее число случаев, то мы должны были бы заменить фор- (Л) {В)А мулу (9) формулой (Л, . 1 ± И) +
26 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ В самом деле, положим, что вероятности (Л) и (В)л равны некоторым рациональным числам Рассмотрим 2 урны с шарами: в первой пг белых шаров при общем числе шаров, равном /г, а во второй т1 белых шаров при общем числе шаров, равном /гг Положим, что из каждой урны вынимают по одному шару, при чем появление белого шара из первой урны назовем событием Др а появление белого шара из второй урны назовем событием Вг Условия вынимания из второй урны полагаем независимыми от результата вынимания из первой урны, так что (В1)д1 = Кроме того, считая все шары равновероятными в каждой урне, имеем: В таком случае, согласно аксиоме совмещения, одинаково веро- ятно совместное появление любого определенного шара из первой урны и любого определенного шара из второй. Таким образом все единственно возможные и несовместимые результаты обоих вынима- ний, соответствующие совместному появлению каждого шара первой урны с каждым шаром второй урны, число которых равно произ- ведению п>Пу являются равновероятными. Поэтому, замечая, что совмещению событий и Вг благоприятствуют только пары выну- тых белых шаров, число которых равно т-т} (так как каждый белый шар первой урны может соединиться с любым белым шаром из второй урны), и применяя определение математической вероят- ности, заключаем, что вероятность совмещения и В2 равна ^1) т - п - /Zj hi п (Ю)' Но так как, согласно нашей аксиоме, мы должны признать, что (Д, Я) = 04,,^), (И) коль скоро (Д)--(Д1) и (В)л — (Я^ 'го, принимая во внимание (1-0) и (И), мы приходим к заключению, что, каковы бы ни были события А и В, (Д, В) = (Д).(В)Л. (9)
ТЕОРЕМА УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 27 Таким образом теорема доказана для случая, когда вероятности (Л) и (£?)4 рациональны Теорема распространяется так же, как и теорема сложения, посредством перехода к пределу (см. стр. 16), на случай иррациональных вероятностей. Пример. Даны две урны с шарами: в одной 3 белых, 7 красных и 15 черных шаров: во второй урне 10 белых, 6 красных и 9 черных шаров. Вынимается по одному шару из каждой урны, при чем шары предпола- гаются одинаковыми наощупь и тщательно размешанными; спрашивается, какова вероятность, что вынутая пара шаров будет одинакового цвета. Вероятности появления урны соответственно равны 10 щие вероятности равны 20 3 10 белого, красного и черного шара из первой 3 7_ 25’ 25 “ 6 9 — и — 25 25 30 белых шаров равна . вероятность появления красной пары 20 20 о2о 7 6 42 „ 15 9 135 равна -- • =-^.вероятность появления черной пары равна;;- • 57 = ZD Zo о2о Zu Zu ozo Следовательно, по теореме сложения, вероятность появления одноцветной 15 для второй урны соответствую- 7-. Поэтому вероятность появления пары пары шаров равна 30 , 42 135 _ 207 623^ 625 ^ 625 ”625’ т.-е. немного менее £ У* Вероятность, что вынутые шары будут разных цветов, равна 1 207 __ 418 625 625' 5. Из теоремы умножения вероятностей вытекает, что если нам известны вероятность (Л) факта А и также вероятность (Л,£) совмещения факта А с некоторым другим событием В, то мы можем определить, какова вероятность (В)л факта В после осу- ществления события А. Действительно, из равенства (А,В)~(А)-(В)а (9) находим: (J)-’ (12) Таким же образом можно получить вероятность А, когда со- бытие В предполагается осуществленным: <А)^^ (12 bis) Отсюда заключаем, в частности, что если В независимо от А, то и А независимо от В. Действительно, если
28 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ (В)Л = (В), то (Л,В) = (Л)-(В), и, в (12 bis), получим: И)в (Л) (В) (Я) подставляя = И). это значение Заменяя в формуле (9) А и В взаимно, мы получим: Отсюда заключаем, что (Л).(В)л = (В).(Л)в. (13) Таким образом, зная первоначальные вероятности событий А и В и зная вероятность второго из них В в случае наступления первого А, мы можем определить, какова вероятность события А, когда становится известным, что осуществилось собы- тие В\ а именно из (13) выводим: . (14) Предположим, например, что для лиц данной группы вероят- ность смерти в течение года равна (В) =0,006, вероятность же быть помещенным в больницу (Л) = 0,02. Допустим далее, что для лица данной группы, которое находилось в больнице, вероятность смерти (В)А = 0,06; какова вероятность (Л)в, что умершее лицо данной группы подвергалось больничному лечению ? Применяя формулу (14), находим: 0,02 • 0,06 0,006 = 0,2. Формулу (14) можно еще написать в виде пропорции (А)в=(В)л (А) (В) ’ (15) которая выражает, что вероятность факта А после насту- пления В во столько же раз больше (меньше) его первоначальной вероятности, во сколько вероят- ность события В в случае наступления А больше (меньше) его первоначальной вероятности. Вели- чину к рассматриваемого отношения назовем коэффициентом совместимости между событиями А и В. Если к — 1
ТЕОРЕМА УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 29 события независимы; если X 1, то после появле- ния одного из событий вероятность другого умень- шается, и, в частности, при 1 = 0 события А и В несовместимы; напротив, если Х^> 1, то в случае насту- пления одного из событий другое становится более вероятным, чем было первоначально. Формулу (9) можно, введя коэффициент совместимости, напи- сать в виде (Л В)-ЦЛ)-(В). (9 bis) В следующей главе мы рассмотрим некоторые другие коэффи- циенты, которыми пользуются для характеристики зависимости между двумя явлениями, когда хотят дать сразу представление не только о связи между исходами А и В двух опытов, но между всеми четырьмя комбинациями исходов: А и В, А и В, А и В, А и В. Упражнения, 1) Доказать, что если вероятность факта А равна (Д) — 0,99, а вероятность факта В равна (В) = то 0,98. М) Ответ. Это вытекает из неравенства которое чается из (Л, В) (Д) -|- (В) — 1. 2) Дано, что .вероятность для новорожденного дожить до 5 лет 2 1 р3 = а вероятность дожить до 50 лет равна /750 = требуется о Z полу- равна опре- делить вероятность х, что ребенок, достигший 5 лет, проживет до 50 лет. Ответ, х 3 Т’ 3) Доказать тождество: _Х_ i И)в И)в- (3)j 1 1 1 Ответ. Нужно исключить (Д) и (В) из равенств*. (А) (В)А = (В) (А)в, [ 1 - (Л)] (В)А = (В) [ 1 - (Л)в], [1-(В)] (А)в -=(Л)[1 - (В)л].
ГЛАВА ТРЕТЬЯ КОЭФФИЦИЕНТЫ РЕГРЕССИИ, КОРРЕЛЯЦИИ И СВЯЗИ МЕЖДУ ДВУМЯ СОБЫТИЯМИ 1. Пусть А и В будут два как угодно связанные события, вероятность совмещения которых равна (Л, В). Если бы эти собы- тия были независимы, то вероятность их совмещения была бы равна (Л) -(В). В противном случае, разность (А,В)-(А)(В) = Ъ (16) будет отлична от нуля; эту разность о мы назовем связь ю между событиями А и В. Связь между Л и В положи- тельна, если вероятность одногб факта возрастает после наступления другого; напротив, связь между событиями А и В отрицательна, если наступление одного из них уменьшает вероятность другого. Это видно из того, что благодаря (9) равенство (16) можем напи- сать в виде (Д)[(В).4-(£)]=*, или(В)4 = (В) + 4< (17) В частности, условие необходимое и доста- точное для того, чтобы события Л и В были неза- висимы, заключается в том, что связь о между ними должна быть равна 0. Легко показать, что связь между событиемЛисобы- г и ем В равна1—Действительно, (Л, Я) + (Л, В) = (Л), (18) лак как событие А может произойти либо при осуществлении факта В либо при его ненаступлении; с другой стороны, имеем также: (Д) • (В) + (Д) • (В) = (Д)[(В) 4- (В)] = (Д). (19)
КОЭФФИЦИЕНТЫ РЕГРЕССИИ, КОРРЕЛЯЦИИ И СВЯЗИ 31 Поэтому, вычитая (19) из (18), получаем: (А В) - (А) (В) + (Д, В) - (А). (В) = О, откуда, замечая, что (Д,В)-(Д)-(В) = о', (16) заключаем, что (Д,Я) —(Д) * (В)=~- о. (16 bis) Таким образом знак связи меняется, если одно из событий В заменить его отрицанием В, но абсо- лютная величина связи сохраняется. Поэтому находим также, что (Д,В)-(Д) (B) = -S; (А, В) — (Д) (В) = 5. (16 ter) Можем указать еще другое выражение для связи, которое получим, если заметим, на основании (16), (16 bis) и (16 ter),-что (Д, В) (Д, В) = [(Д) (В) + 5] |(Д) (В) 4- о'] и. (Д, В) (А, В) = [(Д) (В) - o'] [(В) (Д) - о]. (20) Поэтому, вычитая второе равенство из первого, получим: (Д, В) (Д, В) — (Д, В) (Д В) = = § [(Д) (В) 4- (Д) (В) 4- (Д) (В) + (В) (Д)] = 5. (21) Следует заметить, что сама по себе абсолютная величина связи g является мало характерной, так как она суще- ственным образом зависит от индивидуальных вероятностей фактов А и В, Очевидно, что мы должны считать два явления максимально связанными между собой, если факты А и В тождественны, т.-е. если они всегда происходят совместно, иными словами, если (Д) = (£?) и (Д, В) = (Д, В) = 0; тогда О' = (Д, В) (Д, В) = (Д) (Д) = (Д) [1 - (Д)]. Таким образом, если бы факт А имел вероятность 0,1, то мы получи- ли бы, что связь его с самим собой была бы равна S = 0,1.0,9 — 0,09; 1 3 с другой стороны, если (Д) = (В) = -— и (В)А — ~, то
32 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ 1/3 1 \ 1 по формуле (17) мы получили бы ----I —— 0,125. 2 \ 4 2 / 8 Следовательно, хотя в последнем случае факт В не всегда насту- пает вслед за фактом А, мы получаем, что его связь с фактом А больше, чем при предшествующих данных. Вообще нельзя вполне охарактеризовать зависимость между двумя событиями- при помощи одного только числа, и, смотря по тому, в каком отношении мы эту зависимость хотим охарактеризовать, можно пользоваться тем или иным коэффициен- том, но для полной характеристики необходимо знать 3 числа, которые позволили бы определить вероятности всех четырех совме- щений (Л, В), (Л, В), (Л, В), (Л, 5), сумма которых (как единственно' возможных несовместимых событий) равна единице. 2. Для уяснения дальнейшего рассмотрим пример. Предположим, что при лечении дифтерита применяется новое средство — противо- дифтеритная сыворотка; применение этого средства назовем собы- тием Л, а факт выздоровления больного назовем В. Пусть вероят- 29 ность выздоровления при наличности Л равна (В)л = -~, а ве- 13 роятность выздоровления без применения сыворотки равна (Z?) л , так что в первом случае вероятность смерти (£?)4 1 = ---, 30’ а без сыворотки вероятность смерти (В)л- — -Следовательно оба числа (В)д и (В)д вполне достаточны для суждения о том, насколько опасна болезнь и в какой мере она поддается сывороточному лече- нию. Одно только число (В)А давало бы нам лишь представление, насколько дифтерит поддается лечению сывороткою, но понятно, что, не зная о том, какова смертность при отсутствии указанного способа лечения, мы не могли бы судить о степени его целесо- образности. Напротив, поскольку применение сыворотки (событие Л) зависит от нашего усмотрения, вероятность (Л, В) нас мало инте- ресует; поэтому, характеризуя зависимость между нашими фактами А и В при помощи одного коэффициента, мы должны во всяком случае выбрать его так, чтобы он не изменял своего значения, если (Л, В) будет изменяться, при неизменных значениях (В)л и (В)д. Связь 5, о которой мы говорили выше, этому условию не удо- влетворяет. Действительно, применяя к каждому из четырех совме-
КОЭФФИЦИЕНТЫ РЕГРЕССИИ, КОРРЕЛЯЦИИ И СВЯЗИ 33 щений, входящих в формулу (21), теорему умножения вероятно- стей, мы находим, что г=(Д) (в)л (Д) (в)д - <д) (В)4 (д) (В)д = = (Д)(Д)[(В)Л(В)Л-(В)Л(В)Л]. (21 bis) Таким образом для рассмотренного выше примера мы находим: г-м^мТ29 2 1 131-^)(А) С -(л) (л) |_30 • 15 “ 30 • 15 I - ~10~ • Поэтому значение 8 существенно зависит от (Д) и (Д) = — 1 — (Д). Вообще, принимая во внимание, что (В)^ =1 — (В)Т и (В)л — 1—(В)д, можем написать формулу (21 bis) в виде г = (Д)(Д)[(В)д-(В)д]; (22) откуда заключаем, что ’»=<Ж)=(В,^(В*- <23) Величина рв (В)д—(В)д, которая в нашем примере равна 1 16 представляет наиболее важную величину, характеризующую эффективность применения сыворотки: она показывает, насколько увеличивается вероятность выздоровления больного, если вместо того, чтобы отвергнуть прививку, эту прививку произведут. Можно сказать, зная только число (В)д — (В)т — , что.если вероятность выздоровления больного, не подвергшегося прививке, равна вероят- ности вынуть белый шар из урны, в которой имеется х белых шаров при общем числе шаров, равном 100, то для больного, к которому применили сыворотку, вероятность выздоровления изме- нилась на столько же, как если бы в нашей урне 10 не белых шаров 10 1 заменили белыми, т.-е. увеличилась на у--- — — • Величину рв = (В)А — (В)а называют коэффициен- том регрессии события В относительно события Д. Коэффициент регрессии, так же как и связь 8, обращается в 0 только, если факты Д и В независимы, и, как видно из (23), имеет Трория вероятностей. 3
34 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ всегда тот же знак, что и 5. Кроме того, вообще 1, так как рв есть разность между двумя положительными числами, не пре- вышающими 1; при этом = 1, когда факты А нетождественны, т.-е. происходят лишь совместно [(В)л—1, (2?)л =0], и р5== ——1, если В тождественно с отрицанием А. Можно совершенно так же рассматривать и коэффициент регрессии (Л)д-(Л)в $ (В) (В) (23 bis) события А относительно события коэффициент менее интересен, и, 29 13 значения и (В)А=-_ -- е. Однако в данном примере этот кроме того, даже индивидуальные недостаточны для того, чтобы его определить. Действительно, из формулы (23) и (23 bis) находим: (Л) (А) Р.4 — ’ (В) (В) (24) где (В) — (Д) (В)д -+- (Д) (£)д , потому что В происходит либо вместе с Д, либо вместе с Д; так что множитель при р^ зависит кроме (2?)л и (Z?)j еще и от (Д). Так, в рассматриваемом примере рА может оказаться сколь угодно малым, если вероятность прививки (Д) весьма мала :) или, наоборот, достаточна близка к единице; 3 1 3 29 между тем, если положить (Д)==—, то (Д)_(В) — — • ---4- 4 4 4 30 1 13 113 7 2700 270 + т 15“120’(в):= 120’ Л"Т“,у ?-'“гёГ?'> = 791“О”И Из (24) мы видим, что a priori коэффициенты регрессии рд и рв связаны только общностью знака, по численному же значению один из коэффициентов может быть близок к 0, когда другой бли- зок к 1. Во всяком случае, знание обоих коэффициентов регрессии дает довольно существенное понятие о взаимоотношениях между событиями А и 5, так как каждый из них выражает соответ- ственно разность между вероятностями одного из событий, в случае наступления и в случае ненаступления другого. ----------- 0,001 . 0,999 2,6003 0,3997 <) Полагая (Д)-- 0,001, мы получили бы рл ---0,009;зна- чение того же порядка мы получим, если М) . 0,999.
КОЭФФИЦИЕНТЫ РЕГРЕССИИ, КОРРЕЛЯЦИИ и связи 35 3. Таким образом вообще коэффициенты регрессии рл и ря неравны между собой; для того, чтобы они были равны (?д—РдХ необходимо и достаточно, чтобы имело место одно из двух условий: либо (Л) = (В), либо (Л) = 1—(Д)=(5), как это видно из равенства (24). Из равенства (16), (16 bis) и (16 ter) немедленно можно также усмотреть, что условие (Д) = (5) означает, что вероятности совме- щений (Л,Й) и (Л,5) равны между собой, а условие (Д) = (5) равнозначно условию, что (Л, 5) — (Л, 5). В некоторых случаях для характеристики взаимной зависимости между двумя событиями Д и 5 ограничиваются тем, что указывают лишь среднюю геометрическую из обоих коэффициентов регрессии /? /~(В)(В) /~(А)(А) И) (Л) (5)(S)’ (25) при чем R должен иметь тот же знак, каким обладают оба коэффициента регрессии, которые, конечно, всегда имеют одинаковый знак, а именно знак 5. Число /?, определенное таким образом, называется коэффициентом корреляции между фактами А и 5. Коэффициент корреляции .имеет наиболее существенное значение в том случае, когда коэффициенты регрессии р4 и р^ равны |т.-е. когда (Д) = (5) или (Д) = (5)]; тогда Я- —?/г (26) Предположим, например, что вероятность обоим новорожденным близнецам быть мужского пола равна (Л, 5) = 0,32, а вероятность близнецам быть женского пола равна (Л, В) = 0,28. В таком слу- чае вероятность, что новорожденные близнецы будут разного пола, равна (Л, 5) -ф- (Д> 5) = 1 — 0,32 — 0,28 = 0,40, при чем, очевидно, (Л, 5) = (/4,5) = 0,20, так как безразлично, назовем ли мы фактом Д принадлежность к мужскому полу первого из рассматриваемых нами младенцев или второго; поэтому t (Д) = (5) - (Л, 5) + (Д, 5) = 0,32 + 0,20 = 0,52; (Д) = (В) = 0,48,
36 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ т.-е. вероятность взятому на удачу из близнецов быть мальчиком равна 0,52, а вероятность быть девочкой равна 0,48. Заметим, что вероятность хоть одному из двух близнецов быть мальчиком ]) равна (Д, В) + (Д, В) + (Д, В) = 0,72. В данном случае, по формуле (16) 5 = 0,32 — (0,52)2 = 0,0496, D 0,0496 496 л юс? ’ ПО1О"У Вообще, если известен коэффициент корреляции /? и кроме того известны вероятности (Д) и (В) [не предполагая более, что (Д) = (/?)] событий А и В, то можно легко вычислить вероятно- сти (В)л, (В)л и т. д. В самом деле, из формул (23) и (25) получаем: R = ~?----Х-=-; (27) К(Д) (Д)(В)(в) поэтому, замечая, что о = (Д)[(В)л— (В)], находим: R = [(В)д — (В)] ! / =-..(Л) „ , (27 bis) Г (Л) (В) (В) откуда 2) (В)А == (В) + я ’ (28) и аналогичным образом (В)д=(В) — R~l/(28 bis) Г И) Отметим основные свойства коэффициента корреляции. 9 Разумеется, ошибочно было бы применять здесь непосредственно теорему сложения вероятностей к обоим событиям А и В, т.-е. считать, что искомая вероятность равна (Л) -р (В), так как это было бы допустимо лишь, если бы А и В были несовместимы, между тем как в действительности (Л, В) > 0. -) Ту же формулу можно получить, исходя из равенства (В)А — + + I (В)А (В) ] -f- ?£ — (£) (Л) 4- рв~ (В) рв(л) ~ (В) 4-
КОЭФФИЦИЕНТЫ РЕГРЕССИИ, КОРРЕЛЯЦИЙ И СВЯЗИ 37 1) Коэффициент корреляции между А и В равен по численному значению и противоположен по знаку коэффициенту корреляции между А и В. Коэффициент корреляции между А и В тот же, что между А и В. 2) Коэффициент корреляции обращается в нуль тогда и только тогда, когда события А и В неза- висимы 3) Если (Д) и (В) даны, то (В)л [а также (Д)в] возра- стает вместе с алгебраическим возрастанием /?; напротив, (В)д уменьшается с возрастанием /?. Все это вытекает непосредственно из формулы (28). 4) Коэффициент корреляции 7? никогда по чи- сленному значению не бывает больше единицы. Коэффициент корреляции 7?=1 тогда и только тогда, когда (Д) = (В) = (Д,В), т.-е. если факты А и В совпадают; напротив 7? =—1 тогда и только тогда, когда Д и В являются взаимными отрицаниями (т.-е. когда факты А и В с о в п ад а ют), т.-е. (Д)— (В) = (Д, В), Действительно, из формулы (16) заключаем, во-первых, что если (Д) = (В) = (Д,В), то § = (Д) — (Д)2= (Д) • (Д); поэтому из (27) вытекает, что 7?=1. Обратно, пусть будет дано, что 7?=1, и допустим, что (Д)^(В); пусть для определенности (Д)^>(В), так что (Д) < (В). Тогда, написавши равенство (28 bis) в виде (В)л=(В) (Л)(Д) И) (5) (29) мы получили бы под корнем величину больше единицы, и так как 7? — 1, то (В)л оказалось бы отрицательным числом. Следовательно наше допущение невозможно, и необходимо принять, что (Д) = (В); тогда равенство (29) дает (В)л =0, т.-е. (Д,В) = 0, а потому из равенства (Д, В) Ц- (А В) = (В) заключаем, что (Д,В) = (В) — = (Д). Очевидно, что если бы мы предположили 7? 1, то в равен- стве (29) при корне [который сам не меньше единицы, так как (Д) (S)] стоял бы еще множитель 7?^>1, и мы пришли бы снова к нелепому заключению, что (В)д' <С 0; следовательно, всегда Так как, заменяя событие В его отрицанием В, мы мо-
38 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ жем всегда случай, когда /?<^0, привести к рассмотренному только что случаю О, то аналогичным образом убеждаемся, что всегда —1, а /?=—1 означает, что факты А и В совпадают. Вообще из равенства (В)д=(В) видно, что /(4) (В) V (А) (В)' (29) (30) при чем знак равенства в (30) соответствует | (из-за (29)] равенству (В)л=0, т.-е. (А, В)— (В), что означает, что событие Л является необходимым следствием факта В; таким образом коэффициент корреляции может оказаться значительно меньше 1, и, несмотря на это, факт А может быть следствием факта В. Найдем, например, коэффициент корреляции между выпадением 6 очков В при бросании данной хотя факт А является обязательным следствием события В; только в том случае, если бы и В также обязательно имело место при наступлении факта Л, лишь тогда мы получили бы 1. Таким образом коэффициент весьма неточное представление си мости между фактами Л и В, индивидуальных вероятностей и появлением А четного числа игральной кости. В данном очков случае корреляции о характере если мы не дает з а в и- знаем кроме того фактов или являющегося циента корреляции и (В) «С (/1), которое дает также коэффициента регрессии. 4. На-ряду с коэффициентами ставляет интерес рассмотрение величины этих (Л) (В) по крайней мере значения - —, (В) (А) наибольшим значением коэфф и- данных значениях (Л) возможность (25) указать оба при регрессии и корреляции пред- о (Л, В) (4, В) 4- (А, В) {А, В) _ (4, В) (4, В) — (4, В) (А, В) ~ (4, В) (4, В) 4- (4, В) (4, В) ’ (31)
КОЭФФИЦИЕНТЫ РЕГРЕССИИ, КОРРЕЛЯЦИИ и связи 39 которая называется коэффициентом связи между событиями А и В. Коэффициент связи Q, подобно коэффициенту корреляции R, является симметричным по отношению к обоим явлениям, но преимущество его перед коэффициентом корреляции заклю- чается в том, что коэффициент Q, подобно ря, всецело определяется вероятностями (В)д и (В)д события В в случае осуществления и неосуществления события Д, но не зависит от вероятности (Д); ввиду симметричности коэффициента Q очевидно, что он обладает (как и рд) аналогичным свойством по отношению к событию Д. Действительно, равенство (31) можем записать в виде Q = (А) (А)\(В)а(В)а-(В)а(В)4\ = (Л) (Л) =-------------?В-------- t (32) (В)А ±(В)А(В)А\ а также, заменяя взаимно А и В, в виде О =-----------рА — ---- (32 bis) 1 1И)в И).В Z И)в (^)-в J Из формул (32) и (32 bis) видим, что Q имеет всегда тот же знак, что и коэффициенты регрессии рд и рв, и кроме того всегда | Q I j рА j, i Q | ! Рв |; при этом, за исключением случая независимости событий (Q=0), равенство имеет место только тогда, когда (В)д(В)д -4(В)д (В)д = 0, т.-е. при условии, что факты А и В совпадают [(В)д = (В)д ~ 0] или проти- воположны [(В)л —(В)- = 0]; в таком случае Q=pB = = Ы- ____ Принимая во внимание, что/? = 4~ |/рд заключаем также, что (зз) как больше и коэффициентов регрессии, если только | R | не равно ни нулю, ни единице: в последнем случае Q =/? = рд — рв = + 1. Из вышесказанного следует, что коэффициент связи Q является, так сказать, более чувствительным показателем связи между событиями, нежели коэффициенты регрессии и корреляции.
40 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ В частности, из формулы (31) легко вывести, что Q=1 означает, что один по крайней мере из фактов АиВ является необходимым следствием другого (именно тот, вероятность которого больше), т.-е. (Д, В) = (4), при (Д) (В); условие Q — — 1 означает, что факты Д и В несо- вместимы, т.-е. (Д,В) —0, либо их отрицания А и В несовместимы. Действительно, так как числитель выражения (31) является раз- ностью тех же количеств, сумма которых входит в знаменатель, то условие, необходимое и достаточное для того, чтобы Q = 1, состоит в том, что (Д,В) • (ДВ) = 0, т.-е. имеет место по крайней мере одно из равенств (Д, В) = 0 или (Д,В)~ 0; но, имея в виду, что (Д, В) -ф- (Д, В) = (Д) и (Д, В) -J- (А #) = (^), это значит, что либо (Д, В) = (Д), либо (Д,В) = (В); иными словами, по крайней мере один из двух фактов А и В является частным случаем другого, и, полагая для определенности (Д) (В), видим, что А есть частный случай события В, т.-е. что осуществление факта А влечет за собой наступление В. Аналогичным образом убеждаемся, что Q =—1 означает ра- венство (Д,В) • (Д, В) = 0, т.-е. по крайней мере одна из вероятностей (Д,В) или (Д,В) равна нулю, т.-е. несовместимы будут сами факты А и В или их отрицания в зависимости от того, будет ли (Д) -1- (В) 1 или же (Д) (В) 1; если же (Д) -ф- (В) — 1, то В будет отри- цанием Д. 29 В примере с антидифтеритной сывороткой, где (В)д = ~-, □и /РА 13 (В)д = —, находим по 15 формуле (32): 29 <2 30 2 1 15 —30 13 29 2 1 ТЗ = П=°’634; 30 * 15 *~30 * 15 таким образом коэффициент связи значительно больше коэффи- циента регрессии р5 = 0,1.
КОЭФФИЦИЕНТЫ РЕГРЕССИИ, КОРРЕЛЯЦИИ И СВЯЗИ 41 Легко видеть, что если бы сыворотка всегда излечивала дифте- рит, т.-е. (В)л=1, то мы получили бы Q= 1; а между тем коэф- . < 13 2 фициент регрессии рв был бы равен 1 — — — —; что же ка- 10 10 сается коэффициента корреляции /?, то он зависит существенным образом от того (как было указано выше), как часто применяется сывороточный метод лечения: таким образом в последнем предполо- / 2 \ жении I (В)л=1, (В)д-= -]--) мы видим (25), что — рв И)(Д) (А) + (А) 1 о А <л> при изменении (Д) от 0 до 1 получаем для R всевозможные значения от 0 до’ В примере же с близнецами коэффициент связи Q между их 0,0496 0,0496 п«ла>,и равен <?= ода7оЖ+(бЖ’= = ' ’ почти вдвое больше коэффициента корреляции /? = 0,1987. Резюмируя полученные выводы, можно сказать, что знание обоих коэффициентов регрессии рл, рв и коэффи- циента связи Q между событиями А и В дает ис- черпывающую картину взаимоотношения между этими событиями, позволяя вычислить вероятности как самих фактов, так и всех совмещений (Д,В), (Д, В) (Д, В), (Д, В), Если известно, что (Д) = (В), тогда роль обоих коэффициентов регрессии всецело выполняется коэффициентом корреляции/?, так как в этом случае /?=р^=рв. (Д)5? (#) и коэффициенты ально, а даны только к /? ==]/ГрА рв и коэффициент В общем же случае, когда Ра и Рв не Даны индивиду- оэффициент корреляции связи Q, эти два числа
42 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ дают также довольно полную картину взаимоотно- шения между событиями, так как близость к еди- нице коэффициента Q свидетельствует о том, что один по крайней мере из фактов приобретает очень большую вероятность при осуществлении другого, и, смотря по тому, насколько велик коэф- фициент корреляции, можно судить о том, в какой мере эта зависимость обратима. них что 625 светлоглазых при выборе отца каждого индивида М) 625 5 к } 1 ООО " 8 4. Упражнения. 1) Взято 1 000 пар отцов с сыновьями. Среди отцов и столько же (625) светлоглазых сыновей, так из указанной группы наудачу вероятность (Л) (считая равновероятным) выбрать светлоглазого отца равна _ 3 и (Л)точно так же при выборе индивида из поколения сыновей 8 у _____ 3 наудачу вероятность выбрать светлоглазого (В) = — и (В)~-_ Таким 8 8 образом, если бы взять наудачу одно лицо из отцовского поколения и независимо от него одно лицо из другого поколения, то вероятность, что они оба окажутся светлоглазыми равна (Л) (В) =- I -) однако, если \ 8 ] о4 после выбора отца мы индивида из поколения сыновей выбираем не про- извольно, а именно как раз сына данного отца, то мы не можем* заранее знать, чему равна вероятность (Л, В), что и отец и его сын будут светло- глазыми: то или иное значение для (Л, В) мы получим в зависимости от того, сколько средн взятых пар состояло из отца и сына с светлыми , л о. 475 19 глазами; положим, что таких пар оказалось 475, тогда (Л, В) = ---- _ —, так как каждую пару мы считаем равновероятной. Требуется определить вероят- ности (В)л, (В)д и т. д., а также коэффициенты корреляции (регрессии) между одинаковым цветом глаз у отца и сына данной группы и коэффи- циент связи между ними. Ответ. (В)л = (Л)в 19 (Л, В) 40 19 — 0.76; коэффициент совме- А 5 25 ”8” стимости между А и В 19 . = <А = 19 (Л, В) 40 152 л равен /. — — 2g -125 — 1,216, связь 64 9^ 97 _. * (Л, В) ~ 0,15; (B)j = 0,4; коэффи- 27 О 320 27 циент корреляции R — рА —- ~ коэффи- "8 * 8'
КОЭФФИЦИЕНТЫ РЕГРЕССИИ, КОРРЕЛЯЦИИ и связи 43 --^.==0,652. 2) В данном населении вероятность, что мужчина, вступающий в брак, моложе 30 лет, равна (Л) --0,4; вероятность, что женщина, вступающая в брак, моложе 30 лет, равна (В)—0,75. Кроме того дано, что коэффи- циент корреляции между А и В равен 0,25. Требуется определить ве- роятность (В)л, что мужчина до 30 лет выбирает себе жену до 30 лет, а также вероятность (В)А~ и коэффициент связи (?. О , . (»b = (8) , R - ...75 + 0,23 у'' ---0,75 Н 0,0625 гЧ5-7-0,871: (В)т = (£) - /? л / 0,663: Г И) Q_____________________________^()54 V -(fi)4 + (S)A -2(В)Д (В)л ’ 3) Определить вероятности (В)^ и (В)д, если известны коэффициент регрессии рв и коэффициент связи (?. Ответ. Для определения (В)л --х и (В)д — у имеем два уравнения х — у ------; исключая из них у, получаем уравнс- х -t - у — 2ху ние х2 — (1 + р) х + - (1 -г (?) -- 0: откуда 1+Р±}/ 1+?2 (34) Таким образом получаем две пары решений, беря одновременно знак + или — перед корнем в обеих формулах. Естественно, что мы получили две пары решений, так как коэффициент регрессии события В относительно А тот же, что коэффициент регрессии события В относительно А; поэтому, если х{ — (В)л и j/j = (/3) y есть одна пара решений, то х2 —- (В) ч 1 — v2 и (В)л 1 —Xt является другой парой решений, а из полученных формул видно, что обе пары решений (получающиеся изменением знака перед корнем) связаны равенствами xt У2г-У{ 4~ х2~ 1. Принимая во внимание, что х и у не могут быть мнимыми числами, получаем, что подкоренное количество в формулах (34) нс может быть отрицательно; поэтому всегда должны быть соблюдены такие неравенства: 1 + j 2 > ?Jb 1 - -----, (35)
44 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ каждое из которых обращается в равенство соответственно при (В)А ~-(В)А и при (Л)^ — (Л)д. Неравенства (35) равнозначны неравенствам I Ра I [ ,3 |<___________Q__________. |/ 1 --г Q2 1 в 1 ~Ь |/1 + Q2 (35 bis) Перемножая эти неравенства, легко проверить, что коэффициент корреля- ции удовлетворяет такому же неравенству 1 + j/1 4- <?2' ‘V L + R‘2 (36) Кроме того можно проверить, что последнее неравенство обращается в равенство только при (Л) —(В) --^-. Если бы были известны оба коэффи- циента регрессии, то указанный прием позволил бы определить также 15 (Л)в и (Л)^. Пусть, например, рл =^=0,36 и ; в таком слу- чае из (34) находим (Л)в=- (ВЦ—-1,36 у0-’—, (ЛЦ — (ВЦ—- °’64 °’-" ’ т.-е. либо (Л)в = (В)л = 0,76 и (Л)^^ (В)л•= 0,4, что соответствует как раз данным предыдущей задачи, либо (Л)в — (В)л = 0,6 и (Л)^ — (В)А ~ 0,24, что соответствовало бы также предыдущей задаче, если бы мы событиями Л и В называли соответственно не светлые глаза у отца и сына, а темные. После того как определены значения (Л)в, (В)л (Л)^ я (^)Z’ для вычисления (Л) и (В) пользуемся уравнениями: (Л) = (В) (Л)в+(В) (ЛЦ, ГВ) —(Л) гвщ-(Л) (ВЦ, которые легко преобразовать к виду (Л) = (В) [(ЛЦ-(ЛЦ]+(ЛЦ, (В) = (Л) [(ВЦ - (ВЦ] + (ВЦ, откуда ,(ЛЦ + Ра ^а а + Рв ИЦ (Л) =-----nZTga -> <Д) =----- В частности, в случае, когда (А) = (В), находим сразу ИЦ _ ИЦ ,,7. ( )-( 1 + ИЦ- (ЛЦ - 1 - R ( 1 0 4 5 и видим, что в рассмотренном примере (Л) — (В)= ~ q 75 4 Таким образом коэффициенты корреляции R и связи Q совместно позво- ляют определить все вероятности при условии, что (Л) = (В). 4) Проверить, что ес'ли /? — -i то Q^~f а если @ = то 2 о 5 о
КОЭФФИЦИЕНТЫ РЕГРЕСССИИ, КОРРЕЛЯЦИИ И СВЯЗИ 45 Ответ. Это вытекает из (36) 5) Полагая = (В) _ у + где а и р весьма малые вели- чины, показать, что приближенное равенство Q—2*L 1 + Ri имеет погрешность порядка 4- 02. 6) Проверить, что оба коэффициента регрессии и рл удовлетворяют неравенству; 1 Л- а R " ’ где 1 4-а=.------9_____Т /?[1 +/1-Q] при чем одно из неравенств обращается в равенство, если (Л)в + (Л)д - 1 или (В)л+ (В)д = 1, и оба неравенства обращаются в равенства, когда а-^0, т.-е. (Л) ----- (В) = - 7) Положим (Л, В)^к(Л)(В), (Л, В) = И(Л) (В), (Л, В) = / (Л) (В), (Д В) = Г (Л) В). Доказать, что если k > 1, то и к' > 1, а 1 и / < I; если же л --’-1 (независимость), то Г = р. = / ~ 1. Доказать, что Q =. т.-е. )Л' = Ш?; (38.1 v /.к + ци pjx 1 — Q вывести отсюда: что равенство Q — 1 означает, что либо 0, либо у/—О; a — 1 означает, что либо к = 0, либо к' = 0. Показать, что (Л) —(В) равнозначно у = н'; и (Л) —(£?) равнозначно к—к'. Показать, что можно задать произвольно 3 коэффициента совмести- мости а> 1, ;л<1, / < 1, и вероятности ^Л) и (В) определяются тогда однозначно, а именно: (Л)=.—(В) з:-]—Д (Д.В)г(39. 8) Доказать, что —«/В/ |/ т у .®> и)
46 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ вывести отсюда, что --1Ц/- 1) /V (А - 1) (/ (40) и что, при несовместимости фактов Л и В, // -- 1 - Ар а также, что (при /? 0) / (лив) /?2 1 (Л) (Я) [ (Л) (В) J при чем знак равенства имеет место --(Л) (В), т.-е. при тогда X-----1 ' 1 *1 . , Показать, что всегда 1, л а лишь при условии, что ГЛ) (Яр- 1 , 1 - 1 -- 4- -л 1, при чем знак равенства означает, что события тождественны или противоположны. 9) Доказать, что, если Q и даны, то d-R)i, (1--/?)•> J—-g (1 + /<,2. (41. при чем оба левые неравенства обращаются в равенства, когда ji^/, а правые неравенства обращаются в равенства, когда а ~)/: поэтому, когда (Л) —(В), то а и а являются корнями уравнения Z----i “n---% 1 — i(1—/?)'Л-0, a — 1—/?: напротив, когда (Л) (В), то а 1 4“ а р. и / являются корнями уравнения: то Если одновременно аз-л' и у. /, то a—)/ .I-;-/?, a 1 —/?; но при /? 0 это имеет место лишь при (Л) -з(В) (тогда и неравенство (36) обращается в равенство Q- Вывёсти из (40) и (41), что ). и V всегда удовлетворяют неравенству: ! ’ | 1 - QR - I W (1 + №)-- 2 ~R\ < гЧ’й f1 --QR -> Ч14 1-а*— - 1 V
ГЛАВА ЧЕТВЕРТАЯ РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ ЕА ПРОИЗВОЛЬНОЕ ЧИСЛО СОБЫТИЙ 1. Теорема умножения вероятностей может быть распространена на совмещения какого угодно числа событий. Рассмотрим сначала случай независимых событий Лр Л9,. . ., Л k . Мы говорим, что собы- тия Лр Л2,. . ., Л * независимы между собой, если вероятность наступления каждого из них не меняет своего значения после того, как одно или несколько из остальных событий осуществились. Образцами таких событий могут служить появления белого шара из каждой из k данных урн, из которых вынимается по одному шару. В таком случае вероятность (ЛГЛ.„Л3) совмещения трех событий равна (А> а2, Л3) = (Лр Л2) . (Л3) (Л,) (Л,) (Л3). Точно так же, чтобы получить вероятность совмещения четырех событий ЛрЛ2, Л3, Л4 замечаем, что (ЛРЛ2,Л3,Л4) — (ЛГ Л2,Л3) . (Л^-^Л^СЛзХЛ^СЛД так как, по предположению, вероятность события Л4 сохраняет свое первоначальное значение и после того, как становится извест- ным, что факты ЛГЛ2,Л3 осуществились. Итак, повторяя то же рассуждение сколько угодно раз, находим, что вероятность совмещения k независимых событий равна произ- ведению вероятностей всех этих событий. Например: в трех ящиках находится по 10 билетиков с номе- рами от 1 до 10, из каждого ящика вынимается по одному билетику; какова вероятность, что все три вынутые билета будут иметь четные номера? Так как вероятность появления четного номера из одного
48 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ ящика равна 5 10 J. 2 и все три вынимания независимы, то появле- / 1\ / 1\ / 1\ / 1 \3 1 ния трех четных номеров равно = —• Предположим, что, как в рассмотренном примере, производится одновременно или повторяется п однородных независимых опытов, при которых вероятности (/Ц) = (Д2) = . .. = (Дл) = р* тогда вероятность, что все события Д2,..., Ап осуществятся, равна произведению (/Ц) ... (А^—р • р. . .р=рп Таким образом, если в отдельном опыте вероятность события А равна р, то при повторении опыта п раз (полагая, что результаты предшествующих опытов ни в какой мере не влияют на результат после- дующих) вероятность, что события произойдут при всех п опытах, равна рп. Ввиду того, что /?<^1, если событие не достоверно, мы видим что рп уменьшается с возрастанием л, а потому, чем п больше, тем менее вероятно, что событие А будет повторяться при всех п опытах; кроме того, при неограниченном возрастании числа л, вероятность рп повторения А при п опытах стремится к нулю. Предположим, например, что вероятность в данном населении новорожденному быть мальчиком р = I”’ следовательно, веро- ятность, что из 10 новорожденных все десять будут мальчиками, равна = 0,001; таким образом в городе, где в течение недели регистрируется около 10 рождений, маловероятно, но воз- можно, что в течение недели не родится ни одной девочки. Однако в продолжение года, когда число рождений в данном городе достигнет 500, вероятность, что все новорожденные окажутся мальчиками, равна 1 — 1 и мы можем считать этот столь маловероятный факт практически невозможным, если только не будет найдено средство искусственно влиять на пол новоро- жденного. 9 В зависимости от групп населения р может немного колебаться, но обычно р немного больше половины (около 0,51).
РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 49 Возьмем другой пример. Ребенку, не знающему азбуки, предла- гают разложить одну за другой карточки с буквами, которые он вынимает из ящика, где имеются поровну в весьма большом коли- честве одинаковые карточки с одной из 30 букв русского алфавита, так что вероятность вынуть ту или иную определенную букву равна 1 ( . . Л — (для того, чтобы вероятность появления каждой буквы все время 1 оставалась равна —, можно предположить, что кто-ниоудь сейчас же Ои после появления данной оуквы вкладывает в ящик карточку с той же буквой, тщательно размешивая все карточки). Тогда вероятность, что сложивши первые 5 вынутых карточек ребенок составит слово г. / IV 1 Париж равна не невозможно. Однако вероятность, составит определенное сочинение, „Эфир и принцип относительности1 это весьма мало вероятно, но что, сложивши 20 000 букв, он например лекцию Эйнштейна 1^1/ , равна 7^q 29 ооо рр’эооо (Tf-e* меньше десятичной дроби с 29 000 нулями перед первой значащей цифрой), и, хотя теоретически такая комбинация букв не является безусловно невозможной, однако практически мы считаем это столь же невозможным, как то, что вода в кастрюле, стоящей на горячей плите, обратится в лед, а вода в сосуде, поставленном в снег, закипит. Таким образом факты, имеющие чрезвычайно малую математическую вероятность, можно считать прак- тически невозможными. Однако этому утверждению нельзя придавать абсолютного зна- чения во избежание логических противоречий. Действительно, пусть лотерея содержит 1 000 000 билетов при одном выигрыше. Если у меня есть только один билет, то вероятность выигрыша 0,000 001 ничтожна; однако если бы я считал свой выигрыш невозможным, то пришел бы к противоречию, так как один из миллиона всех держателей билетов, которые находятся в таком же положении как и я, несомнено выиграет. Поэтому утверждение, что факт Л, вероятность которого равна где N— чрезвычайно большое число, практически невозмо- жен, означает лишь следующее: одновременно Теория вероятностей. 4
50 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ с фактом А мы должны рассматривать еще N — 1 физически эквивалентных ему фактов, и из всей этой огромной совокупности N фактов вдействи- тельности происходит только один, вся же осталь- ная масса фактов не осуществляется. Точно также, если вероятность р факта А очень близка к еди- нице, то для отдельных опытов появление А почти достоверно; однако и тогда вероятность рп, что факт повторится при всех п данных опытах, становится весьма малой, когда п велико. Пусть, например, вероятность А равна р = 0,999=1—- ; тогда при п = 1 000 опытах вероятность, что А будет повторяться постоянно, г 1 \ 1 000 равна 1—1 QQQ ) = 0,367 9; вероятность же, что А хоть раз не произойдет, равна 1—р'1 0,632 1, т.-е. почти вдвое больше: а если мы произведем п= 10 000 опытов, то веро- ятность, что А всегда будет происходить, равна всего / 1 \ ю 000 1 I 1----Гапа I с “10 0,000 04 = --_ , и при 100 000 опы- \ 1 000/ 2э000 - тах вероятность постоянного повторения А равна (1 — ]-qqq' ) — е~100 =т.-е. практически невозможна. 1043 Вообще, как бы близка к 1 ни была вероятность р = 1 — факта А в отдельном из однородных опытов, вероятность его постоянного появления при п указанных опытах будет значительна только п тогда, когда — весьма малая дрооь; но, по мере увеличения п эта вероятность быстро убывает, становясь практически равной нулю, п когда —- достигает нескольких десятков. N 2. Если события Аг А.„ А3 зависимы между собой, то во всяком случае, применяя дважды теорему умножения вероятностей, мы нахо- дим, что вероятность (Ar А2, Ад) совмещения их определится формулой (А, А2, А3) = (Av Аг) • (А3) Л[Л1(А,) (А2)л, (А,)^, где (А3)л А означает вероятность события А3 после того, как оба события Аа и А2 осуществились. Точно также, рассматривая совме-
РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 51 щение четырех событий ЛП, А2, Л3, А4 как осуществление четвертого из них при совместном наступлении первых трех, находим, что (Лр А21 Л3, Л4) = (Лг А2, А3) (А4)Aia2a3~ = (А) (^2)^ (^з)л1л4 (^<)л1лал3 > и аналогичным образом получим формулу для вероятности совмеще- ния любого числа событий в виде произведения вероятностей всех этих событий, при чем входящая множителем вероятность каждого последующего события Аа берется не первоначальная, а та, которая соответствует предположению, что все предыдущие события Av А2, ..., ЛА осуществлены. Условие независимости событий, которое было указано выше, означает, что (А).4,л, ... М, = (А'), каковы бы ни были различные между собой числа i, k,..., s, при- нимающие всевозможные значения от 1 до /г, где п есть число всех событий: так, в случае п = 2, в случае п = 3 (42) (^з)л1л.; = ^з)д1 —(^з)л2=(^з) ИТ. п. Вообще, подсчитывая, сколько различных вероятностей можно было бы приписать каждому определенному событию Ai в зависимости от того, какие из прочих событий считаются осуществившимися, видим, что [кроме первоначальной вероятности (Л/)] будет п—значение, соответ- . . . , ^2 (п — 1) (п — 2) ствующее (Л.)л, при всевозможных k, С п -------------значении вида (А^а^а и т. д., т.-е. всего С1 , + С' ,-I----+ Сп~\=2п~1 — 1 п - - -1 п — 1 1 1 п — 1 значений, которые в случае независимости должны быть равны (ЛД Но так как I может получать п различных значений, то условие независимости выражается п (2W 1 -- 1) равенствами. 4*
52 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ Однако не все эти равенства независимы; можно доказать, что многие из них являются следствиями из других. Мы в этом уже убедились для п = 2, когда показали, что (Л<)л =(Л^ есть следствие из равенства (Л2)л = (Л3)- Точно также из 9 равенств (42) только 4, например, (Л3)л = (Л2) и (Л3) А А = Мз)/т= 04з) независимы, остальные же 5 равенств являются необходимыми следствиями из предыдущих: действительно, ввиду упомянутого результата для я~2, мы видим сразу, что (Лр^ — (Л{) (Л1)/1_ = (Ad), (Л2)л=(Л2); поэтому (Л(, Л2, Л3) = (Л1) (Л2)/ (Л3) = = (А) Из) Из) И1)ли8 ’ 0ТКУда Иа^л,= Из) и Из)л1л.2 ~ Из)- Вообще аналогичным образом можно проверить, что у с л о в и е, необходимое и достаточное для того, чтобы п событий Лъ Л3,..., Ап были независимые между собой, состоит в том, чтобы были соблюдены равенства (Л„ Л^) = (Л/) (Л*); (Л;, Ak, Л^Ш (Л*) (Л,) и т. д„ т.-е. чтобы вероятности совмещений любых нескольких из рассматриваемых фактов были равны произведе- ниям первоначальных вероятностей этих фактов. Так как число попарных совмещений есть число сочетаний из п по 2: т.-е. С2, а совмещений по 3 может быть С3 и т. д., то общее число п п указанных независимых равенств составляет С2 + С3 4-.. . 4- Сп= — п — 1. п 1 п ' 1 п События называют только попарно независимыми, если соблюдены лишь условия (Лг-ЛА) —(Л,) (Л*) при любых i, k; события называют независи- мыми только по 3, если (Л,-, Aki Л/) = (Л/) (Ak) (Л;) и т.д. Небесполезно уяснить на примере, что попарная независи- мость между тремя, например, событиями отнюдь не означает, что эти события совершенно независимы, т.-е. возможно, что (Л, Л2) = (Л1) (Л2), (Ль Л3)=(Л1) (Л3), (Л2> Л3) = (Л2) (Л3), а между тем (Ль Л2, Л^ЗЭДЛ^ (Л9) (Л3\ А именно, рассмотрим пример, в котором (Л1) = (Л2) = (Л3)= 2’ (Л1Мг) = (ЛьЛ3) = (Л.2, Л3) = (так что события попарно независимы), в то время как совмещение всех трех событий вместе невозможно, т.-е. (Ль Л3, Л3) — 0 If—2. 2/- 4 Положим, что в ящике находятся 4 одинаковых билетика, так что вероят- ность вынуть каждый из них одна и та же; пусть номера этих билетов будут соответственно 112, 121, 211 и 222. Назовем событием Л^ цифру 1 на месте сотен, событием Л2 цифру 1 на месте десятков и событием Л3. / л ч 2 1 цифру 1 на месте единиц в вынутом номере; в таком случае (Л1)=:=
РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 53 так как событие А{ произойдет, если будет вынут первый или второй би- летик, точно также (Л.2) = (Л3) = - так как событие А2 наступит, если будет вынут первый или третий билет, а ,43 наступит, если будет вынут второй или третий билет. С другой стороны, (Л1} = так как цифры сотен и десятков обе равны 1 только в первом числе, и аналогичным обра- зом (AL, Л3) — (Л2, Л3)но, очевидно, (Ло Л2, Л3) = 0, так, как нет среди наших чисел ни одного, в котором все три цифры были бы единицами. 3, Упражнения, 1) Какова вероятность Р при бросании трех игральных костей, что на одной по крайней мере окажется 6 очков? гч п , /5\з 91 Ответ. P=i-(_j=_. 2) Доказать, что условие, необходимое и достаточное для того, чтобы неотрицательные числа рь р2) p3i pl2t pl3t Р23, pi23 могли быть соответственно вероятностями некоторых событий AltA2>A3 и их совмещений по 2 и по 3, является соблюдение неравенств Pik^PiXb Pi+Pi^Pik + Pib 1 Г Р12 + Р13 4~ Р22 Pi +Р2 +РЗ + P123i (43) где г, k могут быть равны 1, 2, 3 (так что имеется по три неравенства первого и второго вида). __ Ответ. Если обозначим через Л2, Д3), *< = (А, Л2, Л3), *2—(А> ^2> ^з)» *3“ ^3)7 *12 (-А’ А)> *13“ И V А)> *23’— (А> А)>*123—(А> ^21 АЛ Т0 *0— р423? */ “ Pik ~~ Р123> Xkl = — Pi — Pik — Pit + Р123> *123 — 1 — Pi. —P'2~~ Pz -^Pbi^rPiS + P23—P123> Откуда получаем искомые неравенства, выражая, согласно основному принципу первой главы, что все х^О. 3) Какова вероятность р123 трем лицам Alf А2, А3 встретиться всем троим в клубе, если вероятность каждому из них пойти в клуб pi ~ р2 = 2 . . 1 , вероятность же встречи попарно А{ и равна р12 = ^у> а ве- 3 5 4 э роятности р13 = у, Р23 = у? 4 7 Ответ. Из неравенств (43) получаем /?123 Наибольшее зна- У - 1о 4 — чение рт = — соответствует (Ah А,3, Л3) = 0, т.-е. случаю, когда присут- ствие последних двух лиц всегда влечет за собой появление первого; 7 — — напротив, наименьшее значение/7Рз —— соответствует А2, Л3) = 0, 1о т.-е. невозможности появления первого, когда отсутствуют оба последние лица. 4) Доказать, что условия, необходимые и достаточные для того, чтобы неотрицательные числа р2, р3, р(2, pi3) р23 могли быть соответствен-
54 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ но вероятностями некоторых событий Alf А2, As и их попарных совме- щений, состоит в выполнении 13 неравенств: Pl Pik> 1 + Pik Pi + Pk> Pi + Pkl Pit + Pik> 1 + A2 + Аз + Pi3 A + Pi + A- (44) Ответ. Первая группа неравенств получается сложением неравенств (43) Pik Раз и Pi + Раз Pik + Pib ВТОРая группа получается сложением неравенств р.: -f рт pik + рн и 1 + А-2 + Аз А Аз S5 А + А + А + А*з; третья группа получается сложением РиРР^Раз и Pi + Раз Pik + Рц\ наконец, последнее неравенство получается, если в последнем из нера- венств (43) положить А23- Таким образом неравенства (44) являются необходимым следствием неравенств (43). Наоборот, если неравенства (44) осуществлен, то соответствующим выбором рт 0 возможно удовле- творить неравенствам (43), так как достаточно положить А23 равным наи- меньшему из неотрицательных чисел plk и 1 — р{—р2 — А + Ра + Аз + As- Таким образом, если бы в предыдущем примере мы взяли Аз^тг вместо о £ 9 * то мы получили бы неприемлемые данные, так как неравенство Р\ + Аз^ Ра + Ра не было бы соблюдено (если при р{ ----- р.±- р?> -. ~ — веро- о л л 1 5 ятность встречи А{ и А2 равна и Аз = то вероятность встре- 7 11' чи Л2 и Л3 не может быть меньше, чем —- и не может быть больше, чем 1о 1о/ 5) Вывести из (43), что если события Аи Л2, имеют вероятности р{, Ръ Рз и попарно независимы, то можно утверждать лишь, что ааа + ааа^(Л> А, А)^ааа—а^а, аа^(А, А, А), где 7.-=1—А, (А /—любые из трех различных чисел 1, 2, 3). Ответ. Последняя группа неравенств соответствует первой группе неравенств (43), а двойные неравенства равнозначны второму и третьему неравенствам. Отсюда видно, что (Ль А2, Л3) может быть равно нулю только при PkPi^qkQb так чт0? если бы в рассмотренном на странице 52 примере' одно из значений (£,)--- pk было больше мы бы не могли получить (Л4, Л2, А)-7--0. 6) Доказать, что 2Л чисел a, Pik* Pikb • • - могут представлять соответ- ственно вероятности событий А2, ♦ , Ап и их совмещений по 2, по 3 и т. д. в том случае и только в том случае, если они удовлетворяют не- равенствам вида: ^—Р1—Р2----—Рп+Рц+ +Pl,n-r)n—Pl23— SsO J (1 неравенство) I Oi-Рц—Pi2— •- Pin+ Рщ+...........53=0 (я неравенств') I ° _ / n (/2 — 1) \ I всего Pifi—Piki— Pikz.......................“9—; неравенств S \ 2 /2" нера- ...................................................... венств. Pi-2 • - • - n 0 (1 неравенство).
РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 55 Ответ. Это вытекает из того, чго правая часть первого неравенства представляет собой вероятность ненаступлення ни одного из данных событий; правая часть каждого Из п следующих неравенств выражает соответственно вероятность наступления событий А: при отсутствии осталь- ных; следующая группа неравенств соответствует вероятности наступления двух событий Af и Ak при отсутствии остальных и т. д. 7) Проверить, что неравенства (45) соблюдаются, если события Ло...., Ап независимы, т.-е. если p^i^^^pi Pk Pi ••• 8) Доказать, что события А{, Л.2,... , Ап могут иметь попарно один и тот же коэффициент совместимости 1, т.-е. при всяком i и k (Л.-, ЛА.) — -Ар- Pk> если > удовлетворяет неравенствам Ответ. Действительно, неравенствам (45) можно удовлетворить, поло- живши p-:pk PikL~ ^ PiPkPl и т* д > так как все они (кроме первого) получат вид: Pi (1 —'Pl) (i - *Рэ)... (1 - А />„) 5= О, *PiPk (1 — >-Pi) (1 — ' P-i) а первое, после умножения на а, можно написать в. виде: k - 1 +(1 — ApO(l —— 11 -45^0. Очевидно, что условие является также необходимым, так как др. Pi есть условная вероятность Л;; напротив, условие не является, вообще, необходимым, однако, если п бесконечно возрастает (а числа рп не стре- мятся к нулю), то X не может быть меньше 1. Действительно, умножая пер- вое неравенство (45) на (2неравенства второй группы на (2 Pi—О', неравенства третьей группы на и т. д. и складывая полученные результаты почленно, находим (2 рУ — 2(2Р.У - г 2 Pi— 2 2 P:k - 4 2 Pik ~ — 'SiPi + ‘2'SiPik— (2р.')'Ээ0, (45 bis) как необходимое, вообще, следствие из (45), ибо все члены, содержащие р;к1, Phski и т- Д- сокращаются благодаря тождествам 1 - И - 1) + (»'-W-2)----------- при т > 1, и , 1ч, , ~ i) (fH — 21- А т — (m —l)«+i------^2-----;-----= °> при т > 2.
56 ОСНОВОПОЛОЖЕНИЯ ТЕОРИИ ВЕРОЯТНОСТЕЙ Полагая в неравенстве (45 bis) p,k ~ ^PiPh получим откуда -.JW-Spz-^ 1 ^(W-b2 ь/ 9) Доказать, что неотрицательные числа р^р^^^Рп тогда и только тогда могут быть вероятностями несовместимых по три и независимых попарно событий, когда соблюдены п неравенств: Pi "Г Ръ - PH-i L Pl + Р-2 + • • • -Г РЛ-2 Т- Рп < 1. • • • - Рг -Г Рз -Г • • • -т Рп < 1. Ответ. Несовместимость по три означает, что p;k[-^pik[m=. • *. = О, так что в данном случае уравнения (45) обращаются в п уравнений вида Pi (1 — р2 — 1 • • — рп) 0 и одно уравнение 1 — (Pi -г • • ~ Рп) - г 2 Pi Pk : = О, которое вытекает из предыдущих, так как ему можно дать форму (1 — Рл)'Ч—Pj — Pi------Pn-i) --’S'p/PaSsO, где 2 не содержит рп. 10) Доказать, что для того, чтобы неотрицательные числа р^ р%, ..., рп могли быть вероятностями фактов несовместимых по три (т.-с. р^ 0), необходимо и достаточно, чтобы (кроме р;=^1) Pi -Т р-1 4- • • • + Рп =5 2. Ответ. Необходимость этого условия доказывается сложением всех неравенств (45) вторэй группы с удвоенным первым неравенством. Обратно, если даны числа р{ ^р^ А • • • '^рп, удовлетворяющие данному условию можно построить ряд событий Ah А>, несовместимых по три, чтобы (Л.-) = Очевидно, достаточно ограничиться рассмотрением случая, когда pi 4- р2 + ... + рп = 2; отсюда следует, что 2р^ р{ - г р2 + ... 4- рп\ нужно показать, что при этом последнем условия можно подыскать неотрицательные числа pikf удовлетворяющие системе уравнений П I! П pi = 2pi=, Рг=2р2, Ъ,- Находим, полагая pXjl =. pnt р2 п — 0, ..., рп _ t fl — 0, что написанные п /?— I п 1 уравнений равноценны (п — 1) уравнениям: р{ — рп 2 Ра> 2 Р^^ * • *
РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ УМНОЖЕНИЯ ВЕРОЯТНОСТЕЙ 57 той же формы, при чем 2{р{ ~~р^^р{ + р2 4" * * • + A/-J “Рп 11 + р2 4" • •' + Pn-i—Рп> гДе 2 > 1; поэтому, понижая последо- довательно число п, из правильности нашего утверждения для п — 3, заключаем о его правильности и для любого п. Пусть, например, 3 12 3 1 р1=--, р3 = у> ps^_; полагая Pl,5 = Ps = у > /’2,5 = Р-Л,5 = /’4,5 = °> получаем уравнения 2 1 Pi —р5 — ~5~ —Р12 + pi3 + Pili Р'2 — 2" —Р12 + ^23 + Р'2Ъ Рз — — Pi3 + Р'23 + Р34» Pl — 1Q — Pi i + Р21 ‘Г P$l i полагая затем 3 P2l --'-Р^-- iQ » Pll = PM О, имеем 2 1 2 Pl2 Pi3> :~Р{2 + Р23> — Р13 + Р'23> откуда 3 1 Р‘3-'-10, Р1о-Аз^10
ЧАСТЬ ВТОРАЯ ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ МАТЕМАТИЧЕ- СКИХ ВЕРОЯТНОСТЕЙ ГЛАВА ПЕРВАЯ ПРИЕМ ПОДСЧЕТА РАВНОВОЗМОЖНЫХ СЛУЧАЕВ 1. В предшествующих главах мы установили теоретические основы для вычисления вероятностей одних фактов, когда известны вероятности некоторых других связанных с ними событий. Теперь мы займемся рассмотрением главнейших методов, которые приме- няются в тех или иных случаях, при чем возможно, конечно, для ре- шения той же задачи пользоваться различными способами и, если только исходные вероятности были оценены одинаково и во время вычисления не было сделано неявно некоторых новых допущений, то все приемы, основанные исключительно на вышеустановленных положениях, приводят к одинаковым результатам. Начнем с простейшего приема, который заключается в непосред- ственном применении определения математической вероятности со- бытия А, как отношения — числа благоприятных событию А слу- чаев, к общему числу всех единственно и равновозможных несовме- стимых случаев. Применение этого приема требует непосредствен- ного подсчета обоих чисел т и я, при чем должно быть обращено особое внимание на то, чтобы вполне отчетливо указать, какие слу- чаи считаются равновозможными. Первый пример. В ящике имеется /И белых и АГ чер- ных шаров; вынимается п шаров; требуется опреде- лить, какова вероятность, что среди вынутых шаров будет / шаров белого цвета. Полагая, что шары в ящике тщательно смешаны и не образуют скоплений из шаров определенного цвета, мы допускаем, что любая комбинация из п шаров одинаково вероятна. Принимая во внимание, что общее число шаров в ящике равно /И -1-АГ, мы видим, что, если бы мы их мысленно перенумеровали, то появление любых п
ПРИЕМ ПОДСЧЕТА РАВНОВОЗМОЖНЫХ СЛУЧАЕВ 59 нумеров было бы одинаково вероятно; таким образом, если бы вместо цвета мы различали шары нумерами, то число всех един- ственно и равновозможных несовместимых случаев при вынимании п шаров было бы равно г- = /г!(/И-|-Лг— /г)! ’ Если мы вообразим себе все белые шары перенумерованными первыми М номерами, а черные — следующими N номерами, то благо- приятствовать нашему событию А будут те и только те из рассмо- тренных случаев, которые соответствовали бы присутствию среди вынутых п шаров I таких, которые были бы нумерованными какими- нибудь из первых М номеров; это могли бы быть, например, ну- мера: 1,2,..., I или 2,3, ..., /-[-1 (полагая, что и т. п. Таким образом событию А благоприятствуют не только опреде- ленные I нумеров, а всевозможные сочетания по I из числа М, т.-е. ci _ Но, если мы возьмем определенную благоприятную для нас группу номеров (например, номера 1,2,..., /), то она встретится не в одном только из вышеупомянутых единственно возможных CnM_^N случаев, так как одновременно с этими I шарами могут быть вынуты какие угодно п — I черных шаров, т.-е. п — I номеров из последующих N номеров: значит, каждой группе благоприятной событию А соответствует Су Z различных случаев. Следова- тельно общее число всех благоприятных А случаев равно про- изведению ci cn~t= M\N\ — — /? + /)! ’ поэтому искомая вероятность ciMCx~l__ М\ N\ — ' С* , ~ (Л?ДТУ!) /!(«—/)! (Л1—/)! (N—я-L/)! ’ (46) л« + Л Пусть, например, Л4 = 14, Л/г= 7, п = 4, /=2; тогда 14! 7! 4! 17! _ 13 • 14 • 6 • 7 • 6 _ 91 ’ ~~ 21! 2! 2! Г21ТТ ~ 18 19 • 20 • 21 — 285 ‘
60 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ Второй пример. Дано п одинаковых ящичков, в ко- торые бросают наудачу N дробинок, так что ве- роятность каждой дробинке попасть в каждый ящик одна и та же, независимо от того, сколько дробинок уже попало в данный ящичек. Нужно определить, какова вероятность, что в данный ящик попадает h дробинок. Общее число всех равновозможных случаев равно здесь , так как каждая дробинка может попасть в любой из ящичков (по- скольку мы индивидуализируем каждую дробинку, давая ей мы- сленно определенное название или номер). Благоприятными из них будут те из этих случаев, при которых в данный ящик попало h каких-нибудь дробинок; пусть это бу- дет h определенных дробинок; тогда одновременно осталь- ные N—h дробинок могут произвольно занять оставшиеся п—1 место, и, следовательно, этому обстоятельству благоприятствует («—1Г~Л, из рассмотренных выше случаев. Но так как для нас не важно, чтобы в выбранный нами ящик попали определенные h дробинок, а это могут быть любые h из данных N дробинок, то подбор дробинок в указанный ящик может быть произведен способами. Поэтому общее число благоприятных нашему событию случаев равно CN-(n~ О и следовательно искомая вероятность Легко проверить, что, согласно требованию тесремы сложения, п —
ПРИЕМ ПОДСЧЕТА РАВНОВОЗМОЖНЫХ СЛУЧАЕВ 61 Во многих приложениях формулы (47) (например, в теории разрежен- N ных газов) числа п и А весьма велики, при чем — k сохраняет опреде- ленное конечное значение, так что дрооь весьма мала. Во всяком случае формулу (47) можем записать в виде: __kn(kn — 1) ... (kn — h+ 1) / lp'! h\{n — \)h V n) ' Полагая затем, что п безгранично возрастает и замечая, что находим, для данного конечного числа /?, Таким образом P0' = e~k, Pi = ke~k, Р^-е-”, P3'=--^e~k и т. д. Заметим, что Возвращаясь к случаю, когда /V и п конечные числа, положим,, например, что N— п — 8; тогда1) / 7\8 / 7 V 1 / 7\7 ₽0=Ь ^0,344, Р,= - =^0,393, Р2 = - - Wo,197, \ о / \ о / Z\o/ Р3^= 0,056 и т. д. Таким образом в данном случае, взявши наудачу ящик, из всех чисел наиболее вероятное число дробинок, которое мы в нем най- дем, это 1; немного менее вероятно, что мы не найдем ни одной дробинки (вероятность, что мы найдем более 1 дробинки равна только 1 — Pq — Pi=^= 0,263). Аналогичным образом можем получить вероятность, что в пер- вом ящике окажется /гг дробинок, а во втором ящике — /г2 дроби- нок. Действительно, общее число всех равновозможных случаев 9 9 /г! при h ~ 0 равен 1.
62 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ остается nN. Если в первый ящик попали определенные hy дро- бинок, а во второй h2 другие определенные дробинки, то осталь- ные N—hy—h2 дробинок могли занять оставшиеся /г—2 ящика произвольным образом, т.-е. (п — 2)N~h‘L~fli способами. Но так как нам безразлично, какие дробинки попали в первые два ящика, то пер- вые liy дробинок могут быть выбраны способами, и тогда оста- нется (при каждом подборе первых 1гг дробинок) произвольный выбор h2 дробинок из N—hy свободных еще дробинок. Поэтому число всех благоприятных случаев равно а потому искомая вероятность N N-h' nN ~ например, если n — N=8 и /?1 = /г2 = 1, то 66 5 103 32 768 =4 0,156. Применяя то же рассуждение, видим, что вероятность z > что в первом ящике hy дробинки, во втором — h2 и в третьем — /г3, равна / очЛ’ — At - - А2 — /?3 р __ V * / __ N .V - A, Чт- А4- А2 N — М (« —3)'v~A,~ft;~A3 ~ h1\h2\h^.(N-h1-h2~h^.nN' Продолжая тот же прием, находим, что вероятность того, что в пер- вом ящике будет /z1, во втором — ... и наконец в /z-ом ящике hn = N— — h2 — ... — hn_i дробинок, равна р N[ 1 ЛЧЛ.2...Л;; /г2! .... й„! tP (числа А3, Л2, .. ., hn могут быть и не различны между собой).
ПРИЕМ ПОДСЧЕТА РАВНОВОЗМОЖНЫХ СЛУЧАЕВ 63 Например, при Лг=/?~8 вероятность, что во всех ящиках окажется по одной дробинке, равна 8! 0,002 403, 8й вероятность же, что в первых двух ящиках не будет ни одной дробинки, в следующих четырех ящиках по одной и в последних двух по две, равна 8 ’ = —2-=^0,000 601; 4 . поэтому вероятность, что вообще найдутся 2 пустых ящика, 4 ящика с 1 дробинкой и 2 ящика с двумя дробинками равна 8^7 Т^2 ^4- • />'^°-252 з> 1.2 так как два пустые ящика могут быть выбраны '8 8-7 1*2 способами и после . 6-5 этого еще С(, = способами могут быть взяты ящики с одной дробинкой. Вообще, вероятность, что в каких-нибудь ящиках будет 1гг дробинок, в каких-нибудь других а2 ящиках бу- дет h2 дробинок и т. д., равна ___________________Лг! п\_______________________1_ где СЧН-ЯгЧ- ..•+«*=«, Mi + Мг + • • • + hkak = /V (числа /гг /г2, ..., hk различны между собою). При п = 2 _ ТУ! 1 ТУ! 1 Ph,N-h— N-h,h— h^N_hy_ 2Л-’ ~~h\(N_hy 2Л'-1’ если h . - 2 Упражнения. 1) За круглым столом сидят 5 мужчин и 5 женщин; какова вероятность, что никакие два лица одинакового пола не сидят рядом, если
64 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ места занимаются случайно (т.-е. для каждого лица каждое место одинаково вероятно)? Ответ Р-2(--!)--— Ответ. Г—2 10, —126- 2) В три ящика бросают наудачу 12 шаров; требуется определить наиболее вероятное распределение шаров по ящикам. Ответ. Наиболее вероятно, что в ящиках (независимо от их порядка) окажется в одном 3, в другом 4, в третьем 5 шаров; вероятность этого • тД — <Х313; напротив, вероятность, что во всех ящиках 4 ! 5 ! о12 19 ооЗ о 12 ! 1 3850 оудет поровну (по четыре шара) равна только Р = =: : п ф 0,065; I)** 5 * * * ОУ 04У из распределений, в которых в двух ящиках будет поровну, наиболее вероятно то, в котором два ящика содержат по 3 шара, а в третьем 6 ша- П Q 12! 1 6160_ДЛ1ЛЛ ров; вероятность этого равна Q —3 m л ш 5^ 0,104; таким о1-' иУГЫУ образом, даже Q > Р (следующей за R по величине является вероятность 5, что в каком-нибудь одном ящике будет два шара, в другом 4 и в третьем 6: S = 1/? ф 0,156). 3) Из колоды, состоящей из 52 карт, вынимают вместе 10 карт. Какова вероятность что среди вынутых карт будет хоть один туз? Какова ве- роятность Р.ъ что среди вынутых карт окажется не менее 2 тузов? .10 48 42•41•40 * 39 246 _ 349 “ 1 52-51*50.49" 595" 595’ R Ответ, Р{ = 1 — так как случаев столько, них не содержат всего равновозможных из 52 карт по 10; из по 10 из 48 карт колоды, лишенной тузов; С 48 дет вынуто ни одного туза равна —и, С52 находим Pit Вероятность же, что будет С 9 * * *48 - , так как в группе Чз каких-нибудь к тузу любой сколько существует ни одного туза все поэтому вероятность, что сочетаний сочетания не бу* вычитая из 1 последнее вынут только 1 туз число, бубен, например, равна имеется еще 9 самое относится будет вынут только 1 туз из 10 карт, где есть туз бубен. карт из 48 прочих карт (без тузов); то же масти, и поэтому вероятность pif что вообще Г" 9 л 656 п равна Следовательно ве- /Л’- 1 04/ 52 роятность, что будет не менее двух тузов, равна р = р _ _ 349 __ _656^ __ 1257 * А '595 1 547~7735’
ПРИЕМ ПОДСЧЕТА РАВНОВОЗМОЖНЫХ СЛУЧАЕВ 65 4) Из ящика, содержащего п белых и т черных шаров (/г < т) выни- мают наудачу все шары под-ряд. Какова вероятность Р, что будет момент, когда в ряду вынутых шаров будет поровну белых и черных? Ответ. Число всех возможных рядов равно благоприятными будут, во-первых, все те ряды, которые начинаются белыми шарами, так как число черных шаров (которых больше чем белых) сравняется с числом белых после некоторого числа 2 k выниманий; число таких рядов равно Но благоприятными будут также все те ряды, в которых указан- ная группа из 2 k шаров, заканчивающаяся черным шаром и содержащая одинаковое число белых и черных шаров, будет перевернута. Поэтому рп р___2 п 'т ~~1 •_- 2 п " ~ ~ п 4- т' п^т Теория вероятностей. О
ГЛАВА ВТОРАЯ НЕПОСРЕДСТВЕННОЕ ПРИМЕНЕНИЕ ТЕОРЕМ СЛОЖЕНИЯ И УМНО- ЖЕНИЯ ВЕРОЯТНОСТЕЙ 1, Во многих вопросах нельзя просто связать данные события с некоторой совокупностью единственно и равновозможных не- совместимых фактов, чтобы воспользоваться приемом простого под- счета, который был указан выше. В таком случае для определения вероятности данного события А стараются установить различные несовместимые благоприятствующие ему случаи а2, ..., ak так, чтобы эти последние не были обязательно равновозможными, но только, чтобы вероятности их было бы возможно легко вычис- лить : тогда (Л) = (aj (а2...) -ф- -ф- (afc); после этого каждый из случаев а2 и т. д. рассматривают как совмещения некото- рых других фактов, так что вероятности (а3), .. . , (а*) могут быть определены при помощи теоремы умножения вероятностей; если факты, совмещением которых являются соответственно события а13 имеют известные вероятности, то задача решена; в против- ном случае приходится продолжать тот же прием попеременного применения теорем сложения и умножения вероятностей. Первый пример. Даны три урны; в первой т1 бе- лых шаров и пг черных, во второй т2 белых и п2 черных шаров, в третьей т* белых и т?3 черных ша- ров; вероятности, что шар будет выниматься со- ответственно из первой, второй или третьей урны равны ар а2, а3. Какова вероятность, что вынутый шар будет белым? Искомая вероятность Р — (aj -ф- (ао) -4- (а3), где (^) есть ве- роятность того, что белый шар будет вынут именно из первой урны, (а2) вероятность того, что белый шар будет вынут из второй урны и (а3) вероятность, что белый шар будет вынут из гргтьей урны. Но для того, чтобы белый шар был вынут из первой урны, необхо- димо совмещение двух фактов: вынимания из этой урны и чтобы
НЕПОСРЕДСТВЕННОЕ ПРИМЕНЕНИЕ ТЕОРЕМ 67 результатом вынимания оказалось появление белого шара; поэтому (ам = а, . -—rJ— , так как, если известно, что вынимание про- 4 J/ 1 т1 изошло из первой урны, то вероятность появления белого шара ж становится равной отношению ------— числа белых шаров к общему числу шаров данной урны; таким же.образом получаем (^2) (аз) = 2з тя т3 п3 т2 + п2 и Следовательно ,, /и, т2 | т„ Р = п ------J-------- а,--г?-----р- а ----f---- '«,+«, т2 + «2 тз — «з (48) Если бы, например, было 1 а1=а2 = а3=-~, при чем в о рой 2 белых и 1 черный шар, пых шара, то дано три одинаковых урны, так первой только 1 белый шар. во что вто- в третьей 1 белый чер- а и 4 ₽=т >+з 1*1 28 5 45 ’ вероятность же появления черного шара 17 0 = -™. 1аким 45 образом чем появление 4, а черных 5: черного, это объ- появление белого шара более вероятно, хотя белых шаров во всех урнах всего меняется тем, что не все шары имеют одинаковую вероятность быть 1 вынутыми, а именно шар первой урны имеет вероятность - в то время о 1 1 1 как каждый шар второй урны имеет вероятность — --, а каждый DO У урны (где преобладают черные шары) имеет только 1 __ 1 * "5 ~ 15 ‘ пример. В теории наследственности очень часто на- шар последней 1 вероятность --- о 2. Второй ходит применение следующий закон, открытый ботаником Мен- делем. Пусть даны 2 чистые (по от н о ш е н и ю к не- которому признаку) расы индивидов, т.-е. такие, что скрещивание между собой индивидов одной расы всегда приводит к индивидам той же расы; 5*
68 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ согласно закону Менделя, если индивид чистой расы А. скрещивается с индивидом чистой расы В, то по- лучается всегда индивид нового класса (гибрид) С; при скрещиваний гибридов С между собой могут получаться индивиды всех трех типов, при чем ве- роятность рождения индивида гибридного класса С равна вероятности же новорожденному прина- длежать к каждой из чистых рас А или В соответ- 1 ственно равны ; наконец, при скрещивании инди- вида А с индивидом С одинаково вероятно рожде- ние индивида А и индивида С, а индивид В появиться не может; точно так же при скрещивании другой чистой расы В с гибридом С вероятности рождения индивида расы В и С равны, а появление индивида класса противоположной чистой расы А невоз- можно. Предположим, что в данном населении имеются индивиды всех трех классов, при чем вероятности, что взятый наудачу инди- вид (как мужского, так и женского пола) принадлежит к классу А,. В или С соответственно равны а, [}, у. Спрашивается, каковы со- ответственные вероятности, что, скрещивая двух взятых наудачу индивидов мужского и женского пола, мы получим индивид, при- надлежащий к классу Л, к классу В или к классу С. На основании теоремы умножения вероятностей, вероятность (Л, Л), что оба взятые индивида принадлежат к классу Л равна = вообще, (Л, Л) = а2, (£?,£?) =[i2, (С, С) = у2. Вероят- ность же, что мужской индивид принадлежит к классу Л, а жен- ский к классу В равна (Л, В) = йф; точно также (5, Л) = а£, и таким же образом находим, что (Л, С) = (С, Л) = ау и (В, С) = (С, В) = ₽у. Какова же в таком случае вероятность чго новорожденный при- надлежит к классу Л ? Это может произойти только в одном из четырех несовместимых случаев: 1) оба родителя относятся к классу Л, 2) отец класса А, а мать класса С, 3) отец класса С, мать класса Л, 4) оба родителя класса С. Если оба родителя класса* Л, то новорожденный всегда принадлежит к классу Л:, поэтому вероятность совмещения рождения индивида расы Л с фак-
НЕПОСРЕДСТВЕННОЕ ПРИМЕНЕНИЕ ТЕОРЕМ 69 том, что оба родителя принадлежат к той же расе равна а2. Далее, так как вероятность, что отец класса А, а мать класса С, равна ау, а после того как природа родительской пары таким образом опре- делена, вероятность появления индивида класса А по закону Менделя £ 2 ’ «становится равной заключаем, что совмещение такой родитель- ской пары с появлением особи класса А равна произведе- 1 1 лию ау-—=--ау; совершенно также убеждаемся, что совмещение родительской пары, в которой отец класса С, а мать класса А, с фактом рождения индивида класса А тоже равна -у ау. Наконец, ’если становится известным, что оба гибридов С, то по закону Менделя ^принадлежать к классу А равна т; родителя относятся к классу вероятность новорожденного следовательно вероятность последнего совмещения этих двух обстоятельств равна у у2. Беря сумму всех этих вероятностей получим искомую вероятность аг что новорожденный (от неиз- вестных родителей) будет принадлежать к классу А: = + = ; (49) так как закон Менделя симметричен по отношению к обеим чистым расам, то достаточно в найденной формуле (49) заменить а через (3, чтобы получить вероятность новорожденному принадлежать к расе В: у 2 / у \ 2 = + + = • (49 bis) Можно было бы аналогичным образом, рассмотревши все роди- тельские пары, которые могут родить гибрида, получить значение Yj вероятности, что новорожденный будет принадлежать к классу гибридов С. То же значение у2 можем получить и другим способом, заметивши, что Yi = l—«а —<50>
70 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ так как новорожденный может принадлежать только к одному из трех упомянутых классов. Точно так же и cl + Р + Y = (а + ? + Y)2 = 1 • Следовательно формула (50) преобразуется в Yi = (а “И ? +y)2 0 4“ -0 + т0 = = 2+ + <Ч+4 + 4 = 20 + 00 -г у)’ (50 bis> Таким образом вероятности индивиду второго поколения (любого пола) принадлежать соответственно классам Д, В и С определяются значениями ар ур полученными из формул (49), (49 bis) и (50 bis). Весьма замечательно, что, скрещивая наудачу индивидов вто- рого поколения, мы находим, что и в третьем поколении вероятности а2, ^2, у2 индивиду принадлежать к каждому из классов Д, В, С остаются те же, что и во втором поколении, т.-е. а2 = ар р2 — ^р у2 = уР Действительно, мы имеем, очевидно, «2=01 + 70 > 4=01 ъ\2 2 / ’ Y2 = 20i + 7001 + ^) ; (51) подставляя в первую из формул (51) значения и из фор- мул (49) и (50 bis), получаем 2 = ап. Таким видно, всех же образом легко проверить, что и что найденные вероятности последующих поколениях. 1 --, то во всех о сохраняются во Например, если в пер- вом поколении лениях последующих поко- _ 1 а 1 Г’ 1 Y1 — 2"
НЕПОСРЕДСТВЕННОЕ ПРИМЕНЕНИЕ ТЕОРЕМ 71 Из равенств (51) видно, что при устанавливающемся со 2-го поколения распределении вероятностей величины а,г, не могут быть произволь- ными (не считая соотношения - г _ 1), но должны удовлетворять равенству 4 ?/,-•= V; (51 bis) исключая из (51 bis) 1— находим (извлекая корень из обеих частей равенства) после простых преобразований, что J' a/z ’; J ™ 1 • (52) Можно указать следующий простой графический прием (черт. 1) для нахождения вероятностей распределение вероятностей a, у. Уравнение (52), в котором и будем рассматривать как абсциссу и ординату точки М, представляет дугу параболы, касательной к обеим осям координат в точках А и В, отстоящих от начала координат на расстоянии 1. Таким образом вся- кому установившемуся (со 2-го по- коления) распределению вероятно- стей соответствует некоторая точка М этой дуги, при чем абсцисса 0N-^fl, ордината MN --- и от- резок между прямой линией АВ и параболой, МР= так как '{п = 1 — ~~ ₽/г Чтобы получить точку М, соответствующую данному первоначальному распределению (а, если дано первоначальное у), замечаем из (49) и (49 bis), что «I — -- ( а -г 2j” ~ ~ ~ "г + ~ следовательно разность ап— сохраняет во всех поколениях свое перво- начальное значение: поэтому, откладывая на оси абсцисс отрезок ОН = ь — 0 и проводя через Н прямую HL перпендикулярно к АВ, получим искомую точку Л1 на пересечении этой прямой с нашей параболой (очевидно, что та же точка М соответствует всякой первоначальной паре значений д, представляющих координаты любой точки прямой //£). 3. Третий пример. Производится п независимых опытов; при каждом опыте вероятность появления события А равна р. Требуется определить вероят- ность Рт,п> что событие А повторится при этом ровно т раз.
72 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ Для случая т = п эта задача нами была уже раньше решена: мы нашли Рп,п=рп\ точно так же, если положим q~\—р, где q есть вероятность ненаступления события А в отдельном опыте, то вероятность чт0 событие А ни разу не произойдет, равна qn. Если же т какое угодно число (0 п), то можем рассуждать следующим образом. Пусть АААА. . . А будет некото- рая определенная последовательность появлений и непоявлений события А (А означает непоявление события); каждая такая после- довательность представляет собой совмещение п независимых фак- тов, вероятности которых нам известны: (Л)=р, (A) = q. Чтобы получить вероятность рассматриваемого совмещения, мы должны перемножить вероятности всех составляющих фактов, и так как рассматриваемая последовательность будет относиться к числу тех, при которых событие А осуществляется ровно т раз, если символ А встречается в ней т раз, а символ А остальные п — т раз, то, следовательно, вероятность такой вполне определенной последова- тельности появлений и непоявлений нашего события равна pmqn~m Но для того, чтобы событие А повторилось т раз, безразлично в какой последовательности, нужно только, чтобы в ряду ААА... А символ А повторялся т раз; таким образом, если мы перенумеруем все последовательные места этого ряда: 1,2,3,...,//, нужно пре- доставить для А какие-нибудь т номеров; это можно сделать столь- кими различными способами (согласно определению понятия соче- тания), сколько существует различных сочетаний С™ из п элементов по т. Так как мы нашли, что вероятность каждой такой последо- вательности равна pmqn~m, то, применяя теорему сложения вероят- ностей, находим п ’ Л., П = Crpmq^~m = ——-------- p™q™. (53) п т'.(п — ту 4 Заметим, что, если мы по формуле бинома Ньютона составим разложение (Р = 4- npn~'q 4- + + ... + с;р^«_,й+. то член этого разложения, содержащий рт, пред- ставляет как раз найденную нами вероятность
НЕПОСРЕДСТВЕННОЕ ПРИМЕНЕНИЕ ТЕОРЕМ 73 Рт>п, что при п опытах событие Д, имеющее вероят- ность р, повторится ровно т раз. Отсюда видно между прочим, что т~п X Рт.п = (р^гЧУ=^ Если, например, р = 7 = —, п — Ь, то Ро,с — Pg,6 = ft J Pi,g = Рь,& — б ; J P2,G = 7^4 q = — ; P3 з = 7-~-; 64 64 64 64 таким образом, наиболее вероятным определенным числом появления события А является 3; однако появление события какое-нибудь другое число раз все же оказывается более вероятным, так как 44 сумма прочих вероятностей равна — • 64 2 1 1 10 Ее» р = у, ,= 3- , « = то P».s = ^; Р«=2Й: п 40 г, 80 80 32 ₽“~2«! Л.»=2«: Л*-2й! ₽“ = W в “у- чае числа т — 3 и т — 4 имеют наибольшие равные между собою вероятности. 4. Пусть, вообще, р (0<^р<^1) и п будут некоторые данные числа (п целое число); давая в формуле (53) т различные целые значения, можем всегда определить, для каких значений т вероят- ность Рт>п букет: наибольшею. С этой целью напишем фор- мулу (53) в виде (33 ы,) т 1 и, заменяя в ней т через т -ф-1, получим Ит^-п (м + 1)! Р 4 откуда Рт^.п п — т _ р ' Рт.п т + 1 q Ввиду того, что с увеличением т числитель дроби (54) умень- шается, а знаменатель увеличивается, значение этой дроби умень- шается с возрастанием таким образом пр Q Рх,п Р0,п Р2,п Кп Р$,п Р%,п Рп,п Р Рп—1, п (55)
74 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ Если /г достаточно велико, так что пр ^>7 и nq~^> тогда край- ний член слева в написанной системе неравенств больше 1, а крайний член справа — меньше 1; поэтому убывающие (с возра- станием т) отношения ^tnn 'Л'п будут сначала больше 1, пока мы т.п не дойдем до т = р, когда после этого, для всех * UL./2 значений т р, уже —^<4. Иначе говоря, т.п Рт,п Рт -J-1. п Рт.п Рт-~1.п пока т <2 р при т = р при т р, Следовательно с увеличением т вероятность Pmtrr сначала возрастает до тех пор, покат не достиг- нет значения р; после этого вероятность Рт*п сразу начинает убывать, если Р,±-_^п<^Р^п, й тогда Р^п есть наибольшее из всех значений Pmtп, а р является наиболее вероятным числом появлений нашего события при п опытах; если же Pp+i,n = Р,^п, тогда максимальное значение вероятности достигается как для т~р} так и m = p-pl: оба эти числа являются в этом случае наиболее вероятными. В последнем случае р определяется из уравнения Лх-1.и _ — Р . Р^п р 4- 1 q откуда пр — — и замечая> что р q = 1, р- np — q. Этот случай представится, если пр — q лом, тогда наиболее вероятных события будет два: р = пр — q и будет целым чис- чисел появления ц4- 1 =Пр — д-\- 1 = (п~|- Г)р. (Это имело место в 2 р — — , п = 5.) Если. пр — q н □ iL " не может быть р а в но Р tn,n значений ббльших 1 к значение рассмотренном выше примере, где е целое число, тогда отношение 1, и переход этого отношения от 1м меньшим 1 совершается сразу:
НЕПОСРЕДСТВЕННОЕ ПРИМЕНЕНИЕ ТЕОРЕМ 75 иначе говоря, ц есть тогда наименьшее из целых чисел т для которых Рт-\~^п _ п—т р 1 Рт,п Д- Q т.-е. пр — тр mq -|- 7; следовательно ц есть такое целое число, которое удовлетворяет неравенству пр — q < ц, между тем как ц — 1 удовлетворяет противоположному неравен- ству; поэтому ц — 1 <ZnP — £ Ц, и искомое наиболее вероятное целое число (ц определяется нера- венством пр — q <^р.<^пр — q -j- 1 = (п-\- V)p. (56) Заметим, что во всяком случае наиболее вероятное число появлений события при п опытах (будет ли оно единственным или их окажется два) отличается от произведения пр меньше, чем на 1; и, в частности, если пр есть целое число, то ^ = пр, так как число пр удовлетворяет неравенству (56). Остается еще рассмотреть случай, когда пр q или пр = q. В первом случае все отношения ^<1; поэтому наиболее * mtn вероятным будет число )Л = 0, т.-е. что событие ни разу не насту- пит; если же np = q, то Р^{1 — P(htl; поэтому наиболее вероятными будут числа 0 и 1. Аналогичный результат получим, если nq^p. 1 Если, например, - и я = 4, то наиболее вероятными числами о появлений события будут 0 и 1: _ о 256 „ 96 16 . п 1 Р()^ Р1 ,4 СОЕ J Р - РОЕ J Р'* СОЕ J Р^>^ (' Q >" ’ 625 ’ 625 625 * 62о 4 если р=~ и п = 4, то наиболее вероятными числами будут 3 и 4. о 5. Формулу (53) можно получить другим способом, применяя алгебраический прием, который применим и к более сложным задачам.
76 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРСЯТНОСТЕЙ Положим, что события Л2,. . ., Ап в ряде независимых опы- тов имеют соответственно вероятности р2,. . ., р Вероят- ности Pfn,n того, что при указанных п опытах осу- ществится ровно т из рассматриваемых событий, равна коэффициенту при хт многочлена S(x) = (ргх -L дг)(р2х + • • • (Рпх + Яп) = = Рп,пХп + Рп-,,пХп-1 + .. .^Рт,пхт^-.. . + Р0,п (57) (здесь, по обыкновению, положено q.= l — pt). Наше утверждение очевидно для Рпп и Ро>п, так как вероят- ность наступления всех п событий равна произведению их вероят- ностей /?2,. . ., рп, и, с другой стороны, производя умножение двучленов по правилам алгебраического умножения, получаем коэф- фициент при хп, перемножая коэффициенты при х во всех двучле- нах; точно так же свободный член получается от перемножения свободных членов qv q2>. . ., qn, произведение которых как раз представляет вероятность совмещения Av Л2,. . ., Ап, т.-е. ненасту- пления ни одного из наших событий. Что же касается члена, содержащего хт в произведении S(x), то, согласно правилам элементарной алгебры, для получения его нужно в т из данных двучленов взять первые члены, а в остальных п — т взять вторые члены и перемножить; это даст произведение вида p^q^ - • • Рг*т (в котором буква р будет фигу- рировать т раз, а буква q входит п — т раз); сделавши приведе- ние всех подобных членов указанного вида, содержащих х в /л-й степени, мы получаем соответствующий член произведения 5(х), так что коэффициент при хт равен Ър^2.,. р , т.-е. сумме всех произведений п множителей, среди которых буква р (с любыми значками) встречается т раз. Но произведение вида p^q2* - • Рп представляет собой вероятность совмещения событий Av Л2,. . ., Ап, т.-е. совмещения наступления т событий Л, значки которых сов- падают с значками р, с ненаступлением остальных п— т событий, которые соответствуют значкам буквы q в рассматриваемом произ- ведении. Поэтому сумма всех произведений такого вида, где буква р будет входить со всевозможными т (из общего числа и) значками, которая, как мы только что заметили, есть коэффициент при хт в 5(х), по тесреме сложения вероятностей, представит вероятность того, что какие-нибудь т из рассматриваемых событий осуще- ствятся при ненаступлении остальных. Ч. и т. д.
НЕПОСРЕДСТВЕННОЕ ПРИМЕНЕНИЕ ТЕОРЕМ 77' u 113 Например, если р, = , р2 = у, Р3==^’ Т0 _ 1 "32 так, что 3 13 А),з — ^з,з = = ^2>3 132 В частности, если все вероятности pi = р, то формула (57) превращается в формулу бинома Ньютона (рх 4- q)n = р,гхп 4- • • • 4- C™pmqn-mxm 4- и коэффициент при хт дает нам как раз то же самое значение для вероятности которое выражено формулой (53). Покажем, что. каковы бы в силе неравенства ни были значения рь р2, .pnt— остаются 0,п (55 bis) из которых вытекает, что Рп. растает и, достигнув торого одного или убывает (разумеется, возрастанием т сначала воз- вел и ч и н ы для неко- ем е ж н ы х значений р, затем в случае р, наиболее вероятное , с наибольшей двух как и значение pi может соответствовать и крайним значениям т = 0, если или т = п, если -- п> п- докззательстза неравенств (55 bis) при- меняем метод математической индукции, замечая, что для п — 2 1 1 2 q2. 4.2 Ч-i--P‘>q>, Р2.2=Р\Р-2’ а потому неравенство Л равнозначное p^q£ -ф р22 q^ р^ /ъ q{ q2 > 0, очевидно, соблюдено при лю- бых положительных числах р{, pit q^ q^ Итак, допустивши, что неравенства (55 bis) соблюдены для некоторого числа п опытов, мы должны проверить, что они справедливы и для п -j- 1. Умножая равенство (57) на px-^q, чтобы получить вероятности Ртз п-]-1> что при п -4 1 опыте (в каждом из которых вероятность появления
78 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ события А равна соответственно ph ...,pi4. р) событие А произойдет т раз, находим, применяя правила алгебраического умножения, Рщ, п — 1 Рщ — 1, п Р Р т, п Я' Эту формулу можно получить также, заметив, что событие произойдет т раз при п -р 1 опытах в одном из двух случаев: либо при п опытах собы- тие А произошло т— 1 раз и затехМ наступило в (л -U 1) опыте, либо оно произошло т раз уже при п первых опытах и в последнем опыте не наступило; вероятность первого совмещения есть Рт_1 п р, а вероят- ность второго случая равна Рп{ п Я-> а потому, складывая эти две величины, находим по теореме сложения вероятность Рт,п Следовательно надо проверить, чго из неравенств (55 bis) вытекают неравенства Р Pfi Я F\,n Р ”” ^2,п Я Pm. п Р Т Pfn1, п Я рЪ,п Я Р.,пР - Я т—X, пР Рт,п Я . Рт - Х,пР Н" Pfn --- 2, п Я Рп, п Р Рщ, пР "Ь Рщ1 Я Pf> — 1, пР Pfi, п Я но для этого достаточно заметить, что ^Pfn, пР ~r Р т Х1П я)~ (Рщ 1,пР Р/п 2, fl я) (Р/п — 1,пР Рщ, пЯ^~- — {Р~т, п Рщ 1, п Рщ — 1, л) р~ ^~ т, п Рт — 1,п Рщ ~2, п Рт — 1, л) РЯ Т (Р“т 1, п Рщ - 2,п Рщ7 л) Я~ > так как коэффициенты при pq и q- положительны благодаря тому, что р р р т,п т-1,л 2 т — 2, п ~~р -> р ~р * 1 т — 1,н т.п /и -|-1, // Г7 11111 Пусть, например, у, /х> у, Р1 = -^ Р<> — -$ > тогда О -120 „ .....274 -.225 _ 85 J5 о,5 720’ tn ~ 720’ 2.5 --720' а-5 — 720 ’ 4’5 720 ’ «•г> 720 ’ наиболее вероятно, что событие произойдет 1 раз. Упражнения. 1) Показать, что если вероятность Р---^ и число опытов п --2s, то наиболее вероятное число появлений события есть s, и вероят- n 1 3 2s— 1 ность этого числа Р.. 9„ — • —••• ——. Показать, что 2 4 2s -Д= < Л- •> < - 1 2г s '"’“J г 2s 1 так что Ру стремится к нулю с возрастанием s.
НЕПОСРЕДСТВЕННОЕ ПРИМЕНЕНИЕ ТЕОРЕМ 79 Ответ. Для установления правого неравенства, замечаем, что 2 4 2s 2 4 2s 1 __ 1 1 < 3 * 5 * * 2s‘+'l " 1 ‘ S' * “ 2s — 1 ‘ 2.v - г 1 “ P^7s.' * 2T~1 ; no 1 поэтому / < —------- . J 2s 4- 1 Для установления левою неравенства, замечаем, что 3 п 2 4 2s - 2 1 1 n . 1 2 > 3 • 5 • • 2/ ; 2s Р../ откуда Р- ' 27-;' Например, если п~ 80, то вероятность, что число tn появлений события „ п л _ 11 будет равно как раз —; 40, менее, чем . 2) Два игрока А и В повторяют некоторую партию, при которой А имеет вероятность р выиграть и q проиграть; выигрыш В соответствует проигрышу А, и наоборот. Игра продолжается до тех пор, пока А вы- играет т партий или проиграет п партий. Какова вероятность Р для игрока А оказаться победителем? Ответ. Р = рп [ 1 + С 1 q 4 С 2 q* . -0 Сп~Х qn~ 1 1. Это значение для Р получаем, замечая, что игра может закончиться выигрышем А либо после т партий, либо после {т 1) партий и т. д., либо, наконец, после {tn п -1) партий. Вероятность первого случая равна рт, так как это произойдет лишь при удачном исходе всех первых т партий; для того, чтобы игра закончилась выигрышем А после {т 4 -1) партии, нужно, чтобы этот игрок выиграл {tn — 1) из первых т партий и затем выиграл также {т 1) партию: вероятность такого совмещения равна С1 р!п ~[ q р- С\п pmq. Точно также победа достанется А после {т 4- 2) партии, если он выиграет {tn — 1) партий из первых {tn 4- 1) партий и затем выиграет {tn 2)-ю партию: совмещение этих двух обстоятельств имеет вероятность рт <Г и т. Д- Аналогичным образом получаем вероятность лл Г1 i 1 z’1 *> I 1 1 th ~~ 1 ~1 Q ~ q 1 4- С р --С . . р- 4- ... - — С . о р ' L 1 п 1 п 1 г 1 • /г— т — 21 J выигрыша второго игрока (т. е. проигрыша игрока А). п 1 3 0 . D 4 447 п 3645 Пусть, например, р = — , q = — т ~ 2, п 6; тогда Р — Q “g jgo* Каковы бы ни были данные числа р > 0 и /?/, вероятность Q стремится к 0, если п безгранично возрастает. 3) Проверить тождество , А - ~ a f (А - - а) (А — п — Г) , (А — я)... 2 . 1 ___А 1 т А ~1 ’'' (А 1)“ (А (А • 1). ~~{п г!) я а ’
80 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ где А а > 0 целые числа, применяя теоремы сложения и умножения ве- роятностей. Ответ. Левая часть равенства, помноженная на ~, представляет вероятность, что при вынимании постедовательно шаров из урны, содержа- щей а белых шаров при общем числе А шаров, будет наконец вынут бе- лый шар. 4) Какова вероятность при бросании п игральных костей, что сумма очков на верхних гранях этих костей будет равна данному числу /? Какова вероятность, что сумма будет не больше 11 Ответ. Для решения задачи строим многочлен в I коэффициент Р/ при х- представит первую из искомых вероятностей. Много- член S (х) может быть преобразован следующим образом: I 1 Г ’ П (Л—1) 19 1 [ 1 г --- ёД 1 ~ ПХ г ~^2--------Х • • • J ’ Р ПХ поэтому п (п — 1) 2 С/-13 (сумма в скобках естественно обрывается, как только нижний значок у С становится меньше верхнего). Например, при п — 10 вероятность, что /~20г равна Р20 1 [ о _ 92378 — 7 150 616 | С19 б10 __21 307_ z — 15 116 544 0,001 41. Вероятность 7?-, чго сумма очков будет не больше /, равна =- Рп-\- Рп^ + • • + Pt = | С" - - п 6 + П-^У> Cl_ 12- ... ] , так как вообще С” ‘ ~ Например, при п _ 10, /=-20, 184 756— 10 010 87 373 6Ю ~ 30 233 088 0,002 89'
ГЛАВА ТРЕТЬЯ ВЫЧИСЛЕНИЕ ВЕРОЯТНОСТЕЙ A POSTERIORI 1. Как было указано вначале, мы всегда должны иметь в виду, говоря о вероятности какого-нибудь факта, что эта вероятность существенным образом зависит от того, к какому классу фактов мы его относим, или, иначе говоря, какие обстоятельства опыта, сопровождающегося возможным появлением рассматриваемого факта, считаются определенными, т.-е. известными. Если мы рассматриваем, например, некоторый опыт, протекающий во времени, результатом которого может быть появление известного факта Л, то, по мере выясняющегося течения опыта, вероятность события А обычно меняется, получая часто самые разнообразные значения в зависи- мости от тех или иных перипетий опыта, при чем в каждый дан- ный момент вероятность А имеет вполне определенный объектив- ный смысл, поскольку факт Л всегда рассматривается нами как произвольный представитель известного класса фактов, могущих наступить или не наступить при наличности данных точно указан- ных обстоятельств. В начале опыта, в момент факт А имеет некоторую вероят- ность (Л), соответствующую первоначально известным условиям опыта, которую называют априорной, или первоначальною, вероятностью факта Л; если в какой-нибудь последующий момент /2 мы изменяем наше суждение о вероятности Л, то это происходит потому, что мы видим, что, кроме данных условий, осуществились еще некоторые обстоятельства В; таким образом, согласно принятым раньше обо- значениям, в момент /2 вероятность факта А становится равной (Л)в, при чем никакой общеобязательной математической зависи- мости между этими двумя величинами не существует, если не счи- тать того, что (Л)^ = (Л) при (Л)=г] и при (Л) = 0 (т.-е., что факт, бывший достоверным до наступления события 5, остается достоверным и после наступления 5, а факт невозможный не может ни при каких обстоятельствах сделаться возможным). Теория вероятностей. 6
82 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ Вероятность (Д)в (соответствующую какому-нибудь последующему моменту) называют апостериорной вероятностью. Ясно, что первона- чальная вероятность (Д) носит лишь относительный характер, поскольку можно вообразить, что в какой-нибудь предшествующий момент tQ комплекс известных нам обстоятельств был еще меньше, чем в момент 1Г Поэтому логически более удовлетвори- тельным является (не вводя элемента времени) определить первоначальную, априорную вероят- ность факта А как вероятность (Д), соответствую- щую минимуму (наименьшему числу) обстоятельств, которые в данной задаче считаются известными. Если же вероятность факта Д рассматривается при предположении дополнительного осуществления того или иного обстоятельства 5, то каждому В соответствует апостериорная или условная вероят- ность (Д)5 факта Д. Не делая никакого принципи- ального различия между последними двумя терми- нами, первым пользуются по преимуществу тогда, когда хотят отметить эмпирический характер вероятности (Д)в, соответствующей фактическому наступлению события В, между тем как термин условной вероятности обычно применяется, когда осуществление обстоятельства В носит условный предположительный характер и в ходе рассматри- ваемых опытов непосредственно не наблюдается. Предположим, что результатом некоторого конкретного опыта является наступление или ненаступление события С. Пусть, напри- мер, перед нами находится ряд урн с шарами, и событие С заклю- чается в появлении белого шара при извлечении одного шара, вынимаемого из выбранной наудачу урны. Допустим, что по составу находящихся в них шаров, наши урны делятся на 3 группы: — Др Д2, Д3, при чем, благодаря известной нам пропорции белых шарэв в урне каждой из указанных групп, мы знаем, что если извлечение происходит из урны Д2 то вероятность появления белого шара (условная вероятность события С при осуществлении обстоятельства Д2) равна (Ол^Рр точно так же, если извлечение про- исходит из урны Д2, то (С)л2—р2’ и ПРИ извлечении шара из урны Д3 вероятность появления белого
ВЫЧИСЛЕНИЕ вероятностей a posteriori 83 шара (С)л,=Кроме того даны первоначальные вероятности а]=(Д]), д2 = (Л2), д3--(Л3) того, что извлечение будет, соответственно, происходить из урны первой, второй или третьей категории. Например, если бы все урны были одинаковы с виду, вероятности д;, д2, были бы соответственно пропорциональны числам урн каждой категории; во всяком случае а2 “к аз ~ так как» по условию, извлечение из какой-нибудь урны обязательно должно произойти. Допустим, что, извлекая при данных усло- виях шар, мы фактически вынули белый шар С; требуется определить, каковы, после выяснения этого нового обстоятельства, вероятности (aposteriori) = (Лг)с, х2 ' С^г)с} хз = (лз)с того, что появившийся белый шар вынут, соответ- ственно, из урны 1-й, 2-й или 3-й группы. Для определения хг достаточно заметить, что по формуле (13) (С)(А^с = (А1)(С)а,, т.-е. (Л)С = М^; следовательно, так как на основании (48) первоначальная вероят- ность факта С появления белого шара равна (О = ад + ад+ад- ТО (Д1)си=л-1= (58) а1Р1 i 32Г2 I аЗГЗ и точно так же х х ^Рз 2 ад 4-ад 4-ад’ 3 ад 4-ад 4-ад Предположим, например, что у нас было только 3 одинаковых урны, при чем в 1-й урне 1 белый шар и 3 черных, во 2-й — 2 белых и 2 черных, в 3-й — 3 белых шара и 1 черный, так что Д1 = а2 = дз = 1 1 1 2 ’ Рз 4 ’ > и Pi 4 ’ Ръ = тогда 1_ 3~ ‘ 1 Т 1 1 __ 1_ х1~ 1 _1_ , 3”' 4 j 1 ' 3~ ‘ 1 Т , 1 ‘ т б-’ л 3“’ хз —Д 6*
84 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ Вообще, если — а2 = а3 = а, формулы (58) после сокращения на а принимают более простой вид: х = ---- /?1—----, х2 =----- Р1 ---, X =-----г--3—.---(58 bis) Р1+Р2+Р3 Pi +^2 + Рз Р1Л-Р2 + Р3 Очевидно, что ничего в нашем рассуждении не изменилось бы,, если бы вместо трех категорий урн у нас их было п, при чем априорные вероятности извлечения из урн каждой категории: были бы соответственно равны ар а2/..., а/г, а рр /?2,..., рп. были бы соответственно условные вероятности появления белого- шара, когда шар вынимается из урны 1-й, 2-й,..., /z-й группы.. Поэтому, замечая, что в рассматриваемом более общем случае (С) = (ад, 4- а2р2 -4... + апр,== У ад(, мы получим для вероятности a posteriori (после того как в дей- ствительности факт С произошел), что вынутый белый шар был извлечен из урны 1-й категории, и вообще, при всяком k O-kPk ^1Р1 + ---+^„РП Формулы (58) носят название формул Байесе а. Очевидно, что эти формулы применимы не только к специальному опыту с урнами, но соответствуют всякому опыту, обладающему аналогич- ной формальной структурой. Если рассматриваются п единственно возможных и несовместимых обстоя- тельств или гипотез Аг Л2,. . ., имеющих соответ- ственно априорные вероятности аг а2,..., а/г, при чем в случае правильности гипотезы Ak вероятность некоторого факта С равна pk (k = 1,. . ., л), то веро- ятность xk = (A^)c a posteriori каждой гипотезы Ak определяется формулой (58), если становится известно, что факт С действительно произошел. Наоборот, если бы в действительности факт С не произошел, то
вычисление вероятностей a posteriori 85 апостериорная вероятность _у4т=(ХА)^ гипотезы Ak была бы дана формулой i~n (58 ter) где qk=\—pk. Из формулы (58) видно, что вероятность xk a posteriori каждой .из гипотез Ak пропорциональна ее первоначальной вероятности и кроме того пропорциональна условной вероятности р& т.-е. вероятности наступления происшедшего в действительности факта С при условии, что спра- ведлива именно гипотеза Ak. Формулы Б а й е с с а непосредственно вытекают из утверждения этой двойной пропорциональности, так как, написавши, что х2 — ка2р2, определяем коэффициент пропорциональности X из равенства Ца, pj + а2 р2 . + апРп) = 1, выражающего, что несовместимые между собой гипотезы . , Ап единственно возможны. Из формул (58), также, как из данного выше словесного выра- жения их содержания, нетрудно заключить, что если априорные вероятности ак всех гипотез равны между собой, то наиболее вероятной после наступления факта С становится та гипотеза, при осуществлении, которой факт С получил бы вероятность большую, чем при осуществлении одной из прочих гипотез, так как в данном случае Если же, напротив, все р. равны между собой, т.-е. все рассматри- ваемые нами гипотезы одинаково благоприятны (неблагоприятны) факту С, то наступление или ненаступление С не дает никакого основания для изменения нашего первоначального суждения о вероят- ностях каждой из гипотез: в этом случае xk — ak. (Вообще, если среди всех гипотез имеются две и Д2, при которых вероятности х а \ события С равны между собой, рх = р2^ то )
86 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ 2. Формула (58) Байесса (или, как ее иногда называют,, формула вероятностей гипотез) является, как мы видим, простым и вполне строго обоснованным логическим следствием из устано- вленных вначале принципов теории вероятностей. Однако практи- ческое применение ее нередко бывает затруднительно за недостатком достаточно обоснованных данных для того, чтобы придать те или иные определенные значения ар а2,..., & первоначальным вероят- ностям гипотез А19 А2,. . ., А . Предположим, что перед нами имеется урна с 3 шарами; из нее вынимают 1 шар, который оказы- вается белым. Какова вероятность х, что все шары в этой урне были белые? Согласно формуле (58), мы можем только написать, что Д]__________ 2 , 1 гипотезы, что все шары белые, возможно еще два в урне мог быть только 1 белый шар или же 2 зависимости от того, какие значения мы придаем вероятностям ар а2, а3, мы получим так как кроме предположения: белых шара. В первоначальным величины для х. Часто, за отсутствием определенных для иного суждения, полагают aj=32 = a3; тогда различные оснований 1 1 3 1 3 2 Но последнему результату нельзя придавать особого и правильнее было бы сказать, что данные о постановке опыта недостаточны для того, чтобы искомой вероятности можно было приписать ту или иную определенную величину. Действительно, учитывая то обстоятельство, что шары могут быть самого разно- родного цвета (и неодинаковые), следовало бы признать весьма маловероятным a priori, что в данную урну были положены как раз только шары одинакового цвета; поэтому не без основания можно было бы предположить, что гораздо меньше, чем а2, и в особенности, чем а3. Эта неопределенность значений зр не играла бы столь существенной роли, если бы извлечение было произведено не один раз, а много раз при одинаковых виях: если, вынувши шар, мы положим его обратно в урну и, значения, % шара уело- пере-
вычисление вероятностей a posteriori 87 мешавши шары, произведем второе извлечение, затем снова возвра- тим его в урну и повторим наше извлечение шара п раз. Если, поступая таким образом, мы все время будем вынимать белый шар, например п= 10 раз под-ряд, то без всякого вычисления мы склонны будем считать довольно вероятным, что все 3 шара в нашей урне белые. Вычисление же приведет нас к следующему результату: совершившийся факт С (10-кратное появление белого шара при 10 опытах) имел бы вероятность равную 1, если бы все шары в урне / 2\10 были белые; он имел бы вероятность I — ) , при предположении, \ 3 / что в нашей урне 2 белых шара, и условная вероятность факта С ( 1 V0 равна ( — I , если в урне только 1 белый шар; поэтому, применяя \ о J формулу Б а й е с с а для апостериорной вероятности х первой гипо- тезы (что все шары белые), получаем: _ а1 __ ai _ Х . / 2 Vо ' . / 1 \ю ~ .1 02’4 ’1 — 1 \3/ Яз 21 1 59 049 я2 Т 59 049 Яз = , '1024 —— 5, (S9 bis) + 59 049 1 59 049 т. 59 049 , В частности, если а то х — л =^= 0.983; но, d 60 074 ' как было замечено выше, последнее допущение необоснованно; принимая во внимание высказанные при этом соображения, мы не можем указать определенных значений для отношений -2 и —, и если первоначальное сомнение наше в возможности того, ai чтобы все шары в урне были белые, очень велико, то рассматри- ваемые отношения -- и — могут выражаться настолько большими числами, что, несмотря на малость множителей, сопровождающих их в формуле (59 bis), величина апостериорной вероятности х могла бы оказаться все-таки незначительной, но во всяком случае гораздо большею, чем априорная вероятность аг Например, если — = 2000
88 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ и — — 1 000 000, то х 59 049 3 107 049 7^0,019, между тем как а 1 0,000 001. 1 002 001 Если бы наш скептицизм был не так велик и мы с самого начала допускали бы, например, что — ^10, а \ 011 TIT/’ т0 мы полУчили бы, что вероятность х близка к единице: 1 " , 10 240 , 100 59 049 59 049 59 049 69 389 7^0,85. Ясно, что чем п будет больше, тем меньшую роль будет играть наша (субъективная) оценка априорных вероятностей а, и опыт, постоянно приводящий к неизменному появлению белого шара, убедит в конце концов самого крайнего скептика в том, что иных шаров, кроме белых, в нашей урне нет: вероятность х этой гипо- тезы, при неограниченном возрастании п стремится к достовер- ности. Предположим, вообще, что при данных неизменно повторяющихся условиях отдельного опыта некоторое событие С наступало в каждом из п рассматриваемых опытов. Сохраняя прежние обозна- чения, полагаем, что с появлением события С совместимы три гипо- тезы Av А2, А3, имеющие вероятности a priori равные а2, а2, сг3, при которых вероятности появления С в каждом из рассматриваемых опытов равны соответственно определенным числам р2, р2, р3, сле- довательно при каждой гипотезе вероятности факта Сп, заключаю- щегося в появлении С во всех п опытах, соответственно равны /?/г, р2п, р3\ а потому, на основании формул Ба Йесса, находим для апостериорных вероятностей наших трех гипотез, после насту- пления факта С , соответственно значения v (.) = _____ v («) = а2Р2П ’ 1 а1Р1" + Я2Р2'г4-23/’з'г’ ' 2 aiPl'‘ + a2P2n + ^Ps!’ И х,(«) =-----------------------п. (59) Из этих формул заключаем, что если, при гипотезе А2, факт С достоверен (р2 = 1), а при прочих гипотезах
вычисление вероятностей a posteriori 89 факт С недостоверен, а только более или менее вероятен (р2 <Д, р3 <4), то вероятноеть х/'^ гипо- тезы Аг стремится к достоверности, когда число п опытов, при которых факт С неизменно повто- рялся, неограниченно возрастает. Действительно, х — ——————— ... —-------------------------------- (59) “Ь а2 Рг1 аз Рз” 1 I а2 п П I 1 + а, Рг агРз поэтому, замечая, что с возрастанием п, р2п и р^1 стремятся к О, . а. а3 видим, что, каковы бы ни были постоянные , пред. ХцМ = 1. п~.оа Полученный вывод совершенно не зависит от первоначальных вероятностей ар а2, а3 наших гипотез; так, в рассмотренном выше примере ( —=2 000, -3 = 1 000 000, р2 = ~ , = если п =100, \®1 о О / то 1 Х1(Ю0)^-------- 14-2 000 1\юо>1 1014 Только тогда из постоянной повторяемости события С мы не могли бы заключить об истинности гипотезы А1} если бы мы a priori отрицали ее возможность (ат = 0); тогда, конечно, никакой опыт не мог бы нас убедить в правильности этой гипотезы (при всяком лг, мы получали бы х1(л>=0). Когда из формул (59) определены вероятности всех трех гипо- тез Av А2, Л3, нетрудно вычислить, какою вероятностью обладает факт С в рассматриваемой серии однородных опытов, после того как обнаруживается, что имело место Сп (т.-е. zz-кратное появление события С в п опытах); искомая вероятность равна, согласно (48), (С)с„ = х1(") Р1 + x2Wp2 + р3 = = а1 Р1п+1 + «2 /У'+1 + а3 /У+1 /60) а1А" + а2/72,' + аз№ ’ Очевидно, что при /^ = 1 (а2 0), (С)Сп также стремится к 1, когда п неограниченно возрастает, так как
90 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ (С)сп Последний вывод является математическим выражением основного принципа индуктивной науки, сводящегося в конечном счете к утверждению, что явление, которое при наличности опре- деленной совокупности условий всегда осуществлялось, необходимо должно осуществляться при указанных условиях }). Таким образом следует признать, что в сущности нет принципиальной разницы между предсказанием будущего появления некоторого события, опирающимся на установленные эмпирические законы, и утвержде- нием, основанным на правильном применении принципов теории вероятностей, что рассматриваемое событие имеет вероятность, неизмеримо мало отличающуюся от 1. Упражнения. 1) Даны 2 ящика с шарами одинаковых по виду ( а,—в первом 3 белых шара и 1 черный шар, во втором — 2 белых и 2 черных. Из одного ящика извлечен шар, который оказался белым; спрашивается, какова вероятность, чго при вторичном вынимании из того же ящика появится белый в том случае, если шар возвращен в свой ящик,, а также в том случае, когда шар не возвращен. 1/AV ЛЦг 2 \ 4 / 2 \~2" / 13 Ответ. В перзом случае х = —------------ = ; 1 3 1 1 20 2 * Т + 2 ' "2 A A 2„_l± 1 JL 2 4 ‘ 3 + 2 ’ 2 ‘ 3 8 во втором случае х —---- •--=---=---- -- * 1 3.1 1 1 о "2 ‘ * “2 2) Доказать, что если опыт повторяется при одинаковых условиях, то вероятность появления события С в (и -|- 1) -м опыте, после того как известно, чго оно произошло в п предшествующих опытах, вообще, больше И Допущение —О, которое в рассмотренном выше примере с 3 ша- рами лишено всякого разумного основания, вообще, не так абсурдно, если значение очень близко к 1. Современная физика рассматривает теперь многие явления С, которые всегда наблюдаются при данных условиях (например, одинаковые показания температуры двух одинаковых термо- метров, вставленных в изолированный баллон, наполненный газом) лишь как обладающие вероятностью р2, неизмеримо мало отличающейся от 1. Если в формуле (60) ^ = 0 и р2 > р3, то, с возрастанием л, (С)Сп стремится к ру но значения р2 в вышеупомянутых физических опытах обычно так мало отличаются от 1, что потребовались бы многие миллионы лет непре- рывного наблюдения, чтобы непоявление С хоть один раз имело некото- рые реальные шансы.
вычисление вероятностей a posteriori 91 вероятности наступления того же события С в и-м опыте, когда известно, что оно произошло в предшествующих (п — 1) опытах; исследовать, в каких случаях обе указанные вероятности могут быть равны. Ответ. Нужно доказать (60), что а, р,"ч- »><?,"— ... + < а< Ял‘ + а-2 Pi" ""1 + Д» Pk‘ '' 1 ЯЯ"-* " ••• га*ЛЛ“ 1 ' а1Ял+ +ЧРкп т.-е. [а! Pl” 1 Г а2 Р" + 1 + • • • -Г Ч Рк' + 1 ] [“1 Pl ” ~ 1 Т ’ • + а* Рк” ~ 1 ] > > [а1Ял -г +алЯл]2 Члены, содержащие af2, а22? • * • > равны в обоих частях неравенства и взаимно сокращаются, члены же, содержащие произведения а(а2, в первой части сводятся к [р/1 1 р$п “1 -р р{ п~хр/~~ а во второй равны 2 ь^р^р^ поэтому, перенося все в первую часть неравенства, находим неравенство а1 а2 Pi"" 1 Pl ~ ’ (Pl — Р2)2 4 • • > о, которое очевидно, так как все слагаемые в первой его части положительны или равны 0. Доказанное неравенство заменится равенством, только если все члены вида at а2р^ ~*р2П~~1 (Рь — РчУ2~~ 9, или, полагая вообще > 0, необходимо, чгобы все pi (отличные от 0) были равны между собой, т.-е. чтобы независимо от правильности той или иной гипотезы, совместимой с появлением С, вероятность факта С была равна вполне определенному числу р. 3) Повторяя опыт п раз при одинаковых условиях, найдено, что собы- тие С произошло т раз. Требуется определить вероятность a posteriori каждой гипотезы. Ответ. Применяя формулу Байес с а и замечая, что условная л т п — т вероятность /n-кратного появления С в п опытах равна С п при первой гопотезе, Cn^p<im q2~~m при второй гипотезе и т. д., получаем для искомых вероятностей т п -т сп Pl qi х, г------------------------------- —-----------------— ' tn и т , т п — т cnPi qi -спр-2 <h -г-.- , т п - т Pi т п—т , щ п — т , Pt 71 -Р2 ~Г — И Т. II.
ГЛАВА ЧЕТВЕРТАЯ СПОСОБ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ 1. Во многих случаях вычисление вероятностей облегчается рассмотрением некоторых связанных с вероятностями вспомогатель- ных величин, так называемых математических ожиданий, которые играют существенную роль в теории вероятностей и ее приложениях. С основными свойствами этого нового понятия нам необходимо теперь ознакомиться. Положим, что тот или иной результат рассматриваемого при данных условиях опыта связан для данного лица с тем или иным выигрышем, т.-е. с получением некоторой суммы денег. В таком случае мы говорим, что в данных условиях математическое ожидание выигрыша для рассматриваемого лица равно сумме произведений каждого возможного выигрыша на вероятность этого выигрыша. ! ,Если, например, при бросании игральной кости игрок выигрывает столько рублей, сколько окажется очков на верхней грани кости, то мате- матическое ожидание его выигрыша равно '4+2-|+»4+«4+84+в-в=т-з,./>’»*- (Математическое ожидание выигрыша является всегда именованным числом, выраженным в тех же денежных единицах, в каких выражен каждый возможный выигрыш.) В предыдущем примере все исходы игры были более или менее благоприятны для игрока, но большей частью некоторые результаты игры могут быть связаны с проигрышем; в таком случае проигрыш рассматривается как отрицательный выигрыш, и математическим ожиданием выигрыша, вообще, называется (алгебраическая) сумма произведений каждого выигрыша на его вероятность. Если, например, при появлении 6 очков на данной кости игрок выплачивает 5 рублей, а при всяком другом числе очков выигры-
СПОСОБ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ 93 вает 1 рубль, то математическое ожидание выигрыша равно 1- —= 6 6 Когда математическое ожидание выигрыша для данного игрока равно нулю, то игра называется безобидной для него; когда математическое ожи- дание выигрыша положительно, игра называется выгодной; и наконец, если математическое ожида- ние выигрыша отрицательно, то игра называется невыгодной. Игра, выгодная для данного игрока, — невыгодна для его противника, и наоборот, если выигрыш одного соответствует равному проигрышу другого. Вопрос о том, являются ли математи- чески выгодные (согласно определению) игры таковыми в практи- ческом смысле слова, будет нами исследован в дальнейшем на осно- вании закона больших чисел. Если выигрыш игрока равен А, а возможный проигрыш есть В, при чем вероятности выигрыша и проигрыша равны соответственно р и <у, то для безобидности игры нужно, чтобы Ар — Bq = 0, т.-е. А В „ „ „ ~ В таком случае игра безобидна и для противника нашего игрока. Совершенно так же, как мы определили математическое ожидание выигрыша, можно определить математическое ожидание всякой вели- чины х, если известны все значения х2,..., хп. которые х может получить, и известны соответственные вероятности: р2 того что x — xv р2 того, что х — х2 и т. д. Тогда мы говорим, что математическое ожидание х = х. -j- р2 х9 -ф- ... -ф- рп хп (61), где xv х2,..., хп могут быть и отрицательными числами (даже комплексными), т.-е. математическим ожиданием вели- чины х называется алгебрическая сумма про- изведений каждого возможного значения х на его вероятность. Разумеется, числа р отрицательными не бывают, и кроме того А + /?2 + • • • + Рп~ так как> по условию, никакое из возможных для х значений не должно быть пропущено. (Фактически, если одно из возможных для х значений есть х,г = 0, то соответствующее слагаемое р xn = Q в формуле (61) можно'не писать, имея всегда в виду, что если в членах, фигури- рующих в формуле (61), сумма вероятностей Р<1, то следует подразумевать, что одно из возможных значений для х есть нуль, и вероятность этого значения равна 1 — Р.) Например, если вероят-
94 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ ность события А в данном ряде п опытов равна /?, то мы можем говорить о математическом ожидании числа т появлений этого события в рассматриваемых п опытах. Число т может получать значения 0, 1,2,...,/?, и, согласно формуле (53), вероятности этих значений равны соответственно: qn, npqh~\ ——p2ql~\. . рп. Поэтому мат. ожид. т = 0 * qn -j- 1 • npqn~A -j- 2 * ~• * * ~h I fl (n---- 1) . . . (n- 4- m • -3---'----q-m 4- . . . = m\ 1 = np p«-14-(n— 1)^-2 _L = nP [7 ~h ЛР 1 — flP- (64 bis) Следовательно математическое ожидание числа по- явлений события при п опытах равно пр, где р есть вероятность этого события в каждом опыте. Заметим, что в частности, если л=1, то математическое ожи- дание т равно самой вероятности р, так как в данном случае математическое ожидание т—р * ' ®=р- Таким образом вероятность является весьма частным случаем математического ожи- дания числа когда это последнее получает лишь два значения 1 или 0 в зависимости от того, произошло ли рассматриваемое со- бытие или нет. 2. Вряд ли нуждаются в пояснениях следующие два положения: математическое ожидание достоверной величины а равно математическое ожидание ах, где а -- данный численный множитель, равно произведе- нию а математ. ожид. х. Не столь очевидна, и во всяком случае нуждается в точном доказательстве, следующая чрезвычайно общая теорема сложе- ния математических ожиданий. Теорема. — Если при данных обстоятельствах ма- тематическое ожидание х — А, математическое ожидание у = В, то при тех же обстоятельствах математическое ожидание (х -р J) = Л В; другими словами, математическое
СПОСОБ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ 95 ожидание суммы двух величин равно сумме матема- тических ожиданий этих величин. Действительно, по условию Х1+р2х2+ . . . +р„х„, где pt есть вероятность равенства х = а Рк есть вероятность равенства y—yk. Предположим сначала, для большей наглядности, что т=п = 2, т.-е. что х может получить только два значения и х2, а у также может получить лишь значения и у2. В таком случае сумма (Д'Ц-J') имеет только четыре возможных значения: •ГДЬ Л+Л> Л+Л- л+л> вероятности которых /?п, /?12, /?21, р22 являются соответственно вероятностями совмещений равенств х = с равенством у =уг, равенства х = хг с равенством у=у29 равенства х = х2 с равен- ством у =yv равенства х = х2 с равенством у=у2. Согласно определению математического ожидания всякой величины, пишем, таким образом, мат. ож. (х -j-j) (х, 4 - As (xi +Л) + -Г /?21 (Х2 ~ГУ1) ~1~ Л‘2 (Х2 “ГЛ) == = (Рн 4- Pi 2) хг T" (Р21 Я- Р22) Х2 4- (Рц 4- Л1) л т + (Лг 4-Лг)Л- Принимая наконец во внимание, что Рц = и Р21+Р22 — Ръ представляют соответственно вероятности равенств x = и х = х2 (так как каждое из этих равенств имеет место либо совместно с_у=_у1 либо совместно с v=j'2) и что -j-p21 = — Рг и р12 4~Р22= ^2 являются соответственно вероятностями равенств и у=у2, убеждаемся, что мат. ож. (х-[-у)~^р1хг-[- р2х2~[- Р^у^-^ Р2у2 = А-{- В. То же рассуждение применим теперь к общему случаю, когда числа п и т возможных значений для х и у какие угодно. Если обозначим через pik вероятность совместного существова- ния равенств X — xi и у =yk.
96 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ ВЕРОЯТНОСТЕЙ ТО k=tn i~п р, = У pik=pa + Ра 4- р>„е pk = У pik- • (62) А— 1 7=1 Но, с другой стороны, чтобы получить математическое ожидание (х -pj/), над0 взять всевозможные значения суммы (х -1- J/), умно- женные на соответствующие им вероятности, и сложить. Поэтому мат. ож. (x+j) = ^2 У рik (x; yk) = z-1 k=\ i - п k~ rn i~n k-rn = £ £ Pikxi^- £ £ pikyk- Z=1 *=1 1 = 1 Ar i Благодаря (62) i~n k~tn i~n k=^m i~n i---n k~tn E Lw,= /=1 А=1 7=1 A = l Z=1 7 = 1 Ar=l k = 777 l~n k—ГП = £л£лА=£^л- A=l Z=l £=1 Следовательно i~n k--rn M. O. (x 4- v) = у Pi XL -4 у Pkyk = A 4- B. Z=1 Ar-1 Ч. И T. Д. Следствие. — Математическое ожидание суммы лю- бого числа величин х -j-j/ -р г -р . . . равно сумме математических ожиданий этих величин: М. О. (х-Ру + г-р . . .) = М. О. х РМ. О.у^рм. О. z-\- . . .(63) Действительно, М. О. (х -j-j/ ~р z) — М. 0. (х -рЗО ~г М- О- z~ = М. О. х -р М. О.у -р М. О. z. Аналогичным образом переходом от п к (яЦ-1) формула (63) распространяется на любое число слагаемых. Предположим, в частности, что производится п опытов, при которых вероятности появления события А соответственно равны Рр р2>' *РП' В таком случае математическое ожидание числа т появлений события в рассматриваемых п опытах равно . М. о.т = рг 4-р24- . . . 4-р„. (64) (При этом опыты могут и не быть независимыми.)
СПОСОБ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ 97 Действительно, если каждое появление события в соответствую- щем Лом опыте отмечается числом 1, а непоявление — числом 0, то математическое ожидание числа хр которым будет отмечен резуль- тат z-го опыта, М. О. хр=р^ 1 4“ Ъ ' 0 — р-. Поэтому, согласно формуле (63). м. о. (х^ —4~ • - • 4“ -^4 м» о. Xj 4“ м» о. Х2 4- * • * о* =Pi+?2 + • • 4-л,; но отмеченная нами сумма хг 4" х2 4“ - • • 4“ хп будет как раз равна числу tn появлений события Д, так как каждое слагаемое этой суммы равно единице, если событие произошло, и равно 0, если А не про- изошло, следовательно, М. О. /и=/71+р2+. . . +р„. (64) Заметим, что формула (64) содержит как весьма частный случай формулу (64 bis), в которую она превращается, когда все pt— р и опыты независимы. Рассмотрим теперь некоторые простейшие примеры применения математического ожидания к вычислению вероятностей. 3. Первый пример. Два игрока Иван и Петр повто- ряют некоторую безобидную партию (например, один из них бросает игральную кость, и первый получает от второго 5 рублей в случае появления 6 очков и выплачивает второму 1 рубль в случае какого-нибудь другого числа очков). Игра продол- жается до тех пор, пока один из игроков не про- играет всех своих наличных денег, которых имеется у Ивана а рублей, а у Петра b рублей. Требуется определить вероятность Р разорения Ивана. Ввиду того, что каждая партия безобидна, то в силу теоремы сложения математических ожиданий, т.-е. формулы (63), безобидной будет и вся игра, слагающаяся из совокупности этих партий. Для Ивана эта совокупная безобидная игра закончится либо выигрышем всего имущества b Петра, либо проигрышем всего сво- его капитала а. Обозначая вероятность первого случая через Q Теория вероятностен.
98 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ а вероятность последнего случая через Р, получаем, как условие безобидности ’), Р Q 1 ЬО—~ дР = 0, откуда — = — = —-- - b а а~\~Ь Например, если у Ивана а — 10 рублям, а у Петра b = 40 руб- Р 1 лям, то 40 Q—ЮР—0, т.-е. -~==Q=—: в этом примере ве- 4 роятность Р разорения Ивана равна и таким образом в четыре 5 раза больше вероятности Q разорения Петра» Вообще, для игроков, повторяющих безобидную игру до полного разорения одного из них, вероятность разорения каждого обратно пропорциональна его капи- талу. В частности, если Иван вступает в безобидную игру со вся- ким партнером, то вероятность его разорения чрезвычайно близка к единице, т.-е. к достоверности, так как совокупный капитал всех его противников, вместе взятых, практически неограниченно велик. Сделанный нами вывод опирается на допущение, что игра непременно должна когда-нибудь окончиться. Однако это не очевидно, и* наоборот, было бы не вполне правильно, если бы повторяемые партии не были тожде- ственны; если бы игроки условились, например, уменьшать пропорционально ставки каждой партии так, чтобы максимальный возможный проигрыш игрока в отдельной партии никогда не превышал половины имеющегося у него в наличности капитала, то игра, понятно, не закончилась бы ни- когда, так как для ее окончания требуется полное разорение одного из игро- ков. Но наш вывод нетрудно сделать вполне строгим, если все партии тождественны, принимая во внимание (как мы увидим дальше), что тогда, как бы мало ни было г, возможно указать достаточно большое /г, чтобы 1 — (Рп -L- Qz;) < г, где Рпп Qn—вероятности разорения каждого из игроков, если число партий не превышает п. Поэтому, замечая, что игра стала бы выгодной для Ивана, если бы, в случае неопределенного результата п пар- тий, он получал весь капитал b своего противника, и, наоборот, стала бы невыгодной, если бы он при указанном неопределенном результате должен был отдать Петру все свое имущество, заключаем, что - - : b <bQn — a Рп < г а, откуда — г b < b (1 — Рп) — а Рп и, следовательно, Рп < с Другой стороны, b (1 — Рп — =) — а Рп < гл, следовательно, при п достаточно большом, Р'* 1 > а + b Итак, а
СПОСОБ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ 99 Таким образом безобидность игры отнюдь не является указанием того, что эту игру безопасно повторять. Напротив, предприятия, деятельность которых, вроде страховых обществ, независимо от их социальной пользы или вреда, представляет математически полную аналогию с азартной игрой, не могли бы длительно существовать, в силу вышесказанного, если бы „игра* для них была безобидна. Такого рода предприятия должны себе обеспечить финансовые условия математически „выгодной игры*. Более полно этот вопрос будет освещен в дальнейшем. 4. Второй пример. Даны 2 ящика с шарами: в первом находится ЗЛ4 белых шаров и Л4 черных шаров; во втором имеется Л4 белых и ЗЛ4 черных шаров. Из первого ящика вынимают наудачу 2М шаров и перекладывают во второй ящик; размешавши после этого все шары во втором ящике, из него выни- ают шар. Спрашивается, какова вероятность, что этот шар будет белый? Так как вероятность для каждого шара, вынутого из 1-го ящика, х . 3 быть белым равна —, то математическое ожидание числа вынутых з п ял ЗМ белых шаров равно • 2/и= --, математическое ожидание числа белых шаров, оказавшихся во втором 5Л1 общее же число шаров во , . ЗЛ4 ящике, равно М —- втором ящике становится равным 6Л4. Поэтому математическое ожидание вероятности Р . ЗАГ 5 появления белого шара из второго ящика равно —-- = * Но 12/И 12 вероятность Р некоторого события и математическое ожидание этой вероятности 3) представляют собой одно и то же, так как, по определению математического ожидания, где . Р2,..., Рп означают все возможные значения, получаемые вероятностью Р данного события, если наступает один из несовме- 9 Можно заметить также, что вообще, поскольку вероятность при дан- ных условиях есть определенное число, ее математическое ожидание совпа- дает с этим определенным значением. 7*
100 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ стимых случаев, имеющих соответственные вероятности ар а2,. . таким образом, написанное выражение представляет собой не что иное, как вероятность Р нашего события, если бы ее вычислять согласно формуле (48), имея в виду все возможные комбинации перекладывания шаров; но такой прием вычисления был бы гораздо 5 сложнее. Итак, искомая вероятность Р = — 1 £ Аналогичным образом получим, что если переложить обратно 2 М шаров из второго ящика в первый, то после этого второго перекладывания вероятность появления белого шара из первого 7 ящика равна 5. Способ математических ожиданий в применении к более сложным задачам приводит к системам линейных уравнений со мно- гими неизвестными и даже с бесконечным множеством неизвестных. Однако очень часто, не решая полностью всех этих уравнений, требующих довольно тонких математических исследований, оказы- вается возможным указать простые неравенства, которым удовлетво- ряют искомые вероятности, и таким образом получить чрезвычайно ценные для теории и практики приближенные значения последних. Пример такого рода весьма важного неравенства содержится в следующем простом предложении, которое лежит в основе знаме- нитой статьи П, Л. Чебышева „О средних величинах\ Лемма. -Если мат. ож. х = А, п р и чем х м о ж е т полу- чать различные положительные значения (или нуль), то вероятность Q, что х получит значение большее, чем At2 меньше, чем —, каково бы ни Г2 было число Л Действительно, по определению: . Л = М. О. х=р2х2 +р,х2 +•.. +р„хп. (61) Если из всех возможных значений х только хр х2,..,,л*Л пре- вышают АР, то сумма рг х, +'... + ph xh > (р, -|- р2 -|-... + ph) АР, а потому (так как в (61) нет отрицательных членов) и подавно А > (/?2 4- р2 р^ At2; а следовательно, Q = Л + Р2 + * * ’ + Ph < уз ’
СПОСОБ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ 101 где Q есть вероятность, ч,то х получит какое-нибудь значение, пре- вышающее At2. Следствие. Вероятность Р (при тех же данных), что х АР, больше, чем 1 — ~ • В самом деле, P-|-Q=l; доказанного, слагаемое Q <С поэтому, если, в силу только что то другое слагаемое Р должно быть больше, чем 1-----• Предшествующую лемму вместе с выведенным из нее следствием мы будем называть леммой Чебышева. Из леммы Чебышева мы выведем в дальнейшем самые общие формы закона больших чисел, а пока применим ее к выводу теоремы Якова Бернулли, являющейся простейшим частным случаем закона больших чисел. 6. Теорема Якова Бернулли. Пусть при каждом из п независимых опытов вероятность наступления события А равна р; тогда вероятность того, что ч и с л Q т появлений события А удовлетворит нера- венству (69) j п | где £—данное произвольно малое число, становится сколь угодно близкой к единице (достоверности), если число п опытов достаточно велико. Для доказательства нужно прежде всего вычислить Н ~ М. О. (т — пр)-, т.-е. математическое ожидание квадрата отклонения числа т появле- ний события А от числа пр, которое, согласно (64 bis), есть мате- матическое ожидание т. Полагая пг — 4-х2где xi получает значения 1 или 0, смотря по тому, происходит ли собы- тие А в первом опыте или нет, и, вообще, xi— 1 или xz=0 в зависимости от того, наступает ли событие А в /-ом опыте (/=1,2,..., п) или нет, — можем написать: //= М. О. (х, 4- х2 -L . .. хп — пр)г
102 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ и, применяя теорему сложения математических ожиданий, Я = М. О. х/4-М. О. х22 + . . . 4-М. О. Х/42М. О. x2x24- 4-2 М. О. 2 М. О. хп_г хп — 2пр М. О. 4"х2 “Г + *• •+O + "2P2- (R Но математическое ожидание хг2 =р • 1 -\-q • 0- р; следовательно, вообще, М. О. х?=р. С другой стороны, М. О. х1х2=р\ так как произведение хгх2 может быть равно либо 1, либо 0, при чем х1х2=1 только в том случае, когда х2 = 1 и х2=1, т.-е. когда событие А осуществляется и в первом и во втором опыте, так что вероятность равенства х1х2=1 равна р2. По той жё при- чине, вообще, М. О. XjXk = p2. Следовательно, замечая, что членов вида 2М. О. x>xk в формуле (65) имеется — •— , получаем: Н = пр 4~ п (п — 1)р2 — 2 пр М. О. (х1 4" х2 4" • • • 4"хл) + п*Р2 = =;пр-\- п(п — 1)р2 —2 п2р2 4- п2р2 = пр — пр2 = npq, так как М. О. (jq 4" 4" • • • ~\~хп) = пР> согласно формуле (64 bis). Итак, мы установили, что Я=М. О. (т — пр)2 — npq. (66) Следовательно, применяя к неотрицательному числу (т— пр)2 лемму Чебышева, мы заключаем, что вероятность Q неравенства (т — пр)2 4> /2 npq а вероятность Р противоположного неравенства (67) больше, чем 1-------• Но неравенство (67) равнозначно неравенству (68) которое получается от деления обеих частей (67) на л2; извлекая корень квадратный из обеих частей (68), получаем новое равнознач- ное неравенство ______ PQ (69 bis)
СПОСОБ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ 103 вероятность которого, следовательно, также равна Р^> 1 —— * /pq 1 pq = откуда можем наконец придать последнему утверждению такую форму: вероятность Р неравенства т ~п~~Р (69) больше, чем 1 — —- £2/? Следовательно, если при данном £ (как бы мало оно ни было) число п опытов будет неограниченно возрастать, то вероят- ность Р^> 1 — сделается сколь угодно близкой к единице, pq благодаря тому, что будет стремиться к 0 с увеличением п, что и требовалось доказать. Так, например, при бросании монеты п раз, находим, полагая 1 ,орла“ р = —> чт0 вероятность Р нера- вероятность появления венства т 1 1 2* '20' т.-е. 9 т 11 210 ~п ‘ 20 (69 ter) больше, чем 1-—; таким образом, если /2=1000, то Р>0, 9, если п = 10 000, то Р>0,99 и т. д. В дальнейшем мы найдем более точные значения для вероят- ности Р, из которых видно будет, что Р на самом деле еще гораздо ближе к 1, так что для //=10 000 осуществление неравенства (69 ter) является практически достоверным ^Р> 1 — ’ и даже для /г=1000 вероятность Р> 0,998. Неравенство р>1—(70) дает некоторую нижнюю границу для вероятности Р, когда даны число опытов п и величина е максимального уклонения /и -----р . Если, напротив, мы хотим указать, какое число опытов
104 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ п окажется достаточно большим для того, чтобы вероятность Р осуществления неравенства (69) была во всяком случае больше 1—Tj, где Т| некоторое данное весьма малое число, то, как видно из (70), для этого достаточно, чтобы 1—\т-'е- откуда (70 bis) Если, например, при повторном бросании игральной кости, мы хотим утверждать с вероятностью большею, чем 0,99 = 1—0,01, что число tn появлений 6 очков удовлетворит неравенству tn 1 п 6 1 1 т 4 —, т-е. — — 10’ 15 п 15 то достаточно для этого, чтобы п > — 10 000 > 1388. Из неравенства (69 bis) получаем также, что если п и г\—~ даны, то с вероятностью большею, чем 1 — т(, следует ожидать осуществления неравенства Таким образом при 50 000 бросаниях игральной кости мы можем гарантировать с вероятностью большею, чем 0,99, что | tn 1 п 6 ----------= -—, т.-е. — — 50 000 60’ 60 п 60 Принимая во внимание, что /г —50 000, мы видим, что хотя отно- zn шение —, которое мы должны ожидать с большею вероятностью, 1 мало отличается от тем не менее пределы, в которых может
СПОСОБ МАТЕМАТИЧЕСКИХ ОЖИДАНИЙ 105 заключаться само число т появлений 6 очков, довольно широки, именно: 9 11 50 000 • ; т — • 50 000, 60 60 т.-е. 7 500<w<9167. Правда, мы не имеем основания утверждать, что при более точной оценке вероятностей не окажется в действительности возможным значительно сузить пределы полученного неравенства. Этот вопрос будет в полной мере разъяснен в дальнейшем. Но пока мы должны . т лишь заметить, что из того обстоятельства, что отношение — пра- п ктически неограниченно приближается к вероятности р с увеличе- нием числа опытов /г, отнюдь не следует, что и само число т ста- новится весьма близким к своему математическому ожиданию пр, т ч так как хотя разность--—очень мала, но, умножая ее на большое число /г, мы получаем разность т — пр~п%, которая может быть велика. Для случая р ™ “ мы нашли (стр. 79), что вероятность P$,2s того, что при н — 2s событие произойдет 5 раз, удовлетворяет неравенству Р . 9е< ——* - - ; но так как 5 есть наиболее вероятное число появлений /2s-j-l нашего события, то, тем более, вообще Рт 2 < — ----; поэтому вероят- у 2s Д- 1 ность, что т равно одному из 2k 4- 1 значений: s — k, s — k + 1,..., s, s 4-1,..s 4- k, т.-е. вероятность P, что n : _ , ; m \^k’ менее, чем --— ----; таким образом, как бы велико ни было данное число k, /«+ 1 вероятность Р стремится к нулю, когда п неограниченно возрастает: на- пример, если п = 1 000 000, k ^\5, то Р < 0,031. У пр пленения, 1) Иван играет с Петром на следующих условиях: из полной колоды карт вынимается одна карта за другой до тех пор, пока не появится туз; Иван в начале партии выплачивает Петру 10 рублей с тем, что Петр возвратит ему столько рублей, сколько карт будет предшествовать тузу. Для кого из игроков игра выгодна? Ответ. Игра выгодна для Петра и невыгодна для Ивана: математи- 48 ческое ожидание выигрыша для последнего равно 10 = ~ — 0,4 ~ — 40 ко-
106 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ леек. Действительно, если все 52 карты колоды будут вынуты одна за дру- гой, то первому тузу будет предшествовать некоторое число k карт, между первым и вторым тузом будет / карт, т будет число карт между вторым и третьим тузом, п — между третьим и четвертым, и р карт последует за четвертым тузом. Очевидно, k -j- Z-f- tn 4- п Р = 48; но, так как положение туза на любом месте одинаково вероятно (имеет вероятность равную г то указанное расположение столь же вероятно, как и такое, при котором числа k,l, т, п, р расположатся в другом порядке; иными словами: М. О. х{ = -.-М. О. х2 = М. О. х3 = М. О. х4 = М. О. х3, где х{— число карт, пред- шествующих первому тузу, х^ — числа карт, соответствующие проме- жуткам между двумя последовательными тузами, и х5 — число карт, следую- 48 5’ щих за последним тузом; следовательно, М. О. xt = Вообще, если А — 1 есть число карт и а число тузов, то М. О. — А — а 4- 1 ‘ д т гл х —ВЫЧИСЛЯЯ М. О. %! другим способом, находим п (А — а + 1)а (А — а 4-1) (Л — а) а . ’ ' М + 1)Л (Л + 1)Л(Л-1) -т откуда между прочим получаем тождество 1 , ?А-а . (А — д) (Л — д — I) , Л (Л -|~ 1) + А — 1 1 (Л — 1) (Л — 2) 1 . а (а 4- 1) для любых целых чисел А > 0. 2) Иван играет с Петром на прежних условиях, только вынутая карта каждый раз после появления кладется обратно. Для кого игра выгодна? Ответ. Игра выгодна для Ивана. Математическое ожидание его вы- игрыша равно 12—10 = 2 руб. Действительно, если р ~ ~ есть вероят- 1<S 12 ность появления туза, а </= ——вероятность появления другой карты, то 1<S вероятность, что тузу предшествует h карт, равна qhp\ поэтому число х предшествующих т}!зу карт имеет математическое ожидание, равное М. О. х = qp 4- 2qip + . . . -4 hql’p 4- = = J = 12’ 3) Определить, каковы соответственные вероятности рь р?, p2t Рь Ръ числу х получить зна тения —2, — 1, 0, 1, 2, если дано, что иных значений х не получает и что М. О. х = 0, М. О. х2-----2, М. О. х3 = 0> М. О. х4=6 м 1 1 л Ответ. /л2 = 0* 4) Сколько раз следует повторить опыт, при котором вероятность по- 1 явления события для того, 0,999, можно было ожидать, что 39 160 чтобы с вероятностью не меньше о, чем 41 п 160 Ответ. Достаточно, вследствие (70 bis), чтобы «> 4800 000.
ГЛАВА ПЯТАЯ МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ L Во многих задачах нельзя указать никакого логического основания для того, чтобы ограничить тем или иным числом сово- купность фактов, вероятности которых могут представить практиче- ский интерес, или совокупность значений, которые может прини- мать та или иная неизвестная величина. Даже и тогда, когда мы знаем, что число возможных исходов опыта конечно, но только чрезвычайно велико, для вычисления вероятностей отдельных фак- тов (с достаточной для практики точностью) часто оказывается проще считать число возможных исходов бесконечным и пользо- ваться, благодаря этому, методом пределов, т.-е. принципами диф- ференциального и интегрального исчислений. Предположим, например, что циферблат хронометра имеет 100 равноотстоящих делений, и положим, что стрелка его меха- нически отмечает момент наступления какого-нибудь явления А, неза- висимого от хода хронометра, так что мы можем считать равновозмож- ным, что отмеченный момент А окажется в любом из 100 указанных промежутков 2), и вероятность этого для каждого промежутка равна 1 100 ’ в таком случае, согласно определению вероятности, если обозначим через 5 длину окружности циферблата, то вероятность, что 15 А упадет, например, на дуге длины между делением 10 и делением 25, равна Если бы каждый промежуток цифер- ------------ । *) Возможны, конечно, сомнительные случаи, когда А будет казаться данному наблюдателю точно совпавшим с точкой деления циферблата; относительно этих случаев следует принять некоторое единообразное согла- шение: можно, например, условиться, что если А совпадает с делением ат то мы его относим к промежутку (а, а -4- 1).
108 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ блата хронометра был разделен еще на 10 равных частей, т.-е. если бы вместо 100 делений было 1000 равноотстоящих делений, и мы могли бы различать попадание точки А в эти более мелкие промежутки, то мы аналогичным образом получили бы для вероятно- сти того, что точка А попадет, например, на дугу между делениями 154 1 5 -1 102 и 256, длина которой |qqqs, значение ^qqq ? так как такому положению точки А благоприятствуют 154 случая из 1000 един- ственно и равно возможных несовместимых случаев. Продолжая тот же процесс деления и допуская, что, как бы малы ни были дальнейшие подразделения, наблюдатель имеет возможность решить, в какой промежуток попала точка Л, мы приходим к заключению, что во всяком случае вероятность точке оказаться на дуге тп, концы которой совпадают с подразделениями циферблата, равна отноше- нию числа промежутков, помещающихся на дуге тщ к общему числу промежутков, т.-е. отношению длины дуги тп к длине всей окружности циферблата. Окружность циферблата можно мысленно развернуть на прямо- линейный отрезок длины 5. В таком случае вероятность того, что точка А окажется на части этого отрезка, длина которой х, рав- х няется —* 5 Вообще, когда отрезок LM, длина которого 5, не очень велик, то часто условия постановки опыта таковы, что не может быть указано никаких объективных оснований для того, чтобы некоторая точка А, отмечаемая на отрезке, попала скорее в одну часть отрезка, чем в другую, если только размеры этих двух частей отрезка одинаковы; иными словами, во многих случаях следует принять, что в е рО я т но сть Р точке А отрезка LM оказаться в д а нн ом промежутке, длина которого х, есть функция Р(х), зависящая только от длины х, а не от положения промежутка на отрезке LM. В таком случае вероятность того, что точка А окажется в промежутке, длина которого х4~у, есть Р(х-[-у), и, применяя теорему сложения вероятностей, мы находим, что Р(х + у) = Р(х)4-РСу), (71) откуда Р(х + j 4- z) = Р(х) 4- Р (у) + Р(г) и т. д.
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 1094 Следовательно, в частности, каково бы ни было целое число л, имеем: P(/;x)=-/?P(x), (72) лишь бы пх-<zs и, кроме того, P(s)=l, так как, по условию, точка А несомненно находится на данном отрезке 7/W, длина которого s. Поэтому, полагая nx — s, получаем из (72), что / А \ ( S \ 1 1 — пР I — | , т.-е. Р| — I — при всяком целом п. \ п / \ п J п s Если теперь положим в равенстве (72) х = — , где целое чис- ти ло т > и, то получим: С другой стороны, из равенства (72) заключаем также, что 5 1 если у <— , т0 тР(у) = Р(ту) P(s) — 1, т.-е. — т т (так как вероятность не может быть отрицательной). Следовательно, если на отрезке LM дан определенный проме- , П . _ 5 жуток длины h =—s- у, где 0 У -С—, то на основании ра- ти т венств (71) и (73) — ^p{h)=p(— ; (74) т \ т J т но, неограниченно увеличивая иг, имеем п zz —1— 1 h пред. —= пред. —----— т ms и из (74) получаем, наконец, что Р(Л) = у’ (75) какова бы ни была длина h^s. Таким образом, при сделанном выше предположе- нии, вероятность Р, что точка А упадет в опреде- ленный промежуток длины /г на отрезке = A t равняется отношению — длины промежутка А к длине всего отрезка
110 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ Формулу (75) называют законом равномерного распределения вероятностей. На основании теоремы Бернулли, доказанной в предыдущей главе, если число п точек А на отрезке LM, вероятности которых подчиняются указанному закону, весьма велико, то следует считать практически достовер- ным, что отношение числа т этих точек, находящихся в данном промежутке длины h отрезка LM, к общему их числу h мало отличается от отношения ---; иными словами, при LM п очень неогра- ниченном возрастании числа л, распределение точек А на отрезке LM стремится стать равномерным. Мы не будем останавливаться здесь на рассмотрении некоторых парадоксов, к которым приводит закон равномерного распределения вероятностей; заметим лишь, что этот закон требует, чтобы мы приписали вероятность равную нулю, т.-е. признали невозможным идеальное совпадение точки А с определенной геометрической точкой: экспериментально такое совпадение действительно не может быть осуществлено, но если бы при постановке той или иной теоретической задачи указанное совпадение считалось возмож- ным, то это означало бы, что точка А не подчиняется закону равномерного распределения вероятностей. Пример. Дан отрезок LM и на нем произвольная точка А. Какова вероятность того, что возможно построить треугольник, имеющий сторонами LA, AM и — LM- — LO- — OM (см. черт. 2)? L---.-.-.--. РОА М Черт. 2. Для того, чтобы такой треугольник был возможен, необходимо и достаточно существование неравенств AM-\-~LM>LA, LA+~LM> AM, выражающих, что сумма двух сторон треугольника больше третьей (неравенство LA AM — LM всегда существует). Следова- тельно, полагая LA — — LM х и AM = LM — х, л
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 111 неравенства наши можем записать в виде LM — х>7)- LM х и LM х 0> LM — х, т.-е. --- ] ^2 4 4 Иначе говоря, построение указанного треугольника будет воз- можно тогда и только тогда, когда точка А будет находиться вблизи середины О отрезка по ту или другую сторону от О на расстоянии, не превышающем следовательно, из всех поло- жений точки А на отрезке LM благоприятными для существования треугольника будут лишь те, при которых она окажется внутри назван- ного промежутка, длина которого равна ~ LM. Поэтому, считая все положения точки А на отрезке LM одинаково вероятными (т.-е. считая распределение вероятностей равномерным), получаем, что n V2 LM 1 искомая вероятность Р — - — —- • LM 2 2. Вообще, равномерное распределение вероятностей на отрезке не является единственно допустимым предположением. Если, напри- мер, в середине отрезка помещается цель, в которую метит опыт- ный стрелок, то для двух равных промежутков, из которых один ближе к середине, а другой дальше, более вероятно, что он попадет в первый промежуток, нежели во второй. Самый общий закон распределения вероятностей на данной прямой, которую можем принять за ось абсцисс, совместимый с основным принципом тео- рии вероятностей (глава первая, стр. 18), определяется произвольно заданной неубывающей (монотонной) функцией Р(х), где F(x^) представляет вероятность того, что абсцисса :) х точки А удовлетворяет неравенству X Хо, при чем F( — 00) = 0 и Л(-|- 00) = 1. Если точка А может находиться только на данном определенном 9 Согласно общему приему графического изображения величин, абсцисса х может соответствовать любой величине (времени, температуре, весу, числу людей и т. п.).
112 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ отрезке LM, концы которого L и /И имеют соответственно абсциссы а и b (а £), то Д(х) = 0, когда х | JLV \ 1 - \ A I (>б) ?(х) — 1, когда л*>Р, ) так как в этом случае величина х не может быть менее а и должна быть менее или равна Ь. В частности, при равномерном распределении вероятностей на отрезке LM, длина которого s—b—ау функция Д(х) (кроме условий (76)) имеет вид х — а b — а' когда а х Ь\ эта формула выражает, как и формула (75), что вероятность точке А оказаться в определенной части LP — h — — х — а отрезка LM равна отношению LP h х—а LM s b — а Если дана функция F(x), которая называется интегральной функцией распределения вероятностей, то вероят- ность того, что точка А с абсциссой х находится в промежутке, концы которого имеют абсциссами а и р (а < Р), или, точнее, вероятность Р^ того, что а х <‘р, равна Р;;=Л(Р)-?Ха). (77) Действительно, по определению, /-'(р) есть вероятность нера- венства х р; но это неравенство имеет место при одном из двух несовместимых обстоятельств: либо х <С а, либо х С - а (при х <Z р); вероятность первого случая есть Д(а), а вероятность второго слу- чая равна искомой вероятности Р' . Следовательно, по теореме сложения, ^) = F(a) + ^, откуда Р* --- Д(р) — Д(а). В случае равномерного распределения вероятностей на отрезке LM в согласии с формулой (75).
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 113 Из равенства (77) видно, что если интегральная функция распределения F(x) непрерывна, то стремится к 0, когда S приближается к а, а потому вероятность точного равенства х = а равна нулю; иными словами, допущение, что функция F(x) непре- рывна, означает, что равенство х = а не может быть эксперимен- тально установлено. Следовательно, наоборот, если равенство х = а может быть математически точно осуществлено, то значение а является точкой разрыва непрерывности для функции F(x). 3. В дальнейшем мы будем почти исключительно иметь дело с задачами, в которых функция F(x) непрерывна. Из случаев, когда функция F(x) прерывна, т.-е. изменяется скачками, мы остановимся лишь на одном, который имеет большое практическое значение. Пусть, например, F(x) ~ 0 при х < 0, F(x) —- при 0 < х < 1, о F(x) = -^- при 1^Сх<2, 2 F(x)=— при 2<х<3, о F(x) = 1 при 3 х. Графически функция y=^F(x) представлена на фиг. 3 ступен- чатой ломаной линией: при этом замечаем, что = 0, если обе 0 12 3 Черт. 3. абсциссы а и соответствуют точкам нашей линии, находящимся на одной и той же горизонтальной ступени; напротив, если между а и р находится одна из точек разрыва (0, 1, 2, 3), то, как бы мал ни был промежуток оф, вероятность Р$ точке А находиться в этом промежутке имеет вполне определенное значение, равное Теория вероятностей. 8
114 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ скачку функции Л(х) в соответствующей точке разрыва; поэтому точка А может занять только 4 положения: 0, 1, 2, 3, и вероят- ность каждого из этих положений равна соответственному скачку функции Л(х) в этой точке, а именно: ~ ~» о О 1 1 6 ’ 3 Подобную же ступенчатую ломаную линию (у которой верхняя ступень находится на высоте, равной 1) мы получим каждый раз, как число х может приобретать лишь конечное число значений. Если, например, х есть число появлений события А при п опы- тах, то функция F(x) имеет п 1 точек разрыва непрерывности; О, 1,. . /г, соответствующих всем возможным значениям величины х, при чем скачок вверх в точке разрыва должен быть равен вероят- ности (53) равенства х = т, т.-е. С™pmqn~~m, где р есть вероятность события А в каждом опыте. Аналогичными свойствами прерывности обладают также функции распределения F(x), соответствующие, например, вероятностям дереву данного рода в данных климати- ческих условиях принести то или иное число х плодов, или жи- вотному данной породы родить в течение года число х детены- шей и т. п. Если, как в примере с числом появлений события при повторе- нии опыта, число п точек разрыва непрерывности становится велико, то, принимая во внимание, что высота нашей ломаной линии не превышает 1, заключаем, что с увеличением п скачки становятся вообще весьма малыми. Так как, с другой стороны, при высоте линии, равной единице, естественно, для наглядности чертежа, не растягивать его слишком в ширину, а выбрать мас- штабы для измерения абсцисс и ординат так, чтобы ширина и высота чертежа были более или менее одинаковы, то с увеличе- нием п не только высота, но и ширина каждой ступени соответствую- щей ломаной линии будет становиться очень малой, и таким обра- зом, практически, наша ступенчатая линия будет сливаться с некоторой непрерывной, плавно поднимающейся кривой. Благодаря этому изучение наиболее интересного случая, когда число точек разрыва непрерывности прерывной функции F(x) велико, сводится обыкновенно к иссле- дованию предельного случая, когда функция Л(х) непрерывна. В дальнейшем мы неоднократно встретимся с подобными примерами.
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 115 4. Допустим теперь, что интегральная функция распределения вероятностей F(x) непрерывна. Кроме того мы предположим, что внутри весьма малого промежутка распределе- ние вероятностей очень мало отличается от равно- мерного. Иными словами, полагаем, что р'=т-^)=(^-«)№)-+-], (80) где г может стать произвольно малым, если р — д взять доста- точно малым, т.-е. допускаем, что существует пред. (79) 3~ 7. Р Я Функция /(х), которая является производною функции F(x) и, очевидно, не может быть отрица- тельна, называется плотностью распределения вероятностей, или дифференциальной функцией распределения вероятностей. Равномерное распределение вероятностей на данном отрезке характеризуется, как видно из (78), постоянством плотности распределения вероятностей на этом отрезке. Следует заметить, что дифференциальная функция распределения вероятностей /(х) (в противоположность интегральной функции F(x), которая никогда не превышает единицы) может получать сколь угодно большие положительные значения и даже не исклю- чена возможность того, что в некоторых точках функция f(x) бес- конечно возрастает. Если, например, на отрезке 01 F(x)~y^x, то f(x') = F\x)~—становится бесконечной при х = 0. 2 у х Поэтому графическое изображение плотности распределения вероятностей /(х) приводит к кривым гораздо более разнообразных видов, нежели график функции F(x); в частности, в только что указанном примере, где /(х)=—бесконечно возрастает при 2 у х х = 0, кривая j/=/(x) имеет прямую х = 0 асимптотою. Вслед- ствие этого на практике обычно пользуются графиком функции /(х), который гораздо рельефнее, чем график интегральной функции F(x), характеризует распределение вероятностей вели- чины х.
116 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ Обе линии у — f(x) и у = р(х) тесно связаны между собой, и по одной из них легко восстановить другую. Действительно, из того обстоятельства, что f'(x)=/(x), (79 bis) заключаем, что точки обеих кривых Л41 и М с одинако- выми абсциссами характеризуются тем, что орди- ната первой равна тангенсу угла ср, который обра- зует касательная в точке М ко второй (интегральной) кривой с осью абсцисс. Если, например, графиком интегральной функции распределения является ломаная непрерывная линия у — Р(х) (черт. 4), то плот- ность /(х) распределения вероятностей постоянна в каждом из про- межутков между двумя ее соседними вершинами, изменяя свои значения скачками при переходе из одного промежутка в следующий- В этом случае формула (80) приобретает вид = = (80 bis) если только f(x) сохраняет постоянное значение в интервале от а до р, т.-е. вероятность точке А с абсциссой х оказаться внутри про- межутка оф измеряется площадью прямоугольника, имеющего основанием этот промежуток, а высотой /(а); этой же вели- чине равен и соответствующий подъем Д(^) — Д(а) ломаной линии
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 117 у — F(x) при переходе от абсциссы а к абсциссе [L Так как в данном случае любой промежуток 1т состоит из конечного числа интервалов, в каждом из которых плотность /(х) сохраняет посто- янное значение, то мы находим что вообще вероятность того, что I х < т, равна Р™ = ВС = площ. [lEFGHKLMNPQm\, т.-е. измеряется суммой площадей всех прямоугольников, построен- ных на основании 1т и ограниченных сверху ломаной линией _у=/(х); этою же площадью измеряется и увеличение F(m)— F(l) = BC ординаты ломаной линии y = F(x). Черт. 5. К тому же заключению приходим, какова бы ни была функция /(х) и соответствующая ей интегральная функция распределения вероятностей F(x), которые можем рассматривать как пределы только что рассмотренных ломаных линий, когда интервалы между двумя вершинами стремятся к 0, так что число их неограниченно возрастает. Действительно, согласно основной теореме интеграль- ного исчисления, равенство (79) равнозначно равенству F(m) — F(l)=^ f(x)dx, (81) де вторая часть равенства (называемая определенным интегралом функции /(х) между пределами I и т) представляет площадь, огра- ниченную слева и справа прямыми х = 1 и х = т, снизу осью абсцисс и сверху линией y = f(x) (черт. 5). В частности, площадь
118 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ бесконечно тонкого прямоугольника, имеющего основанием dx (дифференциал х) и высотой /(х) (плотность вероятности), равная произведению /(х) dx, представляет вероятность Р* + dx = dx) — Л(х) = /(х) dx того, что точка А (подчиняющаяся указанному закону распределения вероятностей) окажется в бесконечно малом промежутке (х, x^-dx). Обычно закон распределения вероятностей,, которому подчи- няется точка Д, характеризуют функцией /(х), которая, согласно вышеизложенному, не может быть отрицательной и должна удо- влетворять лишь одному условию, что /(х) dx = пред. /--СО, т — СО -00 f(x)dx = 1, (82) так как, по предположению, точка должна находиться где-то на оси абсцисс (— ОО < х < СО), т.-е. ЦОО) — — ОО) = 1. Кри- вую, изображающую распределение плотностей вероятностей _у=/(х), называют для краткости просто кривой распределения вероятно- стей, Но необходимо хорошо усвоить, что ординаты /(х) отнюдь не представляют вероятности точке А иметь абсциссу х (вероят- ность такого точного совпадения теоретически равна нулю): для получения графического изображения вероятности Р™ точке Д с абсциссой х находиться в промежутке 1т нужно измерить пло- щадь, заключенную между кривой _у=/(х), осью абсцисс и пер- пендикулярами к последней, восставленными в точках I и т, равную /(х)г/х. (81 bis) Если точка А не может находиться вне отрезка (а, ^), то /(х)=0 при х<^а и при х > В этом случае условие (82) превращается в условие /(х)б/х=1, (82 bis) d а СО ра (* так как имеем тождественно I f(x)dx= 1 /(х) dx = 0. Предполо- —со b
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 119 жим, например, что точка А должна непременно находиться на отрезке 01 и плотность вероятности на этом отрезке определяется функ- цией /(х) = 2х. Условие (82 bis), которое в данном случае полу- чает форму 1 /(х) dx = 1, J о соблюдено, так как I 2xtfx=l. Вероятность точке А оказаться J о в промежутке (а, р) равна площади трапеции 2х dx — 82 — а2 = (р — а)(Р -ф- а), м а которую легко получить при помощи элементарной геометрии, не прибегая к интегральному исчислению. (В данном случае F(x)~x2 на отрезке 01.) Вопрос о том, кйкова в каждом частном случае функция /(х) распределения вероятностей, является одной из важнейших задач теории вероятностей и ее приложений, которую мы впоследствии исследуем более подробно. Сейчас заметим лишь, что если нельзя указать определенного конечного отрезка, внутри которого должна находиться точка А, так что абсцисса ее х может получать сколь угодно большие как положительные, так и отрицательные значения, то все же необходимо, чтобы функция /(х) стреми- лась к 0, когда х безгранично возрастает, ибо в противном случае мы имели бы со j f{x)dx = 00, -со и, следовательно, условие (81) было бы нарушено. В частности, равномерное распределение вероятностей на всей бесконечной оси, очевидно, невозможно. Пусть, например, из некоторой точки В, находящейся на рас- стоянии R от ,оси абсцисс, проводится в произвольном напра- влении прямая ВСА (можно предположить, например, что точка В является центром циферблата хронометра, а прямая ВС определяется положением стрелки хронометра, соответствующим моменту С какого-нибудь случайного явления), которую мы продолжаем в ту или
120 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ другую сторону до ее пересечения с осью абсцисс в точке А. В таком случае, принимая за ось ординат перпендикуляр, опущенный из В на ось абсцисс, и обозначая через 6 угол, образуемый прямою ВСА с осью ординат ВО, видим, что угол 6 всегда получает зна- тг , тг чения от----— до * ПРИ этом> направлений, вероятность того, что % ввиду равноценности всех равна ——• Но, тг когда f) удовлетворяет указанному условию, абсцисса х точки А удовлетворяет неравенствам 7?tg90<x</?tg91; о к поэтому, в частности, полагая и0 = — —, находим, что ность неравенства х < /? tg О равна — фу- Следовательно, полагая A>tg61 = x] тг вероят- (откуда =arctg -77), находим, что вероятность В(х{) неравенства х<^хг *\ / 1 х 1 равна /7(х1) =—arc “FTТГ’ п°этому, пользуясь формулой (79), заключаем, что плотность вероятностей для точки А 1 Г7' (83) очевидно, стремится к 0 с возрастанием х и удовлетворяет усло- вию (82). Функция/(х), имеющая наиболее важное теоретическое значение и многочисленные практические применения, соответствующая так на- зываемому нормальному распределению вероятностей, имеет вид где k — некоторая постоянная величина. В этом случае со j /(х) dx= 1, —со
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 121 так как известно, что ' х* 2 °? г ЛЛ' = ]/ттгк —bo и вероятность Р^ того, что х заключен между а и равна ,3 а2 //=^)-Г(а) ’ 1 e~^dx. 5- Понятие математического ожидания без особых затруднений распространяется на случаи, когда неизвестная величина может полу- чать бесчисленное множество различных значений. Для большей отчетливости мы ограничимся предположением, что плотность /(х) распределения вероятностей различных значений х конечна и непре- рывна; кроме того допустим сначала, что f(x) отлична от нуля только на некотором данном конечном отрезке (а, А), т.-е. что х должен удовлетворять неравенствам а х Ь. В таком случае математическое ожидание х определяется как предел, к которому стремится сумма 2) Л = 21рГ + 52р^4--'+2,р/ + 1 + ---Г2Х,1 = ь = (84) а ’) Действительно, полагая оо оо оо оо e~x'dx . f e~y-dy — е'~(х“ y^dx dy — — ОО -’ 00 — 00 — 00 2- ос оо — e~~''2pdpdb —2г е~?2р dp - т:. о о о Следовательно, /= С'л. -) 1п представляет собой математическое ожидание, которое имел бы х, если бы он мог получить только одно из п значений: ‘ при чем вероятность значения Е,- равна РХ/+1.
122 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ где а = Хо < хг < х2 < • • • < Xj < х,+1 < • • • < хп < хп v 2 Ь представляют собой точки деления отрезка (a, b), px‘~ri — вероят- I ность того, что х заключен в промежутке (хр х/+1), и, наконец, — произвольное число, удовлетворяющее неравенству х1 xz_L], когда все разности (х/+1 — xz) равномерно стремятся к нулю. Принимая во внимание, что в силу равенства (80) и непрерывности функции/(х) где е (£.) равномерно стремится к нулю, когда равномерно стремятся к нулю все — xz), можем написать: 4=Vtfo) (xi — «) + Сч — хГ Н— • • • + ШУ Ж, -*/) + • • ’ЖЖ) V - х„) + гп, полагая = £0 £ (£0) (х2 а) "4" £ (£|) ' ----Н £ (£Z)(A7z^i Xz.) + • . . ~п £ (qj (Ь — Х„). Следовательно, .^ь мат. ожид. х = пред. /л=| xf(x)dx, (84 bis) а так как пред. гп = 0. Определяя аналогичным образом математическое ожидание любой непрерывной функции ср (х) неизвестной величины х как пред. ср (£.) Р 2-1-1, находим х I М. О. <р(х) = 1 ср (х)/(х) <Ух, (85) а где /(х) есть плотность распределения вероятностей величины х. В частности, при равномерном распределении вероятностей на отрезке (а, Ь), т.-е., если /(х)— М. О. х=——1—I х dx~a ' b - а ] 2 а М П 2 1 С* 2 Л 1 Й3-а3 62 + «(’ + «2 М. О. х2 = -----| х2 ах — ------- - -—------!— ------ . b — а \ b — а 3 3
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 123 Предположим, например, что вероятность новорожденному уме- реть, не достигнув возраста х, равна F(x); тогда вероятность уме- реть в возрасте х, где х0 х < х2 равна F(х,) — F (х0) = J /(х) dx, Л'о где F1 (х)=/(х). Математическое ожидание продолжительности жизни, или средняя продолжительность жизни, для рассматриваемой группы новорожденных равно М. О. х = /И = х/(х)^х, ^0 где Й — какое-нибудь число (например 200 лет) достаточно большое, чтобы быть уверенным, что никто этого возраста не переживет, так что ,2 I f(x)dx—l. J о (Понятно, что без ущерба для правильности написанных формул можно поставить СО на место Й, так как, по предположению, /(х) = 0 при х>Й.) В согласии с данным выше общим определением математиче- ского ожидания величины х, которая изменяется непрерывно, можно дать приближенное значение числа /И, если известны вероятности pk = F(k-]-V) — F(&)— I f(x)dx новорожденному дожить до це- J k лого числа k лет и умереть, не достигнув (£-[- 1) лет. Действительно, kpk ~k\ f (х) dx<^\ х f (x) dx d k k J k поэтому Mo — Pi + 2p2 + • —г kpk <C Л4 <C + + • • • +(^4~ 1)P*+ • • • = MV Величина Af0 (представляющая математическое ожидание целого числа лет жизни индивида рассматриваемого класса) носит название
124 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ укороченного математического ожидания продолжительности жизни новорожденного, при чем, очевидно, М — Мо<1, так как 7141 —Рх Ч--------------1*/^ + * • * = 1’ Обычно за приближенное значение М принимают величину ,/И0 -j- -i-, которая соответствует допущению, что плотность вероят- ностей /(х) сохраняет постоянное значение pk при k<^x Нетрудно проверить, что M(Ji) I xf(x) dx 7 и h представит математическое ожидание продолжительности жизни для индивида, который уже достиг возраста h. Формулу (85) можно записать и в таком виде i ^(x)f(x)dx М. о. ------------- 1 f(x)dx а (85 bis) принимая во внимание, что знаменатель последнего выражения ра- вен 1. Заметим, что формула (85 bis) остается в силе, если заме- нить в ней f(x) через 1/(х), где А— произвольная постоянная вели- чина, так как при такой замене числитель и знаменатель окажутся умноженными на одно и то же число а; поэтому формулой (85 bis) можно пользоваться и тогда, когда функция распределения /(х) известна только с точностью до постоянного множителя. Предположим теперь, что х может получать какие угодно зна- чения от —ОО до-|-ОО, при чем со /(х) dx ~— 1. - Ъо (82)
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 125 ь Если стремится к определенному пределу, когда а г а и b стремятся соответственно к —ОО и —]—СО, а интервалы (х/+1— стремятся к нулю, то Ь v ''ь М. О, х —пред. Л/+1 = пред. xf(x)dx — а 1 а СО = j xf(x)dx. (84 ter) — со Таким образом условие, необходимое и достаточное (полагая функ- цию /(х) непрерывной) для того, чтобы мат. ожид. х имело определенное значение, состоит в том, чтобы х/(х) dx стремился а С OD к пределу при а = — ОО, Ь~ОО, т.-е. чтобы I xf(x)dx имел J -оэ смысл. Если, например, f(x) — —-=, то /п М. О. х = х е~~л* dx= пред. п---- -ОО Напротив, если, как в ранее рассмотренном примере (83), /w = KhK’ 1 Г go V /7 г 1 М. О. — ——-= пред. — [log (1 — Ю- log (1.Да2)].. к -Д' а=-со2тт •J ш Ь=со и мы видим, что, в зависимости от того, какая из величин Ь2 или а2 будет быстрее возрастать, пред. |log(l-)-£2)— log (1 -1- а2)] — , 1Э-/>2 Ь2 — пред, log t пред, log^
126 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ может быть равен любому положительному или отрицательному числу. Поэтому в данном случае понятие мат. ожид. х не имеет смысла. Аналогичным образом получаем, вообще, f со М. О. <p(x)=i ^(х)/(х)б/х, (85 ter) J --со где /(х) есть плотность распределения вероятностей величины х. Разумеется, выражение (85 ter) может [при данном /(х)] иметь смысл для одних функций (р(х) и не иметь смысла для других. Например, при /(х) — применяя интегрирование по I тг частям, находим 1 г со ___1 г* со М. О. х2 1 X2e~^dx =---------------------- xde~xi~- k ТГ J — 00 2 ТГ J cc Читатель проверит без труда, что при /(х) = — 1 1 +х2 М. О. х2 бесконечно велико, т.-е. не имеет смысла. Заметим, что свойства математических ожиданий, установленные в главе III, распространяются и на рассматриваемые здесь случаи, когда неизвестные величины могут получать бесчисленное множе- ство различных значений. Это утверждение очевидно по отношению к лемме Чебышева т), где в нашем рассуждении никакой роли не играет число значений, принимаемых величиной х; обобщение же теоремы сложения математических ожиданий получается из заме- чания, что, вообще, согласно данному нами определению М. О. х = = пред. М. О. £, если Е имеет пределом х. Следовательно, если теорема сложения справедлива для величин Е и т(, имеющих соот- ветственно пределами х и у, то М. О. (х —j—у/) — пред. М. О. (S-h7!) — — пред. [М. О. Е-|-М. О. rj — М. О. х-|-М. О. у. 9 См. стр. 100.
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 127 Упражнения. 1) На гладком горизонтальном полу начерчены отстоящие друг от друга на расстоянии 2я параллельные прямые. Требуется опреде- лить вероятность Р того, что монета радиуса R < а, брошенная на пол, заденет одну из указанных прямых. g Ответ: Р = —Действительно, обозначая через х расстояние от центра монеты до ближайшей к ней прямой, замечаем, что 0 х а, при чем все значения в этом промежутке можно считать одинаково вероятными. Благо- приятствовать пересечению монеты с прямой будут все значения хС/?; п * следовательно, Р —- — . а 2) На тот же пол бросают проволочную конвексную фигуру (много- угольник) Н, периметр которой равен 2s, при чем наибольшая ее ширина менее 2а (так что Н не может одновременно пересечь двух параллельных прямых). Какова вероятность Р того, что Н пересечет одну из данных парал- лельных прямых? £ Ответ: Р = —. Для доказательства полагаем сначала, что Н есть г.а многоугольник с п сторонами, длины которых обозначим через 2/ъ • • • , 2/л_; в таком случае вероятность х;, что сторона, длина которой равна 2/л пересечет одну из данных прямых, пропорциональна длине этой стороны, так как, деля какой-нибудь отрезок АВ на равные части, можно считать одинаково вероятным, что точка пересечения АВ с данной прямой будет находиться на любой из равных частей. Следовательно, — 2а/;> где а есть одна и та же (пока неизвестная) постоянная величина, не зави- сящая от С другой стороны, замечая, что благодаря конвексности много- угольника Н пересечение его с данной прямой обусловлено тем, что две из его сторон 2/z и 2lk одновременно пересекаются с этой прямой, находим, обозначая через xik^xki вероятность такого совмещения, Р [ (Хг, -j- xi3 + • - • -г Х1м) 4 iX'21 4 *23 т ••1 -г J + •••.! — = 2~ Х~ ’ “ ’ 4 772 я + 4 + 1 • 4" hi) я5> так как 4* х^ + 4* хт~ xi- Так как равенство P~~as не зависит от числа и размеров сторон, то оно справедливо и для криволинейного конвексного контура, который всегда можно рассматривать как предел многоугольника с бесконечно возрастающим числом сторон. В частности, эта формула применима и к окружности, для которой мы нашли выше 2г. R s Р ~ ~; Но так как периметр окружности 2s — 2 г./?, то Р = —; отсюда d 2г. а гл следует, что а = Поэтому, во-первых, доказана для любого контура формула Р-~ и, во-вторых, установлено, чго вероятность х отрезку длины 2/ (не превышающей 2а) пересечь одну из рассматриваемых параллельных
128 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ 21 „ прямых равна х = — (последний результат дает решение задачи, известной под именем задачи Бюффона), 3) Берутся произвольно 2 точки на окружности; какова вероятность Р того, что хорда, соединяющая их, меньше радиуса /? окружности? Ответ: P = Действительно, без ущерба для общности можно о считать одну точку определенной; полагая все положения другой точки на окружности равновероятными и замечая, что благоприятными будут ее положения на соответствующей дуге, равной окружности, находим о р=т 4) Определить математическое ожидание расстояния d между двумя точками А и М окружности радиуса /?, полагая распределение вероятностей на окружности равномерным *)• 4/? Ответ: мат. ожид. d~*—.Действительно, считая одну точку Л определенной, находим, что М. О. d = О 4/? _ cos -- d'J = Точно так же 2R* получим: М. О. d' О cos2 db = 2R~. 5) Вычислить М. О. х*, если вероятность, что х<хь равна <) Это допущение соответствовало бы, например, случаю, когда обе точки представляли бы собой моменты наступления двух независимых собы- тий, отмечаемые хронометром. Но в других опытах может оказаться, что это допущение не осуществляется. Действительно, положим, что (как в первой задаче) бросают монету или круглый диск радиуса /? на пол, на котором начерчены параллельные прямые, отстоящие друг от друга на расстоянии 2/?, так чго диск пересекает, вообще, одну и только одну из наших прямых, отрезая таким образом на этой прямой хорду определенной длины (от 0 до 2R). Здесь, как и в первой задаче, естественно принять, что любые положения центра диска между двумя прямыми равновероятны, а потому, принимая во внимание, что хорда будет менее радиуса /?, если расстояние центра до ближайшей прямой больше, чем 7?/3 заключаем, что при указан- ной постановке опыта вероятность, что хорда меньше радиуса, равна 1— , т.-е. значительно меньше, чем при сделанном выше допущении, соответствующем опыту с хронометром.
МЕТОД ПРЕДЕЛОВ И ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ ВЕРОЯТНОСТЕЙ 129 Ответ. М. О. хА’^=0, если k —нечетное; М. О. х-т =1-З-•• (2/?z —1)-а2га. Первое утверждение вытекает из того, что плотность распределения вероят- ностей есть четная функция. С другой стороны, М. О. х'Ьп — —х1т е 231 dx — х~т —? 233 — со ОС (2m - 1) з2 м. О. А2™”2, откуда последовательной подстановкой получаем указанную формулу. 6) Закон распределения вероятностей, одинаковый для точек А и А, на отрезке LM симметричен по отношению к середине О отрезка. Пусть Р будет вероятность точке А (как и точке >Ц) оказаться внутри промежутка ВОС, при чем ВО — ОС — полагая где R есть вероятность, что середина N отрезка АА{ упадет внутри промежутка ВОС, показать, что , 1 х > а + - - Отв.: Действительно, N окажется между В и С, если А и At нахо- дятся одновременно на ВО или ОС, а также и во всех случаях, когда точка О находится между А и А^, поэтому R •; 0ТКУда х > г~~р + = а + -т • Отсюда следует, что, обозначая через Rm вероятность средней арифметиче- ской 2т точек, подчиняющихся тому' же самому закону распределения, У? /и оказаться внутри ВОС, имеем --------™, 1 2 т.-е.. при возрастании т, пред. Rfn — 1 Теория вероятностей. 9

СПОСОБ КОНЕЧНЫХ РАЗНОСТЕЙ И МЕТОД ПРОИЗВОДЯЩИХ ФУНКЦИЙ 131 либо он выиграет наступающую партию, и совместно с этим обстоятельством будет разорен игрок В, либо он проиграет насту- пающую партию, и, все же, в конечном итоге будет разорен В. Первое из этих совмещений, согласно нашим обозначениям, имеет вероятность рРу^г [так как, в случае выигрыша партии, у игрока А окажется (у ф-1) рублей], второе же совмещение имеет вероятность 1 = (1—р)Ру_г [так как при проигрыше наступающей пар- тии у игрока А останется (_у—1) рубдей]. Уравнение (86) называется уравнением в конечных разностях (или рекурентной формулой). Для решения его напишем уравне- ние (86), отняв из обеих частей равенства Р>,_1-)-(1—р)Ру в виде (1 -/0 (Ру - Ру-т)=Р (Ру+1 - РуУ, полагая затем получим (1 -p)Zy=pZy+r (87) Таким образом, если р — то Zy Zyyl /г, где h — некоторая постоянная, не зависящая от _у. Следовательно, в этом частном случае =7^-ф-А; поэтому числа Ру являются членами арифметической прогрессии, при чем, так как Ро = О, то Px=h, и вообще Py—yh; но, замечая, что Рд+Й=1, заключаем, что 1 = {а -ф- b)h, откуда /г = Следовательно, Р —_________, а а -ф- b а т.-е. вероятность разорения игрока В в данном случае равна —j—- > л b и вероятность разорения А равна — мы получили таким обра- зом результат, найденный раньше (стр. 98) способом математиче- 1 ских ожиданий, так как при р = — рассматриваемая игра без- обидна. 9*
13! ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ 1 2 Переходим теперь общему случаю, когда р . Из (87) к видим, что Zy представляет собой член геометрической прогрессии 1 —Р Q с знаменателем-----= —• поэтому, складывая равенства Р Р z. = pr z2 = p2-p„...,zy=Ру-Ру_., находим: ₽,-•z. -i- z, - + z=z, [i + L + ... + (ty (88) и, в частности, Р (88 bis) Деля (88) на (88 bis), получаем наконец поэтому (89) Аналогичным образом для вероятности разорения А получим: Нетрудно проверить, что Положим, для определенности, p^>Q и допустим, что капитал b игрока В чрезвычайно велик, так что теоретически можем поло-
СПОСОБ КОНЕЧНЫХ РАЗНОСТЕЙ И-МЕТОД ПРОИЗВОДЯЩИХ ФУНКЦИЙ 133 / д \a-\~b жить Л = 00. В таком случае I - I имеет пределом 0, и фор- мула (89) принимает вид / <7 V пред. Р = 1 — ~- | у \Р / откуда / q \а пред. Q = — Следовательно (в противоположность безобидной игре), если игра выгодна для Д, благодаря тому, что p^>q, то, при сколь угодно большом капитале у его про- тивника, разорение А не достоверно; напротив, если его собственный капитал достаточно велик, то вероятность Q его разорения ничтожна, и, про- должая игру достаточно долго, игрок А имеет много шансов выиграть сколь угодно большую сумму денег \ ’ 3 / Если, например, р = — (так что матем, ожид. выигрыша для А 4 равно ---------у—* 1 4 4 рубля = 50 коп.), то при капитале а=10 рублям вероятность Q его разорения равна между тем как вероятность выиграть произвольно большую сумму денег равна />5^0,999 983. Сохраняя предположение p^q (т.-е. полагая игру выгодной или безобид- ной), рассмотрим практически важный вопрос, какова вероятность Q разо- рения игрока А, имеющего капитал а, при игре с безгранично богатым противником, если число партий не может превысить дан- ного значения/?. Разорение А может наступить после а партий, если все партии были для него неудачны, после (а + 2) партий при одной удач- ной и, вообще, после (а 4- 2?) партий при z удачных партиях, где a -f- 21^ п. Вероятность, что из (а 4- 2/) партий (л-J-z) неудачны и / партий удачны для А, равна однако не всякая серия из таких (а-г 2z) партий может осуществиться, а только .акая, в которой излишек проигранных партий над выигранными ни разу до конца не достигнет а. (так как иначе разорение наступило бы еще раньше). Поэтому, изображая серию из (zz-{-2z) партий в виде ряда букв ААА ... АААУ где А соответствует выигрышу, а А — проигрышу,
134 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ замечаем, что лишь те серии из (а + 2/) букв осуществятся, в которых, считая буквы справа налево, число А всегда больше, чем число А (ибо, если бы число А оказалось равным числу А, то, отбрасывая всю эту последнюю группу букв, мы получили бы слева меньшую серию, где излишек А над А также был бы равен а); как было показано (стр. 65), число таких серий относится к общему числу серий, как а к (а 4- 2/). Таким образом вероятность разориться как раз после (а -1- 2г)-Й партии равна -I i a^t л й • (й 4“ z “h 1) ’ ’ ’ (й ~г — 1) / a-L/ Са + 2iP Ч «-Г* =-----------Л------------Р 4 ‘ Поэтому вероятность Q разорения игрока А в течение п партий равна сумме членов указанного вида Q—яа J 1 + apq + -^44 '3l/’2 + + + Д(д + ^ + 1) (а + 2/-1)+ . ф п — а п — а — 1 где наибольшее значение i равно целому числу—-— или --* Например, если п 10, Я“3, р q = то в этой безобидной игре- вероятность разорения игрока А равна 0-U1H1+3 1 । 3’6И2| 3-7-8 /1 у 1 11 ^~\2/ L + 4 ' 2! \4 ) + 3! \4/ J “32* 2 1 Если п= 10, :2, р—^-^ q = , то в этой выгодной игре вероятность 3 о разорения VFl । oRR । 2‘5/2Vi 2’6’7/2\3, 2-7-8<9/2У1 4 259- [1 + 2 V3 Дз/+ 2! Ш + 3! \9? 1 4! Ш J “ 19 633 Но, между тем как в первом примере с возрастанием п вероятность разорения стремится к достоверности, во втором она приближается 1 лишь к 4 2. Пример второй. Даны два ящика с белыми и чер- ными шарами; в первом ящике, при общем числе шаров 7V, находится М белых шаров, а во втором ящике имеется М2 белых шаров при общем числе шаров. Производится ряд опытов, связанных между собой следующим образом: из обоих ящиков выни- мается одновременно наудачу по 1 шару, который кладется в другой ящик; перемешавши шары в обо- их ящиках, повторяют тот же процесс двойного
СПОСОБ КОНЕЧНЫХ РАЗНОСТЕЙ И МЕТОД ПРОИЗВОДЯЩИХ ФУНКЦИЙ 135 перекладывания I раз. Требуется определить мате- матическое ожидание числа белых шаров в первом ящике по окончании указанных I опытов, Если Xk есть мат. ожид. числа белых шаров в первом ящике после k опытов, a Yk— мат. ожид. числа белых шаров во втором ящике, то, во-первых, равна вынут ожид. (при чем Хо = /И, Fq —и, во-вторых, при опыте вероятность pk±lf что из первого ящика будет вынут белый шар, X рм = -^, а вероятность Pft+1, что из второго ящика будет у белый шар, равна РА+1 = —Но, с другой стороны, мат, числа белых шаров, вынутых из первого ящика в течение k i—k опытов, по формуле (64) равно ру р2 4~ • • • Pk = S А‘> а мат- ожид. числа белых шаров, перешедших из второго ящика в пер- /—k вый, равно Ру 4- Р2 • • -j- Pk= У, Р,\ следовательно, ,=1 l-k i=k !=k /V У M-j-My — Xt y N Если заменим в этом равенстве k через &4~1> то к сумме, стоящей во второй части, прибавится еще одно слагаемое M-\-My — Xk xk ---!--i----=----=; поэтому, вычитая из этого нового Ny N равенства предыдущее, получим: xk А + 1 k N (90) Из этого уравнения в конечных разностях можем последовательно определить Xlf X2J..Х£, так как нам известно, что XQ~M
136 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ таким образом, полагая в (90) £ = 0, получаем сначала Хг — М~^ । - “И N' /V ’ полагая затем &=1, находим: м\/ 1 х Д1 ~ Д 1 \ I N / ' ДА; и т. д. Но удобнее сразу дать формулу для каково бы ни было число k. Прием, который мы для этого сейчас применим, пригоден для решения всякого линейного уравнения в конечных разностях первого порядка с постоянными коэффициентами вида 1 — а bXk- (91) Замечаем сначала, что уравнению (91) удовлетворяет, в частности, постоянная величина Х=~-\ поэтому, если бы было дано, что Хп= — , то мы имели бы также X. = —, X., = -- , X. — • и b 1 b “ b R b Но это решение есть частное решение, соответствующее лишь предположению, что = положим, вообще, Хк — -j- xk> тогда, подставляя это значение (и соответствующее значение Xk±y — х^+1) в уравнение (91), получим: xw ~xk = a~b(^--'r= — Ьхк’ т.-е. xw =(1 — b)xk, . откуда заключаем, что xk есть член геометрической прогрессии с знаменателем (1 — Ь); следовательно, х*=(1—6)*х0 и ^ = у+(1--b)kx0, где х0 произвольная постоянная величина. Но, так как, в част- ности, Xq — -? -j-x0, то получаем общую формулу = f(92)
СПОСОБ КОНЕЧНЫХ РАЗНОСТЕЙ И МЕТОД ПРОИЗВОДЯЩИХ ФУНКЦИЙ 137 дающую решение уравнения (91), каково бы ни было данное зна- чение Хо. Заметим, что если 0<V<2, то Xk имеет всегда пре- (1 А делом —, когда k неограниченно возрастает, так как (1 — by стремится к 0. -4- Л4 В рассматриваемом нами уравнении (90) а = —~—1 г 1 s 1 а 1 1 1 1 гИ-тГ’ поэтому —~ = Д М 1 — Ь=\——---------------7 N 1 М ЛГ + М /V М V ,r V а лл ^ + ^2 xr — NM. Ал — Л"/, Ха-7-—М-!—Д /V— —следовательно, и 0 b ^+^1 Х_М + М. , 1 ' k ” V 1 V —j ♦ (92 bis) В частности, если zWAj —МИ1 = 0, т.-е. М М, если — = —а, что zV zV3 означает, что пропорция белых шарэв первоначально одна и та же в обоих ящиках, то, каково бы ни было число k перекладываний, мат. ожид. числа белых шаров к W+W, N=M остается неизменным. Во всяком случае, пред. Xk / N \ М 4-/И а следовательно, пред. Yk = (/И ^i) ( 1 — ТГТ~кТ I ~ k 1 1 \ zV-4-М Р пред. X. пред. К следовательно, -----——---------——так что вероятности по- 7V М явления белого шара из обоих ящиков стремятся стать одинаковыми при возрастании k. Допустим, например, что в первом ящике сначала были только белые шары (М = 7V), а во втором ящике — только черные (/И]=0); тогда __ А2 . W, / 1 IV
138 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ Если бы, кроме того, было бесконечно велико, т.-е. если бы взамен любого шара, вынутого из первого ящика, на его место клался всегда черный шар1), то мы получили бы так как / 1 V Xk = N 1 — — , * \ 7V/ N2 * о AW, пред. — —— = 0, пред, — (92 bis) В последнем случае, если N и k велики, формула (92 bis) может быть заменена приближенно фсрмулой _ k Xk^Ne 3. Пример третий. Производится ряд опытов, при чем известна вероятность ^наступления события А в /и-м опыте в случае £(&< т) появлений события Л в предше- ствующих опытах. Требуется определить: 1) вероят- ность^, что при т опытах событие А произойдет т7 г k ровно k раз; 2) вероятность Р , что для появления собы- тия Л k раз потребуется т опытов; 3) математическое ожидание Mk числа опытов т> которое понадобится для того, чтобы Л произошло k раз. Замечаем, что Bk~^ ~ Вk pk -г вК~гГ qb , . (где q — 1 - /? ), (93) m-j-l m 1 ni A l v A-J-l 7 так как для того, чтобы при (т 1)-м опыте событие Л произошло k — 1 раз, нужно одно из двух: либо, чтобы оно произошло k раз при т опытах и снова осуществилось в [т 4~ 1)-м опыте, либо, чтобы событие Л про- изошло (6-^1) раз при т опытах, но не наступило в (т -f- 1)-м опыте. Для решения уравнения (93) применим способ, называемый методом производящих функций. Положим fk (у) = У + в\у + ... + Вкту™ + ...; в таком случае, умножая обе части равенства (93) на у™ + 4, получим: У-Л m-М Г mDk , т 1 В 'у 1 —у у В р.+у В qh. , . m-LJt - tmlk 1 т ну 1 1 1) Рекомендуем читателю в виде упражнения непосредственно решить указанную задачу, которая, в этом частном более простом случае, приводит к уравнению — Xk~-----------вместо уравнения (90).
СПОСОБ КОНЕЧНЫХ РАЗНОСТЕЙ И МЕТОД ПРОИЗВОДЯЩИХ ФУНКЦИЙ 139 Придавая т все целые значения (0, 1, 2, ...) и складывая все таким обра- зом полученные равенства, получим: Л+ 1 О') = У [ Рк fh <У) + Я k+1 Ik 4-1 (У) ] > так как В& ! 0. Поэтому, при f к + 1VJ = l — qk+ly откуда последовательной подстановкой {k~ 0, 1, ...) получаем: WrV+4w_____ A + l^ (1 — ?!>)(!—(1— Чк + ^УУ Но /ow = В(00) + в'^у + ... = 1 + q^y + q* У* + • - • - ; поэтому производящая функция вероятностей В^1 равна f (V) =__________PoPt---Pkyh+1____________ r (1 — qoy) (1 ~ ••• + (94> а именно, если разложить эту функцию по степеням у, то Вк^л будет коэф- фициентом при у1п- Замечаем далее, что Pkf^r ” Bkmpk9 так как для того, чтобы событие А произошло в {k + 1)-й раз, именно при (/?? -1)-м опыте, нужно, чтобы при т опытах оно произошло k раз и наступило в последний раз при (пг + 1)-м опыте. Поэтому, полагая Fk (_у)— -f- Р& у + • • • ~г + - • • , находим: (94 bis) В частности, если pk сохраняет постоянное значение, т.-е. pk~р, то W = (1 Fq-y}k = Pkyk [1 + Ьру + q‘2y2 + поэтому коэффициент при угп равен П* & (& + 1) * * * 1) k m — k pk-1 k т - k, Pm~ P q q точно так же из f(у) - ---^РУУ =ркук [1 -|-(Л + 1) qy + (±+W+2) qly*. -----] а (1 — q У) ' 1 L находим известное нам уже значение pk = (<: 1) т k т-к =ck k m-k' (52у W {tn — k) 1 z v 4
140 ГЛАВНЕЙШИЕ МЕТОДЫ ВЫЧИСЛЕНИЯ Возвращаясь к общему случаю, получим математическое ожидание числа т опытов, необходимых для появления события A k [аз, замечая, что Mk - мат. ожид. т — k Pk. 4 (k -4- \) Pk. , . 4 ... \ т Pk 4 ... ; « k v 7 k ’ 1 tn поэтому ИЗ г 4 , x r.k . . , f l k k- 1 , , г. к m 1 , +---+kPk У [... + mPmy +..., где Р^-.-О при 7 < k, заключаем, что •ИА. /Jl). Но дифференцирование формулы (94 bis) (если заменить в ней k 4 1 через ri) дает fe р' -- РОр<- -Р^-^у р, _ 'Р . 1. k у (1 — Чо у) ••• (1 — Ч/,-!?) I У i— Ч0У ! 1— Я\УГ I Поэтому Если, например (частный случай примера второго), р^ , где п, то математическое ожидание числа выниманий, необходимых для извлечения всех т белых шаров из ящика с п шарами (когда после каждого извлечения вместо вынутого шара обратно кладется черный шар), равно п , п , п т т т — 1 т — 2 ~ ‘ П’ 1 _£ М 1 ~2" ’ ’ ’ * т и при т весьма большом пред. —-—= пред. --------------------------— 1. п log т log т Упражнения. 1) Вычислить математическое ожидание tri* и т\ где т есть число появлений события А при п независимых опытах, если при каждом опыте вероятность А равна р. Ответ: М. О. mA ~ п3 р3 4 Sri2 р'2 q 4 npQ (Q — РУ, М. О. нА tAp* 4 6я3 р3 q 4 ri2р2 q (7q — 4р) 4 npq (1 — 6р^). Для вывода этих формул полагаем f(x) (рх 4 q)n, тогда ff (1) = пр ~~ М. О. /я; /" (1) = п (п -- 1) /4. М. О. т (т — 1); Г" (1) п (п — 1) (п — 2) р3 = М. О. т (т — 1) (т — 2); (IV) f Д1) — п(п — 1) (п — 2) (тг — 3) р4 М. О. т (т — l)(/?z — 2) (т — 3). Требуемые формулы получаются благодаря тождествам т3 = т (т —- 1) (т ~ 2) -г Зт (т — 1) 4 = т(т — 1) (т — 2) (т — 3) 4 — 6 т (in — 1) (т - 2) — 7 т (т — 1) 4 т.
СПОСОБ КОНЕЧНЫХ РАЗНОСТЕЙ И МЕТОД ПРОИЗВОДЯЩИХ ФУНКЦИЙ 141 2) Игрок повторяет большое число п раз невыгодную игру, при которой а есть вероятность проиграть 1 рубль, с < а есть вероятность выиграть 1 рубль и b — 1 — а — с есть вероятность безразличного исхода. Невыгод- ность игры компенсируется тем, что, когда игрок разоряется, он освобо- ждается от платежа при проигрыше, так что тогда а b является вероят- ностью безразличного результата партии, при чем с попрежнему есть вероятность выиграть 1 рубль. Допускаем, что Ph есть предел, к которому стремится вероятность Рп h для игрока иметь h рублей после п пар- тий, если п неограниченно возрастает; требуется определить Ph. Ответ: Ph = (1----) • Действительно, если /С ? -I, то \ а!\ а/ Pfi +1 , h — а Рп , Л + 1 Р п , h A~ с Рп, h -1, и, кроме того, PflJr{ , о « “г &) Рп , о “И а Рп . i- Следовательно (при ft > о> (" -г О Ph-=aPh^ + rPh-ь QTKyW / С ' h ph=A+B\-a) ’ где А и В—постоянные коэффициенты; при этом А -0, так как Аб — GO а В определяется из условия, что ^Ph ~l. о 3) Пусть А и В некоторые 2 из несовместимых исходов опыта Е, имею- щие вероятности соответственно равные а и Ь, где а^>Ь; пусть х > О данное целое число. Требуется определить вероятность Рх, что, при неогра- ниченном повторении опыта Е, когда-нибудь осуществится равенство h— Е.-х, тлх h есть число появлений событий 5, a k—соответствующее число появлений события Д. / b ' х Ответ: Pv= (—) . Действительно, для осуществления равенства ft — k х нужно сначала осуществить h--k = x—1, а затем еще h- k~\, По- этому Рх =р^ • Pv_ t; следовательно, Pv = rv, где л < 1, — постоянное поло- жительное число. Но, с другой стороны, Рх~а Рх + t -f- b Рх_ Н* (1—«—b) Рх\ поэтому к должно удовлетворять уравнению (а + Ь) }х~а \х + 1-^Ь Iх*? откуда (а + b) а = а I2 4- Ъ, и, отбрасывая корень 1=1, находим. 1 = ~ •
ЧАСТЬ ТРЕТЬЯ ЗАКОН БОЛЬШИХ ЧИСЕЛ ГЛАВА ПЕРВАЯ НЕРАВЕНСТВО ЧЕБЫШЕВА И ЕГО СЛЕДСТВИЯ 1. Одной из наиболее важных задач теории вероятностей является установление фактов, вероятности которых весьма велики (т.-е. близки к единице), так что практически их можно считать достоверными. Под общим названием закона больших чисел можно было бы объединить все предложения теории вероятностей, утвер- ждающие наступление некоторого факта Ап с вероятностью, сколь угодно близкой к достоверности, когда число п случайных событий, с которыми связан факт Ап, достаточно велико. Однако обычно в понятие закона больших чисел вносится более опре- деленное содержание. Предположим, что рассматривается весьма большое число п величин х2, . . . , хп, математические ожи- дания которых: М. О. х1 = а1, М. О. х2 = а2>..., М. О. хп — ап известны. Мы будем говорить, что к величинам ,г2,.. ., хп применим закон больших чисел, если вероятность того, что средняя арифметическая из значений, фактически получаемых этими величинами, будет сколь угодно мало отличаться от средней арифме- тической из их математических ожиданий, стре- мясь к достоверности при безграничном увеличе- нии числа п. Иными словами, применимость закона больших чисел к весьма многочисленной совокупности случайных величин xv х2,. .., хп означает, что индивидуальные отклонения каждой из них от соответ- ствующего математического ожидания, происходящие под влиянием не подлежащих учету причин, существенным образом в массе вза- имно компенсируются, так что практически можно быть уверенным в чрезвычайно точном (тем более точном, чем больше число п) совпа-
НЕРАВЕНСТВО ЧЕБЫШЕВА И ЕГО СЛЕДСТВИЯ 143 дении средней арифметической этих величин с вполне определен- ным значением средней арифметической из их математических ожиданий. С наибольшею точностью нивелирующее влияние закона боль- ших чисел обнаруживается в физических явлениях, благодаря нево- образимо огромному числу молекул, находящихся даже в небольших объемах. Закономерности, являющиеся результатом закона больших чисел, здесь настолько поразительно точны, что можно было бы усомниться в методологической допустимости применения к физике понятия вероятности, если бы после постановки соответствующих опытов (движение Броуна) не удалось изолировать сравнительно небольшие количества молекул так, чтобы не дать возможности закону больших чисел совершенно уничтожить эффект индивидуаль- ных случайных колебаний отдельной молекулы. В явлениях общественных и биологических статистический метод во многих случаях оказывает незаменимые услуги. Между тем возможность применения к ним закона больших чисел гораздо более ограниченна, чем в физике, и самые условия применения этого закона также носят более сложный характер. Для выявления таких закономерностей необходимо поэтому прежде всего установить возможно более общие формы закона больших чисел, которые могли бы охватить весьма разнообразные совокупности величин хр х2,..., хл, встречающиеся на практике. Одно из простейших условий применимости закона больших чисел дает доказанная нами раньше (гл. IV, часть 2-я) теорема Бер- нулли, в которой рассматриваются величины xlf х2,..., хп, получаю- щие каждая значение 1 или 0, в зависимости от того, наступает ли или нет событие А в ряде независимых п опытов, при чем вероятность события А сохраняет во всех опытах постоянное значение р; тогда М. О. х. •—р, и теорема Бернулли утверждает, что к величи- нам хр х2,..., хп применим закон больших чисел: действительно, . X, 4- *2 + • • • 4" Хп т в данном случае средняя арифметическая —-— где т есть общее число появлений события А при п опытах, а п средняя арифметическая из их мат. ожид. равна ? — р; по теореме Бернулли, при п достаточно большом
144 ЗАКОН БОЛЬШИХ ЧИСЕЛ следует ожидать с вероятностью сколь угодно близкой к достоверности, что разность между р и /и — будет произвольно мала, п Однако область применения теоремы Бернулли на практике довольно ограниченна, так как независимость опытов и по- стоянство вероятностей, лежащие в основе схемы Бернулли, в дей- ствительности осуществляются очень редко. Весьма общую форму закона больших чисел, которая охва- тывает как частный случай и вышеупомянутую теорему Бернулли, дал Чебышев. Для получения результатов Чебышева нам нужно предвари- тельно установить одно свойство математических ожиданий двух независимых между собой величин. Мы говорим, что две вели- чины х и у независимы между собой, если веро- ятности любого равенства у —с или неравенства a <Z У Л Достаются неизменны, каковы бы ни были сведения означении, которое получилх1). Лемма. Если величины х и у независимы, то мате- мат ематическое ожидание произведения этих вели- чин равно произведению математических ожиданий этих величин. В самом деле, пусть М. О'. х = а, М. О. у = А; допустим, кроме того, что х, равно как у, может получать только конечное число значений, при чем вероятности равенств x = xlt х—х2, х = хп равны соответственно plt р2,..., рп, и, с другой стороны, вероятности равенств у = yv y=yv .,., соответственно равны Р2, Р2,..., Рл. В таком случае, согласно определению математического ожидания, i^n М. О. X = а = ру х, + рг х, -Н . .. + />„ хп = У /Г л;, /-1 М. о. У = А = р. У14- ргу2 +... РлУх— £ Р.У.; *) Можно доказать, что в таком случае, и наоборот, распределение вероятностей различных значений величины х не зависит от значения, по- луче ного величиной у.
НЕРАВЕНСТВО ЧЕБЫШЕВА И ЕГО СЛЕДСТВИЯ 145 но, принимая во внимание независимость величин хи у, мы знаем, что вероятность совмещения равенств х = х2 и у—у^ равна ргРл и, вообще, вероятность совмещения равенств х = х{ и y=yk равна PiPk- Поэтому М. О. ху 4- + ... + PnPNxryN= k^N i = n i — n k = N = E Pixi E рлл=а-л> 1 i = 1 k = 1 A >= 1 т.-е. мат. ожид. произведения ху равно произведению М. О. х на М.О.у. Применяя способ пределов, можно освободиться от ограничения, что число возможных значений х и у конечно. Следствие. Если величины х, у, z, и,... независимы1) между собой, то математическое ожидание про- изведения всех этих величин равно произведению их математических ожиданий. Для доказательства достаточно. применить способ математиче- ской индукции. 2. При применении доказанной только что леммы нужно твердо помнить, что величины х и у предполагаются независимыми. Например, было бы ошибочно считать, что 6 = М. О. х2 должно быть равно а*а = а2, как это имело бы место, если бы лемма была применима к произведению х-х = х2. В действительности же из равенств = М. О. [х — а]2=М. О. [х2— 2ах + а2] = = b — 2а2 -f- а2 — b — а2 (95) заключаем, что Ь ~^> а2, так как мат. ожид. положительной величины (х—а)2 всегда должно быть положительно; только тогда b = а2, т.-е. М. О. (х — а)2=0, когда имеем тождественно х — а ==. 0;. другими словами, равенство Ь = а2 означало бы, что величина х вполне определена и равна в таком случае своему математическому ожиданию. 1) В данном случае величины х, уу z, щ ... предполагаются совершенно независимыми, т>е. распределение вероятностей каждой из величин остается неизменным, каковы бы ни были значения, полученные теми или иными из прочих величин. См. следующую выноску. Теория вероятностей 10
146 ЗАКОН БОЛЬШИХ ЧИСЕЛ Разность х — я' .(между величиной хи ее мате- матическим ожиданием) называется отклонением величины х (от ее математического ожидания). Величина [} = М. О. (х—а)2, т.-е. математическое ожидание ква- драта отклонения х, называется дисперсией вели- чины х. Итак, дисперсия всякой величины х положи- тельна и лишь тогда равна нулю, когда х = а есть величина вполне определенная. Напротив, согласно доказанной лемме, математическое ожидание произведения отклонений двух незави- симых величин равно 0. Действительно, М. О.(х — а) (у — Л) = М. О. (х — а).М.О.(> — Л) = 0, так как М. О. (х — а)~а-—а = 0. Допустим теперь, что рассматривается п независимых1) (попарно) величин Zj, г2,..., z , математические ожидания которых равны 0 (так что отклонение каждой величины г. от ее математического ожи- дания равно самой величине zz); пусть М. О. zf = В таком случае М. О. (г} -U z2 . Д- zny2 = = М.О. ZI4-M.O. 4+ . .. + М. О. z„ + 2 М. О. zxz2 -j- ... -Г2 м- 0-^ -1 Zn‘ Но, так как М. О. zxzk = М. О. zt • М. О. zk— 0, то мы получаем М. О. + z, + .. . + z„) 2 = + ?2 + . . . -г L (96) 9 Мы полагаем, что каждая пара величин z-t и zk (i^k) независимы между собой в указанном выше смысле; но для законности всех последую- щих рассуждений отнюдь нет необходимости требовать, чтобы все п вели- чин были совершенно независимы: все выводы остаются в силе и тогда, когда распределение вероятностей могло бы измениться после того, как станут известны значения, полученные, по крайней мере, двумя из величин zf и zki так как в этой главе нам нигде не придется рассматривать матема- тические ожидания произведения более чем двух величин. Укажем пример попарной независимости 3 величин при отсутствии полной независимости: я задумываю одно из четырех данных чисел: 112, 121, 211, 222 и предла- гаю своему собеседнику угадять цифру сотен моего числа; если я назову цифру единиц или цифру десятков, то это не облегчит его задачу (оста- нется равно возможным, что моя цифра 1 или 2); но, если я скажу цифру и единиц и десятков, то ответ будет очевиден.
НЕРАВЕНСТВО ЧЕБЫШЕВА И ЕГО СЛЕДСТВИЯ 147 Положим, вообще, что дано п попарно независимых величин хр х2, . .., хл, математические ожидания которых соответственно равны: М. О. х} = av М. О. х2 = а2,..., М. О. хп — и пусть, кроме того, М. О. х? — bv М. О. х| — /?2, * • *, М. О. х* = Ьп. Обозначим отклонения хр х2,..., хп от их математических ожи- даний соответственно через т.-е. положим — = х1 — avz2=x2— tz2,..., zn~xn— ап; тогда отклонение суммы xi “h х2 “h • • - “h (от ее математического ожидания) будет равно Z1 + Z2 “Г • • • + Zn' так как (Х1 +Х2 + • • • ~ЬХл)— (а1 + а2+'• • • + йл) === = (Х1 —ai) + (X2 —а2)+---+(Хл—••• +Zn- Поэтому в=м., о. [(xj + х2 4- • • • + хп) (ai + а2 + • • • • + а«)12— = М. О. (21+г2+...+глРМ1 + ?2+---+^ (96 bis) где, согласно (95), $2 = b2 $n~bn ап. На основании данного выше определения дисперсии, Р2» • • • > 0л представляют соответственно дисперсии величин хр х2,..хл, а В есть дисперсия суммы (Xj х2 хл). Поэтому формула (96 bis) означает, что дисперсия суммы любого числа попарно независимых величин равна сумме диспер- сий рассматриваемых величин, и, в частности, если дисперсии последних равны, то дисперсия суммы пропорциональна числу слагаемых п. Необходимо помнить, что все слагаемые хр х2,..., хп предпо- лагаются здесь независимыми. Напротив, если X определенное число, то М. О.Хх = Ха, М. О. (Хх)2 = Х2/>, поэтому М. О. (Хх —Xa)2 = k2(£ —a2) = X2^ так что, при увеличении величины х в X раз, ’ее дис- персия увеличится в X2 раз, а при уменьшении рассма- триваемой величины в.Х раз ее дисперсия уменьшается в X2 раз. 10*
148 ЗАКОН БОЛЬШИХ ЧИСЕЛ В частности, в то время как дисперсия суммы (Xj + хг + • • • + хл) Р а в н а В — 0j + 02.+ • • • + Рл> дисперсия средней арифметической из величин х. -4- х2 ~|— , .. -4- х Xj, х2,..., хп, т.-е. дисперсия величины —----------5—п В равна — • Л2 Таким образом, применяя лемму Чебышева (стр. 101), мы полу- чаем, что вероятность Р осуществления неравенства [(xj+x2 + •• • +хв) — (ai + a24"--- 4-а„)]2==£В/2 (97 bis) более, чем 1-----но, так как неравенство (97 bis) эквивалентно неравенству |(х1 +х2 4" ’ • ’ +хл) — (ai + а2 + • • • + ай)| (97) • гдр В— 4" 02 + * ” + 0Я = -----а\ + ^2--• • • + Ьп------ то вероятность/3 неравенства (97) более, чем 1-— • Это последнее утверждение известно в науке под названием неравенства Чебышева. Деля неравенство (97) на л, мы видим, что и неравенство Х1 + х2 + - — + Хп _ 4-fl24~ - * +°Я t zggx п п п у 1 7 имеет ту же самую вероятность Р^>1— • Полученный результат приводит нас к теореме Чебышева, являющейся одной из наиболее общих и важных форм закона больших чисел. 3. Теорема Чебышева, Если хр х2,..,, хп представляют собой какие-нибудь попарно независимые вели- чины, при чем M.O.xz=az и М. О. х^=^; если суще- ствует такое число Z., что дисперсия.каждой из рас- сматриваемых величин не более А, т.-е. —a2.^zL, то к величинам хрх2, ...,хп применим закон боль-
НЕРАВЕНСТВО ЧЕБЫШЕВА И ЕГО СЛЕДСТВИЯ 149 ших чисел, а именно, как бы мало ни было заданное число е, вероятность ^.неравенства xi 4~ х2 4- д2 + • Ч~~ ап становится сколь угодно близкой к достоверности, если число п достаточно велико. Действительно, из условия L заключаем, что +• ₽2 4" ’ * • 4" < ПЦ поэтому, если мы в неравенстве (98) заменим В через пЦ т.-е. напишем во второй его части — nL —t у — вместо п п / /—~ — У Bt то полученное таким образом неравенство п хз 4~ хг 4- * 4~ хл_gi + д2 + * > 4~д/г п п У ~ (98 bis) t будет, конечно, всегда иметь место (как более широкое), если только осуществится неравенство (98); следовательно, где /? есть вероятность неравенства (98 bis), а Р вероятность (98), и тем более /?^>1---------— • Таким образом достаточно положить ‘ X X t у — =г, чтобы убедиться, что вероятность неравенства г п (99) равная /?, более, чем 1 — — 1 — , т.-е. становится сколь угодно близкой к 1, если (при данном е) взять число п доста- точно большим, что и требовалось доказать. Из теоремы Чебышева можно вывести некоторые более частные формы закона больших чисел, представляющие особый интерес, а потому нам необходимо здесь на них ссгановиться. 4. Предположим, что рассматривается ряд п независи- мых опытов; пусть убудет вероятность наступле- ния некоторого фа к та. Л при /-м опыте, а т — общее
150 ЗАКОН БОЛЬШИХ ЧИСЕЛ число появлений факта А при рассматриваемых п опытах (вообразим, например, ряд урн с шарами, в которых отношения числа белых шаров в каждой урне к общему числу Шаров той же урны не одинаковы, но известны и равны р( для f-й урны; каждый опыт заключается в извлечении одного шара из соответствующей урны, а под событием А будем подразумевать, появление при каждом опыте белого шара). Обозначим через Р среднюю арифметическую всех вероятностей которую можем назвать, для краткости, среднею вероятностью события А в рассматриваемом ряде п опытов; иными словами, положим1): р. Р1+Р2+ + Рп . п В таком случае, как бы мало ни было данное число е,. вероятность неравенства (99 bis) стремится к достоверности, когда число опытов п неограниченно возрастает. Действительно, фактическое число т появлений события А. можно рассматривать как сумму т = х1 -ф- х2 -ф- ,.. -ф- хп, где каждое слагаемое х; получает значение 1, если событие А про- изошло при Z-м опыте, и получает значение 0, если оно не про- изошло. Таким образом а.= М. О. xz=pz-1 -\-qt * 0 = /г, bt~ M. О. x2 = pz-1 qi'Q=Pi» поэтому дисперсия каждой из величин xz равна $1=Р~ P2r=Pfli< 1> и, следовательно, величины xi удовлетворяют всем условиям, требуе- мым теоремой Чебышева, при чем неравенство (99) обращается в неравенство (99 bis), так как т __ Х1; + Х2 + Х„ и Р = Д1 +Д2 + • • • + . п 1 л п *) Следует заметить, что Р вообще зависит от числа п.
НЕРАВЕНСТВО ЧЕБЫШЕВА И ЕГО СЛЕДСТВИЯ 151 Доказанное только что следствие из теоремы Чебышева, являю- щееся обобщением теоремы Бернулли (соответствующей случаю, когда все pt — Р), носит название теоремы Пуассона. Хотя найденная выше нижняя граница 1 — , указанная Чебышевым для вероятности /? неравенства (99 bis), не имеет особого практического значения, так как в действительности обычно еще гораздо ближе к единице, однако не бесполезно заметить, что каковы бы ни были вероятности р.: события А, в рассматриваемом случае теоремы Пуассона , 1 1 1 , 1 \ (так как, полагая рк ~ у ф a, qi = — — а, получаем р,- -- — — \ а потому вероятность /? неравенства (99 bis) всегда удовлетворяет нера- венству (100) Пусть будет дано, например, « = 5 000 урн с шарами, по 100 ша- ров в каждой, при чем в первых 50 урнах имеется по 1 белому шару, в следующих 50 урнах по 2 белых шара и т. д., и, нако- нец, в последних 50 урнах все шары белые. В таком случае, если вынимать из всех урн по одному шару, то средняя вероятность появления белого шара 50 . -2- 50-— 4- ... -|-50 • -~ 100 * 100 ~ 100_ ‘ 5 000 ’ 1-J-24--- + 100 101 ~ 10 000 200 ’ и вероятность осуществления неравенства т 101 1 91 т 111 -------------•' —, т.-е. —- ------------ 5 000 200 20 200 5 000 200 больше, чем 1 ~= 1 -^ = 0,98. Как мы видим, постоянство вероятности во всех опытах не является необходимым условием применимости закона больших чисел; более существенную роль играет требование независи- мости опытов, которое лежит в основе доказательства теоремы Чебышева, но и оно, как мы увидим дальше, может быть заменено менее ограничительными условиями.
152 ЗАКОН БОЛЬШИХ ЧИСЕЛ 5. Одним из важных следствий "теоремы Чебышева является применение ее к случаю, когда все независимые вели- чины xi имеют одно и то же математическое ожидание, т.-е. когда всеа, = а и, кроме того, все М. О.х* = Ь~Ь. Предположим, для наглядности, что х. представляет собой выигрыш (или проигрыш) игрока А, наступающий при l-й партии из общего числа п повторяемых игроком А аналогичных (независи- мых) игр. В таком случае из теоремы Чебышева вытекает, что если число п партий будет достаточно велико, то вероятность R неравенства (при всяком данном е) становится сколь угодно близкой к достоверности: b — а2 ле2 Таким образом, обозначая через х = Ч~ х2 Ч~ - - - П Средний выигрыш'игрока А в течение указанных п партий, видим, что с увеличением п этот средний выигрыш X стремится к мате- матическому ожиданию выигрыша; поэтому (предполагая, что нет технических препятствий к повторению игры произвольно большое число п раз) игрок Л, для которого отдельная партия выгодна (а > 0), может быть уверен в выигрыше сколь угодно большой суммы, если будет сыграно доста- точно большое число партий; напротив, если а<0 (невыгодная игра), то при, повторении игры достаточ- ное число раз практически несомненно, что игрок А будет разорен. Действительно, вся сумма выигрыша игрока А равна S = nx = ~ Xj х2 -|-... -|- хп\ поэтому, умножая неравенство (101) на л, заменяем его равнозначным неравенством — ел S — ап ел, т.-е. (а — е) л S (a -j- е) л.
НЕРАВЕНСТВО ЧЕБЫШЕВА И ЕГО СЛЕДСТВИЯ 153 Полагая, в частности, ность А? неравенства видим таким образом, что вероят- (102) 4 / Ь — а2 \ 4А _ больше, чем 1---------И -------- | > 1 — —о • Следовательно, если п \ а2 ) па2 а 0, осуществление неравенства (102) соответствует, при л доста- точно большом, выигрышу сколь угодно большой наперед назна- ченной суммы денег, при чем вероятность этого становится сколь угодно близкой к единице. Если, например, при бросании игральной кости игрок А выигрывает 8 рублей при появлении 6 очков и уплачивает 1 рубль при появлении меньшего числа очков, то игра для него выгодна, так как математическое ожидание его выигрыша в отдельной игре 1 5 л — М. О. х = 8 — 1 = 0,5. о о При этом b~N[. О. х2= 64 • — 4- 1 • — — — =11,5: следо- 6 6 6 вательно, применяя (102), находим, что в данном случае вероят- ность того, что игрок выиграет после п партий сумму денег S, заклю- Зн Z ченную между — и рублями, больше, чем 1 180 ---> так как п п —_—==45. Например, если число сыгранных партий п == 1 000, а2 то вероятность, что наш игрок в результате всей игры приобретет не менее 250 рублей, больше, чем 0,82 (игрок А имеет больше оснований рассчитывать на получение указанной суммы, чем если бы выигрыш этой суммы был связан с появлением белого шара из урны, содержащей 100 шаров, из которых 82 белых.) Таким образом, несомненно, наиболее важной характе- ристикой игры1), с точки зрения коммерческой целесообразности ее многократного повторения, является величина а математического ожидания j) Под игрой мы можем подразумевать здесь любую финансовую опе- рацию, вероятности различных исходов которой имеют более или менее точное математическое значение; указанным свойством обладают различные виды страхования, основанного на соответствующих статистических данных.
154 ЗАКОН БОЛЬШИХ ЧИСЕЛ связанного с ней выигрыша и, прежде всего, знак этой величины: полученный вывод в достаточной мере оправдывает тер- мины выгодной и невыгодной игры в зависимости от того, будет ли а 0 или а 0. При этом, однако, необходимо твердо помнить, что практическое значение понятия математи- чески выгодной и невыгодной игры обусловлено предположением о возможности многократного ее повторения, необходимого для того, чтобы, в силу закона больших чисел, выравнивающего случайности отдельных партий, средний выигрыш партии мало отличался от его математического ожидания. Если же по той или иной причине игра не может быть по- вторена (или же может быть повторена лишь небольшое число раз), то математическая выгодность ее или невыгодность имеет мало практического значения. Миллионер, который для увеличения своего капитала охотно согласится играть в орлянку, если при появлении „орла" он выигрывает 200 рублей, а в противном случае уплачивает 100 руб. (а = 200- “— 100- ~ — 50 руб.), вряд ли будет на- столько легкомыслен, что станет рисковать потерей всего своего капи- тала в 1 000 000 руб. в случае непоявления „орла", в расчете на то, что при появлении „орла" он выиграет 1 000 100 руб., хотя последние условия игры также соответствуют математически выгодной игре, где а=50 руб. Если же какие-нибудь особые причины побуждали бы все-таки нашего миллионера согласиться на подобные условия, ввиду исключительного значения, придаваемого им немедленному удвоению своего капитала, то, конечно, он не задумался бы предпринять игру и в том случае, если бы вместо 1 000 100 руб. он выигрывал бы 999 900 руб., т.-е. если бы игра была невыгодна (а =—-50 руб.). 6. При доказательстве закона больших чисел в общей форме, данной ему Чебышевым, кроме независимости величин х2,.. ., хпГ существенную роль играет предположение о том, что дисперсия этих величин ограничена (нужно, чтобы — bt—a2.<^L). Мы ука- жем пример, из которого видно будет, что если бы это последнее условие могло быть отброшено, то во всяком случае его нужно было бы заменить каким-нлбудь аналогичным ограничением, так как одного условия независимости величин недостаточно для примени- мости к ним закона больших чисел. Действительно, положим, что
НЕРАВЕНСТВО ЧЕБЫШЕВА И ЕГО СЛЕДСТВИЯ 155 х2 может получать значения 1 и— 1, х2 получает значения 2 или — 2 и т. д., вообще, xk может получать значения k и — k, при чем положительное и отрицательное значение каждого хА одинаково вероятно, так что М. О. хА = 0 и М. О, х^ — № (условие огра- ниченности дисперсии не соблюдено). Следовательно, если бы закон больших чисел в данном случае был применим, вероятность нера- венства (ЮЗ) стремилась бы к 1 с возрастанием щ но этого не может быть, потому что все возможные значения суммы = х} • !-х2- ! ха распадаются на две группы Sn = Sn_A-\- п и S n=Sn_.l — п, ко- торые равновероятны; поэтому, если 's, то не может быть п п П п е; отсюда заключаем, что вероятность нера- венства (103) (при s<^l) не может быть больше— - Однако покойный академик А. А. Марков показал, что для при- менимости к независимым величинам х1? х2,..., хп закона больших чисел достаточно, чтобы существовало число 5 > 0, такое, что М. О. | х. 1Ц где L — не зависящая от / величина (условие Че- бышева соответствует частному случаю 5=1). Доказательство этого положения читатель найдет в курсе А. А. Маркова. Мы ограничимся здесь лишь рассмотрением примера, уясняющего, каким образом закон больших чисел может оставаться в силе, несмотря на бес- конечное возрастание дисперсии величин хьх2,, х„. Представим себе, что каждая из величин х? может получать любые целые положительные ш отрицательные значения (не 0), и пусть вероятность для всякого xz полу- чить целое значение z+z h равна 2 рц - P~h h(h+ 1)(Л + 2)’ так что h - со ОО 2/г (/г _]_ 1) 2) ~ со = 22 1 h(h±\) (/г +W+2) -1, и М. О. xf- = 0, но М. О. х? ~ оо, 1 1
156 ЗАКОН БОЛЬШИХ ЧИСЕЛ так как М. О. х2 СО СО , 2j(A'+ 1)(А +2) >2лл+Т а последний Ряд* как изве" стно, расходящийся. Покажем тем не менее, что (хотя дисперсия каждой из реличин х бесконечно велика) вероятность неравенства + *2 + ' ' ' Хп П (103) при любом е стремится к достоверности, кегда п неограниченно возрастает. Для этого, полагая будем отбрасывать, как непригодные, все наблюденные значения xz, которые не меньше п по численному значению; таким образом будем требовать не только соблюдения неравенства (103), но, кроме того, чтобы все |xz| < п. Согласно теореме умножения вероятностей находим, что, после того как последнее условие соблюдено, вероятность Phi что xz—/z<zz, равна л 2^7 1 ~n<i<n /0+1)0'+2) 1 __________/г (A + 1) (А + 2)____ 2 1 j 1 \ Л (A-f-1) (Л-f-2) j__2 VG+D ~(7+Т)(Т+2)) «(п + 1) Поэтому, если вместо первоначальных величин xz, которые могут быть безгранично велики, мы рассматриваем независимые величины х/, для которых вероятности получить значения ztA даны формулой (10J), то М. О.х/- О и М. О. х/2 — __ 4 Л yi ’ h 4 log n , 2 (/г + 1)0 + 2) 2 ~ п(п + 1) «(«+!) [так как (Л+- lK/zH-2i <10g(A+ 1)~10gA]' Следовательно, вероятность неравенства больше Но вероятность, что xz < h < п равна 2 ^7» - -п </ < п 2 п(«+1) поэтому вероятность, что rcexz< п (I 2....”^P3BHa[l^V(n + l)]"‘
НЕРАВЕНСТВО ЧЕБЫШЕВА И ЕГО СЛЕДСТВИЯ 157 Таким образом вероятность, что все х. < п и что, кроме тога, осуще- ствляется неравенство | *1 + *2 + ~ • • + । < е (Ю3> больше, чем Fl 2 Iя/1 4,°ил 2_\/i_ 41°2л \ L Л (Л + 1) J k (л-1)£»^\ л + 1'Л (Л-1)Е»Г так как, применяя бином Ньютона и группируя попарно члены, видим, что представляет сумму положительных слагаемых (каждая разность в прямо- угольных скобках положительна). Тем более осуществление одного только неравенства (103) (которое возможно было бы и без соблюдения условия, что xz<n) имеет веро- ятность р .. /,_____2_ \ / 4 log л \ _ 4 log л 2 л + 1/\ (Л — 1)га/ (л —1)е' л1 ’ которая (при данном е) стремится к 1, когда п неограниченно возрастает. 4 log п ~ так как при этом ——стремится к 0. Как видим, то обстоятельство, что М. О. х* бесконечно, не мешает в данном случае применимости к величинам хи х2,..., хп закона больших чисел (предоставляем читателю проверить, что в нашем примере указанное выше условие А. А. Маркова соблюдено для всякого 3< 1). Упражнения. 1) Производится п независимых опытов, при которых 3 вероятности появления события А соответственно равны: р{= , /3\я /зхл Ръ = (-^-1 рп = (j ; требуется установить, применяя неравенство Чебышева, нижнюю границу вероятности Р, чго т < 6. 17 Ответ: Р> —^0,81. Действительно, •+рл —3 |^1 — (4-) j, piQ\ + • • • + РпЯп-~ _12 ( 9 /9 V / 12, ~ 7 3 U / + 7 116/ < 7 ’ поэтому неравенство 1 /12 имеет вероятность бдлыпую, чем 1——; при tj/ ——3 наше неравенство
158 ЗАКОН БОЛЬШИХ ЧИСЕЛ обращается в неравенство которое (при любом п) является частным случаем неравенства т < 6; поэтому тем более Р >. 1 — у- -1 — — = ; 2) При бросании дзух игральных костей игрок А выигрывает число рублей, равное разности между числом очков, выпавших на одной и другой кости, если последние числа неравны. В случае же одинакового числа очков на обеих костях игрок А уплачивает число рублей, равное сумме очков на обеих костях. Какой выигрыш S с вероятностью большею, чем 0,98, можно гарантировать игроку А при повторении партии и —3 000 раз? Ответ: 5^815 рублей. Действительно, ”“ Т8 V 6 + 9 18 36 36 36 36 36 36 = 9’ ’ 287 18 ’ | 71 b -- а* поэтому вероятность, что [ S3 000 • — 3 000 з, больше, чем 1-2 = 1 2 485 ; 2 485 n ’’-ТбГзбооГг полагая 162-3бо^°’02, получаем г^°’5055; 0Т“Уда $ 815.
ГЛАВА ВТОРАЯ УТОЧНЕНИЕ НЕРАВЕНСТВА ЧЕБЫШЕВА 1. Доказанная нами выше теорема Чебышева особенно важна в теоретическом отношении, как устанавливающая чрезвычайно общую форму закона больших чисел. Однако практическое непо- средственное применение этой теоремы требует, чтобы число п ве- личин хрх2, ...,хл было чрезвычайно велико, гораздо больше, чем это необходимо для того, чтобы закон больших чисел факти- чески вступил в силу, так как нижняя граница вероятности соответ- ствующего неравенства, данная на стр. 148, значительно меньше истинного значения этой вероятности, которая в действительности гораздо быстрее приближается к 1 с возрастанием п. Поэтому, подчиняя некоторым ограничениям, на практике обычно осуще- ствляемым, рассматриваемые независимые величины хр х2,..., хя, полезно указать значение, представляющее во многих случаях более точную нижнюю границу рассматриваемой вероятности, которая должна, согласно закону больших чисел, стремиться к 1 при неограниченном увеличении п. Мы предположим, что рассматриваемые нами независимые вели- чины хн х2,..., хп имеют математические ожидания соответственно равные av ., ап и, обозначая вообще отклонения xz — а( — = и М. О. zz. — р., допустим, что соблюдено условие М. О. zk. (105) при всех значениях k^2, где Н — некоторое положительное число. Теорема. При соблюдении условия (105) вероят- ности каждого из неравенств (Х! 4- *2 Н- • • • + хп) — («] -Г а2 -Т- • • • + Я«) 5= 2/ и _(Ю6) (xi 4- ха + • • • 4~ хп) (fli 4* а2 Н- • • "г ап) — 2^ где В — -j-... меньше, чем е~1\ а в ер о-
160 ЗАКОН БОЛЬШИХ ЧИСЕЛ ятность Р неравенства ((х1 + х24-... + х„)-(а1 + а2 + ... + а„)|<2//В (107) /В больше, чем 1 —(1е 1 , если только - —- • Для доказательства заметим, что второе из неравенств (106) равнозначно неравенству ( лу — х2 • • • -*\) ( д2 • • — дД ‘Ityf В, в которое обращается первое из неравенств (106), если его при- менять к величинам х.‘=— х.. Поэтому достаточно ограничиться рассмотрением лишь первого из этих неравенств. Полагаем / = М. О. - + 2я), где е — некоторое положительное число, подчиненное условию, что (108) В таком случае, применяя лемму Чебышева к неотрицательной величине ^e(2i+^+заключаем, что вероятность неравенства е(^+^ + --- + гп)>/2 + 1°ё/> равнозначного неравенству /u*+z» + ---+*n)>e'2/, должна быть меньше, чем е~^. Но, на основании свойства математических ожиданий произве- дений независимых величин1), / = М. О. е . е~2п- — = М. О. • М. О.^... М. О. eEZnt (109) ‘9 Здесь величины zit zn предполагаются совершенно независи- мыми; т.-е. каковы бы ни были известные уже значения нескольких из них, это не влияет на вероятности получения прочими из рассматриваемых величин тех или иных значений.
УТОЧНЕНИЕ НЕРАВЕНСТВА ЧЕБЫШЕВА 161 Полагая Г £2£2 £323 = О. ?Z'=M. О. 1 +ezz+ V + I О, и применяя теорему сложения математических ожиданий, находим с “ /?.= 1+М. О. EZ. + M. о.-^+м. 0.-^-г...= £28 £3 £^ = 1+-2!'+ 3!М- °‘ ^+-‘- + й! М- °’ так как М. О. zi~Q. Поэтому, вследствие условия (105), £28. Г 1Н—2^ I 1Ч"+ • • • 4" (^/)*-2 -4 • • • а следовательно, благодаря (108), /?.^1+г^<^/, (ПО) так как ряд * - • содержит только положи- тельные слагаемые. Из (109) и (ПО) заключаем, что / ££33i 4 е^. .,, £6*(?ч+&+” - 4~3п) = а потому log I е2В, и, следовательно, неравенство + + + (112) еще менее вероятно, чем неравенство E(2-]+z2J-... + ^)>^ + log/, (111) которое, как было замечено выше, имеет вероятность меньшую, чем e~fi. Тем более, значит, и вероятность неравенства (112), при любом положительном £, удовлетворяющем (108), должна быть менее, ч ем е . Полагая, в частности, г = что мы вправе сделать, не на- иS рушая (108), лишь бы только ув 2Н и деля обе части нера- Теория вероятностей. 11
16S ЗАКОН БОЛЬШИХ ЧИСЕЛ венства (112) на s, получаем равнозначное ему неравенство 4“ + • ~\~zn которое представляет собой не что иное, как (xi 4“ х2 “г • 4" (Й1 4“ а2 4“ • • • 4“ ап) В ; (106) отсюда заключаем, наконец, что вероятность неравенства (106) дей- ствительно менее, чем Ввиду сделанного в начале доказательства замечания, видим, что и неравенство Oi+x24- . .. + О~-(й1 + й2 + - + «„)=£: — 2//В (106 bis) имеет вероятность меньшую, чем е~*'. Следовательно, вероятность Q осуществления одного из двух несовместимых неравенств (106) менее, чем 2е~^, а потому вероятность Р= 1 — Q ненаступления ни одного из них, т.-е. осуществления неравенства ! х1 + Х2 + • + Хп (Й1 ~\~а2 4" • • 4" ап)\ В, (107) больше, чем 1 — 2е~. 2, Остановимся на применении полученного результата к слу- чаю, когда хр х2, • > хп представляют собой частные значения некоторой величины х, получаемой при повторении п независимых однородных опытов, так что, вообще, М. О. ~ а; = а и М. О. (xz— az)2 = = £, а В — п^, г х„ . + X Полагая X = — -------— и деля на п неравенство (107), находим, что вероятность Р неравенства | X — (101 bis) больше, чем 1—2с" ограничиваясьа) значениями / < ’ па н ото ограничение практически не существенно, если только ~ не Р слишком велико, так как оно сводится к тому, что правая часть неравенства не должна превышать но, когда это значение достигается, то вероятность
УТОЧНЕНИЕ НЕРАВЕНСТВА ЧЕБЫШЕВА 163 Разумеется, для применимости полученного результата необхо- димо знать, что математические ожидания всех степеней величины х удовлетворяют неравенству вида |М. О. (х — a)k\sZ^-Hk k\ (105 bis) Но в большинстве задач, которые встречаются на практике, величина х вообще ограничена; поэтому обычно можно без всяких вычислений указать более или менее грубо такое число относи- тельно которого нет сомнения, что |х — а |. Очевидно, что тогда |М. О. (х — а)*|<М. О. (х — а)2}?""2 = [йА"'2. Поэтому, если возьмем Н — то неравенство (105 bis) будет конечно удовлетворено, так как, при всяком k 2, имеем з 1 в чем легко убедиться, умножая В частности, в серии опытов А 1 * * * * * 7 Р обе части на -- — i* \ > Бернулли или Пуассона можно взять Н — 1 Рассмотрим для примера 2-е упражнение предыдущей главы: при бросании двух игральных костей игрок А проигрывает сумму рублей, равную сумме очков на обеих костях, если на них оказы- вается одинаковое число очков; напротив, он выигрывает сумму рублей, равную разности между числами очков, если числа эти различны. В этом случае 7 287 д = М. О. х = —, Ь-№. О. х2 =-j-g-, = b — а2 — 2 485 162 7 и | х — я | 12 = 115 так как наибольшее абсолютное значение разности между х и а соответствует максимальному проигрышу х = —12. соответствующего неравенства уже превышает 1 --2г , т.-е. достаточно большом уже чрезвычайно близка к 1: например, если при Н 0 " п 5, то, при п = 40, 1 — 2е > 0,963, а при п = 250, 1 — 2г 7^0,999 999 999 97 (с точностью до последнего знака). 11*
164 ЗАКОН БОЛЬШИХ ЧИСЕЛ Таким образом, при п = 3 000, вероятность неравенства L |<2// 2 485 . 9 г 162-3000 больше, чем 1 — 2е~‘* лишь бы t 3 000- 2 485 162 7^25,1 Полагая, например, /=3, можем с вероятностью большею, чем 0,999 749, утверждать, что 7 9 2 485 162-3 000’ т.-е. что весь выигрыш S = пх будет заключен в пределах 4 970 000 3 4 970 000 3 т.-е. 1 045<5<3621. Вероятность же только того, что выигрыш S 1 045 рублей, больше, чем 1—£~9 = 0,999 874. Между тем, применяя теорему Чебышева, мы для того же неравенства получили бы нижнюю границу 1 — 4-^-=0,972 22. Вообще, для тех же неравенств, для которых теорема Чебы- шева дает нижнюю границу 1 — выведенная только что фор- мула дает 1 — 2е-^; преимущество последней начинает обнаруживать- ся лишь при /^>2, приобретая все большее значение с увеличением t. Для сравнения и для практического применения укажем таблицу: t = 1,5 2 2,5 3 3,5 4 5 0,210 8 0,036 93 0,003 86 0,000 251 0,000 009 6 0,000 000 23 0,000 СО) ООО 03 1 42» 0,111 1 0,062 5 0,04 0,027 778 0,020 408 0,015 625 0,01 3 . Данную формулу можно было бы еще уточнить И, но, не останавли- ваясь на общем случае, где задача несколько усложняется вследствие неси и- 0 На практике обычно пользуются предельной формулой Лапласа (см. четвертую часть) и ее обобщениями, которая фактически для значе- ний п, превышающих несколько сотен, обладает большой точностью и дает часто лучшее приближение для вероятности, чем указанные нами формулы, однако строгое доказательство этого довольно затруднительно. См. мою статью „Об одном видоизменении неравенства Чебышева*. Ученые записки Н. И. Кафедр Украины Отдел математический. Вып. 1.
УТОЧНЕНИЕ НЕРАВЕНСТВА ЧЕБЫШЕВА 165 метричного распределения вероятностей рассматриваемых величин мы ограничимся предположением, что М. О. (х,-— л.-) 2А’+1--О для любого целого значения /г; это соответствует допуще- нию, что равные между собой по абсолютной величине положительные и отрицательные отклонения равновероятны [ибо при этом допущении M.aO. (xr— а.;) представляет собой алгебраическую сумму членов, по- парно равных по величине и противоположных по знаку и потому взаимно уничтожающихся]. Заменяя условие (105) несколько более ограничительным условием <) (ИЗ) и применяя рассуждение аналогичное предшествующему мы найдем, что в данном случае вероятность неравенства i 4~ х2 + • • • + хп — (ai + а2 4_ • • • ’Г ап> | 2В (114 больше 2), чем 1 — 2e'z4 В самом деле, составляя, подобно предыдущему, выражение /?/ -- М. О. где Zi--X: — находим: £2 ез „ = М. О. ... М. О. дЛ + ..., £ И, и, так как, по условию, при h нечетном М О. zh— 0, а при Л — -соблюдается (113), то й. [ 2 ~ -следовательно, в силу (109), — е “ и log —2 . Отсюда заключаем, что, при всяком е, неравенство , з2 В £ [Лд х2 + • • • 4- хп) — 4~ а2 4- * • *-н дг?)1 ? 4 • 2 4) Знак равенства в (113) соответствовал бы так называемому нормаль- ному распределению вероятностей величин х2. 2) На основании полученного выше результата мы могли бы лишь утверждать, что эта вероятность больше, чем 1 — 2е 2 , Заметим, кроме того, что в данном случае значения t могут быть произ- вольно велики.
166 ЗАКОН БОЛЬШИХ ЧИСЕЛ имеет вероятность меньшую, чем е . Поэтому, полагая последовательно /Т s 11/ “И е — — 11/ -g , где t — положительное число, находим соответ- ственно, что каждое из неравенств (л\ +.Х2 + . . . + хп) — (tZj + Д2 + • “ + ап) t y/w и (jq + А*2 + • • - г хп) — (й< + Д2 + • ‘ • + йл) — |/2^ имеет вероятность *) меньшую, чем е~1\ Отсюда, как и раньше, вытекает^ что неравенство (114) имеет вероятность большую, чем 1— 2е~/3. 4. Предположим, например, что каждая из величин может полу- , 1 чать только два значения +/г и —/г , вероятности которых равныу, где 8 — некоторое определенное положительное число. В таком случае М. О. xh2k^l~$ и М. О. xH2k -/г'^;по этому усло- вию (113) удовлетворяют все xh, так как неравенство Л2« < (2W! " 2* ’ *! равнозначно КПЗ — {2k - 1). Посмотрим, при каких значениях 8 закон больших чисел будет при- ложим, т.-е. можно будет при данном произвольно малом £ утверждать,, что вероятность неравенства стремится к достоверности с возрастанием п. В данном случае В = 1 + 223 * + ... +й25 + ... +п25^- Поэтому, замечая, что, согласно определению интеграла, {) Заметим, что если бы мы знали, что М. О. (лу — ду)2*+1 0, то наше утверждение оставалось бы верным по отношению к первому из этих неравенств (при обратном знаке, оно было бы верно для второго).
УТОЧНЕНИЕ НЕРАВЕНСТВА ЧЕБЫШЕВА 167 заключаем, что (и + 1)1 + 2г 1 +23 Следовательно, неравенство 2(и + 1)1 + 2г' 1+28 п 1+23 (115) которое еще более вероятно, чем неравенство (114), имеет вероятность большую, чем 1 — 2е~1\ а потому и неравенство 26 • п имеет вероятность большую, чем 1 — Если с < -А., то, при данном произвольно большом t (обеспечивающем вероятность, произвольно близкую к достоверности), мы можем, достаточно увеличивши число п, сделать з сколь угодно близким к 0, так как 5 — i < 0; . 1 следовательно, при о < ~ закон больших чисел применим, и, беря среднюю арифметическую из наблюдений, кото- рых уклонения от Овсе более и более возрастают, мы все же можем быть практически уверены, в этом случае, что получим среднюю, сколь угодно мало отли- чающуюся от 0. Если, например, извлекая корни 4-Й степени из всех целых чисел до миллиона, мы будем брать перед ними знак + или — в за- висимости от того, выпадает ли или нет „орел“ при соответствующем бро- сании монеты, то вероятность Р того, что средняя арифметическая из всех этих корней по абсолютному значению меньше, чем е = ^, больше <), чем 1- 2^’ где /2 = 7,5, т.-е. Р > 0,998 89. г; » 1 D л (л + 1) . Если о = —, то В =-------~; таким образом мы можем лишь утвер- ждать, что вероятность неравенства 2 п п (116^ больше, чем 1 — 2е г . Следовательно, мы не можем утверждать, что с воз- 9 Заметим, что применимость закона больших чисел к данному случаю могла бы быть выведена также из основного неравенства Чебышева (но не из его теоремы, где предполагается, что < L)\ однако мы получили бы только, что Р > 1 - 0,933 33.
168 ЗАКОН БОЛЬШИХ ЧИСЕЛ растанием п при малых значениях s вероятность неравенства (116) становится велика; однако мы не в праве непосредственно заключить из этого, что в данном случае закон больших чисел неприменим. Но, как будет сейчас показано, закон больших чисел при S действительно, неприменим. Достаточно рассмотреть для определенности случай S — так как оче- видно, что при о > “ применим тот же способ рассуждений. Итак, положим S = ~ и допустим, что, как бы мало ни было т|, при неограничен- ном возрастании п вероятность неравенства (116), где е весьма малая вели- чина, равна 1 — т|. Разобьем совокупность всех значений, принимаемых абсолютным значением величины А" — Х1 + Хп, на смежные промежутки (О, -), То), (То» Т1), * • *, (Т а» i)> _ ________________ где уо определим условием, что 2е fl+1=ri<^2e , прочие же промежутки будут произвольным образом стремиться к 0, а — |/ п • При бесконечном возрастании п пред. М. О. Х2 = пред. —у- С другой стороны, М. r,) + Pe-ti+Prr22 + ...+P*?ft+1, где —вероятность, что |Х| находится в промежутке (е,у<), Р± есть вероятность того, что | X | находится в промежутке (ylf у2), и вообще, Pk есть вероятность, что |Х| находится в промежутке (ykt ул_|_1), причем Ph + Pj 4- ... + = Т|, Очевидно, что мы вторую часть неравенства еще увеличим, если Pk заменим большим числом 2е ; после этого наибольшее значение, какое можем придать будет 2 2 ^-1 п чп 2е "+1 ~ 2е n + v И Т. д. Таким образом / _ v __v\ 0^9/1 х I г» । « + * "И"1 / 2 I < £2(1 — n) + 2 v —e J Yj + ’ ’ * 2 2 9 / 4n \ I 9 L "+1 „ " + 1 ) n + l 2 ----h2 V — u +
УТОЧНЕНИЕ НЕРАВЕНСТВА ЧЕБЫШЕВА 169 1 - '1'<П Переходя к пределу п = сс, т.-е ставя — вместо и пред, е 1 = _ _Т’" ______ ->2 П И 1 -=.е ‘ вместо е и делая простую перегруппировку слагаемых, получаем: + +2(72 321 + +2 ('A+l-dV k’ или, полагая, что промежутки (уъ -0), (у.2, yJ, .., стремятся к О, 1 2 f°° -т* “ Т0 -2^£S(1-t1)4-t,To2+4 | -;е 1 dy = -.2(1 - т,) + 2е . То з ^0 'Отсюда, с помощью равенства т1=2е , выводим 1 Л 1 1 2\ 7) 1 +10g — 2 К_______Г11 <s"2 1 -Tj * Таким образом, если хотим, чтобы т( стремилось к 0, то необходимо, -чтобы еЗ^Х, Следовательно, как бы велико ни было л, нельзя сделать сколь угодно близкой к достоверности вероятность неравенства (116), если г < См. упражнения гл Ш, ч. 4-я. Упражнения. 1) Производится 600 бросаний игральной кости; требуется определить с вероятностью большею, чем 0,999 749, в каких пределах будет заключено число появлений 6 очков. Ответ. 46154. Из таблички значений находим, что 2е~*‘ ~ 1 — 0,999 749 = 0,000 251 соответствует t = 3; поэтому с требуемой вероятностью можем утверждать неравенство /5^600 / 5*600 — 61/ — 100 < 6 1/ , т.-е. 46 т < 154. Г ОО г оо 2) Полагая, что появление 6 очков связано с выигрышем 8 рублей, а непоявление — с проигрышем 1 рубля, установить нижний предел веро- ятности Р, что при п бросаниях общий выигрыш превзойдет рублей. __п О т в е т. Р > 1 - е 2 ( а по теореме Чебышева Р > 1 — — например, при 6 480 партиях вероятность выиграть более, чем 1 620 рублей, больше чем 0,999 875. 3) Дано, что распределение вероятностей велечин х на отрезке (— /, + 0 равномерно. Требуется определить, какое число п наблюдений достаточно для того, чтобы с вероятностью не меньшею, чем 0,999 999,
170 ЗАКОН БОЛЬШИХ ЧИСЕЛ можно было утверждать, что средняя арифметическая из этих наблюдени окажется в промежутке I — —, -|- ^1. Ответ, п 967. Для применения указанного выше приема приравниваема 0.000 001 = 2е - р, откуда = 6 14>5- в 1 № М. О. х2^1 = 0, а М. О. x2k = | x~k dx = 2k -у \ * /2 £ = M. O. x2 = —; поэтому неравенство (ИЗ), получающее О /2А //2\* <2Л)! 2fc -f- 1 \ 6 / ' k\ ’ соблюдено, так что применима (114), и для определения п имеем неравенство 11/ т.-е. п ---у ф 967. Применяя неравенство Чебышева, мы получили бы /2 = 500 000, поэтому п 33 333 333, — разумеется, в таком огромном числе наблюдений нет никакой надобности. 4) При условиях игры, данных во 2-м упражнении главы I, требуется указать верхнюю границу вероятности Q, что игрок А, располагая капиталом в М рублей, когда-нибудь разорится при повторении указанной выгодной игры. Рассмотреть случай, когда М = 500 руб. _ 2201 * ’8 520 Ответ. Q < —--------=—; при М — 500, Q < 0,000 139. 1-Г™ данном случае и, в частности,. вид Пусть а будет мат. ожид. выигрыша х одной партии и р=М. О. (х—а)%; в таком случае, обозначая через S всю сумму выигрыша, вероятность, что S — na^ — 2t ]/п$, менее, чем при условии, что если же /> 2^^ то, возвращаясь к неравенству (112), замечаем, что неравенство /2 S — na-^Z— — — имеет при всяком / и п вероятность меньшую, чем е~если только гН “Ff’ Поэтому, полагая ~ = И, заключаем, что вероятность не- равенства всегда меньше, чем е~z*. При наличности капитала М для разорения нужно, чтобы S — па "С — Л1 — па\ поэтому, если из равенства М ^na = 2t |//г^
УТОЧНЕНИЕ НЕРАВЕНСТВА ЧЕБЫШЕВА 171 , М -ч- па _ пЪ находим значение t ——- _ sg: —то вероятность, что после /?-й партии 2 v'n$ 2Н у игрока не будет положительной суммы денег, оказывается меньше 9» чем Если бы расчет совершался только после данного числа п Партий, то найденное значение было бы верхнею границей вероятности, что наш игрок разорится или окажется банкротом, т.-е. не сможет оплатить свой долг после указанных п партий. Однако, если капитал не очень мал, то, по крайней мере, для неболь- ших значений п нужное для получения вывода условие, что . п$ М па , и не будет соблюдено; если бы а > , то это условие, вообще, никогда бы не выполнялось. Поэтому, вообще, мы должны приравнять M + = + 211 £ и, следовательно, вероятность, что после n-й партии S + М 0, всегда п \а — \ + М менее, чем где /2~-------------------------, лишь бы Н^Н. Полагая па । ™ 8 8 2 сначала можем взять ; в таком случае — = а л 2р _ па1 + 2Ма а 4₽ 4) Если бы были соблюдены условия, соответствующие неравенству (113), тогда, при всяких значениях М, п, а, р, рассматриваемая вероятность (Л4 4* па)2 была .бы меньше, чем е , а потому вероятность Q, что разорение вообще когда-нибудь наступит, во всяком случае меньше, чем (Af + rza)4 s 2/Иа+//а2 ---г- си —--------— —----—г--- р Если известно, что максимальный проигрыш не превышает — к можно брать, начиная только от n~k, поэтому то сумму ka‘l Q < е Л4а /э е ‘ __. 1 — е
172 ЗАКОН БОЛЬШИХ ЧИСЕЛ Если же Н > —. то можем взять — Н, и тогда а i М . лл па лл П ' "" 2Н / 'г м м ‘2~ ТЙ ' > 2Н~' Таким образом в первом случае, который наиболее обычен, вероятность, ла^Ч-2/Иа что после п партий S -|- М 0, меньше, чем е ; во втором слу- лаЦ-27И ьн ~ чае эта вероятность меньше, чем е Поэтому в первом случае вероятность Q, что неравенство 5 4-Л4^0 4т.-е. разорение) вообще когда-нибудь наступит, меньше, чем ,ka*4-2Ma па^ -j- 2М а •-гч- л -СО----- 2 е 1 =——<117> п — k — гг 1 — е где k есть наименьшее число партий, при котором разорение возможно {т.-е. (А — 1) р. < Л4 k р., обозначая через р. максимальный проигрыш, воз- можный в одной партии]; точно так же во втором случае /^4-23! Г ш Q < ------—. (117 bis) 1 - < Рассматриваемый пример подходит под первый случай (117), так как 7 „ 2 485 „ ). а~ 9’ 162 И Н~ 3 115 ? _355. 27 < а ~ 18 ’ поэтому 18Л1 -|-7 k 710 Q<e--------7- ,о е 710 _______ ______L < 7 1-е 710 1-е 710 223Л1 1 420 “ 8 520 1 413 е 102<’ 223Л1 8520 £ ю г ибо максимальный проигрыш партии р.= 12, так что Полагая М = 500, находим 11150 852 (?< 102е ^0,000 139. Полагая М — 1 000, получили бы 22 300 Q < 102г> ЬБ!! = 0,000 000 000 2. Таким образом, даже при М = 500, игрок А почти не рискует оказаться лишенным возможности продолжать игру за отсутствием средств, и, на
УТОЧНЕНИЕ НЕРАВЕНСТВА ЧЕБЫШЕВА 173 основании найденного раньше, закон больших чисел обеспечивает ему произвольно большой барыш. Из формул (117) и (117 bis) видно, что риск Q разорения при возрастании капитала М в арифметической прогрес- сии уменьшается быстрее, чем члены геометрической а 1 прогрессии со знаменателем е или е (В действитель- ности, точный закон убывания риска сложнее и лишь в редких случаях выражается более или менее простой формулой для значений М, не превы- шающих во много раз ставок отдельной партии.) Если игрок, обладающий капиталом М, может в единицу времени по своему выбору предпринять одну игру или 2 аналогичные независимые игры, но все ставки которых вдвое меньше, то для него всегда благоразумнее предпочесть второе. Действительно, если разорение не помешает использовать для игры п единиц времени (т.-е. сыграть п крупных или 2zz вдвое менее крупных партий), то в обоих случаях, по закону больших чисел, его сред- ний выигрыш в единицу времени будет мало отличаться от мат. ожид. выигрыша а одной крупной партии. Но дисперсия р = М. О. (х - - а)* одной крупной партии вдвое больше дисперсии = О. (хг -\-у' — а)2 — М. О. I х “i“ У 2 I ~ 4 4 ~ ~ ДВУХ маленьких партий; поэтому риск его разорения при малой игре будет, приблизительно таков же, как если бы основной капитал М был вдвое больше. Применяя вышесказанное к торговым и финансовым организациям, мы можем формулировать, как общее правило, допускающее лишь незна- чительные уклонения, что солидность коммерческого предприятия опреде- ляется отношением среднего размера его отдельных (независимых) операций к величине резервного капитала: чем крупнее отдельная операция, тем дол- жен быть больше резервный капитал, независимо от суммы годового оборота. Вероятность Q разорения игрока Л, имеющего в начале игры капитал Л4, как было замечено, может быть в некоторых случаях вычислена точно; простой пример этого был дан на стр. 133. Обобщим немного рассмотренные там данные. Допустим, что отдельная игра допускает несколько выигрыш- ных ставок, скажем, для определенности, две: рублей и рублей, вероятности которых в каждой партии соответственно равны и р?, а проигрыш может быть равен только 1 рублю. Пусть f(M)=Q есть веро- ятность разорения игрока А при неограниченном повторении игры, когда он обладает капиталом АЦ и, вообще, вероятность его разорения равна f(x), если его капитал равен х. В таком случае, очевидно, fix 4- 1)=/(X) -/(1), так как потеря х-;-1 руб. всегда происходит после потери х рублей, за которой должна еще наступить утрата 1 рубля. Следовательно, /(-г) = |7(1)Г- (118>
174 ЗАКОН БОЛЬШИХ ЧИСЕЛ Таким образом риск разорения при наличности капитала х равен jc-му члену геометрической прогрессии, первый член которой, также как и знаменатель, равен /(1). С другой стороны, /W=Pi/U + ai) + Pif (х + Я3) + (1 — Рг~ P-i)f (х~ 1). так как разорение может наступить (предполагая, что у игрока в начале игры было х рублей), если он при первой партии выиграет или а2 рублей или же проиграет 1 рубль; но в каждом из указанных случаев вероятность разорения становится соответственно равной f(x /(лЧ-л2) и /(х —1), принимая во внимание изменение капитала нашего игрока после первой партии. Следовательно, подставляя значение f (х) из формулы (118), находим, что f(X)=z удовлетворяет уравнению zx = PiZx+“- + ^.^+“’ + (1 - Pi- р^2х~\ которое по разделении на z''~'L получает вид + +p2z1-“= -4-(l-pt-p,2). (119) Полагая игру выгодной, мы знаем, что /(х) < 1, а потому и/(1)== = z < 1; ввиду этого решение z уравнения (119), которое может соответ- ствовав значению /(1), должно обязательно быть меньше 1. Поэтому, при- дав уравнению (119) форму z— l=pt(z1+a' — 1)-4-p2(z1+n* — 1), из которой видно, что оно имеет также решение 2 = 1, можем разделить обе части равенства на z - 1, откуда получаем уравнение \=pdza'+za'-v + ...+1)+A(z“3+...+1), (119 bis) которое всегда имеет одно и только одно решение z, заключенное между О и 1, так как вторая часть равенства с увеличением z от 0 до 1 возрастает от />(+/>2 «о Pi(ai 4- 1) +р2(а2-г 1), при чем Pl Ьр2< 1, а ]) + 4- р2 (“2 4“ 1) 1, если математическое ожидание выигрыша отдельной игры положительно. Следовательно, /(1) равно единственному положительному корню уравнения (119 bis). Пусть, например, Л|=3, р2 = ^, л2 ~ 2. В этом случае 3 5 31 61 математическое ожидание выигрыша равно у рубля; урав- нение (119 bis) приобретает вид 1 = 1 (гз + z* -4- z + 1) j -1 (z2 4- z + 1), 1 /1 которое имеет решение z = y, так что /(л)={ —1 и> при/И = 10, напри- мер, риск разорения равен Обычно z гораздо ближе к 1, и риск
УТОЧНЕНИЕ НЕРАВЕНСТВА ЧЕБЫШЕВА 175 разорения больше. Ограничимся случаем, когда р.2 — 0; тогда легко прове- рить, что z —7(1) > 1 — pi — Действительно, подставляя это значение в уравнение, видим, что вторая его часть получит значение i -и 1 -<71 - 1 1 < Г, так как мы знаем, что уравнение имеет лишь одно поло- жительное решение, то нетрудно вообще его приближенно решить. Укажем, что, если М. О. х ~ At Pi — 1, то z < 1 — действительно, подста- новка последнего значения в наше уравнение дает во второй части Г I р \ а + 1 *1 2 1 - 11 — \ , и нужно лишь проверить, что эта величина > 1, т.-е. 1 > 2 (1 — -^\а ' 1 , ИЛИ, логарифмируя, ЧТО log ~ = — I + 2 (|) + • • • 1> ; но это неравенство соблюдено, так как, по предположению, (а -4- 1) pi 7-2, вследствие чего оно приводится к нера- венству 1 (Ел> 4-1 - ... - 1 гШ Ц'г2 + 1 /±у 2 \ 2 / ' 3 \ 2 / 1 2 • V 2 / \ 2 / 3 2 / которое имеет место даже при Пусть, например, at — 10 000, р{ = ; тогда М. О. х — о UUU 10 000 4 999 “ - Ал А~ ““ с ллл' — L000 2, поэтому 0,999 8 </(1) <7 0,999 9. Следовательно, О 000 5 000 7 ' (1 — 0,000 2)х'</(х) < (1 — 0,000 1)л ; игрок, у которого было бы всего 100 рублей, имел бы вероятность разориться (не получив возможности использовать преимущества многократного повторения этой выгодной 1 / 2 ’ 7» игры) большую, чем (1— j е -0,98. Напротив, капиталист, у которого капитал ---- -200 000 рублям, наверное обогатится, повторяя эту игру с риском разорения меньшим / 1 \2000o0 оп ('-ио») ^--4 ода ооо«.
ГЛАВА ТРЕТЬЯ РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШИХ ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧИНЫ 1. Предположим теперь, что величины xv х2, . .., хп могут гак или иначе зависеть друг от друга, и пусть М. О. xi = ai и,, поирежнему, М. О. х\ = Ь.. То, что отличает рассматриваемый нами теперь общий случай от того, которым мы занимались до сих пор, это — неприменимость, вообще говоря, теоремы умножения математических ожиданий, установленной лишь для независимых ве- личин, благодаря которой мы имели право утверждать, что- М. О. (х,— a.) (xk — = 0. Таким образом в общем случае формула для дисперсии В суммы х, хп Уже не будет иметь вида (96 bis> где $. — Ь;— o' но принимая во внимание, что М. О. (xz —a,.)(xft — вообще не равно 0, мы будем иметь В = М. О. [(х, —а,) + (х2 ——= = Р1 + Р2 + ... + ^ + 2^2 + 2₽13 + ... + 2^_Ьл, (120) где члены $.k соответствуют всем парам различных значков z, k, которые мы можем выбрать среди п чисел: l,2,...,/z, и, следо- о Я (tl----1) вательно, число этих членов равно Сп =—---------- • Однако, если мы будем пользоваться выражением (120) для В вместо выражения (96 bis), то, применяя ту же лемму Чебышева, которой мы пользовались для вывода неравенства Чебышева, мы получим точно также, что вероятность Р неравенства I Х1 4-х2 + • • • + х„ — 01 + а2 + • • • + апУ I (97 ter)
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШ. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ. 177 Деля затем неравенство (97 ter) на мы получим равнознач- ное неравенство 4~ *2 4~ • • - а\А~ а2~у * ' ап п п (98 bis) откуда заключаем, что закон больших чисел применим к зависимым ве- личинам хр х2... х , если, при В возрастании /г, — стре- п1 м и т с я к 0 (теорема А. А. Маркова). Действительно, пусть /j и е будут два наперед заданные про- извольно малые числа. Положим 1 72 . . В затем п настолько большим, чтобы — /г2 1 г т.-е. t = - , и возьмем <^£2Г|, что несомненно осу- ществимо, ибо, по предположению, — стремится к 0 с возраста- нием п. Но в таком случае, заменяя в неравенстве (98 bis) t через 1 В л -/=, а — через s2 /j, мы получим более широкое неравенство J/ £2д—д потому тем более ве- так как t роятность неравенства (121) должна превысить Таким образом, как бы мало ни было £, вероятность Р неравен- ства (121) при возрастании п становится сколь угодно близкой к достоверности. Этой теоремой А, А. Маркова исчерпываются все важнейшие случаи приложимости закона больших чисел, хотя, как мы уже раньше видели (стр. 155), теоретически возможно указать примеры, когда закон больших чисел остается в силе, несмотря на то, что все величины ^.= bi — а2, следовательно и —, при любом п п2 бесконечно велики (т.-е., собственно говоря, лишены смысла). Отбра- Теория вероятностей. 12
178 ЗАКОН БОЛЬШИХ ЧИСЕЛ сывая эти исключительные случаи и вводя допущение, что средняя арифметическая' х *l+*2 + —+*H п ни при каких частных значениях не может пре- взойти по абсолютной величине некоторого сколь угодно большого, но определенного предела А, не- трудно убедиться, что теорема А. А. Маркова становится обратимой, т.-е. (при сделанном только что ограничении) закон больших чисел не может быть применим к величинам х2,. хп, В если — не стремится к 0. В самом деле, предположим обратное: пусть, действительно, не- равенство I ____А = 1 п 4~ ^2 • * + ап П <е (121) при произвольно малом £ получает вероятность 1 — т; сколь угодно близкую к 1, когда п весьма велико. В таком случае | = М. О. [X-Д]2<(1 -т))г2 + г|412; (122) действительно, все значения X—А разбиваются на 2 класса: в пер- вом классе значения |Х—А|<^£, ко второму классу относятся остальные значения, которые, во всяком случае, меньше по абсо- лютной величине, чем 2А (ибо из условия, что следует, что | А [ <^А); поэтому, если в сумме, составляющей М. О. [А — А]2, заменим X — А через ?. для всех слагаемых, соответствующих пер- вому классу, и через 2Z. для слагаемых второго класса, то эта сумма будет увеличена и окажется как раз равной выражению, стоящему во второй части неравенства (122), потому что, по предположению, вероятности, что X — А принадлежит к первому и ко второму классу, соответственно равны 1—т] и тр Но если бы £ и могли быть выбраны произвольно малыми, то и сумма (1_Г1)г2 + 4Г1£2 также должна была бы сделаться сколь угодно малой, а следова- В тельно и —, которое меньше указанной суммы, стремилось бы к 0.
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШ. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ. 179 _ в Поэтому, раз по условию — к нулю не стремится, то сделанное п2 предположение должно быть отвергнуто. 2. Возьмем, например, серию независимых опытов, при которых появление события А имеет постоянную вероятность /?, и будем каждый раз рассматривать результаты двух смежных опытов: Z-го и (/—|—1)'Г0) при чем будем давать числу xz значение 2, если ъ обоих опытах событие А произошло, значение 0, если А про- изошло лишь в одном опыте, и значение — 2, если событие не на- ступило ни в одном из рассматриваемых опытов. В таком случае az = M. О. х=2/?2—2q2 = 2(p— q)(P~~hq) = = 2(p — q), и M. О. (x1-j-xz-j-...-j-xr!) = 2n(p — q). Очевидно, что смежные значения х- и х1 + 1 не будут незави- симы, так как, если xz = 2, это значит, что факт А наступил в z-м и в (Z—р 1)-м опыте, а поэтому xz + 1 может уже только по- лучить значение 2 или 0, при чем первое из этих значений имеет вероятность р, соответствующую вероятности появления А в (/ -(- 2)-м опыте, а вероятность второго равна q\ следовательно, М. О. xzxz+1 = 2.2^4-(_2)(—2)^з=4(/?з_|_^з) = = 4(/?2— pq-}-q2) (p-\rq)=^(p2 — pq-\-q2), так как xzxz + 1 отлично от 0 лишь в том случае, когда все 3 по- следовательных опыта имеют одинаковые исходы. Напротив, xzhxa независимы, если \г — 1, и в этом случае М. О. xzxA=M. О. х.-М. О. xk = 4(p— q)2; наконец, М. О. х.2 = 4/?2 -|- 4^2. Следовательно, pz = M. О. (xz — az)2 = 4/>2 4^2 — 4 (р — q)2 ~ 8 pq, ^•А = М. О. (xi — at)(xk—ak) = 0 (если |г — &|>1), = М. О. (xi— а;) (xk — ak) = M. О. (xixk— atxk—akxi-\-aiak) = = M.0.x,xA —a.aA = 4 [p^ —pq J^-qi — (p — qy]= 4 pq (если I—&=1). Поэтому В = +2 = 8 npq + 2 [j}]2 + ?23 4- ... + j.J = = 8 npq + 8 (n— 1) pq = (16n— 8)pq, В так что — стремится к 0 с возрастанием nt Следовательно, при не- 12*
180 ЗАКОН БОЛЬШИХ ЧИСЕЛ ограниченном возрастании п, вероятность неравенства + 2(р — q) <г будет стремиться к достоверности, как бы мало ни было г. Та же серия опытов может быть использована для получения! ряда зависимых величин, которые все связаны между собой и к ко- торым закон больших чисел неприменим, хотя дисперсии каждой; из них ограничены. Обозначим через т{, тп последовательно наблюдаемые числа появлений события А при 1, 2,t..tn опытах и будем рассматривать числа т.: — ip v'lpq Очевидно, М. О. х, = 0. Можем ли мы в данном случае утверждать, что неравенство | -j- х2 -j- ... -j- | £ (при всяком е > 0) обладает вероятностью, стремящеюся к достоверности, при увеличении п? Находим р,-=м. О. х2~\. hk = —М. О. (т, - ip) (rnk — kp) = pq v ik = —M- O.,(^ — ip)[mi— ip-\-mk — (Z — k)p] = pq |/ ik так как, полагая ky>l, замечаем, чго ввиду независимости результа- тов последующих (k—i) опытов от результатов первых z опытов М. О. (т; — ip) [mk — 4- (Z — k)p] = 0. Следовательно, в="+2[т? + .'3 + + tM +2 [/4 V T + - 1 + /2 l+l/2 + 1/З, 1+/2+. ..+ /n- 11 + 7T + • • • +--------------------J > Z! 4-2Г 1 -t- 2 -l- 3 -t- -4-” — Ч ' "(" + 1) 4- 2^—-|- - + - j=n +-_ =-,
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЫП. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ. 181 так как вообще /а + Vп—а п , а потому 1+ V 2 + ... + /л — 1 > / п • ,. л D . п(п +1) В Из того обстоятельства, что В > 1—-> заключаем, что — к 0 не стремится. Мы отсюда не в праве непосредственно заключить, что в данном случае закон т} — in ‘больших чисел неприменим, так как величины х> = —могут неогра- / Ipq шиченно возрастать. Для доказательства этого нужно было бы сделать допол- нительное рассуждение, аналогичное тому, которое было применено в конце главы 11; не останавливаясь на этом, заметим лишь, что указанное заклю- чение является следствием следующего общего положения: если для до- статочно больших значений L вероятност ь не равенства 4~ * - - Л~хп* • • Ч~ п п меньше, чем где а > 0, то закон больших применим к величинам xt, х_»,..., В хп, когда чисел йе- не с т р е- :м и т с я к 0 с возрастанием п. 3. Не следует, однако, думать, что закон больших чисел будет обязательно нарушен, если связь существует между всеми вели- чинами х7, х2,хл. Необходимо только, чтобы эта связь была не слишком велика, чтобы она, например, достаточно быстро убывала при удалении величин х- и xk друг от друга, т.-е. когда | z — k\ доста- точно велико. Мы можем придать высказанному замечанию более определенную форму, введя несколько новых понятий, которые нам понадобятся и впоследствии. Пусть х7 и х2 будут две какие-нибудь величины, имеющие М. О. х1 = а1, М. О. х2 = л2. Мы уже раньше назвали дис- персией ^величины х мат- ожид. (х—а)2, т.-е. положили ^ = М. О. (х —flj)2, Р2 = М. О. (х—л2)2 и т. д. Назовем теперь штандартом а величины х значение д = |Z ; там, где это не будет вызывать неясностей, мы будем также приписывать? д тот- же значок, что и х, как мы это делали для математических ожиданий и для дисперсии; но в иных случаях придется писать а (х), (х), л(х) .для соответствующих постоянных, так что, например: ai==5(Xj), = а1 = а(х]), _ а2 = а (х2), а2 = а (х2).
182 ЗАКОН БОЛЬШИХ ЧИСЕЛ Согласно данному определению, вообще 3 = (123) ’Зависимость между двумя величинами в значи- тельной мере характеризуется1) величиной матема- тического ожидания произведения отклонений рас- сматриваемых величин, и если мы хотим отвлечься от абсолютного значения каждой из ^тих величин и характеризовать эту связь отвлеченным (а не именованным) числом, то для этой цели служит коэффициент корреляции 7?12 = 7?(х1,х2) между дан- ными числами, который определяется формулой /?1,2 = М. О. [х7 — [х2 — а2] М. О. хт х2 — ау а2 (124). а2 а1 °2 Очевидно, в случае, когда величины хг и х2 незави- симы, коэффициент корреляции между ними Т?ь2 = 0, однако, обратное заключение, разумеется, вообще несправедливо: например, если при хг = 2, х2 = 0, а при хг =—1 имеем либо х2= 1, либо х2=—1, где все пары зна- чений (2, 0), (— 1, —|— 1), (—1, — 1) равновероятны, то М. О. хт = 12 11 = — •2 —— -1=0, М. О-х2= — -1-—.1=0, М. О. хгх2 = О О о о = — . 1-------1 = 0, а между О о тем зависимость между Xj и х± настолько велика, что, если дано значение х2, мы сразу можем ука- зать значение xv и если известно, что хг = 2, можем утверждать, что х2 = 0. Следует заметить, что определение коэффициента корреляции между двумя событиями, данное в гл, II, ч. 1-я, является частным, случаем общего определения, которое мы только что ввели. Дей- ствительно, если (/Ц) и (Д2) суть соответственные вероятности фактов Аг и Д2, а (Лр А2)-—вероятность их совмещения, то М. О. (xj = (4j), М. О. (х2) = (Л2), М. О. х\ =(/1!), М. О. х2 == — (^2)’ М* О* ^1^2 — (^1’^2) 9 Более подробно мы на этом остановимся впоследствии.
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШ. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ. 183 (Xj и х2 означают соответственно число (1 или 0) появлений события Аг и А2 в одном опыте). Тогда = а* = G^) - W = (Л,) Од ?2 = = (Л2) - (Л2)2 = (Л2) (AJ, где (Л) есть вероятность непоявления факта А. Отсюда видим, что формула (124) равнозначна в этом случае формуле (Л,^)-^)^) Ал.2 = w г---------=— ’ (21) /(Л^КЛ^) выведенной в указанном месте. Проверим, что так же, как и в указанном частном слу- чае, вообще -1</?Ь2<1, (125) при чем /?1,2 достигает крайнихзначений-(-1й—1 тогда и только тогда, когда между уклонениями Xj — и х2 — а2 существует строгая пропорциональ- ность1), т.-е. где знаксоответствует а знак — имеет место при /?1,г = — 1. Действительно, принимая во внимание (124), М О ГI..12! 1 | 2М* О' । 1 1 CTj — а2 J “ a3a2 1 = 2±2Rlfi, (127) и так как первая часть равенства не отрицательна, то 1 Zb А?1,2 0» Т.-е. - 1 /?1,2 1 • При этом, если, выбирая определенный знак (например-[-), мы получаем во второй части (127) нуль, т.-е. если /?12 = —1, то это происходит тогда и только тогда, когда имеем тождественно Х-j 6Z-] . Хр Да n X, Q1 О, —----_2-------* — 0, т.-е. когда-1-—-1=---- Oj ^2 *^2 ^2 9 Следует заметить, что иная функциональная зависимость между х4 и х2 совместима с любыми значениями коэффициента корреляции | R | < 1. (См, стр. 358.)
184 ЗАКОН БОЛЬШИХ ЧИСЕЛ 4, Полагая теперь, что мы имеем любое число п величин, нахо- дим, пользуясь вновь введенными обозначениями, В = М. О. [(X, + х2-J-... + хп) — (а, Д-Д-2 = “ °1 + 32 "1“ • • • И- “Г 2 [^1-2 Oj 32 "I- ^1,3 31 °3 + + ... + /?„_1>лал_1ал]. (120 bis) Прежде всего можем заметить, что благодаря (125), во всяком случае, & + а2 + • • • + + 2 а1 а2 + 2 а1 а3 ”1“ • • • + 2ал - 1 а/2 = = (а14-а2-|-... + ал)2. Поэтому, как бы велика ни была корреляция между величинами х1,х2,...,х/г(доходящаядо точной пропор- циональности), закон больших чисел к ним приме- з-i -к -к . . . -4- 3 ним, если ---—— стремится к 0 с увеличе- п н и е м /г, так как тогда д /Ч-н2+• ;•+V п2"" \ п / и подавно стремится к 0. Однако этот случай находит мало применений, так как он, очевидно, может представиться лишь при условии, что большинство величин сами становятся произвольно малы, когда п достаточно велико 1). Более интересен тот случай, когда изменчивость величин х2, ...,хл, измеряемая их дисперсией (или штандартом), более или менее одинакова, так что вообще, можно указать два опреде- ленных положительных числа таких, что 1<^аг<^Ь при всех значе- ниях I (за исключением, может быть, немногих отдельных знач- ков /, наличности которых мы можем, для упрощения рассуждений, вовсе не предполагать) <) Это условие было бы соблюдено в примере, рассмотренном на * !П:—1р п Щ;--ip стр. 180, если бы мы положили х,— - — , где s > 0, вместо - - . (W)^+e ¥1РЧ
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШ. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ. 185 Тогда, очевидно, In а3 а2 4“ • • * 4“ ~п а потому вообще можем лишь утверждать, что B<ZL2n2 и ^<L2- п2 Кроме того, если бы при этом все величины xi и xk были связаны между собой так, что все коэффициенты R^k имели бы не- которую положительную нижнюю границу р, т.-е» • то £ = ai “Н 4 ••• 4- а^4“2 (^1,2 а2 4“ • • • “Г %п-Ъп 3 л ) > nl2 -|- ?12п (п — 1) п2 pl2, и 4>р'2; п2 следовательно, когда коэффициенты корреляции между всеми величинами положительны и не стремятся к нулю, то закон больших чисел к этим величинам вообще1) неприменим. Предположим, что п кандидатам дается одна и та же задача из числа 100 задач, которые имеют равные шансы быть предложен- ными. Допустим, что каждый кандидат умеет решить только 75 из этих задач. Очевидно, что если бы факт правильного решения за- дачи одним из кандидатов не изменял вероятности того, что эта задача будет также удачно решена и другими кандидатами, т.-е. если бы благоприятные исходы экзамена для двух кандидатов были независимыми событиями, то в данном случае был бы при- меним закон больших чисел в форме теоремы Бернулли, а именно: если число кандидатов достаточно велико, то можно быть уверен- 3 ным, что приблизительно— из них решат задачу правильно; так что, полагая, например, что экзамен состоит лишь в том, чтобы ответить „да* или „нет* на поставленный вопрос, следовало бы 9 Предполагая, конечно, что величины не стремятся к 0.
186 ЗАКОН БОЛЬШИХ ЧИСЕЛ всегда признать правильным то решение предложенной задачи, ко- торое дано большинством кандидатов. Приблизительно так рассуждали некоторые философы и математики конца XVIII и начала XIX веков, которые утверждали, что судебный три- бунал, состоящий из достаточно большого числа судей, решая вопросы большинством голосов, практически был бы непогрешим в своих при- говорах; это утверждение, очевидно, неверно, потому что здесь не при- нимается во внимание, чго все судьи судят на основании тех же самых свидетельских показаний и вещественных доказательств, так что в простом деле все они более или менее одинаково разберутся, а если запутанные обстоятельства вводят в заблуждение одних, то и для других судей ошибка становится более вероятной: иначе го- воря, в случае судебного приговора отсутствует условие независи- мости между суждениями отдельных судей, и это коренным образом изменяет положение вещей. Действительно, допустим, возвращаясь к нашим экзаменационным задачам, что 15 определенных задач мо- гут решить все кандидаты, 5 задач не умеет решить ни один и лишь отношение к остальным 80 задачам независимо у всех кан- дидатов (так что если гории, то вероятность данная задача относится к последней кате- 3 ее решения для одного кандидата равна — , известно или нет, что другой ее решил), что задача будет решена двумя независимо от того, В таком случае вероятность /?Ь2, кандидатами, равна р1>2 = 0,15+ 0,8 и, следовательно, по формуле (27), коэффициент корреляции / Q \ 2 0.6 - Ь) /?1,2 = о—\ — = Ъ&. Таким образом, на основании вышесказанного общего положения, закон больших чисел здесь неприменим, что очевидно и само собой, так как имеется 15 шансов на 100, что задача будет ре- шена всеми, и 5 шансов на 100, что задача не будет решена пра- вильно никем.
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШ. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ* 187 5. Докажем, напротив, следующую теорему: Теорема. Если дисперсии pz всех рассматриваемых величин xz ограничены (т.-е. pz^L2, jz^£) и зависи- мость между xz и xk настолько ослабевает, когда \1 — k | становится достаточно большим, что коэф- фициент корреляции Rik между ними равномерно стремится при этом к нулю, то вероятность нера- в е н с т в а 1 Х1 Х2 ~Г — Хл ________ Ч~ Д2 + — • Ч~ П П <е/ (121) при произвольно малом s, стремится к достоверно- сти, когда п безгранично возрастает (иными сло- вами, к величинам xv х2, *.., хп применим закон боль- ших чисел)* Действительно, по условию, как бы мало ни было наперед задан- ное число а, всегда можно указать такое достаточно большое число h (независимое от /г), что, при ) I — k | h, | Ri k К а. Но для доказав тельства теоремы достаточно установить, что В /г2 ^2 ^1 + ^2 + • • • + 5п j с возрастанием п стремится к 0, где Sj = -|- /?1;2 Gj а2 “И ^1.з ai аз Н” • • • ai ^2 ^2.1 а1 а2 Я- а2 ^2,3 а2 ^3 Ч- * * * 4“ ^2,п ^2 $п = Qn Ч" ^л,2 а2 + ’ * * + * Для этой цели замечаем, что каждая из сумм S. удовлетворяет неравенству 15. | < A2 [2AJ-/га], (128) так как a2 <Z А2 и | R. k az |< А2 для любых I и /г, но, кроме того, при | i — k | 7г, | Ri k jz | < А2а. Отсюда следует, что nl? (2Л Ч^/га) = _/г_ ;2 П2 П


190 ЗАКОН БОЛЬШИХ ЧИСЕЛ вероятность в первом опыте равна рг — Р = , мы имеем В частности, это имеет также, для всякого п, л = -—г—-----• п 1 -]"Р — а место в нашем примере с шарами, где следующим, содержит 1 белый и 1 1 Рп у Если же рг — то, по формуле (92), первая урна, подобно по- черный шар; тогда рг — Рп = Р + (Л- Р) (а-₽)"-1 = i + p-a + + (л - i qz ^-a) (« ~ ₽)"-1 • <13°) Точно так же находим вероятность р(^ появления А в д-м опыте, если известно, что факт А произошел в k-м опыте; при k — 1 рас- сматриваемая вероятность р^ должна получиться из формулы (130), в которой /?1 = 1, так как факт А был бы в первом опыте досто- верен, т.-е. Л =Т-г4-----------г 7 g - - (3 — Ю"-'1; (13° bis) Ип l-'-fl—a 1 1 + ^ —сГ ’ 4 ’ поэтому, принимая во внимание, что 6-й опыт играет такую же роль по отношению к n-му опыту, как 1-й опыт по отношению к (п— k-1)-му опыту, заключаем, что вообще а + °31* Таким же образом, обозначая через р^ вероятность наступле- ния А в п-м опыте, если известно, что в &-м опыте факт А не произошел, мы найдем (заменяя во второй части (130) рг через 0, а п — 1 через п — k) -------— (131 bis) Ип 1 -J- — ct 1 + — а4 17 4 В указанном выше примере мы имеем
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШ. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ. 191 так что, например, если мы знаем, что из первого ящика был вы- нут белый шар (и переложен во второй), то вероятность, что из вто- 1 4 2 рого ящика будет извлечен белый шар, равна — . — = — (как нам и 2 о о раньше было известно); вероятность же, что белый шар появится о 1 * * /Ю\ 5 из 3-го ящика, равна уже только— ( —I =—, и т. д., при чем влияние результата 1-го опыта идет все ослабевая и, так как при п I 1 V’1 очень большом ( — I стремится к О, \ о / очень удаленных ящиков вероятность то во всяком случае для появления белого шара „ 1 остается весьма близкой к ~ • Тот же результат имеет место и в обшем случае }), когда —РК 1> так как независимо от исхода &-го опыта вероятность наступления А в /г-м опыте, при п—k весьма большом, стремится к Р = - ( ‘, ибо — а)4 стремится к 0. Вместе с тем, нетрудно видеть, что в данном случае за- кон больших чисел с о б л ю д е н, т.-е. можно утверждать с ве- роятностью, приближающейся к достоверности, что ”а + ^ + ---+л, <t[ (99bls) п п . 1) а — р = 1 означает, что а = 1 и р = 0, в таком случае рп = р$ если событие А произошло в первом опыте, оно будет повторяться неизменно; напротив, если оно не произошло, то оно никогда и не наступит; ясно, что тогда не может быть речи о законе больших чисел. Этот случай предста- вится, например, если мы имеем две урны с шарами, из которых в одной только белые, а в другой только черные шары, при чем шары во всех опытах извлекаются из той же самой урны. При а — ? = — 1, имеем а —0 и р = 1; этот случай представится, если, имея те же две урны, мы будем поочередно А т 1 / 1 \ вынимать шары из обеих урн. Тогда pn=z~^zip{—т.-е. = и вообще p^k+i^Ри а = поэтому —может быть равно только одному из трех значений ~i-k -Ц таким образом в этом случае закон больших чисел соблюдается с исключительной точностью.
192 ЗАКОН БОЛЬШИХ ЧИСЕЛ где т есть число появлений события А при п опытах, а г — про- извольно малая величина* Для этого достаточно, пользуясь форму- лой (131), заметить, что коэффициенты корреляции Rk4 стремятся к 0, когда п — k неограниченно возрастает, 7. Имея в виду дальнейшие приложения, мы вычислим предел, n р9 4“ • • • Рп к которому стремится средняя вероятность —— • -----—- со- бытия А при возрастании /г, а также соответствующее значение дисперсии В и связанного с нею коэффициента дисперсии, который мы определяем, следуя А* А. Маркову. Пусть в—м. о. ------Нр„)]2; полагая пр —рг р2 + • * • ~гРл, видим, что, если бы мы рассма- тривали ряд п независимых опытов, где вероятность появления со- бытия А1 была бы равна /?, то, согласно теореме Бернулли, число т! по- явлений события А1 будет удовлетворять тому же неравенству (99 bis), что и число т. Одним из существенных отличий обеих серий опытов (которое сможет быть обнаружено статистически) является обычно различная величина дисперсии В. В случае Бер- нулли мы знаем, что М. О. (т — пр)2 = прд. (66) Поэтому существенное значение имеет для каждого данного ряда опытов рассмотрение величины Е= — , npq (132) называемой теоретическим коэффициентом дисперсии данной схемы опытов, который представляет собой отношение дис- персии В числа т в данном ряде п опытов к дисперсии ni числа появлений события в ряде п независимых опытов с постоянною вероятностью р = ‘ . п Заметим, что на существенную роль коэффициента дисперсии для статистики обратил впервые внимание Леке и с (Lexis), кото- рый систематически применял его к исследованию различных демо-
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШ. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ. 193 графических явлений; однако, в отличие от А. А. Маркова, школа Лексиса называет коэффициентом дисперсии Итак, вычислим сначала среднюю вероятность для серии опы- тов, образующих простую цепь. Применяя формулу (130), нахо- дим, что л+/’2 + --- + /’л = ^ + (Л--^)и+(«-?)+ (а-^ + ... + (а - = пР + (Р1 - Р)' —j- , откуда р п } 1 — а-Н Поэтому, при возрастании /г, во всяком случае пред. р=Р\ но, кроме того, если р2~ РУ то и р—Р при всяком /г; в последнем случае в нашей серии опытов средняя вероятность посто- янна, хотя опыты не независимы. Следовательно, вообще при всяком рА неравенство — — Р <е, (133) п произвольно мало отличающееся от (99 bis) для достаточно боль- ших значений /г, также стремится к достоверности. Для некоторого упрощения вычислений мы в дальнейшим огра- - ничимся предположением, что р=рг = Ру предоставляя читателю проверить, что наши выводы остаются в силе и в общем случае. Вообще, согласно (120), имеем в = М. О. [т — (Р1 +р2 +... ^Рп)]2=Р1 -^р2 q2 . • • +Рп Яп + 2 [Р1 [(/^ —Р2) + — Рз) + •. •] + + Pi [(Рз2> — Рз) -Г (Р^ — Pi) +•••]+••• }> так так в данном случае ?/л = м- °- О/ — а) — Ph) = м- °- Х1 xh — PiPh = =Pip(lh — Pi Ph=Pi (Ph — Ph)- Теория вероятностей. 13
194 ЗАКОН БОЛЬШИХ ЧИСЕЛ Ввиду сделанного допущения, что ру = Р, находим, что p.q.= PQ, р.рн=рг, а 1 — а (а — где/г )> / [см. (131)]; поэтому B — nPQ + ^а{[(а-?) + (а-Е)2 + ... = nPQ + 2Р -1^ , 1-(а-р)-2 ' 1+Э-а = nPQ + 2PQ (a-?) [j-JL-- + так как Следовательно, _„PQ(l+a-^) , 2PQ(a-P) - l-L?-a r(1 + ?_a)2lU V 4 В 14-а-И 2(a-0) 1 —(a—^)"1 nPQ 14-^ —a [ n ’ (14-^a)2 J ’ откуда видим *), что при возрастании п пред. 1 +р 1 — р 1 ' (134) В примере с шарами Е = = 2. А. А, Марков исследовал также более общий случай, когда а и jj зависят от п и, кроме того, распространил свои выводы на так назы- 9 По определению коэффициента регрессии, данному в гл. III, ч. 1, а — р ~ р есть коэффициент регрессии (корреляции) между наступлением события в (лф- 1)-м и в п-м опыте.
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШ. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ. 195 ваемые сложные цепи, когда вероятность появления события А в (/z-j- 1)-м опыте делается вполне определенной, если известны ре- зультаты предшествующих ему i опытов, сохраняя то же значение, каковы бы ни были результаты всех первых п — i опытов. Идеи Маркова представляют не только большой математи- ческий интерес, но особенно важны в методологическом отношении, давая теоретические схемы, пригодные для интерпретации многих явлений. Мы рассмотрим немного позднее один из примеров, тщательно разработанных самим А. А. Марковым, и укажем здесь на приложение схемы опытов, образующих цепь, к наслед- ственности. 8. В случае однополого размножения можно принять, что если индивид обладает одним из нескольких s (для простоты положим 5 = 2) несовместимых признаков или Л2, то, каковы бы ни были его предки, вероятность его потомству обладать признаком А3 равна соответственно а или В таком случае, обозначая через рп вероятность индивиду /z-го поколения обладать признаком Лг мы имеем характерное для простой цепи соотношение: Рп+^аРп + Н1—Рп')- Если принимать во внимание те или иные данные изменения окружающей среды, а и могут быть определенными функ- циями п. Более интересный случай двуполого размножения приводит к не- сколько более сложной схеме (которая М ар к о в ы м рассмотрена не была), представляющей собой соединение нескольких переплетаю- щихся цепей. Предполагая опять, для простоты, что $ = 2, мы мо- жем допустить (в соответствии с общепринятыми биологическими воззрениями), что вероятность принадлежности потомка к классу А1 или А2 всецело определяется в данной среде характером его обоих родителей :) (независимо от более отдаленных предков). Поэтому, полагая, для определенности, что вероятность матери обла- дать признаком Ау не зависит от того, обладает ли указанным признаком отец (допущение такой независимости соответствует 9 Это имеет место лишь в том случае, если все индивиды класса Aj (и соответственно класса А2) генотипически однородна; поэтому случай 5---2 практически имеет мало приложений и обычно где а есть число генов, которым определяется данный признак. 13*
196 ЗАКОН БОЛЬШИХ ЧИСЕЛ отсутствию полового отбора по данному признаку), находим, что Рп + 1 = « Рп р'Л ? Рп t1 — Рп } + Y (1 — Аг) Рп + -'г-5 (1-Рп} ^—р'Л Рп + 1 = а’РпРп + УРп (i ~^ )+ Т' (i — Рп} Рп + + §'(1-^(1 -рп), (135) где рп и рп — вероятности обладать признаком Д3 индивидам /2-го поколения соответственно мужского и женского пола, a (a, JJ, у, 8)-* и (аг, [Г, у\ Зг)— вероятности, что особь мужского и женского пола, рождающаяся у соответствующей пары родителей, будет обла- дать указанным признаком. В большинстве случаев можно принять, что р = рп-> = —у'=^ = у и &=8Г; тогда мы получим> лишь одно уравнение Рп + 1 = аР2+^Рп<Л-Рп) + ^-Рп)2’ (136) характеризующее простейшую переплетающуюся цепь. Мы полу- чили бы простую цепь А. А. Маркова лишь в том случае, если бы г Г предположили, что рп дано, например рп = 1, что соответствовало бьп допущению, что женская особь всегда обладает признаком Av т.-е. что самцы всегда скрещиваются с самками, обладающими призна- ком /Ц; в этом предположении уравнения (135) приведутся к одному уравнению Рп + 1 = аРп~г7(1—Рп)- Не останавливаясь на математическом анализе полученных урав- нений, заметим лишь, что они обнаруживают чрезвычайную плодо- творность пути исследований, намеченного А. А. Марковым. Заканчивая эту главу, полезно будет указать общую теорему,, дающую во всех случаях условие необходимое и достаточное для приложимости к данному ряду зависимых опытов закона больших чисел. Теорема. Пусть ph представляет первоначальную ве- роятность факта А в й-м-опыте,/^.— его вероятность,, когда известно, что факт А произошел в &-м опыте,.
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШ. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ. 197 а р{ *— вероятность Л в /г-м опыте, если известно, что в &-м опыте он не наступил; пусть далее р — Р1 + = + + Рп п п >п п ’ п(*) । П(*Х । । п(*) p(k) = Р1 ~Гр2 + • • • ~г « п представляют: первая — первоначальную среднюю ве- роятность события А в наших п опытах, а р^ и P^f — соответственно условные значения средней веро- ятности1) после того, как становится известным положительный или отрицательный результат од- ного только го опыта. В таком случае для примени- мости закона больших чисел необходимо и доста- точно, чтобы произведение стремилось равномерно (т.-е. независимо от k) к нулю при возрастании п. Иначе говоря, рассматривая любой опреде- ленный &-й опыт из нашего ряда, нужно, чтобы разность между условными средними Р^ и Р^ вообще стремилась к 0, но эта раз- ность не должна непременно стремиться к 0 для тех значений k, для которых pkqk само стремится к 0, т.-е. для тех опытов, исход которых почти несомненен. Упражнения. 1) Даны 2 урны с шарами; вероятности появления белого 3 1 шара из каждой урны все время остаются равны соответственно В случае появления белого шара, извлечение снова производится из той же 9 Теорема ос!ается в силе, если вместо Р^ и Р^ рассматривать л _ (Г) J , (Т) п п п ' п иными словами, значения р^ и р(р не играют роли при i < т -е. влияние &-го опыта на предшествующие опыты может не быть учитываемо См. мою ^статью ,,О закоие больших ,чисел“. Сообщ. Харьк. Мат. О-ва 1918 г.
198 ЗАКОН БОЛЬШИХ ЧИСЕЛ урны; в противном случае выбирается другая урна, При первом вынимании- выбор обеих урн равновероятен, Требуется определить среднюю вероятность появления белого шара и дисперсию числа т этих появлений, Отв, Пусть ал, £л, (ал4-рл—1)— вероятности, что в л-м опыте извле- чение производится соответственно из 1-Й или 2-й урны; рп — вероятность появления белого шара в л-м опыте, Имеем уравнения 3 , 1 0 Рп---4 ал 4" 4 гл ’ „ -1 3 ; _ 3 Ч ап + i 4 ал + 4 ?л 4 > , -1л R - L Рл + t— 4 ял + 4 Рл 41 которым удовлетворяют как первоначальные вероятности, так и условные вероятности <№, соответствующие предположению, что при Л-м 3 15 опыте вынут белый шар, Поэтому ал + 1 = —т f л + 1 — -j-, рп + {= -g- при вся- коил>0,иточнотакжеа^ = -|-, = /’й-л = 4 при Л>1’ а; 3 £ (А)_______4 * 4 „ 9 Й(Л) __1 „(А) _£ %.!—_з 1 ~10’ 10’ 4 ’ 4?+ 4 ’ 4 при k > 1, и а G) _ 2 ~ 8’ р 2 4 Следовательно, р___ Pi + А + < • * + Рп _3 1 л ' 8 8л’ а Я = 1+(Л-1)Ц + 2(Л-2)А = ||Л-^ коэффициент дисперсии --------------- 64 " + 32 64л 21л—11 7 15л + 2— 1 S 1 л Очевидно, что здесь мы не имеем цепи А, А. Маркова, так как если бы- белый шар появился k раз под-ряд, вероятность его появления в (А+ 1)-м опыте 3 имела бы пределом при неограниченном возрастании Л, потому что с уве- личением k приближается к достоверности вероятность, что извлечение про- исходит из первой урны.
РАСПРОСТРАНЕНИЕ ЗАКОНА БОЛЬШ. ЧИСЕЛ НА ЗАВИСИМЫЕ ВЕЛИЧ. 199 2) Дана урна с N шарами, из которых Af белых; после каждого извлечения на место вынутого шара кладется черный шар. Вычислить дисперсию Вп числа т вынутых белых шаров при п извлечениях. Оте. Вп = М [(1 - 1)" - (1 - 2)"] + М* [(1 - - (1 - • Для получения этой формулы можно воспользоваться методом конечных разностей (стр. 136). Находим сначала замечаем затем, что В„ = М. О. [т- [1 - (1 - lyl М удовлетворяет уравнению в конечных разностях искомым решением которого является написанное выше выражение. Коэффициент дисперсии При больших значениях 7V, полагая п = a/V, получаем (приближенно) Таким образом, при а малом, Е близко к единице; но при больших а Е быстро убывает, как е~а} естественно приближаясь к 0, когда число вы- нутых белых шаров настолько велико, что дальнейшее появление их ста- новится практически невозможным.
ГЛАВА ЧЕТВЕРТАЯ СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ И КОЭФ- ФИЦИЕНТ ДИСПЕРСИИ L Предположим, что рассматривается некоторая весьма обшир- ная или неограниченная совокупность объектов, из которых одни обладают данным признаком А, а другие этим признаком не обла- дают; мы можем также смотреть на совокупность этих объектов как на совокупность опытов, при реализации которых данное собы- тие А иногда наступает, а иногда не наступает. Разумеется, этого вообще недостаточно для того, чтобы утверждать, что факту или признаку А можно приписать определенную, характеризующую всю совокупность опытов или объектов, вероятность. Только в том случае, когда постановка опытов такова, что неизбежное различие двух конкретных опытов, наблюдаемое нами, не может влиять на различие их исходов, проистекающее от не подлежащих учету причин, можно принять, что вероятность А во всех опытах одина- кова. Это имело бы место, например, если бы событие А заключа- лось в появлении белого шара из урны с неизменяющимся соста- вом шаров, при условии, что, вкладывая обратно после каждого извлечения вынутый шар, мы тщательно перемешиваем все шары. В большинстве практических примеров требуемое условие не бывает соблюдено; тем не менее, произведя большое число п опытов, т пытаются охарактеризовать всю совокупность отношением — числа п т появившихся событий к общему числу п опытов, или, что то же самое, отношением числа объектов, обладающих признаком А т к общему числу наблюденных объектов. Это отношение — назы- п вается статистической, или эмпирической, вероятно- стью события или признака А. Значение этого понятия и пределы законности его применения выясняются следующей теоремой, которая является некоторым образом обратной теореме Бернулли.
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 201 Если-известно, что в рассматриваемой совокуп- ности независимых опытов появление события А имеет одну и ту же вероятность р, то после осуще- ствления достаточно большого числа п опытов, при которых событие А произошло т раз, можно утверждать с вероятностью, сколь угодно близкой к достоверности, что имеет место неравенство т (137) где е—произвольно малая величина, лишь бы a priori такое неравенство (при всяком достаточно малом е>0) было возможно. Наше основное допущение состоит в том, что постоянная веро- ятность р существует. Пусть отрезок теоретически возможных значений р от 0 до 1 разделен был первоначально на интервалы так, чтобы длина каждого интервала не превышала е t 2’’ тогда, обозначая через /Ио один из концов интервала, где находится —, будем иметь т --Ч п и Ё (138) Мы допускаем, согласно условию, что неравенство Ь-^|<4 (139) a priori возможно* 1) и имеет вероятность2) /(е)>0; но так как для осуществления неравенства (138) достаточно осуществление (139) совместно с неравенством т £ Т’ .*) Это допущение может показаться настолько очевидным, что о нем излишне упоминать, но нужно иметь в виду, что р могло бы при соответ- ствующей постановке опытов допускать лишь ограниченное число значений: например, если в урне только 3 шара, то невозможно неравенство I 2311 12 \р — гк <тп, так как р может быть только или (кроме 0 и 1). ] 30 | 10 . 3 3 2) Наиболее естественно допущение, что /(е) но в этом ограни- 2 чении нет необходимости.
202 ЗАКОН БОЛЬШИХ ЧИСЕЛ которое, согласно (70), имеет вероятность большую, чем то вероятность a priori неравенства (138) больше, чем /(е) 1 1_Ц£, г2п 16/W1 e2n J 1 X —/(е), если п достаточно велико. С другой стороны, вероятность осуществления неравенства (138) н нарушения (137) меньше, чем — C ry-) но вероятность этого 6 it л совмещения равна вероятности a priori неравенства (138), умно- женной на вероятность Q того, что т р-Т е после осуществления неравенства (138); поэтому и, следовательно, при данном е, 1 " 2/(ё)е’л стремится к 0 с возрастанием п. Поэтому, после того как известно, что событие произошло т раз, вероятность Р неравенства (137) приближается к пределу 1 с возрастанием п. Пользуясь неравенством (106) вместо (70), можно было бы таким же образом установить, что 4 О (140) е Полагая, например, находим, что если при п = 600 1 р—2 1 —, больше, чем т — 300, то вероятность, что 1 — у е-п‘г=1— 80е~6^0,8, а при п = 6 000 и /п = 3000, эта вероятность больше, чем 1—80е-60^>1 —1^24* Если бы было
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 203 известно, например, что в урне 6 шаров, занной степенью вероятности утверждать, то мы могли бы с ука- что число белых шаров ней равно 3, т.-е. Р = Это же заключение осталось бы в силе и в том случае, если бы при 6 000 извлечений было извлечено не менее 2 700 и не более 3 300 белых шаров, так как при т -~2 700 указанную вероятность, граничащую с до- стоверностью, имело бы неравенство К 601< ю ’ т.-е. 21 33 60 Р < 60 ’ но из всех возможных значений р этому неравенству удовлетворяет лишь 1 Р—2- Доказанная теорема устанавливает таким образом, что вообще т статистическая вероятность — дает приближен- ное значение неизвестной (постоянной, по предпо- ложению) вероятности р существования признака А у объектов данной совокупности, точность кото- рого безгранично возрастает с возрастанием п. 2. Аналогичный результат можем получить для обоснования теоретического значения средней арифметической из ряда наблю- денных величин хр х2,..хп. Основное допущение, которое здесь опять нужно сделать, это предположение, что все рассматриваемые величины хрх2,...,хя имеют одно и то же математическое ожидание а. Кроме того необходимо, чтобы к вели- чинам хр х2,. .., хл был применим закон больших чисел; для определенности вводим ограничение Чебышева, что величины xi независимы и имеют ограниченную дисперсию р. = М, О. (xz —а)2<А. В таком случае, после того как определятся величины хл, х9,. .., х„, можно утверждать с вероят- Величина Л40, входящая в данное выше доказательство, может быть 29 взята равной
204 ЗАКОН БОЛЬШИХ ЧИСЕЛ ностью, приближающейся при возрастании п к достоверности, что неизвестное нам значением математического ожидания, общего, по предполо- жению, всем величинам удовлетворяет нера- венству *1 + *2 + • • • "Г где е — данная произвольно малая величина (лишь бы только a priori возможность такого неравенства не была исключена). Доказательство совершенно аналогично данному выше для слу- чая, когда а представляет собой неизвестную вероятность, и поэтому нет надобности его воспроизводить. Таким образом, если мы знаем, что все наблюдаемые нами значения х1,х2,...,хл имеют одно и то же ма- тематическое ожидание а, то средняя арифмети- Х-. 4“ ^2 4“ ’ ’ ’ 4“ Хп v £ ч е с к а я !J—- =Х дает приближенное зна- п чение а, точность которого безгранично возра- стает с увеличением п. Более полно вопрос о погрешности этого приближения будет разобран в дальнейшем, а пока получен- ные результаты могут служить нам достаточным основанием для того, чтобы пользоваться практически приближенными равенствами Следует заметить, что, если вместо простой средней арифметиче- ской X взять взвешенную среднюю где рр р2,..., рл — какие-нибудь данные, ограниченные сверху и снизу <С Pz <С Н ПРИ всяком /’) положительные числа, то, применяя аналогичное рассуждение, можно убедиться в том, что и XQ с воз- растанием п сколь угодно приближается к а, так что справе- дливо также приближенное равенство а^Хг/ Напротив, пользование другими средними для приближенного нахождения О. xz вообще недопустимо; и если мы возь- мем, например, геометрическую среднюю £ = . .хп1 то понятно; что $ не может служить приближенным значением для а, так как достаточно, например, чтобы хоть одна из величин xi была равна нулю, чтобы, независимо от всех прочих, оказалось и
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 205 Правило средней арифметической обычно применяется, когда, на основании ряда наблюдений неизвестной величины, хотят полу- чить возможно точное ее значение. Предыдущие замечания вполне оправдывают этот способ, если неизвестной величиной является математическое ожидание а наблюденных величин, при чем ника- кого другого физического смысла величина а не имеет. Но тем же способом пользуются часто, когда неизвестной является некоторая физическая величина х, которая, вообще говоря, отлична от мате- матического ожидания а наблюденных величин xv х2,. .., хп* Предположим, например, что наблюдатель производит определен- ный физический опыт для определения скорости звука (или света) в пустоте. Повторяя тот же опыт при одинаковых условиях, он получает, благодаря сложности опыта, не вполне одинаковые чис- ленные результаты хр х2,...,хл для искомой скорости х. Беря , Х-] — I— Хп -4- «.. -4- х среднюю арифметическую А=—!——---------------!—-, он рассчитывает получить, произведя достаточно большое число опытов, сколь угодно точное значение скорости х. Правильно ли это ? В действительности, средняя арифметическая X даст ему лишь приближенное значение величины а = М. О.хр и если сама схема его опыта была неудовлетворительна или приборы плохо прове- рены (например, измерительная линейка вместо 1 м равна 0,999 мм), то, как бы точно наш наблюдатель ни нашел значение у него нет оснований считать, что X или а соответствуют истинному значению скорости звука, которая может быть наблюдаема в дру- гих самых разнообразных опытах. Основное допущение, которое должно было бы оправдать применение способа средней арифмети- ческой к физическим измерениям такого рода, состоит в предполо- жении, что неизвестная величина а — М. О. xz или, другими словами, что измерение (или вычисление) производится без систе- матической ошибки. Не останавливаясь более подробно на этом вопросе, который не имеет прямого отношения к интересующей нас теме, заметим еще, что и при отсутствии систематической ошибки невозможно при помощи измерительных приборов, обладающих ограниченною точностью, получить благодаря многократному измерению значение искомой величины с произвольно большою точностью. Если, напри- мер, я возьму из таблицы пятизначных логарифмов мантиссу какого-нибудь числа, заканчивающуюся цифрой 5, и предложу
206 ЗАКОН БОЛЬШИХ ЧИСЕЛ 100 слушателям моей аудитории отбросить последнюю цифру, по своему усмотрению сохранивши или увеличивши на 1 единицу, согласно правилам приближенного вычисления, 4-ю цифру ман- тиссы, то было бы очевидною нелепостью предполагать, что сред- няя арифметическая полученных таким образом 100 мантисс, кото- рая выразится шестизначной дробью, имеет больше шансов соответствовать действительному значению шестизначного логарифма рассматриваемого числа, чем если я сам наудачу припишу к пяти- значной мантиссе шестую цифру: полученный результат будет зависеть исключительно от фантазии моих слушателей, которая ни в какой мере не направляется истинным значением логарифма, и мы получили бы тот же результат, если бы предложенное число было взято из любой другой таблицы. Вообще, способ средней арифметической, в силу закона больших чисел, сглаживает уклонения отдельных наблюдений xz от их математического ожидания а, но если самим наблюдениям xz присуща некоторая неопределенность + S, то, согласно определению математического ожида- ния, той же неопределенностью обладает также и а; поэтому, поскольку при составлении средней арифметической мы можем (независимо от каких бы то ни было объективных осно- ваний) заменять xz через xz-|-OzS (—1 <Д-<С 1)> задача опреде- ления а (или физической величины х, приравниваемой я~М. О. xz) с погрешностью меньшею, чем S, лишена смысла. 3- В силу установленных выше положений вычисление стати- стической вероятности — приобретает особое значение, когда мы знаем, что опыты рассматриваемой совокупности независимы и при каждом из них появление факта (признака) А имеет одну и ту же вероятность р. Важно поэтому указать прием для проверки того, имеет ли место последнее предположение. В данном случае, как и во всех вопросах теоретической схема- тизации явлений природы, опыт обычно не доказывает, что та или иная гипотеза справедлива, но может лишь доказать ее неправильность, если следствия, вытекающие из теории, не подтверждаются в дей- ствительности. Правда, поскольку утверждения теории вероят- ностей не обладают в применении к практике абсолютною катего-
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 207 ричнбстью, опыт часто дает лишь уклончивый ответ на вопрос о том, совместима ли наша гипотеза с наблюдениями или нет, но если осуществляются факты, которые, согласно допущенной гипо- тезе, имеют очень малую вероятность, и, напротив, очень вероят- ные факты не происходят, то это является более или менее опре- деленным указанием того, что гипотезу нужно отвергнуть. До тех же пор, пока особо резких несоответствий между теорией и действительностью не наблюдается, схемы теории вероятностей, обладающие доста- точной простотой, могут служить рабочими гипо- тезами, дающими возможность при помощи не- скольких численных показателей характеризовать более или менее точно данную статистическую совокупность. Итак, остановимся на важнейших следствиях, вытекающих из предположения, что при осуществлении весьма большого числа /V независимых опытов вероятность факта А все время была равна р. Разобьем наши А/” опытов на 5 равных групп ($ не должно быть мало, примерно не менее 15—20) по п опытов в каждой группе, так что N=sn. Положим, что в каждой группе отмечено, соответственно mv /п2,. .ms появлений события А -|- ... 4- ms = М). В таком случае для каждой группы диспер- сия числа mi появлений факта А равна 0Z = M. О. — пр)- — прq. Поэтому, полагая _ (п^ — пр)- npq видим, что М, О. xz = 1, и следовательно, допуская, что к величи- нам применим закон больших чисел, можем утверждать, что при 5 достаточно большом вероятность неравенства (т^ — прУ _ (ff?2 ~ ^)2 I . 1 (^5— M2 _ t <Z £ snpq Г snpq * snpq т.-е. /—.S' Цо,—«A»2 — 1 Npq <e, (Hl) при произвольно малом £, сколь угодно близка к достоверности.
208 ЗАКОН БОЛЬШИХ ЧИСЕЛ Для того чтобы проверить, что закон больших чисел в данном случае применим, достаточно убедиться, что М. О. (xz— 1)- остается ограниченным. „ 2 М. О. (т.—пр)± С этой целью вычисляем М. О. х. =----- п; пользуясь 1 n2p2q2 J формулами, данными в упражнении в конце главы VI, ч. П, находим М. О. = (142) 1 npq откуда М. О. (х,._ 1)^2 +-1^(1-6W)^2 так как п обычно довольно велико). Применяя венства теорему Чебышева, видим, что вероятность нера- больше, чем У, (т, — пр)* 1 Npq , % 1-----п; если с = 1, si2 (141) то эта вероятность больше, чем 2 1------•, и, например, при 5 = 20 5 она больше 0,9. Можно доказать 9, что, если е^1, то применимо неравенство (106); поэтому вероятность, что D = У пРУ > 2 (Г43> 9 Полагая п достаточно большим, убеждаемся, что | М. О. (х2— 1)* | < <2л*/г!, так что в неравенстве (105) можно положить Н - 2. Для этой цели, пользуясь результатами следующей главы, достаточно заметить, что =:2(А —1)[М. О. (xz—1)^-1 4-М. О. (-Г. — 1)^-2]. Поэтому допуская, что |М. О. (х — 1)^-1 ;< 2^-Ц/г — 1)! и j М. О. (х,— 1^”2 | < — 2)!, находим также, что м. О. (jfz — l)V < 2Л-ЦЛ — 1)![2(А — 1)+ l]<2*./z!; но так как для А = 2 требуемое неравенство осуществлено, то оно осуще- ствляется и для всякого h. Для малых значений п неравенство (105) также осуществлено для значения Н близкого к 2.
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 209 меньше, чем е (так как е = 1 соответствует г = следовательно, например, при s — 40, вероятность (143) меньше, чем 0,006 75; для 5 = 100—меньше г '12?5 0,000 001 5. Рассмотрим пример, численные данные которого мы заимствуем у Charlier „Grundziige der Mathematischen Statistic. Было произведено 10 000 выниманий карты из полной колоды карт с возвращением обратно извлеченной карты, так что вероят- 1 ность появления карты черной micth во всех опытах; все опыты были разделены на s = 20 групп по 500 опытов в каждой; оказалось, что — 250 (/«.- — 250)’2 т{ —252 2 4 т2 — 235 — 15 225 /и3 - 248 — 2 4 -271 21 441 =260 10 100 /и6 = 246 — 4 , 16 . 228 — 22 484 =229 — 21 441 — 234 — 16 256 /и10 = 250 0 0 /7?и = 271 21 441 - 234 — 16 256 /и13 = 258 8 64 = 233 — 17 289 = 273 23 529 — 244 — 6 36 /и17 = 249 — 1 1 ш18 — 241 — 9 81 mi9 = 231 — 19 361 /«20 -24!) — 4 16 У {mi — пру = 4 045; Npq = 10 000 • 2- =2 500; _ 4045 ~ 2 500 1,618. Величину (fflz— яр) 2 П=У N pq 1 У ^т‘ ~~ пр^ s npq Теория вероятностей. 14 (144)
210 ЗАКОН БОЛЬШИХ ЧИСЕЛ мы будем называть эмпирическим коэффициентом дис- персии данной группы опытов, соответствующим предположе- нию, что во всех опытах вероятность равна числу р. Теоре- тическое значение О в случае, если вероятность/? постоянна, равно 1; если бы s неограниченно воз- растало, то, согласно закону больших чисел, D должно было бы мало отличаться от своего теоре- тического значения 1, которое является теоретическим коэффициентом дисперсии т в каждой группе. Действительно, располагая предыдущие 10 000 извлечений карты в 1 000 групп по 10 в каждой, Charlier находит, что tn = 0 в 3 группах tn --- 1 я 10 V т — 2 я 43 л 2 (га,- -- пр)> 44- 3 • 25 4- 10 • 16 -г 43 • 9 + 116 • 4 т 3 и 116 н + 221 • 1 + 202 1 +115 • 4 + 34 • 9 + 9 • 16 = 2 419. tn ~ 4 я 221 Я tn = 5 я 247 я т = 6 я 202 Я т = 7 я 115 я D = Дт^—пр}* = 2419 _ 0 6 т ~ 8 и 34 п N pq 2 500 т ~ 9 я 9 и гп — 10 я 0 п Таким образом указанные численные результаты не противо- речат сделанной а имело вероятность priori гипотезе, что 1 равную ~ во всех появление черной карты опытах и что эти опыты были независимы между собой. Для вычислений удобнее разбивать всю совокупность опытов на равные группы, но тот же прием может быть приложен и в том случае, если статистические данные естественно оказались распре- деленными между неравными группами, так что в каждой из s групп имеется соответственно по nv ns опытов (или объектов). В таком случае опять составляем для каждой группы ‘ ni РЧ так что теоретический коэффициент дисперсии тр т.-е. М. О. х- — 1; поэтому, при s весьма большом, вероятность неравенства вида (145)
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 211 1 (т. — п.р)2 стремится к достоверности. D = —? лявляется, как и раньше, эмпирическим коэффициентом дисперсии, теоретическое значение которого равно 1. Заметим, что школа Лексиса называет коэффициентом дисперсии не £), a j/Z). Будем ли мы придерживаться терминологии Лексиса или принятой нами тер- минологии (Маркова), во всяком случае для того, чтобы .гипотеза о постоянстве вероятности была допу- стима, нужно, чтобы эмпирический коэффициент дисперсии D (или |/D) мало отличался от 1 (коэффи- циент дисперсии А. А. Маркова, очевидно, более чувствителен, чем коэффициент Лексиса). 4. В примере, который был рассмотрен выше, a priori была известна вероятность р • Но в действительности у нас ча- сто нет теоретических оснований, чтобы a priori приписать опре- деленную вероятность рассматриваемому факту или признаку А. В таком случае мы принимаем за предполагаемую вероятность наблюденную статистическую вероят- .ность —, где А^ = л1л2+ Яу есть число всех опытов, а М = -|~ т2 — число всех появле- ний нашего события Л, и проверяем, насколько эта гипотеза допустима. Таким образом, в случае равных групп (N ~ ns), следует .положить М = (146) •откуда / М\2 / М\2 ( т, — л — I т,------- ___\ ‘ N) \ ' з ) х‘~~мг _ Ж — м_( _Ж "л/Д ~ N) Ту1 _ N) \ к) .Эмпирический коэффициент дисперсии D попрежнему должен 'быть близок к 1 для больших значений s. 14*
212 ЗАКОН БОЛЬШИХ ЧИСЕЛ 1 / М\2 У----т,---- П;~Т7 П. \ 1 1 N ) И & sM / /14 ~N \1 ~ /V (147bis> Как было указано выше, практически D <^2, при зна- чениях 5, не превышающих несколько десятков,, можно считать удовлетворительно согласующимся с предположением постоянной вероятности; если же s достигает 100 и больше, то неравенство (106) или формула Лапласа (Гаусса), о ко- торой речь будет впереди, позволяет более точно установить допусти- мые границы уклонения эмпирического коэффициента дисперсии от 1. Если группы не равны, то / Му Х ~ М /, М N Однако, во избежание сложных вычислений, если группы, соответ- ствующие, например, различным областям страны, не очень различны по размерам, предпочтительно сделать равные механические выборки, из более обширных групп так, чтобы все элементы группы имели равные шансы быть выбранными. Сводя таким образом число ново- рожденных в 24 провинциях Швеции в мае 1883 года, Шарлье (Charlier) находит, что из 12 000 новорожденных 6 186 было- /И мальчиков, так что—= 0,516; сумма квадратичных уклонений У, — 258)2 оказывается равной 4 600. Поэтому, по формуле (147) D= 12 ---- 1,53, и гипотеза посто- янной вероятности довольно правдоподобна. Если опыты рассматриваемой совокупности не независимы, или же вероятность факта А не постоянна, то вообще теоретиче- ский коэффициент дисперсии не равен 1, а следовательно и эмпи- рическое. его значение D более значительно уклоняется от 1. Нужно помнить, однако, что только при больших, значениях s эмпирическое и теоретическое зна- чения коэффициента дисперсии друг от друга мало отличаются. 5. Предположим, чго в каждой группе1) вероятность р~ постоянна, но значения р. в разных группах раз- *) Мы ограничиваемся, для простоты, случаем, когда все группы чис- ленно равны п£ = -— •
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 213 личны; тогда средняя вероятность для всех групп р — 11 Рг 4~ Ps . s Очевидно, по закону больших чисел, мы нашли бы, что для больших Д4 ул _ I - —I— .4' —о значений N отношение — = —----------—— —- мало отличается N ns от Р; таким образом та же самая статистическая вероят- ность могла бы быть получена в данном предположении, как и ,в случае, когда все р.= Р, Однако рассматриваемый теперь случай ’Существенно отличается от предыдущего тем, что ему соответствует коэффициент дисперсии D больший, чем 1, или, как принято говорить, дисперсия в такой серии опытов сверхнормальна. Действительно, мы получили бы нормальную дисперсию, т.-е. коэффициент дисперсии равный 1, если бы брали отдельно для каждой группы М. О. (mi—npf)2 nPfli но если мы рассматриваем величины (т.— пРу2 nPQ м Q х _ М. О. |от — zz/r — п(Р — p,)j2__ W/+w2(p — Р,)2 nPQ nPQ PQ Поэтому £м. O. ----- = _^[Pi — P*} +2Д°2 — 2pPrrPQ +(«— 1)2Z(P — P,/_ — PQ sP 4- sP2 -- 2sP2 + (n — 1) У (P — p(.)2 = pQ =
214 ЗАКОН БОЛЬШИХ ЧИСЕЛ Отсюда теоретическое значение коэффициента дисперсии £ = £м. О.^ = М. О. П=1+^1£(Р-а.)2. (14S) Таким образом, обозначая среднее квадратичное уклонение отдельных вероятностей р. от их общей средней Р через й, а именно, полагая й =(Р—Д)2? находим £ = М. О. £> = 1 +(и- 1)-| (148 bis) Отсюда заключаем, что если п значительно, то коэффициент дис- персии становится большим и способен дать некоторые указания относительно величины й. Предположим, например, что произведено 100 групп опытов по 100 в каждой, при чем в 50 группах вероятность появления 2 3 1 / 1 \2 данного события -, и - — в других 50. Здесь Р = -, S—I—| = 5 5 2 \ 10/ = 1U6’ П0ЭТ0МУ + 0,99*4 = 4,96, и число $= 100 доста- точно велико, чтобы и по значению эмпирического коэффициента дисперсии D (который, без сомнения, будет было видеть, что средняя вероятность вероятность, общая всем опытам. Отметим также случай независимых нормальной дисперсией, когда Е 1 не менее 3) можно не есть постоянная опытов с под- хотя на практике- он имеет мало значения. Предположим, что вероятности в различных опытах вообще различны, но средняя арифметическая вероятность в каждой группе одинакова, так что в различных п опытах каждой группы вероятности соответственно равны pv р„ .,рп, и их средняя равна Р = Р1Л-Р2 + - +рп п которая служит таким образом общей средней вероятностью и для всей совокупности.
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 215 Тогда .. „ м. О. (т. — пРу 2.РР М' °' '- =----TiPQ----^^PQ £(/>» -Z1 - V (Р -ft)> - ,Р’ + £„; = nPQ ^nP-nPt-^fP- nPQ-^(P-pk)2 nPQ nPQ — nPQ откуда, полагая §*= —— p^)2, находим o. x,_ YSP~Pk^ _ J _ 2_ s nPQ PQ (149) (150) Здесь P<^1, но, вообще говоря, незначительно отличается от L Если в предыдущей совокупности мы соединим вместе по две группы различного характера, чтобы составить 50 одинаковых групп по 200 опытов (вместо Прежних 100 групп по 100 опытов), так что в каждой группе теперь оказывается поровну опытов с ве- 2 3 роятностями — и —, то 5 5 Р = ^~, но Е = ~ 1 4 100 = 0,96, и весьма трудно было бы статистически отличить этот случай от слу- чая постоянной вероятности. В общем случае независимых опытов с различными вероятно- стями, когда в каждой группе средние арифметические вероятности Рг Р2,. . ,, Ps не равны и Р —------, при помощи аналогичных вычислений приходим к формуле М.о. V5=1+(„_1);L (151) (ГП- — пР}2 % где х. = -— --здесь о есть попрежнему среднее квадратич- 1 nPQ % ^р.-ру ное уклонение о =------- (средней) вероятности каждой
216 ЗАКОН БОЛЬШИХ ЧИСЕЛ группы от общей средней Р, а 5' — среднее квадратичное уклонение каждой из вероятностей р^ от средней Ph той группы, к которой Pthk принадлежит, т.-е. S' = У, У Р$ k h В значении 5' PQ теоретического коэффициента дисперсии преобладающую роль обычно играет вто*рой (положительный) член, так как, при сколько-нибудь значительном п, (п—Это имеет место в том наиболее распространенном случае, когда разбивка на группы приводит к та- кому распределению объектов, что в одних груп- пах скопляются объекты, в среднем более предрас- положенные обладать признаком Л, чем в других {Р^^Р^. Поэтому, когда коэффициент дисперсии больше 1 (практически 2), то это свидетельствует о некотором симптоматическом (а не чисто случайном) различии между группами. 6. Если мы заранее предполагаем, каковы должны быть вероят- ности pv р21> . Ps в каждой группе, то способ дисперсии позво- ляет сделать проверку этого, так как каждая из величин __О/—»д)2 npfli имеет в этом случае математическое ожидание равное 1 и, следо- вательно, по закону больших чисел средний эмпирический коэффи- циент дисперсии D = J_y —«Д-)2 s «дд должен с возрастанием s приближаться к 1. Пусть, например, вся совокупность N объектов распадается на группы, обладающие признаками Лр А2,. . ., и мы, по тем или иным соображениям, полагаем, что вероятность данному объекту обладать признаком А. равна Допустим, что факти- чески в каждой группе оказалось m2i. . ., ms объектов; в таком {т. — Np)2 случае х.= — Np д '' " имеет математическое ожидание равное 1.
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 217 Поэтому средний коэффициент дисперсии (144 bis) должен и в данном случае приближаться к единице с возрастанием s, если только закон больших чисел применим к величинам хг Чтобы убедиться в применимости закона больших чисел к вели- чинам которые теперь не вполне независимы, так как необходимо вычислить S=M. О. (У-v.-s)2 В ¥ я убедиться, что стремится к 0 с возрастанием s. Для этой цели замечаем1), что (при iwk) м. О. (m-Np.y(mk-Np^ = = ^Р;2Рк2 4" Р-Рк(Д — Р~ Рк)] — NPiPk^P.Pk+ И- Поэтому М. О. [(х, — 1)(х. — 1)1 = Zp‘PkW 1 ~р‘~Рк _ 1 Д_ Wk ^ — ^PiPk—^Wk NWk (152) и. пренебрегая последним членсм ввиду его малости при больших значениях /V, получаем приближенно М. О. (х,— 1)(х. — (152 bis) Wk Отсюда, принимая во внимание (142) и (152 bis), если предположить, что q.> Следовательно, пред. — =0. у s s2 9 Я не привожу подробно вычислений, которые читатель может вос- произвести в виде упражнения.
218 ЗАКОН БОЛЬШИХ ЧИСЕЛ В таблице функции Лапласа F(z), имеющейся в конце книги А. А. Маркова „Исчисление вероятностей", мною рассмотрены зна- чения z от 0,001 до 0,500 и отмечена 6-я десятичная цифра функции оказалось, что эта цифра имела значения Z в числе mi случаев, указанных в таблице 0 1 2 3 4 5 6 7 8 9 т ~ 60 46 50 60 39 44 46 51 57 47 Np^ 50 50 50 50 50 50 50 50 50 50 (W._ 7VP)2^ ЮО 16 0 100 121 36 16 1 49 9 Таким образом средний эмпирический коэффициент дисперсии D 1 £ К'” 5°)2 10 -4^ настолько близок к 1, что гипотеза 1 д. = — может считаться вполне удовлетворительной. 7. До сих пор мы полагали, что симы. В некоторых случаях, как мы видели в могут быть зависимы, и для интерпретаций действительных явлений все опыты (объекты) незави- главе III, опыты целесообразно бывает ввести ту или иную гипотезу о характере этой зависимости. Мы упомянем здесь лишь об опытах, образую- щих, по терминологии А. А. Маркова, простую цепь. При раз- бивке совокупности из N — ns опытов на равные группы по п элементов большим) («.— пР)2 мы нашли для х.— -— ------ — (полагая п достаточно 1 nPQ М. О. х. 1+р-а 1.+ Р 1 -р ’ (134 bis) где а — ^ = р— коэффициент корреляции между двумя смежными событиями цепи. Таким образом теоретический коэффи- циент дисперсии 5 1 = 1 + р 1 —р будет больше или меньше 1 (сверхнормальпая или поднормальная дисперсия) в зависимости от знака коэффициента корреляции р, и при р = 0 дисперсия становится нормальной (опыты тогда становятся неза- висимыми).
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 219 Упражнения. 1) В вышеупомянутой таблице функции F(z) рассматри- вается 6-я цифра, и событием А считается случай, когда эта цифра четная (О, 2, 4, 6, 8). 2 503 чисел от 0,003 до 2Д99 этой таблицы распределены в 25 групп по 100 в каждой; следующая таблица показывает, в скольких группах событие А повторилось раз: т^ 41 45 46 47 48 49 50 51 52 53 54 55 56 57 58 Число групп 13224 3 1021 2200 2 Нужно определить коэффициент дисперсии при условии, чтр р = , а также- при условии, что a priori р неизвестно. 452 Отв. В первом случае D 0,7232. Вычисление дает 2 («• — 50)2 =+ 452, Npq = 2 500• -1 • Во втором случае статистическая вероятность р — 4- (2 • 8 2 • 5 Д-- 11 8 + 2-4 + 3 ^2.2-3-4.2-2.3-2.4-3.5-9).25Й-,г-й55Я= _ 0,4963, поэтому V (т,—49 63)2 Vl"i, — 59 г0,32)4 — 452- 25(0,32+= 449 44 = 449,44; Npq =. 2 500 • 0,4968 • 0,5032 = 624,9744; D = Ф 0,7194. 2) Доказать, что 5 ("Г — а) ’ каково ни было а, где Д- • • • д- ms. 3) Доказать, что если В(х^ = <&9 то М. О. 5 4) Статистика рождений в Германии за 10 лет (1882—1891) дает, соответственно, для последовательных лет следующие статистические веро- ятности для рождения мальчиков: 0,5150; 0,5147; 0,5151; 0,5148; 0,5146; 0,5140; 0,5146; 0,5142; 0,5150; 0,5151; при этом среднее число рождений в год /г —1814 тысяч (ввиду того, что число рождений в год колеб1ется не особенно значительно, от 1 750 до 1 933 тысяч, этих чисел можно не при- нимать в расчет, приравнивая п — 1 814 030 ежегодное число рождений). Требуется определить, совместимы ли данные с гипотезой, что вероятность рождения мальчика есть величина постоянная. Отв. Да, так как полагая р —0,5147, находим п 0,92. 5) Из таблицы логарифмов берут 300 рядов последовательных чисел, по 50 в каждом ряду, и отмечается число h мантиссе имеющих на 7-м месте
220 ЗАКОН БОЛЬШИХ ЧИСЕЛ цифру менее 5 (0, 1, 2, 3, 4). Полагая все цифры равновероятными, находим й • / 1 \50 что п---1, значение = С50 f ~ I . для вероятности, В нижеследующей табличке дан результат наблюдений Число рядов — в которых h — (1 i 1 ! j14 2 2' 1 32 33 34 1 0 35 36 Требуется определить средний эмпирический коэффициент дисперсии, соответствующий указанным теоретическим вероятностям. Отв. D v^0,8 получаем на основании следующей таблицы: z /1\5О::14 Ю0С50^^ {F ! т.— 300/7. | 0,8 рп.—300/7 ,)2 ---L------1' 3 ‘> 300/7//. 0.6 0,6 1,4 17| 18 2,6 4,8 0,6 1,8 19 8,1 1,8 ОД 20 12,5 3,5 0,9 17,9 0,1 2,4 0,0 23 28,8 7,8 24 32,5 0,5 0,0 33,7 8,3 26 32,5 0,3 27 28,8 1,2 28 23,6 4,4 29 17,9 2,9 0.8} 0,5 30 12,5 31 8,1 3.5 32 4,8 2,8 0,8 1,2 2.6 0,6 1,6 :и 35 0,6 0,4 36 0,2 0,4 0,2 0,3 °,2 450 страниц разбиты в каждой. На каждой Каждую пару страниц, PoggencforfPa на 15 последовательных групп по 15 пар страниц паре страниц вообще встречается от 0 до 17 имен, на которой менее 8 имен, характеризующуюся, таким образом, скоплением более дтинных биографий, назовем событием Л. Оказывается, что событие Л произошло 6) В биографическом словаре 3 5 I 6 I 7 i 8 I 9 j 10 ill раз в 1'1|1|2|4|2:1|3 группах, т.-е. всего 121 раз, так что статистическая вероятность наступления ссбы- 121 ГТ тия Л на произвольно взятой паре страниц равна р—• Допустимо ли предположение, что Л имеет одну и ту же постоянную вероятность р ео всех .15 группах? Отв. D ~ 225^ 121-104 225 16 510 „ 12 585 1,38, поэтому статистический материал довольно хорошо согласуется с предполо- жением постоянной вероятности и нет оснований считать, что в различных 121 группах словаря отклонение т от 15 р— у?- вызвано той или иной опре-
СТАТИСТИЧЕСКИЕ ВЕРОЯТНОСТИ, СРЕДНИЕ ВЕЛИЧИНЫ 221 деленно меняющейся тенденцией составителей сокращать или удлинять биографии, а не случаем. 7) Рассматривается 1) группа независимых опытов, по п в каждой, при чем в r-й (i = 0, 1,..., s) группе вероятность события А равна р ( s \ р._ -Р ; таким образом средняя равна Р, а групповые вероятности растут в вероятность для всех групп арифметической прогрессии от Р - до Р ; требуется вычислить теоретический коэффициент дисперсии Е, гл 1ZZ 1 э 2 Оте. £—1--. 12Pq р- s Для вывода пользуемся формулой (148),, замечая, что S ( 2' + + 0 _ р2(«+ 2) s2 ’ 6(s+ 1) 12s
ЧАСТЬ ЧЕТВЕРТАЯ ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ ГЛАВА ПЕРВАЯ ТЕОРЕМА ЛАПЛАСА 1. При выводе закона больших чисел мы пользовались неравен- ством *) Чебышева (или соответствующим его видоизменением), кото- рое позволяло нам установить нижнюю границу для вероятности Р неравенства вида + хч + • • • + ХП — (а1 -Г а2 + • • • + ап) I < * V В. (153) Задача возможно точного вычисления вероятности Р этого не- равенства представляет большой теоретический и практический инте- рес. Если значения числа п невелики, то Р зависит от /г и от t, так что Р — Р (п, t) существенным образом также зависит и от свойств рассматриваемых величин. Напротив, оказывается, что по мере возрастания и, когда закон больших чисел уравнивает случайные уклонения отдельных х. от их математических ожиданий а., веро- ятность Р (п, t) в большинстве случаев стремится к определенному пределу P(t), являющемуся функцией одной только величины /. Рамки настоящего курса не позволяют нам исследовать в пол- ном объеме рассматриваемую задачу; поэтому ограничимся пока ее решением для частного случая, соответствующего теореме Бернулли, когда неравенство (153) получает форму \т — пр\ <^t\f-npq ; (154) мы в дальнейшем укажем лишь (без доказательства) соответствующие обобщения полученных результатов, которыми наука обязана глав- ным образом трудам А. М. Ляпунова и А. А. Маркова. Предельная теорема в той частной формулировке, кото- рую мы ей теперь дадим, была впервые установлена Лапласом, 9 Стр. 148.
ТЕОРЕМА ЛАПЛАСА 223 а потому и функцию Р(/), найденную им, называют функцией Лапласа. Теорема Лапласа. Если производится весьма боль- шое число независимых опытов п, при каждом из ко- торых вероятность наступления события А равна р, то вероятность Р (п, /0, /Д что число т появлений события А удовлетворит неравенству npq <Лп—пр <^1^npq, (155) имеет пределом Л= \ е 2 dt, (156) когда п бесконечно возрастает. Прежде чем приступить к доказательству, заметим, что из вы- сказанной теоремы непосредственно вытекает, что вероятность не< равенства (154), которое равнозначно — tyf npq <С т — пр npq, (154 bis) имеет пределом J Г e 2 dt=——=. ( e 2 dt\ (156 bis) поэтому функция Лапласа, которую мы обозначили выше через P(t), равна t rt.-i= 2 ( ' Л. (157) Переходим теперь к доказательству. Вероятность Р(п, t0, неравенства (155) вообще равна, со- гласно теореме сложения, сумме вероятностей, что т окажется равным какому-нибудь целому числу, удовлетворяющему условию (155), т.-е. Р(п, L, tA = V где =Cmpmqn~m , распространяя и 1 п п п суммирование на все целые значения /п, удовлетворяющие не- равенству (155); все эти значения т можем представить в виде т -~пр / j/ npq , (158) при условии, что
224 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ тл тт s-jn m п—m m n — m Выражение In — Cnp q — ml(n--------------может оыть преобразовано при помощи формулы Стирлинга, на основании которой х\=хх е~х 2ттх(1 -j- ax), (159) где ах быстро стремится к 0 с возрастанием х. Таким образом, применяя (159) к /г!, т\ и (/г — /п)!, находим т пп е~п j/2тт/г (1 -j- а„) Рт qn~m п тте~т j/2 ит (п—т)п~т е~п+т 2п (п— tri) (1 am).( 1 —а?г_т) и после очевидных сокращений где 1 а — -—;-------— ------г > так что а стремится к 0, когда т и п — т (а следовательно и п) безгранично возрастают. Остановим теперь наше внимание на первом множителе в полу- Тт ченном для I выражении и положим 1 _ nflpmqn~m Н тт(п—т)п—т Следовательно, благодаря равенству (158) и вытекающему из него п — m — nq — tyfnpq. (158 bis) Отсюда log Н=т log 61—}—/ {n — m) log = + log^l+Z]/ ^) + 4- {nq — t j/ npq) log
ТЕОРЕМА ЛАПЛАСА • 225 Но для любого х, заключенного между —1 и 1, X6 log (1 + х) = X — -- + у----------- Поэтому, придавая t определенное значение и полагая п доста- обозначая :) через А некоторое определенное положительное число не зависящее ни от п ни от Таким образом log H=(np^rt]/rnpq) ( у- — ~~ + ?) — \ flu L/ilU f + р + npq — + + 4-y- V + + — p'(^ — t^npq)=t- + ti 4) Так как j t у | < —, то члены ряда p убывают быстрее, чем члены геометрической прогрессии с знаменателем 1/2, а потому значение р •менее удвоенного его первого члена. Ввиду того, что и р' обладает тем же свойством, можем положить А равным наибольшему из двух чисел ж и 2. 3 \ q J Теория вероятностей. 15
226 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ при чем | 5 j > гДе h — не зависящая от п и t постоянная п 2 величина * 1). Следовательно, Н—е* =е2(14-у), (162) 2/г|/3) /г/3 1 где 1 Y I < 2 | о I <5—, лишь бы —— , т.-е., при всяком дан- 1,1 1 ! п -i п-* 2 ном Y стремится к 0, когда п неограниченно возрастает. С другой стороны, имеем также т{п — т) Г -т/рЛГ РяЛ /л , лет, —— = «p + zl/ 57]=«м(1+?)> <163) где также стремится к 0 при всяком данном f, когда п неогра- ниченно возрастает. Из (162) и (163) заключаем, что е г т rjn т п— т 1 п =СпР Я г----=. (14 у 2п npq (164) где е стремится равномерно к 0 с возрастанием /г, для всех целых значений т = пр -|- t j/npq , каково бы ни было t в определенном промежутке ’(70, /j). 9 Замечая, что |/ | 1) = 1|/ рд - |) = д-р рд | р + t^npg) | < (1 +/У < 4 А \ f ( 4.^ / А / 3 Л|/з^\ f \q —.р\ 3 п р I nq— /1/ npq I < --—), заключаем, что h < —-=+ у А < I \ / I у п / 2 у pq 1>е* меньше наибольшего из чисел ± Ш3'2 и 1 \Р ) з \q)
ТЕОРЕМА ЛАПЛАСА 227 Пусть, например, //=10 000, p = q = ~\ в таком случае ш — 5 000 соответствует/ = 0; тогда, отбрасывая в (164) множитель (1 -(“£), мы находим: 1 ^oZ^TaT^^0’007 978- 50 у 2тт Таким образом, хотя m = 5 000 является наиболее вероятным числом появлений события А, имеющего вероятность , однако та- кое точное совпадение является маловероятным; точно так же, пола- гая последовательно /=1, 2, 3, 4, находим: 2 Jo ООО = ' X == 0,004 894; 50 у 2тт С =41Х^-^=^0)001080; 50 у 2тт — 4,5 Со°оо^^т^0-000 100; 1Хо =1 Хо =# -== 0,000 °02- 1U UVU J.U UUU z С'П / П z 50 у 2тт Заметим, кроме того, что, если рассматриваем два последовательных целых числа m и /w —|— 1, то приращение Д/, которое получает t при переходе от первого ко второму, определяется вычитанием равенства m = пр t j/npq из равенства откуда находим т.-е. m -L 1 = пр (/ "j- ^0 VпР$» 1 = Д/ j/npq, (165) V npq 15*
228 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Следовательно, формуле (164) можно придать и такой вид: _ 2! = 1-е Т Д/(1 + е), п /2к 1 (164 bis) который допускает простую геометрическую интерпретацию. Строим кривую считая t абсциссами, a Y ординатами точек на плоскости. Отмечая на данной кривой точку М, имеющую некоторую абсциссу /, со- ответствующую, согласно формуле (158), определенному целому числу tn, и затем—точку с абсциссой 1Т — соответствую- щей следующему целому числу т -j- 1, мы видим, что 2! Д5= УД/=-2=.е 2 Д/ /2тг представляет площадь прямоугольника, имеющего высотой ординату точки М на кривой, а основанием — промежуток М —— t. Таким образом вероятность I™ с точностью до множителя (1 - к е) изме- ряется площадью AS; иначе говоря, Z”=Д5(1 н-£). Благодаря этому вероятность неравенства (155) равна ^0 а следовательно, при бесконечном возрастании п 4 о пред. / ” = пред. Д5 (1 г) = пред. Д5, где распространяется на смежные, указанные выше прямоуголь- но ники с равными основаниями А/, заполняющими отрезок оси
ТЕОРЕМА ЛАПЛАСА 229 абсцисс от1) до где осА^и Sr<"АЛ Но, согласно математическому определению площади, пред. > Д5 суммы рас- сматриваемых прямоугольников, когда число их увеличивается, а осно- вания стремятся к нулю, представляет собою не что иное как пло- щадь криволинейной фигуры, ограниченной снизу осью абсцисс, сверху кривой линией и с боков перпендикулярами к оси абсцисс в точках с абсциссами и которая аналитически выражается определенным интегралом /2п J t Следовательно, предел, к которому стремится при неограничен- ном возрастании п вероятность неравенства (155), действительно равен 2 ^=ф(^)-ф(^0), (165а) где 2) Ф(0 = что и требовалось доказать. 9 Имея в виду, что наименьшее целое число т, удовлетворяющее нера- венству (155), заключено между пр + t9 npq и пр 4- / npq -\-\ = пр 4- (/0 + A/) V npq, и, аналогичным образом, наибольшее значение т, удовлетворяющее (155), заключено между пр "Г С npq — 1 = пр (/4 — A/) V npq и пр 4- V npq, 2) Функция Ф (Г) является, очевидно, нечетной функцией, т.-е. Ф (- t) = - Ф (/).
230 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 2. Теорема, или, как ее иногда называют, формула Лапласа чрезвычайно важна для практики, несмотря на то, что она является лишь предельной (для л =00) формулой, и, следовательно, для ко- нечных значений п дает лишь приближенное значение искомой вероятности. Очевидно, для конечных значений п вероятность F(n, f) (т.-е. интегральная функция распределения вероятностей' величин t) неравенства т — пр npq является прерывной функцией потому что, когда /, возрастая, проходит через значения, которые соответствуют целым числам тг удовлетворяющим равенству т = пр t j/npq, вероятность F(n,f) сразу увеличивается на I™— С™ртqn~~rn и за- тем остается неизменной, пока t не получит приращения — - , Г пРЯ приводящего к следующему целому числу т. Таким образом, интегральная функция распределения вероятно- стей F (п, t) для величины t есть прерывная функ- ция t; но если п достигает нескольких тысяч, то __ Л скачки ее 1т =— — — (14-s) настолько малы, что F(n,t\ п ^nnpq ‘ k с вполне достаточной практически точностью можно отождествить с непрерывной функцией / ^0 /2 1 Г 1 i "т Л(о=-^= е dt=—=\ е dt± l/2n J 1/2п J 1 - 00 — 00 1 Г “T 1 “I--7= е ^=у + ф(0- (166) V 2тт z о Кроме того, следует отметить, что, при данном п, F(n,t) остается тождественно равной нулю, пока пр-\- t]fnpq<^0, т.-е. t<^— /пр — , F(n,f)—\, так как все возможные зна- чения т удовлетворяют условию 0 т -С п. Предельная же функ-
ТЕОРЕМА ЛАПЛАСА 231 ция F(t) указанным свойством не обладает, так как О <С^(О<С 1 и только F(—ОЭ) = 0, а /?(СХ)) = 1’ 2 1. Но это замечание не имеет практического значения, так как функ- ция Ф(/) при сравнительно небольших (положительных) / очень близка 1 к — j именно: ! Ф (/) 1 1 3 J 2_ 2 10< 2 107 2 109 ______1 2 10'22 Поэтому значения 111 6, например, можно считать фактически невозможными. Вообще, формула Лапласа дает достаточное для всех практиче- ских задач приближение *), когда npq достигает нескольких сотен. 9 Можно доказать, что существует значение а (| а | 1), для которого вероятность неравенства j /2 I /--------------- т __ пр __ __ (<? _ р) < t / npq + а г равна 2 Ф (/) + 0 е F , где [ 0 ] < 1 (каковы бы ни были пи/, /в лишь бы тз npq 365). 1о Пусть, например, 1 „ р = q -- —, п =- 2 500; тогда 2е < 0,000 045, так что 2Ф(/) представляет с точностью до 4-го десятичного знака вклю- чительно вероятность неравенства ; т —> пр j < / / npq + а, если i ^10 000 ф 4,65; в частности, 2Ф (3) 0,9973 (последний знак точен) есть вероятность, по крайней мере, одного из трех неравенств 1 174 < т < 1 326; 1 175 < т < 1 325 или 1176 < т < 1 324.
232 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Применение формулы Лапласа при небольших значениях npq (не менее, однако, 20—30) также допустимо в большинстве слу- чаев, где не требуется очень большой точности. В дальнейшем мы будем пользоваться формулой Лапласа при любых значениях п как совершенно точной, но не следует забывать о сделанных выше оговорках. Величину т — пр V npq (167) мы будем называть нормированным отклонением числа т. Таким образом нормированное отклонение равно отклонению т— пр числа т (от его математического ожидания пр), деленному на штан- дарт этого отклонения. Следовательно, М. О. t—О и М. О. /2 = 1. Можно проверить эти два последних свойства, заметив, что 1 Г*°° - ~ М. О. t = te 2 dt=O, /2п J - 00 1 r°° _ р М. О. /2= —= I fie * dt= 1. /2п J “00 Допущение, что формула Лапласа применима для конечных значений п, означает, что плотность распределения вероятностей нормированного от- клонения t не зависит от п и равна f(f)=-^=e~ , (168) у 2п и, в частности, что вероятность неравенства т — пр /npq t (154 bis) равна 2Ф (/). Остановивши наше внимание на таблице значений функции Ф(/), замечаем, что, когда t мало, то, как видно из таблицы (стр. 361), веро- ятность неравенства (154) или (154 bis) невелика и остается меньше ~ ,
ТЕОРЕМА ЛАПЛАСА 233 пока t не превышает значения р. = 0,67 (или точнее 0,674), которое называется вероятным отклонением 11', так как одинаково вероятно, что и то, что, напротив, 11 ji. Согласно закону больших чисел, мы должны ожидать, что, рас- сматривая очень приблизительно большое число S серий опытов по п в каждой, для всех серий |t|= пг — пр V npq ри По мере дальнейшего возрастания /, 2Ф (/) растет, и в частности 2Ф(1) = = 0,6826 7^. О Таким образом можно запомнить, что вероят- 2 ность неравенства пг — пР । / npq означающего, что уклонение \пг — пр\ остается 2 z меньше своего штандарта, равна у (с точностью до 0,02). После этого 2Ф (/) все быстрее приближается к 1; в частности, уже при f = 4, 2Ф (Z) 0,999 936, и соответствующее неравенство пг — пр / npq 4 (169) обычно считают практически достоверным. Отсюда следует, напри- мер, что, если мы произведем 2 500 бросаний монеты, то можно быть практически уверенным, что число пг появлений „орла" будет удовлетворять неравенству \т — 1 2501 < 4*25, (170) т.-е. 1 150 < /тг < 1 350; и, с другой стороны, столь же вероятно, что т.-е. \пг — 1 250 |<0,674-25, 1 233,2 < пг < 1 268,7, как то, что пг в указанных пределах не заключается. <) Полезно помнить приближенное значение -л =4 — 0,666 ..., верное о с точностью до 0,01.
234 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ С увеличением числа опытов п в 4 раза соответствующие пределы неравенства (154), которому мы (при том же t) должны приписать туже вероятность, увеличатся в 2 = )/*4 раза, так что при 10 000 бро- саниях монеты мы можем, например, быть практически уверены, что \т — 5 000 | < 4-50, (171) а вероятное отклонение т будет равно 0,674-50 = 33,7 вместо 16,85. Мы можем коротко выразить это, говоря, что отклонение т — пр возрастает пропорционально п. Отсюда сле- ти — пр т дует, что ------ — — Pi т.-е. разность между статистической „ VП 1 и теоретической вероятностью пропорциональна -= —— и изме- п ^п няется таким образом (убывает) обратно пропорционально ]/п. Так, при 2 500 опытах неравенство (170) равнозначно 1 25’ т 1 (170 bis) и при п— 10 000 неравенство (171) равнозначно т 1 /Л 2 1 50 (171 bis) (оба неравенства при 2500 и 10 000 бросаниях монеты, соответ- ственно, практически достоверны). чем на 1 80* 1 8U равнозначно Упражнения. 1) Определить, применяя формулу Лапласа, вероятность Р того, что при 8 000 бросаниях игральной кости статистическая вероятность /л 1 •о ~~~ появления 6 очков отклонится от л = ~ меньше, о ООО о \ т 1 1 Ответ. Р — 0,9973. Действительно, —------— I I п 6 | 1/П-4-! <100=^1/ 8000-4- • 4, если t— 100: ^=3; но 2Ф(3)-0,9973. I 6 | г 6 6 6 4 2) Показать, что, если к величине х, имеющей штандарт а, применима теорема Лапласа, то, в среднем, из 20 наблюдаемых значений х только одно будет уклоняться от своего математического ожидания а более, чем на 1,96а; из 500 значений — только одно уклонение превысит За; из 10 000 зна- чений — только одно превысит 3,9а, и потребуется, в среднем, 100 000 наблю- дений, чтобы превысить 1 раз уклонение 4,4а. Ответ. 1 — 2Ф (1,96) 0,05 и т. Д.
ТЕОРЕМА ЛАПЛАСА 235 3) Пусть вероятность р события А равна 13 и пусть число опытов п —45 000. Каково вероятное отклонение числа т появлений события А от 15 000? п н /---- 1 /45 000-2 1ЛА Ответ. 67. Действительно, штандарт т равен / npq~~A/ —— — 100; г 0*0 так как вероятное отклонение соответствует / 0,67, то вероятное откло- нение т равно 0,67 • 100 — 67. 4) Какова вероятность при бросании монеты 90 000 раз, что 43500 </п < 45ООО? Ответ, у — действительно, штандарт V npq = 150; поэтому наше неравенство равнозначно 0 > m — пр> — 10 * npqf вероятность которого равна Ф(0) —Ф(— Ю) = Ф(10) = у-г^. 5) Сколько раз надо бросить монету, чтобы вероятность того, что разность | ™ ~ j < , была не менее 2Ф (4) =/: 0,999 936 ? Ответ. 10 000. Действительно, требуемое неравенство, равнозначное w — -тт < Др будет иметь вероятность 2Ф (4), если — 4 npq = 2 у п, I 2 | 50 50 откуда V п = 100 и п = 10 000. 6) Игрок выигрывает 7 рублей, если при бросании игральной кости появляется 6 очков, и уплачивает 1 рубль, когда появляется меньшее число очков. Требуется указать, с вероятностью равною 2Ф (4) 0,999 936, между какими пределами будет заключен его выигрыш R при повторении игры п — 8 000 раз. Ответ. 1 600 < 7? < 3 733. Действительно, обозначая через m число вы- игранных партий, с требуемой вероятностью можно утверждать, что I 8 000 I л л /8 000-5 . А 400 u т------— <41/ ——» т.-е. что 1 200 < т < -- . Но выигрыш | 6 I " г b-б ' ' 3 R=lm — п + г?7---.-8/72 — 8 000, откуда т -- -7? + 1 000; следовательно, под- о ставляя это значение т в написанное неравенство, находим: 1 200 < + 1 °00 < т.-е. 200 1 n 1 400 ' 8 И < 3 7) Сохраняя условия предыдущей задачи, вычислить вероятность Р, что игрок окажется в убытке. Ответ. Р~ -i- - Ф (10) у^2"' Действительно, для этого надо, чтобы <8 000-5 > откуда £= —10; поэтому 0-0 . ААА 8 000 т <Г 1 000, т.-е. т-------—- о 2 000 6 Р = Ф (- 10)-Ф(- со) — ~— Ф(10). Применяя неравенство Чебышева,мы
236 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ бы знали только, что Р < 77-х» а применяя неравенство (106), мы могли бы ' 10- — 25 2 утверждать, что Р < е < 8) В различное время ботаники Mendel, Correns, Tchermak, Hurst, Bate- son 11 Lokk скрещивали желтый (гибридный) горох и получили в общей сложности 25 647 желтых семян и 8 506 зеленых. Требуется выяснить, совместим ли этот результат с гипотезой Менделя, что вероятность появ- 1 ления зеленого гороха во всех опытах была равна ~ Ответ. Совместим, так как -JUvfh—— 0,0012, между тем как о 4 1 Оо 4
ГЛАВА ВТОРАЯ РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ ЛАПЛАСА НА СЛУЧАЙ УРНЫ С НЕВОЗВРАЩАЕМЫМИ ШАРАМИ 1. Из различных обобщений теоремы Лапласа заслуживает осо- бого внимания распространение ее на ряд опытов, связь между которыми может быть схематически представлена следующим обра- зом (схема урны с невозвращаемыми шарами). В урне имеется весьма большое число N шаров, из которых pN белых и qN черных шаров (р q = 1), отличающихся между собой только цветом, так что вероятность появления белого шара при извле- чении одного шара из урны равна р. Из урны выни- мается весьма большое число п шаров одновре- менно или последовательно, но так, что вынутый однажды шар обратно в урну не возвращается и, следовательно, вторично не может появиться. При п . этом предполагается, что — <С Х, где А — некоторое определенное число, меньшее чем 1. Хотя в данном случае вероятность любому из вынутых шаров быть белым равна ру однако, если известно, что первый вынутый шар был, например, белым, то вероятность следующему шару быть белым уже будет немного меньше, чем р, а именно, pN—I p(N—1)—q q ~W—T — N—X — Р — дг_! ; вообще, если при нескольких извлечениях пропорция вынутых белых шаров к общему числу произведенных извлечений более р, то про- порция оставшихся белых шаров к общему числу оставшихся в урне шаров будет менее р, и, следовательно, вероятность появле- ния белого шара при следующем вынимании будет немного менее р (обратное имело бы место, если бы отношение вынутых белых шаров
'238 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ к общему числу произведенных извлечений было менее р). Благодаря этому, в случае, когда вынутые шары в урну не возвра- щаются, последовательные извлечения не являются независимыми между собой, и без всяких вычислений оче- п ' видно, что чем — будет больше, тем более эта зависимость будет тормозить рост уклонения числа т появившихся белых шаров от их математического ожидания пр. Кроме того, нетрудно вычислить дисперсию т, т.-е. В = м. О. [т —/гр|2 = М. О. [(х, —/0 + --- + (хп ~Р)\2 = = npq 2£ М. О. (xz — p)(xk — р), где х. равно 1 или 0, смотря по тому, оказываемся ли z-й шар белым или черным. Поэтому М. О. (хх. — р) (xk — р) — М. О, xxk -р~ — pq N— 1’ ибо М. О. xpck равно вероятности совмещения белого шара в z-м извлечении с белым шаром при й-м извлечении, и, как было замечено выше, после того, как известно, что z-й шар был белым, вероятность Л-му шару оказаться белым равна р — Я N — 1’ Следова/ельно, n(n—l)pq ( п -1\ N—п B = npq--= (172) Таким образом, как и следовало ожидать, коэффициент диспер- сии в данном случае В п—1 ДА—п ~~npq~~ — АГ—I меньше 1, и дисперсия оказывается поднормаль- ною, т.-е. меньшею, чем в ряде независимых опытов с тою же вероятностью р. Случай независимых опытов является частным или, вернее, предельным случаем рассматри- ваемой нами схемы невозвращаемых шаров, когда число 7V беско- нечно велико (по сравнению с п).
РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ ЛАПЛАСА НА СЛУЧАЙ УРНЫ 239 2. Докажем теперь следующее обобщение предельной теоремы Лапласа. Теорема. Вероятность неравенства , (N—n\ л/~ /N—n\ (оУ np^[-^-]<m — nP<tiV nPti\—^—] (173) имеет пределом 1 4 - Р Ф(О - Ф%) = е *dt, (156) если числа п nN (имеющие вышеуказанный смысл) беско- п 1 нечно возрастают, причем — <А<1. N Замечаем прежде всего, согласно (46), что вероятность I™ по- явления т белых шаров при п извлечениях определяется формулой х-, т — т 7т pNqN 1 п — • (46 bis) или, полагая N—п — М и т=рп-\-х, г = ___________</">' W, (46 ie[) п NI (рп-{-х)\(рМ — x)\(qn— х)! (гу/И^-х)! 1 7 так как pN — m=p(N — п) — х~— рМ — х, п — т — п(\ — р) — x — qn — х и qN— п 4- ni — qN— qn x~qM х. Таким образом т+1 т _ (рМ — х){дп — х) п п (рп-^х-^ 1) 1)’ откуда г т 4-1 jtn 4 ~~~ 4 _ (Р-'И — х) (дп — х)____ — (/’« + х41)(^+^+1) __ (рМ — х) (qn — х) — (р/г-4 х -4 1) (qM -4*+ 0_ _ O«-r* + l)(?M-l-x + l) ~ = — + 2)х — {рп 4 дМ^г-У) 5. 4« + x41)(^M + x 41)
240 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Прежде чем преобразовывать дальше полученное равенство, напишем соответствующую ему формулу для случая Бернулли (возвращаемых шаров). Тогда . п~т Р . п п т 1 q 1 поэтому *) ++1~ С __ (« — т)р — (/»+ 1)? __ Г ~ ("*+07 np — m — q x-\-q - —j—— - —-------. (l/o bis) ("* + 07 (p/i-r-x-j-1)7 Полагая x~ z]fn, заметим, что и в том и в другом случае нас интересуют только конечные значения г, ибо мы знаем, что вероятность неравенства | т — np\^>z\f п очень близка к 0, когда z велико, ввиду того, что штандарт т равен или менее npq. Но придавая z какое-нибудь определенное конечное значение, мы видим, что отношение (РМ— z\/ ri)(qn— z п) I” (/*" + */" +О (7 *^+*/"+0 (176) с возрастанием n стремится к 1, так как j/п }Zп 1 1 \ \ М N— п jZ п N j jZ п 1 —) 9 Формулу (175 bis) можно было бы непосредственно получить из (175), деля числитель и знаменатель во 2-й части на и безгранично увеличивая N, при чем все дроби вида — стремятся к 0, если только а не имеет мно- . г . _ , М N — п л жителем N или М (очевидно, что пред. — так как в слУчае Бернулли пред. “ — 0).
РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ ЛАПЛАСА НА СЛУЧАЙ УРНЫ 241 С другой стороны, применяя к логарифму известную формулу (конечных приращений) f(b) —f(a) =/(с) (b — а). имеем вообще - , 1 1 ч Ь — а а log b — log а = — (Ь — а) = —---— где с—какое-то число, заключенное между а и b ^ибо (logx)r = -^y Следовательно, /т+1 — /т г -----------------7^ —[log rn ~10g J 1 n n Q где С заключено между и /^,так что — заключается между I п + l j m-* 1 1 и п ; поэтому, принимая во внимание, что — m - с возраста- I п п нием п стремится к 1, можем написать, что у т-^-1 у т (log^ + '-log ...7~ (177) 1 п где j е j становится сколь угодно малым при достаточно больших значениях п. Прилагая это замечание сначала к равенству (175 bis), полу- чим новое доказательство теоремы Лапласа. Действительно, (175 bis) преобразуется в log/*' -iog/;=- ^^1)7 о + '); (И8) но, полагая х=/|/npq и замечая, что увеличение т на 1 соот- ветствует также увеличению х на 1 (так как т~рп-\-х), а по- Теория вероятностей.
242 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ тому t получает при этом приращение Д видим, что У npq х-\-д = ?___ (рп-\-х-\-\)д {pn-\-tl/npq-\-\)q 1 ' + 1 у npq _ г рп пр = Д/ Д/(^ + s'), где I ег [ стремится к 0 с возрастанием п. Поэтому равенство (178) принимает вид: log Z'n+1- log а), (179) где а стремится (равномерно) к 0 при возрастании л, если t не превышает некоторого произвольно большого, но определен- ного предела. Придавая т последовательные целые значения от mQ=np-\- х0, где О -С х0 < 1, до т — — 1 ~прА-ху — 1 = npA^t^ j/ npq — 1 = = пр-\- i t1----L._ \/~npq и складывая все соответствующие ра- \ у npq) венства (179), получим log С _ log / (/Д/-1-аДО, t -- ^-7. npq так как все промежуточные члены в первой части при сложении попарно сокращаются. Поэтому, при безграничном возрастании п, находим пред, [ log/”1—log Im°} =— f t dt= — ^, n — QO 0
РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ ЛАПЛАСА НА СЛУЧАЙ УРНЫ 243 откуда следует, что 2 у \ пред. —= е 2; л=оэ 1т" п или, иначе говоря, вообще при т = пр -J- VnPQ 1тп=Г^ е “т(1-р), (18°) где $ стремится равномерно к 0 при неограниченном возрастании /г, если t не превышает произвольно большого данного числа. Что же касается неизвестного пока множителя I™* (не завися- щего от /), то он определяется из замечания, что, при t доста- точно большом, сумма т = пр-L-t j/ npq m ~ np — t у/ npq согласно теореме Чебышева, становится сколь угодно близкой к 1; поэтому, если, взявши t достаточно большим, станем затем без- гранично увеличивать л, то как бы мало ни было данное число т(. Следовательно, .-----------------I q т0 /------ пред. 1п у npq \ е : " dt = пред. I п у 2impq = 1. -сс ‘Отсюда у'"0— 1 4~ п 2impq и, вследствие (180), (1в4 ьад г ZTmpq 16*
244 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ где у и у' стремятся к нулю с возрастанием /2. Из (164 bis) тео- рема Лапласа выводится, как было указано в предыдущей главе. 3. Тот же способ рассуждений применим и в общем случае. iх I Действительно, если, как мы предполагаем, -1-L. < L, где L—произ- V « вольно большое, но определенное число, то при безграничном воз- растании п *+ П J пред. = 1. 1 + Поэтому при помощи (177) равенство (175) преобразуется в log z^-1 _ log im = (1 (181) " « pqnM \ i \ / где стремится к 0 с возрастанием n. Следовательно, полагая , fpqnM Л/Г N x = t у , так что t получает приращение \t = у $ когда т увеличивается на 1, находим log/-' / 9/ -iog/:=-^ р+^+ pqn MN j (181 bis) где а равномерно стремится к 0 с возрастанием п. Отсюда заключаем, воспроизводя буквально сделанное выше рассуждение, что, при т = пр -j- t ’ * (1 + 8), где 8 стремится равномерно к 0 с возрастанием п + X + 1J, если |Z| не превышает данного произвольно большого числа. Для определения коэффициента пропорциональности заме- чаем, как и раньше, что, при произвольно малом c/w+i? 2д*—1
РАСПРОСТРАНЕНИЕ ТЕОРЕМЫ ЛАПЛАСА НА СЛУЧАЙ УРНЫ 245 если t достаточно велико; поэтому со пред. N— п прд^- dt= 1, откуда 1-4 1/ О N—n V ^npq-^- гп (182) N—n где у и у' стремятся к 0 при безграничном увеличении п. Следовательно, “ Д/, N 1/’ N— п 1 f N— п где х0—npq——— т J- npq ———; иными словами, вероятность неравенства i -/ N-------- П ' ч / N—П f0 V пР(/ — пР<Л V пРЧ ~~jg- (l73) имеет пределом r—-- \ e - at, J/ 2тг J если n безгранично возрастает, что и требовалось доказать. Предположим, например, что N — 45 000, р = п - 40 000. В таком случае Г7 ши 1/ AZ— п 100 Г npq =100, а у npq- • Таким образом, если шары обратно в урну не возвращаются, то штандарт уклонения т в 3 раза меньше нормального. Полагая У=3, видим, что в этом случае вероятность того, что т 19 900 20 100 (183)
246 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ равна 2Ф(3) 0,9973, т.-е. имеем больше 997 шансов против 3, что это неравенство осуществится; напротив, если бы шары обратно возвращались, вероятностью 2Ф(3) обладало бы неравенство 19 700 < /п< 20 300; неравенство же (183) обладало бы сравнительно небольшой веро- 2 ятностью 2Ф(1)^А—• О Применяя способ дисперсии к подобным сериям опытов, мы могли бы констатировать поднормальную дисперсию. Однако столь значительное уменьшение дисперсии на практике редко встречается, обычно отношение — не так близко к 1, как в нашем / п 8 \ . примере (— = —!; если бы мы положили, например, что первона- .. п 40 000 чальное число шаров равно /V = 270 400, так что — = 270~400 = 25 ч ,/Д7—/г 1/Н4 12 = Тб9^0,15 <15 /о)’то Г ~дГ=1/ i gg =13; поэтому веро- ятность 2Ф(3) =4 0,9973 следовало бы приписать неравенству 19 723 < т < 20 277, так что статистически этот случай весьма трудно было бы отли- чить от случая Бернулли; ясно, что чем N (при данном /г) будет больше, тем это отличие будет меньше. Идея данного нами доказательства обобщенной теоремы Лапласа заимствована у Пирсона, который, однако, использовал ее для другой цели, а именно для установления новых типов кривых рас- пределения вероятностей, обобщающих кривую Лапласа (допустивши/ при этом некоторые математические неправильности).
ГЛАВА ТРЕТЬЯ ОБЩИЕ УСЛОВИЯ ПРИЛОЖИМОСТИ ЗАКОНА НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ 1. Кривая Y~—^==. , (184) / 2тт к которой нас привело исследование предыдущих двух глав, назы- вается основной (или нормированной) нормальной кривой распределения вероятностей. Величина Д для которой эта кривая служит кривой распределения, обладает, в ча- стности, свойствами, что М. О. / = 0 и М. О. /2~1, т.-е. штан- дарт величины t равен 1. Если некоторая другая величина х связана с t равенством х~а -L- /а, (185) то М. О. №М. О. а^М. О. 1ъ = а, а дисперсия, или квадрат штандарта, величины х £ = М. О. (х — а)2 = М. О./2а2 = а2. Таким образом коэффициент а при t в равенстве (185) является штандартом величины х. Из равенства (185) следует, что неравенство а < х — а Oj равнозначно неравенству z < tv а потому вероятность соблюдения этого неравенства равна ф(у-ф(/0)=-4= у 2тг dt.
248 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Примерами подобных величин х могут служить (приближенно) т числа т или —, рассмотренные в предыдущих главах; так, напри- мер, для случая Бернулли т = пр -L t j/ npq , п F п Мы будем говорить, что величина х также подчиняется закону нормального распределения (или закону Гаусса) с центром а и штандартом а. Нетрудно получить кривую распределения (плотностей) вероятно- стей для величин х; для этого замечаем, что вероятность F (х^) неравенства х < х2 ~ а Ц- з равна х, — а поэтому, согласно (79), функция (*—g? 1 !Х______а\ е /(х) = F'(x) = -1 Ф'ГЦ-j —у==- представляет плотность распределения вероятностей величины х. Кроме того, можно непосредственно заметить, что вероятность /(х0) dx неравенства х0 <Ц х <4 х0 dx, т.-е. равна А'о — а 4- dx — /2 11 dx | е dt = —е у 2к J а у 2тг --g <5 Итак, _ (X -а)2 Y^=—X=e 2” (186) а]/2тг
ОБЩИЕ УСЛОВИЯ ПРИЛОЖИМОСТИ ЗАКОНА 249 есть нормальная кривая распределения (плотно- стей) вероятностей 2) с центром а и штандартом з. Очевидно, что абсцисса а центра не влияет на форму кривой, определяя лишь значение х, соответствующее максимальной ординате нормальной кривой; таким образом все нормальные кривые, имеющие одинаковый штандарт а, получаются по- средством параллельного перемещения вдоль оси абсцисскривой _ Г——-=е 2< (186 bis) 5 J/ 2тг Напротив, изменение штандарта а существенно влияет на форму нормальной кривой. Возьмем нормированную (основную) нормальную кривую у =___!__е 2 0 / 2п штандарт которой равен 1. Беря на последней произвольную точку Мо с координатами (х0, Ко), заменим ее сначала точкой с абсциссой х-~зх0 и с той же самой ординатой; в таком случае, сделавши то же пре- образование над всеми точками основной кривой, мы получим но- вую кривую _ *1 которая будет растянута по сравнению с основной кривой, если 1, и сжата, если j<1. Однако полученная после этого преобразова- ния кривая (черт. 6) не будет кривою распределения вероятностей, 9 Рекомендуем читателю перед чтением дальнейшего возобновить в памяти содержание IV главы второй части.
250 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ так как вся площадь, ограниченная ею, не будет равна 1, а будет, очевидно, равна а, т.-е. увеличена или уменьшена пропорционально произведенному растяжению или сжатию. Для того, чтобы компенсировать произведенное изменение пло- щади, нам остается заменить ординаты Y* всех точек М' через У' Y= —, т.-е. при а>1 компенсировать продольное растяжение фигуры соответствующим поперечным сжатием, и наоборот в слу- чае а<^1. Таким образом равенство всей площади единице будет восстановлено, и мы получим кривую распределения вероятностей, точки которой М определяются уравнением У = —Y? 2з\ (186 bis) а /2тт соответствующим штандарту а. Из сказанного следует, что при увеличении штандарта а кривая делается более сплюснутой к середине / 1 \ максимальная ордината ее равна ——г и распределение \ а]/ 2тг/ вероятностей становится более равномерным, ибо, для больших значений х, Y будет тем больше, чем больше будет а. Напротив, если бы а было очень мало, то мы имели бы высокую и узкую кривую, кото- рая даже для небольших значений х уже сливалась бы графически с осью абсцисс (так, при а —0,1, мы. имели бы, 1 2 10 е —12,5 z 10 у- 0,000 015, между тем как Уо= 3,90 при х = 0); вероятностей в частности, этим свойством обладает распределение отношения — (числа появлений события с постоянной п вероятностью к числу п независимых опытов), штандарт которого — весьма мал, когда п достаточно велико, и в соответствии п с теоремой Бернулли сколько-нибудь значительные отклонения — (от р) практически невозможны.
ОБЩИЕ УСЛОВИЯ ПРИЛОЖИМОСТИ ЗАКОНА 251 Рекомендуя читателю построить при помощи указанного выше приема несколько нормальных кривых, соответствующих различным значениям штандарта а, укажем еще на геометрическое свойство вели- чины а. Все кривые распределения выпуклы кверху вблизи центра, но при х = -ь ст они имеют точку пе- региба, после которой выпуклость кривой напра- вляется вниз. Действительно, дифференцируя дважды уравнение (186 bis), находим г 2з* / х2 \ = ^7-1), ст3|/ 2тг \ / откуда видно, что Y" 0 при | х | a, Yft = 0 при | х | = ст и Y" > 0 при | х | > ст. Заканчивая эти общие элементарные замечания, напомним еще' раз, что ордината Y сама по себе отнюдь не представляет вероят- ности (например, при х = 0, возможно, что Y^> 1, если а доста- точно мало); значение вероятности имеет только соот- ветствующая площадь или интеграл у JV3 1 С ~ 2s3 , —7—71 е ах, а у 2тг J который представляет вероятность, что х0<х<^хг. 2. Установим теперь следующую общую лемму. Пусть f(x) есть функция распределения вероят- ностей величины х; пусть, далее, г=ср(х) есть неко- торая возрастающая т) функция х, а х = ф(г) — обрат- ная функция; в таком случае функция распределе- ния вероятностей для величины z равна /[ф(г)] ф\г). В самом деле, вероятность, что равна I f(x)dx; поэтому вероятность неравенства которое равнозначно неравенству Ф(го)<Ф(г) = А;<'Хг1)’ f) Если z есть функция убывающая, то лемма остается в силе, с тогё лишь разницей, что перед f [ф (г)] ф' (г) нужно поставить знак —.
252 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ равна I f(x)dx=\ Дф(г)|-V(z) </z; (187) Ф^о) J другими словами, Дф(г)] ф'(г) есть функция распределения (плотно- стей) вероятностей для z — Дх) [где ср(х) есть функция об- ратная ф(г)]. Применим доказанную лемму к случаю, когда распределение ве- роятностей величины х нормально, так что (л- - а)' f(x)=-—e 231 , (186) Jj/ 2п и положим, что z = ср(х) есть линейная функция х, которую можем написать в виде z= А ДЛ(х— а), откуда х = ф(г) = а 2- (г — А) и ф'(г) = у- Поэтому, согласно формуле (187), вероятностью неравенства Zq Z Z] будет ( J , z— А \ az I f ---------;- — , J \ /. / /. т.-е., принимая во внимание (186), Таким образом, если распределение вероятностей х нормально (т.-е. если распределение вероятностей х удовлетво- ряет закону Гаусса), то распределение вероятностей всякой линейной функции z = А -|- Х(х — а) удовлетво- ряет также закону Гаусса; при этом, центром распре- деления является М. О. z = A, а штандартом служит штандарт величины z, равный |Лм. O.(z— n)2 = j)Jj. Предположим, например, что игрок повторяет п раз игру, при которой он может выиграть А рублей с вероятностью р и про- играть В рублей с вероятностью q, так что у-— Ар— Bq есть ма-
ОБЩИЕ УСЛОВИЯ ПРИЛОЖИМОСТИ ЗАКОНА 253 тематическое ожидание его выигрыша в каждой партии. Определим закон распределения вероятностей для его суммарного выигрыша пХ. Очевидно, что пХ — Ат — В (п — т) = (4 В) т — Вп = = (4 В) (т — пр) 4“ Апр 4- Впр — Вп — (А - \ - В) (т — пр) 4- яу. Поэтому, принимая во внимание, что т — пр подчиняется закону Гаусса с штандартом a — j/" npq, заключаем, что кривая распреде- ления для пХ также нормальна и имеет центром пу и штандартом (А -- В) у7 npq, т.-е. вероятность, что zQ < пХ <4 г, равна —......1 ( А В) у 2л npq j или, иначе, вероятность, что /0 (4 4" В) V npq пХ — пу <4 ^(4 4" В) npq равна --LzZL С с “ dt. Напротив, если функция ср(х) не линейна, то кривая рас- пределения уже не будет нормальна. Пусть, например, z — (х — я)3, так что х=я V Z и ’У(г)='—57- 3z'3 следовательно, вероятность не- равенства равна В данном примере производная ср'(х) = 3(х — а)2 обращается в нуль при х = «; если же это обстоятельство не имеет места и — то в тех случаях, когда значение штандарта а мало, так что значительные отклонения х — а не- вероятны, можно заменять приближенно любую функцию z = ю(х) = ю(а) 4" (х — а) 4“ гГ" — й)2 “Г * -
254 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ первыми ее двумя членами и полагать г = <р(х) =£ <₽(а) Ц- <р'(а) (х — а). В таком случае приближенным законом распределе- ния вероятностей для z будет снова нормальная кривая с центром А = <р(а) и с штандартом 1 = а | ф'(а) |. 3. Перейдем теперь к рассмотрению функции z—y(x, у) двух переменных, ограничиваясь случаем, когда эти последние незави- симы между собой, причем распределение вероятностей каждой из них подчиняется закону Гаусса. Предположим сначала, что z есть линейная функция, которую можем представить в виде Z = А ' - ).(х — d) -L ).2(у — а,), где а = М. О. х и аг = М. О. у. Полагая, что а есть штандарт х, а есть штандарт видим, что М. О. z = Д, а штандарт а(г) ве- личины z равен a(z) = ]/' М. О. (г — /Х2 , так как М. О. (х — а) (у — 0^ = 0, в силу независимости х и у. Покажем, что распределение вероятностей вели- чины z также подчиняется закону Гаусса; в силу выше- изложенного, если это утверждение правильно, то центром кривой распределения будет Д, а штандарт будет равен}/ ).2a2a" . Поэтому, заметив, что t = l (х — а) и — a2) подчиня- ются закону Гаусса, с соответственными штандартами k = | л ] а и k|)| ар достаточно будет проверить, что z = t ty удовлетворяет закону Гаусса, когда кривые распределения вероят- ностей каждой из независимых величин t и нормальны и имеют центром 0 (так как если z удовлетворяет закону Гаусса, то и z-^-A ему удовлетворяет). Итак, по предположению, вероятность, что t находится в беско- нечно малом интервале (/, t-\-dfy равна kj/~ 2тт
ОБЩИЕ УСЛОВИЯ ПРИЛОЖИМОСТИ ЗАКОНА 255 и, независимо от этого, вероятность, что находится в промежутке (Ч> Ч Ч- dty, равна е 2k'\ */27 г Поэтому вероятность совмещения этих двух фактов, т.-е. веро- ятность того, что точка с прямоугольными координатами t и Ч на- ходится внутри бесконечно малого прямоугольника с вершинами (£, Ч)> (/, dt^ (t-\-dt,t1), (/-И dty Ч~ dty равна /2 2Л* 2Л? а потому вероятность, что точка с абсциссой t и ординатой Ч ока- жется внутри данной площади 5, выразится двойным интегралом, распространенным на эту площадь: Ps = 2^kk\\e ^dtdt^ (188) Нас интересует вероятность неравенства z — 4“ Ч zy> где zA и z§— данные числа. Геометрически говоря, это значит, что мы хотим определить вероятность того, что точка с координатами (/, Ч) окажется внутри полосы 5, заключенной между двумя парал- лельными прямыми и-/Ч-/1=2гг Для вычисления ин- теграла Ps внутри этой полосы 5 делаем замену одной из пере- менных tA =z—так что 1 I j е 2k*kip V k 2(А34-Аг3) 2тг k J J — CO
256 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ k2 Z полагая затем t--------— = v, получаем наконец 1 -,СС *«+*,* 2 V dv\ e~2&+™dz = 5 2ТГ&&! zt t —=Г=Д e ^k»dz. y2n(^+^jzo Следовательно, вероятность неравенства равна 2*0 <С *^1 Г е~ *^dz /2п (*2+ф\ так что распределение вероятностей для величины z нормально с штандартом|/&2 Из того, что сумма z двух величин t и подчиняющихся за- кону Гаусса, также удовлетворяет закону Гаусса, следует, что во- обще, если г~ С — • • • ~h есть сумма любого числа нез-ависимых .величин, подчиняющихся закону Гаусса, то распределение вероятностей величины z также нормально. Действительно, полагая, что наше утверждение справедливо для суммы п — 1 слагаемых t2 -j- ... -j- tn_v заключаем, что оно правильно и для п слагаемых, так как z~ (^i -г Ч 4“ • • * 4“ ^-i) 4 можно рассматривать как сумму двух независимых величин, под- чиняющихся закону Гаусса. Очевидно таким образом, что вообще z = А -I-(х, — а,) + ).2 (х2 — «2) + .. . 4- >. (х„ - a J удовлетворяет закону Гаусса с центром А и штан- дартом z(z) = У ... (189)
ОБЩИЕ УСЛОВИЯ ПРИЛОЖИМОСТИ ЗАКОНА 257 если кривые распределения независимых величин хр х2, ... , хц нормальны и имеют соответственно центры а9, ..., а и штандарты j., а9, ..., а. Если z не линей на я функция п независимых величин хг х2, ... хп, то вообще распределение ее вероятностей ненор- мально. Однако, предполагая функцию г = ср(х1, х2, ..., хп) раз- лагающейся в строку Тэйлора, можно часто в первом приближении (как мы это сделали в случае функции одной переменной), пренебре- гать степенями (xz — выше первой. В таком случае, z === <р («1, а2, ..., ап) 4- <р’П1 (х,— аг) + ... + у'„п (х„ — о„); поэтому можно принять в' качестве приближенного закона распределения вероятностей величины г кривую Гаусса ,с центром Д = <р(й , а2, ..., ап) и с штандартом а(г) J . 4- (у'апУ- (189 bis) Пусть, например, где М. О. х = а, М. О. (х — а)2 = а2, М. О. у — av М. О, (jy — — 2 = , при чем а1 настолько велико по сравнению с аг что значе- ния у 0 являются фактически невозможными. В таком случае, в первом приближении (более точная формула указана в конце гл. II, пятой части) закон распределения вероятностей z считают нормальным, при центре и штандарте, соответственно равных а j (190) согласно формуле (189 bis). Полагая, в частности, x = /w, y=^mv где т и представляют числа появлений события В, имеющего вероятность р в двух неза- висимых сериях опытов, по п опытов в каждой, мы получили бы А = 1 и а/ —(190 bis) \rnyj г пр так как а2 = а“ = npq, а~ау= пр. Теория вероятностей. 1t
258 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Теоретически формулы (190) и (190 bis) конечно неправильны1), т так как ясно, например, что значение — =оо, соответствующее т /т^—0, не лишено возможности, а поэтому М. О. — =ЭЭ. Для тео- ретической точности и во избежание иногда грубых ошибок нужно помнить, что формула (L90) в действительности соответствует не , . х X (у — аАа функции z = —, а функции z2—---------~~ — * которые по- лучаются, если в разложении z в строку Тэйлора по степеням (х— а) и (_у—я2) отбросить члены выше первой степени. Из последних замечаний следует, что закон Гаусса, или нормального р а с п р е д е л е ни я в е р о я т н о с т е Й, н е имеет универсального характера, и нужно признать, что нередко его прилагают без достаточных оснований главным образом ради его математической простоты. Тем более важно указать неко- торые общие условия (аналогичные теореме Ла- пласа), при которых закон Гаусса применим. 4. Теорема Ляпунова. Пусть где хр xv ... ,хп— независимые величины, при чем М. О. х,..—а,, М. О. (х,.—а.)2=8., М. О. Iх. — а.|2-Н = § где г — некоторое определенное положительное число; в таком случае вероятность неравенства /0|Лё"О — (153) 9 Заметим, в частности, что если а~аь то распределение вероятностей для z и -i- будет, очевидно, тождественно; поэтому, за исклю- чением случая, когда —0, распределение z не может быть симме- трично/по отношению кА г- —-~1, которое будет медианой (см. следующую часть, гл. II) распределения, но не центром. Вообще в данном случае М. О, z лишено смысла, а тем более -_М. О. z-r Читатель может проверить в виде упражнения, что при а = at — 0 функция распределения
ОБЩИЕ УСЛОВИЯ ПРИЛОЖИМОСТИ закона 259 „ 1 CZ1 где В имеет пределом —I е ' di прине- ограниченном возрастании /г, если ^1+^2 + в,+- стремится к 0. Последнее условие означает, по существу, что среди рас- сматриваемых величин xz не должно быть таких, ко- торые были бы значительно больше большинства остальных. Предположим, например, что . М = максим, j xz— ст |; в таком случае, для п р им е ни м о сти теоремы Ля пу нова доста- точно, чтобы1) /И == стремилось к 0 с возрастанием п. Дей- ствительно, oz = M. О. | xt—czzj£ (xz—щ)2 ^z/И' V ; поэтому °2 п + ' в 2 следовательно, стремится к 0. Напротив, если бы среди наших величин была одна которая принимала бы лишь два значения х1~ал 1 2 же по- рядка, что и штандарт jZ В всей суммы, то понятно, что вмеша- тельство этой величины искажало бы результат совместного Дей- ствия прочих величин: присутствие такого рода слагаемых не до- пускается теоремой Ляпунова, так как тогда оказалось бы, что =М. О. \хг — аг р + г = ( + не стремилось бы к нулю; при таких условиях закон Гаусса не может быть применим. 3) Это условие, очевидно, соблюдено, если существует определенное положительное число 7г, обладающее свойством, что все hM2, так как М V 1 тогда В > nhM2, откуда —= < стремится-к 0 с возрастанием п. • ^В ' nh 17*
260 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ В частности, из теоремы Ляпунова вытекает следующее след- ствие. Если имеем ряд независимых опытов, при кото- рых вероятности появления события А равны с о о т- п ветственно ррр2,. . .,рл, где Pi Qi бесконечно возра- 1 стает с увеличением п, то вероятность неравенства zo Pi4i<m PiQi (153 bis) имеет пределом, при бесконечном /г, Ф(^) — Ф(/о). Ука- занное условие, очевидно, соблюдено, если ни в одном опыте ве- роятность pt не приближается ]) безгранично ни к 0, ни к 1. Действительно, в данном случае неравенство (153) обращается в (153 bis). Кроме того/полагая е=1, имеем 5 z = М. О. | xi — at |3 = М. О. | xt - /т |3 = = (1 —Pi)3 Р, + Р/ Qi = Pi Qi + P'i < Pt Qi • Поэтому + ^2 4- • • -T Sn ^PiQi * 1 (E (E л «<)'' (где бесконечно возрастает) стремится к 0 с возраста- нием п. Пусть, например, из двух урн с шарами производится по 15 000 извлечений по одному шару, при чем вероятность появления бе- 9 Предельная теорема может быть справедлива и в том случае, когда вероятность р/ стремится к 0 или к 1: если zz есть наименьшее из двух п чисел p/H^z ~l — pit то условие, что 2 Pi Qi безгранично возрастает, равно- 1 п значно условию, что бесконечно возрастает, так как j
ОБЩИЕ УСЛОВИЙ ПРИЛОЖИМОСТИ ЗАКОНА 261 3 лого шара из первой урны все время равна —, а из второй — равна . В таком случае математическое ожидание общего числа вы- нутых белых шаров tn будет равно 15 000 так же, как если бы все 30 000 извлечений производились бы из одной урны с вероятностью р — -i- появления белого шара. Но разница будет та, что в рас- сматриваемом случае дисперсия поднормальна, В = 15 000- 3-1 1 — 15 000 • —г = 5 625 вместо 30 009 •— = 7 500 в случае Бер- ' 16 4 нулли. И в том и в другом случае уклонение т от 15 000 будет подчиняться закону Гаусса 2), но при различных урнах штандарт равен 5 625= 75, а для одной штандарт будет yf 7 500=^=86,6. 5. В качестве второго следствия из теоремы Ляпунова отметим следующ'ее предложение. Если М. О. х—а, то средняя арифметическая X —Б X —1— , , , —?— х Х=-~—1—2-——1—из п наблюденных значений п хг х2,..., хп вел ичйны х подчиняется (для достаточно а большого п) закону Гаусса с штандартом ——=> , если }/ п штандарт х равен а (хотя бы величина х сама за- кону Гаусса не подчинялась), лишь бы только суще- ствовало некоторое положительное число г такое, что о-~М. О. | х — «)2+е не бесконечно. Действительно, в данном случае неравенство (153) получает форму /0 J- «j <С '— па <С J равнозначную М7 а<^ ~~п ' (191) 1) Заметим, что для данного примера применимость закона Гаусса и значение штандарта вытекают из формулы (189), так как, по теореме Лапласа, число появлений белого шара из каждой урны в отдельности под- чиняется (в пределе) закону Гаусса, а потому и сумма т этих двух чисел подчиняется нормальному закону распределения вероятностей.
262 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ а выражение В “ обращается в пь 5' 1 н4 1 + 4 4 (пз) a h и стремится к О с возрастанием п. Ограничительное условие относительно о для практики мало сте- снительно, так как оно могло бы оказаться нарушенным только тогда, когда безгранично возрастающие значения |х — а\ были, бы фактически возможны. Поэтому указанное следствие имеет чрезвы- чайно большое практическое значение и в дальнейшем будет нами неоднократно применяемо. Вообще закон Гаусса более или менее точно соблюдается во всех случаях, когда исследуемую величину можно рассматривать как сумму большого числа независимых слагаемых. Таким образом, если при измерении какой-нибудь величины а то или иное укло- нение наблюдаемого значения z от истинной величины а получается в результате воздействия многочисленных причин, из которых каждая является источником независимой малой ошибки х^ при чем М. О. xz=0, то суммарная ошибка, или уклонение г — а, подчи- няется закону Гаусса, носящему поэтому также название закона, случайных ошибок. Это же обстоятельство является основанием того, что при: стрельбе в цель уклонение вправо и влево от намеченной цели с ‘ значительной точностью подчиняется закону Гаусса так же, как и вертикальное уклонение, которое оказывается независимым от го- ризонтального уклонения, при чем штандарты а(х) — и з(у/) — обычно различны. Применяя теорему умножения вероятностей и принимая намеченную1 цель за начало координат, мы находим таким образом, что вероятность точке попадания оказаться внутри прямо- угольника, заключенного между вертикалями (х, x~idx) и горизон- талями (у/, у -j- dy)9 равна - у1 dx dy 2sLa 2з4* 2п Oj а3
ОБЩИЕ . УСЛОВИЯ ПРИЛОЖИМОСТИ ЗАКОНА 263 а вероятность попасть внутрь площади S равна поэтому двойному интегралу, взятому по площади 5: СС ' 21TJ1 «2 JJ5 (188 bis) В частности, если S есть Площадь эллипса то интеграл (188 bis) после замены переменных -х — р cos 6, у — а2 р sin 6 преобразуется в t . Z р* „ / = I I £ 7 р dp r/0 = I е 2 р dp = 1 — е 2 , *’(г *^0 /( I . Вероятный эллипс попадания (внутрь которого при многократной стрельбе попадает около -% всех снарядов) соответствует значению откуда /?2 7^1,39 (полуоси этого эллипса равны 1,17^ и /?з2 1,17а2)/ 6. Особенно важно приложение закона Гаусса к биологии. К этому вопросу мы еще вернемся в дальнейшем. Но для этого необхо- димо заметить теперь же, что теорема Ляпунова может во многих случаях быть распространена и на зависимые величины, при условии, что связь между величинами х2,..., xk,.,., хп постепенно осла- бевает по мере удаления их друг от друга, т.-е. при возрастании (I — k), В данном случае дело представляется несколько сложнее, чем при распространении закона больших чисел. Мы ограничимся лишь формулировкой одной теоремы, из которой будет виден характер ограничений несколько иной, чем при обобщении теоремы Чебы- шева. Для большей отчетливости предположим величины xz ограни- ченными, т.-е. а их математические ожидания—равными нулю. Теорема. Если О. [xz+1 х.^]2 <ZLg, где L и а данные положительные числа (т.-е. дисперсия суммы любого числа слагаемых a:Z4.v *.,,xz+ того же порядка g, как если бы слагаемые были независимы), то закон Гаусса при //
264 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ п весьма большом применим к сумме z~ xz, л и ш ь б ы больших, значения пор, пока или 11 — I | п? М. О. xk и М. О. xkxl не претерпевали бы изменений 1 ч е м —, каковы бы ни были известные уже п J каки х-н ибудь из прочих величин, до тех неизвестно ни одно из xz, для которого 1 где ? <^2 — Данное положи- тельное число. (Что касается взаимоотношений между более близкими xk и xz, то они ничем неограничены.) 1 Существенную роль здесь играет показатель р<—, который ограничивает сферу интенсивного влияния каждой величины на все прочие. Важно заметить, что, если бы р = то закон Гаусса вообще не был бы применим. Чтобы лучше это уяснить, возьмем грубо упрощенный пример. Положим, что игрок повторяет п безобидных рых вероятность выиграть или проиграть по 1 партий, при кото- рублю равна 1 что, выигравши п партий, ко- Допустим, что первые у п партий связаны так, первую партию, игрок выиграет и все указанные торые он, напротив, проигрывает в случае первой неудачи; осталь- ные же партии пусть будут независимы. Таким образом в нашем примере есть партии, сферы влияния которых определяются пока- 1 зателем р = — , и зался неприменим, игрока представить этого уже достаточно, чтобы закон Гаусса ока- Действительно, мы можем выигрыш z нашего в виде суммы где х получает лишь 2 значения + п (в зависимости от исхода первой партии), вероятности которых, следовательно, равны — . На- против, суммам, соответствующая прочим п — \г п партиям, подчи- няется закону Гаусса с штандартом р ц — yf п (при центре 0). По- этому, так как неравенство ^0<^<Л (192)
ОБЩИЕ УСЛОВИЯ ПРИЛОЖИМОСТИ ЗАКОНА 265 имеет место в двух случаях: х = р zz и г0 — J <^у <^zA— ]п, либо х = —/// и z0-'-J" п у <^z} - J г п, заключаем, что ве- роятность неравенства (192) равна т.-е. кривая распределения вероятностей для z рас- падается на 2 кривые Гаусса с разными центрами 1). Указанная выше теорема включает в себя, в частности, опыты, образующие простую цепь, к которым, как доказал А. А. Марков, применима предельная теорема теории вероятностей. Таким образом, сохраняя обозначения гл. III (часть 3-я, стр. 194), при неогра- ниченном возрастании л, вероятность неравенства /0 jт — пр j, (193) где имеет пределом А. А. Марков применял свою теорему к исследованию вопроса о частоте гласных и согласных в русском языке, произведя соответствующие подсчеты сначала для „Евгения Онегина*, а потом для сочинения С. Т. Акса- кова „Детские годы Багрова-внука“. Приведем некоторые данные, получен- ные А. А. Марковым при рассмотрении ЮООООбукв в последнем сочинении- Прзжде всего, общее число т гласных оказалось равно М — 44 898 при Д'—100000. *) Разумеется, закон больших чисел в данном примере все-таки приме- ним, и средний выигрыш при большом стремится к 0.
266 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Далее, беря 5—1 000 групп по п = 100 А. А. Марков получил следующие результаты: последовательных букв, Число т гласных 37 38 39 40 41 42 43 44 45 46 47 48 49 | 5и 51. 52 Число h групп 1 о 5 21 33 G9 123 163 196 171 109 50 35 10 10 > т — 45 -8 — 7 -G — 5 —4 —3 — 2 1 0 1 2 3 4 5 6 7 (т- 450 G4 .49 36 25 1G 9 4 1 0 1 4 9 16 25 36 49 - 45;* 64 98 180 525 528 G21 492 163 0 171 1 436 450 5GO 250 360 9S У Л(/п —45)2 Отсюда ——1 QQQ------ 4,996. Поэтому среднее квадратичное уклоне- У h(m — пр)’ У h(tn — 44,9)- ние, т.-е. 100() = ——ГоОО-----------= 4 996 - °>01 7^5. С другой сто- роны, npq = 100*0,449*0,551 ф 24,74. Следовательно, эмпирический коэффициент дисперсии £“2ТМ*°'2Ю- и дисперсия явно поднормальная. Этот результат вполне подтверждает теорию Маркова, согласно кото- рой последовательности букв не являются независимыми, но образуют цепь, которую, в первом приближении, можно считать простой, полагая, что вероятность данной буквы быть гласной вполне определяется, если известно, какого рода буква (гласная или согласная) ей непосредственно предшествует, независимо от того, каковы более отдаленные предшествующие ей буквы. Статистические вероятности а (появления гласной после гласной) и J (появления гласной после согласной) Марков получает, подсчитывая число А пар (гласная, гласная) и число В пар (согласная, гласная). Оказалось, что А = 6 588 и В = 38 310. В таком случае , А , 6588 й В __383Ю , п __ 44 898^ 0,147 И ? — —55 102 ^°’695, Поэтому коэффициент корреляции между буквами одинакового рода « = ’ - ! * - О'548. = Й8 * °’®- Таким образом вышеуказанный эмпирический коэффициент дисперсии 0,202 несколько мал даже для делаемой Марковым гипотезы простой цепи; в действительности, как замечает Марков, по поводу того, что и для „Евгения Онегина" эмпирический коэффициент дисперсии оказался 0,208 вместо теоретического 0,3, надо было бы принять в расчет и предшествую- щую букву, т.-е. цепь последовательных букв, в сущности, не простая <). 9 Если бы цепь была простая, то вероятность 3 буквам под-ряд быть М ' гласными была бы равна а2 = 0.065 88*0,147 0,0097; таким образом оказалось бы, что во всей совокупности 100 000 букв следовало бы ожидать встретить около 1 000 последовательностей из 3 гласных — несомненно, что такого рода неблагозвучное сочетание произойдет гораздо реже.
ОБЩИЕ УСЛОВИЯ ПРИЛОЖИМОСТИ ЗАКОНА 267 То обстоятельство, что штандарт числа т появлений гласной в каждой группе из 100 букв не может быть равен у npq — /24,74^4,97 (кото- рый соответствовал бы независимости последовательных букв), легко обна- ружить, если заметить, что вероятное отклонение было бы равно 2 - - з = 3,32; поэтому приблизительно в 500 группах число гласных было бы о заключено между 44,9 ± 3,32, т.-е. оказалось бы не менее 42 и не более 48 гласных; между тем, указанным свойством обладает 881 группа (881 = 69 + 123 4- 163 + 196 + 171 4- 109 4- 50). Вероятность, что при 5=1 000- независимых опытов событие, вероятность которого равна произойдет 881 раз, т.-е., что I nis — sp\ > 380 = / /250, меньше, на основании (ИЗ) и(114),, чем 2е = 288,8, т.-е. практически равна 0. Упражнения, 1) Определить абсциссу х0 > 0 точки пересечения двух 1 нормальных кривых у =----е с р 2к х0 заключено между а и А с Отв, x0 = cst 1/ 2 log— F —a pi t* хг 24 1 "" и у =------;= e ; показать, что У 2^ Полагая о > можно написать: । / 2 log ? Г2 log р с = ^2__j =г4 |/ j , где р = — > 1, откуда видно, что Г 1—рТ Cl 1 f > х0 > так как —1 > 2 log р > 1 — =;• 2) Определить условия, необходимые и достаточные для того, чтобы при п весьма большом сумма независимых величин xh х2, хп подчинялась закону Гаусса, если xk может получать с одинаковой вероят- ностью лишь два значения ± где а — данное число. Отв, Необходимо и достаточно, х 1 чтобы О------— . Действительно, если а < — , то В = М. О. (2ха)2 — 2 стремится к конечному пределу при неограниченном возрастании п\ с другой стороны, М. О. (2xAi)4 “ м. о. 24 + 6 м. о. 244=зм-°424)2-2 м-°-24^ = ЗВ2 —2 М. О. 2'S ’ а ПОТОМУ М- О. (Ух^,)4 не имеет пределом .ЗВ-,, как это имеет место при нормальном распределении вероятностей. Итак, условие А -.-+—во всяком случае необходимо, но достаточность его следует из теоремы Ляпунова. Действительно, М. О. I х^ + £ j = 3^ = поэтому л Х(2-|~-)-|-1 । л 2А—1 ---------, при а >—, между тем как —----- • k л(2 4-з)4-1 2 Т 2а у1
268 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ /С,- I?4"’2” Следовательно, 1 (2а -|- 1) 1 п 1(2'4 -) 1 1" * ~ стРемится кОс возрастанием в ' 2 п" Если же л = — то теорема Ляпунова также применима, так как при п этом В бесконечно возрастает, а остается ограниченной. Полученный результат может быть использован для нового доказатель- ства того, что вероятность неравенства где £ — данное произвольно малое число, стремится к достоверности, при п со тогда и только тогйа, когда к < ™ ; и^ыми словами, для примени- мости закона и достаточно, больших чисел к величинам хь х>, ,..,хп необходимо чтобы IТак как достаточность этого условия (стр. 167) не вызывает сомнений, рассмотрим лишь предположение /. при кото- ром X подчиняется закону Гаусса с штандартом не стремящимся к 0 с возрастанием /г; отсюда ясно, что если г мало, той вероятность ! X ] < s близка к 0, а не к 1. Например, при 1 = -^- вероят- ность неравенства 1 ± Г~2± 3 ± п п— 1 1 ( ' — т 2 имеет пределом —_ \ е 2 (Нф - (См. конец главы II, часть 3-я.) »/2-1 3 3) Определить штандарт □ с точностью того же порядка, что фор- мула (190), если величины у и. х не независимы и коэффициент корреляции между ними равен R. О.пв, з 1/ — 2/?<j Н-J* Эта формула есть след- ствие из обшей формулы a .у)] = |/ а'2 4- 2Ryfх <с'у 4- <р'“ кото- рая получается тем же способом, что и (189 bis).
ГЛАВА ЧЕТВЕРТАЯ ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 1. Если требуется определить приближенно, какое количество объектов данной вполне определенной совокупности, состоящей из- весьма большого числа 7V объектов, обладает определенным признаком А, то для этого с успехом может быть применен так называемый выборочный метод. Восновеэтого метода лежит тео- рема Лапласа или обобщающая ее теорема, отно- сящаяся к схеме урны с невозвращаемыми шарами. Предположим, что каждому объекту совокупности соответствует определенная карточка и все N карточек помещены в урну и тща- тельно перемешаны, так что, всяка^я карточка имеет одина- ковые шансы быть вынутой. Мы можем произвести п извлечений карточек из нашей урны, либо возвращая в урну каждую вынутую карточку (при условии тщательного смешивания всех карточек перед каждым извлечением),* либо не возвращая обратно вынутой карточки. Если pN (/?<Ч) объектов обладают признаком Д, который мы можем приписать и соответствующей карточке, то в обоих случаях вероятность появления карточки с признаком А р а в на р\ при этом в первом случае мы имеем дело со схемой ряда п опытов типа Бернулли (повторение п независимых опытов, при которых наступление собы- тия А имеет неизменную вероятность /?), между тем как второй случай приводит нас к схеме урны с невозвращаемыми шарами (глава II). Вынутые', л’карточек представляют собой выборку или частичную совокупность из данной (основной) совокупности. Не останавливаясь на технике осуществления выборки д), кото- рая должна быть произведена в условиях, объективно эквивалентных 9 Например, при рассмотрении только что указанных в конце предыду- щей главы результатов подсчета букв А, А, Марковым, ни в коем случае нельзя смотреть на его группы из 100 последовательных букв, как на
270 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ вышеуказанным схемам, мы можем формулировать следующие математические положения, вытекающие из ранее доказанных теорем. Пусть т есть число объектов, обладающих в произведенной выборке признаком^, Тогда, в пер- вом случае (схема Бернулли или возвращаемых шаров), вероятность, что р удовлетворяет неравенству / 1/ Р1^ т °У п pq -- 5 (194) а во втором случае (схема невозвращаемых шаров), вероятность неравенства равна (с достаточной точностью для больших зна- чений п) 1 С'* г - dt. (196) В действительности, вместо неравенств (194) и (195) поль- зуются, соответственно, следующими неравенствами: т) т т(п — т) W -----<--P<hV „3 - (194 bis) (195 bis) которые получаются из (194) и (195) путем замены в их, левых и правых частях неизвестных величин р и q приближенными зна- т п — т чениями — и ------- п п выборки из совокупности 100 000 букв; необходимо было бы перемещать все 100 000 букв, — выборка, по определению, должна уничтожить все следы той реальной связи между объектами совокупности, которая обычно суще- ствует в действительности.
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 271 Полное обоснование этих формул требует непосредственного доказательства предельной теоремы, обратной теореме Лапласа, с помощью формулы Байесса 1). <) Читатель найдет это доказательство в курсе Маркова, делающего однако частное предположение, что a priori распределение вероятностей для р (0<р<1) равномерно. В моем литографированном курсе (изд. Харьковского университета 1917 года) дано более общее доказательство, предполагающее лишь, что дифференциальная функция распределения вероят- ностей /(/?) a priori отлична от 0 для значений промежутка 4~ г, ™ где г—данная произвольно малая величина. Не вдаваясь в детали вычислений, можем рассуждать следующим обра- зом. На основании теоремы, обратной теореме Бернулли (глава IV, часть III) выбираем L достаточно большим, чтобы вероятность того, что р окажется т L £ D вне промежутка - zt была произвольно мала. В силу этого, полагая и заключаем, что вероятность того, что р удовлетворяет неравенству (194 bis) должна иметь тот же предел при неограниченном возрастании и, что и вероятность неравенства (194). Но, допуская, что априорное распределение вероятностей величины р на отрезке 01 выра- жается некоторой непрерывной функцией, мы можем считать это распреде- ление равномерным внутри всякого промежутка, длина которого не более 2Л —, если п неограниченно возрастает. Поэтому, благодаря формуле Байесса Vn (58 ter), вероятность гипотезы, что р находится в некотором промежутке (р, р 4- А/?), после того как становится известным значение ~~, пропорцио- „ „ т нальна условной вероятности, получаемой Этим значением -- при рассма- триваемом значении р, т.-е. (ттг — пр)1 (т — пр)3 Г1 '2 npq 2/w(l — mji) Т , - -- --------... --— Д t, ]/ '2r.npq j/2sTTi(l — "»/„) j/ 2r. (пренебрегая бесконечно малыми высших порядков). Отсюда следует, что вероятность неравенства (134 bis), когда дано — , л р<-4 должна иметь пределом —I е dt, где к постоянный множитель, ко- V'^to торый должен быть равен 1, так как, ввиду сделанного выше замечания, рассматриваемая вероятность должна произвольно мало отличаться от еди- ницы, если /о=-- 7, когда L достаточно велико.
272 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Заметим, что, если значения п не очень велики (примерно не более 200),. то применение формулы Лапласа к неравенству (194 bis) приводит к допол- нительной погрешности, которой нет в неравенстве (194). Полагая ~ -- р -у и умножая последнее неравенство на 1/ т<(П ' т\ можем придать ему форму Г n2pq /гт(п - //?) V № (2/к - п) пу т(п — т) п2 у2 т(п — т) так как [ т \/п — in , \ т(п — т) , 2т — п pq = {— - -j/---------И > “ ——5 и------------У — >2- \п \ п п2 п Пусть, например, п ~ 100, т — 80: тогда неравенство (194 bis) обра- щается в в то время как неравенство (194 ter) имеет вид h У_____ h . 25 Л/Г7~Ъ 25“, '25’ таким образом, например, вероятность Ф(2)~ 0,4772, вместо неравенства 2 0<_у<^~ (т.-е. 0,72 < р < 0,8), будет точнее приписать неравенству т. е. ° У < °’3 +9ff°’°91 20 (т.-е. 0,709 < р < 0,8), и, с другой стороны, неравенству 0,8 < р < 0,868% вместо 0,8 < р < 0,88. 2. На основании (194 bis) и (195 bis), приравнивая неизвестную вероятность р полученному из вы- . т , / т(п — т) оорки значению р = — и полагая а — I/ ------ =: п = /?? „ = 1 f 1 _ 'j ,= у f п f /г3 \ N / f п \ N /
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 273 мы можем утверждать, что погрешность р—рг под- чиняется закону Гаусса с штандартом равным а (при выборке первого рода) и с штандартом У (при выборке второго рода). Наиболее обычна выборка второго рода (схема невозвращаемых шаров); при тем же числе п выбранных объектов она дает немного <' I? г 1 / 1 большую точность, чем схема Бернулли, так как а = j у 1 —-- т.-е. У <^а. Однако, в бол велико, что полученное от п , 1 / например, если — = 0,1, то у 0,95 а значения не имеет; только объектов велик, если, например, ственное уточнение. Вообще же ния р посредством в ы б о { ынинстве случаев 7V настолько этого преимущество невелико;. п 1---77=7^0,95, и замена а через N ' тогда, когда процент выбранных п 1 t з = т0 3 дает суще- N 2 / 2 говоря, точность определе- )ки лишь в ничтожной сте- пени зависит от отношения — числа выбранных N объектов к числу объектов совокупности, а глав- ным образом характеризуется абсолютной вели- чиной числа л/, так как штандарт а ^при том же найденном t \ at 1 / ~ I-J значении р = — j обратно пропорционален J/ п. Например, если (/z \ — = 0,008 j дает вдвое более точный результат, чем выборка п = 2 000 объектов из ;V= 20 000 = 0,1 у [Понятно, впрочем, что штандарт погреш- ности в определении абсолютного числа pN объектов основ- ной совокупности, обладающих признаком Л, равен (в схеме невоз- / /у вращаемых шаров) = /Л/ — (Af—/z), и для его уменьшения необходимо было бы, чтобы — было близко к l.j п Теория вероятностей. 18.
274 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Как было указано раньше, благодаря тому, что р—// следует г f т * закону Гаусса, после определения р =~— можно быть практически уверенным, что Р' — 4з О О' + 4з; (197) если хотим, например, определить р с точностью 2) до 0,01, то достаточно, чтобы 4 а <Г 0,01, т.-е. 1/ --а > откуда г п 400 п 160 000 p*q\ и так как, во всяком случае, //(1 — р1) <2 — , достаточно, чтобы п 40 000. то Таким образом частичная совокупность, состоящая из 40 000 объектов, обычно совершенно достаточно характеризует любую основную совокупность. Поэтому, за исключением случая, когда признак А редок (и ожидае- мое значение р не превышает 0,01—0,02)^ статистик не должен стремиться еще увеличивать значение п. но взамен этого сконцен- трировать свой технический аппарат на сравнительно небольшой группе обследуемых объектов, обратив все свое внимание на то, чтобы выборка соответствовала указанной выше теоретической схеме и выбранные случайно объекты, по возможности, без вся- кого исключения, подверглись точному обследованию. Если, вопреки всем усилиям, некоторое число а из входящих в частичную совокупность индивидов окажется неправильно - г а ооследованным, то погрешность значения р увеличится на — , и если бы достигало 4-5°/0, то выборку пришлось бы при- знать неточной, как бы велико ни было значение п (а если //<2 0,1, то и 1% уклонившихся от обследования или плохо обсле- дованных объектов достаточен, чтобы подорвать теоретическое зна- чение выборки). Поэтому лучше подвергнуть выборочному обследо- ванию /2 = 20 000 объектов, приняв меры, гарантирующие не более 9 Относительная погрешность р равна ~=4|/ ; поэтому, если 1 12 Р РП 5 то она меньше, чем 1и V п
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 275 1 °/0 сомнительных показаний, чем производить обследование 180 000 объектов в расчете на то, что будет не более 5°/0 непро- . 1 веренных показаний: если, например, р' = —, то в первом случае о можно гарантировать, что 1 4 1 р~з < 300 + 100* °'023' ‘ “° втором —только 1 р-т 4 1 Возвращаясь к неравенству (197), заметим, что на практике можно без ущерба коэффициент 4 при а заменить коэффициен- том 3 (так как и тогда вероятность этого неравенства 2Ф(3) = 0,9973 очень близка к 1); кроме того, значение п может быть во много раз уменьшено, если допустимую погрешность в определении р несколько увеличить; так, например, если хотим, чтобы вероятность неравенства была равна 2Ф(3), то достаточно взять « = 900, так как нужно, , 4 1' p>q' 1 'чтобы 3 | — 20- Из свойств кривой Гаусса следует, кроме того, что при п = 900 вероятная погрешность р — р' равна £1/ pV з ' п таким образом приблизительно столь же часто будет оказываться, что |р—Р* \<Z'TE'Vкак и противополож- но ное неравенство. Приведем следующий пример, заимствованный у Bowley1). Из географического указателя, содержащего ДГ-~31 210 городов, была сделана выборка (по схеме урны с невозвращаемыми шарами), включающая п = 500 названий, при чем признаком AVAV... было, соответственно, нахождение города между 0° и 10° широты, 10° и 20° широты и т, д. Нижеследующая таблица дает резуль- таты выборки и действительные значения р, соответствующие каждой широте, при чем для удобства письма даны значения 1 000р и 1 000/ вместо р и /. 0 Elements of Statistics.
276 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Широта северная или южная Число городов в выборке при п 500 22 56 104 103 93 112 9 1 0 1 000 р’ 44 112 208 206 186 224 18 2 0 10001/ Р-^~ г п 9 14 18 18 17 19 6 2 ? 1 000 р 51 111 201 200 200 215 18 3,4 0,9' (Фактическое число городов на 1 000) Принимая во внимание, что 1_ 60 здесь не было надобности усложнять вычисление применением значения У вместо а. Можно заметить, что разность 1 000 р — 1 000 р* только 2 раза превышает 2000а z ч свое вероятное значение —-— (в первом и пятом столбцах). 3. Если для двух основных совокупностей 5 и путем выборки установлены соответственно приближенные значения р' и pj частот р и pv которыми обладает признак А в каждой из совокупностей 5 и то нетрудно дать приближенное значение разности р—рг Принимая во внимание, что если из двух независимых выборок найдены величины р' и /?/,—р и ру подчиняются закону Гаусса с центрами р* и /?/ и со штандартами а и заключаем, что раз- ность р—рА также подчиняется закону Гаусса с центром, равным /?'—pj и штандартом ]/02-|_3-в Предположим, что посредством выборок, произведенных для совокупностей s и всех членов данного профессионального союза в 2 различных срока, установлены приближенные значения для процента женщин 100// = 21,5 в первый срок и 100/?/ = = 20,07 — во второй срок; в первом случае выборка содержала п = 1 000, во втором — п! = 1 500 индивидов. Полагая, что общее- число членов союза более 100 000, можно пренебречь дробью п 77'
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 277 Таким образом в данном случае 21,5 * 78-5 1000 = 1,29, 100 / 20,07-79,93 1500 1,034; поэтому штандарт разности 100 —100// равен /1,292 + 1,0342^ 1,31. Следовательно, разность 100/ — 100/;/= 1,43 едва превышает значение своего штандарта, и потому нет серьезных оснований считать, что процент женщин действительно уменьшился. Иначе обстояло бы дело, если бы выборки опирались на более многочисленные данные; те же значения / и р-^ были бы показа- телями несомненного (практически) уменьшения числа женщин, если бы п ~rl — 10 000. Тогда 100 j 0,41, 100 ^ = 0,40, откуда 100 У J2 0,57; поэтому 1,43 0^57 4=2,5, и вероятность, что столь значительное уклонение могло получиться случайно, равна только 1—2Ф(2,5) =4 0,012. 4- Выборочный метод применяется также для определения сред- него размера какой-нибудь величины (или экстенсивного признака), которая у различных индивидов данной основной совокупности имеет разные значения. Это может быть биологический признак, как, например, рост всех мужчин (не моложе 20 лет) данной страны, или экономический, как месячный заработок каждого члена данного профессионального союза, и т. п. Так же, как и в случае качественного или альтернативного признака Л, который мы рас- сматривали до сих пор, необходимо точно ограничить ту совокупность индивидов, для которой опреде- ляется средняя величина признака, ни в какой мере не предполагая, однако, что исследуемая нами совокупность биоло- гически или экономически однородна, и оставляя в стороне вопрос о методологических основаниях, которыми тот или иной исследо- ватель может руководствоваться, объединяя всех индивидов данной совокупности. Для нас в настоящий момент важно лишь, чтобы
278 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ указанное объединение было технически возможно и чтобы в отно- шении рассматриваемого признака все объединенные в данную совокупность индивиды признавались нами равноценными, так что, независимо от ее практического значения, мы ставим себе только задачу, не производя индивидуального измерения всех без исключения рассматриваемых индивидов, найти приближенно величину г д е х . (/ = 1,..., 7V) есть фактическое количественное значение признака х каждого из N индивидов вы- деленной совокупности. Для этой цели мы, подобно предыдущему, заменяем каждого, индивида соответствующей карточкой и, осуществляя условия, при которых карточка каждого из N индивидов имеет одинаковые шансы быть вытянутой, извлекаем п карточек из всей совокупности, т.-е. делаем выборку п элементов. Имея в виду, что на практике обычно мало, можем для некоторого упрощения вычислений. ограничиться сначала схемой Бернулли; в таком случае мы имеем п. независимых величин £2,. . ., из которых каждая с вероят- ностью может получить любое из N значений (хг х2,..xv). Поэтому м. о. е+ • • • + =х, а а2 = М. О. (£.—Х)2== (хд - X)2 + (х2 — X)2 +... 4- (xN-ху X (198) (199) Следовательно, применяя теорему Ляпунова, заключаем, что- вероятность неравенства ^+е2+-+^я п (200)
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 279 при неограниченном возрастании п имеет пре- делом 1 Г I е - dt. (156) Подобно тому как было замечено раньше, это утверждение остается в силе и тогда, когда мы считаем данным п а неизвестной величиной является X. Кроме того М. О. (L — Х')2 = М. О. Г~ 1) L п 1е, п2 п ’ поэтому, при возрастании я, величина Х(£,—*')2 J_________ (п — 1)а2 согласно закону больших чисел, безгранично приближается к 1, которая является ее математическим ожиданием. А потому, полагая , i/ £(Е,—х'у '=V — (*>» можем утверждать, что и неравенство У У tQ —= < X' - Х.<А —=, (200 bis) у п у п рассматриваемое вместо (200), имеет пределом 1 -- __ \ е 2 dt. /21ТЛ. < ' °* 1 когда п бесконечно возрастает, так как--------► 1.
280 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Понятно, что, поскольку мы имеем дело с большим значением /г, безразлично, берется ли знаменателем п—1 в выражении (201) или /г; считая эту деталь практически несущественной, будем и в том и в другом случае называть У2 средним квадратичным уклонением величины от их общей средней Х\ замечая, что У2 представляет собой достаточно точное для практи- ческих целей приближенное значение квадрата штандарта j [т.-е. М. О. (Ez—X)2]. Очевидно кроме того, что погрешность этого приближенного значения а может быть определена аналогичным образом. Действительно, согласно равенству (199), а'2 представляет среднее ква- дратичное уклонение ——; поэтому та же выборка может служить для приближенного определения этой средней величины объектов всей сово- купности, и мы имеем, по той же теореме Ляпунова, что вероятность нера- венства Г п п \ п (202) имеет пределом (при возрастании dt, где 2 М. О. [(;, - ху> — а2]2 О. (;z - X)4 - 2;* М. О. (:z - - X)2 + з* ^М. О, (203) Но, принимая во внимание, что 2 (-’/ ’О’ = 2 “ Х")2 ~ : 2 (A" .Y) £ - А') + п (X' - Ху = 1 1 = 2(^ -2Г)3 4 «(Г-Х)3 п п (так как У, = пХг, а потому ~ X') = 0), видим, что 1 1 4- 2 & - хг- = S - х'? I (2Г - -V)3, 1 I и. замечая в силу (200 bis), чтоь как бы мало ни было г, вероятность нера- венства (х'-ху>>~= V п
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 281 стремится к 0 с возрастанием 9 /г, заключаем, что вероятность неравенства г0 -% < Л 2 & - Х'У - (2°2 bis) Г п п \ V п имеет тот же предел I е ~ dt, что и вероятность неравенства (202). I I Л) Таким образом, после того как по выборке определены зна- чения ;; и их’ средняя X't квадрат неизвестного штан- дарта (и л и дисперсия величин х,) а2 подчиняется закону Гаусса с центром zr- и штандартом -2. Поэтому, в частности» вероятная погрешность равенства У2 с2 2 з, . , 2 а, равна zt ——(т,-с. столь же вероятно, что | z 2 — з21 < — —, как и а / п б у/ п противоположное неравенство), и, имея в визу, что з2 есть независимая от п постоянная, заключаем, что погрешность указанного выше способа вычисления штандарта на основании выборки стремится к 0 с возраста- нием и. Замечая, кроме того, что неравенство (202 bis) равнозначно ~0 °2 г 3 3 + 3 п и для больших значений п пред, неравенство любым из неравенств -0 °2 f % 1 311 2з п " 2а / п откуда видно, что У — с также «О / <0 штандартом--------/ или - 2а |/ п \ жениям, и величина а2 может быть .щимся. приближенным значением: Z < ^4- . -4_ (202 ter) 3 ~г 3 р' п I (-=^1, можем заменить последнее Ж'СЖ < 3' - а , (204) 2с' у п 2z I п >дчиняется закону Гаусса 2 ) • При э:ом, по тем же сообра- 2g' |/ п) заменена весьма мало от нее отличаю- X')4 У4. ' ’ . (203 bis) п-.------------------------- Прежде чем перейти к рассмотрению примеров, следует заме- тить> что если п не очень велико (не превышает нескольких сотен). <) Так как это неравенство равнозначно \Xf — Xj > _ £ Г п
282 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ то пользование вышеустановленными формулами дает лишь грубое приближение, и на результатах такой выборки нельзя строить серьезных выводов, а нужно видеть в них лишь некоторые каче- ственные указания, требующие проверки на основании более обширных статистических материалов. 5. Предположим, что требуется определить средний урожай X ржи с десятины в данном году в некотором районе, охватывающем 1 000 000 подлежащих учету десятин. Для этого производится точ- ное выборочное обследование i) 2) (по схеме урны с невозвращаемыми шарами) 5 000 десятин. Найдено, что Хг=78 пуд., 5 000 У2 = А.----------= 312,5. 5 000 В таком случаед У _ <TT2J5_ 1 /и-У 5000 -Т' Поэтому вероятность, что средний урожай с десятины X по всему району удовлетворяет неравенству равна Ф(/2) — Ф(/о). В частности, вероятность, что 77<АГ<79 (205) равна 2Ф(4) = 0,999 936, т.-е. можно быть практически уверенным,, что найденный по выборке результат дает действительный средний, урожай всего района с точностью до 1 пуда. /е _78V Если бы, например, было найдено, что У / < - <2 000 000, UVVV то а'2 < 1 400; поэтому штандарт погрешности при замене с'2 через 312,5 менее, чем - * < 20. Следовательно, можно быть уверенным, что /5000 312,5|4 • 20 — 392,5, а потому —— 0,28, что не изме- нит по существу нашего вывода, так как и в худшем случае вероятность неравенства (205) равна 2Ф (3,6) = 0,999 682- i) Каждой из 1000 000 десятин должна соответствовать отдельная карточка.
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 283 Основное требование выборочного метода заключается в том, чтобы всякий из индивидов основной совокупности имел оди- наковые шансы быть отобранным. Ясно, что если мы рассматри- ваем две выборки из одной и той же совокупности, то соответ- ствующие им средние Xf и Xtf не будут вполне тождественны; вообще, каковы бы ни были обе выборки (лишь бы они были независимы), мы знаем на основании предыдущего, что вероятность> 1 Г4 — равную -_____• I е 2 dt, будет иметь неравенство где а’2 и а"2—соответственно, средние квадратичные уклонения каждой выборки, а п и т — числа объектов, вошедших в них, при чем безразлично, произведены ли выборки из той же самой или различных основных совокупностей ]). Однако результат будет иной, если выборки не независимы между собой. Допустим, что n<^in и первая выборка является частью второй; пусть т — п — пг Тогда мы можем рассматривать, как независимые, выборки с п эле- ментами и с остальными пг — т — п элементами, предполагая, что число N объектов основной совокупности велико по сравнению с т. Поэтому, если XJ есть средняя этой дополнительной сово- купности (с пг элементами), то пХ'п^Х^ —тХн (где X" есть средняя суммарной выборки с т = п -]- элемен- тами) и разность тХ" — тХ' = (п — m)Xf + п^' = X/ — пгХ\ являясь разностью между независимыми величинами, подчиняется закону Гаусса со штандартом / У2 б"* 9 Таким образом, если найдено, что ] X' — X!f j > 4 у , то можно быть уверенным, что выборки соответствуют различным совокупно- стям или, что техника выполнения по крайней мере одной из них была неудовлетворительна.
284 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Следовательно, X"— Xf также подчиняется закону Гаусса со штандартом1) 1 1 п т а (207) По л ученной формулой можно, очевидно, пользо- ваться и в том случае, когда выбранная совокуп- ность с т элементами рассматривается как О С Н О fi- ZZ ная и отношение — не настолько мало, чтобы им т можно было пренебречь. Предположим, например, что хотят определить средний голов- ной индекс (отношение ширины черепа к длине) X у 20 000 ново- бранцев, призываемых в данном районе. Чтобы не подвергать всех измерению, измеряют индекс только у каждого 5-го по порядку индивида, так что т = 20 000 и п = 4 000; пусть средний индекс у 4 000 новобранцев Хг=76,5, а У = 2,8; тогда, замечая, что ---------= 2,8- п т Wo.X 2,8.0,0>41 ^0,0393, заключаем, что вероятность неравенства —76,5 равна 1 I 'е 2.(0.0395)’ л ф 0,0395/ 2ttJ. £0 —_ ф------ 0,0395 / \ 0,0395 ) ’ таким образом среднее значение 76,5 индекса всех 20 000 ново- бранцев можно считать точным до 0,1, так как вероятность, что |Х— 76,5 j< 0,1 больше, чем 2Ф(2,5) ф 0,9876. Часто вместо выборки, основным условием которой является соблюдение равновозможности обследования любого индивида основной совокупности, отбор частичной совокупности произво- 9 Значение з на основании суммарной выборки с т элементами следует если же а неизве- заменить приближенной величиной з"— стно, но определено только а - , то можно пользоваться последним.
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 285 дится по какому-нибудь определенному, например территориальному,, признаку. Ясно, что тогда нет никаких оснований a priori ожидать, что обследование данной частной совокупности дает соответствую- щую характеристику всей основной совокупности. Существенным вопросом является тогда, эквивалентен ли произведенный отбор случайному или нет. На этот вопрос нетрудно ответить, если для основной совокупности известно среднее значение X и штандарт а. В таком случае, если п невелико по отношению к 2V, то, как мы а видели, штандарт разности X—X должен быть равен --- , и, при- |/ п нимая во внимание, что эта разность подчиняется закону Гаусса, можно считать результат отбора эквивалентным выборке, если 1 V/7 V ! I 5/Г 5/ j X — Л|<~; при ----- <;|Л—X нет еще основа- V и у п у п ний считать отбор симптоматическим, а не случайным; если 2 а . За -| X — XI -А— , то симптоматичность (т.-е. зависимость у п у 11 средней от способа отбора) приобретает значительную вероятность, предполагая, что нет априорных данных для противоположного суждения; наконец, если I Хг — X! > то симптоматичность у п отклонения можно в большинстве случаев считать практически доказанной, имея, конечно, в виду, что если вывод должен иметь характер общего суждения, распространяемого на другие аналогич- ные совокупности, то он нуждается в дальнейшей проверке. Если число X = т не очень велико по сравнению с пу то вместо ' V п х Z1 1 нужно брать ат/ ----------- Упражнения. 1) При выборочном 9 10-процентном обследовании дере- венских хозяйств Украины весной 1924 г. из 300 000 хозяйств Волынской губ. и из 600 000 хозяйств Полтавской губ. было обследовано, соответственно^ 30 000 хозяйств в первой и 60 000 во второй; при этом хозяйств без рабо- чего скота в первой оказалось 11 250, а во второй 23 400. Требуется опре- 9 Все данные нами закруглены для удобства вычислений; поэтому получаемые здесь численные результаты для непосредственного применения к указанным конкретным материалам должны быть соответствующим обра- зом уточнены.
286 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ делить приближенно процент хозяйств, лишенных скота в указанных губерниях, погрешность этого приближения, а также установить, следует ли считать, что процент хозяйств, необеспеченных скотом, действительно больше в Полтавской губ., чем в Волынской. Ответ. р'—37,5%; pft = 39%; штандарт первой а' = 1/ г oUlrvvJ 0,27 и о" = j/ 5QQ ббо^ 0’19- Разность р” — р’ имеет штандар- том с = 0,32. Допущение, что при этом штандарте разность р” - - // случайно достигла значения 1,5, неправдоподобно, так как 1,5 . л. . поэтому практически несомненно, что процент необеспеченных 0,32 скотом хозяйств в Полтавской губ. был действительно больше, чем в Волын- ской. 2) Для определения среднего урожая с одной десятины определенного района в 1 000 000 десятин, которые обрабатываются 500 000 хозяйствами различных размеров, предлагается произвести выборочное обследование 5 000 хозяйств. Какова должна быть теоретическая схема этой выборки и какова ее погрешность? Ответ. Полагая, что /4,/2, • • ’>/500000 представляют соответственно число десятин каждого и з хозяйств, так что Л + /2 • • • + /500 000 = — 1 600 000, находим точное значение среднего урожая с десятины а — где /zxz—полный урожай ^го хозяйства, а средний урожай с десятины для /-го хозяйства равен xz. В основу выборки можно положить одну из двух следующих схем. Первая схема: производим выборку п — 5 000 хозяйств из всех ЛГ = 500 000 хозяйств так, чтобы вероятность каждому хозяйству быть обследованным была пропорциональна его размерам (в десятинах). В таком случае, обозначая через средний урожай с десятины обследованного А-го хозяйства, имеем Л — +f М. О. а; поэтому А” — —1 ' ] "п будет приближенным значением а, подчиняющимся закону Гаусса со штандартом ——, где Второй прием, практически более простой, но менее точный, состоит в том, что производится обычным способом выборка, в которой каждое хозяйство имеет равныешансы быть обследованным, и в качестве S/Л неизвестной величины принимаем А - 7,— = а —, т.-е. средний уро-
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 287 жай хозяйства всей совокупности. В таком случае получаем прибли- женное значение /|Ч + «♦» +/1Л П для А, где fk~k— весь урожай k-vo хозяйства, откуда находим приближенное значение для а 'i которого штандарт —— определяется из равенства Г п Нужно заметить, однако, что штандарт обыкновенно значительно больше а (когда размеры хозяйств могут быть весьма различны); поэтому, если значения /z были известны до выборки, первый прием представляет то преимущество, что при выборке с меньшим числом п хозяйств он дает не меньшую точность, чем второй приемы при более обширной выборке. Предположим, например, что имеются хозяйства в 1, 2, 3, 4, 5 десятин, числа которых равны соответственно: 250 000, 100 000, 75 000, 50 000, 25 000 (так что число М 500 000, 1 000 000). Пусть средние урожаи с десятины для каждого из этих 5 классов хозяйств равны соответственно: 62^ 72, — 78, а3 ~ 80, — 75, = 82 при штандартах лд ~ 17, ад -- ” 16, _ 18. Чтобы произвести выборку по первой схеме, нужно взять Д7.-- 1 000 000 карточек так, чтобы карточек, соответствующих каждому хозяйству, было столько, сколько в нем десятин (понятно, техника случайного отбора при данном приеме усложняется, если число различных классов уве- личить; вообще, для того, чтобы учесть возможность непрерывного изме- нения размеров, целесообразно было бы пользоваться геометрическими моделями, отожествляя, например, каждое хозяйство с отрезком ленты, про- порциональным величине хозяйства). В данном случае _ 2 /,х, 72 • 250 + 78 200 - 80 • 225 + 75 • 200 + 82 • 125 _ 7ft я. _ —-------------------------------------------76,80, _ у (17^ + 4,85^250 , (16^4-1,15^-200 , ' yZj+(+- а>'~ 1000 + 1000 , (16-+3,152)-225 , (16-’+ 1,85-0-200 , (182 l 5,152). 125_ 1000 г 1003 ' 1000 — = 78,130 625 + 51,4645 + 59,832 562 + 51,8845 + 43,815 313 = 285,1275; поэтому, при п — 5 000, - + 0,239, и, следовательно,
288 ЗАКОН НОРМАЛЬНОГО РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ можно быть уверенным, что выборка определит а с точностью до одного п у д а ) • Применяя второй прием, мы находим =* =4 S 4 :v х‘ - а)2== [т'172 (36 ~ 76>85)21 ’ °’5 ~ -i [162 + 1,152] 0,2 -н Г-|--162 43,15*1 -0,15 + [4-16* + 73,15*|-0,1 + -г [2025 + 128,152] -0,05 = 2847,5025, откуда (при rz - 5 000) Г П 2-847,5025 ~500^^°’754 более чем втрое превышает погрешность первого приема. Ввиду большей простоты второго приема и невозможности применения первого, если заранее неизвестны все т.-е. размеры всех хозяйств, можно, сохраняя схему равновозможности всех хозяйств, брать также в качестве приближенного значения для а величину п 2^ %2= -—, * п 2л I штандарт которой равен - _ (для больших значений л). где ^определяется Г' п . формулой 2 ________________________ М 2 42 2 — ’ получаемой из выражения для s (данного в 3-м упражнении предыду- щей главы. (Можно доказать, что, для очень больших значений л/, Х2 также подчиняется закону Гаусса.) Обычно с2 меньше а4 и того же порядка, приблизительно, что и а; поэтому, при применении на прак- тике второй схемы, следует пользоваться значением предпочтительно перед значением В нашем примере = 0,5-(78,130 625) + (51,4645) + 1X59,832 562) + 2.(51,8845) + + 2,5* (43,815 313) 392,636; поэтому
ВЫБОРОЧНЫЙ МЕТОД В СТАТИСТИКЕ 289 таким образом, вторая схема выборки при применении последней формулы (Х2) дает почти ту же точность, что и первая схема (X). 3) В порт А в течение года прибыло 2 500 судов с товарами. Выбо- рочным путем была обследована стоимость товаров на 500 судах; при этом оказалось 400 судов по 10 000 руб., 80 судов по 50 000 руб., 15 судов по 100 000 руб., 4 — по 250 000 руб. и 1 —на 500 000 руб. Требуется опре- делить приближенно ценность годового импорта в порт Л. 2 Ответ. 55 миллионов с вероятной ошибкой 4 = 2,4 миллионов., о Средняя стоимость товара на 1 судне 10 000-400-4-50 000-80 + 100 000-15 + 250 000-4 -4- 500000 а = -----------X-----------------------Т------------!-------= 22 000; среднее квадратичное уклонение , 10 000* - 400 4- 50 0002.80 4-100 0002 -15 4- 250 0002 • 4 500 0002 500 — 22 0002 = 1 296-10*. Поэтому по формуле (207) штандарт ошибки величины а равен Г 36000 , с 1/ — йГёпп—~—6г—= 1440, а штандарт 5 ошибки приближенного г Ovv ZOUU /О значения всего импорта 2 500 а равен 4 = 2500'1 440 = 3,6 миллионов. В данном примере выборка дает не особенно точный результат, благодаря очень большому значению с, соответствующему чрезвычайному разнообразию обследуемых элементов (от 10 000 до 500 000); в подобных случаях более целесообразно произвести группировку элементов совокупности на несколько классов и проводить выборку по классам. Теория вероятностей. 19
ЧАСТЬ ПЯТАЯ ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ ГЛАВА ПЕРВАЯ ПОСТРОЕНИЕ НОРМАЛЬНОЙ КРИВОЙ НА ОСНОВАНИИ СТАТИСТИ- ЧЕСКИХ ДАННЫХ 1. В предыдущей части мы установили, что закон нормального распределения вероятностей (Гаусса) играет существенную роль в теории вероятностей и в ее приложениях, поскольку в действительности более или менее точно соблюдаются те весьма общие условия, ко- торые нужны для приложимости предельных теорем Лапласа, Ляпу- нова и Маркова. Если рассматривается весьма большое число п опытов (или объ- ектов), в которых исследуемая величина х может получать различные значения с плотностью распределения вероятностей / (х), то, на осно- вании закона больших чисел, интеграл I / (х) dx, представляющий а вероятность, что х находится в промежутке (а, £), будет очень мало (Л Ю 7 OX X отличаться от отношения —— числа т (а, р) объектов, для ко- торых значение х заключено между а и к числу п всех объектов. Вполне точного совпадения обеих величин мы, однако, не в праве ожидать, особенно если интервал (a, (J) очень мал и соответствую- щая ему вероятность ничтожна. Благодаря этому задача нахожде- ния математической функции /(х), которая бы соответствовала данному статистическому материалу, является в значительной мере неопределенной и тем в большей степени, чем меньше я. К указан- ной общей задаче мы вернемся в дальнейшем, выбирая по тем или иным теоретическим или техническим соображениям определенного вида функцию /(х); но сначала мы возьмем в качестве теорети-
ПОСТРОЕНИЕ НОРМАЛЕН. КРИВОЙ НА ОСНОВАН. СТАТИСТИЧ. ДАННЫХ 291 1 ческой функции распределения функцию Гаусса /(х) =—-~-е а у 2тг и, вычислив ее параметры а и а на основании статистических дан- ных, посмотрим, как выяснить, вмещаются ли уклонения теоретиче- ских чисел от наблюденных в рамки случайных уклонений, или же, напротив, несовпадение обоих рядов чисел настолько значительно, что гипотеза нормального распределения вероятностей должна быть отброшена. Строго говоря, закон нормального распределения вероятностей не может соблюдаться, если величина х изменяется не непрерывно; тем не менее теорема Лапласа дает классический при- (т—пр\ мер величины - - ,• I, изменяющейся прерывно, \V npq / к которой указанный закон применимо весьма боль- шой точностью, л и.ш ь бы интервал (а, не был слишком мал. Но и тогда, когда х изменяется непрерывно, измерение ее при помощи данных приборов приводит к значениям, содержащим лишь некоторое определенное число точных десятич- ных знаков, а потому и в данном случае нет смысла рассматривать очень малые промежутки: если, например, величина х измеряется с точностью до 1 мм, то целые числа миллиметров играют фактически роль прерывных значений, которые она может получать. Поэтому мы не будем делать принципиального различия между случаями не- прерывного и прерывного распределения вероятностей (см. главу V, часть II). 2. Вычисление центра а и штандарта о вытекает из предше- ствующих теоретических выводов; приближенным значе- нием а будет средняя арифметическая а' из наблю- денных значений а приближенным значением дисперсии = а2 является среднее квадратичное уклонение ^(Xi—a'Y У 2 J___________ П Д' .Мы знаем, кроме того, что (при п достаточно большом) будет у п приближенным штандартом погрешности а! — ^ ко- торая во всяком случае подчиняется закону Гаусса, 19*
292 ОСНОВЫ ТЕОРИИ КРИВЫХ и поверхностей распределения также как и разность У* 2 * — а2, имеющая штандар- а2 том —, где /п' а * = М. О. f(x,. — а)2 — а2]2 = М. О. (х;. — а)4 — а4. (203) В общем случае, как мы видели, может быть, на основании статистического же материала, заменено приближенным значением а (203 bis) Однако, если мы предполагаем, что величина х подчиняется за- кону Гаусса, то — U—Др £2 = М. О. (хе—а)<=М. О. (х— а)4= —— (х—а)4е ~™~dx= ay 2тг J - оо .гг 2з’ rfx = 3a4; (208) поэтому a'=j32 — з4 = 2с;4 = 2^. (209) Следовательно, в данном случае нет надобности вычислять (203 bis) и можно в качестве приближенного значения а2—а2 2 взять У2)/ 2, а потому, согласно (204), приближенным штандартом по- у грешности У — о будет . \/2п Обычно, когда хотят выразить, что погрешность А — Аг равенства А^А1 подчиняется закону Гаусса с штандартом а, пишут 2) А = А? -i- а. 9 Это значит, в частности, что вероятное значение разности А — А 2 равно -у с, а значение большее чем Зз практически невероятно (его вероят- ci ность менее чем 0,003).
ПОСТРОЕНИЕ НОРМАЛЕН. КРИВОЙ НА ОСНОВАН. СТАТИСТИЧ. ДАННЫХ 293 Таким образом для определения центра а и штандарта а кри- вой Гаусса имеем равенства (где (2Ю) 3. Рассмотрим следующий пример, заимствуя у Charlier численные данные, которые мы уже рассматривали на странице 210: т — число карт черной масти при 10 извлечениях из полной колоды карт (с возвращением вынутой карты, так что р 1 2 и схематические условия опыта тождественны 10-кратному бросанию монеты, где отме- чают число т появлений Лорла“). Произведено 1 000 таких опытов (т.-е. всего 10 000 извлечений). Найдено: ТАБЛИЦА I. т ~ 0 1 2 3 4 5 6 7 8 9 10 Сумма Число опы- тов Y’ -- 3 10 43 116 221 247 202 115 34 9 0 1000 т~-Ь~х- — 5 - 4 — 3 - 2 — 1 0 1 2 3 4 5 0 Y'x~~ -15 —40 -129 -232 -221 0 202 230 102 36 0 — 67 Yrx-~ 75 160 387 464 221 0 202 460 306 144 0 2 419 Для технического упрощения вычисления средней а' выбираем на- чало отсчета (провизорную среднюю) так, чтобы aQ было круг- лым (в данном случае целым) числом, которое при беглом обозре- нии данных близко к искомой средней, и полагаем х — т-~а^, здесь естественно взять а0 = 5. Y'x __57 В таком случае d — —--------~ - -х ——0,067, где числи- п 1000 тель — 67 получился от сложения чисел 4-й строки, которые являются .произведениями соответствующих чисел 2-й и 3-й строк таблицы.
294 ОСНОВЫ ТЕОРИИ КРИВЫХ и поверхностей распределения С другой стороны, (xi—а)2=;^х2. — 2 хр! 4- /ш'2 = ^ х2— naf\ так как х. = Frx = naf; поэтому а’2 = ~ х2 —а'2 = Г F'x2 — а' 2 = 2,419 — 0,004 489 = = 2,414511, где Их2 = 2419 получена сложением чисел; 5-й строки, которые представляют собой произведения соответствую- щих чисел 3-й и 4-й строк. Таким образом р а — — 0,067 4- —= — — 0,067 4- 0,0491, /1 000 У = 1,554 Д-0,034 75. Полученные результаты достаточно хорошо согласуются с тео- ретической схемой опыта, где а = 0 и •10 ф 1,58 (по- а = грешность 0,067 центра лишь незначительно превышает штандарт 0,0491, а погрешность а значительно меньше своего штандарта).. Однако из этого еще не следует, что распределение вероятностей величины х действительно нормально, тем более, что и в теорети- ческой схеме число извлечений 10 еще не так велико, чтобы можно было утверждать, что х=т— 5 подчиняется закону Гаусса. На этом же примере мы разъясним, каким образом сделать про- верку, допустима ли (в пределах данного опыта) гипотеза о нор- мальном распределении вероятностей. Если бы у нас не было теоретических оснований, чтобы приписать а и а определенные, значения, то мы построили бы кривую Гаусса, соответствующую только что вычисленным значениям а и а', но для лучшего выяснения различных допущений и погрешностей, которые при этом делаются, мы сравним сначала наше статистическое распределение с нормаль- ной кривой хг 1 ~ 27, ----е ’ а |/ 2тт
ПОСТРОЕНИЕ НОРМАЛЕН. КРИВОЙ НА ОСНОВАН. СТАТИСТИЧ. ДАННЫХ 295 соответствующей теоретическим значениям а —0 и а = 1,58, имея в виду, что рассматриваемые нами промежутки значений х не должны быть меньше 1. Таким образом теоретическое число или, точнее, математическое ожидание числа опытов, в которых х заключено между а и равно 1 000 а)/2тг 2з* 1000 ах=— )/2тг = 1 000 Гф(I) —ф L \ ° / \ ° / (так как общее число опытов и = 1 ООО), при чем мы ограничиваемся лишь значениями а и вида где h — целое число, сравни- л-Ц вая теоретическое число I t = Yh с наблюденным числом опы- Л”Т тов в которых x — h. Поэтому, пользуясь таблицей функции Лапласа Ф (/) и придавая t — 5,5 —4,5 —0,5 0,5 5,5 последовательные значения-----, -----,..., --—, -----,... ---> а а а а а где—= 0,64, составляем таблицу II. а 2-я и 3-я строки служат для вычисления теоретических значе- ний Yh 4-й строки; 5-я строка содержит уклонения эмпирических значений Y'h предшествующей таблицы от соответствующих теоре- тических значений Yh. Попутно в 6-й строке даны теоретические / 1 1 \ю числа, вытекающие из формулы бинома Ньютона 1000 > которые совершенно точно соответствуют схеме произведенных опы- тов, при которой распределение вероятностей величины х прерывно; 7-я . строка содержит уклонения эмпирических чисел Y’h от послед- них теоретических чисел; беглого сравнения этой строки с 5-й
-296 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ ТАБЛИЦА IL т—< со о Г"- ос С1 ю со т—< о 1 ! оо 1 — 2,24 — 1,60 —0,96 —0,32 0,32 0,96 1,60 2,24 2 88 3,52 — 487,5 -445,2 - 331,5 - 125,5 125,5 331,5 445,2 487,5 498 499,8 9,5 42,3 113,7 206 251 206 113,7 42,3 9,5 1,8 0,5 -0,7 -2,3 - 15 4 4 —1,3 8,3 0,5 1,8 9,8 43,9 117,2 205,1 246,1 205,1 117,2 43,9 9,8 1 -0,2 0,9 1,2 —15,9 — 0,9 3,1 2,2 9,9 0,8 1 9,5 40,5 100,9 164 188 164 100,9 40,5 9,5 1,8 0 0 0,1 1,4 0,1 0,1 0 1,7 0,1 1,8 1Л 1 ОО ос~ оГ 1 ОО С> 1 °ч 1^—< г—< т—< ОС_ 1^—< ОО 1 II ю со' ОО с? о> 1 н е о о о 1^—< н 1 1000 л + 5 1024 С + L 8|Я о о 1 |_ 1
ПОСТРОЕНИЕ НОРМАЛЬН* КРИВОЙ НА ОСНОВАН* СТАТИСТИЧ* ДАННЫХ 297 достаточно, чтобы видеть, что приближение, достигаемое с по- мощью членов бинома, не лучше, чем то 3), которое дает кривая Гаусса* В 8-й строке помещена теоретическая (для кривой Гаусса) дис- персия Ж=М.О.(Г,-^1000-^(1 у \ / V \ ___d^\^Y ( 1___— Г 1 000/ л\ 1 000/ последняя строка содержит отношение квадрата уклонения {Yh—к его математическому ожиданию; поэтому, применяя метод дисперсии, мы можем считать совпадение теоретиче- ских чисел с эмпирическими удовлетворительными, если средняя (Yh— Y'y* арифметическая D из величин -—~ не превышает значительно Р W единицу * 2), например, не достигает 2. В данном примере совпаде- ние очень хорошее, так как Г) = 6’1 ^0,56. 11 Производя аналогичное вычисление для кривой Гаусса с эмпири- ческим центром ——0,067 и штандартом а' = 1,554, мы получим теоретические значения — 1000 Ф Л-}-0,567\ , (h — 0,433 У Поэтому, беря попрежнему —р = 0,64, перемещаем лишь центр и составляем таблицу III* 9 Для того, чтобы обнаружить эмпирически те незначительные разли- чия, которые проистекают от замены точных значений членов симметричной формулы десятой степени бинома интегралами Лапласа для соответствующих промежутков, нужно было бы взять п не менее 10 000. 2) См. гл. IV, часть III, и, в частности, стр. 216.
298 ОСНОВЫ ТЕОРИИ КРИВЫХ и поверхностей распределения ТАБЛИЦА III. h t — 3,48 1 ооо Ф(0 — 499,7 у. 1 п Гл- у' л h ?(Л) — 5 -2,84 - 497,8 2 — 1 0,5 — 4 — 486,1 11,6 1,6 0,2 — 2,20 — 3 45,5 2,5 0,2 — 1,56 — 440,6 — 2 119,4 — 3,4 ОД — 0,92 — 321,2 — 1 210,9 — 10,1 0,6 — 0,28 — 110,3 0 140,6 250,9 3,7 0,1 0,36 1 200,7 — 1,3 0 1 341,3 2 1,64 108,2 — 6,8 0,5 449,5 3 39,2 5,2 0,7 2,28 488,7 4 498,2 9,5 0,5 0 2,92 5 1,6 1.6 1,6 3,56 499,8 * Здесь ^tW0’41’ и построенная эмпирически кривая Гаусса еще лучше согласуется с статистическими данными, чем вычисленная раньше. 4, Пр и.менение способа дисперсии для выяснения степени пригодности той или иной теоретической кривой распределения вероятностей состоит, таким образом, в том вообще, что вычисляется средний коэффициент дисперсии, т.-е. средняя арифмети- ческая (211) 5 ?(Л) 5 у /1 I и / где s — число интервалов, на которые разбит весь данный статистический материал, Yh — теоретиче- ское число, а —наблюденное число объектов,,
ПОСТРОЕНИЕ НОРМАЛЬН. КРИВОЙ НА ОСНОВАН. СТАТИСТИЧ. ДАННЫХ 299 соответствующее интервалу , длиною 5. Для упрощения вычислений коэффициент D можно заменить другим коэффициентом н 1 v (212) который назовем коэффициентом точности рассматривае- мой теоретической кривой; коэффициент точности также имеет математическое ожидание равное 1 и при больших значениях 5 по закону больших чисел должен мало отличаться от 1. Действительно, поэтому М. О. а отсюда М. О. 77=1. Коэффициент точности Н в данном примере для теоретической кривой Гаусса (при а~ — 0,067, У = 1,554) равен "=й таким образом значения D и Н практически одинаково характери- зуют достигнутое приближение. Разумеется, указанное применение способа диспер- сии нисколько не требует, чтобы все промежутки были равны, но понятно, что, вообще говоря, точ- ность приближения теоретической кривой (т.-е. ко- эффициенты Н или D) может, всогласии с сделанными ранее замечаниями, быть не вполне одинаковой в за- висимости от того или иного подразделения ма- териала на промежутки. Поэтому, указывая найденное значе- ние коэффициента точности Н (или D), желательно для теоретической полноты упоминать о том, каковы были рассматриваемые интервалы.
300 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Для наиболее точного вычисления параметров теоретической кривой целесообразно деление всего материала на возможно мелкие промежутки 3) так, чтобы каждая эмпирическая величина х была учтена со всей точностью, какую допускало ее фактическое изме- рение; напротив, производя сравнение теоретического распределения с эмпирическим, не следует брать слишком малых интервалов для того, чтобы теоретические значения Yh во всяком случае были не меньше нескольких единиц. Когда дан- ные эмпирические промежутки настолько малы, что соответствующие .им значения Y' не велики, то для сравнения кривых можно ре- комендовать объединение нескольких промежутков в интервалы, не равные между собой, но которым соответствуют теоретически равные значения т П например, r/z ——. Если кривая распределения дана уравнением 1 “ -5 а у 2п то соответствующие точки деления на интервалы будут (— СО, — 1,28а; —0,842а; —0,524а; —0,253а; 0; 0,253а; 0,524а; 0,842а; 1,28а; ОО). Эти числа мы получаем из таблицы функции Ф(г) как значения г, соответствующие значениям Ф(г), равным—0,4; — 0,3; —0,2; —0,1; 0; 0,1 и т. д. В 25 провинциях Швеции в 1883 году даны числа родившихся двоен на 1 000 рождений. Эти числа в порядке возрастания были: 10,1 13,4 14,3 15,2 16,8 13,1 13,4 14,3 15,2 17,7 13,5 14,4 15,4 19,8 13,6 14,4 15,6 13,8 14,5 15,8 13,8 14,5 13,9 14,8 ' 14,9 4) Расширение промежутков диктуется- лишь желанием упростить стати- стическую технику.*
ПОСТРОЕНИЕ НОРМАЛЕН. КРИВОЙ НА ОСНОВАН. СТАТИСТИЧ. ДАННЫХ 301 Применяя указанный выше прием для вычисления (не производя никакой группировки) центра и штандарта, находим: а = 14,648; 0=1,73. Разделяя весь материал на s = 5 интервалов, соответствую- п 25 тих У, = — = — = 5, находим точки деления: а — 0,842д = п s 5 = 13,19; а — 0,253о=14,21; а 0,253j = 15,09; а^-0,842а = = 16,11; в действительности, в указанных промежутках вместо 5 было, соответственно 2, 7, 8, 5, 3 провинции; таким образом "=7 (2^5)з 5 (7-5Г , (8-5)2 , (3-5)21 5 1 5 5 ] дак что является довольно вероятным, что те же 25 чисел могли бьь быть получены, если бы было выбрано наудачу 25 значений вели- чины х, подчиняющейся закону Гаусса с центром 14,648 и штан- дартом 1,73. (Разумеется, при столь малых значениях п невозможно сколько-нибудь точно выявить закон распределения величины х.) Однако, если бы для получения равновероятных интервалов пришлось дробить первоначально дан- ные элементарные промежутки, то не производить, промежутков, для к о- и будет сделано нами в не- элементарные этого дробления лишь объединением соседних т о р ы х У' незначительны, что которых дальнейших примерах. обычно лучше ограничиваясь 5. Следует сделать еще одно замечание пр о,и стекающей ные значения приурочиваются к определенной точке //, по поводу погрешности,, оттого, что действительно наблюден- середине промежутка h zt -у, между тем как наша тео- ретическая функция распределения вероятностей f(x) непрерывна. Допуская, что эмпирическое распределение идеально совпадает с теоре- тическим, т.-е. что ’к- 2 h----- 2 f(x)dx, мы не получили бьи однако, вполне точного совпадения между рСО а -М. О. х •-> xf(x)dx величинами и a'^nhyk’
302 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ ‘И вообще лСО а. — М. О. х^ - \ xkf(x)dx не равно д V* --оо так как р'+У р+у 1 xk f (х) dx ф hk I f (x) d'x. h h — -- Величину ak = M. O. xk называют теоретическим моментом степени, а называют иногда грубым моментом. Постараемся установить поправку, которую нужно внести в значение л , т.-е. определим множитель которым надо заменить чтобы полу- чить точное равенство I xk f (х) dx “ \k i f(x)dx. (213) J h~~ J JL Для этой цели замечаем, что Р+1 /' 5\ / I _ f (х) dx = F [h -j- - j - F h — ~j h— = р’(Л) + 4/(/г) + T4-... [ — [/= ('0 — ~f(h) + •.] = SJ о = SA(/O Ч-й/"W 4- • и аналогичным образом 2 Q3 / V s ХЧ (x) dx = 3 (/2V(/0) й pV(/i)) -Г • • • Поэтому xk f (x) dx AVW + /<Ч-1д/<»>* (214) f (x) dx
ПОСТРОЕНИЕ НОРМАЛЬН. КРИВОЙ НА ОСНОВАН. СТАТИСТИЧ. ДАННЫХ 303 и, пренебрегая членами не ниже 4-Й степени относительно -%> имеем К - [1+24/(л) Л2 J'-'2)) 24 f(h) J к-е. L • 24 \ hf(h) •л-н-2- xkj (x) dx ~ hk 1 f(x)dx-± A-1 M + SF^-1)^'- \-2khk J /(x)^- I J \fl) I J , •$ L (215) Предположим сначала, что теоретическая функция f(x} есть функция (х-аР ч_ #/ ч 1 f’(h) (a — h) Гаусса 7(х) — -—е ; тогда ~— > поэтому, применяя равенство (215) ко всем промежуткам и складывая их, получим а*=a'k+S -1} ai.2+!? Н.. 1 - \)] • (216) Полагая k — 1, находим (j0 = а ' =1) , , ( Д а^а 4-- а — а ), 12s-\ / •откуда а = а (с точностью порядка так что погрешностью в определении центра а} проистекающей от замены инте- грала суммой, можно пренебречь и, перенеся начало координат в центр, положить а = аг = 0. В таком случае равен- ство (216) примет вид ak = «,’ т- ;я --/ > (217) k 24 L к~ 2 3“ J и, в частности, для £ — 2 —а2, -откуда, пренебрегая опять величинами порядка 16* получим а2 = а^ + «Г (1 _2) =а'а— (218)
304 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Возвращаясь к общему равенству (213), где мы допускаем лишь, чго теоретическая функция распределения / (х) обладает конечными производными первых трех порядков, можно, пользуясь тем же приемом, который привел нас к равенству (215), заменить hk ^'(h) 1 * Ш / (х) dx через I = -(/г-1)1 xk~'-f(x)dx, (219) J —2_ I h—L J h— 82 пренебрегая членами порядка Тогда, благодаря тому, что рассматриваем 4 /?£-2 мое выражение входит в (215) с множителем -у, порядок погрешности. Si равенства (215) после этой замены останется попрежнему равным и мы 16 получим I xkf (х) dx fik \ f (х) dx + м 52 Г _ ('Л+Т ~Г 93 — 1)й*”2 I / (х) dx — I I о рА -н • Q- । а 4~ _ — 2А(А— 1)1 ' xk'2J(x)dx-.-'2kxk if(x) | “ и с тою же степенью абсолютной и относительной точности p^X’V р^4--.7 I xkf (х) dx = hk 1 f (х) dx — J А~у - /I—~ A(A— 1)S2 24 ‘ 2 9rA— I /(x)^x-~^T/(x) h- v Распространяя это равенство на все промежутки и складывая их, нахо- дим наконец k-^a' V, 24 А—2 ak = a f А k (220);
ПОСТРОЕНИЕ НОРМАЛЬН. КРИВОЙ НА ОСНОВАН. СТАТИСТИЧ. ДАННЫХ 305 так как члены вида xkf(x) л-гт взаимно сокращаются и, кроме того, раз h .т мы допускаем, что М. О. xk конечно, то xkf(x) стремится к 0 при .v- ‘Д: ос. Равенство (220) представляет собою поправочную формулу1) 8 4 Шеппарда, соответствующую приближению с точностью до Следовательно, в частности, (218 bis) какова бы ни была функция /(х), удовлетворяющая вышеуказанным условиям. Упражнения. 1) В биографическом словаре Poggendorfa рас- смотрено 225 пар страниц. Число биографий, начинающихся на каждой паре страниц, дано в таблице. Число биографий х 1 0 ‘ 1 j 2 L ! J. „ пар страниц : 1 3 = 1 3 ; 4 f 5 | б I 7 8 I 9 |10;11Д2 13 I 1 III; 7 |18|21|34,36 32|26il9;i0| 7 [ 5 14 2 1516 0 2 17 ’ 1 Вычислить центр а и штандарт з распределения вероятностей; прове- рить, согласуются ли эти данные с допущением нормального распределения. О т в е т : а = 7,44; з — 2,76. Имея в виду, что, при столь незначительном п =225, дробление на 18 промежутков является чрезмерным, объединяем два соседние промежутка в 1 интервал и получаем эмпирические и теоре- тические ряды: Эмпирич. данные Теоретич. данные Теоретич. вероятн. = t G X < 1,5 4 3,6 0,016 t<: -2,i56 1,5 < х < 3,5 8 13,5 0,060 2,156 / ; 1,43 3,5 < х < 5,5 39 36,8 0,162 — 1,43 "/<"--0,705 5,5 < х < 7,5 70 60 0,267 - 0,705 / 0,02 7,5 <7 х <" 9,5 58 59,4 0,264 0,02 t 4 0,746 9,5 < х < 11,5 29 35,3 0,157 0,746 < t < 1,47 11,5 <х < 13,5 12 12,8 0,057 1,47 < t < 2,195 13,5 < х 5 3,2 0,014 2,195 < t 9 Формула (220) с тою же степенью точности эквивалентна, конечно, равенству (217), так как, для /(х) = ...*. ~ = (А -l)^-.^2; поэтому, с г 2г. ak заменяя в скобках второй части (217) --Q- через (k — 1) о, получаем (220). Теория вероятностей. 20
306 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Коэффициент точности Н =^0,9 удовлетворителен. 2) В связи с своими исследованиями по теории наследственности, английский ученый Галь тон измерил рост 928 родительских пар, опре- х + 1,08_у деляя рост родительской пары по формуле--------, где х — рост отца, а у — рост матери. Измерения, произведенные в дюймах, дали 37 63 — 65 144 430 | 251 62 | 4 род. пары 65 — 67 67 -69| 69 -71 71 - 73 ! 73 - 75 рост Определить соответствующую этому распределению нормальную кривую и выяснить степень ее пригодности. Ответ, Средний рост а~ 68,364" при штандарте а = 1,853. Поэтому теоретические числа равны (в порядке возрастания роста) 31; 184; 374; 269; 66; 5. Следовательно, коэффициент точности 1 [36 1 600 . 3 136 г 324 , 16 1 14 5 [з1 184 + 374 “Г 269'Т'66+ 5 J ' слишком велик, чтобы можно было считать данное распределение роста нормальным.
ГЛАВА ВТОРАЯ АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ, УКЛОНЯЮ- ЩИХСЯ ОТ НОРМАЛЬНОГО ТИПА 1. Если нам дана весьма многочисленная совокупность, состоя- щая из п объектов, у которых измерен некоторый признак х, то прежде всего для характеристики этой совокупности относительно рассматриваемого признака следует вычислить среднюю величину d = — признака и его штандарт У = (х — Построив после этого нормальную кривую, имеющую указанные параметры а и У, мы нередко убеждаемся, что соответствующий коэффициент точности Н настолько велик, что отклонения от нор- мального распределения нельзя признать случайными. В таком случае перед нами стоят две задачи: 1) указать воз- можно простую теоретическую функцию распределения вероятно- стей /(х), уклонение которой от данного распределения, измеряемое, например, коэффициентом точности //, было бы достаточно мало, чтобы его можно было приписать случайности; 2) дать теоретиче- ское обоснование выбора указанной функции /(х), руководствуясь принципами теории вероятностей и элементарными физическими или биологическими (или экономическими) законами, на почве которых происходит рассматриваемое явление. Вторая задача не допускает единообразного математического решения, и, откладывая до конца главы некоторые принципиальные соображения по этому поводу, займемся первой задачей — интерполирования или приближенного изображения данной статистической кривой при помощи простых математических формул. Как было разъяснено выше, достаточно вообще ограничиться предположением, что действительное (эмпирическое) распределение вероятностей непрерывно и плотность вероятностей выражается неко- торой непрерывной положительной функцией <р(х), которая стре- мится к 0 при х — Ч- СО. 20*
308 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Если бы на функцию <р(х) не налагали никаких других ограни- чений, то и тогда возможно было бы представить ее с какой угодно точностью при помощи произве- _(*- а)* дения Р(х)е “9 * * 12 , где а и а — произвольные данные числа, а Р(х) — соответствующим образом подобран- ный многочлен, так что при всех значениях х \<й(х) — Р(х)е 2” j <г, (221) как бы мало ни было положительное число г В частности, можем взять а = М. О. х, а2 = М. О. (х—а)2' на основании данного статистического распреде- ления, соответствую, щего действительной функции распределения (х). Если бы, взявши вместо многочлена Р(х) постоянную ве- личину, можно было удовлетворить неравенству (221), то распре- деление было бы нормальным (с соответствующей погрешно- стью е). Вообще, полагая __ (х-дН 'Д(х) — —~-------- □ \/ 2п (222) (после указанного выбора а и а), назовем F(x) пертурбаци- онной функцией, так как она является множителем1), на кото- рый надо умножить нормальную плотность (соответствующую тому же центру и штандарту) для того, чтобы получить действи- тельную плотность распределения вероятностей. В силу вышесказанного, эту пертурбационную функ- цию Р(х) всегда можно заменить приближенным многочленом Р(х) так, чтобы W __^li Г^<г. (221 bis) з]/2п з/2п! 9 Очевидно, что для тех значений х, для которых Г(х) >1, действи- тельная кривая распределения имеет ординату большую, чем соответствую- щая кривая Гаусса, и, напротив, ее ордината меньше, когда F(x) < 1. Функция Е(х) характеризует таким образом дополнительные причины, которые отклоняют действительное распределение частоты признака от нор- мального.
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 309 Вводя вместо величины х нормированную величину -- а можем свести общий случай к тому, когда центр находится в на- чале координат, а штандарт равен 1. Поэтому будем полагать во- обще, что ^.е | л2п (222 bis) 2. Как было разъяснено в предыдущей главе, осуществление неравенства (221) для всякого х не имеет практического значения и не может быть экспериментально проверено: для сравнения всегда берутся конечные, хотя и небольшие, промежутки (хр х/+1), и если zz есть общее число индивидов статистической совокупности, то для каждого промежутка рассматриваются разности Обозначая, кроме того, через s число промежутков, определяем коэффициент точности /ж ]2 [j И(*) -'^(x)]dx J и 1 Г')2 « v xi Е ~ у— = ----------' <212 bis> \ /(х) dx Предполагая премежутки (хр достаточно малыми, можно каждый член последней суммы заменить через [/(*)—= [/(*) —2 f(x)(xi+1 — х.) /(х) Таким образом, если бы промежутки были выбраны так, что соответствующие им теоретические числа Y = 1, т.-е. п = 5, то
310 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ предел /У, при я = 00, был бы равен оо пред. //=/? = f ^2L dx\ (223) J /(*) - co в частности, если теоретической функцией является , (224) у 2п где Р(х) — многочлен, то последний интеграл можем записать в виде “Щг P(x)dx~ ___1 |/л2п I2 е 2 P(x)-F(x)J p^dx- (225) естественно поэтому для возможно лучшего с точки зрения теории вероятностей приближения функции (р(х) при помощи функ- ции вида (224), в которой степень многочлена Р(х) не выше дан- ного числа так подыскивать коэффициенты ^(х), чтобы обратить интеграл (225) в минимум. Во всяком случае, если хотим, чтобы коэффициент точности Н был близок к 1, то необходимо, чтобы Н! или соответствующее ему приближенное выражение было мало. Обычно среднее значение — числа У индивидов, приходящихся s на данный интервал, равно по крайней мере нескольким десяткам; однако, если, выбирая степень k многочлена Р(х) достаточно высокой, возможно Н! сделать менее всякой наперед заданной величины, то, как видно из (212 bis), и коэффициент точности И ( * п\ I при данном даже весьма большом -—1 станет произвольно малым, каковы бы ни были промежутки. В действительности, отыскание мини- мума интеграла //, где ср(х) [или Л(х)] есть данная функция, пред- ставляет сложную математическую задачу, которую без существен- ного ущерба можно значительно упростить, отбросивши знаменатель
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 311 Р(х) в подъинтегральной функции (225) и рассматривая таким обра- зом вместо И1 интеграл ОТ .... х* vl 1 — ( Г —— (с (х)1 е 2 dx ~ J L V 2п * J - со 1 г г V -4 — \ ^(х) — yp(x) е ~ dx. (226) - оо Прежде чем перейти к решению задачи отыскания коэффици- ентов многочлена Р{х) степени не выше й, при которых интеграл I обращается в минимум, следует заметить, что на функцию ср(х) необходимо наложить существенные, с теоретической точки зрения, ограничения для того, чтобы с увеличением степени k значение интеграла I (или Hf) могло быть сделано малым. Л» Действительно, если данная функция ©(х) — Х(х) е 4 , где Х(х) > 1 > О [т.-е. л(х) не стремится к 0 при .v- itcc], то интеграл SCO _ л;2 [ --------- — СО (226 bis) будет бесконечно велик, как бы мы ни выбирали многочлен данной степени P(x)t так как при х~ оо подъинтегральная функция не стремится к 0. Отсюда видно, что порядок убывания функции <р(х) не может быть произ- вольным. Можно было бы доказать следующую теорему. с увеличением степени k много- Для того, чтобы члена Р(х) интеграл / (а также /У') мог быть сделан произвольно малым, достаточно, чтобы а>~ и Л>0— некоторые произвольные, < (1+7^’ где но определен- ные числа. Не останавливаясь на доказательстве этой теоремы, которая вытекает из ранее формулированного общего положения (221), заметим, что хотя с узко практической точки зрения указанное
312 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ ограничение не имеет значения, поскольку вообще пределы изме- няемости всякой наблюдаемой величины конечны, но оно показы- вает, что прием, к изложению которого мы теперь перейдем, может оказаться непригодным, если по тем или иным теоретическим соображениям, осно- ванным на свойствах изучаемого явления, необ- ходимо было бы признать, что функция распреде- ления 'д(х) убывает не столь быстро, как этого тре- бует высказанная теорема1). 3. Итак, ищем для функции (224) многочлен 6-й степени Р(х) — Ао -j-A^x -ф-... -f- Akx\ по условию, чтобы интеграл (226) был минимум. Так как I является непрерывной и дифференцируемой функ- цией переменных Ло, Лр . . . , Aky то для минимума, который несомненно существует (ибо / не может быть отрицательным), необходимо, чтобы = <1/4 о <1/4 <)-/4^ т.-е. СО J 1/(х) — Хх)1 xh — — оо со — f [ е 2 — s(x) 1 xh dx = О (Л — 0, 1, . . . ,6), J L J 2тг J — оо <) Заметим также, что если многочлен Р(х) данной степени k, обра- щающий в минимум интеграл /, для некоторых значений х приближается к 0 (или тем более, если он становится отрицательным), то Hf может при этом стать очень большим. Практически это будет не существенно лишь в том случае, когда соответствующие значения х в несколько раз превы- шают штандарт а, так что найденный закон распределения характеризует главное ядро совокупности, за исключением немногих ее элементов, для которых величина признака очень удалена от центра.
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 313 откуда, полагая хл,д(х) dx=ah, выводим k 4“ 1 уравнений f(x)xh dx — ah, (227) которые носят название уравнений моментов и служат для определения k 1 коэффициентов Ah. В развернутой форме урав- нения (227) имеют вид* 1): Ло 4" • • * + ~ 1 + .^1^2 + • • • + ^*44+1 = = 0 ^0^2 + + • • • + ДЛ+З = «2 ~ 1 ^о^з4“...........4“ === аз (227 bis) ^(44 +..........4“^/W2A---ak> где со | xhe ~^dx. | 2п J --ОО Нетрудно видеть, что определитель коэффициентов при неиз- вестных Ah отличен2) от 0, т.-е. уравнения (227 bis) допускают только одну систему решений; следовательно, минимум интеграла / осуществляется именно при этих значениях Ah, удовлетворяющих уравнениям (227 bis). 9 Равенства ~0, д2 ~-1 вытекают из сделанного выше предположения, что центр распределения находится в начале координат, а штандарт равен 1. 2) Для этого достаточно заметить, что если х(х) — 0, то, складывая все k + 1 уравнений, помноживши (Zz-pl)-e из них соответственно на Ah, 1 рсо до- получим I Р’\х}е dx - 0, откуда видно, что Р(х) тождественно — со равно 0, а потому уравнения (227 bis), которые в этом случае однородны, не имеют других решений, кроме 0; как известно, это означает, что определитель из коэффициентов при Ah не равен нулю.
314 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Замечая, что вообще интегрирование по частям дает находим, что, при h нечетном, случае' № 2 dx=\2p — 1)(2р — 3) ... 3-1. (228) Положим сначала k — 2; тогда наши уравнения получают вид Л0+Л2=1, = 0, Д0 + ЗД2 = 1, (229) откуда заключаем, что Л1=Л2 = 0 и Ло=1. Иными словами, если многочлен Р(х) не должен быть выше 2-й сте- пе н и, то Р(х) = 1, и минимум интеграла I осуще- ствляется функцией Гаусса /(х) = •—^1=- е. * у 2п Беря k = 3, получим 4 уравнения 4" ЗЛ3 = О, Л04~ЗЛ2=1, ЗЛ14’3*5Л3 =а3, (230> откуда Яо=1, Л2 = 0, = А3 = ^. Рассмотрим еще случай, когда степень многочлена Р(х) равна. 6 = 4. Тогда мы имеем 5 уравнений: ло + л2 + ЗЛ4 =1, Ло ЗЛ2 4" 15^4 = 1, ЗЛ04- 15Л24- 105Л4 = л4, (231> Л-< + ЗЛо::г=- О, ЗЛ-. + 15ЛЧ = А». J. I О J. I о о
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 315 Положим ^^S,a^=E; (232) величину 5 будем называть асимметрией данного распределения, а величину Е назовем эксцессом. Введя эти обозначения, на- ходим сразу из последних двух уравнений (231) Л1 = -5,Л3 = ^-; (233) для определения же коэффициентов с четными значками склады- ваем первые 3 уравнения, предварительно умноживши первое на 3, а второе на — 6, откуда находим 24Ai — ai — 3, или At— — , (234) О и, подставляя это значение в первые два уравнения, получаем Лэ= 1 Л2 = — 2Е. (234 bis> Таким образом пертурбационный многочлен 4-й сте- пени с р Р(х)=1+Е — Sx — 2Ех2-\- — х3+ — = / \ / х^ \ = 1 — S (х — - +£ 1 — 2x2-4-— • (235) \ / \ / Можно было бы еще повысить степень многочлена Р(х), но на практике этого обычно не делают, так как погрешность вычисления последовательных величин ah, т.-е. последовательных моментов, на основании статистических данных увеличивается с увеличением степени h благодаря тому, что случайное присутствие или отсут- ствие одного или нескольких индивидов, у которых размеры х сильно уклоняются от центра, оказывают тем большее влияние на приближенную величину ah, чем больше h\ никакие поправки Шеппарда, о которых мы говорили выше, не могут существенно улучшить положение вещей, если только статистическая совокуп- ность не исключительно велика. По той же причине трудно дать достаточно обоснованное зна- чение штандарта погрешности статистического определения момен- тов ak при k"^> 2 и связанных с ними величин 5 и, в особенности,
316 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Вообще, как и для всех статистических величин, погрешность убывает обратно пропорционально если же п очень велико и эмпирическая кривая мало уклоняется от нормальной, то штандарты погрешностей 5 и Е приближенно равны ... .1,225 -0.6124 ^(5)^—7=^, ~ п п (236) 4. Если допустим, чго действительное значение Е(х) точно совпадает с Р(х), то плотность распределения вероятностей выра- зится таким образом функцией е - S' Е (£>(%)=—— (1 -|- Е Sx — 2Ех2 ’о" %3 “F х4)- (235 bis) | 2п 3 3 Кривая будет симметрична, если 5=0, и будет совпадать с кривой Гаусса, когда, кроме того, эксцесс Е = 0. Из формы функции £(х) видно, что если Е>03 то цен- 1 4-£ тральная ордината кривой (х = 0) равна —, т.-е. ]/ 2тг. больше ординаты соответствующей нормальной кривой (отсюда происхождение термина .эксцесс'), и, наоборот, меньше последней, когда Е <0. Нетрудно проверить т) (ограничиваясь случаем 5 = 0), что функция \р(х) не будет становиться отрицательной лишь при усло- вии, что кроме того, если Е> , то ^(х) делается отрицательной уже при * | х j = | 3 или даже раньше; поэтому указанная форма (235 bis) невозможна при Что касается отрицательных эксцессов, то вообще никогда 1 2 не бывает Е -------, так как — но при Е<^0 cj(x) всегда становится отрицательным для больших значений |х|; только если | Е; очень мал, то это не является практическим затруднением; во всяком случае, при Е <^0 практи- ------- Е Е Г з 9 Так как 1 + Е — 2Ех2 4- -тр х1 = -у (х- — 3)- 4- £ — 6
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 317 чески, для применимости (235 bis), большею частью достаточно, чтобы : Е | sC * , ' 1 10’ лишь при X | ; Е ели 5 7^ 0, то ж и тельной асимметрии центра убывает слева направо; нательной асимметрии 5 0, кри так как тогда кривая (р(х) становится отрицательной возрастает слева направо [ так как асимметрична: при пол о- S О, ордината вблизи наоборот, при отри- в а я вблизи центра ^(0) =----. Если * V 2тт / приближенно вычислить максимальной ординате у р а в- S и Е достаточно малы, то нетрудно абсциссу ц (моду), соответствующую кривой ср(х). Действительно, мода ц удовлетворяет нению (?(х) = 0, т.-е. 4 (— S — 4£х Sx2 -ф- -- £х3) — о <? F — х(1 + E — Sx — ЧЕх~ _ х3 v х4) = о, (237) О о или, пренебрегая высшими степенями х и произведением £х, полу- чаем приближенно ц-4—5. (238)- Таким образом во всяком нормированном (т.-е. имею- щем штандарт а = 1) распределении вероятностей, мало уклоняющемся от нормального, расстояние от цен- тра до моды приближенно равно асимметрии S. при чем мода находится влево от центра при положительной асимметрии и вправо - при от р и- нательной. Если признак не нормирован и М. О. х — а, М. О. (х-—а)2 = а>. то функция tf(x), очевидно, имеет форму
318 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ лтри чем нужно иметь в виду, что асимметрия и эксцесс о 1 М. О. (х — аУ о 1 ГМ. О. (х — а)* S=T-------?----• £=8------------ 3 (232 bis) являются отвлеченными числами, не зависящими от единиц измерения, Напротив, ц представляет собой расстоя- ние или, точнее, разность между двумя значениями признака х и измеряется в тех же единицах, что х и его штандарт; поэтому в общем случае Л. (238 bis) 5. Переходя от дифференциальной функции распределения tp(x) к интегральной (возвращаясь опять для простоты письма к случаю а = 0, а = 1), находим, что вероятность неравенства равна интегралу 44 е P(x)rfx = 771(x])--F1(x0), (240) у 2п J г где 1 Гх - - S Е /^(х) = —е 2 (1 Л-Е~ Лх — 2£х’24^ v V х4)</х = у 2nJ о j S’ Е - V + *(х) - о- (х) (х) = Z О □ 4 (1 - х2)4- у (Зх-~х3)]’ (241) так как из значений последовательных производных функции Ф(х)
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 319 вытекает, что подъинтегральная функция е 2 . S <IV> Е <v) ——Р(х) = Ф'(х)-------— Ф (х)~Р~-Ф (х). (235 ter) у 2я 5 5 Из выражения Ет(х) видим, что медиана распределения, т.-е. абсцисса х = ;И, для которой /^(х)^^- (так что столь же веро- ятно, что величина х менее Ж, как то, что она больше Л4), не совпадает с центром 0, если 5 0. Для определения М, вслед- ствие (241), имеем уравнение с £ (IV) Ф(х) - - Ф"'(х) + у * (х) = о, или, пренебрегая высшими степенями х и произведением Ех, нахо- дим в первом приближении = 0, т.-е. у- (242) Следовательно, для кривых, мало уклоняющихся от нормальной, медиана находится между центром и модой на расстоянии вдвое большем от моды, чем от центра. В качестве примера рассмотрим измерения ширины 12 000 фасо- лей (Phaseolus vulgaris), произведенные проф. Johannsen в Копенга- гене, численные результаты которых приведены в книге Charlier. Численные данные и результаты вычислений указаны в следующей таблице. Центр а— 8,562 лиг и а = 0,62 мм вычислены согласно вышепоказанному приему средней арифметической. Ширина z в милли- метрах Число объектов Теорет. числа нормальн. рас- пределения Исправл. теоретич. числа 6,25— 6,50 п 8 21,6 9,6 6,50 — 6,75 5 / 6,75— 7 24 49,2 28,8 7 — 7,25 103 133,2 98,4 7,25— 7,5 239 319,2 288 7,5 — 7,75 624 618 615,6
320 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Ширина z в милли- метрах Число объектов Теорет. числа нормальн. рас- пределения И справа, теоретич, числа 7,75 - 8 1 187 1 035,6 1 101,4 8 — 8,25 1 650 1 525,2 1 651,2 8,25 — 8,5 1 883 1 820,4 1 936,8 8,5 — 8,75 1930 1 892,4 1 921,2 8,75 — 9 1 638 1 681,2 1 602 9 — 9,25 1 130 1 302 1 168,8 9,25 — 9,5 737 816 720 9,5 — 9,75 427 448,8 416,4 9,75 — 10 221 214,8 236,4 10 — 10,25 110 82,8 117,8 10,25 — 10,5 57 27,6 54 10,5 — 10,75 24 \ 10,75 — И 6 > 32 12 34,8 И •- 11,25 2 ’ Теоретические J) числа (3-й столбец), соответствующие нормаль* ной кривой с указанными центром и штандартом, при внимательном сравнении со 2-м столбцом обнаруживают значительные расхожде- ния.: Если объединить в одну группу объекты, у которых признак уклоняется от средней более, чем на За, особенно ярко бросается в глаза неудовлетворительность обеих крайних групп: в то время как нормальное распределение требовало бы, чтобы лишь 0,001 всех фасолей была шире 10,5 мм, таких оказалось 32 на 12 000; уклонение 32 ---12 = 20 при штандарте 12*0,999^3,4 практи- чески почти невозможно. Но не только на краях, где мы видим опре- деленную тенденцию преувеличенного, по сравнению с нормальным,. числа широких фасолей за счет узких, некоторые средние числа также невероятны, как, например, число 1 130 вместо 1 302 для ширины (У— У')2 9 — 9,25 мм‘, здесь значение -------------- 1722 1 302 " 22 так же не- правдоподобно. Короче говоря, вычисляя коэффициент Н для 17 групп, мы находим неприемлемое значение /7= 10. Вычисляя после этого значение коэффициента асимметрии. S и эксцесс Е, мы находим S=0,141, Е = 0,03. 9 Сначала при помощи функции Лапласа вычисляются вероятности, со- ответствующие каждому интервалу, а затем они умножаются на п — 12 000; эти числа получаются непосредственно из соответствующих чисел 2-го столбца следующей таблицы.
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 321 Поэтому нормированная теоретическая функция 1 С Р (IV) 1 рх у + ф(*) — у ф'"(*) -г у ф (*) — ~r~ J р(х) е * dx = Fy (х) —СО имеет пертурбационный многочлен Р(х) = 1,03 — 0,141 х — 0,06 х2 + 0,047 х34~ 0,01 х4. Для вычисления теоретических чисел, соответствующих испра- вленно й функции пользуемся1) таблицей. а S' jo» J е |гф 1 "е S 5 -2,92 18 7,52 56 — 19 + 9 8 8 — 2,52 59 5,35 167 — 41 + 14 32 24 — 2,12 170 3,49 422 — 69 + 13 114 82 — 1,71 436 1,92 925 — 82 0 354 240 — 1,31 951 0,71 1691 — 56 — 28 867 513 — 0,91 1814 — 0,18 2637 + 22 — 52 1784 917 — 0,50 3085 — 0,75 3 521 + 124 — 49 3160 1376 — 0,10 4 602 — 0,99 3 970 + 184 — 12 4 774 1614 0,30 6179 — 0,91 3 814 + 163 + 33 6375 1601 0,70 7 580 — 0,51 3123 + 75 + 55 7 710 1335 1,П 8 665 0,23 2155 - 23 + 42 8 684 974 1,51 9 345 1,28 1276 — 76 + 15 9 284 600 1,91 9719 2,64 644 — 80 — 8 9 631 347 2,32 9 898 4,38 270 — 55 —15 9 828 197 2,72 9 967 6,39 99 — 29 — 12 9 926 98 3,12 9 990 8,73 31 — 12 — 7 9971 45 со 10 000 0 0 0 29 29 Числа последнего столбца, умноженные на 1,2, дают теоретиче- ские значения последнего столбца предшествующей таблицы. Вычисляя коэффициент точности 77 для 17 промежутков, получаем 1 [-(1,6)2 ,.(4,8)2 , (4,6)2 , (49)2 (8,4)2 (85,6)2 , 16 L 9,6 1 28,8 г 98,4 "г 288 615,6 1101,4 1 <) Все числа таблицы умножены на 10 000 (кроме 1-го и 3-го столбцов). Теория вероятностей. -1
322 ОСНОВЫ ТЕОРИИ КРИВЫХ и поверхностей распределения (1,2)2 ! (53,8)2^ (8,8)2 (36)2 (38,8)2 ; (17)2 1651,2 “И 1936,8 * 1 * 1921,2^ 1602 ‘ 1168,8 г 720 , (10,6)2 (15,4)2 (7,8)2 f (3)2 ц (2,8)21 “Г 416,4 “Г 236,4 117,8 ! 54 ; 34,8 J значение довольно удовлетворительное. 6. Недостатком изложенного нами метода приближения стати- стических кривых является его непригодность для случаев, когда S и Е более значительны, так как тогда необходимо повысить сте- пень пертурбационного многочлена и для этого нужно прибегнуть; к практически менее надежным моментам более высоких степеней. Однако если число п индивидов совокупности не очень велико, то распределение вероятностей является достаточно хорошо охарак- теризованным своими первыми четырьмя моментами, т.-е. центром а, штандартом а, асимметрией S — 1 a1 / а, \ и эксцессолм Е^~ —7 — 3 . 2 j3 8 \ а4 / которые определяются, соответственно, из значений моментов 3-й и 4-й степени. Исходя из этого замечания, Пирсон ограничи- вается рассмотрением класса теоретических ф у н к- цийу = /(х), удовлетворяющих дифференциальному уравнению dy v dx (243) а — х jj Iх ~г ^х'2 зависящих только от четырех параметров а, v, 3, которые вместе с коэффициентом пропорциональ- ности определяю т с я из 5 уравнений моментов (^ = 4); при этом существенным достоинством метода Пирсона является, что все фактически возможные значения S и Е приводят к формально приемлемым функциям распределения, давая довольно хорошее приближение для статистических кривых, даже сильно уклоняющихся от кривой Гаусса. Разумеется, кривые Пирсонамогли бы быть заменены лю- бым классом функций, имеющих те же моменты; таким образом 9 Уравнение Пирсона (243) является обобщением дифференциального уравнения, определяющего функцию Гаусса, для которой коэффициенты у и 3 равны 0. Однако лишь при малых значениях -- и уравнение i1 Пирсона может быть связано с соответствующей задачей теории вероятно- стей (см. формулу 175, стр. 239)7 Поэтому в настоящей книге, имеющей целью освещение принципиальных вопросов, я не имею возможности уде- лить больше места теории кривых Пирсона, представляющей в методологи-
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 323 вообще можно поставить себе задачу определить теоретическую функцию /(х) данной формы, зави- сящую (кроме коэффициента пропорциональности) -от k произвольных параметров, которые опреде- ляются из /г —j - 1 уравнений моментов рОО f(x)xh dx = ah (/z = 0, 1,.,k). (244) --го Существенным теоретическим вопросом является при этом, воз- можно ли, располагая достаточным числом параметров, получить таким образом произвольно точное, с точки зрения теории вероят- ностей, изображение данной статистической функции распределения з(х); иными словами, возможно ли, удовлетворивши достаточно большому числу уравнений (244), сде- лать интеграл (223) - со произвольно малым. Нетрудно видеть, что для этого димо, чтобы теоретическая во всяком случае необхо- функция /(х) не обра- щалась в 0 в конечных промежутках, где ср(х) отлична от 0, и, кроме того, Н1 всегда будет бесконечно возрастать, если функция /(х) н а- столько быстро убывает по сравнению с <f(x), что существует положительное число 1, для ^2(х) . которого -- К при достаточно больших х, так как г* со Н'=\ [/(*) — со 2?(*) 2(х) 1 f(x) J <р2(х) dx —1. В этом случае интерполирование имело бы исключительно эмпирический характер. ческом отношении не более как остроумный и прекрасно технически раз- работанный прием приближенного интерполирования, изложению которого должно быть уделено соответствующее место в специальном курсе теоретической статистики. 21*
324 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ распределения Допустим, напротив, что можно указать-такое число Л,. Wx) л что 4т^<СЛ, и, кроме того, как теоретичес /(*) кая ф у н к- ц и я /(х), так и действительная функция распреде- ления ср(х) убывает с возрастанием х не медленнее,, чем в геометрической прогрессии, т.-е. /(х) Beу(х) (245) где В и а — данные положительные числа; тогда, как бы мало ни было £, можно выбрать k достаточно большим, чтобы осуществление уравнений рОО I /(х) xhdx = ah (/г = О, 1,. . (244} - 00 имело следствие м, ч т о г* С С J - 00 Действительно, из общих теорем о приближении функций вытекаег что, каковы бы ни были данные положительные числа р и с < а, можно* всегда подыскать многочлен Р(х) достаточно высокой степени k, чтобы '' <2464 I .Цл! I Но если для всех значений h^k удовлетворены уравнения момен- тов (244), то имеем также рСС -со I /(х) Р{х) dx ~ х(х) Р(х) dx, со -со т.-е. рСО I \f(x)--v(x)]P(x)dx==:O. - СО Поэтому из (246) заключаем, что I - dx < I | f(x) — f (x) | ?e'''x f dx <Z J /(x) J - co — co - -co
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 325 стремится к 0 с возрастанием степени k многочлена Р(х). Из нашего рас- суждения видно также, что при тех же условиях (245) функции Дх) и ?(х) окажутся тождественны для всех значений х> если все их моменты (&-—со) будут равны. Так как эмпирическую функцию ф(х) можем всегда считать удовлетворяющей вышеуказанному условию (245), то, определяя теоретическую функцию распределения из достаточно большого числа уравнений моментов (244), всегда можно дать сколь угодно точное, с точки зрения теории вероятно- стей, приближение к любой статистической кри- вой, если только функция /(х) не обращается в О в точках, где ^(х ) О и удовлетворяет условию, что Дх) 7. Способ моментов .является наиболее распространенным для интерполирования статистических кривых. Нужно, однако, иметь в виду, что он 'налагает существенное ограничение на функции распределения, требуя, чтобы они обладали конечными моментами .любой степени. Понятно, что a priori нельзя утверждать, что, сооб- разуясь с законами, лежащими в основе рассматриваемого явления, всегда будет целесообразно связывать теоретическую функцию таким ограничением. Кроме того и практически способ моментов может быть неудобен, если число промежутков, на которые разбит .данный статистический материал, невелико; правда, в последнем случае функция распределения будет носить грубо интегральный характер. Если весь материал разбит только на 3 класса, то всегда можно указать совершенно точно нор- мальное распределение, которое приводило бы как раз к наблюдаемой группировке. Пусть п3 -j- п2 4“ Д = N будет общее число индивидов сово- купности; из них у пг индивидов размер признака х<хр у n1Jrn2 индивидов х<х2. В таком случае, при помощи таблицы функции 1 _— I е * df, определяем Л и Д, из уравнений /2kJ0 п3 1 з (247)
326 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Тогда, полагая х а из двух уравнений х, —a = х2 — a = st2 (248) найдем штандарт /3 (249) и центр а г ^(Х2 х1) 1 t — t t — t Z9 f-Л (250) эквивалентного нормального распределения. По данным *) о распределении браков в Ленинграде в первом полугодии 1920 года находим, что из 10 000 женихов * 2) 1 189 были не старше 22 лет (ранние браки), 7 020 были в возрасте от 23 до 37 лет включительно (средние браки) и 1 791 старше 37 лет (поздние браки). Штандарт а и центр а нормального распределения, соответ- ствующего данной группировке, получаем из уравнений (247): 1 р00 _ £ 1 р00 _ f 0,1791 =-^=1 е 2 dt и 0,1189=—= I е 7 dt, |/2irJZ3 |/2тг откуда, пользуясь таблицей значений функции ф(/), находим: ^= — 1,18, = 0,919; поэтому из (249) и (250) 15 J —....- 2,099 7 а 23-0,919 + 38 • 1,18 z О1 --------ч -L------=4 31,42. Разумеется, при более дробном делении по группам мы убеди- лись бы, что возраст лиц, вступающих в брак, не подчиняется закону Гаусса 3 *) (и обнаружили бы положительную асимметрию распределения). О Материалы по статистике Ленинграда (3-й вып.) 1921 г. 2) В действительности зарегистрировано было 10 004 брака, но возраст 11 женихов неизвестен. ?) См. следующий §.
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 327 8. Но, каково бы ни было статистическое распределение, его можно охарактеризовать аналогичным образом, введя, на место постоянной дисперсии a2 = j$, функцию дисперсии. Для этого поступаем следующим образом. Пусть h будет число интере- сующих нас или данных нам промежутков (х/э х/+1), которое, для определенности, положим равным четырем (А = 4), и пусть на ка- ждый из них приходится, соответственно, л2, л3, индивидов (Л1-|_Л2-|_л3-|-л4= ДГ), так что величине признака промежутка (хр Х/+]) соответствует п. индивидов. Из уравнений роо I 1 Г00 ~ =—= I е 2 (//, —— I е 2 dt и т. д. (247 bis) N /2тД К определяем последовательно значения /3? Z2, tz; поэтому, если положим /=4>(х), (251) где ф(х) есть возрастающая (от — ОО до 4“ ОО) функция вели- чины х, которую подчиним лишь условиям, чтобы /.= ф(х.), (/--1Э 2,. . ., А — 1), (252) то вероятность каждого неравенства вида xz<x<x* будет точно выражена интегралом 1 -7- —___- \ е * dt. |/21ТЛ(О Очевидно, что если бы А — 1 уравнениям (252) удовлетворяла приближенно линейная функция, то данное распределение (в преде- лах рассматриваемой группировки) было бы более или менее близко к нормальному, и мы имели бы приближенно . X.—а 1 а В общем случае мы можем тоже положить х — а VW)’ (251 bis)
328 основы теории Кривых й поверхностен распределения но J В(х) уже не будет постоянной величиной о1, а будет неко- торой функцией переменной Xкоторая должна' удовлетворять /г -—1 уравнениям '.......... • 1 L . • ; ‘ } - - а (253) кривой, вероятность, что что и для данной прочих элементов рас- и медиану >xz равна Ясно, что при х~а уравнение (251 bis) дает /== 0; поэтому д являет с я м ед и а н о й . р а спреде лен ня в е р о я г н о с т ей. Что же касается функции ]/Д(х), то для каждого значения X; она равна щ.т а н д а р т у той норм а„л ь но й имеющей ц е н т р о м а,д л я кот о р о- й x>xt (а также та же самая, кривой: иначе говоря, независимо от всех прёделения, зная B(xt) для определенного х\ утверждать, что вероятность неравенства х^ ...' -..... . ’ 1.-4-. - . . _ \ c -dt. | 2ТГ V . а, можно : (254) */~_а Функцию В(х) назовем д и с перс ионной функцией или функцией дисперсии, а |Ав(х) — штандартной функцией данного распределения. Предположим, что для двух значений хт где у > 0, £f(x,) > £(х2); это значит, __________________________ V деление асимметрично, при чем уклонения, п р е в ы ш а ю щ ие; |у:, более отрицательные, жительные уклонения нательные уклонения. = а уу и х2 = а—у, что наше распре- положительные вероятны, чем и, следовательно, наоборот, меньшие поло- менее вероятны, чем соответствующие отри- В частности, если В(х) = I qx, (255) характеризующее положительную представится, когда то это оостоятельство, или правую асимметрию, (при этом коэффициент S асимметрии положителен); если же <7<0, то асимметрия отрицательна. В первом случае вблизи ме- дианы кривая опускается слева направо, а во втором — поднимается. Предположим, напротив, что распределение симметрично (по отношению к медиане, которая тогда, очевидно, совпадает
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 329 с центром); в таком случае, если с возрастанием уклоне- ния--|х— ц| дисперсионная функция В(х) убывает, то вблизи центра (при той же центральной ординате) распределение гуще нормального, и, напротив, если В(х) возрастает, то распределение вблизи центра реже нормального: первый случай соответ- ствует, вообще, отрицательному эксцессу, вто- рой — положительному. 9. Если, по тем или иным теоретическим соображениям, диспер- сионная функция В(х) = В(у -р а) представляется в виде = /-с -!-•••+4kuk(xl (256) где w/х),. . ., uk(x) данные функции, то для определения k\-2 величин: а, /, qv..., qk имеем нужное число уравнений, если k—h — 3, Если k<^h— 3, то уравнениям (253) можно удовле- творить только приближенно; но мы ограничимся лишь рассмотрением случая, когда k — h — 3; задача при- водится тогда к решению квадратного уравнения относительно а. Для определенности положим £ = 1 (т.-е. Л = 4), zz3(x) = x; уравнения (252 bis) по возведении в квадрат дают = — а)2- СС+^2)==(лг2 — а)2, ^(Z + ^x3) = (-v3 — а>~’ и, исключая из них I и получаем для определения а квадратное уравнение 4 3 х2 t-> X2 Z3X3 (Xj — ZZ)2 (x2 — ay = 0, или (Xj — a)2 —-------(x3 - x,) (x2 — a)2 , - 4 (*i ~ *3)-7 *2 T(A^(-V2-x1) = 0, , (257) *3
330 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ которое, как нетрудно проверить, всегда имеет1) веществен- ные корни, когда р2 1 <С Pi 1 > Пг I < Из I • После подстановки 2) а в уравнения (253) (возведенные в квадрат) получаем для опре- деления остальных параметров систему линейных уравнений, реше- ние которой не представляет труда: ; в рассматриваемом частном случае из уравнений + <7*1) = (*, — а)2, 4- дх3) = (х3 — а)2, которые записываем в виде 4(?-т-«Уз)=^з’ получаем Г t2 t2 i2 q=~-------L, (258) Уз — У1 Уз~У1 где yj=Xj-~a, у3 = х3 — а, '} = l-]-qa. Введем в вышерассмотренном примере с браками еще один промежуток, а именно: разделим основной интервал от 23 до 37 лет включительно на два промежутка: на группу женихов моложе 30 лет и на группу не моложе этого возраста. Таким образом имеем 4 промежутка: zzn = l 189 (х<^23), //2 —4 382 (23=Сх<30), zz3= 2 638 (30=Сх<38), zz4=^1791 (х>38). В таком случае = — 1,18, /2 = 0,144, /3 = 0,919, и уравнение (257) обращается в 8(23—а)2 1,39 15(30 —я)2 । 7(38 — а)2 0,0207 ‘ 0,8445 9 Вообще условием необходимым и достаточным для вещественности корней (257) является неравенство -хз)+> °- 2) Из двух корней и а2 уравнения (257), которые удовлетворяют неравенствам: < х2 и а<> '> хъ корень соответствует > 0, корень же а2 соответствует /2 < 0-
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 331 или, полагая 30 — а ~ z, 710,7 z2 — 52,1 z —~ 812,6 — 0. Принимая во внимание, что д<^30 = х2, так как/2^>0, заклю- чаем, что искомым решением будет положительный корень. 1,1, откуда медиана д —28,9, и из формул (258) находим q 5, р 48. Таким образом дисперсионная функция В(х) -ф 48 -J- 5 (х—а), и мы имеем действительно значительную положительную асимме- х — а трию, при чем полученная функция t — , распределение ко- V торой подчиняется нормированному закону Гаусса, дает и для более дробного деления на промежутки довольно точное приближение рассматриваемой статистической кривой *). 9. До сих пор мы рассматривали задачу интреполирования стати- стической кривой как чисто математическую задачу возможно точ- ной и полной характеристики данной совокупности при помощи той или иной функции или коэффициентов, определяющих эту функцию. Этого совершенно достаточно, если мы преследуем узко практическую цель арифметического описания данной конкретной статистической совокупности. Но если мы хотим видеть в данной совокупности произвольного представителя (случайную выборку) из некоторой определенной основной весьма обширной или теоретически неограниченной сово- купности, то статистические вероятности и средние величины при- обретают характер приближенных значений соответствующих им реальных величин, и особую важность получает вторая указанная выше задача построения гипотетической схемы рассматриваемой X <20 20 21 22 п 188 245 277 478 23 24 25 26 I 586^ 614 674 627 27 657 28 615 29 605 30 31 32 33 34 35 36 37 5ОО|372 439j317 268 318 224 199 38 229 39 5:40 Все- го 157 1404 9993 Внутри ряда здесь наблюдаются некоторые неправильности (например, отно- сительный максимум для 32 лет), анализ которых не входит в нашу задачу и которые, конечно, не могут быть обнаружены нашей интегральной теоре- тической кривой.
332 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ совокупности, основанной на свойствах рассматриваемого явления. Эта задача удовлетворительно разрешена во многих вопросах теоре- тической физики; для других же явлений, за исключением случаев, где применим закон Гаусса, отметим, .в частности, схему (рассмо- тренную нами в главе I второй части, стр. 61), которая приводит к формуле распределения e~kkx /(Х)^7ГГ’ (47bis) а также функцию /(.Г) - кг' > v, где х^>0, при которой интегральная функция распределения веро- ятностей равна 1 — е"/х, т.-е. вероятность, что х^>х0, равна щ(х) = е“и:. Последняя функция соответствует формуле (118, стр. 173) вероятности разорения игрока, обладающего капиталом х, и приме- нима в тех случаях, когда 'f(x тогда, когда для достижения признаком величины х ~\~у ему нужно сначала получить значение х и дальнейшее увеличение его на величину у не зависит от достигнутого уже значения х. Укажем1 еще одну общую теоретическую схему *), которая приведет нас к формуле (254), и, в частности, к случаям, когда функция дисперсии В(х) .линейна или представляет многочлен 2-й степени. Для большей ясности рассмотрим конкретный пример. Положим, что исследуется количество z некоторых определенных изде- лий, вырабатываемых в день рабочим данного производства; мы допускаем, что количество энергии (выраженное в каких угодно единицах), которое он может израсходовать в течение дня, равное 2 » подчиняется закону Гаусса, с центром А (М. О. Л) и дисперсией В =: М. О. — Л У; допустим, что в процессе производства энергия рабочего убывает так, что энергия его после того как он произвел определенное количество z изделий, также подчиняется закону Гаусса, но М. О. - -Az> и значение дисперсии B(z} = М. О. — A J2 также некоторым образом изменилось, представляя ту или иную функцию B(z) величины г; рабочий прекращает работу, когда им израсходована вся его рабочая энергия данного дня т.-е. когда Из указанных предпосылок нетрудно вывести закрн распределения вероятностей количества z продукции, выработанной рабочим В день. 9 См. мою статью „Sur les courbes de distribution des probabilites*. Ma- them. Zeitschrift. 1925.
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 333: Действительно, пусть Р{ есть вероятность, что остается поло-, жительным, пока z гд. В таком случае, если гд < z2 и есть веро- ятность, что V продолжает оставаться положительными при z < z2, то Л Р гРъ (259> где Р есть вероятность, что У перестает быть положительным, т.-е. обра- щается в нуль для значения z (так как убывающая величина может оставаться положительной при z<zt, либо обратившись затем в нуль в промежутке Z4>z>z2, либо продолжая; быть положительной и в этом промежутке). Но Г\ есть вероятность, что при данном z, > О, или, что т0 самое, вероятность неравенства 2Z - - М > - Az, t. где поэтому —Az{ 7Ж) ;-*CO и, no тем же основаниям, Следовательно, вследствие (259), т.-е., иными словами, функция подчиняется нормированному закону Гаусса. Делая довольно общие допущения, можно притти к выводу, что и B(z) должны быть линейными функциями. Для упрощения сделаем сле- дующие более ограничительные допущения, чем это необходимо. А именно, допустим, что математическое ожидание количества энергии которую рабочий должен затратить, чтобы произвести количество х изделий, равно лх, где ). постоянная величина, независимо от того, какой энергией он обладает; таким образом М. О. (pz~\z, а потому Аг = М. О. = М. О. [2 - ?*] -----А - 1г’ (260>
334 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ кроме того, обозначая через b дисперсию количества энергии, затраченной на единицу продукции, т.-е. полагая 6--М. О. [?t — X]2, имеем, в силу допущенной выше независимости, М. О. [?2 — 2лр- - М. О. (?1 - Хр + М. О. (?1 - к)* = 2^ TI вообще М» О. [tc2 — =. bz. Поэтому B(z) = М. О. (2^ - Аг ]2 = М. О. Щ - Л - (?г-/.г)]2 = В + bz. (261) Итак, при указанных предположениях формула (251 ter) получает вид (262) В частности, медиана а ~ > и, обозначая через у уклонение z — а -у •от медианы, можем написать . v b _ Вab В АЬ t ~ где т, 3 - - —— • -Г7 -ь Г £ + qy А’ (262 bis) Следует заметить, что, при делаемых здесь допущениях, должно быть ' мало ^примерно не более для того, чтобы пред- положенная нами независимость последовательных затрат энергии исключала практически возможность отрицательной энергии, когда z увеличивается на 1. Вообще, применяя выведенную формулу, нужно ожидать лучшей ее пригодности для больших интервалов, чем для очень малых, где иногда возможны противоположные колебания энергии. Аналогичный метод рассуждений применим к различным биологическим и экономическим явлениям (z может быть, например, также числом плодов дерева данной породы или продолжительностью амортизационного срока машин данного образца и т. п.); при этом во многих случаях можно допу- стить, что функция дисперсии B(z) есть многочлен 1-Й или 2-й степени: fi(z) = В(у + а) = у ~ (263) Укажем одно общее свойство этих кривых, которое позволяет часто без особых вычислений проверить, пригодны ли они для приближенного изображения данной статистической кривой, Назовем две величины _у0 и —Уо соответственными значениями при данном распределении, если вероятность, что 0<_у<>' равна вероят- ности, что 0>_v>—У0; эти значения соответствуют значениям и - .нормальной кривой.
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 335 Поэтому имеем равенство -Уо_ , V ? + ? 1 -Уо 4- ?а ^0 У7 ₽ - ?1 Л + из которого (после возе едения в квадрат) нетрудно вывести соотношение характеризующее природу асимметрии рассматриваемых кривых распреде- ления. Напомню, что у представляет здесь уклонение от медианы. Не останавливаясь на подробном исследовании рассматриваемых кри- вых распределения, отметим, что q^ < 0 соответствует распределению вероятностей на ограниченном с обеих сторон отрезке; <7о“0 приводит к случаю, когда область изменения у ограничена лишь с одной стороны (если 0); наконец, если q^ > 0, то кривая теоретически неограни- ченна ’). Наиболее простым является случай, когда ^.2 —0, т.-е. когда функция B(z) -= В (у Р <71У (263 bis) .линс-й'на; все неизвестные элементы at р, q легко определяются тогда по способу моментов при помощи лишь первых трех моментов. Полагая а{ — М. О. z, а2 — М. О. z'2, -- М. О. z3, с2 М. О. (z — а^)2 ~~ “ > 73 = М* °* “ Зад а2 + 2di и определяя эти вели- чины обычным статистическим способом как соответствующие средние, на- ходим посредством несложных вычислений — а -j qt (265) {) Последний случай представляется, когда z ——, где и и v независи- мы пли связаны нормальной корреляцией, при чем отрицательные значе- ния z практически невозможны; при этом, полагая М. О. и~Л>0, М. О. (и — Bt М. О. V— Ль М. О. (у— — и обозначая через k коэффициент корреляции между //, у, находим, что медиана равна ~ я, и J аУ (з2 - з/2 — 2/г- cj, q^ = (^ — Лз), q.> = Л , где величины - 1 g— -и -з4 — - должны быть малы (менее 1/3). А А л Своеобразие случая q^ > 0 состоит в том, что М. О. z теоретически не имеет смысла, и поэтому, строго говоря, метод моментов к нему непри- меним; но когда | q2 j мало, можно применить соответствующий приближенный -способ вычислений, на котором мы здесь останавливаться не будем.
336 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ (таким образом q{ есть удвоенное расстояние между цен- 2 тром и медианой, так что имеем приближенно — Sc, О где S есть асимметрия) и затем + 73=-:391?+у^; (266) исключая из этих двух уравнений р, находим для определения q* уравнение 3-й степени lq\ + 12cj9j — 4-;s = 0. (267) После определения q^ значения а и р получаются немедленно из урав- •нения (265) и первого из уравнений (266), Применим указанный прием к примеру, статистические данные.которого я заимствую из книги проф. Лахтина .Теория кривых распределения**. В окрестностях Москвы было сорвано 1 158 ландышевых стеблей и подсчи- тано число z цветков на каждом из них; следующая таблица дает результаты подсчета (2-Й столбец) и теоретические числа, соответствующие нормальной кривой (3-й столбец) и кривой с линейной дисперсионной функцией (4-Й столбец). Число цветков на стебле Фактическое число стеблей Теоретич, число нормальной кривой t Теоретич. число по формуле (269> 5 270 6 430 7 280 8 96 9 27 10 5 11 1 69 236 406 318 /129 274,6 422 278 102,5 25,5 4,6 0,8 Средняя 6,18; а—я* — 1,174; з — у/1,174 1,08. Нормальная кри- вая приводит тогда к числам 3-го столбца, гдеГ мы объединили крайние интервалы, чтобы в каждом было теоретически не менее всех индивидов; тогда коэффициент точности 1 [202 342 24 - , 38- 1 1 Г т = 4 L 69 236 + 406 + 318 + °] 4 [5’8 + 4’9 " М 1 4’5]= 4Д5’
АНАЛИЗ СТАТИСТИЧЕСКИХ КРИВЫХ РАСПРЕДЕЛЕНИЯ 337 обнаруживает неудовлетворительность этой кривой. Напротив, вторая кривая при любых интервалах дает для Н малое значение и, в частности, при той же группировке 4 Г 1 4.62 82 22 4,4'2 1 Н = I L50 ' 27бД + 422 278 + ГЗЗД] Кривая, соответствующая последнему столбцу, определяется из соотно- шения 2 — 6,092 у / 0,083 + 0,173г ~ /1,137 -f 0Д73>’ (269) где величина t подчиняется нормированному закону Гаусса, так что веро- ятность того, например, что число цветков равно 8, т.-е., что 7,5 < г < 8,5, получаем из таблицы функции Ф(/), беря разность Ф(^) — Ф(/о), где 8,5-6,092 I б,083“+0Д7378;5 7,5 — 6,092 К d,08j i 0,173- 7,5 1,198. Для получения численных значений коэффициентов формулы (269) сна- чала вычисляем 73 — 0,6 1 79, а затем из уравнения lq[ -Г 14,088 - 2,4716 = 0, (267 bis) находим (с точностью до 0,001) q^ -0,173, откуда медиана at-------i- q{ — ~ 6,092 и, по (266), f = 1,1366. Упражнение. Показать, что кривые Пирсона, соответствующие о -= 0 в уравнении (243), для нормированного распределения (nj — 0, с - 1) имеют есть асимметрия кривой, Г со a у/ — постоянная, определенная условием, чтобы 1 f(x) dx - вид /(х) ~ уц е , где Отв. Из уравнения (243) выводим (н + ':х 4-аУ~У (« — х)dx', (243 bis) интегрируя обе части равенства (первую - - по частям) между пределами, где у обращается в нуль, находим: 7 — 2o^j ~ а — Теория вероятностей. 22
338 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ откуда, при <7| - 0, —у- <7. Умножая (243 bis) на х и х* и интегрируя соответственно, между теми же пределами, получим (при 8—0, ? . 1 и 2; • г3. Следовательно, получаем дифференциальное уравнение dy У интегрирование которого даст указанный результат.
ГЛАВА ТРЕТЬЯ. ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ. 1. Если нам дана некоторая статистическая совокупность, со- стоящая из п объектов, которую мы исследуем одновременно отно- сительно двух признаков х, ' уг то во всех случаях, когда рассма- триваемая совокупность является произвольным представителем некоторой определенной, теоретически весьма обширной или неогра- ниченной совокупности, мы можем говорить о математической веро- ятности того, что у данного объекта признак х, а также признак у получает определенное значение. При. этом, если один или оба признака изменяются непрерывно, то для указанного признака сле- дует, как мы видели, рассматривать вероятности неравенств вида хо<Сх<Схг вместо точных равенств х — х0. Каждый из признаков, рассматриваемый самостоятельно, имеет свой закон распределения вероятностей и, вообще, вероятность неравенства x0<x'<Xj (270) равна Л (Xj) — F (х0), гдеЛ(х) есть интегральная функция распределе- ния вероятностей величины х, и точно так же вероятность неравенства У0<У<Ух (271) выражается соответствующей разностью FT (j/2) — FT (j/0). Если оказывается, что, каковы бы ни были значения одной из величин, вероятности указанных неравенств для другой величины -не меняют своего значения, то величины называются независи- мыми. В противном случае, величины х, у называются зависи- мыми или коррелятивно связанными. Для полной характеристики коррелятивной зависимости между х и у необходимо и достаточно знать, с одной стороны, какую веро- ятность получает каждое неравенство (270), когда известно значе- ние у, и, с другой стороны, какую вероятность приобретает (271), когда дано х. 22*
340 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Предположим, что, разбивая значения у на небольшое (два для определенности) число классов, мы констатируем, что все объекты, принадлежащие к каждому классу, подчиняются закону Гаусса по отношению к признаку х, при чем для одного класса центр и штандарт равны а и а, а для другого — равны и аг. В таком случае, если р и q (р q = 1) представляют вероятности, что рассматриваемые объекты нашей совокупности принадлежат, соответственно, к ления величины х Р _____ |/2п первому и второму классу, то функция распреде- будет иметь вид: „ (х~а? _ и — Таким образом признак х для всей совокупности не будет подчиняться закону Гаусса. Это обстоятель- ство представится, например, если, исследуя размеры индивидов какой-нибудь чистой биологической расы, мы объединим в одну совокупность особи мужского и женского пола или же соединим вместе в определенной пропорции индивидов двух различных рас. Однако, если число рассматриваемых классов, внутри которых признак х подчиняется закону Гаусса, весьма велико, то не исключена возможность, что и для всей совокупности, охватывающей все ука- занные классы, закон Гаусса также будет с об л io- де н. Этот именно случай имеет место, если величины х и у связаны так называемой нормальной корреляцией, или коррелятивной зависимостью. Если непрерывные величины х и у обладают свойством, что в классе индивидов, для кото- рых у находится в определенном весьма малом интервале dy, признак х подчиняется закону Гаус- са, й наоборот, когда х находится в весьма малом промежутке dx, признак у также подчиняется за- кону Гаусса, то корреляция между х ну называется нормальной (при дополнительном теоретическом ограничении, что дифференциальные функции распределения дважды дифферен- цируемы и, кроме того, чго при неограниченном возрастании у величина х не стремится к некоторому вполне определенному зна- чению X — Xq),
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ 341 A priori не очевидно, что такая зависимость между величинами х и у вообще возможна, ибо, как мы сейчас увидим, функция Л (л зО <*у, выражающая вероятность, что у находится в промежутке (у/, у-f-rfy), когда известно, что х имеет значение, заключенное в промежутке (х, х -j- dx), связана определенным образом с функцией Ф2 (х, у/) dx, представляющей вероятность, что х находится в промежутке (х, x---dx), когда дано, что у содержится в промежутке (у,у -|- dy). Действительно, если /(х) dx представляет вероятность a priori (т.-е. для индивидов всей совокупности), что х находится в про- межутке (х, x-\-dx), и, с другой стороны, w(y)dy есть вероятность a priori, что у находится в промежутке (у, у dy), то, по теореме умножения вероятностей, одновременное нахождение х и у в ука- занных промежутках имеет вероятность Р (х, у) dx dy =/(х) • (х,у) dx dy = у (у) Ф2 (х, у) dx dy. (273) Поэтому должно быть соблюдено тождество /(х) • Л, (х, у) = О) • (х, у), (274) откуда, полагая F(х, у) = log F, (х, у), Ф (х, у) = log <Pj (х, у) (275) и логарифмируя (274), находим: F (х, у) — Ф (х, у) = log а (у) — log /(х); (276) дифференцируя последнее равенство по х и по у, получаем: ул(х,уО=а?Ф(х,у/) дхду дхду .* { } В данном случае функции (х,у/) и Ф} (х,у) по условию доджн^ .иметь вид: '(х, У) = -Мх) е~ J (278)
342 ОСНОВЫ ТЕОРИИ КРИВЫХ и поверхностей распределения так как индивиды промежутка (х, х dx) должны подчиняться закону Гаусса относительно признака у, при чем параметры этого распределения могут быть функциями х1), и то же самое mutatis mutandis относится к признаку х. Следовательно, применяя уравнение (277) и дифференцируя дважды log (х, у) и log Ф2 (х, j/) (по х и по У), мы находим тождество [(-У - Wk.{x)Yxy= [(х- a (у))Ч (у)]”у, (279) которому должны удовлетворять неизвестные функции: а1(х), ^2(х)г а(у), &Су)- Полагая, a(.y)-k(y) = b(y'), а1(х)-й1(х)=&1(х), можем придать тождеству (279) вид yk[ (х) — Ь[ (х) = xkf(у) — bf(y). (280) Поэтому, дифференцируя еще по у и по х последнее тождество, находим: (х) = (у) = 2с, (281) где с есть произвольная постоянная величина (так как функции двух различных переменных могут быть тождественны только, если они обращаются в постоянную величину). Отсюда заключаем, что kA (х) = сх2 — 2^х k (у) = су2 — 2dy /г, (282) где б/, dr /г, /г1—новые произвольные постоянные коэффициенты. Подставляя (282) в (280), получаем: (2у(сх — dy) — (х) = 2х (су — d) — & (у), откуда — 2dyy 4- Ь’(уу= — 2dx 4- b[ (х) = /, (283) где I — произвольная постоянная величина. Следовательно, Ь’ (у) = 2^у 4- Z, b[ (х) = 2dx 4- Z; *) Если бы эти параметры не зависели от х, то перед нами был бы случай двух незавйсимых величин.
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ 343 и наконец, интегрируя, находим: £ (у) = d^y2 -У 1у 4- mv Ьг (х) = dx2 4- -у т, (284) где т и тА— новые постоянные, откуда z ч (*) dx2 4~ lx 4-ni а ( х) —— — -_- —______-____•_____ 1 &a(x) cx<2, — ’ a(y)=^ J. cy2 — 2dy 4-Л (285) Таким образом, подставляя (282) и (285) в выражения (278), находим, что необходимая форма функций (х, у), Ф2 (х,у) такова: --Лех2— 2d} х 4~ hy * 2п [у(сх* - 2dtx + ЛД - (dx* 4 lx + /Я)Р 2(ас*-2^4- Л4) [X (суа - 2dy + ft) — (dKy* 4- (у + . . 2(0/2 — 2dy h) Первая из формул (285) дает значение центра рас- пределения у при данном .х, а вторая — центр рас- пределения х при данном у\ штандарты, соответ- 1 1 ственно равные ' _ _ _ и , , определяются из фор- /АДх) |'А(У) мул (282). Поэтому, если с 44 0. то с^>0, так как иначе штандарты становились бы мнимыми; поэтому при бесконечном возраста- нии х штандарт у стремился бы к 0 (и наоборот); это озна- чает, что при х —> ОО вероятность даже самого малого уклоне- ния у от (оо) = становилась бы невозможной. Исключая этот случай, повидимому, не имеющий практического применения, мы по- чтобы штандарт не становился чтобы d=d1==0 (при этом, (286) приобретают окон- для того, лагаем с=и, и тогда , мнимым, необходимо также, конечно, h 0, У> 0). 2- Таким образом формулы нательный вид: Ф1 (х, у) = » + «в«у
344 ОСНОВЫ ТЕОРИИ КРИВЫХ и поверхностей распределения и приводят нас к следующим выводам, которые удобнее будет фор- мулировать, если мы будем представлять себе величины х и у как прямоугольные координаты точки. 1) При каждом значении x(x,x-\-dx) центр со- ответствующий распределению вероятностей ве- личины у, определяется из уравнения (288) которое геометрически представляется в виде прямой линии. Эта прямая, каждая точка которой имеет ординатой М. О. (у) = . . IxA-tn = (х) = —~— при данном значении х, называется л и- нией регрессии величины у по х. Угловой коэф- фициент = <289) называется коэффициентом регрессии Аналогичным образом, прямая линия х== /.у 4-^1, h все точки которой, при данном у, - 1 щую центру нормального распределения, когда дано значение у (у, y~~dy), называется линией регрессии х по у; а ко- эффициент / у=? (289 bis) называется коэффициентом регрессии х по у. 2) Каково бы ни было х, штандарт нормального распределения величины у сохраняет постоянное значение = точно так же, каково бы ни было /л, у П О X. (288 bis) имеют а б с- соответствую- циссу, равную М. О. (х)^ == а (у) =
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ 345 данное значение величины у, штандарт нормаль- ного распределения величины х сохраняет одно и то же значение —jL. — а*. /Л 3) Выбирая начало координат таким образом, чтобы, при х = О, (х) ~ 0, т.-е. чтобы линия регрессии проходила через начало координат, можем, не нарушая общности, положить т = 0, а выби- рая за начало координат точку пересечения обеих линий регрессии, по- лупим т = — 0 и приведем функции (х, у) и Ф2 (х, у) к виду _h( _‘у\‘ (287 bis) Ф2 (х, у) = ]/ ~ е Из равенства (274) выводим далее .----------------------------ht /iyi /2vi h /(x) / h 2^+2hJ -2h^2~X‘ ?(?) ^ЛХ’У) hl заключаем отсюда, что где постоянная С определяется условием, что „оо „оо Лсо у-/ I1 \ Г Г — f 2 (г-Л) I f(x)dx— j y(y)dy = C\/r h\ е 1 '(/х- - 00 ' 00 ’ ш — С j/ h2 J e'^'h ' dy=l, — 00 из которого видно, во-первых, что 1 /2 1 /2 — = А------>о и = —>0, (291) а2 Л, о- 1 h z
346 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ и; во-вторых» благодаря равенствам со _ -г1 со 21 I 2а* г-- ( f-- I е dx—Qy^n. и I е dy = s1y 2п — ОО -оо находим: т/TZZ с =____= 1 = Г _hh^ а ]/ 2п/г а2 |/2'тгЛ1 |Л2п (292) Таким образом в случае нормальной корреляции (как мы ее выше определили) величины х и у во всей совокупности, в целом, также подчиняются закону Гаусса, при чем центры их распределения равны 0, иначе говоря, точка с координатами равными М. О. х и М. О. у совпадает с началом координат, т.-е, с точкой пересечения обеих линий регрессии. Штандарты же обоих (априорных) распределений соответственно равны а и и определяются из формул (291). Что же касается функции Р (х, у), то она определится из ра- венства (273) P(x,y)=f(x)-F1(x,y) или Р(х,у) = ч (уУ-Ф^х, у), * откуда при помощи (287 bis), (290), (291) и (292) находим, что ]/— Р “ 7 ~ 21хУ) 2тг (293) представляет при любых значениях /г>0, ^>0 и / (при условии hh1 — /2>0) самую общую функцию рас- пределения вероятностей двух величин х и у>
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ 347 находящихся в нормальной коррелятивной зависи- мости, при выборе начала координат так, чтобы М. О. х — М. О. у~0. Поверхность z = P(x, у) носит название поверхности норм ал ьного распределе- ния вероятностей J). Условие [вытекающее из (291)], что /2 /z/z, —/2>0, или 1>V, =рр19 (294) 1 hh. выражает благодаря (289) и (289 bis), что произведение коэффициентов регрессии (которые, очевидно, всегда имеют одинаковый знак) должно быть меньше единицы. Гео- метрически это означает, что острый угол образуемый линией регрессии у по х с осью абсцисс, всегда меньше острого угла ср, образуемого линией регрессии х по у с той же осью, так как иными словами, линия регрессии у по х всегда проходит ближе к оси абсцисс, чем линия регрессии х по у. 3. Величина /?=-==±/ррг (295) у hhy называется коэффициентом корреляции между вели- чинами х и у, в согласии с ранее (часть III, глава III) данным общим определением этого коэффициента, в силу которого R = _ М~ °' ХУ =М' °' ХУ (124) ]/ М. О.х3-М. О. >2 4) Эти поверхности характеризуются тем, что все их сечения плоскостями, параллельными оси OZ, представляют нормальные кривые, а все сечения, перпендикулярные к OZ, являются эллипсами.
348 ОСНОВЫ ТЕОРИИ КРИВЫХ и поверхностей распределения (при условии, что М. О. х = М. О. j/ = 0). Действительно, вслед- ствие (293) СО 00 M. O. xy — I I xy P(x, y) dx dy = - co - 00 00 co . , ху е е 2ttj J J - - 00 - со со со dx dy = //г1 / I 1х\ 2ttj J J \ Zz, / --co co — 00 /hi c = Q-4 xe 2to J - 00 co — ~y* e " dx dy — xt c00 dx I ~2У' , Уе dy + - 00 00 -j-------- - \ x2e 2m \ h. J -oo Следовательно, dx \ е со Zj3 ‘<У=Т, . /2 hl h h — — Ai Из (124 bis) и (289) вытекает также p = у — R и px = ~ — R M. O. xy _ Zj aai ~hi^ —4— = /?. (124 bis) F 4 поэтому M. O. xy ____M. O. xy K.O. y2 ’ ?1 = M. О. X2 (296) Введя в выражение функции Р (х, у) коэффициент корреляции R вместо параметра Z и пользуясь формулой (124 bis), получим из (293): ______“ у + V’ “ ху) P(x,y) = \f\-R^-^e , (297) /к или, обозначая чергз a,* = -L, (298) I А /й,
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ 34$ соответственно, 'условный' штандарт х при данном у и условный штандарт у при данном х, находим: Р(х,л=/1-/г>2-^ 2R ху' (299) С другой стороны, из равенств (291) получаем: 1 1 1— hh id-/?2), и видим, что а* = а |/1 — /?2, ар = | z 1 — R2, (300) Таким образом в случае нормальной корреляции штандарт а величины х (а также у) для всей сово- 1 купности всегда в —------- раз больше, чем дляопре* V I-/?2 деленной части ее, выделенной по признаку у. Условный штандарта* тем меньше (по сравнению с а)^ чем/? больше; отбор из всей совокупности инди- видов, обладающих данной величиной признака у, не только сдвигает центр распределения вели- j чины х на величину ру—7? -у, но (независимо от сме- ai щения центра) уменьшает вероятные отклонения х от соответствующего центра тем в большей сте- й;е н и, чем ; R j ближе к 1. Введя в формулу (299) вместо а* и ар значения а и ар можно также представить Р(х, у) в виде Р(х.у) =---------^7= е 2(1 3 \ (299 bis) 2па?1 /1— R2 Отсюда видно, что величины х и у будут независимы в том и только в том случае, когда коэффициент, корре-
350 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ ляции /? = 0, так как тогда Р(ху у) представляется в виде про- изведения i л P(x,y)=f(x).^(y)^--------™.——е * 2” а у 2тг у 2п В общем же случае нормальной корреляции, согласно (293), (у— P(x,y)=f(x)-y(y— рх)=--—-е 3’‘“ , а у 2п 2п и независимыми оказываются величины х и у — ртх; ^аналогичным образом убеждаемся в независимости вели- чин х — ру и у. Можно доказать, что и обратно, если связь между вели- чинами х и у такова, что существуют 2 числа р и рр обладающие свойствами, что у — ртх независимо от х и х — ру независимо от у, то величины х и у находятся между собой в нормальной корреляции с коэффициентами регрессии р и рг 4. Важность нормальной корреляции, находящей обширные при- ложения (по крайней мере в первом приближении) особенно в био- логических совокупностях, основывается на следующей общей теореме *): Пусть ^ = «i + «2 + -•• + ««> -У = г’1 + г'2 + представляют суммы весьма большого числа п сла- гаемых, удовлетворяющих условиям теоремы Ляпу- нова, при чем2) машем, ожид. и^ = 0, машем, ожид. v.~ 0. В таком случае, полагая М. О. и2 — М. О. z, М. О. х2 — •= з2 — и М. О. = ,8/, М. О. и. веро- 9 Более общая форма теоремы дана в моей статье „Sur le theoreme limite du calcul des probabilites“. Mathematische Annalen 1922. 2) Это условие вводится лишь для упрощения письма, так как при М. О. М. О. --У, всегда возможно положить и1 — а, и v'.• = vi—а';, и теорема будет применима к\ и. и \ V, •
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ 351 ятность совместного осуществления неравенства Уъ<У<У1 имеет, при неограниченном возрастании п, пре- делом , у3 1 I 2(1 /?2)Ь2^2 -----т—— I 1 е 2тгтх j/1—R-J J * Г.. V., dx dy. (301) где M. О. xy _ ZJlt (302) Если, например, рассматривается совокупность генотипи- чески тождественных индивидов и исследуются размеры х и у двух (или более) различных их органов, то уклонения х и у от их средней, вызываемые многообразными внешними причинами, влияющими как на х, так и на у, слагаются, соответственно, из боль- шого числа п слагаемых и которые, вообще, не пропорцио- нальны, но как-то связаны между собой функциональной или корре- лятивной (не обязательно нормальной) зависимостью; характер последней связи совершенно не имеет значения, существенна лишь величина М. О. = при этом, как видно из указанной тео- ремы, зависимость между х и у стремится с возрастанием п стать нормальной, и коэффициент нормальной корреляции R между х и у зависит не от каждого а от их суммы так как В некоторых случаях эта нормальная (или почти нормальная) корреляция очень велика, т.-е. R очень близко к 1, как в рассма- триваемом ниже примере длины х бокового листка и длины у конечного листка Trifolium pratense1). i) Таблица заимствована из книги Johannsen .Elemente der exakten Erblichkeitslehre’.
352 ОСНОВЫ ТЕОРИИ КРИВЫХ и ПОВЕРХНОСТЕЙ распределения Длина в миллиметрах у. ч н св & н о Ж S ч S ж CQ « X S t=J 5 10 15 20 25 30 35 40 45 50 55 60 65 70 5 10 15 20 25 30 35 40 45 50 55 60 65 Всего 3 2—' — -- — 5 1 57 14 — — — — — — — — — 72 — 9 209 63 — — — — — — — — 281 — — 17 348 70 — — — — — — — 435 — .... _ 25 367 111 — —. — — — — 503 - — — — 28 351 104 2 — — — — 485 — — — — — 49 219 80 3 — — — 351 — — — — — — 20 137 49 2 — — 208- ________ __ _ j 14 66 26 — — 107 — — — ----- - — — — 2 28 10 — 40 ______ _ _____ 7 з ю - — — - — — — — — 2 2 ______________ 1 1 Всего ... 4 68 240 436 465 511 344 233 120 56 17 6 2500 Центр распределения величины х получается обычным методом средней а=—— = 30,076 мм, центр величины у равен а* — Yy j/'Ver — а)2 = • а — 30,832 мм. Аналогичным образом а —-------= 2 500 п = 9,284, Од — 9,577. Не останавливаясь здесь на техническом вычисле- нии коэффициента корреляции, заметим, что М. О. (х — а) (у — а!) £(* — а)(у- а) ----------------на основании общей теоремы о приближенном равенстве между математическим ожиданием величины и средней арифметической из наблюденных ее значений, а потому У (х — а) (у — af) У (х — а) (v — Rф —-----------------ф ---- 0,9627. / ^х-аУ2^у-^
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ 353 Подобным образом Пирсон вычислил ряд коэффициентов кор- реляции между величинами различных органов у человека, из кото- рых приведем здесь некоторые: /г Бедро и плечевая кость..............от 0,84 до 0,87 Рост и плечо.........................„ 0,77 „ 0,81 Вес и рост (у детей) ........ „ 0,62 „ 0,64 5< Весьма важно также применение теории нормальной корре- ляции к исследованию вопроса о наследственной передаче величин признаков. Мы не можем, конечно, дать здесь сколько-нибудь пол- ного обзора приложений теории вероятностей и, в частности, теории корреляции к этой области. Ограничимся лишь тем, что покажем (вопреки довольно распространенному среди биологов школы Менделя мнению), что так называемый закон наслед- ственной регрессии Гальтона не находится в про- тиворечии с экспериментально установленными элементарными законами наследственности Мен- деля 2), а является математическим следствием из теории Менделя для случая сложных количе- ственно измеряемых признаков, размеры которых зависят от значительного числа независимых эде- ме нтов или ген. Предположим (игнорируя, для упрощения, влияние внешней среды и полового отбора, которые соответствующим образом из- меняют значение полученного дальше коэффициента корреляции), что индивиды данного населения (биотипа) по отношению к не- которому элементарному (в смысле Менделя) признаку могут быть 3 классов, а именно: чистой расы А, чистой расы В или гибридного класса С. Раньше1) было указано, каков закон Менделя наследственной передачи этого признака. Если таких элементарных признаков п, то общее число разновидностей индивидов данного биотипа равно Зл. Предположим далее, что вероятность индивиду принадлежать по отношению к /-му признаку к классам Д., Сп- равна, соответственно, az, pz, yz (az —|— == 1), и допустим, что распределение вероятностей у, (согласно установленному нами ранее результату) сохраняется неизменным из поколения в поколе- <) См. стр. 67. Теория вероятностей. 23
354 ОСНОВЫ ТЕОРИИ КРИВЫХ и поверхностей распределения ние. Пусть, далее, рассматриваемый Z-й признак заключается, между прочим, в том, что некоторая величина ui в зависимости от того, к какому из 3 классов В. или С- принадлежит наш индивид, получает значения а., сг Тогда для индивидов рассматриваемой совокупности М. О. ?А + YA-, при чем мы можем выбрать начало отсчета величины и. таким образом, чтобы М. О. и. = 0, т.-е. + lict = 0 (303) для любого поколения; обозначим Вг = М. О. и. = ц.а2. 4- у>2 4- 7,4- Если какой-нибудь сложный признак 3) индивида является суммой то (при соответствующих ограничениях о сравнительных размерах и независимости величин и? согласно теореме Ляпунова) можем прежде всего утверждать, что при достаточно большом числе слагаемых п величина х будет подчиняться закону Гаусса с центром равным М. О. х = 0 и со штандартом Рассмотрим теперь, каков будет закон наследования указанного сложного признака х, и (при сделанных выше допущениях) докажем закон наследственной регрессии Гальтона, состоящий в том, что между величиной признака х у отца и сына существует нормальная корреляция. Будем обозначать через х° величину признака х у отца, а че- рез хг — величину того же признака у сына и, вообще, все сла- гаемые и. у отца будем обозначать через и через и.—-у сына. Таким образом: М. О. zz° = M. О. ulf — М. О. х° — М. О. х1 — О и з° = У, так как, вообще, BQ‘— В. . Вычислим Г~М. О. и. и,,1. Для этого заметим, что: 1) если отец принадлежит, по отноше- нию к w., к первой чистой расе (4f.), то = °> ?! = & -г 9 Случай полимерии.
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ 355 так как в случае скрещивания отца с самкой той же расы рождается индивид расы (ДД в случае скрещивания с гибридом единственно возможен и равновероятен сын первой расы или гибрид, а в слу- чае скрещивания с самкой противоположной расы всегда рождается гибрид; 2) если отец — второй чистой расы (Z?z), то аг=о, г' = а/ + |; 3) наконец, если отец — гибрид, то 8'=Л+17, Yf=l. 2 ' 4 Р 2*4* 2 Поэтому I\ —М, О. и* —а*; а + т (4 + + bli (az + Ь) + +afiii Ч-Ъ)+bfili (I + 4)+-^ Ъ= = [а;а/+ ьЦ2^с2{ + + +[ ?2" + + с' b(4 — V,)— аАа/Х —с/₽/Х/]+ / у? \ + (azC/. + *;C.)^+a,^; >и так как, по (303), (azaz-|-^zP/4-C/YZ)’ = O, а вследствие (51 bis) у2 ТО 1.„a;.it, + tU,T,+4re^^_c<L(a,a|+t;3)+^)+ +г'=%W “< + й +с< — “<b!V-+»<с,ti+»,ciL1= = Ь [с2. _ а{Ь^ — а{ь^.~ a. =Ь’ (4 — а.Ь^. 23*
356 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Таким образом, согласно указанной выше теореме, между призна- ками х0 и Xq отца и сына существует нормальная корреляция, при чем коэффициент /? между ними равен „ 1 £y,-(^—«А) 002 bis) Нетрудно видеть, что корреляция всегда положительна, так как С2 — О, вследствие того, что иначе не могло бы быть соблюдено равенство а1 а1 + в bi + li ci = а(. ai 4- Mz -г- 2C; / aj, = o. (303 bis) Кроме того, принимая во внимание, что 2Г, = у,(с“ — а,. Ь) = у. (_ aibi = = 7- [ («/а,-~ bt ?/)2 + Чbiа, ?,• — at bt Y/ j = -7- («, a, - b, ^)2, ii 4/ между тем как В, = 4 а, + »’₽, + < !, = 4 «, + = li = а. + . + а(Ь, Ъ Ц- получаем, что 2Г, = Y,(^-a,^) =_______________1___________= Д а2 а(. + Ь* 0.4- 4 Tz т.(^.а. + ^.^.+ а,Ь^ "t~ («л, —м,.)2 Отсюда следует, что максимальное возрж,ное значе- ние ^ коэффициента 7? корреляции между отцом и сыном равной; <) Если 7Z~0, для некоторых значений Z, то соответствующие слагаемые в числителе и знаменателе (302 bis) обращаются в нуль (так как тогда fz=az=O или af=Z>zzprQ) и поэтому неувлияют на значение ,/?. Этим обстоятельством объясняется то, что длд генотипически чистых рас, где уклонения признака
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ 357 а.^Ь достигается оно лишь при предположении, что cz = —'^—так как для этого нужно, чтобы ]/~ az bt j/ flz = 0, в то время как, по- условию, afli -j- -J- 2cz j/az$z = 0. При сделанных нами допущениях коэффициент корреляции совпадает, очевидно, с коэффициентами регрессии. Применяя те же соображения, можно было бы показать, что коэффициент корреляции между дедом и внуком равен и, во- обще, между каждым индивидом и его предком л-й степени суще- / 1 V ствует нормальная корреляция с коэффициентом I где R дан тою же формулой (302 bis) (разумеется при условии устанановив- шегося распределения вероятностей для всех поколений). 6. Упражнения. 1) Показать, что при нормальной корреляции (полагая М. О. х = М. О. .у —0) коэффициент корреляции R — cosqx, где q есть вероятность, что х и у противоположны по знаку. Отв. Для доказательства замечаем, что на основании формулы <299 bis>, r»GO x33t3 -b У3’1 — 27? xy q ~ —— I V e dx dy ~ ~/?2 J J -co 4 4 i Г^1 cos 01 s*nt ~~ 05< cos & s*n H 1 Г C L 2^3,3 (I—/?3) -1 J _ J* ?d?dO-= — 4 ° - -4 ri - z?2 __________________________________ ~ J - a2 sin2 Ь-J-cos2 0 — 2/? gg^cosO sin & _ GGf j/1 — 7?2 ( _______du _ it J O2W2 __ 2cciRu 4- g| -- co 1 I Г. , R ] 1 ' — Hs----arc tg 7-- —: — - arc cos R. * L2 /1 - /? 2J ~ от его средней вызываются только внешними причинами (иначе все индивиды были бы тождественны), коэффициент корреляции между предками и по- томками оказывается равным нулю. Опыты Johannsen’a с чистыми расами, установившие упомянутый факт, послужили основанием для признания несостоятельности закона наследственной регрессии" Гальтона; в действи- тельности, из вышеприведенных вычислений вытекает, что закон Гальтона применим к генотипически сложным (не чистым) биотипам.
358 ОСНОВЫ ТЕОРИИ кривых и поверхностей распределения Замечая, что, при р 4-0 = 1, cos q ~ = sin Ду--г.,. получаем также . р — q , р — а R — sin —у-?- z к; последнее приближенное значение дает R с точ- ностью до 0,02, если ! R i < у * 2) Величины у и х связаны функциональной зависимостью у xfn у т \ откуда х =_ут/и 2/п), при чем распределение вероятностей х равномерно на отрезке ( — 1, 4- 1). Вычислить коэффициент корреляции R между х и у и показать, что R стремится к 0, когда т неограниченно возрастает. Отв. R — в "^у^- • (Например: при т = 13, R 0,6; при /и .= 181, R Д ^0,180.) Действительно, М. О. у — М. О. х О, Ь1 :М.О. х» «> ~ о tn i _ J tn O.y*:^ X^dx-. c j _ 1 R S7, M. O. xy f xm ' 1 dx ~ - z 2 1 tn * i V tn _ , _ 2m -j- 1 iz 6m 4 3 „ * откуда R ---------o 1 3----— ----------— Таким образом, даже J m r 2 г m in + 2 при обратимой функциональной зависимости, коэффициент корреляции может быть сколь угодно близок к 0, 3) Показать, что если у — х2—и распределение вероятностей О для х на отрезке (—1, -j-1) равномерно, то коэффициент корреляции R между х и у равен 0. Отв.М. О.х M.O.j/ M.O..v> 0;М.О. х2 -L М. О. . О *±О поэтому R -0. 4) Показать, что если величины х, у связаны нормальной корреляцией при коэффициенте корреляции R, то коэффициент корреляции между X и ^(.у), где ъ(у) какая-нибудь данная функция у, всегда менее R по абсо- лютному значению.
ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ 359 Отв. ff J J(x + Ry)<t(y)e _ ' dxdy 2г.(I— 7?2)J Л dx. J ^(y)e dy f dy _____ ' _ ? p 7r y*e " dyj^(y)e " dy и так как множитель при R представляет коэффициент корреляции между У и f (у), который по абсолютному значению меньше 1, то |/?J <|/?|. 5) Определить штандарт о(/?) погрешности коэффициента корреляции/? „ „ . гл т m между хну прн применении приближенной формулы R^— C0S7T где ~п статистическая вероятность того, что х и у имеют одинаковый знак (корре- ляция предполагается нормальной). „ , . /~т (п — т) . т , , / т(п — т) .л Отв. 3(/?)=п|/ !sm -- г. (1 IV). 6) Вычислить штандарты и коэффициентов регрессии о погрешности коэффициента корреляции 7? и при статистическом вычислении их по приближенным формулам R^ (корре’ ляция предполагается нормальной) на основании п наблюдений пары (х^ у) Отв. с(7?) , а(р) — 1/ J—1Z??; а(рО — j / * ~ А*2 Указанные I' п V п ° Г п формулы получаем, применяя результат, найденный в 3-м упражнении III главы IV части. Вычислим, например, Сначала находим °2 (Zj-^) - М> °* [2 ху ~~ nR ]2 М. О. х2у- /?a3?Gj ] ~ п • (1 /?2), тгак как 1 I 23s3t’(t -/?«) M. О. х2у2—-----------—— —- I I jfiy~e dxdy -— 2ZG7| I 1— /?2J J yi 1 Г Г/ , . - X - - ------\ I |yy2+ e dx dy ~ 2KGG4 1 — /?2 J JV r ^1(1 ~/?i) + 3?*,» -3*5(1 2№).
360 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЕ Мы знаем (стр. 292), что о2 (Sx2) ~ "2/гс*. Остается вычислить коэф- фициент г корреляции между 2Х^ и S А'2> находим> чт0 М. О. [2 ХУ — nR ос4. ] [2 х'2 — ] zza3a4 /2(1"+ М М. О. х3_у — R с3<?! /г 2 ~~ 2(1 + /?2) * V 1 ± Я2’ так как 1 Ц ~ 233 М. О. л*у = -----------~~ --Z1 lxS(^ + Plx)^ 2т: goj /1 — R2 J J 1*4(1-я*) dx dy “ -- 3Р1 G<“ 3/? с3гг Следовательно, «Л;(1 + /?«) - 2^2 |/ —2л2С!с^(1 + /?2) + 2 Пв^ /?2
ТАБЛИЦА ЗНАЧЕНИЙ Ф(7) 361 ТАБЛИЦА ЗНАЧЕНИЙ Ф(г) = -^= L 2 dz /2nJ z Ф(2) z Ф(2) z Ф(г) z Ф(2) 0.00 0,0000 0,32 0,1255 0,64 0,2389 0,96 0,3315 0,01 0,0040 0,33 0,1293 0,65 0,2422 0,97 0,3340 0,02 0,0080 0,34 0,1331 0,66 0,2454 0,98 0,3365 (>,03 0,0120 0,35 0,1368 0,67 0,2486 0,99 0,3389 0,04 0,0160 0,36 0,1406 0,68 0,2517 1,00 0,3413 0,05 0,0199 0,37 0,1443 0,69 0,2549 1,01 0,3438 0,06 0,0239 0,38 0,1480 0,70 0,2580 1,02 0,3461 0,07 0,Q279 0,39 0,1517 0,71 0,2611 1,03 0,3485 0,08 0,0319 0,40 0,1554 0,72 0,2642 1,04 0,3508 0,09 0,0359 0,41 0,1591 0,73 0,2673 1,05 0,3531 0,10 0,0398 0,42 ' 0,1628 0,74 0,2703 1,06 0,3554 0,11 0,0438 0,43 0,1664 0,75 0,2734 1,07 0,3577 0,12 0,0478 0,44 0,1700 0J6 0,2764 1,08 0,3599 о;1з 0,0517 0,45 0,1736 0,77 0,2794 1,09 0,3621 0,14 0,0557 0,46 0,1772 0,78 0,2823 1,10 0,3643 0,15 0,0596 0,47 : 0,1808 0,79 0,2852 1,11 0,3665 016 0,0636 0,48 0,1844 0,80 0,2881 1,12 0,3686 0,17 0,0675 0,49 0,1879 0,81 0,2910 1ДЗ 0,3708 0,18 0,0714 0,50 0,1915 0,82 0,2939 1,14 0,3729 0,19 : 0,0753 0,51 0,1950 0,83 0,2967 1,15 0,3749 6,20 ; 0,0793 0,52 / 0,1985 0,84 0,2995 1,16 0,3770 0,21 0,0832 0,53 / 0,2019 0,85 0,3023 1,17 0,3790 0,22 0,0871 0,54 : 0,2054 0,86 0,3051 1,18 0,3810 0,23 0,0910 0,55 p 0,2088 0,87 0,3078 1,19 0,3830 0,24 0,0948 0,56 j i 0,2123 0,88 0,3106 ; 1,20 ; 0,3849 0,25 0,0987 0,57 ’ i 0,2157 0,89 0,3133 1,2! \ 0,3869 0,26 f 0,1026 0,58 0,2190 0,90 0,3159 1,22 i 0,3888 0,27 0,1064 0,59 0,2224 0,91 0,3186 0,23 ! 0,3907 0,28 0,1103 0,60 = 0,2257 0,92 0,3212 1,24 ; 0,3925 0,29 0,1141 0,61 0,2291 0,93 0,3238 1,25 0,3944 0,30 0,1179 0,62 ; 0,2324 0,94 0,3264 1,26 0,3962 0,31 0,1217 i J 0,63 ! 0,2357 0,95 0,3289 1,27 | 0,3980
362 ОСНОВЫ ТЕОРИИ КРИВЫХ И ПОВЕРХНОСТЕЙ РАСПРЕДЕЛЕНИЯ Z Ф(2) Z Ф(г) Z Ф(г) Z Ф(г) 1,28 0,3997 1,61 0,4463 1,94 0,4738 2,54 0,4945 1,29 0,4015 1,62 0,4474 1,95 0,4744 2,56 0,4948 1,30 0,4032 1,63 0,4484 1,96 0,4750 2,58 0,4951 1,31 0,4049 1,64 0,4495 1,97 0,4756 2,60 0,4953 1,32 0,4066 1,65 0,4505 ! 1,98 0,4761 2,62 0,4956 1,33 0,4082 1,66 0,4515 1,99 0,4767 2,64 0,4959 1,34 0,4099 1,67 0,4525 2,00 0,4772 2,66 0,4961 1,35 0,4115 1,68 0,4545 2,02 0,4783 2,68 0,4963 1,36 0,4131 1,69 0,4545 2,04 0,4793 2,70 0,4965 1,37 0,4147 1,70 0,4554 | 2,06 0,4803 2,72 0,4967 1,38 0,4162 1,71 0,4564 1 2,08 0,4812 2,74 0,4969 1,39 0,4177 1,72 0,4573 2,10 0,4821 2,76 0,4971 1,40 0,4192 1,73 0,4582 2,12 0,4830 2,78 0,4973 1,41 0,4207 1,74 0,4591 2,14 0,4838 2,80 0,4974 1,42 0,4222 1,75 0,4599 2,16 0,4846 2,82 0,4976 1,43 0,4236 1,76 0,4608 2,18 0,4854 2,84 0,4977 1,44 0,4251 1,77 0,4616 2,20 0,4861 2,86 0,4979 1,45 0,4265 1,78 0,4625 2,22 0,4868 2,88 0,4980 1,46 0,4279 1,79 0,4633 2,24 0,4875 2,90 0,4981 1,47 0,4292 1,80 0,4641 2,26 0,4881 2,92 0,4982 1,48 0,4306 1,81 0,4649 2,28 0,4887 2,94 0,4984 1,49 0,4319 1,82 0,4656 2,30 0,4893 2,96 0,4985 1,50 0,4332 1,83 0,4664 2,32 0,4898 2,98 0,4986 1,51 0,4345 1,84 0,4671 2,34 0,4904 3,00 0,49865 1,52 0,4357 1,85 0,4678 2,36 0,4909 3,20 0,49931 1,53 0,4370 1,86 0,4686 2,38 0,4913 3,40 0,49966 1,54 0,4382 1,87 0,4693 2,40 0,4918 3,60 0,499841 1,55 9,4394 1,88 0,4699 2,42 0,4922 3,80 0,499928 1,56 0,4406 1,89 0,4706 2,44 0,4927 4,00 0,499968 1,57 0,4418 1,90 ’ 0,4713 2,46 0,4931 4,50 0,499997 1,58 0,4429 1,91 0,4719 2,48 0,4934 5,00 0,499997 1,59 0,4441 1,92 0,4726 2,50 0,4938 1,60 0,4452 1,93 0,4732 2,52 0,4941
ТАБЛИЦА ЗНАЧЕНИЙ <I*(Z) 363 ТАБЛИЦА ЗНАЧЕНИЙ : ~е 2 (все значения умножены на 10 000) у 2тг 0 1 2 3 4 i i 5 6 7 8 9 0,0 3989 3989 3989 3988 3986 ; 3984 3982 3980 3977 3973 0,1 3970 3965 3961 3956 3951 3945 3939 3932 3925 3918 0,2 3910 3902 3894 3885 3876 3867 3857 3847 3836 3825 0,3 3814 3802 3790 3778 3765 ; 3752 3739 3725 3712 3697 0,4 3683 3668 3653 3637 3621 3605 3589 3572 3555 3538 0,5 3521 3503 3485 3467 3448 ' 3429 3410 3391 3372 3352 0,6 3332 3312 3292 3271 3251 3230 3209 3187 3166 3144 0,7 3123 3101 3079 3056 3034 ; ЗОН 2989 2966 2943 2920 0,8 2897 2874 2850 2827 2803 i 2780 2756 2732 2709 2685 0,9 2661 2637 2613 2589 2565 i 2541 2516 2492 2468 2444 1,0 2420 2396 2371 2347 2323 i 2299 2275 2251 2227 2203 1Д 2179 2155 2131 2107 2083 2059 2036 2012 1989 1965 1,2 1942 1919 1895 1872 1849 1826 1804 1781 1758 1736 1,3 1714 1691 1669 1647 1626 1604 1582 1561 1539 1518 1,4 1497 1476 1456 1435 1415 1394 1374 1354 1334 1315 1,5 1295 1276 1257 1238 1219 1200 1182 1163 1145 1127 1,6 1109 1092 1074 1057 1040 1023 1006 0989 0973 0957 1,7 0940 0925 0909 0893 0878 0863 0848 0833 0818 0804 1,8 0790 0775 0761 0748 0734 0721 0707 0694 0681 0669 1,9 0656 0644 0632 0620 0608 0596 0584 0573 0562 0551 2,0 0540 0529 0519 0508 0498 0488 0478 0468 0459 j 0449 2,1 0440 0431 0422 0413 0404 0396 0387 0379 0371 ! 0363 2,2 0355 0347 0339 0332 0325 0317 0310 0303 0297 0290 2,3 0283 0277 0270 0264 0258 0252 0246 0241 0235 0229 2,4 0224 0219 0213 0208 0203 0198 0194 0189 0184 0180 2,5 0175 0171 0167 0163 0158 0154 0151 0147 0143 0139 2,6 0136 0132 0129 0126 0122 0119 0116 0113 ОНО 0107 2,7 0104 0101 I 0099 0096 0093 0091 0088 0086 0084 0081 2,8 0079 0077 0075 0073 0071 0069 0067 0065 0063 0061 2,9 0060 0058 0056 0055 0053 0051 0050 0048 С047 0046 3 0044 0033 0024 0017 0012 0009 0006 0004 0003 0002 4 0001 0001 0001 i 0000 ооэо 0000 0000 0000 0000 0000
П О С О Б И»Я ДЛЯ ВЫСШЕЙ ШКОЛЫ С. Н. БЕРНШТЕЙН ТЕОРИЯ ВЕРОЯТНОСТЕЙ Научно-технической секцией Государственного Ученого Совета рекомендовано в качестве руководства для физматов и в качестве пособия для вузов и втузов ГОСУДАРСТВЕННОЕ ИЗДАТЕЛЬСТВО МОСКВА * 1 92 7 * ЛЕНИНГРАД
Зак. № 1681:
ОГЛАВЛЕНИЕ Стр, Предисловие ....................................................VII ЧАСТЬ ПЕРВАЯ Основоположения теории вероятностей Глава первая Основные свойства и определение математиче- ской вероятности................................................. 1 Глава вторая Теорема умножения вероятностей..................... 20 Глава третья Коэффициенты регрессии корреляции и связи между двумя событиями...................... 30 Глава четвертая Распространение теоремы умножения вероят- ностей на произвольное число событий .... 47 ЧАСТЬ ВТОРАЯ Главнейшие методы вычисления математических вероятностей Глава первая Прием подсчета равновозможных случаев . . 58 Глава вторая Непосредственное применение теорем сложе- ния и умножения вероятностей 66 Глава третья Вычисление вероятностей a posteriori 81 Глава четвертая Способ математических ожиданий 90 Глава пятая Метод пределов и графическое изображение ве- роятностей 107 Глава шестая Способ конечных разностей и метод произво- дящих функций 130 ЧАСТЬ ТРЕТЬЯ Закон больших чисел Глава первая Неравенство Чебышева и его следствия . . . 142 Глава вторая Уточнение неравенства Чебышева 159 Глава третья Распространение закона больших чисел на за- висимые величины 176
VI ОГЛАВЛЕНИЕ Стр. Глава четвертая Статистические вероятности, средние величины и коэффициент дисперсии............................................200 ЧАСТЬ ЧЕТВЕРТАЯ Закон нормального распределения вероятностей Глава первая Теорема Лапласа................................... 222 Глава вторая Распространение теоремы Лапласа на случай урны с невозвращаемыми шарами.............237 Глава третья Общие условия приложимости закона нормаль- ного распределения вероятностей................................247 Глава четвертая Выборочный метод в статистике...............269 ЧАСТЬ ПЯТАЯ Основы теории кривых и поверхностей распределения Глава первая Построение нормальной кривой на основании статистических данных.........................290 Глава вторая Анализ статистических кривых распределения, уклоняющихся от нормального типа......................................307 Глава третья Элементы теории корреляции..........................339 Приложение Таблица значений функции Ф (г) Таблица значений функции Ф'(^) - ;