Text
                    1.1. YELISEEVA, V.S. KNYAZEVSKIY,
L.I. NEMTCZHKINA, Z.A. МЗЮИСЯА
STATISTICS THEORY
WITH FOUHDATIOHS OF
PROBABILITY THEORY
Edited by Prof. 1.1. Yeliseeva
ЮНИТИ
UNITY
Moscow • 2001

2001-3 7385 ЕЛИСЕЕВА, B.C. КНЯЗЕВСКИИ ЛЛ. НИВОРОЖКИНА, З.А. МОРОЗОВА ТЕОРИЯ СТАТИСТИКИ С ОСНОВАМИ ТЕОРИИ ВЕРОЯТНОСТЕЙ Под редакцией члена-корреспондента РАН И.И. Елисеевой Рекомендовано Министерством образования Российской Федерации в качестве учебного пособия для студентов высших учебных заведений, обучающихся по экономическим специальностям юнити UNITY Москва • 2001 scan: The Stainless Steel Cat
УДК [311+519.21(075.8) ББК 60.6я73+22.17я73 ТЗЗ Рецензенты: кафедра статистики Саюап-Петербургского торгово-экономического института (зав. кафедрой д-р. экон, наук, проф. В.И. Афанасьев); д-р. экон, наук, проф. Л.М. Каплан Главный редактор издательства Н.Д. Эриашвили Теория статистики с основами теории вероятностей: ТЗЗ Учеб, пособие для вузов/И.И. Елисеева, В.С. Князевский, Л.И. Ниворожкина, З.А. Морозова; Под ред. И.И. Ели- сеевой. - М.: ЮНИТИ-ДАНА, 2001. - 446 с. ISBN 5-238-00132-0. Изложены основы теории вероятностей, математической статистики и общие правила сбора, обработки и анализа статистических данных. Осо- бое внимание уделено правилам принятия решений в условиях неопреде- ленности. Анализ данных рассматривается также как составная часть принятия решений. Рассмотрены статистические методы изучения связей между перемен- ными, проблемы построения и анализа временных рядов, прогнозирова- ние на их основе. Показано значение статистики для решения основных прикладных задач: статистического контроля качества, разработки марке- тинговой стратегии, финансового анализа и т.д. Для студентов и преподавателей экономических вузов и факультетов, аспирантов и стажеров. ББК 60.6я73+22.17я73 ISBN 5-238-00132-0 рос. ндаяопмьнАЯ ЕИБЯнО«СКА C.I.e. X,pi р-т/. ОЭ 28в^акт^)ТИ © И.И. Елисеева, В.С. Князевский, Л.И. Ниворожкина, З.А. Морозова, 2001 © ООО “ИЗДАТЕЛЬСТВО ЮНИТИ-ДАНА”, 2001 Воспроизведение всей книги или любой ее части запрещается без письменного разрешения издательства
Предисловие Предлагаемое учебное пособие является результатом сотруд- ничества статистиков Санкт-Петербургского государственного университета экономики и финансов и Ростовской государст- венной экономического университета. Содержание пособия соот- ветствует учебным программам и отражает многолетний опыт преподавания студентам СПбГУЭФ и РГЭУ. Авторы стремились преодолеть разрыв между математическим и «нематематическим» подходами к статистике, который все еще сохраняется в эконо- мических вузах. Ввиду того, что в настоящее время теория соединений и би- ном Ньютона изъяты из программ средней школы, учебное по- собие открывается основами теории соединений. Этот материал необходим для использования вероятностных методов в эконо- мике. В пособии рассмотрены основные понятия и методы тео- рии вероятностей, бейесовский подход, принцип практической уверенности, дана формулировка закона больших чисел. Вторая часть пособия содержит основные сведения по статистике для экономистов: основы выборочного метода, статистический вы- вод — точечное и интервальное оценивание, испытание стати- стических гипотез; методы анализа рядов распределения; эле- менты теории корреляции и анализ временных рядов. Все разде- лы нацелены на формирование навыков принятия решений в условиях неопределенности. Излагаемые методы проиллюстри- рованы задачами, ситуациями из области коммерции и бизнеса, причем к большей части задач даны ответы. Авторы выражают искреннюю признательность д-ру экон, наук проф. В.С. Мхитаряну за внимательное рассмотрение ру- кописи, научно-методическому совету УМО по специальности «Статистика», а также рецензентам: д-ру экон, наук Л.М. Каплану и коллективу кафедры статистики Санкт* Петербургского торгово-экономического института (зав. кафед- рой д-р экон, наук, проф. В.И. Афанасьев). 5
Учебное пособие подготовлено: глава 1—11 — д-ром экон, наук, проф. Л.И. Ниворожкиной, канд. экон, наук, доц. З.А Морозовой', глава 13 — д-ром экон, наук, проф. В. С. Князевским, д-ром экон, наук, проф. Л.И. Ниворожкиной, канд. экон, наук, доц. З.А. Морозовой; предисловие, главы 12, 14, 15.5 и научное редактирование — чл.-корр. РАН И. И. Елисеевой.
Часть I Элементы комбинаторики и теории вероятностей
Элементы комбинаторики Комбинаторика (комбинаторный анализ) — раздел дискретной ма- тематики, изучающий методы решения задач, связанных с выбором и расположением элементов дискретного множества в соответствии с заданными правилами; классическими в комбинаторике являются задачи определения числа подмножеств, различимых в некотором смысле (перестановки, размещения, сочетания). Термин «комбинаторика» происходит от латинского слова «combinatio» — соединение. Группы, составленные из каких-либо предметов (безразлично каких, например, букв, цветных шаров, кубиков, чисел и т.п.), называются соединениями (комбинациями). Предметы, из которых состоят соединения, называются эле- ментами. Различают три типа соединений: переста- новки, размещения и сочетания. 1.1. Размещения Размещениями из п элементов по т в каждом называются та- кие соединения, из которых каждое содержит т элементов, взя- тых из числа данных п элементов, и которые отличаются друг от друга либо самими элементами (хотя бы одним), либо лишь поряд- ком их расположения. Поясним: из одного элемента а можно составить лишь одно размещение; из двух элементов а и b можно составить два размещения по одному элементу: а, b и два размещения по два элемента: ab, Ьа\ из трех элементов а, Ь, с можно составить три размещения по одному; шесть размещений по два элемента: ab, ас, ba, be, са, cb', шесть размещений по три элемента: abc, acb, bac, bca, cab, cba. Все приведенные размещения в каждом примере отличаются друг от друга хотя бы одним элементом или порядком их распо- ложения.
Число размещений из п элементов по т в каждом обознача- ется символом Ап и вычисляется по формуле (1.1. Г.)1: An = «(«-1)(л-2)...(и-/и + 1), (1.1.1) где 0 £ т < п. 1.2. Факториал Факториал — произведение п натуральных чисел от 1 до п, обозначается сокращенно л!, т. е. 1 • 2 • 3 • 4 •... • (я— I) • п = п! (читается: п факториал). Напоимер, 5! = 1 • 2 • 3 • 4 • 5 = 120. Считается, что 0! = 1. Используя понятие факториала, формулу (1.1.1) можно пред- ставить так: где 0 < т < п. Очевидно, что А{п= п (при т=1) и а„ = 1 (при т=0). Пример 1.1. Правление коммерческого банка выбирает из 10 кандидатов трех человек на различные должности (все 10 кандидатов имеют равные шан- сы). Сколько всевозможных групп по три человека можно со- ставить из 10 кандидатов? Решение-. N- Xjq = 10 • 9 • 8 = 720. 1.3. Перестановки Перестановками из п элементов называются такие соединения, из которых каждое содержит все п элементов и которые отличаются друг от друга лишь порядком расположения элементов. Число перестановок из одного элемента равно единице. 1 Выводы формул для числа размещений, а в последующем изложении — для числа сочетаний, — опускаются. Их можно найти в курсе элементарной алгебры. 9
Число перестановок из двух элементов а, b равно двум: ab, Ьа. Число перестановок из трех элементов а, Ь, с равно шести: abc, acb, bac, bca, cab, cba. Число перестановок из п элементов обозначается символом Рп\ это то же самое, что число размещений из п элементов по п в каждом. Поэтому Рп = А„ ~ п(п~1)(п—2) •• 4 • 3 - 2 • 1, т.е. Р„= 1-2-3-4-...-(л-1) -п = л! (1-3.1) 1.4. Сочетания Сочетаниями из п элементов по т в каждом называются та- кие соединения, из которых каждое содержит т элементов, взя- тых из числа данных п элементов, и которые отличаются друг от друга по крайней мере одним элементом. Из одного элемента можно составить лишь одно сочетание. Из двух элементов а и b можно составить два сочетания по од- ному элементу: а, Ьи лишь одно сочетание по два элемента: ab. Из трех элементов а, Ь, с можно составить три сочетания по одному элементу: а, Ь, с, три сочетания по два элемента: ab, ас, Ьс и одно сочетание по три элемента: abc. Все приведенные сочетания в каждом примере отличаются друг от друга хотя бы одним элементом. Число сочетаний из п элементов по т в каждом вычисляется так: (1.4.1) где 0 < т < п, или п т!(п - /и)! ’ (1.4.2) где 0 < т < п. Пример 1.2. Правление коммерческого банка выбирает из 10 кандидатов трех человек на одинаковые должности (все 10 кандидатов имеют равные шансы). Сколько всевозможных групп по три человека можно составить из 10 кандидатов? 10
Решение. Состав различных групп должен отличаться по крайней мере хотя бы одним кандидатом, следовательно, этот вид соединений представляет собой сочетания. Подставив данные в формулу (1.4.2), получаем С^о ~ 101/(3! • 7!) = 120. Свойства сочетаний: 1. с°„ = с8 = 1. 2. С1п = п. 3. Сп = Спп~т{т > и / 2) — удобно применять при т>у- (1-4-3) 4- С°„ + Cj, + d + •+С" = 2" • 5- Сп + Сп +1 = С„+\ — рекуррентная формула, где 0 < т < п. Примечание. Надо уметь различать сочетания и размещения. Напри- мер, в группе — 25 студентов, 10 из них вышли из ауди- тории на перерыв. Студенты стоят вместе и беседуют. Тогда порядок, в котором они стоят, — несущественен. Число всех возможных групп из 25 человек по 10 в этом случае — сочетания. Если же студенты отправились на перерыве в буфет или в кассу за стипендией, то тогда существенно, в каком порядке они стоят, т. е. кто из них первый, второй и т.д. В этой ситуации при подсчете возможных групп из 25 человек по 10 необходимо со- ставлять размещения. 1.5. Перестановки с повторениями Пусть имеется пять элементов, среди которых три одинако- вых элемента: а, а, а, Ь, с. Перестановками из этих пяти элемен- тов будут такие соединения, из которых каждое содержит все эти пять элементов и которые будут отличаться друг от друга лишь порядком расположения этих пяти элементов. Очевидно, что элемент а будет входить в каждое соединение три раза. Всевозможными перестановками из этих пяти элементов бу- дут следующие: aaabc aacba acaba bcaaa aaacb abaac acbaa caaab aabac abaca baaac caaba 11
aabca aacab abcaa acaab baaca bacaa cabaa cbaaa Эти перестановки будут перестановками с повторениями по- тому, что в каждое соединение один и тот же элемент а входит три раза, т. е. столько раз, сколько раз он имелся среди данных пяти элементов. Из приведенных перестановок видно, что их число равно 20. Если же все 5 элементов были бы различными, то число пере- становок равнялось бы не 20, а числу 5! — 120. Предположим теперь, что нам неизвестно число перестано- вок с повторениями из пяти данных элементов. Обозначим его X. И представим себе, что в группе а, а, а, Ь, с вместо трех оди- наковых элементов а, а, а мы взяли три различных элемента at, ау, ау. Тогда имеющееся число перестановок X увеличится в 3! раз, т. е. во столько раз, сколько можно сделать перестановок из трех различных элементов. Тогда число всех перестановок будет равно 5! = X: (3!). Отсюда 5t % = - = 20. Если же существует п элементов: а, Ь, с, среди которых элемент а повторяется а раз, элемент b повторяется р раз и т.д., элемент с повторяется у раз и n =а + Р + ... + у, то число пере- становок с повторениями выражается при помощи формулы: Рповт= а!р!-... у!' (1.5.1) Пример 1.3. Сколькими способами можно разделить m + n + s предметов на три группы, чтобы в одной группе было m предметов, в другой — и предме- тов, в третьей — 5 предметов? „ / \ (т + л + s)! Решение-. N = (Pw+4+I)noirr = ~Z7Z1Tr • 1.6. Размещения с повторениями Пусть имеется четыре различных элемента a, b, с, d в доста- точном количестве комплектов и пусть требуется составить из 12
этих четырех элементов размещения с повторениями по два элемента. Если бы составлялись размещения без повторе- ний^© все размещения должны были бы быть различными: ab ас ad ba be bd ca cb cd da db de Размещения с повторениями из этих четырех элементов по два будут следующие: ab ас ad ba be bd ca cb cd da db de aa bb cc dd Таким образом, размещение с повторениями из п элементов по т элементов (при т<п) может содержать любой элемент сколько угодно раз от 1 до т включительно или не содержать его совсем, т. е. каждое размещение с повторениями из п эле- ментов по т элементов может состоять не только из различных элементов, но и из т каких угодно и как угодно повторяющихся элементов. Соединения, отличающиеся друг от друга хотя бы порядком расположения элементов, считаются различными размещениями. Число размещений с повторениями из п элементов по т элементов будем обозначать л” поет. Можно доказать, что число размещений с повторениями равно пт: ^пов1=»т. (1.6.1) Пример 1.4. Сколько всевозможных соединений по пять элементов мож- но составить из цифр 0, 1,2, 3, 4, 5, 6, 7, 8, 9, если в одном и том же соединении могут попадаться одинаковые цифры? Решения. N = 105 = 100 000. 1.7. Сочетания с повторениями Пусть задано 5 различных элементов a, b, с, d, е (в достаточ- ном количестве комплектов) и пусть требуется составить из этих пяти элементов сочетания по 3 элемента с повторениями. 13
Это значит, что каждое соединение должно содержать три элемента и одно от другого должно отличаться по крайней мере одним элементом. Если бы сочетания составлялись без повторений, то все они должны были бы быть различными: abc abd abe acd асе ade bed bee bde cde. Сочетания же с повторениями по три элемента из заданных пяти элементов будут иметь вид: ааа aab aac aad aae bbb bbc bbd bbe ccc ccd cce abb abc abd abe bcc bed bee edd cde cee acb acd асе bdd bde ddd dde add ade bee dee аее eee Таким образом, сочетание с повторениями из п элементов по т элементов (при т<п) может содержать любой элемент сколько угодно раз от 1 до т включительно, или не содержать его со- всем, т. е. каждое сочетание из п элементов по т элементов мо- жет состоять не только из т различных элементов, но и из т каких угодно и как угодно повторяющихся элементов. Следует отметить, что если, например, два соединения по т элементов отличаются друг от друга только порядком расположе- ния элементов, то они не считаются различными сочетаниями. Число сочетаний с повторениями из п элементов по т будем обозначать символом с" поэт. Существует формула для вычисления числа сочетаний с по- вторениями: /х (« + т - 1)! Си) = С'" , = -—, здесь т может быть и больше и. (1.7.1) \ /поэт "+m+1 Пример 1.5. Сколькими способами можно выбрать 6 пирож- ных в кондитерской, где есть 4 разных сорта пирожных? Решение-. N = С|покг = С^+6-1 = С| = 84, где т >п. 14
1.8. Основные правила комбинаторики При решении статистических задач часто приходится рас- сматривать различные комбинации из некоторой совокупности элементов, например, составлять различные выборки. Выборка — подмножество генеральной совокупности, по ко- торому делают статистические выводы о всей совокупности. Пример 1.6. В магазине электроники в продаже три марки телевизоров и две марки видеомагнитофонов. У покупателя есть возможность приобрести либо телевизор, либо видеомагнитофон. Сколькими спо- собами он может совершить одну покупку? Сколько раз- личных комплектов, содержащих телевизор и магнитофон, можно при- обрести в этом магазине, если покупатель собирается приобрести в па- ре телевизор и видеомагнитофон? Решение. 1. Один телевизор можно выбрать тремя способами, а магнитофон — другими двумя способами. Тогда телевизор или магнитофон можно купить пятью способами, т.е. N= 3 + 2. 2. Обозначим: а, Ь, с — марки телевизоров; х, у — марки магнито- фонов. Если выбран телевизор марки а, то можно составить комплекты ах и ау. Если же выбран телевизор марки Ь, то получим комплекты Ьх и by. И наконец, если выбран телевизор марки с, то, присоединяя к нему магнитофоны х и у, получим комплекты сх и су. Таким образом, после ка- ждого выбора телевизора магнитофон можно выбрать двумя способами. Сле- довательно, всего можно выбрать 6 различных комплектов, т.е. N— 3 • 2. Пример 1.7. Предположим, что банк имеет два филиала; каждый филиал имеет два отдела и в каждом отделе работает по три сотрудника. Сколь- ко существует способов случайного выбора одного из сотрудников для переобучения на курсах повышения квалификации? Решение. Выбор осуществлялся в такой последовательности (рис. 1.1): случайно отбирался филиал; затем — отдел внутри филиала, а потом — конкретный служащий в отделе. Число таких способов выбора, как это видно из диаграммы, равно: 2 • 2 • 3 = 12. 15
Филиалы Отделы Сотрудники Рис. 1.1. Дерево-диаграмма для вычисления числа способов выбора На основании этих задач можно сформулировать основные правила комбинаторики. > Правило суммы (принцип логического сложения). Если объект а может быть выбран т способами, а объект b может быть выбран другими п способами (не такими, как а), то выбор одного элемента а или b из объединенной совокупности может быть осуществлен т+п способами. >- Правило произведения (принцип логического умножения). Если объект а может быть выбран т способами и после каж- дого такого выбора объект b может быть выбран п способами, то выбор пары объектов а и b в указанном порядке может быть осуществлен т • п способами. Эти правила могут быть распространены на случай трех и более выборок. 1.9. Бином Ньютона Формула разложения бинома в л-й степени необходима сту- дентам при изучении законов статистических распределений: (а + Ь)п =С{)пап + С]пап-1Ьх + С2пап-2Ь1 + ...+ СГ'а'Ьп-{ + СппЬп. (1.9.1) 16
1.10. Задачи1 к главе 1 Задача 1. Девять запечатанных пакетов с предложениями цены на аренду участков для бурения нефтяных скважин поступили утром в специальное агентство утренней почтой. Сколько существует различных способов очередности вскрытия конвертов с предложениями цены? Ответ: 362 880. Задача 2. По сведениям геологоразведки, один из 15 участков земли, по всей вероятности, содержит нефть. Однако компания имеет средства для бурения только 8 скважин. Сколько способов отбора восьми различных скважин у компании? Ответ: 259 459 200. Задача 3. Комитет рассматривает кандидатуры шести человек, подав- ших заявления о приеме на работу. Все шестеро имеют оди- наковые профессиональные характеристики. На интервью из шестерых будут приглашены только трое. Порядок пригла- шения каждого имеет значение, так как первый кандидат будет иметь лучший шанс быть приглашенным на работу; второй будет приглашен, если первому будет отказано, тре- тий будет приглашен, если два предыдущих кандидата полу- чат отказ. Сколько всего существует способов приглашения трех кандидатов из шести при таком способе отбора? Ответ: 120. Задача 4. Покупая карточку лотереи «Спортлото», игрок должен за- черкнуть 6 из 49 возможных чисел от 1 до 49. Если при ро- зыгрыше тиража лотереи он угадает все 6 чисел, то имеет шанс выиграть значительную сумму денег. а) Сколько возможных комбинаций можно составить из 49 по 6, если порядок чисел безразличен? $ Ч е м у равна вероятность угадать все шесть номеров? Ответ: a) N — 13 983 816. Задача 5.' Авиакомпания имеет 6 рейсов между Ростовом-на-Дону и Моск- вой, а также 2 рейса между Москвой и Нью-Йорком. Скольки- ми способами можно заказать билет из Ростова-на-Дону до Нью-Йорка, если рейсы осуществляются в разные дни? Ответ: 12. Задача 6. Четыре человека случайно отбираются из 10 согласившихся участвовать в интервью для выяснения их отношения к про- 1 Вопрос «б» в задачах относится к теме 2. 17
дукции фирмы по производству продуктов питания. Эти 4 человека прикрепляются к 4 интервьюерам. а) Сколько существует различных способов составле- ния таких групп? б) Если выбор случаен, чему равна вероятность при- крепления определенного человека к интервьюеру? Задача 7. Компания имеет четыре отдела: по производству продукции, отдел снабжения, занимающийся обеспечением сырья, а также отделы менеджмента и маркетинга. Количество людей в каждом из отделов 55, 30, 21 и 13 соответственно. Каждый отдел собирается послать одного представителя на ежегод- ную встречу с директором компании. Сколько различных групп для встречи можно соста- вить из числа работников компании? Ответ: 450 450. Задача 8. Собрание, на котором присутствует 20 человек, избирает двух делегатов на две конференции. Каким числом способов это можно сделать? Сколькими способами можно отобрать двух кандидатов на одну конференцию? Ответ: 380; 190. Задача 9. Для доступа в компьютерную сеть оператору необходимо на- брать пароль из 4 цифр. Оператор забыл или не знает необ- ходимого кода. Сколько всевозможных комбинаций он может соста- вить для набора пароля: а) если цифры в коде не повторяются; б) если повторяются; в) с какой вероятностью можно открыть замок с первой по- пытки? Задача 10. На железнодорожной станции имеется шесть запасных путей. Сколькими способами можно расставить на них четыре поезда? Ответ: 360. Задача 11. Сколькими способами можно рассадить 5 гостей за круглым столом? Ответ: 120. Задача 12. Из 20 рабочих нужно выделить 6 любых рабочих для работы на определенном участке. Сколькими способами это можно сделать? Ответ: 38 760. Задача 13. Во многих странах водительское удостоверение (автомобиль- ные права) имеют шифр, состоящий из трех букв и трех цифр. 18
Чему равно общее число возможных номеров во- дительских удостоверений, если в латинском алфавите 26 букв? Если шифр состоит только из шести цифр, то ч е м у в этом случае равно общее число всех возможных номе- ров удостоверений, когда: а) цифры и буквы в шифре не повторяются; б) повторяются? Задача 14. Директор корпорации рассматривает заявления о приеме на работу 10 выпускников университета. На одном из предпри- ятий корпорации имеются три различных вакансии. Сколькими способами директор может за- полнить эти вакансии? Ответ: 720. Задача 15. В диспетчерскую автопарка поступили одновременно 8 зая- вок из трех аэропортов: два заказа — из аэропорта Шере- метьево, пять — из Быково и один — из Домодедово. Сколько существует различных способов распределе- ния 8 таксистов по этим маршрутам? Ответ: 504. Задача 16. Пять фирм F2, F2, F4, Fs предлагают свои условия по вы- полнению трех различных контрактов Сь С2 и С3. Любая фирма может получить только один контракт. Контракты различны, т. е., если контракт Q получит фирма F}, то это не то же самое, если фирма F, получит контракт С2. а) Сколько способов получения контрактов имеют фирмы? б) Если предположить равновозможность заключения кон- трактов, чему равна вероятность того, что фирма F3 получит контракт? Ответ: N = 60\ Р(А) — 0,6. Задача 17. Слово «интеграл» составлено из букв разрезной азбуки. Нау- дачу извлекают 4 карточки и складывают в ряд друг за дру- гом в порядке появления. ^Сколько возможных соединений можно составить из букв этого слова? б) Какова вероятность получения при этом слова «игра»? Ответ: N = 1680-, Р(А) = 0,000595. Задача 18. Наудачу взятый телефонный номер состоит из 5 цифр. а) Сколько возможных соединений можно составить из цифр телефонного диска? б) Как велика вероятность, что в нем все цифры кратны 3? Ответ: N = 100 000', Р(А) = 0,00243. 19
Задача 19. Слово «теория» составлено из букв разрезной азбуки. Науда- чу извлекаются три карточки и складываются в ряд друг за другом в порядке появления. а) Сколько возможных соединений можно составить из букв этого слова? б? К а к о в а вероятность получения при этом слова «тор»? Ответ: N = 120; Р(А) = 0,0083. Задача 20. Ученый желает исследовать эффект влияния на скорость химического процесса трех переменных: давления, темпера- туры и типов катализаторов. Экспериментатор намерен ис- пользовать три набора температуры, три набора давления и два типа катализаторов. Сколькими способами ученый может управлять реакцией, если пожелает использовать все воз- можные комбинации давления, температуры и типов катали- заторов? Ответ: 18.
2 Основные понятия, определения и теоремы теории вероятностей Введение к главе 2 Теория вероятностей — раздел математики, изучающий слу- чайные величины и их распределения. Развитие теории вероятностей обычно связывают с европей- скими игроками и математиками XVII в. Результаты работ Б. Паскаля (1623—1662), а также работы П. де Ферма (1601—1665), Г. Галилея (1564—1642), Я. Бернулли (1654—1705), П.С. Лапласа (1749—1827), А. де Муавра (1667— 1754) и Других ученых легли в основу современной теории веро- ятностей. Середина XVII в. обычно считается периодом создания основ теории вероятностей. В XIX в. теория вероятностей сфор- мировалась как стройная математическая дисциплина в связи с выдающимися работами русского математика П.Л. Чебышева (1821—1894) и его учеников А.А. Маркова (1856—1922) и А.М. Ляпунова (1857—19'18). В нашем столетии значительный вклад в развитие современной теории вероятностей внесли отечест- венные ученые: С.Н. Бернштейн, Б.В. Гнеденко, А.Н. Колмогоров, В.С. Пугачев, В.И. Романовский, Н.В. Смирнов, А.Я. Хинчин и др. Широкую известность приобрели фундаментальные работы зару- бежных ученых: Г. Крамера, Д. Неймана, Р. Фишера, М. Кендалла, А. Стьюарта и др. Вероятность — количественная мера неопределенности, число, которое выражает степень уверенности в наступлении того или иного события. Вероятность — число Р(А) е [0; 1 ], характеризующее степень возможности появления определенного события А. Сегодня теория вероятностей — обязательный инструмент анализа ситуаций, включающих неопределенность. Основной зада- чей теории вероятностей является установление математических законов для исследования случайных явлений массового харак- тера и предвидения их на основании отдельных фактов. Почему именно массовые случайные явления! В окружающем нас мире мы имеем дело с различными случайными явлениями, сравнительно 21
большое число которых подчиняется определенным закономерно- стям, проявляющихся только при большом числе наблюдений. Теория вероятностей формирует основу для статистического вывода, а также для других областей научного и практического знания, требующих количественной оценки наступления или ненаступления некоторого события, таких, как контроль качест- ва, принятие управленческих решений в фирме, биологии, фи- зике, инженерных расчетах и, конечно, в экономике. 2.1. Алгебра событий Математическим обсуждением связей между событиями за- нимается алгебра событий. Алгебру событий называют иначе алгеброй Буля по имени английского математика Джорджа Буля (1815—1864). Для того чтобы понять смысл вероятности, вспомним неко- торые понятия теории множеств и операции над множествами. Множество — одно из основных понятий математики; набор каких-либо различных объектов, или элементов, рассматривае- мый как одно целое. Множество — это совокупность, набор, коллекция, собрание каких-либо элементов, объединенных по определенному признаку. Число элементов в множестве может быть конечным и беско- нечным ( все числа, лежащие между 0 и 1). Полное множество — набор, содержащий все элементы в за- данном контексте. Полное множество обозначается буквой X. Пустое множество — набор, не содержащий элементы. Обо- значается как 0. Всякое подмножество X есть множество (например, множе- ство А, А и 0) Задав набор А, можно определить его дополнение. Дополнением множества А является набор, содержащий все элементы из полного набора X, которые не являются элемента- ми набора А. Обозначим дополнение А как А. Набор А также называют «не А». Диаграммы Венна — названы по имени английского логика Джона Венна (1834—1923) — наглядно представляют операции множеств и связанные с ними соотношения. На диаграммах Венна множество обозначается кругом, эллипсом или другой геометрической фигурой внутри прямоугольника, обозначаю- щего полное множество. 22
X X Рис. 2.1. Диаграммы Венна Взаимоотношение между набором А и его дополнением по- казано на рис. 2.1, а. Пример 2.1. Пусть полный набор — все студенты института. Определим А как множество студентов, сдавших летнюю сессию только на отлично. До- полнение А есть А — множество студентов неотличников. В сумме А и А — все студенты института. Рассмотрим два набора А и В внутри полного множества X, где А, В ~ подмножества X. Определим пересечение А и В. Пересечение А и В (обозначается как ДПВ) есть набор, со- держащий все элементы, которые являются членами и Л и В (см. рис. 2.1, б). Объединение А а В (обозначается АЦВ) есть набор, содер- жащий все элементы, которые являются членами или А, или В, i или А и В вместе (см. рис. 2.1, в). 1 Продолжим рассмотрение нашего примера со студентами. I Определим В как множество студентов, сдавших зимнюю сессию на j отлично. Тогда пересечение А и В — подмножество студентов, сдавших на отлично и летнюю и зимнюю сессию. 23 t
Объединение Аи В — подмножество студентов, которые сдали на от- лично или летнюю, или зимнюю, или обе сессии. Два набора могут не иметь пересечения. В этом случае мы говорим, что пересечение А и В есть пустое множество (см. рис. 2.1, г). В примере с успеваемостью студентов подмножество студентов, получивших двойки в летнюю сессию, не пересекается с подмножеством отличников. 2.2. Основные определения: испытание, событие. Классификация событий Опыт (эксперимент, испытание) — ситуация с более чем од- ним возможным исходом, из которых всегда имеет место точно одно так называемое элементарное событие. Исходом опыта мо- жет быть результат наблюдения или измерения. Извлечение карты из колоды — эксперимент. Один из исходов экс- перимента есть извлечение дамы бубен. Бубновую даму можно из- влечь из колоды 36 карт и 52 карт. Число карт — условие испытания. Единичный, отдельный исход эксперимента называется эле- ментарным событием. Набор всех элементарных событий — пространство событии (множество). Извлечение любой карты из колоды — элементарное событие. Полному набору событий соответствует полное множество X, относящееся к заданному эксперименту. Полный набор событий — набор всех возможных исходов эксперимента. Элементарному событию соответствует только одна точка пространства событий. Аналогом элементарного события является элемент множества. Следует заметить, что теория вероятностей изучает не любые события, а случайные события. Случайным событием называется событие, которое может произойти или не произойти в результате некоторого экспери- мента. (В дальнейшем для простоты мы будем опускать термин «случайный»). Событие — это любое подмножество пространства событий. Это набор элементарных исходов. В диаграммах Венна событию соответствует подмножество элементарных событий. Мы говорим, что событие произошло, если в результате эксперимента про- изошло элементарное событие, принадлежащее этому поднабору. Например, элементарные события — «туз конкретной масти» — благоприятствуют случайному событию «туз». События обычно обозначаются заглавными буквами латин- ского алфавита: А, В, С, D, Е, F и т.д. 24
По аналогии со свойствами множеств можно классифициро- вать и события. Достоверное событие — это событие, которое обязательно произойдет в результате испытания. (Например, если в урне со- держатся только белые шары, то извлечение из нее белого шара есть событие достоверное; другой пример: если подбросить вверх камень, то он обязательно упадет на Землю вследствие действия закона притяжения, т. е. результат этого опыта заведомо извес- тен). Достоверные события условимся обозначать символом Q. Невозможное событие — это событие, которое не может про- изойти в результате данного опыта (испытания). Извлечение черного шара из урны с белыми шарами есть событие невоз- можное, так же как и выпадение выигрыша на все номера об- лигаций в каком-либо тираже выигрышного займа. Невозмож- ное событие обозначим 0. Достоверные и невозможные события не являются случайными. ; Совместные события — несколько событий называют совме- I стными, если в результате эксперимента наступление одного из ! них не исключает появления других. (Например, при бросании ) трех монет выпадение цифры на одной не исключает появления ! цифр на других монетах). J В магазин вошел покупатель. События «в магазин вошел по- купатель старше 60 лет» и «в магазин вошла женщина» — совме- стные, так как в магазин может войти женщина старше 60 лет. Несовместные события — несколько событий называют не- совместными в данном опыте, если появление одного из них исключает появление других. (Например, выигрыш, ничейный исход и проигрыш при игре в шахматы как результат одной пар- тии — три несовместных события). События называют единственно возможными, если в резуль- тате испытания хотя бы одно из них обязательно произойдет (или одно, или два,..., или все события из рассматриваемой со- вокупности событий произойдут; одно точно произойдет). На- пример, некоторая фирма рекламирует свой товар по радио и в газете. Обязательно произойдет одно и только одно из следую- щих событий: «потребитель услышал о товаре по радио», «потребитель прочитал о товаре в газете», «потребитель получил информацию о товаре по радио и из газеты», «потребитель не слышал о товаре по радио и не читал газеты». Эти четыре собы- тия единственно возможные. Несколько событий называют равновозможными, если в ре- зультате испытания ни одно из них не имеет объективно 25
большую возможность появления, чем другие (при бросании иг- ральной кости появление каждой из ее граней — события рав- новозможные). Два единственно возможных и несовместных события назы- ваются противоположными (купля и продажа определенного ви- да товара есть события противоположные). Полная группа событий — совокупность всех единственно возможных и несовместных событий. п Полную группу можно определить так: если (J = Q и /=1 = 0 для любой пары (i * j), тогда {А[, А}, А„} — пол- ная группа событий. 2.3. Классическое определение вероятности. Свойства, вытекающие из этого определения Игровые модели дают хорошие примеры вероятностей и ил- люстрируют методы оценки вероятностей. Основная причина этого в том, что азартные игры обычно включают механические схемы — кости, карты, рулетку. Если предположить отсутствие мошенничества, то эти «механические схемы» имеют тенденцию выдавать набор выходных результатов, которые равновозможны, что позволяет вычислять вероятность выигрыша в игре. Пример 2.2. Предположим, что подбрасывают кость и выигрывают, если появляется I или 2; каковы шансы на выигрыш? Решение. Так как существует 6 равновозможных чисел и выигрыш наступает, если появится любой из двух исходов (двух чисел), то веро- ятность выигрыша вычислится как отношение двух выигрышных шан- сов к шести возможным и будет равна 2/6. Объективная вероятность — вероятность, базирующаяся на симметричной игре шансов или одинаковых ситуациях. Эта ве- роятность обычно называется классической вероятностью и исхо- дит из того, что определенные явления бывают равновозможны- ми. Числа 1, 2, 3, 4, 5, 6 в честной игре в кости имеют равнук возможность появления. 26 Вероятностью появления события А называют отношение числа исходов, благоприятствующих наступлению этого собы- тия, к общему числу всех единственно возможных и несовмест- ных элементарных исходов. Обозначим число благоприятствующих событию А исходов через М, а число всех исходов — N, тогда (2.3.1) где М — целое неотрицательное число; 0 < М < N. Формула (2.3.1) — классическое определение вероятности. Другой тип объективной вероятности определяется исходя из относительной частоты (частости) появления события. Если, к примеру, некоторая фирма в течение определенного времени провела опрос 1000 покупателей о новом сорте напитка, и 20 из них оценили его как вкусный, то мы можем оценить вероят- ность того, что потребителям понравится новый напиток как 20/1000=0,02. В этом примере 20 — это частота наступления со- бытия, а 20/1000=0,02 — это относительная частота. Относительной частотой события называется отношение числа испытаний т, при которых событие появилось, к общему числу проведенных испытаний п: W(A) = , (2.3.2) где т — целое неотрицательное число; 0 < т < п. > Чем же отличается относительная частота от вероятно- сти? Относительная частота — результат многократных испыта- ний. С увеличением числа испытаний относительная частота проявляет тенденцию стабилизироваться, проявляет устойчи- вость, а именно, приближается с затухающими отклонениями к постоянному числу, называемому статистической вероятностью. В качестве статистической вероятности события принимают от- носительную частоту или число, близкое к ней. Так, например, известный французский естествоиспытатель Бюф- фон по 4040 бросаниям монеты получил относительную частоту по- явления герба, равную 0,50693. У английского статистика Пирсона по результатам 23 000 бросаний монеты относительная частота ока- залась равной 0,5005. Демографам хорошо известна цифра 0,514 (на 1000 рождающихся детей приходится в среднем 514 мальчиков). Статистической вероятностью события А называется отно- сительная частота (частость) этого события, вычисленная по ре- 27
зультатам большого числа испытаний. Будем обозначать её Р*(А). Следовательно, Р*(Л)= И^А) = т/п , При И-»оо при но, как мы уже видели в приведенных примерах, статистическая вероятность приближенно равна классической вероятности, т.е. Г (Л) « Р (Л). Для определения вероятности выпадения «1» или «2» при подбрасывании кости нам необходимо только знать «модель иг- ры», в данном случае — кость с 6 гранями. Мы можем опреде- лить наши шансы теоретически, без подбрасывания кости, — это априорная (до опыта) вероятность. Во втором примере мы можем определить вероятность только по результатам опыта,— это апостериорная (после опыта) вероятность; т.е. классическая вероятность — априорная, а статистическая — апостериорная. >- Почему мы считаем вероятность потребительских предпоч- тений объективной вероятностью? Подобно вероятности «игры в шансы» она объективна в том смысле, что в нее не включаются индивидуальные суждения. Пример 2.3. Аналитик следит за движением цен на акции фирмы IBM в определен- ном промежутке времени и желает оценить вероятность того, что акции под- нимутся в цене на следующей неделе. Эго другой тип вероятностной (неопределенной) ситуации. У аналитика нет столь ясного набора равно- вероятных исходов, где «акции компании IBM поднимутся в цене на следующей неделе», — есть один из заданного числа исходов этих рав- новероятных возможностей. Следовательно, аналитическое оценивание вероятностей наступления события будет субъективным. Аналитик будет основываться на его собственных оценках этой вероятности, на основе знаний о сложившейся ситуации, предположений или интуиции. Раз- личные люди могут указать различные вероятности этого события в зави- симости от их опыта и знаний, поэтому такая вероятность и называется субъективной вероятностью. Субъективная вероятность включает индивидуальные сужде- ния, информацию, интуицию и другие критерии. Изучение субъективных вероятностей как области научного знания нача- лось в 30-х гг. XX в. Поскольку идет процесс ее становления, то это — дискуссионная область теории вероятностей- Она близко, ассоциирует с методами принятия решений в условиях неопре- 28
деленности. Эксперт, оценивающий вероятность успеха какого- либо события, предлагает в качестве решения персональное су- ждение, базирующееся на личном знании, ощущении ситуации. Субъективная вероятность также называется персональной веро- ятностью. Субъективная вероятность одного эксперта может существенно отличаться от субъективной вероятности другого при оценке одного и того же события. Какой бы вид вероятности ни был выбран, следует уяснить, что для их вычисления и анализа используется один и тот же набор математических правил. Рассмотрим свойства вероятности, вытекающие из классиче- ского определения. 1. Вероятность достоверного события равна 1, т.е. Р (Q) = 1. Действительно, если событие А = Q, то М — N, значит, P(Q) = N/N= 1. 2. Если событие невозможное, то его вероятность равна О, т.е. Р (0) = 0. Если А ~ 0, то оно не осуществится ни при одном испы- тании, т. е. М ~ 0 и Р(0) - 0/7V = 0. 3. Вероятность случайного события есть положительное чис- ло, заключенное между 0 и 1. В самом деле, так как 0 < М < N , то 0 < М/ N < 1, т. е. 0 < /М) 5 1. 4. Сумма вероятностей противоположных событий равна 1, т.е. Р(Л)+Р( А )=1. В самом деле, Р(А — ]—Р(А), а отсюда: ЛЛ)+Л"Л)=1. (2.3.3) Например, если вероятность извлечения туза равна 4/52, то вероятность извлечения карты, не являющейся тузом, равна 1 - 4/52 = 48/52. Чем больше значение вероятности внутри интервала от 0 до 1, тем более мы уверены в наступлении случайного события. Веро- ятность, равная 0,95, предполагает высокую степень уверенности в наступлении события. Вероятность 0,80 также предполагает высокую степень уверенности. Когда вероятность равна 0,5, то событие имеет равные шансы как произойти, так и не произой- ти. Когда вероятность равна 0,20, то событие скорее всего не произойдет. Когда вероятность равна 0,00005, то мы уверены, что событие практически не может произойти, и так далее. 29
Неформальную интерпретацию вероятности наступления случайного события иллюстрирует рис.2.2. 0 0,25 0.5 2. Событие скорее всего не прои- зойдет Событие скорее не прои- зойдет, чем произойдет Событие имеет одинаковую возмож- ность как произойти, так и не произойти 0,75 Событие скорее произойдет, чем не прои- зойдет 1,00 3. 4. 5. Элементарным событием является любое сочетание последова- тельности выпадений сторон на трех подбрасываемых монетах. (J = {пт, ЦЦЦ, гцг, ЦЦГ, ГГЦ, цгц, шт, гцц}, N= 8. Событие А — «выпадение двух гербов и одной цифры», М ~ 3. ДЛ)= M/N= 3/8 = 0,375. Событие скорее всего произой- дет 2.4. Основные теоремы теории вероятностей Рис. 2.2. Интерпретация наступления случайного события Теорема сложения вероятностей. Вероятность суммы двух событий равна сумме вероятностей этих событий без вероятности их совместного наступления: Заметим, что вероятность есть мера, принимающая значения от 0 до 1. В обыденной жизни мы часто употребляем термин «вероятность» в менее формальном значении. Так, люди часто оценивают шансы. Если шансы 1 к 1, то вероятность равна 1/2; если шансы 1 к 2, то вероятность равна 1/3; и т.д. Люди также иногда говорят: «Вероятность равна 30%». Мы должны избегать подобных опреде- лений и всегда иметь дело с вероятностью как числом между 0 и 1. Такая интерпретация гораздо яснее. Алгоритм решения задач по определению вероятности события: I. Определить состав эксперимейта. 2. Определить элементарное событие в данном опыте. 3. Определить полную группу событий, найти число элемен- тарных событий, составляющих полную группу событий. 4. Определить интересующее нас событие, найти число эле- ментарных событий, составляющих интересующее нас со- бытие. 5. Найти вероятность события по формуле (2.3.1). Пример 2.4. Монета подбрасывается три раза, найти вероятность того, что при этоМ| (безразлично в каком порядке) выпадет два раза герб и один раз цифра? i Решение. |нения двух соб 1. Опыт (испытание, эксперимент) состоит в трехкратном подбра-Т у ытии в терминах вероятностей этих - сывании монеты (или однократном подбрасывании трех монет). Г веР°ятности их пересечения. Д УХ сс*>ытии или Р(А + й) = Р(А) + Р(В) - Р(АВ), Р(ли5) = /’(Л) + Р(Л)-Р(яП5). (2.4.1) Доказательство. Пусть событию А благоприятствуют М исхо- дов, а всего N исходов и М < N; событию В благоприятствуют К исходов; событию АВ благоприятствуют L исходов. Тогда Р(А) = = М/N: Р(В) = K/N\ Р(АВ) = L/N. Сумму А + В по определению нужно понимать так: или А В, \-м~ или В А или АВ L Рис. 2.3. К доказательству теоремы сложения вероятностей Наступлению только события А благоприятствуют (Л/ — L) исходов. Аналогично наступлению только события В благопри- ятствуют (К — L) исходов. Найдем вероятность события (А + В) исходя из классического определения (2.3.1): Pl.1i П) + + * L M + K-L _М К £ ' 1 ' N N N N N~ ~Р(А} + Р(В}-Р(АВ\ Правило сложения позволяет записать вероятность объеди- 30 31
Вероятность пересечения двух событий Р(Л Л В) — вероятность их совместного наступления при проведении эксперимента. Смысл этого правила очень прост и понятен интуитивно: когда мы складываем вероятности событий А, В, мы измеряем, или взвешиваем, вероятность их пересечения дважды — первый раз, когда измеряем относительный размер события А внутри пространства событий, и еще раз, когда делаем то же самое с событием В. Отсюда, поскольку относительный размер, или ве- роятность пересечения двух наборов, взвешивается дважды, мы вычитаем одно из них и, следовательно, получаем истинную ве- роятность объединения двух событий. Пример 2.5. Опыт состоит в случайном извлечении карты из колоды в 52 карты. Определим события: А — «извлечение туза», В — «извлечение карты трефовой масти». Вероятность извлечения туза из колоды карт Р(А) = 4/52; вероятность извлечения карты трефовой масти ЛВ) = 13/52; ве- роятность их пересечения — извлечение трефового туза: Р(А Г)В) = 1/52. Согласно правилу объединения событий (2.4.1): Р(А UB)=4/52 + 13/52 - 1/52=16/52. Проиллюстрируем это (рис. 2.4). Трефы Бубны Пики Червы _ Tv i Туз Туз Туз J— Событие А Король Король Король Король Дама Дама Дама Дама Событие В Валет Валет Валет Валет 10 10 10 10 2 2 2 2 Рис. 2.4. К примеру 2.5 Правило сложения вероятностей особенно полезно, коп! нам неизвестно число элементарных событий, составляют! пространство объединенных событий, но известны отделы» вероятности этих событий. Например, предположим, что вероятность получения опр деленной работы равна 0,4; вероятность получения другой раб ты 0,5; вероятность получения предложения на оба вида работ 32 равна 0,3. В результате вероятность получения по крайней мере одного из видов работы равна 0,6 (так как 0,4 + 0,5 — 0,3 = 0,6). Для несовместных событий их пересечение есть невозмож- ное событие 0, а вероятность его равна нулю: Для несовместных событий А, В: Р(А + В) = Р(А) + Р(В), или (2.4.2) = Р(А) + Р(В). Это правило, строго говоря, не является новым, поскольку всегда можно использовать уравнение (2.4.1) для объединения двух событий: если два события взаимно несовместны, то вычи- тают нуль как вероятность пересечения этих событий. Пример 2.6. Продолжая пример с картами, определим, чему равна вероятность из- влечения либо карты масти «треф», либо карты масти «бубна». Обозначив событием С «извлечение карты бубновой масти», будем иметь: Р(В + 0) = Р(В) + Р (Q = 13/52 + 13/52 = 26/52 = 1/2. Мы не должны вычитать вероятность пересечения этих событий, поскольку нет карт, имеющих масти «треф» и «бубна» одновременно. Правило сложения вероятностей справедливо и для конеч- ного числа п попарно несовместных событий, т. е. Лл1+Л2+Лз+-+^п)=Л^1)+Л^2)+Л^з)+-+ЛЛ). ИЛИ п п = (2.4.3) __________________ i=l i=L В случае нескольких совместных событий необходимо по аналогии с рассуждениями о пересечении двух совместных со- бытий исключить повторный учет областей пересечения собы- тий. Рассмотрим три совместных события (рис. 2.5). г ’ '*1 i 2 Теория статистики с основами 33 • теории вероятностей .. . __________„ ____________ j
Рис. 2.5. Три совместных события Для случая трех совместных событий можно записать: Р(А +В + С) = Р(Л) + Р(В) + Р(С)~ Р(АВ) — Р(АС) — Р(ВС) + Р(АВС). Сумма вероятностей событий А\, А2, A3,..., Ап, образующих полную группу, равна 1: ДЛО + Р(А2) + ЛЛ3) +... + ДЛ„) = 1, или р£(л,) = 1. (2.4.4) 1=1 В самом деле, так как события Ль А2, ... , А„ образуют пол- ную группу, т. е. они единственно возможные и попарно несо- вместные, то появление одного из них есть событие достовер- ное, т. е. Ai + А2+...+ А„ =Г2, тогда Р(А{ + А2 +...+ А„) = ЛЛ) + ЛЛ2) + ЛЛ3)+...+ Р(А„) = ДП) = 1. 2.5. Зависимые и независимые события Вернемся к примеру 2.2. Рассмотрим два события. Пусть со- бытие А — «извлечение короля», В — «извлечение карты с порт- ретом». Тогда вероятность появления короля равна 4/52, а веро- ятность появления короля, если извлеченная карта — картинка, равна 4/16. Другой пример. В урне два белых и три черных шара. Чему равна вероятность появления белого шара при первом извлече- нии из урны? При втором извлечении из урны? 34
Здесь возможны два случая. > Первый случай. Схема возвращенного шара, т.е. шар после первого испытания возвращается в урну. Пусть событие А — «появление белого шара при первом ис- пытании». Так как N = 5, а М = 2, то Р (А) = 2/5. Пусть событие В — «появление белого шара при втором из- влечении». Так как шар после первого испытания возвратился в урну, то N = 5, а М = 2 и Р (В) = 2/5. Таким образом, вероятность каждого из событий не зависит от того, произошло или не произошло другое событие. События А и В в этом случае называются независимыми. Итак, события А, В называются независимыми, если вероят- ность каждого из них не зависит от того, произошло или нет другое событие. Вероятности независимых событий называются безусловными. > Второй случай. Схема невозвращенного шара, т.е. шар после первого испытания в урну не возвращается. Вероятность появления белого шара при первом испытании Р(А) = 2/5. Белый шар в урну не возвращается, следовательно, в урне остались один белый и три черных шара. Чему равна веро- ятность события В при условии, что событие А произошло? N = 4, М = 1. Искомую вероятность обозначают Р(В/А) или Р(В)д или Ра(В). Итак, Р[В/А)=\/^ называют условной вероятностью, а со- бытия А, В называются зависимыми. В предыдущем примере с картами Р(Л)=4/52; Р(Л/В)=4/16. Итак, события А, В называются зависимыми, если вероят- ность каждого из них зависит от того, произошло или нет дру- гое событие. Вероятность события В, вычисленная в предполо- жении, что другое событие А уже осуществилось, называется условной вероятностью. Очевидно, что если два события А и В — независимые, то справедливы равенства: Р(В) = Р(В/А), Р(А) = Р(А/В), или Р(В/А) - Р(В) = 0. Как мера неопределенности, вероятность зависит от инфор- мации, поэтому, когда, например, говорят: «Акции фирмы IBM 2s 35
поднимутся завтра в цене», то это утверждение зависит от того, что известно о компании и о ее возможностях; вероятность зави- сит от вашего информационного набора. Вы можете приписать более достоверную вероятность наступлению интересующего вас события, если вы хорошо осведомлены о делах компании. Мы можем определять вероятность события А как условную по от- ношению к появлению события В. В нашем примере событие А может быть событием, состоящим в том, что «акции поднимутся завтра в цене», а событием В могут быть «благоприятные данные квартального отчета фирмы». Теорема умножения вероятностей. Вероятность произведения двух зависимых событий А, В равна произведению вероятности одного из них на условную вероятность другого: Р(АВ) = Д5) • PiA/B), P{Af\B)~ P(JS)-Р(А/В), или Р(АВ) = ЛЛ) • Р(В/А), (2.5.1) Р(А[] В) = Р(А) • Р(В/А). Доказательство. Проиллюстрируем понятие условной веро- ятности для случая равновозможных элементарных исходов, где применимо классическое определение вероятности. Пусть даны два события А, В, такие, что Р(А) * 0 и Р(В) * 0, и пусть из всех возможных N исходов событию А благоприятствуют М исходов, событию В благоприятствуют К исходов, событию АВ благопри- ятствуют L исходов. Вероятности событий А, В, АВ соответст- венно равны Р(А) = М/N, Р(В) = K/N, Р(АВ) — L/N. или АВ, или А В или АВ М Рис. 2.6. К доказательству теоремы умножения вероятностей Подсчитаем условную вероятность события В/А. Событию В/А будут благоприятствовать L исходов из М исходов. Тогда Р(В/А) = L/М. Разделим числитель и знаменатель дроби на jV и получим: 36
Р(В/А) = £/7V Р(АВ) M/N~ Р(Л) ' Вероятность события В при условии появления события А W/A) <Р(А) ) ’ (15-2) где Р(А) * 0. Вероятность наступления события В, вычисленная при усло- вии, что событие А уже произошло, равна вероятности пересе- чения событий А и В, деленной на вероятность события А. Из формулы (2.5,2) следует (2.5.1). Проиллюстрируем формулу (2.5.2). Предположим, что мы подбросили игральную кость. Пусть событие А — «появилось число 6». Мы знаем, что Р(А) = 1/6. Предположим, что мы не знаем, какое именно число выпало при подбрасывании, но зна- ем, что оно четное (событие Е). Информация о событии Е уменьшает наше пространство событий, изменяет вероятность появления события А. Изобразим эту ситуацию на рис. 2.7. 1 I2 4 6 •- Первоначальное пространство событий 3 — 5 Уменьшенное пространство событий Рис. 2.7. К формуле (2.5.2) Пространство событий (полная группа событий) для перво- начального события А выглядит как набор точек от 1 до 6. Про- странство событий, корреспондирующее с событием В, как это видно на рис. 2.7, уменьшилось сразу в два раза. Новое про- странство имеет три равновозможные точки, отсюда вероятность выпадения «6» при условии, что выпавшее число четное, возрас- тает от 1/6 до 1/3. Этот пример хорошо показывает обоснован- ность принятого нами определения вероятности из уравнения (2.5.2), мы имеем: 37
Полученный результат согласуется с тем, что мы поняли из рассмотренного примера, когда уменьшали пространство собы- тий до трех точек. Пример 2.7. Консультационная фирма претендует на два заказа от двух крупных корпораций. Эксперты фирмы считают, что вероятность получения консультационной работы в корпорации А (событие А) равна 0,45. Экс- перты также полагают, что если фирма получит заказ у корпорации А, то вероятность того, что и корпорация В обратится к ним, равна 0,9. Какова вероятность получения консультационной фирмой обоих заказов? Решение. Согласно условиям Р(Л)=0,45, Р(2?/Л)=0,9. Необходимо найти Р(АВ), которая является вероятностью того, что оба события (и событие А, и событие В) произойдут. Из формулы (2.5.1) имеем: Р(АВ) = Р(А) • Р(В/А) = 0,45 • 0,9 = 0,405. Пример 2.8. В большой рекламной фирме 21% работников получает высокую заработную плату. Известно также, что 40% работников фирмы — женщины, а 6,4% работников — женщины, получающие высокую зара- ботную плату. Можем ли мы утверждать, что на фирме существует дискриминация женщин в оплате труда? Решение. Сформулируем решение этой задачи в терминах теории веро- ятностей и спросим: «Чему равна вероятность того, что случайно выбран- ный работник будет женщиной, имеющей высокую заработную плату?». Определим событие А — «случайно выбранный работник имеет вы- сокую зарплату», событие В — «случайно выбранный работник — жен- щина», тогда: Поскольку 0,16 меньше, чем 0,21, то можно заключить, что жен- щины, работающие в рекламной фирме, имеют меньше шансов полу- чить высокую заработную плату по сравнению с мужчинами. Если события А, В — независимы, то имеет место следующая тборема: Вероятность произведения двух независимых событий А, В рав- на произведению их вероятностей: Р(АВ) = АЛ) • Р(В) или Р(А П В) = Р(А) • Р(В). (2.5.3) 38
Независимость событий в совокупности. Если несколько событий попарно независимы, то отсюда еще не следует их не- зависимость в совокупности. Поэтому введем понятие незави- симых событий в совокупности. События Ai, А2,--., А„ (п > 2) называются независимыми в со- вокупности, если вероятность каждого из них не зависит от того, произошли или нет любые события из числа остальных. Распространим теоремы умножения на случаи п независимых и зависимых в совокупности событий. Вероятность совместного появления нескольких событий, независи- мых в совокупности, равна произведению вероятностей этих событий: PtAi -А2-А}-... • А„) = ЛЛ) • Р(А2) • ЛЛз) •... • Л4). (2.5.4) Вероятность совместного наступления конечного числа зависи- мых событий равна произведению вероятности одного из них на условные вероятности всех остальных, причем условная вероят- ность каждого последующего события вычисляется в предположе- нии, что все предыдущие уже наступили: Р(А1-А2-А3-...-Ап)^ =Р(Ад-Р(А2/Ад-Р(Д/А-Ад- ...-Р(А,/А1-А2-А}-... -4,-1). (2.5.5) Пример 2.9. Студент пришел на экзамен, изучив только 20 из 25 вопросов про- граммы. Экзаменатор задал студенту три вопроса. Вычислить вероятность того, что студент ответит на все три вопроса. Решение. Определим следующие события: А — «студент знает все три вопроса»; Ai — «студент знает первый вопрос»; А2 — «студент знает второй вопрос»; Аз — «студент знает третий вопрос». События Alt А2, Аз — зависимые: 39
P (A) = P (At) -Р(А2/А1) • РЩА! -4); Р(Я)_20.19Л-Л1-0 496 ^А’ 25 24 23 115 ’ ’ Пример 2.10. Вероятность того, что потребитель увидит рекламу определенного продукта по телевидению, равна 0,04. Вероятность того, что потреби- тель увидит рекламу того же продукта на рекламном стенде, равна 0,06. Предполагается, что оба события — независимы. Чему равна вероятность того, что потребитель увидит обе рекламы? Решение. Поскольку оба события независимы, то вероятность пере- сечения двух событий (потребитель увидит рекламу и по телевидению и на стенде) есть Р(АВ) = Р(А) • Р(В) = 0,04 0,06 = 0,0024. Вероятность появления хотя бы одного события. Вероятность появления хотя бы одного события из п независи- мых в совокупности равна разности между 1 и произведением веро- ятностей событий, противоположных данным'. ЛЛ)=1-Л Л1) • Л й2) •... • Л Ап). (2.5.6) Доказательство. Пусть А[, А2,—, Ап — события независимые в совокупности, а А\, Я2,..., Ап — противоположные им со- бытия и тоже независимые в совокупности. Обозначим собы- тием А «наступление хотя бы одного из событий Ay А2,..., А„». Рассмотрим событие (Ai, А2, ... , Ап). Оно является про- тивоположным событием по отношению к А. Следовательно, Р(А) + ЛЛ1 • А2 •...• Л„)=1. Отсюда Р(Л)=1 - Л А, • Аг •... • Ап )=1 - Р(А\ )-Р(А2)-...-Р(А„). Если обозначить P(Ai) = рь Р(А2) = pi,..., Р(Ап) = р„; ЛЛ1) = Р(А1) = 02, Р(Ап) = qn, ТО P(A)=l-qi' q2‘...' qn- I
Если события Ai, А2,..., А„ имеют одинаковую вероятность, равную Р, то вероятность наступления хотя бы одного из них равна: Р(А)=1 — Если события А{, А2,...,Ап — зависимые в совокупности, то ве- роятность наступления хотя бы одного из них соответственно равна: ЛЛ)=1-ДЛ1)-P(A2/Ai)-...-P(An/Ai А2 A„-i). Возвратимся к условию примера 2.7, определим веро- ятность того, что потребитель увидит хотя бы одну рекламу. Решение. Пусть событие С — «потребитель увидит хотя бы одну рекла- му». Это значит, что потребитель увидит рекламу по телевидению, или на стенде, или по телевидению и на стенде. По правилу определения вероят- ности объединения (суммы) двух событий находим: ЛО = ЛЛ + В)= Р(А) + Р(В)- Р(АВ) = =0,04 + 0,06 - 0,0024 = 0,0976. А по теореме о вероятности наступления хотя бы одного из п незави- симых событий Р(С) = 1 - Р(А)- Р( В) = 1 - 0,096 • 0,94 = 0,0976. Вычисление вероятностей событий такого типа характеризует эффективность рекламы. Эта вероятность может означать долю (процент) населения, охватываемого рекламой с разной часто- той, и отсюда следует оценка рекламных усилий. 2.6. Задачи к главе 2 Задача 1. Фирма по продаже автомобилей рекламирует две новые мо- дели машин по радио и телевидению. Компанию интересует эффективность рекламы, в частности, оценка того, что слу- чайно выбранный человек имеет представление хотя бы об одной из двух рекламируемых моделей. Определим событие А как событие, состоящее в том, что случайно выбранный человек слышал рекламу по радио, а событие В — как собы- тие, состоящее в том, что случайно выбранный человек зна- ет о новых моделях автомобилей из рекламы телевидения. Определить в этом контексте А П В, AU В. 41
Задача 2. Предположим, что 25% населения живет в области, охвачен- ной коммерческим TV, рекламирующим две новые модели автомобилей фирмы; 34% населения охвачено радиорекла- мой. Также известно, что 10% населения слушает и радио и телерекламу. Если случайно отобрать человека, живущего в данной области, то чему будет равна ве- роятность того, что он знаком по крайней мере хо- тя бы с одной из рекламных передач фирмы? Ответ: 0,49. Задача 3. Брокерская фирма имеет дело с акциями и облигациями. Для анализа деятельности фирме полезно оценить вероятность того, что лицо, интересующее фирму, является держателем акций (событие Л) или облигаций (событие В). Опре- делите в этом контексте А • В, А + В. Задача 4. Предположим, что 85% людей, которые интересуются воз- можными инвестициями (вложениями) в брокерскую фир- му, не покупают акции, а 33% не покупают облигации. Так- же известно, что 28% интересующихся прерывают покупку ценных бумаг — как акций, так и облигаций. Некто интере- суется делами компании; чему равна веро- ятность, что он будет покупать либо облигации, либо акции, либо и то и другое? Ответ: 0,72. Задача 5. В 1986 г. в Newsweek была опубликована статья математика Джона Паулса, где он сообщил, что большинство людей не обладает способностью реально оценить вероятность событий, которые могут повлиять на их жизнь, и зачастую люди испы- тывают страх перед событиями, имеющими весьма малую ве- роятность, но не волнуются по поводу событий, имеющих большую вероятность. Например, Паулс приводит следующие данные. В 1985 г. 28 млн американцев путешествовали за гра- ницу и 39 человек из них были убиты террористами. Основы- ваясь на этих цифрах, оцените вероятность Р(А) быть убитым при путешествии за границу. Сравните эти данные с другими статистическими данными, приведенными Паулсом: 1 из 5 млн 300 тыс. американцев, попавших в автокатастрофы в том же году, погиб (вероятность Р[В)). Задача 6. В автопробеге участвуют 3 автомобиля: первый может сойти с маршрута с вероятностью 0,15; второй — с вероятностью 0,05; третий — с вероятностью 0,1. Определить вероятность того, что к финишу прибудут: а) только один автомобиль; б) два автомобиля; в) по крайней мере два автомобиля. Ответ: а) 0,02525; б) 0,24725; в) 0,974. 42
Задача 7. В ходе исследования потребительского рынка проводили оп- рос потребителей. В частности, один из вопросов касался сорта зубной пасты, которую использует потребитель. Если известно, что 14% населения используют сорт А, а 9% — сорт В, то чему равна вероятность того, что случайно выбранный человек будет использовать одну из двух паст. (Предполагается, что в данный момент человек использует только одну пасту). Ответ: 0,23. Задача 8. Используем условия предыдущей задачи и предположим, что вопрос о зубной пасте был сформулирован так: «Какие из двух видов зубной пасты Вы использовали в последний ме- сяц?» Потребитель может ответить, что использовал более одного вида зубной пасты. Предположим, что приблизи- тельно I % людей использует 2 вида зубной пасты в течение месяца. Чему равна вероятность того, что случайно выбранный человек использовал по крайней мере одну из двух паст в течение месяца? Ответ: 0,22. Задача 9. В фирме 550 работников, 380 из них имеют высшее образо- вание, а 412 — среднее специальное, 357 сотрудников имеют и высшее и среднее специальное образование. Чему равна вероятность того, что случайно вы- бранный работник имеет или среднее специальное, или высшее образование, или и то и другое? Ответ: 0,791. Задача 10. Консультационная фирма получила приглашение для вы- полнения двух работ от двух международных корпораций. Руководство фирмы оценивает вероятность получения заказа от фирмы А (событие А) равной 0,45. Также, по мнению ру- ководителей фирмы, в случае, если фирма заключит договор с компанией А, то с вероятностью в 90% компания В даст фирме консультационную работу. С какой веро- ятностью компания получит оба заказа? Ответ: 0,405. Задача И. Крупная торговая компания занимается оптовой продажей материалов для строительства и ремонта жилья. Компания имеет список покупателей в трех регионах, основанный на её собственной системе кодов, и рассылает им по почте ка- талог товаров. Менеджер компании полагает, что вероят- ность того, что компания не получит откликов на разослан- ные предложения ни из одного из регионов, равна 0,25. В этом случае какова вероятность того, что компания получит ответ хотя бы из одного региона? Ответ: 0,75. Задача 12. Финансовый аналитик предполагает, что если норма (ставка) процента упадет за определенный период, то вероятность, 43
что рынок акций будет расти в это же время, равна 0,80. Аналитик также считает, что норма процента может упасть за этот же период с вероятностью 0,40. Используя полученную информацию, определите вероятность того, что рынок акций будет развиваться, а норма процента падал» в течение обсуждаемого периода? Ответ: 0,32. Задача 13. Служащий кредитного отдела банка знает, что 12% фирм, бравших кредит в банке, обанкротились и не вернут кредиты по крайней мере в течение пяти лет. Он также знает, что обанкротились 20% кредитовавшихся в банке фирм. Если один из клиентов банка обанкротился, то чему рав- на вероятность того, что он окажется не в со- стоянии вернуть долг банку? Ответ: 0,6. Задача 14. Секрет увеличения доли определенного товара на рынке со- стоит в привлечении новых потребителей и их сохранении. Сохранение новых потребителей товара называется brand loyalty (приверженность потребителя к данной марке или разновидности товара) и это одна из наиболее ответственных областей рыночных исследований. Производители нового сорта товара знают, что вероятность того, что потребители сразу примут новый продукт и создание brand loyalty потре- бует по крайней мере шести месяцев, равна 0,02. Произво- дитель также знает, что вероятность того, что случайно ото- бранный потребитель примет новый сорт, равна 0,05. Пред- положим, что потребитель только И о изменил марку товара. Какова вероятность того, что он сохранит свои предпочтения в течение шести месяцев? Ответ: 0,4. Задача 15. Аналитик по инвестициям собирает данные об акциях и отме- чает, выплачивались ли по ним дивиденды и увеличивалиа или нет акции в цене за интересующий его период времени Собранные данные представлены в следующей таблице: Выплата дивидендов Цена увели- чилась Цена не уве- личилась Итого Производилась Не производилась 34 85 78 49 112 134 Итого 119 127 246 а) Если акция выбрана аналитиком случайно из набора в 24 • акций, то чему равна вероятность того . что она из числа тех акций, которые увеличились в цене? б) Если акция выбрана случайно, то чему равна вероятность того, что по ней выплачены дивиденды? в) Если акция выбрана случайно, то чему равна вероятность того, что она выросла в цене и по ней выплачены дивиденды? г) Если акция выбрана случайно, то чему равна вероятность того, что по ней не выплачены диви- денды и она не выросла в цене? д) Зная, что акция выросла в цене, найдите ве- роятность того, что по ней также выплачены диви- денды. е) Если по акции не выплачены дивиденды, то оцени- те вероятность того, что она выросла в цене. ж) Ч е м у равна вероятность того, что случайно отобранная акция в течение интересующего анали- тика периода ухудшила все показатели? з) Оцените вероятность того, что случайно выбранная акция либо выросла в цене, либо по ней были выплачены дивиденды, либо и то и другое вместе. Ответ: а) 0,4837; б) 0,4553; в) 0,1382; г) 0,1992; д) 0,2857; е) 0,6343; ж) 0,1992; з) 0,8008. Задача 16. Статья в журнале Business Week обсуждает проблему заработ- ной платы руководителей крупных корпораций. Следующая таблица составлена на основании данных, представленных в этой статье, и содержит информацию по ряду фирм, в кото- рых руководители имели годовой доход свыше и менее 1 млн долл. Таблица составлена в соответствии с тем, полу- чали или нет владельцы акций этих корпораций годовой до- ход за обсуждаемый период времени. Получение дохода держате- лями акций Доход руководителя Итого Свыше 1 млн долл. Менее 1 млн долл. Получили 1 6 7 Не получили 2 1 3 Итого 3 7 10 а) Если фирма выбрана случайным образом, чему равна вероятность того, что ее руководитель имеет годовой доход свыше 1 млн долл.? б) Если фирма выбрана случайно, чему равна вероятность, что держатели ее акций получили го- довой доход? в) Знаем, что некая фирма не выплатила дивиденды. Оп- ределите, чему равна вероятность того, что её руководитель имеет годовой доход свыше 1 млн долл. 45
г) Знаем, что руководитель одной из фирм получает свыш 1 млн долл, годового дохода. Чему равна ве- роятность получения дивидендов держателями ак ций этой фирмы? Ответ: а) 0,3; б) 0,7; в) 0,7; г) 0,3. Задача 17. Вероятность для компании, занимающейся строительством тер миналов для аэропортов, получить контракт в стране А равн 0,4, вероятность выиграть его в стране В, равна 0,3. Вероят ность того, что контракты будут заключены и в стране А, и стране В, равна 0,12. Ч е м у равна вероятность того, что компания получит контракт хотя бы в одной стра не? Ответ: 0,58. Задача 18. Какова вероятность того, что последняя циф ра наугад набранного телефонного номера окажется равно! 5 или кратной 3? Ответ: 0,40. Задача 19. Какова вероятность того, что наудачу взята; пластинка игры домино содержит число очков не менее 4 i не более 6? Ответ: 0,3571. Задача 20. Брошены 2 игральные кости Какова вероят- ность того, что сумма выпавших очков будет не больше 6; Ответ: 0,4167. Задача 21. В урне 10 белых, 8 черных и 12 красных шаров. Наудачу из влечены 2 шара. Какова вероятность того что вынутые шары разного цвета, если известно, что не вы нут красный шар? Ответ: 0,1839. Задача 22. В урне содержится 10 шаров, из которых 4 белых, 6 черных Наудачу извлечены 4 шара. Найти вероят- ность того, что хотя бы один из шаров — белый? Ответ: 0,9286. Задача 23. Игральная кость бросается дважды. Определить ве- роятность того, что по крайней мере один раз поя вится 6 очков? Ответ: 0,3056. Задача 24. О двух акциях А и В известно, что они выпушены одной 1 той же отраслью. Вероятность того, что акция А поднимете! в цене завтра, равна 0,2. Вероятность того, что. обе акции А1 В поднимутся завтра в цене, равна 0,12. Предположим, чп Вы знаете, что А поднимется равна вероятность в цене? Ответ: 0,6. Задача 25. Из группы студентов, в которой завтра в цене. Чему того, что и в 18 юношей и совет факультета избираются два человека. 12 девушек, i Какова 46
вероятность того, что среди избранных окажется хотя бы один юноша? Ответ: 0,8483. Задача 26. Вероятность того, что выпуск продукции возрастет, если про- центные ставки снизятся более чем на 0,5% в течение опре- деленного периода, равна 0,72. Вероятность того, что про- центные ставки снизятся более чем на 0,5% в течение того же периода, равна 0,25. Чему равна вероят- ность того, что за интересующий нас период процент- ные ставки упадут, а выпуск продукции увеличится? Ответ: 0,18. Задача 27. Аудиторская фирма размешает рекламу в журнале «Коммерсант». По оценкам фирмы, 60% людей, читающих журнал, являют- ся потенциальными клиентами фирмы. Выборочный опрос читателей журнала показал также, что 85% людей, которые читают журнал, помнят о рекламе фирмы, помещенной в конце журнала. Оцените, чему равен процент людей, которые являются потенциальными клиентами фирмы и могут вспомнить ее рекламу? Ответ: 51%. Задача 28. Модельер, разрабатывающий новую коллекцию одежды к ве- сеннему сезону, создает модели в зеленой, черной и красной цветовой гамме. Вероятность того, что зеленый цвет будет в мо- де весной, модельер оценивает в 0,3, что черный — в 0,2, а ве- роятность того, что будет моден красный цвет — в 0,15. Пред- полагая, что цвета выбираются независимо друг от друга, оцените ве р'о я т н о с т ь того, что цветовое решение коллекции будет удачным хотя бы по одному из выбранных цветов? Ответ: 0,524. Задача 29. Вероятность того, что покупатель, собирающийся приобрести компьютер и пакет прикладных программ, приобретет толь- ко микрокомпьютер, равна 0,15. Вероятность, что покупа- тель купит только пакет программ, равна 0,1. Вероятность того, что будут куплены и компьютер, и пакет программ, равна 0,05. Чему равна вероятность того, что будут куплены или компьютер, или пакет про- грамм, или компьютер и пакет программ вместе? Ответ: 0,2. Задача 30. Вероятность того, что выпускник финансового факультета защи- тит диплом на «отлично», равна 0,6. Вероятность того, что он защитит диплом «на отлично» и получит приглашение на работу в банк, равна 0,4. Предположим, что студент защитил диплом. Чему равна вероятность того, что он получит приглашение на работу в банк? Ответ: 0,6667. 6Л
Задача 31. Стандарт заполнения счетов, установленный фирмой, пред- полагает, что не более 5% счетов будет заполняться с ошиб- ками. Время от времени компания проводит случайную вы- борку счетов для проверки правильности их заполнения. Ис- ходя из того, что допустимый уровень ошибок 5% и 10 счетов отобраны в случайном порядке, определи- те, чему равна вероятность того, что среди них нет ошибок? Ответ: 0,5987. Задача 32. Иностранная фирма, производящая автомобили, интересует- ся российским рынком. Для изучения вкусов потенциальных покупателей проводится опрос, в котором выясняются наи- более желательные характеристики автомобиля. Предполо- жим, что результаты опроса показали: 35% потенциальных покупателей в основном оценивают автомобиль по его тех- ническим характеристикам, 50% — по его дизайну, 25% — считают одинаково важным и то, и другое. Основываясь на этой информации, ответьте, являются ли два вида предпочтений потенциальных покупателей независимыми друг от друга? Объясните. Задача 33. Продолжим обсуждение ситуации в предыдущей задаче. Из группы потенциальных покупателей случайно выбраны трое. Чему равна вероятность того, что все трое полагают наиболее важными при покупке автомобиля его высокие технические характеристики? Чему равна вероятность того, что хотя бы один из них считает технические характеристики наиболее важными? Объ- ясните свои расчеты. Предполагается, что выбор одного покупателя не слишком замет- но уменьшит вероятность (в данном случае частоту т/п — 0,35). Ответ: а) 0,0429; б) 0,7254. Задача 34. Президент компании всегда приглашает одного из трех ви- це-президентов присутствовать на наиболее важных бизнес- встречах и утверждает, что этот выбор (кого-либо из троих) случаен. Однако один из вице-президентов не был уже на пяти последних встречах. Чему равна веро- ятность этого события, если выбор президента дейст- вительно случаен? Каков будет Ваш вывод? Задача 35. Телефонная компания организует рекламу спутниковой свя- зи. Один из рекламных роликов компании представляет со- бой сюжет, в котором бизнесмен звонит в город Урюпинск, а попадает на острова Фиджи, откуда ему отвечает на поли- незийском диалекте абориген, лежащий на пляже. Конечно, это выдуманный сюжет, но подобные ситуации зачастую 48
возникают. Предположим, что в среднем в одном из 200 наборов номера абонентом спутниковой связи происхо- дит ошибочное соединение. Чему равна веро- ятность хотя бы одного ошибочного соединения при 5 междугородных звонках по спутниковой связи? Предполагается, что все пять наборов номеров независимы. Ответ: 0,0248. Задача 36. Используем информацию предыдущей задачи л предположим, что в 2% случаев при неправильном соединении вы попадаете в другие страны. В настоящий момент вы собираетесь позвонить в Урюпинск. Чему равна вероятность того, что по иронии судьбы вас соединят с какой-либо дру- гой страной, например, вы попадете на Фиджи? Ответ: 0,0001. Задача 37. Вероятность того, что судоходная компания получит разре- шение для захода в определенный порт назначения, зависит от того, будет принят или нет необходимый для этого закон. Компания оценивает, что вероятность того, что произойдут оба события (принят соответствующий закон и получено разрешение на посещение порта), равна 0,5, а вероятность того, что необходимый закон будет принят, равна 0,75. Предположим, что компания получила сведения, что закон принят. Чему равна вероятность того, что разрешение на заход в порт назначения будет получено? Ответ: 0,6667. Задача 38. В студенческой группе 28 человек. Среди них 20 студентов старше 19 лет и 8 студентов старше 22 лет. Путем жеребьев- ки разыгрывается пригласительный билет на концерт. Чему равна вероятность того, что билет достанется студенту старше 19 либо старше 22 лет? Ответ: 0,7143. Задача 39. Алмазы, возможно, вскоре станут использоваться в качестве полупроводников в спутниках связи. Теория предсказывает, что алмазные микросхемы будут более быстродействующи- ми, термо- и радиационностойкими, что особенно важно для приборов, работающих в космосе. По оценкам экспертов, вероятности этих трех событий равны 0,9; 0,9 и 0,95 соответ- ственно. Предполагается, что обсуждение проекта по разра- ботке алмазных микросхем стоит вести лишь в случае, если имеется хотя бы 70% уверенности в том, что они будут обла- дать всеми тремя указанными выше свойствами. Дол- жен ли обсуждаться проект? Ответ: да; 0,770. Задача 40. Отдел маркетинга фирмы проводит опрос для выяснения мнений потребителей по определенному типу продуктов. Известно, что в местности, где проводятся исследования, 10% населения являются потребителями интересующего 49
фирму продукта и могут дать ему квалифицированную оцен- ку. Компания случайным образом отбирает 10 человек из всего населения. Чему равна вероят- ность того, что по крайней мере один человек из них может квалифицированно оценить продукт? Ответ: 0,6513. Задача 41. Вероятность того, что завтра цены на потребительские това- ры вырастут, равна 0,3; вероятность того, что завтра подни- мется цена на серебро, равна 0,2, а вероятность одновремен- ного роста цен на потребительские товары и серебро состав- ляет 0,06. Являются ли цены на потребительские товары и серебро независимыми друг от друга? Пояс- ните ответ. Ответ: Да. Задача 42. На сахарном заводе один из цехов производит рафинад. Контроль качества обнаружил, что один из ста кусочков са- хара разбит. Если Вы случайным образом извлекаете два ку- сочка сахара, то чему равна вероятность того, что по крайней мере один из них будет разбит? (Предполагаем независимость событий, это предположение справедливо вследствие случайности отбора). Ответ: 0,0199. Задача 43. Уличный торговец предлагает прохожим иллюстрированную книгу. Из предыдущего опыта ему известно, что в среднем один из 65 прохожих, которым он предлагает книгу, покупа- ет ее. В течение некоторого промежутка времени он предло- жил книгу 20 прохожим. Чему равна вероят- ность того, что он продаст им хотя бы одну книгу? Прокомментируйте предположения, которые Вы использо- вали при решении задачи. Ответ: 0,267. Задача 44. Для рыночного исследования необходимо проведение интер- вью с людьми, которые добираются на работу общественным транспортом. В районе, где проводится исследование, 75% людей добираются на работу общественным транспортом. Если три человека согласны дать интервью, то чему, равна вероятность того, что по крайней мере один из них добирается на работу общественным транспор- том? Ответ: 0,9844. Задача 45. В номерах пятизвездочного отеля установлена система элек- тронных дверных замков. Для того чтобы открыть замок, клиент должен вставить электронную карточку в специаль- ное отверстие. Загорающийся зеленый свет свидетельствует о том, что Вы можете повернуть ручку двери и войти; желтый свет — сигнал того, что дверь заперта изнутри и Вы не мо- жете войти. Персонал отеля по опыту знает следующее: ко- 50
гда дверь открыта (не заперта изнутри), а клиент вставляет в отверстие электронную карточку, то одна из каждых 30 попыток дает в результате желтый свет и дверь не откры- вается. Предположим, что каждая из попыток отпереть дверь независима от предыдущей. Чему равна веро- ятность того, что загорится желтый свет при каждой из трех последовательных попыток отворить дверь (когда дверь не заперта изнутри)? Ответ: 0,000 037. Задача 46. Одна из наиболее сложных проблем рыночных исследований — отказ потребителей отвечать на вопросы о потребитель- ских предпочтениях, либо, если опрос проводится по месту жительства, — отсутствие их дома на момент опроса. Пред- положим, что исследователь рынка с вероятностью в 0,94 верит, что респондент согласится отвечать на вопросы анкеты, если окажется дома. Он также полагает, что вероят- ность того, что этот же человек будет дома, равна 0,65. Имея такие данные, оцените процент заполненных анкет. Ответ: 61%. Задача 47. В большом универмаге установлен скрытый «электронный глаз» для подсчета числа входящих покупателей. Когда два покупателя входят в магазин вместе и один идет перед дру- гим, то первый из них будет учтен электронным устройством с вероятностью 0,98, второй — с вероятностью 0,94, а оба — с вероятностью 0,93. Чему равна вероят- ность того, что устройство сканирует по крайней мере одного из двух входящих вместе покупателей. Ответ: 0,99. Задача 48. Автомат производит детали, используемые в компьютерах. В любой момент времени автомат может быть в одном и толь- ко одном из трех состояний: работает с включенным блоком автоматического контроля; работает без контроля и выклю- чен. Инженер по контролю качества из опыта знает, что ве- роятность того, что блок контроля отключится в любой мо- мент времени, равна 0,02, а вероятность того, что автомат полностью выключится, равна 0,015. 1. Каковы взаимоотношения между двумя событиями «автомат без контроля» и «автомат выключен»? 2. Когда в автомате отключается блок контроля, либо он пол- ностью останавливается, вызывается механик ремонтной службы. Чему равна вероятность то- го, что в настоящий момент должен быть вызван механик? Ответ: 0,035.
О Формула полной вероятности ** и формулы Бейеса 3.1. Формула полной вероятности > Рассмотрим два события АтлН. Каковы бы ни были взаи- моотношения между событиями А и Н, всегда можно сказать, что вероятность события А равна вероятности пересечения со- бытий А и Н плюс вероятность пересечения А и дополнения Н (событие Я). Поясним сказанное на диаграмме Венна (рис. 3.1). Разложение А на части зависит от Я и Я . Р{А) = Р(А П Н) + Р{А П Я ). (3.1.1) Рис. 3.1. Диаграмма Венна (к формуле (3.1.1)) Наборы Я и Я — форма расчленения набора А на два под- множества взаимно несовместных событий. События Я и Я взаимно противоположны. Событие А может произойти либо с Я, либо с Я, но не с двумя вместе (см. рис. 3.1). > Рассмотрим более сложный случай. Пусть событие А может осуществляться лишь вместе с одним из событий Я1, Я2, Я3,..., Н„, образующих полную группу, т. е. эти события являются единственно возможными и несовмест- ными (рис. 3.2). Так как заранее неизвестно, какое из событий Н\, Нп наступит, то их называют гипотезами. 52
Пусть также известны вероятности гипотез Р[Н\), Р(Н2),..., Р(Нп) и условные вероятности события А, а именно: P(A/Hi), Р(А/Н2),..., Р(А/Нп). п Так как гипотезы образуют полную группу, то £Р(Я,)«1. /=1 Рассмотрим событие А — это или Н^А,..., или Н„А. События Н\А, Н2А,..., Н„А — несовместные попарно, так как события Н\, Н2,..., Нп попарно несовместны. К этим событиям применяем теорему сложения вероятностей для несовместных событий: Р(А) = Р (НгА) + Р (Н2А) +... + Р (Н„А), или P(>t) = fp(Hn^). (3.1.2) t=i События Hi и А, Н2и А,..., Н„А — зависимые. Применяя тео- рему умножения вероятностей для зависимых событий, получим: ЛЛ) = ЛЯО ЛЛ/ЯО + ЛЯ2) • ЛЛ/Я2) +...+ ЛЯЛ) • ЛЛ/Я„),. или ЛЛ) = fp^-PtA/H') (см. рис. 3.2). 1=1 Рис. 3.2. Событие А может осуществляться лишь с одним из событий Яь Я2, ..., Нп, образующих полную группу событий Проиллюстрируем сказанное на примере с колодой карт (рис. 3.3). Определим А как событие, состоящее в извлечении карты с портретом (т. е. карты с изображением туза или короля, или дамы, или валета). Пусть события В, С, D, Е означают из- влечение карт различной масти (трефы, бубны, черви, пики). Мы можем сказать, что вероятность извлечь из колоды карту с изображением туза, короля, дамы или валета есть ЛЛ)=ЛЛр|5)+ +ЛЛПО+ЛЛПЯ)+ЛЛП£) = 4/52+4/52+4/52+4/52=16/52, что 53
означает, как мы уже знаем, вероятность извлечения карты с портретом из колоды в 52 карты. Событие А представляет собой набор, составленный из пересечений А с наборами В, С, D, Е (см. рис. 3.3). Трефы Бубны Пики Черви Туз Туз Туз Туз Король Король Король Король Дама Дама Дама Дама Валет Валет Валет Валет 10 10 10 10 A 2 2 2 2 АПЕ ADD АПВ АГ)С Рис. 3.3. Пример с колодой карт Вывод. Если событие А может наступить только вместе с одним из событий Hi, Н2, Ну, ..., Нп, образующих полную группу несовмест- ных событий и называемых гипотезами, то вероятность события А равна сумме произведений вероятностей каждого из событий Н[, Н2,.:., Нп на соответствующую условную вероятность события А: Случай двух событий: Р(А)=Р(Н) ЛЯ/Я)+Л Я ) Р(А/Н). Случай более двух событий: ЛЛ)=£р(я<)р(л/я,)> i=l где i— 1,2, ..., 71- (3.1.3) (3.1.4) 3.2. Вычисление вероятностей гипотез (формулы Бейеса) Представим, что существует несколько предположений (несов- «естных гипотез) для объяснения некоторого события. Эти пред- юложения проверяются с помощью опыта. До проведения опыта бывает сложно точно определить вероятность этих предположе- <ий, поэтому им часто приписывают некоторые вероятности, ко- орые называют априорными (доопытными). Затем проводят опыт торой компании в следующем году равна о,/э, „омию 1 получают информацию, на основании которой корректируют будет на подъёме; и эта же вероятность равна верояТНОСТЬ приорные вероятности. После проведения эксперимента вероят- . по его . --- юсть гипотез может измениться. Таким образом, заменяют де- того, что Опытные вероятности послеопытными (апостериорными). В тех случаях, когда стало известно, что событие А произош- о, возникает потребность в определении условной вероятности Пример 3.1. Экономист полагает, что вероятность роста стоимости акций неко- торой компании в следующем году равна 0,75, если экономика страны -------------------------------------------- — —— Л OTZ/xtJrxWTJVa страны не будет успешно развиваться экономического подъёма в будущем году равна 0,80. Используя предпо- ложения экономиста, оцените вероятность :----------------- —~ акции компании поднимутся в цене в следующем году? Решение. Событие А — «акции компании поднимутся в цене в бу- дущем году». Составим рабочую таблицу: Hi Гипотезы Н/ Р(Нд Р(Л/Нд PW-PiA/H,) 1 Н\ — «подъем экономики» 0,80 0,75 0,60 2 Н? — «спад экономики» 0,20 0,30 0,06 1,00 — Р[А) = 0,66 Пример 3.2. В каждой из двух урн содержится 6 черных и 4 белых шара. Из ур- ны 1 в урну 2 наудачу переложен один шар. Найти вероят- ность того, что шар, извлеченный из урны 2 после перекладыва- ния, окажется черным? Решение. Событие А — «шар, извлеченный из урны 2 — черный». Составим рабочую таблицу: н. Гипотезы Hi Р(А/Нд Р(Н^Р(А/Щ 1 Н — «из урны 7 в урну 2 переложили черный шар» 6/10 7/11 42/110 2 Н2 — «из урны 7 в урну 2 переложили белый шар» 1 4/10 6/11 24/110 1,00 — Р(А) = 0,60 54 55
P(Ht/A). Пусть событие А может осуществляться лишь вместе с одной из гипотез Н, (J = 1, 2,..., п). Известны вероятности гипо- тез Р(Нп) и условные вероятности А, т.е. Р(А/Н\), Р^А/Нг),..., Р(А/Н„). Так как AHt = Н,А, то Р(АНд = Р{Н1А) или Р(Л) • P(A/Hj), а отсюда по правилу пропорций: Дя-мИ*™. Итак, для случаев двух и более событий можно записать формулы Бейеса. Случай двух событий: щлу-----------Дя)/>(ям) Р(Я) Р(Л/Я) + р(я) р(л/я) Случай более двух событий: Р(Н1/Л^ . £р(я<) Л-ММ 1=1 (3.2.1) (3.2.2) Формулы Бейеса позволяют переоценить вероятности гипо- тез после того, как становится известным результат испытания, в итоге которого появилось событие А. Как мы видим из выражения (3.2.1), вероятность события Д задаваемая при условии появления события А, получается из ве- роятностей событий Н и Н и из условной вероятности события А при заданном И. Вероятности событий Н и Н называют апри- орными (предшествующими), вероятность Р(Н/А) называют апо- стериорной (последующей). Пример 3.3. Экономист полагает, что в течение периода активного экономиче ского роста американский доллар будет расти в цене с вероятностьи 0,7, в период умеренного экономического роста доллар подорожает ( вероятностью 0,4, и при низких темпах экономического роста долла] подорожает с вероятностью 0,2. В течение любого периода времен! вероятность активного экономического роста равна 0,3, в периоды уме ренного экономического роста равна 0,5 и низкого роста — равна 0,2 Предположим, что доллар дорожает в течение текущего периода чему равна вероятность того, что анализируемы период совпал с периодом активного экономического роста. 56
Решение. Определим гипотезы-. — «активный экономический рост»; Я2 — «умеренный экономический рост»; Н3 — «низкий экономический рост». Определим событие А — «доллар дорожает». Имеем: Р(Я0 = 0,3; ЛЯ2) = 0,5; Р(Н3) = 0,2; P(A/Hi) = 0,7; Р(А/Н2) = = 0,4 и Р(Л/Я3) = 0,2. Найти: ЛЯ[/Л). Используя формулу Бейеса (3.2.2) и подставляя заданные значения вероятностей, имеем: ХЯ1/Л)_____________________ЛяО-р^/яО_______________________ =__________°-^22_____________= 0,467. 030 0,70+0,50 0,40 + 0,20 0ДО ’ Мы можем получить тот же результат при помощи таблицы: Гипо- тезы Н, Априорные вероятности РЩ) Условные ве- роятности НА/Нд Совместные вероятности НАПНд Апостериорные веро- ятности P(Hj/A) 0,30 0,70 0,21 0,21 / 0,45 = 0,467 Hi 0,50 0,40 0,20 0,20 / 0,45 = 0,444 . Нз 0,20 0,20 0,04 0,04 / 0,45 = 0,089 Сумма 1,00 —- 0,45 1 Построим д для этой задачи (рис. 3.3). е рево решений Априорные вероятности Условные вероятности Совместные вероятности (как произведение) Ляо = о.з ЛЯ3) = 0,2 ЛЯ2) = 0,5 ЯЯ/Я!) = 0,7 ОЛЯГЛ) = 0,3 0,7 = 0,21 Р(А1НХ) = 0,3 ^ЛЯг А) = Z Г') 0,3-0,3 = 0,09 Г“1 ЛЯ/Я2) = 0,4 ОДЯ2-И) = 0,5 • 0,4 = 0,20 [ ЛЛ/Я2) = 0,6 Р(Я2- А) = Z D 0,5 • 0,6 = 0,30 Р(А/Н3) = О,2 АЯз-Л) = _ Q 0,2-0,2 = 0,04 ЛЙ/Я3) = 0,8^ЛЯ3- А) = о 0,2-0,8 = 0,16 Рис. 3.4. Дерево решений к примеру 3.3 57
3.3. Задачи к главе 3 Задача 1. Вероятность того, что клиент банка не вернет заем в период экономического роста, равна 0,04, в период экономического кризиса — 0,13. Предположим, что вероятность того, что начнется период экономического роста, равна 0,65. Че- му равна вероятность того, что случайно выбранный клиент банка не вернет полученный кредит? Ответ: 0,0715. Задача 2. При слиянии акционерного капитала двух фирм аналитики фирмы, получающей контрольный пакет акций, полагают, что сделка принесет успех с вероятностью, равной 0,65, если председатель совета директоров поглощаемой фирмы выйдет в отставку; если он откажется, то вероятность успеха равна 0,3. Предполагается, что вероятность ухода в отставку пред- седателя составляет 0,7. Чему равна вероят- ность успеха сделки? Ответ: 0,545. Задача 3, Агент по недвижимости пытается продать участок земли под застройку. Он полагает, что участок будет продан в течение ближайших шести месяцев с вероятностью 0,9 (если эконо- мическая ситуация в регионе не будет ухудшаться). Если же экономическая ситуация будет ухудшаться, то вероятность продать участок уменьшится до 0,5. Экономист, консульти- рующий агента, полагает, что с вероятностью, равной 0,7 экономическая ситуация в регионе в течение следующие шести месяцев будет ухудшаться. Чему равна вероятность того, что участок будет продан в те- чение ближайших шести месяцев? Ответ : 0,62. Задача 4. Экспортно-импортная фирма собирается заключить контрак на поставку сельскохозяйственного оборудования в одну и развивающихся стран. Если основной конкурент фирмы и станет одновременно претендовать на заключение контракта то вероятность получения контракта оценивается в 0,45; противном случае — в 0,25. По оценкам экспертов компа нии, вероятность того, что конкурент выдвинет свои пред ложения по заключению контракта, равна 0,40. Чему равна вероятность заключения контракта? Ответ: 0,37. Задача 5. Судоходная компания организует средиземноморские круиз! в течение летнего времени и проводит несколько круизов сезон. Поскольку в этом виде бизнеса очень высокая конку ренция, то важно, чтобы все каюты зафрахтованного по круизы корабля были полностью заняты туристами, тогд 58 компания получит прибыль. Эксперт по туризму, нанятый компанией, предсказывает, что вероятность того, что ко- рабль будет полон в течение сезона, равна 0,92, если доллар не подорожает по отношению к рублю, и с вероятностью 0,75, если доллар подорожает. По оценкам экономистов, ве- роятность того, что в течение сезона доллар подорожает по отношению к рублю, равна 0,23. Чему равна вероятность того, что билеты на все круизы будут проданы? Ответ: 0,8809. Задача 6. Транснациональная компания обсуждает возможности инве- стиций в некоторое государство с неустойчивой политиче- ской ситуацией. Менеджеры компании считают, что успех предполагаемых инвестиций зависит, в частности, и от по- литического климата в стране, в которую предполагается вливание инвестиционных средств. Менеджеры оценивают вероятность успеха (в терминах годового дохода от субсидий в течение первого года работы) равной 0,55, если преобла- дающая политическая ситуация будет благоприятной; равной 0,30, если политическая ситуация будет нейтральной; равной 0,10, если политическая ситуация в течение года будет не- благоприятной. Менеджеры компании также полагают, что вероятности благоприятной, нейтральной и неблагоприят- ной политических ситуаций соответственно равны: 0,6; 0,2 и 0,2. Чему р а (в н а вероятность успеха ин- вестиций? Ответ: 0,41. Задача 7. В корпорации обсуждается маркетинг нового продукта, вы- пускаемого на рынок. Исполнительный директор корпора- ции желал бы, чтобы новый товар превосходил по своим ха- рактеристикам соответствующие товары конкурирующих фирм. Основываясь на предварительных оценках экспертов, он оценивает вероятность более высокой конкурентной спо- собности нового товара по сравнению с аналогичными в 0,5; одинаковой — в 0,3, а вероятность того, что новый товар окажется хуже по качеству, — в 0,2. Опрос рынка показал, что новый товар более высокого качества и конкурентоспо- собен. Из предыдущего опыта проведения таких опросов следует, что если товар действительно конкурентоспособ- ный, то предсказание такого же вывода имеет вероятность, равную 0,7. Если товар такой же, как другие аналогичные, то вероятность того, что опрос укажет на его превосходство, равна 0,4. И если товар более низкого качества, то вероят- ность того, что опрос укажет на товар более высокого каче- ства, равна 0,2. С учетом результата опроса оцените 59
вероятность того, что товар действительно конку- рентоспособный? Ответ: 0,6863. Задача 8. Медицинский тест на возможность вирусного заболевания дает следующие результаты: 1. Если проверяемый болен, то тест даст положительный результат с вероятностью 0,92. 2. Если проверяемый не болен, то тест может дать положи- тельный результат с вероятностью 0,04. Поскольку заболевание редкое, то ему подвержено только 0,1% населения. Предположим, что некоторому случайно выбранному человеку сделан анализ и получен положитель- ный результат. Чему равна вероятность того, что человек действительно болен? Ответ: 0,0225. Задача 9. Нефтеразведочная экспедиция проводит исследования для определения вероятности наличия нефти на месте предпо- лагаемого бурения скважины. Исходя из результатов преды- дущих исследований нефтеразведчики считают, что вероят- ность наличия нефти на проверяемом участке равна 0,4. На завершающем этапе разведки проводится сейсмический тест,! который имеет определенную степень надежности: если на проверяемом участке есть нефть, то тест укажет на нее в 85% случаев; если нефти нет, то в 10% случаев тест может оши- бочно указать на ее наличие. Сейсмический тест указал на присутствие нефти. Чему равна вероят- ность того, что запасы нефти на этом участке сущест- вуют реально? Ответ: 0,85. Задача 10. На химическом заводе установлена система аварийной сиг- нализации. Когда возникает аварийная ситуация, звуково! сигнал срабатывает с вероятностью 0,95. Звуковой сигна может сработать случайно и без аварийней ситуации с веро ятностью 0,02. Реальная вероятность аварийной ситуаци! равна 0,004. Предположим, что звуковой сигнал сработа/ Чему равна вероятность реальной ава рийной ситуации? Ответ: 0,1602. ЮГНОСШ. Vjivv*. Задача 11. Перед тем как начать маркетинг нового товара по всей стрЛ не, компании-производители часто проверяют его на выбор! ке потенциальных покупателей. Методы проведения выбо1 рочных процедур уже проверены и имеют определение степень надежности. Для некоторого товара известно, чш проверка укажет на возможный его успех на рынке с вереи ятностью 0,75, если товар действительно удачный; проверв может также показать возможность успеха товара в случав если он неудачен, с вероятностью 0,15. Из прошлого опыта известно, что новый товар может иметь успех на рынке с ве- роятностью 0,6. Если новый товар прошел выборочную про- верку и ее результаты указали на возможность успеха, то чему равна вероятность того, что это действительно так? Ответ: 0,88. Задача 12. Исследователь рынка заинтересован в проведении интервью с супружескими парами для выяснения их предпочтений к некоторым видам товаров. Исследователь приходит по вы- бранному адресу и попадает в трехквартирный дом. По над- писям на почтовых ящиках он выясняет, что в первой квар- тире живут двое мужчин, во второй ,— супружеская пара, в третьей — двое женщин. Когда исследователь поднимается по лестнице, то выясняется, что на дверях квартир нет ника- ких указателей. Исследователь звонит в случайно выбранную дверь, и на его звонок выходит женщина. Предположим, что если бы исследователь позвонил в дверь квартиры, где живут двое мужчин, то к двери мог подойти только мужчина; если бы он позвонил в дверь квартиры, где живут только женщи- ны, то к двери подошла бы только женщина; есди бы он по- звонил в дверь супружеской пары, то мужчина или женщина имели бы равные шансы подойти к двери. Имея эту инфор- мацию, оцените вероятность того, что ис- следователь выбрал нужную ему дверь. Ответ: 1/3. Задача 13. Экономист-аналитик условно подразделяет экономическую ситуацию в стране на «хорошую», «посредственную» и «плохую» и оценивает их вероятности для данного момента времени в 0,15, 0,70 и 0,15 соответственно. Некоторый ин- декс экономического состояния возрастает с вероятностью 0,6, когда ситуация «хорошая», с вероятностью 0,3, когда си- туация «посредственная», и с вероятностью 0,1, когда ситуа- ция «плохая». Пусть в настоящий момент индекс экономи- ческого состояния изменился. Какова вероят- ность того, что экономика страны на подъеме? Ответ: 0,2857. Задача 14. Два автомата производят одинаковые детали, которые посту- пают на общий конвейер. Производительность первого ав- томата вдвое больше производительности второго автомата. Первый автомат производит в среднем 60% деталей отлич- ного качества, а второй — 84% деталей отличного качества. Наудачу взятая с конвейера деталь оказалась отличного ка- чества. Найти вероятность того, что эта деталь изготовлена первым автоматом? Вторым автоматом? Ответ: 0,5882; 0,4118. 61 АП
Задача 15. Среди студентов института по результатам зимней сессии 30% первокурсников имеют только отличные оценки, среди второкурсников таких студентов 35%, на третьем и четвер- | том курсе их 20% и 15% соответственно. По данным декана- । тов известно, что на первом курсе 20% студентов сдали сес- 1 сию только на отличные оценки, на втором — 30%, на третьем — 35%, на четвертом — 40% отличников. Наудачу вызванный студент оказался отличником. Чему равна вероятность того, что он (или она) — третьекурсник. Ответ: 0,2373. Задача 16. Директор фирмы имеет 2 списка с фамилиями претендентов на работу. В первом списке — фамилии 5 женщин и 2 мужчин. Во втором списке оказались 2 женщины и 6 мужчин. Фамилия одного из претендентов случайно пере- носится из первого списка во второй. Затем фамилия одного из претендентов случайно выбирается из второго списка. Ес- ли предположить, что эта фамилия принадлежит мужчине, чему равна вероятность того, что из первого списка была извлечена фамилия женщины? Ответ: 0,6818. Задача 17. Исследованиями психологов установлено, что мужчины и женщины по-разному реагируют на некоторые жизненные обстоятельства. Результаты исследований показали, что 70% женщин позитивно реагируют на эти ситуации, в то время как 40% мужчин реагируют на них негативно. 15 женщин и 5 мужчин заполнили анкету, в которой отразили свое отно- шение к предлагаемым ситуациям. Случайно извлеченная анкета содержит негативную реакцию. Чему равна вероятность того, что её заполнял мужчина? Ответ: 0,3076. Задача 18. Из числа авиалиний некоторого аэропорта 60% — местные , 30% — по СНГ и 10% — в дальнее зарубежье. Среди пасса жиров местных авиалиний 50% путешествуют по делам, свя занным с бизнесом, на линиях СНГ таких пассажиров • 60%, на международных — 90%. Из прибывших в аэропор пассажиров случайно выбирается один. Чему равна вероятность того, что он: а) бизнесмен; б) прибыл из стран СНГ по делам бизнеса; в) прилетел местным рейсом по делам бизнеса; г) прибывший международным рейсом бизнесмен. Ответы: 0,57; 0,5263; 0,3158; 0,1578. Задача 19. Вероятность того, __ сом на рынке, если конкурент не выпустит в продажу анЛ логичный продукт, равна 0,67. Вероятность того, что товЛ 2. 3. 4. 5. 6. 7. 10. Задача 19. Вероятность того, что новый товар будет пользоваться спр* Ц. .задача мер __________ о.,л,,г-тат п ппопажу ан* будет пользоваться спросом при наличии на рынке конкури- рующего товара, равна 0,42. Вероятность того, что конкури- рующая фирма выпустит аналогичный товар на рынок в те- чение интересующего нас периода, равна 0,35. Чему равна вероятность того, что товар будет иметь успех? Ответ: 0,5825. Задача 20. Детали для обработки поступают из двух заготовительных цехов: из первого цеха — 70%, из второго — 30%, причем продукция первого цеха имеет 10% брака, а продукция вто- рого цеха — 20% брака. Какова вероятность того, что случайно взятая деталь будет без дефектов? Ответ: 0,87 Список литературы 1. 8. 9. Гнеденко Б.В., Хинчин А.Я. Элементарное введение в теорию вероятностей. — М.: Физматтиз, 1961. Гмурман В.Е. Введение в теорию вероятностей и математи- ческую статистику. — М.: Высш, школа, 1966. Елисеева И.И., Юзбашев М.М. Общая теория статистики. Изд. 4-е. — М.: Финансы и статистика, 1998. Карасев А. И. Теория вероятностей и математическая стати- стика. — М.: Статистика, 1979. Козлова ЗА, Ткачева Т.Н. Простейшие комбинаторные задачи и непосредственный подсчет вероятностей с помощью формул комбинаторики. — Ростов-на-Дону: Изд-во РИНХ, 1978. Козлова ЗА, Ткачева Т.Н. Основные теоремы теории веро- ятностей. — Ростов-на-Дону: Изд-во РИНХ, 1980. Колемаев ВА, Калинина В.Н. Теория вероятностей и мате- матическая статистика: Учебник. — М.: ИНФРА-М, 1997. Эддоус М., Стэнсфилд. Методы принятия решений: Пер. с англ. - М.: ЮНИТИ, 1997. Mendenhall W., Wackerty D., Scheaffer R. Mathematical Statis- tics with Applications. — PWS-KENT Publishing Company, USA, 1990. Canavos G. Applied Probability and Statistical Methods. — Lit- tle, Brown & Company, USA, 1984. Aczel A. Complete Business Statistics. — 2nd ed., Richard D. Ir- win, INC., 1993. 62
4 Случайные величины 4.1. Дискретные случайные величины Нам уже знакомы понятия событий и их вероятностей. Рас- смотрим исходы испытаний под иным углом зрения. Например, при подбрасывании игральной кости исход испытания — выпа- дение одной из ее граней. Вероятность любого исхода равна 1/6. Однако каждому исходу опыта соответствует определенное чис- ло, появляющееся на верхней грани кости. Эта переменная ве- личина является числовым описанием исходов данного опыта. В этом разделе теории вероятностей мы познакомимся с числовы- ми оценками, соответствующими исходам испытаний, напри-] мер, таким, как подбрасывание кости. Отсюда исходы испыта- ний, определяемые случаем, — случайные величины (СВ). Оп- ределим случайную величину следующим образом. Случайная величина — это величина, которая в результате! эксперимента (опыта, испытания) принимает одно из своих ew-l можных значений, причем заранее неизвестно, какое именно. I Примеры случайных величин: I Эксперимент Случайная величина Возможные значения 1 случайной величины | Контроль качества 70 деталей Число дефектных де- талей 0;1;2;...;70 1 Строительство жилого дома Процент завершен- ного строительства спустя 6 месяцев 0 < х < 100 1 Проверка степени загрузки операцион- ного отдела банка Число клиентов в те- чение рабочего дня 0; 1; 2;...; п 1 Торговля автомоби- лями Число продаж в тече- ние месяца 0;1;2;...;л | Случайные величины обозначаются заглавными латинским буквами: X, Y, Z и т. п. Строчные буквы используются для об< 64
значения определенных значений случайной величины. Напри- мер, случайная величина Xпринимает значения Xi, х2, хп. Различают случайные величины дискретные и непрерывные. Дискретной (прерывной) случайной величиной называют слу- чайную величину, которая принимает конечное или бесконечное (но счетное) число отдельных, изолированных возможных значений с определенными вероятностями* 1. Число студентов на лекции — дискретная случайная величина. Для дискретных случайных величин мы можем перечислить все возможные значения, которые эта величина может принять, и их можно представить в виде отдельных точек на числовой оси. Эта совокупность значений может быть задана таблицей, функцией или графиком. Соотношение, устанавливающее связь между отдельными воз- можными значениями случайной величины и соответствующими им вероятностями, называется законом распределения дискретной случайной величины. Простейшей формой закона распределения для дискретных случайных величин является ряд распределений. Рядом распределения дискретной случайной величины X назы- вается таблица, в которой перечислены возможные (различные) значения этой случайной реличины xt> х2, ..., х„ с соответствую- щими им вероятностями Pi,p2, , рп'- xi *1 Xi ... Xn Pi Pl Pi ... Pn или X *1 Xi *n Pi Pt Pi ... Pn 1 Число значений дискретной случайной величины (ДСВ) может бьггь бесконечным, но счетным множеством, т. е. в этом случае можно установить взаимно-однозначное соответствие между значениями случайной величины (СВ) и натуральными числами I ;2;3;...;л. Например, игрок в рулетку решает играть до первого выигрыша, а затем — прекратить игру. Число ставок, сделанных игроком, является случайной величиной. Она может принимать значения: I (если первая же ставка выиграла), 2 (если первая ставка не выиграла, а вторая — выиграла), 3 (если первые два раза игрок проиграл, а в третий раз — выиграл) и так до бесконечности. В самом деле нельзя указать такое даже достаточно большое число N, что число сделанных ставок будет меньше N, поскольку может случиться, что первые N ставок приведут к проигрышам и потребу- ется еще одна ставка. Следовательно, число значений СВ в нашем примере — беско- нечное, но счетное множество. 3 Теория статистики с основами теории вероятностей VW
Таким образом, случайная величина X в результате испыта- ния может принять одно из возможных значений х^ х2,... хп с вероятностями Р (J^xj) = Pi, Р (Х=х2) = р2;-; Р (Х=хп) = рп. Запись Р (Х=х) для дискретных случайных величин означает вероятность того, что случайная величина X примет определен- ное значение х. Например, запись Р (2=5) = 0,2 означает, что вероятность того, что случайная величина X примет значение, равное 5, есть 0,2. Мы можем также использовать более корот- кую запись: Р (х) вместо Р (Х=х), или Р (5) = 0,2. Так как события (X=xi), (X-X2),..., (Х=хп) составляют полную группу событий, то сумма вероятностей рп равна единице: п ^Pi = 1 /=1 Ряд распределения дискретной случайной величины должен удов- летворять следующим условиям: 1 . Р (х) > 0; п п 2 .£Р(х) = 1 (или £/>, = 1) (4.1.1) i=i /=1 Пример 4.1. Каждый день местная газета получает заказы на новые рекламные объявления, которые будут напечатаны на следующий день. Число рек- ламных объявлений в газете зависит от многих факторов: дня недели, сезона, общего состояния экономики, активности местного бизнеса и т.д. Пусть X — число новых рекламных объявлений, напечатанных в местной газете в определенный день. X — случайная величина, которая может быть только целым числом. В нашем примере случайная величина X принимает значения 0; 1; 2; 3; 4; 5 с вероятностями 0,1; 0,2; 0,3; 0,2; 0,1; 0,1 соответственно. Таблица 4.1. Ряд распределения случайной величины X 0 1 2 3 4 5 Лх)=р, 0,1 0,2 0,3 0,2 0,1 0,1 66
Табл. 4.1 говорит нам о многом. Например, мы видим: вероятность того, что в определенный день будут напечатаны 3 объявления, равна 0,2, а 2 объявления — 0,3 и т. д. Поскольку появления различных зна- чений случайной величины X — несовместные события, то вероятность того, что в газету будут помещены или 2 или 3 рекламных объявления, равна сумме вероятностей Д2) + ДЗ) = 0,3 +0,2 = 0,5. Вероятность же того, что их число будет находиться в пределах от 1 до 4 (включая 1 и 4), равна 0,8, т. е. Д1 < Х< 4) = 0,8; а ДХ= 0) = 0,1. Ряд распределения можно изобразить графически. Для этого по оси абсцисс откладывают возможные значения слу- чайной величины, а по оси ординат — соответствующие им вероятно- сти. Если точки (х,; р() соединить отрезками прямых, то полученная ломаная линия есть многоугольник били полигон) распределения. Рис. 4.1. Полигон распределения для данных примера 4.1 Пример 4.2. В книжном магазине организована лотерея. Разыгрываются две книги стоимостью по 10 руб. и одна — стоимостью в 30 руб. Соста- вить закон распределения случайной величины X — суммы чистого (возможного) выигрыша для того, кто приобрел один билет за 1 руб., если всего продано 50 билетов. Решение. Случайная величина X может принимать три значения: -1 руб. (если владелец билета не выиграет, а фактически проиграет 1 руб., уплаченный им за билет); 9 руб.; 29 руб. (фактический выигрыш уменьшается на стоимость билета — 1 руб.) Первому результату благо- приятствуют 47 исходов из 50, второму — два, а третьему — один. По- этому их вероятности таковы: 47 Л*=-1)= — =0,94; з* 67
2 1 ДЛГ=9)=^=0,04; ДЛ=29)= =0,02. Закон распределения случайной вели- чины X имеет вид: Сумма выигрыша X -1 9 29 Вероятность Р 0,94 0,04 0,02 з Контроль: ^Pi - 0,94 + 0,04 + 0,02 = 1. <=1 Пример 4.3. В условиях лотереи, описанной в примере 4.2, два посетителя мага- зина приобрели по одному билету стоимостью по 1 руб. Соста- вить закон распределения суммы выигрыша для вто- рого посетителя, если первый выиграл книгу стоимостью в 30 рублей. Решение. Если первый посетитель выиграл книгу стоимостью в 30 руб., то второй посетитель может или не выиграть, или выиграть книгу стоимостью в 10 руб. Первому событию благоприятствуют 47 из оставшихся 49 исходов, второму — 2 исхода. Следовательно, закон распределения слу- чайной величины Y (сумма выигрыша второго посетите- ля) при условии, что случайная величина X (сумма выигрыша первого посетителя) приняла значение 29 руб. (X = 29), имеет вид; Сумма выигрыша X -1 9 Вероятность Р 47/49 2/49 4.2. Функция распределения (интегральная функция распределения) При анализе экономических явлений определенный смысл имеют кумулятивные (накопленные) вероятности случайных ве- личин. Нас может интересовать вероятность того, что число проданных единиц некоторого товара окажется не меньше неко- торого определенного числа, гарантирующего прибыль продав- цу, вероятность того, что суммы возможных убытков от риско- ванных инвестиций окажутся не выше (или только меньше) не- которого определенного значения и т. д. 68
Зная закон распределения дискретной случайной величины, можно составить функцию накопленных вероятностей. Опреде- лим интегральную (кумулятивную) функцию распределения. Функцией распределения дискретной случайной величины называ- ется функция F(x), определяющая для каждого значения х вероятность того, что случайная величина X примет значение, меньшее х, т. е. F (х) = Р (X < х) = £Р(Х = х;) = £р(Х = г), (4.2.1)» I i X/ <х i<x где суммирование распространяется на все значения индекса i, для ко- торых Xj<X. Функцию Дх) называют также накопленным (кумулятивным) * распределением вероятностей. Иногда вместо термина «функция распределения» использу- ют термин «интегральная функция», т. е. Дх) называют и инте- гральной функцией распределения. Поскольку понимание смысла функции распределения в j форме (4.2.1) для дискретной случайной величины может ока- ! заться несколько затруднительным, так как для нее выполняется • условие X = х, то функцию распределения дискретной случай- ной величины можно определить как вероятность того, что слу- чайная величина не превзойдет некоторого числа х, т. е. Д(х) = ДЛ<х). (4.2.2) Очевидно, что Д(х) = Р(Х <х) = Р(Х < х) + Р(Х— х) = Дх) + +Р(Х = х), т. е. функция распределения Дх) и Д(х) связаны со- ' отношением: Д(х) = Дх) + ДХ=х). (4.2.3) Ряд учебных пособий представляет функцию распределения f дискретной случайной величины в виде Дх), а некоторые другие (преимущественно зарубежные) — в виде Д(х). 1 Эта форма задания закона распределения случайной величины является уни- версальной и используется как для дискретных, так и для непрерывных случай- ных величин. 69
Пример 4.4. Для примера 4/найти функцию распределе- ния случайной величины X — числа рекламных объявлений. Решение. Случайная величина X не принимает значений, меньших О, Следовательно, если х < 0, то событие X < х — невозможно, а вероят- ность его равна нулю. Поэтому функция распределения случайной ве- личины X для всех значений х < 0 также равна 0. Для всех х, удовлетво- ряющих двойному неравенству 0 < х < 1, функция F (х) означает вероят- ность события X < 0,2. Но случайная величина X принимает значение, меньшее 0,2, лишь в одном случае: значение 0 с вероятностью 0,1. Покажем, что для всех х, удовлетворяющих двойному неравенству 1 < х < 2, Дх) = 0,1 + 0,2 = 0,3. Пусть, например, х = 2. Тогда Д2) выражает вероятность события X < 2. Это возможно в двух случаях: или случайная вели- чина X принимает значение 0 (с вероятностью 0,1), или 1 (с вероятно- стью 0,2). Применяя теорему сложения вероятностей, получим указан- ное значение функции Дх) при х = 2. Аналогичные рассуждения позволяют найти функцию рас- пределения. Запишем ее в табличной форме. Таблица 4.2. Функция распределения (интегральная функция распределения для примера 1.3) X х<0 0<х< 1 1<х<2 2<х< 3 3<х<4 4<х< 5 х>5 Дх) 0 0,1 0,3 0,6 0,8 0,9 1 или F (х) можно записать так: F(x) = 0 при х<0; 0,1 при 0<х<1; 0,3 при 1<х$2; 0,6 при 2 < х < 3; 0,8 при 3<х<4; 0,9 при 4 < х £ 5; 1 при х > 5. 70
Построим график функции распределения Дх)— вероятност- ную гистограмму1 (рис.4.2). Рис. 4.2. График интегральной функции числа рекламных объявлений Интегральная функция — неубывающая и равна единице при х, большем наибольшего возможного значения случайной величины (см. рис. 4.2). В нашем примере график Дх) имеет ступенчатый вид. Функция распределения каждой дискретной случайной ве- личины постоянна на интервалах, на которых нет ее значений, и имеет скачки в точках, соответствующих ее значениям. Скачки равны вероятностям, с которыми случайная величина принимает свои значения. Сумма всех скачков равна 1. Составим функцию распределения Д(х) для примера 4.1: 1 Из определения Дх) (4.2.1) и условий непрерывности слева следует, что lim [Дх ) - Дхо)1 = Д^хо), х~»х0 Х>хо lim Дх) - Дхо] = О, х->х0 *>*<! т.е. Дх) — Дхо) стремится к вероятности того, что случайная величина X примет значение х0, если х приближается к х0 справа, и стремится к нулю, если х приближается к х0 слева. 71
0 при X- «0; од при 0<х <1; 0,3 при 1 <х< с 2; Д(х)= • 0,6 при 2<х <3; 0,8 при 3<х <4; 0,9 при 4<х <5; 1,0 при X >5. Построим график функции распределения F\(x) — числа рек- ламных объявлений1. Д(х) А 1,0 -- 0,9 -- 0,8 -- 0,7 -- 0,6 -- 0,5 -- 0,4 -- 0,3 -- 0,2 -- -10 1 2 3 4 5 Рис. 4.3. График функции распределения F\(x) = Р (X < х) для примера 4.1 Принятие случайной величиной некоторого определенного значения или какого-либо из множества значений представляет 'функция распределения Д(х) обладает теми же свойствами, что и функция распределения Дх), но функция Д(х) непрерывна справа, т.е. Р\(х) = lim Ft(x + е), е>0 Е-»0 И тогда из определения Д(х) и из условия непрерывности справа следует, что lim [Д(хо) - Д(х)] = 0; х-»х0 х>х0 lim [Д(хо) — Д(х)] = ДЛ=хо), т.е. разность Д(хо) — Д(х) стремится к х— х>х0 вероятности того, что случайная величина X примет значение х0, если х приближается к х0 слева, и стремится к 0, если х приближается к х0 справа. 72
собой случайное событие. Вероятности этих случайных событий определяются с помощью функции распределения (табл.4.3)1. Таблица 4.3. Выражение вероятностей событий через функции Цх) и F\(x) Событие Символическая запись Через F(x) Через F\(x) Х<х Р(Х<х) Fix) Д(х-0) Х<х Р{Х<Х) Дх+0) Л(х) Xzx Р(Х>х) 1-Дх) 1-Д(х-0) Х>х Р(Х>х) 1—Дх+0) 1-Д(х) х{<Х<х2 Р(Х[<Х<х2) Дх2)-Дх,) Д(х2-0)-Д(х!~0) х{<Х<х2 Р(х\<Х <х2) Дх2+0)—Дх() F\ix2)-Fiix-Q) Xi<X <х2 Р(х\<Х 2х2) Дх2+0)-Дх|+0) Л(х2)-Д(х1) х{<Х<х2 Р(х{ <Х<х2) Дх2)—ДХ]+0) Д(х2-0)-Д(х!) Х=х Р(Х=х) Дх+0)—Дх) Д(х)-Д(х-0) Рис. 4.4. Вероятность того, что по край- ней мере три рекламных объявления бу- дут помещены в завтрашней газете Исходя из условия примера 4.1, вычислим не- которые вероятности. Ве- роятность того, что число рекламных объявлений, помещенных в завтрашней газете, будет меньше или равно трем Р(Х< 3), задает- ся как 7*1(3) = 0,8*. Это ил- люстрирует рис. 4.4, ис- пользующий ряд распреде- ления примера 4.1. 1 В табл. 4.3, как принято, обозначено lim F\(x + е) = Дх + 0), (е >0). е-»0 ’ Эту же вероятность можно выразить через Дх), т.е. ДХ<3) = ДЗ + 0) = 0,8, или подсчитать так: ДЛГ<3) = 0,1 + 0,2 + 0,3 + 0,2 = 0,8. 73
Рис. 4.5. Вероятность того, что в зав- трашней газете будет опубликовано более одного рекламного объявления Рис. 4.6. Вероятность того, что в газете появится от одного до трех рекламных объявлений Вероятность того, что в газете будет помещено бо- лее одной рекламы, т.е. Р(Х >1) = 1 - Fj(l) = 1 - — 0,3 = 0,7. Это потому, что сумма вероятностей противоположных событий равна единице, а отсюда' ДА>1) = 1 - = 1-/1(1). Эта ситуация изображена на рис. 4.5. Вероятность того, что в газете появится от одного до трех рекламных объявле- ний, есть Д1й X s 3). Эта вероятность равна /1(3) — -/1(1- 0) = 0,8 - 0,1 = 0,7 (рис. 4.6). (Это вероятность того, что число рекламных объявлений будет меньше или равно трем и больше нуля). Конечно, эти же ре- зультаты можно получить непосредственным подсче- том вероятностей Р(1) + +Л2) + ДЗ) = =0,2 + 0,3 + +0,2 = 0,7 и при помощи функции Дх), т.е. Р(\<х <3)= =Д(3+0)-Д1)=0,8-0,1=0,7. Значит, в зависимости от того, как задана дискретная случайная величина (рядом распределения или функцией распределения) соответственно рассчитываются и вероятности значений, кото- рые принимает случайная величина. Рассмотрим эксперимент с игральной костью. Пример 4.5. Вероятность выпадения на верхней грани кости любого числа от 1 до 6 равна 1/6. Составим функцию распределения в виде таблицы. Дх) принимает следующие значения: 1 Р(Х>1) можно выразить через Дх), т.е. ДА> 1) “ 1 — +(1 + 0) = 1 — 0,3 = 0,7 или так: ДА>1) = 0,3 + 0,2 + 0,1 + 0,1 = 0,7. 74
X X <1 I<xs2 2<х<3 3<xs4 4<xs5 5<хе6 х>6 Дх) 0 1/6 1/б=н/б= =1/3 1/6+1/3= =1/2 1/6+1/2= =2/3 1/6+2/3= =5/6 1/6+5/6= =1 Построим график функции распределения F(x) — числа выпавших очков на верхней грани игральной кости (рис. 4.7). Рис. 4.7. График функции распределения Дх) = Р(Х < х) для примера 4.5 Эта же функция Дх) может быть представлена аналитиче- ски: Дх) = О при х < 1; 1/6 при 1<х<2; 1/3 при 2< с х < 3; 1/2 при 3< с х < 4; 2/3 при 4- сх<5, 5/6 при 5< с х < 6; 1 при х> 6. Для примера 4.5 составим функцию распределения Д(х): 75
0 при х<1; 1/6 при 1£х<2; 1/3 при 2 s х < 3; Л(х) = 1/2 при 3$х<4; 2/3 при 4 х < 5; 5/6 при 5 $ х < 6; 1 при х>6. Построим график функции распределения F{(x) случайной величи- ны х — числа выпадения очков на верхней грани игральной кости. Рис. 4.8. График функции распределения fi(x) = Р(Х s х) для примера 4.5 Получен ступенчатый график. Как видим, скачки равны вероятно- стям, с которыми случайная величина принимает свои значения, т. е. равны 1/6. 4.3. Независимость случайных величин и математические операции над случайными величинами Введем понятие независимости случайных величин. Если рассматривать не одну, а две или более случайных ве- личин (системы случайных величин), то необходимо знать, из- меняется или не изменяется закон распределения одной из них в зависимости от того, какое значение принимают другие слу- чайные величины. 76
Если закон распределения одной случайной величины не зависит от того, какие возможные значения приняли другие случайные ве- личины, то такие случайные величины называются независимыми в совокупности. Если закон распределения одной случайной величины зависит от того, какие возможные значения приняли другие случайные величи- ны, то такие случайные величины называются зависимыми в сово- купности. Например, приобретены два лотерейных билета различных выпусков. Пусть X — размер выигрыша на первый билет, а У — размер выигрыша на второй билет. Случайные величины X и Y — независимые. В самом деле, если на первый билет выпал вы- игрыш, то закон распределения Y не изменится. Но если куп- ленные лотерейные билеты одного и того же выпуска, то X и Y являются зависимыми случайными величинами. Пусть случайная величина Xпринимает значения: хь х2,..., х„ с вероятностями Pi, Р2,—, Рп, а случайная величина Y принимает значения уц У2,—, ут с вероятностями q^, qi, ..., qm. Определим некоторые операции над случайными величинами. 1. Произведение случайной величины X на постоянную ве- личину С есть случайная величина СХ, которая принимает значения Схь Сх2,..., Сх„ с теми же вероятностями, что и случайная величина X. 2. Квадрат случайной величины X, т. е. X2 — это случайная ве- личина, которая принимает свои значения х2 , х\, ..., х2 с теми же вероятностями. 3. Суммой случайных величин X и Y называется случайная величина X+Y, возможные значения которой равны сум- мам каждого возможного значения X с каждым возмож- ным значением Y, а вероятности возможных значений Х+ Y для независимых величин X и Y равны произведению вероятностей слагаемых; для зависимых величин — про- изведениям вероятности одного слагаемого на условную вероятность второго. 4. Произведением независимых случайных величин X и Y называется случайная величина XY, возможные значения которой равны произведениям каждого возможного зна- чения X на каждое возможное значение Y, а вероятности возможных значений произведения XY равны произведе- ниям вероятностей возможных значений сомножителей. 77
4.4. Ожидаемое среднее значений дискретной случайной величины Дискретная случайная величина принимает конечное или счетное число значений. Рассмотрим основные характеристики дискретной случайной величины при конечном числе значений. Каждому значению дискретной случайной величины отвеча- ет его вероятность. Как отмечалось выше, последовательность таких пар образует ряд распределения дискретной случайной величины: % Х2 ... Х„>| где х{< х2< ... < х„, 0<Pi< 1, i= 1, .... л; ^Pi =1- <=1 Если дискретная случайная величина является альтернатив- ной случайной величиной, т.е. задается двумя значениями 0 и 1 и соответствующими им вероятностями исходов q = 1 — р и р, то ряд распределения примет форму: V9 р) где 0<р<1;р + 9=1. На основе ряда распределения можно определить среднее значение дискретной случайной величины аналогично. Это ме- ра, которая объединяет как значения дискретной случайной ве- личины, так и их вероятности. Среднее значение есть взвешенная средняя всех возможных значений случайной величины, роль весов (частот) играют вероятности. Ожидаемое среднее значение случайной величины называется математическим ожиданием. Причина такого названия состоит в том, что среднее значение случайной величины есть оценка, которую ожидают получить. Математическое ожидание будем обозначать М(Х). Иногда в литературе встречаются обозначения ц и Е(Х) от английского слова expect. 78
Итак: Математическое ожидание дискретной случайной величины X (т.е. принимающий только конечное или счетное множество зна- чений xi,X2,..., хп соответственно с вероятностями Р\,Р2, > Рп)> равно сумме произведений значений случайной величины на соот- ветствующие им вероятности’. п п М(Л)= £х;Р(х,)= £х/Л (4.4.1) /«1 /«1 Предположим, что подбрасывают монету. Если выпадет герб, то выигрывают одно очко, если цифра, — проигрывают одно оч- ко. Чему равен ожидаемый выигрыш? Интуитивно понятно, что шансы выиграть и проиграть одну и ту же сумму очков равны, и, следовательно, в среднем ожидаемый выигрыш будет равен нулю. Выигрыш в этой игре — случайная величина; можно вычислить ожидаемое значение, используя формулу (4.4.1): ад = 1-1/2+ (-1)-1/2 = 0. Следовательно, определение ожидаемого среднего значения слу- чайной величины согласуется с выдвинутым ранее предположением. Вернемся к примеру 4.1 о рекламных объявлениях и найдем ожидае- мое среднее значение случайной величины X — числа рекламных объ- явлений в газете в заданный день. Расчет ожидаемого среднего значения случайной величины удобно производить, пользуясь табл. 4.4. Таблица 4.4. Вычисление ожидаемого среднего числа рекламных объявлений (пример 4.4) Xi ХДХ;) 1 2 3 0 0,1 0 1 0,2 0,2 2 0,3 0,6 3 0,2 0,6 4 0,1 0,4 5 0,1 0,5 Z 1 2,3<-М(*) 79
s’ В столбце 1 табл. 4.4 мы записываем значения случайной величи- : ны, в столбце 2 — вероятности различных значений случайной величи- ны и в столбце 3 — произведение хДх,) для каждого значения xh Сум- Я ма значений третьего столбца есть М(Х) = ^х/Р(х,-). /=1 Как показано в табл. 4.4, MX) = 2,3. Можно сказать, что в среднем 2,3 рекламных объявления ежедневно помещаются в газете. Как пока- зывает этот пример, ожидаемое среднее значение не является одним из значений случайной величины. В газете не может появиться 2,3 рекламных объявления, значение 2,3 — это среднее число объявле- ний. Это — ожидаемое среднее число рекламных объявлений в задан- ный день, хотя для данного примера оно не будет реализовано ни в одном из дней. 4.5. Свойства математического ожидания дискретной случайной величины 1. Математическое ожидание постоянной величины равно этой постоянной: MQ = С. (4.5.1) 2. Постоянный множитель можно выносить за знак матема- тического ожидания: М(СХ) = СМ(Х), (4.5.2) где С — постоянная. 3. Математическое ожидание алгебраической суммы конеч- ного числа п случайных величин равно алгебраической сумме их математических ожиданий: ад±Х2±-±Х„) = ад) ±М{Х2) ±-±ад„). (4.5.3) 4. Математическое ожидание произведения конечного числ п независимых случайных величин равно произведении их математических ожиданий: ад • х2 • - • Х„) = ад) • ад2) • - • ад,). (4.5.4) ! 80 л
5. Если все значения случайной величины X уменьшить (увеличить) на одно и то же число с, то ее математическое ожидание уменьшится (увеличится) на то же число с: М(Х - с) = М(Х) - с. (4.5.5) Следствие. Математическое ожидание отклонения значе- ний случайной величины X от ее математического ожида- ния равно нулю: М[Х~ М(Х)] = 0. (4.5.6) 6. Математическое ожидание среднего арифметического значения п одинаково распределенных взаимно независимых1 случайных величин равно математическому ожиданию каждой из величин: М(Х) = М(Х,). (4.5.7) Пусть Х[, Х2,..., Хп — одинаково распределенные слу- чайные величины, математические ожидания каждой из которых одинаковы и равны а. Тогда математическое ожидание их суммы равно п • а и математическое ожида- ние средней арифметической равно а: М(Х) = 1/п М{Хх + Х2 +... + Х„) = па/п = а; М(Х) = а. Пример 4.6. Для лотереи, описанной в примере 4.2, составьте за- кон распределения суммы выигрыша для посетителя магазина, который приобрел два билета стоимостью по 1 руб., а также найдите математическое ожидание суммы выигрыша и убедитесь в справедливости формулы M(X+Yj = М(Х) + M(Y). Решение. Суммы выигрышей на первый и второй билеты лотереи с учетом затрат на их приобретение являются случайными величинами, 1 Дискретные случайные величины называются одинаково распределенными, если у них одинаковые ряды распределения, а следовательно, и одинаковые числовые характеристики. 81
которые обозначим соответственно X и Y. Это одинаково распределен- ные случайные величины, а их законы распределения получены в при- мере 4.2. Сумма выигрыша для посетителя, который приобрел два би- лета, является случайной величиной. Она представляет собой сумму случайных величин X и У, которые являются зависимыми. Для нахожде- ния закона распределения случайной величины X + У рассмотрим раз- личные возможные исходы лотереи (табл. 4.5). Таблица 4.5. Возможные исходы лотереи X Y X+Y Вероятность результата 1 2 3 4 -1 -1 -1 9 9 9 29 29 29 -1 9 29 -1 9 29 -1 9 29 -2 8 28 8 18 38 28 38 58 47 . 46 = 1081 50 ’ 49 1225 47 . 2_ = 47 50 " 49 1225 47 t 1 = 47 50 ’ 49 2450 2 . 47 == 47 50 ’ 49 1225 2 . 1 1 50 ’ 49 1225 2 . 1 =s 1 50 ’ 49 1225 1 . 47 47 50 ’ 49 2450 1 . 2. = 1 50 ' 49 1225 1. ± = 0 50 49 При нахождении вероятностей соответствующих результатов применяет- ся теорема уменьшения вероятностей для зависимых событий. Например, случайная величина Х+ Y примет значение, равное -2 руб., если покупатель не выиграет ни на первый билет, ни на второй. Вероятность не выиграть м первый билет лотереи равна 47 —, на второй — при условии, что первый билет не выиграл, равна 46 49 ' 82
По теореме умножения получаем вероятность не выиграть на оба билета. Вероятность выиграть на оба билета книги по 30 руб. оказыва- ется равной 0, так как имеется лишь один такой выигрыш. Таким образом, случайная величина Х+ Y может принимать сле- дующие значения: -2, 8, 18, 28 и 38 руб. Закон распределения случайной величины: Сумма выигрыша, руб. -2 8 18 28 38 Вероятность 1081/1225 94/1225 1/1225 47/1225 2/1225 Вероятности P(X+Y=8), Р(Х-гУ=2%) и P(X+Y = 38) получаем, ис- пользуя теорему сложения вероятностей. Найдем математическое ожидание Х+ Y: 1081 94 I 47 9 МЛГ+Л = (-2)^+8-^-+18-±-+28-^-+38 = 0; 1225 1225 1225 1225 1225 М(Х) = M(Y) = -1 • 0,94 + 9 • 0,04 + 29 • 0,02 = 47 2 = (-1). ZL + 9 - — = 0. k ’ 49 49 Следовательно, M(X+Y) = М(Х) + M(Y). 4.6. Ожидаемое среднее значение функции случайной величины Можно вычислять ожидаемое среднее значение как функцию случайной величины. Пусть h(X) — функция случайной величи- ны X. Ожидаемое значение функции дискретной случайной вели- чины: ! M[h{X)] = £ й(х;) Дх,). (4.6.1) » i=l Функция h(X) может быть любой, например X2, 3Z4, logX Разберем простой пример, когда h(X) — линейная функция от X, т. е. h(X) = аХ+ Ь, где а, b — числовые параметры. 83
Пример 4.7. Компания продает некоторый продукт, учет продаж которого ведет- ся в тысячах штук. Закон распределения объема ежемесячных продаж продукта представлен в табл. 4.6. Таблица 4,6. Ряд распределения числа месячных продаж (пример 4.7) Число единиц товара х, тыс. шт. Р(х) 5000 0,2 6000 0,3 7000 0,2 8000 0,2 9000 -QJ __L2 Найти ожидаемое среднее значение числа месячных продаж. ; Решение. Из формулы (4.4.1) следует, что М(Х) = 5000-0,2 +; + 6000-0,3 + 7000-0,2 + 8000-0,2 + 9000-0,1 = 1000 +;) + 1800 + 1400 + 1600 + 900 = 6700. Пример 4.8. | На данных примера 4 7 предположим, что стоимость фиксирован-| ного месячного выпуска продукции составляет 8000 условных денежных^ единиц и что доход от реализации каждой единицы товара составляет 2, денежные единицы. Найти ожидаемый месячный доход от про-' дажи продукции. Решение. Функция дохода от продажи продукции компании есть, h(X) = 2Х~ 8000. j Формула (4.6.1) свидетельствует, что ожидаемое значение h(X) есп>< сумма произведений h(X) на соответствующие вероятности. Результаты^ расчета представлены в табл.4.7. Таблица 4.7. К вычислению среднего ожидаемого значения ] (для примера 4.8) 1 Число единиц товара х, тыс. шт. Л(х;) Р(х,) Мй(х)] = h(xj) P{Xj\ 5000 2000 0,2 400 6000 4000 0,3 1200 7000 6000 0,2 1200 8000 8000 0,2 1600 9000 10000 0,1 1000 ЛДЛ(х)]=5400 Ожидаемый ежемесячный доход от продаж продукции составляет 5400 условных денежных единиц (см. табл. 4.7). Для линейной функции случайной величины (см. пример 4.8) можно упростить вычисления M[(h(x)]\ из формул (4.5.1) — (4.5.3) следует, что математическое ожидание от линейной функции случайной величины равно линейной функции от ее математического ожидания, т. е. М(аХ + Ь) = аМ(Х) + Ь, (4.6.2) где а, b — числовые параметры. ; Формула (4.6.2) подходит для любых случайных величин как (дискретных, так и непрерывных. { Если известно ожидаемое значение Л, то ожидаемое значе- ние аХ + b есть аМ(Х) + Ь. В примере 4.8 можно вычислить ожидаемый доход: для этого 'сначала следует рассчитать ожидаемое среднее значение X, затем (умножить полученное значение на 2 и вычесть из полученного (Произведения стоимость фиксированного выпуска 8000. ’ Ожидаемое значение X есть 6700 и ожидаемый доход, следо- звательно, равен M[h(X)) = М(1Х - 8000) = 2М(Х) - 8000 = = 2 • 6700 — 8000 = 5400, как мы и получили раньше. [4.7. Дисперсия дискретной случайной величины В Дисперсия случайной величины есть математическое ожидание шквадрата отклонения значений случайной величины от ее матема- Шпического ожидания. > п с - О(Х) = Л/{[Х— М(Х)]2} = £ [х,- М(А)]2Р(х,). (4.7.1) (Вероятности значений случайной величины играют роль весов частот) при вычислении ожидаемых значений квадратов откло- нений дискретной случайной величины от средней. Как и преж- де, будем обозначать дисперсию через о2, либо для случайной ве- тчины X — как D(X). 84 85
По формуле (4.7Л)^"^’^^‘^^н^случайной ве- I математического оЖИда™Д JJ5aT результатов, умножением I личины, затем В°3^Н сложением результатов для всех х, I их на вероятности rw и 4 Г (о рекламных объявлениях, размещаемых в газете в | опр^Здень) дисперсия вычисляется так. 1 а2=х ^-мл)12ад==(0'2,3)2+(1'2’3) I 1=1 + (3-2,3)2 + (4-2,3)2 + (5-2,3)2 = 2,01. I 4.8. Свойства дисперсии дискретном случайной величины Дисперсия дискретной случайной величины обладает с л е - Д У L 1Пи^т^.псияСпостоянной^величины с равна нулю: г------- ZXO = 0. г. Постоянный множитель < «"Г"" “ “ “1 персик, возведя его при этом в квадрат D(cX) = с2 (ХА), (4.8.2) Гпе с - постоянный множитель 1 " / конечного числа п незави! ’ равна еуммеиЛХХ] 4. ^гяа "°2, а дисперс" средней арифметической равна о /л. (---- b('x) = cV«- (4.8.4) Для вычисления дисперсии проще пользоваться другой фор- мулой, которая получена из формулы (4.8.1) путем несложных математических выкладок. ДА) = М[Х- М{Х)}2 = MIX2 - 2М{Х)Х + {М(Х))2] = = МА)2 - 2М(Х) М(Х) + [M(X)J2 = М(Х2) - [М(Х)12 = МА2) - (И2(А). Формула для упрощенного вычис- ления дисперсии дискретной случайной величины: ст2 = ДА) = МА2) - М2(А). (4.8.5) i При вычислении дисперсии с помощью формулы (4.8.5) ис- [пользуют определение ожидаемого среднего значения функции мискретной случайной величины из формулы (4.6.1) для специ- ального случая h(X) = X2. Вычисляют х2 для каждого х, умножа- иот его на Р(х) и складывают для всех х,-. Это дает М{Х2). Для [получения дисперсии вычитают из MIX2) квадрат математиче- ского ожидания случайной величины X. I Вычислим дисперсию случайной величины для примера 4.1, используя этот способ. Результаты оформим в виде рабочей таб- лицы (табл. 4.8). Таблица 4.8. К вычислению дисперсии случайной величины {для примера 4.1) X Дх) хР{х) х2Р(х) 1 2 3 4 0 0,1 0 0 1 0,2 0,2 0,2 2 0,3 0,6 1,2 3 0,2 0,6 1,8 4 0,1 0,4 1,6 5 0,1 0,5 2,5 1,0 М(А)=2,3 М(А2)= 7,3 I Столбец 1 в табл. 4.8 — значения X, столбец 2 — вероятности m значений, столбец 5 есть результат произведения столбца 1 га столбец 2, столбец 4 есть результат произведения столбца 1 |а столбец 2 (потому что х2Р{х) получается умножением х на 87 86
х[Л*)]- Сумма значений третьей колонки дает ожидаемое сред- нее значение X, а сумма значений четвертой колонки — ожи- даемое среднее значение X2. Затем, чтобы получить дисперсию X, вычисляем разность М(Х2) — [Л/(А)]2: ад = МА2) - IMA)] 2 =7,3- (2,3)2 = 2,01. Результат совпал с полученным при помощи формулы (4.7.1). j Среднее квадратическое отклонение (стандартное) отклонены дискретной случайной величины равно корню квадратному из dud Персии (обозначается как о или s(X)): • a=4D(X). (4.8.6)] * В Для примера 4.1 срущ&с квадратическое отклонение ст= \ = 1,418. В чем смысл дисперсии и среднего квадратического откло нения? Как можно интерпретировать их значения? — По опр( делению ст2 — средний квадрат отклонения значений случайно величины от математического ожидания. Отсюда следует, чт это мера рассеяния всех возможных значений случайной велич! ны относительно среднего ожидаемого значения. Дисперсия х растеризует колеблемость, изменчивость случайной величию чем больше вариация, тем дальше от средней находятся возмоя ные значения случайной величины. Для содержательной инте{ I 4.9. Дисперсия линейной функции случайной величины Для случайной величины, заданной линейной функцией аХ + Ь, имеем: (4.9.1) ।Р(аХ + Ь) = а2ад = дУ_____ По формуле (4.9.1) найдем дисперсию ожи- даемого дохода для примера 4.7. Доход задан функцией 2Х — 8000. Находим МА2) - ;=50002 - 0,2 + 60002 • 0,3 + 70002 - 0,2 + 80002 - 0,2 + 90002-0,1 = 1=46 500 000. Ожидаемое среднее значение X равно 6700. Отсюда (дисперсия ДА) = МА2) ~ [М(А)]2 = 46 500 000 - 67002 = |=1610 000. Используя формулу (4.9.1), вычислим дисперсию |ожвдаемого дохода: 1\Х) = а2 = 22 • 1 610 000 = 6 440 000. Среднее квадратическое отклонение дохода равно <т= ^6440000 = 253 772. претации зачастую полезно применять значение, которое да! корень квадратный из дисперсии — среднее квадратическое oj клонение (стандартное отклонение). Если сравнивают две сл| чайные величины, то та из них, которая имеет большую диспи сию и среднее квадратическое отклонение, более вариабелы Риск, ассоциируемый с инвестициями, часто измеряют ста дартным отклонением возврата инвестиций. Если сравнивают два типа инвестиций с одинаковой ожидаемой средней возвра то инвестиции с более высоким средним квадратическим откл нением считаются более рискованными (хотя более высок стандартное отклонение предполагает возврат более вариаби ный с обеих сторон — как ниже, так и выше средней). 88
Пример 5-1- 3. Е Законы распределения дискретных случайных величин 5.1. Схема повторных испытаний. Биномиальное распределение Обсудим следующие примеры. Пример 5.2- Пример 5.3. Л пусть X - число появившихся герои Монета подбрасывается 4 раза, У Известно, что в определенном городе 30% горожан предпочи добираться на работу личным автотранспортом. Случайно выб 8 человек. Пусть Y — число людей в выборке, предпочитающих лич автотранспорт. Известно, что 15% деталей, произведенных автоматом, — брако! ные. В порядке случайного отбора взято 12 деталей. Пусть Z дефектных деталей. Что характерно для случайных величин X, Y, Z? Они я ются примерами дискретных величин, подчиняющихся сщ альному вероятностному закону распределения, известному* биномиальное распределение. Биномиальное распределение базируется на эксперимс состоящем в последовательности испытаний Бернулли* (или,: ее еще называют, схеме повторных испытаний). Испытания Бернулли — это последовательность п иденгт испытаний, удовлетворяющих следующим условиям: Каждое испытание имеет два исхода: успех и неуспех. Эти два исхода — взаимно несовместные и противоположные события. Вероятность успеха, обозначаемая р, остается постоянной от испытания к испытанию. Вероятность неуспеха обо- значается q, где q = 1 — р. Все п испытаний — независимы. Это означает, что веро- ятность наступления события в любом из испытаний не зависит от результатов других испытаний. Успех и неуспех — статистические термины, и нет необходимо- сти вкладывать в них обыденный смысл. Например, когда имеют дело с производственным процессом, то исход испытания «деталь НДефектная» определяют как успех. Успех относится к появлению 'определенного события — «деталь дефектная», а неуспех относится к непоявлению события. Определим случайную величину как би- номиальную, если для нее мы рассчитываем число успехов и неус- пехов в последовательности п испытаний Бернулли. Случайная величина, для которой вычисляется число успехов в п повторных испытаниях, где р — вероятность успеха в любом из Данных испытаний, a q = (7 — р) — соответствующая вероят- Часть неуспеха, подчиняется закону биномиального распределения с щраметрами пир. Вернемся цы выше. Все перечисленные в них дискретные случайные ве- тчины подчиняются закону биномиального распределения. > В примере 5.1 п - 4, р ~ 0,5 параметры биномиального определения случайной величины X. Последовательные под- расывания монеты — независимые эксперименты; исходы — рфра» или «герб» (успех или неуспех) и вероятности их выпа- Йия остаются постоянными от испытания к испытанию. к? > В примере 5.2 п = 8, р = 0,3 —• параметры биномиального пределения случайной величины У. Заметим, что случайная рка из большой генеральной совокупности предполагает исимость испытаний. Мы полагаем, что число людей в го- де (генеральная совокупность) намного больше, чем число даытаний, и случайный отбор небольшого числа людей не ияет на ту часть оставшихся горожан, которые предпочитают ираться до работы на личном транспорте (т. е. события очитает личный транспорт» для любых выбранных горо- независимы). Если же в нашей генеральной совокупно- ?только 10 человек, трое из которых предпочитают личный «спорт, то ситуация меняется. Вероятность того, что сле- к примерам, которые были приведе- 1 Свое название эти испытания получили в честь одного из трех знам математиков, братьев Бернулли, — Джеймса Бернулли (1654—1705), кд первым представил формализованную схему таких испытаний. « 90 91
дующий отобранный предпочтет также личный транспорт, со- ставит уже только 2/9 « 0,22 или 3/9 ® 0,33 в зависимости от то- го, предпочитает ли отобранный человек личный транспорт или нет. В этом случае условия 2 и 3 испытаний Бернулли будут на- рушены, и Уне будет биномиальной случайной величиной. Чем больше объем генеральной совокупности в сравнении с выбор- кой, тем менее серьезным является нарушение условий 2 и 3. На практике пользуются правилом, согласно которому, если N/n > 10 (где N — объем генеральной совокупности, а и — объ- ем выборки), то можно предположить независимость исходов. > В примере 5.3 Z подчиняется биномиальному распределе- нию с параметрами п = 12, р ~ 0,15. Мы полагаем, что автомат произвел большое количество деталей и что выборка произведена случайным образом из большого числа деталей, которые сходны друг с другом (либо наличием дефектов, либо их отсутствием). 5.2. Формула Бернулли. Биномиальные вероятности Зная условия, необходимые для биномиального распределения, рассмотрим, как вычисляются вероятности значений случайной величины, подчиняющиеся закону биномиального распределения. При четырех подбрасываниях монеты случайная величина X, определяющая число выпадений герба, принимает возможные | значения Xt- = 0;1;2;3;4. Рассмотрим определенное событие, ко-! гда 2. Это событие состоит в том, что при четырех подбра- JE сываниях монеты 2 раза выпадет герб. Определим вероятность; этого события, т. е. Р(Х=2). Для этого подсчитаем, сколькими Ш способами может осуществиться данное событие. При четырех бросаниях монеты герб появится два раза в од- ной из следующих шести последовательностей: ГГЦЦ, ГЦГЦ, ГЦЦГ, ЦГГЦ, ЦГЦГ, ЦЦГГ. Исходя из независимости четырех испытаний вероятность определенной последовательности, (скажем, ЦЦГГ) есть ppqq. Очевидно, что порядок появления циф- ры или герба не влияет на вероятность. Мы видим, что вероятность р2-# есть вероятность для любой из шести перечисленных комбина- ций. Поскольку все шесть возможных комбинаций ведут к событий Х=2, то мы умножим результат на шесть, получим бр2^2. Для идеаль- ной монеты р = q — 0,5; отсюда Я(Л=2)=6(0,5)4= 0,375. Точно так же можно вычислить другие вероятности P(X=tyj P(X=V), Р(Х=3), Р(Х=4). Для проведения расчетов гораздо удоб- нее обобщить процедуру вычисления вероятности появлен некоторого события точно т раз в п последовательных испытав 92 (™тт„0„ТТ₽ЯЮЩую «Виям схемы поатоои. (испытаний Бернулли), при пом™.™ ПОВТОРНЬ1Х испытаний ! Отметим следующее певдал"*ой Формулы. X- Вероятность любой заданной гт„ рой событие появляется т раз ^едовательн°сти, в кото- ностью успеха в каждом отдельном” ИСПЫТания* с вероят- ностью неуспеха q, равна X « Испытании Р * с веро- 2. Число различных комбинаций 2H0.S)2(0,5)2-(0,5)4. которых наступит точно ZUZ1”"”*”’ 8 ^"ьтате нии из п элементов но т эле^нтХ сотета- ст - А” ( „г \ ~ Р или С™ ______п- I примера S.J С под6расышнием монеты Этп к 21-21J ‘ тем непосредс^еХоТХсчетТЛЬТаТ°М’ Получен™ пу- и вдия комби- ния вероятности Р(Х=т) в л л Для обозначе- Успеха в каждом отельном исп^ииГ ° ХР°Ят1х^ Р[Х~т) ^рп Ст ^т== п\ где 9 = 1 - д «'(« ~ т)\ т> (S.2.1) я — число испытаний, « - число успешных испытаний ормула (5.2.1) называется формой еер„у ии 5.3. Биномиальный закон распределения’ Подставим т- ад’. вф^мулу™."™ Ж"'еНИЯ ог °™ » : Это название связано с трм 93
р/ЧТ k Ck u n к C" v n П Число успехов т б 1 2 3 (<7+р)" = (Т+пр<Т i+C2np2 д" 2+...+Скп^ср к+...+прп 1д+рп. (5.3.1)[ Так как (q + р) — 1, то Рл>о + ?п,1 + ••• + ?п,т = 1, т.е. сумма вероятностей биномиального распределения равна 1 (табл. 5.1). Таблица 5.1. Биномиальное распределение Вероятность Р(п,т) Сй„ С'„ plq“~l pW1 Р*<Т3 Х = т 1 Биномиальные коэффициенты С™ можно определить из треугольника каля. c* 2 c3 * n В табл. 5.2 представлены биномиальные вероятности случай ной величины X для примера 5.1 с подбрасыванием монеты, рас считанные при помощи формулы (5.2.1). Таблица 5.2. Биномиальное распределение X — числа гербов, появляющихся при четырех подбрасываниях монеты Р(х) = Л, О 1 2 3 4 0,0625 0,2500 0,3750 0,2500 0,0625 С увеличением числа испытаний расчет вероятностей по формуле (2.2.1) становится все более и более громоздким. Для облегчения работы с биномиальными вероятностными моделями существуют специальные таблицы, в которых табулированы зна- чения вероятностей биномиального распределения для различ- ных лир. Иногда в литературе предлагаются таблицы, в которых табу- i лированы значения интегральной функции биномиального рас- пределения Jj(x) « Р(Х < х) или 1-Дх) = Р(Х> х). Табл. 5.3 воспроизводит значения функции при л = 4. В колон- ке для р = 0,5 найдем кумулятивную вероятность, которой соот- . ветствует распределение, представленное в табл. 5.2. Заметим, например, что для р=0,5 3 2 №2) = = ^1(2)-fi(l) = 0,6875-0,3125 = 0,3750, ; (=0 <=о т. е. в общем виде P(x) = Fi(x)~ Fx(x- 1). (5.3.2) Вероятность, равная 0,3750, корреспондирует с вероятностью й т = 2 в табл. 5.2. Таблица 5.3. Фрагмент таблицы F\(x) = Р(Х<, х) биномиального распределения т о" 1 2 3 4 ЛЛГ<х) = /’1(х) 0,06250 0,31250 = 0,0625 + 0,2500 0,68750 = 0,31250 + 0,3750 0,93750 = 0,68750 + 0,2500 1,00000 = 0,93750 + 0,0625 Для случайной величины Y (пример 5.2) найдем вероятности го, что предпочтут личный транспорт: а) 5 человек из 8; в) не лее 5 человек; с) не менее 5 человек. По условию р = 0,3. Зна- гг, надо определить Р(Х=5), Р(Х <5), Р(Х >5). 9S 94
Таблица 5.4. Фрагмент таблиц биномиального распределения (Приложение, табл. 4) и функции биномиального распределения 1 х~ т Р(Х=т)= C^pmqn~m Р(Х<. т) = =Л(х) Р(Х<х) = =Г(х) Р(Х>х)= =1 ~Т(х) 0 0,058 0,058 0 1 1 0,198 0,256 0,058 0,942 2 0,296 0,552 0,256 0,745 3 0,254 0,806 0,552 0,448 4 0,136 0,942 0,806 0,194 5 | 0,047 0,989 0,942 0,058 И И тогда получим, что Р(Х=5) = 0,047; Р(Х ^5 ) = 0,989; Р(Х S 5) = =0,058. Исходя из формулы (5.5.3), получим: М(Х) = M(Xi) + М(Х2) +... + М(Х„) = YiM(Xi) = пр. /=1 Математическое ожидание случайной величины ^(частоты • появления события в п независимых испытаниях), подчиняю- : щейся биномиальному распределению, равно произведению ; числа испытаний п на постоянную вероятность успеха р в каж- ( дом отдельном испытании. I Следует отметить, что частость (т/п) также можно рассмат- I ривать как случайную величину, и тогда Ь М(т/п) = 1/и • М(т) = \/п(пр) = р. (5.4.1) 5.4. Математическое ожидание, дисперсия и график Я биномиального распределения Я Рассмотрим в качестве случайной величины X — число л>Я наступления некоторого события в п независимых испытаниях. Я Очевидно, общее число X появлений этого события в испы-Я таниях состоит из суммы чисел появлений события в отдельныхЯ испытаниях, т. е. X, = т = Х[ + Х2 + ... + Хп, где X, — число по-Я явлений события в /-м испытании (/ = 1, 2, ..., п). Так как веро-Я ятность наступления события в каждом испытании постоянна иЯ равна р (q — вероятность ненаступления события), то для кажв дой случайной величины А) имеем распределение вероятностей: Я Математическое ожидание частоты биномиального распреде- ления: М(Х) = пр. (5.4.2) Аналогично рассуждая и применяя формулу (1.8.5), получим: D(Xi) = AffA1 2 * 4,) — Afi(X^) — О2 • q + \2'р — р2 = р (1—р) — pq; D(X) = D (%,) + D (Х2) +...+ D (Х„) = YD(X/) = npq. Дисперсия частоты биномиального распределения: о2 = D(X) = npq . (5.4.3) Xi 0 1 Pi q р ' Если роль случайной величины играет т/п, то по формуле ! (1.8.2) следует: D(m/ri) — 1/л2 D(m) = \/п2 npq — pq/n . (5.4.4) Следовательно, М(Х\) - М(Х2) = ... = М(Хп); М(Хд = 0-q+l-p = p. Стандартное отклонение биномиального распределения npq (5.4.5) 1 Биномиальные коэффициенты Ст можно определить из треугольника Пав Используя формулы (5.4.1) и (5.4.2), найдем математическое Биномиальные коэффициент „ и « ожидание и дисперсию случайной величины X — числа появле- каля. 97 4 Теория статистики с основами теории вероятностей 96
ния гербов при четырех подбрасываниях монеты, М(Х) = пр = =4 • 0,5 = 2. Полученное значение интуитивно понятно и без вычислений. При достаточно большой серии испытаний по че- тыре подбрасывания монеты можно ожидать, что в среднем при четырех подбрасываниях монеты выпадет два герба. Дисперсия X есть npq — 4 • 0,5 • 0,5 = 1,00. В нашем конкрет- ном случае стандартное отклонение также равно 1,00. Пример 5.4. В отдел верхней одежды универмага один за другим входят трое по- сетителей. По оценкам менеджера, вероятность того, что вошедший посетитель совершит покупку, равна 0,3. Чему равна веро- ятность того, что ни один из посетителей ничего не купит? Один из посетителей купит что-либо? Двое из трех вошедших в магазин людей со- вершат покупку? Все трое купят что-нибудь в отделе? Решение. Проверим, соответствует ли задача условиям бино- миального эксперимента. 1. Эксперимент может быть описан как последовательность трех идентичных испытаний — по одному испытанию для каждого из трех посетителей, входящих в отдел верхней одежды универмага. 2. Два исхода — посетитель совершает покупку (успех) или не со- вершает покупку (неуспех) — возможны доя каждого отдельного испытания. 3. Вероятность каждой отдельной покупки равна 0,3, вероятность непокупки равна 0,7. 4. Решение о покупке для каждого из покупателей не зависит от решений других покупателей. Рассчитаем вероятности биномиального распределения, применяя формулу (5.2.1), и результаты представим в виде таблицы (табл. 5.5). Таблица 5.5. Биномиальное распределение числа покупателей m=Xj Рп, т = Pi *tPi xj Pi 0 0,343 0 0 1 0,441 0,441 0,441 2 0,189 0,378 0,756 3 0,027 0,081 0,2643 1 Вычислим математическое ожидание по формуле (4.4.1): М(Х) = £х,Р(х,) = 0 • 0,343 + 1 0,441 + 2 • 0,189 + 3 • 0,027 = 0,9. /=1 98
Математическое ожидание биномиального распределения проще вычислить по формуле (5.4.1): М(Х) = пр = 3 • 0,3 = 0,9. Вычислим дисперсию по формуле (5.4.3): о2 = D(X) = npq=3- 0,3 • 0,7 = 0,63. Построим график полученного распределения (рис. 5.1). Рис. 5.1. Графическое представление биномиального распределения (для данных примера 5.4) При т=1 (см. рис. 5.1) вероятность достигает максимального зна- чения. Частота т, равная 1, называется вероятнейшим числом или веро- ятнейшей частотой (наивероятнейшей). Вероятнейшей частотой наступления события называется та час- тота, при которой вероятность достигает своего наибольшего значения и обозначается то. Для определения наивероятнейшего числа применяется формула: пр — q < то< пр+ р . (5.4.6) 1 В этом неравенстве т0 может быть только целым числом. Замечание. Если пр — целое число, то т0 = пр. Пример 5.5. Вероятность того, что выписанный продавцом чек будет оплачен, равна 0,9. Какое наивероятнейшее число чеков будет оплачено, если выписано 40 чеков? Решение. Находим произведение пр = 40 0,9= 36 (целое число), зна- чит, тй — 36. Найдем т0по формуле (5.4.6): 4’ 99
40 • 0,9 - 0,1 <тио £40 • 0,9 + 0,9; 35,9 < то < 36,9. Этому двойному неравенству удовлетворяет целое число т0 =36. 1 Кроме биномиального распределения существует и ряд других дис-1 кретных распределений. К ним относятся распределение Пуассона, ги-| пергеометрическое, мультиноминальное и геометрическое распределения. I 5.5. Распределение Пуассона Распределение Пуассона (закон распределения редких собы-1 тий) часто используется, когда мы имеем дело с числом собы-1 тий, появляющихся в промежутке времени или пространства,! Например, число машин, прибывших на автомойку в течение] часа, число дефектов на новом отрезке шоссе длиной в] 10 километров, число мест утечки воды на 100 километров водо-1 провода, число остановок станков в неделю, число дорожных] происшествий. | Если вероятность появления события А в п отдельных неза-,| висимых испытаниях очень мала (р < q), то применяется форму-1 ла Пуассона: I ут 1 Рп,т”^ (5.5.1) I ________________________________’ т\____________________________| где 1= пр; J п — число независимых испытаний с постоянной малой вероятно-] стью р; ] е — основание натуральных логарифмов (е=2,71828); 1 т — число появлений события (т = 0,1,2,3,...). 1 Для доказательства формулы (5.5.1) воспользуемся формулой Бернулли для вычисления вероятности Рп, т; Рп,т = С” pf”<f-m I Обозначим через X произведение пр. Тогда из равенства Х=лд получим: 1 | ИЛИ I Р и(«-1)(и-2) .(и-т + 1) (. к\п (. ХГт —мм *> Так как _ К _ 2 _ | пт п п I т-l. ... I —-—), то равенство (*) можно записать в следующем виде: (1- ~)(1~ —) (1--П1--Г” т- п п п \ п) \ п) Найдем предельное значение вероятности Рп> т при п -><х> кт ml е -А. 1 1ЙП Р„,т I так как lim (1 - -)(1 - И-»°о п -)-(1- п п а применяя второй замечательный предел, имеем -л(-Х) I \\П ( 1 1« X —7— lim 1---------= lim 1 —— = lim 1 +------------- ” = e ~X л-»°° \ И/ \ n/KJ n-»°° \ — nf7.) -n (-X) (. \-m r . \ —i 1---= lim 11 +-----------— X ” n) п-ю> -n/kj = e°= 1. ym Итак, lim P„ — e’X, л-»» ’ ml Отсюда XOTe-x '’m№ ml | При помощи формулы (5.5.1) можно записать закон распре- I деления Пуассона. Его можно написать в виде ряда распределе- ния, если, придавая т целые неотрицательные значения jfli = 0,1,2,..., п, вычислить соответствующие им вероятности P„t т: Подставим р и q в формулу Бернулли. Получим: _ я(л - 1)(и - 2)...(и - /л +1) (к\т . X)" т п'т~ т! Ы V Таблица 5.6. Закон распределения Пуассона т 0 1 2 3 к п Р 1 п,т е_А Х2е~х 2! Х3е~х 3! Х*е~х X! п\ 100 101
Покажем, что сумма вероятностей построенного ряда равна единице: п п -,т п -,т 1 12 X limP„„ (2^ e-X-e-l£k. -е-Х(1 + 1 + т=о я->” ^0 т- ^0т- 1! 2! А. А2 Учитывая, что сумма 1+ — + — +... представляет собой разложение функции ек в ряд Маклорена и равна е\ оконча- тельно получим: m = e~V= 1. т=0 Закон распределения Пуассона можно записать также в виде функции распределения: Дх) = Д/и<х) = £ Р„ т= £ -L- е "А-, т<х т<х т‘ (5.5.2) где знак означает сумму вероятностей P„t т для всех т, меньших и. т<х Применяя формулу (5.5.2), можно определить вероятность по- явления события хотя бы один раз в п независимых испытаниях. Поскольку вероятности Рп, т ,] и Рп$ есть вероятности проти- воположных событий, то 10 Рп, rn>x = 1 - Рп,ь = 1 - ^е-А= 1 - е-А, или Л,я^=1-еА (5.5.3) По формуле (5.5.3) вычисляются вероятности появления со- бытия хотя бы один .раз в п независимых испытаниях, если ве- роятность появления события в отдельных испытаниях постоян- на и очень мала, а число испытаний достаточно велико (л > 20), т. е. при условии применимости формулы Пуассона (5.5.1). Математическое ожидание и дисперсия случайной величины, распределенной по закону Пуассона^ совпадают и равны параметру к, который определяет этот закон, т. е.1 1 Доказательство этой важной теоремы можно найти, например, в учебнике< А.И.Карасева, З.М.Аксютиной, Т.Н.Савелъевой «Курс высшей математики для экономических вузов», ч П. Теория вероятностей и математическая статистика. -' М.: Высшая школа, 1982. — С. 57, 58. 102
М(Х) = ЛЛ) = (5.5.4) Формула (5.5.4) устанавливает важный теоретико-вероятностный смысл параметра X. Последовательность событий, которые наступают в случайные моменты времени, называется потоком событий (например, вы- зов на АТС). При этом должны выполняться следующие условия: 1. Вероятность появления события есть одна и та же для любых двух интервалов равной длины 2. Вероятность того, что событие появится в короткий ин- тервал времени (или пространства), пропорциональна ве- личине интервала. 3. В очень коротком интервале вероятность того, что два со- бытия появятся, близка к нулю. 4. Вероятность того, что любое число событий появится в интервале, не зависит от начала интервала. 5. Появление или непоявление события в определенном ин- тервале не зависит от появления или непоявления собы- тия в любом другом интервале. Пример 5.6. Предположим, что нас интересует число инкассаторов, прибываю- щих утром на автомобиле в банк в течение 15 минут. Если мы предпо- ложим, что вероятность прибытия автомобиля одинакова в любые два периода времени равной длины и что прибытие или неприбытие авто- мобиля в любой период времени не зависит от прибытия или неприбы- тия в любой другой период времени, то последовательность прибытия инкассаторов в банк может быть описана распределением Пуассона. Анализ предыдущих данных показал, что среднее число инкассато- ров, прибывающих в 15 минутный период, равно 10, тогда при X = 10 получаем: Р(т) = ).т e~V m! = 10m e-10/m! при m — 0, 1, 2, ... Если мы хотим узнать вероятность прибытия пяти инкассаторов в течение 15 минут, то при т = 5 получим: Р(5) = 105 е”,0/5! = 0,0378. Эта вероятность определена путем расчета вероятностной функции с Х= 10 и т—5 по формуле (5.5.1). Расчет вероятностей распределения Пуассона легче осуществлять, пользуясь специальными таблицами ве- роятностей распределения Пуассона. В этих таблицах содержатся зна- чения вероятностей при заданных т и X (см. Приложение, табл. 6). Пример 5.7. Предположим, что нас интересует число дефектов, появившихся на определенном участке шоссе через месяц после его асфальтирования. 103
Мы предполагаем, что вероятность появления дефектов одна и та же на любых двух участках равной длины и что появление или непоявление дефектов на любом промежутке шоссе не зависит от появления дефек- тов на любом другом участке. Следовательно, для решения задачи мож- но использовать распределение Пуассона. Предположим, мы выяснили, что количество дефектов спустя ме- сяц после асфальтирования в среднем равно двум на километр. Найдем вероятность того, что на определенном участке шоссе длиной в три ки- лометра мы не найдем ни одного дефекта спустя месяц после асфаль- тирования. Поскольку нас интересует интервал длиной в три километра, то >.= (2 дефекта/километр) • (3 километра) = 6. Это — ожидаемое число дефектов на трехкилометровом участке шоссе. Отсюда, используя формулу (5.5.1) или таблицы распределения Пуассона с 6 и т = 0, получаем, что вероятность отсутствия дефек- тов на трех километрах дороги равна 0,0025. Результат говорит о том, что отсутствие дефектов на изучаемом участке дороги весьма маловеро- ятно. Вероятность того, что хотя бы один дефект появится на трех ки- лометрах вновь асфальтированной дороги равна 1 — 0,0025 = 0,9975. Рассмотрим теперь пример, в котором вероятности будут вы- числены точно по формуле Бернулли (5.2.1) и приближенно по формуле Пуассона (5.5.1). Пример 5.8. Проведено 25 независимых испытаний с вероятностью появления события А в каждом из них 0,01. Построить ряд распределения для слу- чайной величины X = т — числа появлений события А. Вероятность Рп т вычислить двумя способами: по формуле Бернулли и по формуле Пуас- сона. Полученные результаты сравнить и оценить погрешности при- ближенной формулы. По условию и = 25; р = 0,01; q = 0,999. Вычислим Рп т и сведем их в таблицу: Таблица 5.7. Сравнение вероятностей, вычисленных по формулам Бернулли и Пуассона т 0 1 2 3 4 5 6 > & 3 э II II л о ‘Ч I я * 4 0,778 0,779 0,196 0,195 0,024 0,022 0,002 0,001 0,000 0,000 0,000 0,000 0,000 0,000 I д I 0,001 0,001 0,002 0,001 0,000 0,000 0,000 104
Сопоставление вероятностей показывает, что вычисленные по формуле Пуассона вероятности почти совпадают с их значе- ниями, вычисленными по формуле Бернулли. Максимальная погрешность результатов, вычисленных по формуле Пуассона, равна 0,002. 5.6. Гипергеометрическое распределение и его аппроксимация биномиальным и пуассоновским распределениями Выше мы рассмотрели способы вычисления вероятностей появления события ровно т раз в п независимых повторных ис- пытаниях (по формулам Бернулли и Пуассона). Теперь позна- комимся с вычислением вероятности появления события ровно т раз в п зависимых повторных испытаниях. Случайная величи- на, определяющая число успехов в п повторных зависимых ис- пытаниях, подчиняется гипергеометрическому закону распреде- ления. Пример 5.9. В урне N шаров, среди которых К белых и (N~K) черных. Без воз- вращения извлечены п шаров. Какова вероятность того, что в выборке из п шаров окажется т белых (и соответственно (п—т) черных) шаров. Изобразим ситуацию на схеме: Случайная величина, интересующая нас, X = т — число белых ша- ров в выборке объемом в и шаров. Число всех возможных случаев отбо- ра и шаров из N равно числу сочетаний из N по и (CnN), а число случа- 105
ев отбора т белых шаров из имеющихся К белых шаров (и значит, (п- т) черных шаров из (N—K) имеющихся черных) равно произведению ^"n-к (0Тб°Р каждого из т белых шаров может сочетаться с отбором любого из (л - т) черных). Событие, вероятность которого мы хотим определить, состоит в том, что в выборке из п шаров окажется ровно т белых шаров. По формуле для вероятности события в классической модели вероятность получения в выборке т белых шаров (т. е. вероят- ность того, что случайная величина X примет значение т) равна: р 1 т, п Ст s^n-m K^N-K Сп (5.6.1) где CnN — общее число всех единственно возможных, равновоз- можных и несовместных исходов, — число исходов, благоприятствующих интересующему нас событию, т < п, если п < к; т < К, если к < п. Итак, вероятность появления интересующего нас события ровно т раз в п зависимых испытаниях вычисляется по формуле (5.6.1), которая задает значения гипергеометрического распределе- ния для т = 0, 1, 2, ..., п — распределения вероятностей значе- ний случайной величины в п повторных зависимых испытаниях. Если по формуле (5.6.1) вычислить вероятности для всех возможных значений т и поместить их в таблицу, то получим ряд распределения, называемый гипергеометрическим законом распределения. Таблица 5.8. Гипергеометрический закон распределения т 0 1 2 3 n Р(Х=т) Clr-Ckx с; C"N CKCN-K C"n Математическое ожидание и дисперсия случайной величины т, распределенной по гипергеометрическому закону, определя- ются формулами: М(т) = и 0, (5.6.2) 106
D(m) = ne( i -e)(i - A-l), (5.6.3) где 0 — доля единиц с интересующим нас признаком в совокупности N, т. е. К N е- а (1 — л-1 N-1 называется поправкой для бесповторной вы- борки. Приведем несколько примеров на нахождение вероятностей по формуле (5.6.1) и на построение гипергеомет- рического распределения. * Пример 5.10. Разыгрывается тираж выигрышного денежного займа, в котором выпущено IV облигаций, из которых К — выигрышные. Некто приобрел п облигаций. Найти вероятность того, что т из них — вы- игрышные. Очевидно, что предлагаемая ситуация аналогична той, кото- рую мы разобрали в примере 5.9 с черными и белыми шарами. Рассуждая в соответствии с вышеизложенной схемой, по форму- ле (5.6.1) получим интересующую покупателя облигаций вероят- ность выигрыша. Пример 5.11. Автомобили поступают в торговый салон с завода партиями по 10 штук. По соглашению сторон для экономии времени и ресурсов в торговом салоне подвергаются контролю качества и безопасности толь- ко 5 из 10 поступающих автомобилей. Обычно 2 из 10 поступивших машин не удовлетворяют стандартам качества. Чему равна ве- роятность того, что хотя бы одна из 5 проверяемых машин будет забракована? Решение. В данном случае имеет место выборка без возвращения, сле- довательно, случайная величина — число бракованных автомобилей — под- чиняется гипергеометрическому распределению: N = 10, К = 2, N — К = 8 и л=5, т=1 или т = 2. Составим схему: 2 8 Ao,i = = °’5556 с10 107
Ао,2= =0,2122. сю 1 или 4 2 3 И ответ составит P)0,i + Рю.2 = 0,5556 + 0,2222 = 0,7778. Пример 5.12. На станцию под погрузку Поступило 20 вагонов, среди которых один с дефектом. Из них случайным образом отобраны 2 вагона. Требуется: 1) построить закон распределения числа вагонов с дефектом; 2) построить биномиальное распределение, приняв в качестве постоянной вероятности р — 0,05, а числа испытания — и = 2. Решение-. 1. По условию задачи N = 20, К = 1, п = 2. Случайная ве- личина — число вагонов с дефектом т может принимать два значения: 0 и 1. По формуле (5.6.1) вычислим вероятности этих значений. ✓’О г»2 /-4 z^l Р20 = 1 5 9 = 0,9000; Р2 , = 1 у 19 = 0,1000. с20 С2П Полученные результаты сведем в табл. 5.9, которая и будет гипер- геометрическим законом распределения т: Таблица 5.9. Гипергеометрический закон распределения т 0 1 Л, т 0,900 0,100 2. По условию задачи п = 2, р = — — 0,05, q = 0,95, случайная вели- чина т имеет возможные значения: 0,1,2. По формуле Бернулли вычис- лим вероятности Рп т и построим биномиальный закон распределения Л,о = С2 ' 0,05° • 0,952 = 1 • 1 • 0,952 = 0,9025, Л,1 = с2 ’ 0,05 • 0,95 = 2 • 0,05 • 0,95 = 0,0950, Л,2 = ' 0,052 • 0,95° = 1 • 0,052 • 1 = 0,0025. Таблица 5.10. Биномиальный закон распределения т 0 1 2 А, т 0,9025 0,0950 0,0025 108
Пример 5.13. Из 20 лотерейных билетов выигрышными являются 4. Наудачу из- влекаются 4 билета. Требуется: 1) построить закон распределения числа выиг- рышных билетов среди отобранных; 2) построить биномиальное рас- пределение выигрышных билетов, для которых р = 0,2, п = 4; 3) про- вести сопоставление результатов решения примеров 2..12 и 2.13. Решение-. 1. По условию задачи # = 20, X = 4, и = 4. По формуле (2.6.1) вычисляем вероятности P4m (т = ОД,2,3,4) и строим гипергео- метрическое распределение (табл. 5.11): . z^O р4 z4 г3 Р4 о = 4 л 16 = 0,3756, Р4, = .....4 г16 = 0,4623, С20 <-20 р2 \ pl r3 , /М Р42 = 4 г1* = 0,1486, Р43 = 4 У16 = 0,0132, <-20 С20 с4 • с® Р4 4 = 4 ' = 0,0002. С4о Таблица 5.11. Гипергеометрическое распределение т 0 1 2 3 4 Р4, т 0,3756 0,4623 0,1486 0,0132 0,0002 2. По условию задачи п = 4; за постоянное значение вероятности р (как и в примере 2.12) принимаем долю выигрышных билетов изделий: 4 16 9 = — = 0,2; q — — = 0,8. По формуле Бернулли вычисляем вероятно- сти для всех возможных значений т (0,1,2,3,4) и строим биномиальный закон распределения (табл. 2.12) Л,о = С°4 • 0,2° • 0,84 = 0,4096; Л,1 = С14 • 0,2‘ 0,83 = 0,4096; Р4>2 = С24 -0,22-0,82 = 0,1536; Р4,3 = С34 -0,23-0,8* = 0,0256; Л,4= С4 • 0,24 • 0,8° = 0,0016. Таблица 5.12. Биномиальный закон распределения т 0 1 2 3 4 Р4,т 0,4096 0,4096 0,1536 0,0256 0,0016 109
3. В примере 5.12, где отношение ~ мало = = 0,lj , расхож- дение вероятностей, вычисленных двумя способами (табл.5.11 и 5.12), невелико. Его максимальное значение равно 0,005 (0,100 — 0,095). В примере 5.13, где отношение в два раза больше максимальное расхождение достигает значительной величины — 0,052 (табл.5.11 и 5.12). В случае выбора из большой генеральной совокупности биноми- альное распределение более удобно, чем гипергеометрическое. Важно понять, однако, что гипергеометрическое распределение — более кор- ректно для выборок без возврата. Вообще при достаточно большом значении N и малом объеме вы- борки п (когда — < 0,1) гипергеометрическое распределение практиче- N ски совпадает с биномиальным. Следовательно, при условии -^-<0,1, N гипергеометрическое распределение трехпараметрическое (N, К, п), та- булирование которого затруднено, и его можно аппроксимирован: двухпараметрическим (л, р) биномиальным. Примечание. Кроме биномиальной аппроксимации гипергеометри- ческое распределение при больших значениях может быть аппроксими- ровано распределением Пуассона. Аппроксимация распределением Пу- ассона дает хороший результат, если одновременно выполняются два! условия: — < 0,1 и — = 0 < 0,1 и л-0 сравнимо с 1. Тогда вероятность N N i Р„ т вычисляется по формуле: 5 Пример 5.14. При условии примера 5.12 вычислите вероятности возможны значений т (0;1) по формуле Пуассона (5.6.4) и сопоставьте w с точными значениями вероятностей гипергеометрического распреде- ления (табл. 5.10). К 1 Решение. По условию примера 5.12 0= — = — = 0,05; 0л = 0,05 • 2= = 0,1. (0)“ 9п По формуле т ~ —— • е 110
(°Д)и 0, имеем Р2,о ж----е 0,1 «0,905, QJ л,1 «^у-е-0’1 «0,091. [ Сопоставление вычисленных вероятностей по приближенной | формуле (5.6.4) с соответствующими точными вероятностями г (табл. 5.10) показывает, что их максимальное расхождение меньше I 0,01. В примере 5.14 — 0,05 < 0,1 и = 0,1, т. е. соблюдены I N N I условия допустимости аппроксимации гипергеометрического I распределения распределением Пуассона. L 5.7. Производящая функция I Выше были рассмотрены способы определения вероятности I Ря> т для случаев, когда вероятность события А во всех п незави- I симых испытаниях одна и та же. На практике приходится встре- I чаться и с такими случаями, когда вероятность наступления со- I бытия А от испытания к испытанию меняется. j Пример 5.15. I Устройство состоит из трех независимо работающих элементов. Ве- роятность безотказной работы (за время t) первого элемента равна 0,9, второго — 0,8 и третьего — 0,7. Составить закон распределе- I ния числа элементов, вышедших из строя. В Пусть проведено два независимых испытания. Вероятность появле- ния события А в первом из них — ph во втором — р2; вероятности не- ll появления события А соответственно равны qt = 1 — pt-, q2 - 1 - р2. Требуется определить вероятности Р20; Р2>1; Р22, т. е. вероятно- сти появления события А ровно 0 раз, ровно 1 раз и ровно 2 раза в двух независимых испытаниях. К Решение. Применяя теорему сложения вероятностей для несовмест- ных событий и теорему умножения для независимых событий, полу- Е чим: I Л,О = 91925 Ли = Р192 + 91Й5 Р2,2 = PlP2. I Мы можем получить такой же результат, если перемножим Е два бинома (q^ + p^z) и («72 + P2Z) и приведем подобные члены. I
Тогда коэффициенты при произвольном параметре z будут рав- ж ны вероятностям Р2, т(т== 0,1,2). В Действительно, Д (?1 + P1Z) (42 + P2Z) ~ 41422° +(Р142 + 41P2) 21 + P{P1Z2 = Л =Л,02° + +Л.121 + Z2?2,2- Д Пусть теперь проведено три независимых испытания с вероятно- Д стями появления события A: plt рз, Рз- Д Вероятности непоявления события А в первом, во втором и третьем Д опытах соответственно равны q\ = 1 - р\, q-i - 1 _ Рз- 9з = 1 ~ Рз- Д Определить вероятности P3j0; Л.ь Рз,ъ Л,з> т- е- вероятно- Д сти появления события А ровно 0 раз, ровно 1 раз, ровно 2 раза и ров- Д но 3 раза в трех независимых испытаниях. Д По-прежнему, применяя теорему сложения вероятностей несовме- Д стных событий и теорему умножения вероятностей для независимых Д событий, получим: Д Л,о = 91 92 9з5 Д Л.1 = Р19г9з + 41Р24з + <М?Рз\ Д Л,2 = Р1Рз9з + Р19зРз + 91Р2Рз! Д Рз,3 = Pl Р2 Рз- Д' Эти вероятности можно получить, если перемножить три биномаД (91 + PiZ) (92 + Рз2) (9з + Рзд и привести подобные члены. Тогда коэф-Д фициенты при zm будут соответствовать вероятностям Р3 т (т = 0,1,2,3). Д Действительно, Д (91 + P\Z) (92 + P2Z) (9з + P3Z) ~ Д =91 9г 9з 2° + (Р19г9з + 91Рг9з + 919зРз) Z1 + (Р1Рз4з + Д + P1Q2P3 + 91Р2Рз) Z2 + Pl Р2Р3 Z2 = Л,0 2° + Л,1 Zl + Р3,2 Z2 + Л,3 Z3- Д Распространяя установленную закономерность на произ-Д вольное число независимых испытаний и, можно записать: Д (91 + P1Z) ' (92 + P2Z) ' - ' (Яп + PnZ) = Д =Р„ о 2° + Л,1 zl + р„,2 Z2 +... + Р„, „ 2” П<4<- + = Д л = (5.7.1) Д /л=0 Выражение ]Д(9, + p.z) обозначают <р„ (г) и называют лроизвоД 1=1 д дящей функцией, т. е. Д п Ф»(г)= П(9;+А2)л, (5.7.2) /=1 п где z — произвольный параметр, а символ означает произведение <=1 биномов (q, + pg) (/ = 1,2,..., п). Разложение производящей функции <р„ (z) по степени z дает в качестве коэффициентов при zm вероятности Рп т Итак, вероятность того, что событие А в п независимых ис- пытаниях появится ровно т раз, равна коэффициенту при zm в вы- ражении производящей функции (5.7.2) При р\= Р2 =••• = рп и 41 = 42 - = 4« производящая функ- ция <р„ (z) обращается в л-ю степень бинома (q + pz): <РЛ (2) = (4 + PZ)n. По формуле бинома Ньютона имеем: (4 + PZ) п = 4" + С\pqp'lz + С2п р2 (р-2 z2 +... + р” г” = = рт^-т^п т=0 Итак, <р„ (z) = (4 + pz)n =Хсп Р™ 4п~т ZP, мы пришли к т=0 формуле Бернулли Рп, т = С“ р^ф-”1 как частному случаю про- изводящей функции, когда вероятность появления события в отдельных испытаниях остается постоянной. Следовательно, формулу Бернулли можно рассматривать как частный случай вычисления вероятности Рп т более общего спо- соба через производящую функцию (5.7.2). Составим закон рас- пределения числа элементов, вышедших из строя, в примере 5.15. По условию pi - 0,1, рг = 0,2, р3 = 0,3; q\ ~ 0,9, #г ~ 0,8, qy = 0,7 л = 3. Требуется вычислить вероятности Р3)о! Л,ь Л,г! Л,з- Составим производящую функцию: <Рз(2) = (0,9+0, lz)(0,8+0,2г)(0,7+0,3z) = = 0,504 z° + 0,398 z1 + 0,092 z2 + 0,006 z3. Следовательно, P3>o= 0,504; P31 = 0,398; P3 2 = 0,092; P3 3 = 0,006. Используя результаты вычислений, можно построить ряд распределения числа бракованных элементов т (табл. 5.13): 113 112
Таблица 5.13. Ряд распределения бракованных элементов т 0 1 2 3 Р 0,504 0,398 0,092 0,006 п 3 = £рз,„ = 0,504 + 0,398 + 0,092 + 0,006 = 1,000, как m=0 т=0 сумму вероятностей событий, составляющих полную группу. 5.8. Мультиномиальное распределение1 Напомним, что в биномиальном эксперименте мы класси- фицируем исходы как успехи и неуспехи. Например, извлечение бракованной или годной детали: покупка или непокупка опре- деленного вида товара. Если обобщить ситуацию, то исходы можно классифицировать более чем на две категории. Предпо- ложим, что есть к категорий исходов. Вместо покупки или не- покупки определенного товара мы можем классифицировать со- бытия иначе: «покупка товара А», «покупка товара В», «покупка товара А». Обозначим Х\ — число проданных единиц товара А, Х2 — число проданных единиц товара В,...., — число продан- ных единиц товара К. Вероятностное распределение Х]у Л^,..., Х^ в выборке объемом п есть мультиномиальное распределение с па- раметрами п и вероятностями р\, р2,.-., Рк, где р, — вероятность появления категории i (pt= 1 — q(), и они остаются неизменными от испытания к испытанию и испытания независимы. Формула мультиноминального распределения имеет следую- щий вид: ад.*..«- x,ixj...xk<px'px'~r‘' <581) Пример 5.16. Предположим, что из общего числа семей, живущих на данной тер- ритории, 25% имеют душевые доходы ниже прожиточного минимума 1 Мультиномиальное распределение в литературе также называется полиномиальным. 114
(черты бедности), 35% имеют доходы, равные среднедушевым доходам, у 20% доходы в полтора раза выше средних, а у остальных 20% семей доходы в два и более раз превышают средний душевой доход для дан- ной территории. Пусть А{ есть случайное событие, состоящее в случай- ном, отборе семьи, которая принадлежит к первой группе, Л2, А3 и — аналогичные события, состоящие в случайном отборе семьи, которая принадлежит соответственно ко второй, третьей и четвертой доходным группам. По условию Pi = 0,25; р2= 0,35; р3 = 0,20; р4 = 0,20. Предположим, что для целей обследования необходимо провести случайный повтор- ный отбор1 50 семей для обследования уровня жизни населения. Ка- кова вероятность того, что все отобранные семьи будут бед- ными (т. е. иметь доход ниже прожиточного минимума)? Решение. По формуле (5.8.1) имеем: Р{Х{ = 50, Х2 = 0, Х3 = 0, *4 = 0) = = (50! / 50! 0! 0! 0!)(0,255° 0,35° 0,20°- 0,20° = О,2550 «0. Искомая вероятность практически равна нулю. 5.9. Геометрическое распределение Рассмотрим биномиальный эксперимент с обычными усло- виями. Пусть вместо вычисления числа успехов в независимых испытаниях случайная величина определяет число испытаний до первого успеха. Такая случайная величина распределена по зако- ну геометрического распределения. Вероятности геометрического распределения вычисляются по формуле: Р{т) = pqm~[ , (5.9.1) где т= 1, 2, 3, q — биномиальные параметры. Математическое ожидание геометрического распределения М(т) = \/р, (5.9.2) а дисперсия о2 * * = D(m) = q/p2. (5.9.3) 1 Схема повторного (возвратного) отбора означает, что однажды отобранная семья участвует и дальше в процедуре отбора, так что теоретически она может быть отобрана более одного раза, и каждый раз случайный отбор семьи будет проводиться из совокупности одного и того же состава. 115
Например, число деталей, которые мы должны отобрать до того, как найдем первую дефектную деталь, есть случайная ве- личина, распределенная по геометрическому закону. В чем здесь смысл математического ожидания? Если доля дефектных дета- лей равна 0,1, то вполне логично, что в. среднем мы будем иметь выборки, состоящие из 10 деталей до тех пор, пока не встретим дефектную деталь. Проиллюстрируем геометрическое распреде- ление следующим примером. Пример 5.17. Исследования в некотором регионе показали, что Пепси-Кола за- нимает 33,2% рынка безалкогольных напитков, а Кока-Кола 40,9%. Ис- следователи рынка собираются провести новое исследование, чтобы проверить вкусы и предпочтения потребителей Пепси-Колы. Потенци- альные участники отбираются случайным образом среди потребителей безалкогольных напитков. Чему равна вероятность того, что случайно отобранный потребитель пьет Пепси-Колу? Чему равна ве- роятность того, что среди двух отобранных потребителей безал- когольных напитков первым будет найден потребитель Пепси-Колы? А среди трех? Четырех? Решение. Пусть «успех» в единичном испытании с вероятностью 0,332 есть событие «первый случайно отобранный потребитель предпо- читает Пепси-Колу». Используя геометрическое распределение при т = 1, найдем из формулы (5.10.1): Р(\) = 0,332-0,688° = 0,332. Точно так же первый выбранный человек не будет, а второй будет потребителем Пепси-Колы с вероятностью Д2) = 0,332-0,688’ - 0,2218. Вероятность того, что двое потребителей, не употребляющих Пепси-Колу, будут проинтервьюированы до того, как первый потребитель Пепси-Колы будет найден, равна ЛЗ) = 0,332 0,6882 = 0,1481. И окончательно Р(4) = 0,332 0,6883 = 0,099. 5.10. Задачи к главам 4—5 Задача 1. Строительная инвестиционная компания в настоящий момент продает акции по 16 условных денежных единиц за штуку. Инвестор планирует покупку пакета акций и предполагает хранение их в течение года. Пусть X — случайная величина, 116
означающая цену одной акции спустя год. Ряд распределе- ния X дан в таблице: Цена акции (х) ЛА) 16 0,35 17 0,25 18 0,25 19 0,10 20 0,05 1. Показать, что заданное распределение обладает всеми свойствами ряда распределения. 2. Чему равно ожидаемое среднее значение цены акции спустя один год? 3. Чему равен ожидаемый средний выигрыш от акции спус- тя год? Чему равен процент возврата инвестиций, отра- жаемый этим ожидаемым значением? 4. Определите дисперсию цены акции спустя год. 5. Другая акция с одинаковым ожидаемым значением воз- врата инвестиций имеет дисперсию, равную 3. Какая из акций лучше в смысле минимизации риска или неопре- деленности, ассоциируемой с инвестициями? Объясните. Ответ: 2)17,25; 3)1,25; 4)1,3875. Задача 2. Некоторое предприятие планирует реконструкцию и расши- рение производства для выпуска новой продукции. Руково- дство предприятия должно определить стратегию реконст- рукции и выбрать один из двух проектов, предусматриваю- щих большие и умеренные капитальные вложения. Неопре- деленность заключается в том, что спрос на новую продук- цию, которую собирается выпускать предприятие, неизвес- тен. Будущий спрос может быть низким, умеренным и вы- соким. Вероятности спроса оцениваются как 0,20, 0,50 и 0,30 соответственно. Пусть X означает ежегодный доход 1000 условных денежных единиц. Предприятие планирует следующий доход для проектов с большими и умеренными капитальными вложениями: Доход при значитель- ных вложениях Доход при умеренных вло- жениях Спрос X Р(х) X 0 0,20 50 0,20 100 0,50 150 0,50 300 0,30 200 0,30 117
1. Вычислите ожидаемое среднее значение дохода при двух альтернативных типах реконструкции предприятия. Ка- кое решение предпочтительнее для максимизации ожи- даемого дохода? 2. Вычислите дисперсию дохода для двух альтернативных проектов. Какое решение Вы предпочтете для минимиза- ции риска и неопределенности? Ответ: 1) М (X) = 145; 140; 2) 2725; 12400. Задача 3. На факультете в среднем 10% студентов получают неудовле- творительные оценки при сдаче экзамена по статистике. Предположим, что в группе 20 студентов. 1. Чему равна вероятность того, что двое студентов не сда- дут экзамен? 2. Чему равна вероятность того, что четверо студентов не сдадут экзамен? 3. Чему равна вероятность того, что трое или больше сту- дентов не сдадут экзамен? 4. Чему равно ожидаемое среднее число студентов, которые не сдадут экзамен? Ответ: 1)0,270; 2)0,0898; 3)0,3231; 4)2. Задача 4. В случае нормальной настройки автоматического станка толь- ко 1% выпускаемых деталей — дефектные. Предположим, что автомат настроен нормально. 1. Из большой партии выпущенных деталей случайно ото- браны две. Чему равна вероятность того, что одна из них с дефектом? 2. Из большой партии выпущенных деталей случайно ото- браны пять штук. Чему равна вероятность того, что все они без дефектов? 3. Дневной выпуск деталей составил 200 штук. Чему равно ожидаемое среднее число дефектных деталей? 4. Чему равно среднее квадратическое отклонение числа дефектных деталей в партии из 200 деталей? Ответ: 1)0,0198; 2)0,9510; 3)2; 4)1,4071. Задача 5. Торговый агент в среднем контактирует с восемью потенци- альными покупателями в день. Из опыта ему известно, что вероятность того, что потенциальный покупатель совершит покупку, равна 0.1. 1. Чему равна для агента вероятность двух продаж в течение одного дня? 2. Чему равна вероятность того, что у агента будут хотя бы две продажи в течение дня? 3. Чему равна вероятность того, что в течение одного дня не будет продаж? 118
4. Чему равно ожидаемое среднее число продаж в течение дня? Если агент работает пять дней в неделю, какое чис- ло продаж он может ожидать? Ответ,: 1) 0,1488; 2) 0,1869; 3) 43%; 4) 4. Задача 6. В ходе аудиторской проверки строительной компании аудитор случайным образом отбирает пять счетов. Если 3% счетов содержат ошибки, чему равна вероятность того, что аудитор найдет следующее: 1. Только один счет будет с ошибкой? 2. Хотя бы один счет будет с ошибкой? Ответ; 1) 0,1328; 2)0,1413. Задача 7. Прибытие посетителей в банк подчиняется закону Пуассона. Ответьте на следующие вопросы, предполагая, что в среднем в банк каждые три минуты входит один посетитель: 1. Чему равна вероятность того, что в течение 1 минуты в банк войдет один посетитель? 2. Чему равна вероятность того, что по крайней мере три посетителя войдут в банк а течение одной минуты? Ответ: 1) 0,2222; 2) 0,5768. Задача 8. Некоторый ресторан славится хорошей кухней. Управляющий ресторана хвастает, что в субботний вечер в течение получа- са подходит до 15 групп посетителей. 1. Чему равна вероятность того, что в течение 5 минут не подойдет ни одного посетителя? 2. Чему равна вероятность того, что в течение 10 минут по- дойдет восемь групп посетителей? 3. Чему равна вероятность того, что три или более групп посетителей прибудут в ресторан в течение 10-минутного промежутка времени? Задача 9. В течение семестра преподаватели проводят консультации по вопросам, которые остались неясными для студентов. Пре- подаватель, проводящий консультации по статистике, заме- тил, что в среднем восемь студентов посещают его за час консультационного времени, хотя точное число студентов, посещающих консультацию в определенный день, в назна- ченный час, — случайная величина. Используя распределе- ние Пуассона, ответьте, пожалуйста, на следующие вопросы: 1. Чему равна вероятность того, что ровно восемь студентов посетят в течение определенного часа консультацию по статистике? 2. Чему равна вероятность того, что трое студентов придут на консультацию в течение определенного получаса? Ответ: 1) 0,1396; 2) 0,1954. Задача 10. В течение часов-пик в общественном транспорте города проис- ходит в среднем два дорожных происшествия в час. Утреннее время пик длится полтора часа, в вечернее — два часа. 119
1. Чему равна вероятность того, что в определенный день в ут- | реннее время пик произойдет три дорожных происшествия? | 2. Чему равна вероятность двух дорожных происшествий в течение вечернего времени-пик? 3. Чему равна вероятность того, что в определенный день в течение и утреннего, и вечернего времени не произойдет ни одного дорожного происшествия? Ответ;, 1) 0,2240; 2) 0,14656; 3)0,000912. Задача И. В международном аэропорту время прибытия самолетов раз- личных рейсов высвечивается на электронном табло. Появ- ление информации о различных рейсах происходит случайно и независимо друг от друга. В среднем в аэропорт прибывает 10 рейсов в час. 1. Чему равна вероятность того, что в течение часа на табло не будет информации о прибытии самолетов? 2. Чему равна вероятность того, что в течение часа прибудут не менее трех рейсов? j 3. Чему равна вероятность того, что в течение четверти часа не прибудет ни одного рейса? 4. Чему равна вероятность того, что в течение четверти часа прибудет хотя бы один рейс? Ответ: 1) 0,000045; 2) 0,010245; 3) 0,0521; 4) 0,9179. Задача 12. В лотерее на 100 билетов разыгрываются две вещи, стоимо- сти которых 210 и 60 условных денежных единиц. Составил» закон распределения суммы выигрыша для лица, имеющего; один билет; б) два билета. Стоимость билета 3 условные единицы. Убедиться в справедливости свойства о математи- ческом ожидании суммы случайных величин. Задача 13. На фирме работает 500 сотрудников. Какова вероятность того, что 1 января является днем рождения одновременно для к сотрудников фирмы? Вычислить указанную вероятность для значений к = 0, 1, 2, Ответ: 0,2541; 0,3481; 0,2385; 0,1080. Задача 14. На абонементное обслуживание поставлено 5 телевизоров. Известно, что математическое ожидание числа отказов в ра- боте в год для пяти телевизоров равно единице. Если телеви-; зоры имеют одинаковую вероятность безотказной работы, то; какова вероятность, что за год потребуется хотя бы один ре- монт? Ответ: 0,67232. Задача 15. Предположим, что среднее число посетителей, прибываю-! щих в банк в течение 30 минут, равно 5. Банку необходимо] знать вероятность того, что 4 посетителя прибудут в банк в] течение 30 минут. j Ответ: 0,1755. | 4 Задача 16. В карточной игре игрок, который извлекает из колоды карт (52 карты) валет или даму, выигрывает 15 очков; тот, кто вы- тащит короля или козырного туза, выигрывает 5 очков. Иг- рок, который достанет любую другую карту, проигрывает 4 очка. Если Вы решили участвовать в этой игре, определите сумму очков среднего ожидаемого выигрыша. Ответ: М(Х) = 0,3077. Задача 17. На торговой базе для продажи приготовлена партия из 10 моторов стоимостью в 100 условных денежных единиц каждый. Если покупатель в приобретенной партии обнару- жит хотя бы один неисправный мотор, то ему возвращается I его двойная стоимость. Найти ожидаемую чистую прибыль для продавца, если вероятность дефекта для любого мотора равна 0,08. Ответ: 840 усл. ден. ед. Задача 18. Нефтеразведывательная компания получила финансирование для проведения 10 нефтеразработок. Вероятность успешной нефтеразведки 0,1. Предположим, что нефтеразведки осуще- ствляют независимые друг от друга разведывательные пар- тии. Найти математическое ожидание и дисперсию числа успешных разведок. Ответ: М(Х) = 1; D(X) = 0,9. Задача 19. Два строительных контракта случайным образом распреде- ] ляются среди трех фирм: I, II, III. Любая фирма может по- лучить или один, или оба контракта. С каждого полученного j контракта прибыль фирмы составит 90000 условных денеж- f ных единиц. ? а) Найдите ожидаемую прибыль фирмы /. б) Если фирмы / и II принадлежат одному владельцу, то ка- кова ожидаемая общая прибыль владельца? Ответ: М(средняя прибыль) = 60000, М(общая прибыль) = 120000. .Задача 20. Число телефонных звонков, поступающих в справочное бю- ро от абонентов между полуднем и часом дня в любой день В недели, есть случайная величина X, заданная так: х i 0 1 2 3 4 5 PUO-P, 0,3 0,2 0,2 0,1 0,1 0,1 а) Убедиться, что задан ряд распределения. б) Найти функцию распределения случайной величины X. в) Используя F(x), определить вероятность того, что между 12 ч 34 мин и 12 ч 35 мин в справочное бюро поступит больше двух звонков. Ответ: в) Р(Х>2) ~ 0,3. 121 120
Задача 21. Число ошибок на страницу, которые делает некоторая ма- I шинистка, есть случайная величина X, заданная следующим 1 образом: ] 0 1 2 3 4 5 6 0,01 0,09 0,30 0,20 0,20 0,10 0,10 а) Убедиться, что задан ряд распределения. б) Найти функцию распределения случайной величины X. в) Используя F(x), определите вероятность того, что маши- i нистка сделает более двух ошибок на страницу. 1 г) Определить вероятность того, что ею будет сделано не бо- i лее 4 ошибок на страницу. j Ответ: в) 0,6; г) 0,8. I Задача 22. Процент людей, купивших новое средство от головной боли| после того как увидели его рекламу по телевидению, есть! случайная величина, заданная так: 1 xi 0 10 20 30 40 50 PV0 = Pi 0,10 0,20 0,35 0,20 0,10 0,05 [’ а} Убедиться, что задан ряд распределения. 1 б) Найти функцию распределения. I в) Определить вероятность того, что более 20% людей от-] кликнутая на рекламу. 1 Ответ: в) 0,35. | Задача 23. В автомагазине ведется ежедневная запись числа продаваемых! машин. Эти данные использованы для составления вероятно-] стного распределения следующих ежедневных продаж: | X/ 0 1 2 3 4 5 i P(X)=Pi 0,1 0,1 0,2 0,2 0,3 0,1 j а) найти вероятность того, что завтра число проданных ав-| томобилей будет от 2 до 4 (включая 2 и 4); | б) составить функцию распределения числа автомобилей! продаваемых ежедневно. | Ответ: а)0,7. 1 Задача 24. Бросаются 2 игральные кости. Пусть X — сумма выпавший очков на верхних гранях этих костей. 1 Составить закон распределения X: | 122
б) чему равна наиболее вероятная сумма выпавших очков? Ответ: б) 7. Задача 25. Число иногородних судов, прибывающих ежедневно под погрузку в определенный порт, — случайная величина х, за- данная так: Xi 0 1 2 3 4 5 PV0 = Pi 0,1 0,2 0,4 0,1 0,1 0,1 а) Убедиться, что задан ряд распределения; б) найти функцию распределения; в) используя функцию распределения, найдите вероятность того, что в заданный день прибудет от 1 до 4 грузовых судов (включая 1 и 4); г) если в заданный день прибывает больше трех судов, то порт берет на себя ответственность за издержки вследствие необходимости нанимать дополнительных водителей и груз- чиков. Чему равна вероятность того, что порт понесет до- полнительные расходы в заданный день? д) предположим, что числа судов, прибывающих в различ- ные дни, есть независимые друг от друга случайные величи- ны. Чему равна вероятность того, что ни один из этих судов не прибудет в течение 5 рабочих дней? е) вновь предполагая независимость приходов под погрузку в различные дни, вычислить вероятность того, что порт поне- сет дополнительные расходы в течение двух дней подряд. Ответ: в)0,8; г)0,2; д)0,00001; е)0,04. Задача 26. Число яхт, сходящих со стапелей маленькой верфи, — случай- ная величина, заданная следующим рядом распределения: X/ 2 3 4 5 6 7 8 0,20 0,20 0,30 0,10 0,10 0,05 0,05 а) Чему равна вероятность того, что число яхт, построенных в следующем месяце, будет находиться в пределах между 4 и 7 (включая оба значения)? б) Найти функцию распределения. в) Используя функцию распределения, оценить вероятность того, что число яхт, построенных в течение месяца, будет не более 6. г) Вычислить вероятность того, что число яхт будет более 3, но не более 6. Ответ: а)0,55; 6)0,9; д)0,5. 123
Задача 27, Число дефектов в продукции, производимой автоматом, — случайная величина J, заданная рядом распределения: X, 0 1 2 3 4 0,1 0,2 о,з 0,3 0,1 а) Найти Р (1 <¥<3) б) Определить Р (1<Х<4) в) Построить функцию распределения Ответ: а)0,6; в)0,9. Задача 28. Журнал «Деньги» в одном из номеров поместил информа- ; цию о том, что возврат инвестиций на российском рынке в 1990 г. ожидался более высоким, чем от аналогичных инве- стиций на американском рынке. Консультант по инвестици- ям, советующий вкладывать средства в российский рынок, полагает, что вероятностное распределение возврата инве- ' стаций (% в году) в один из таких проектов имеет вид: х{- 9 10 11 12 13 14 15 Р(Л) = А 0,05 0,15 0,30 . 0,20 0,15 0,10 0,05 а) Убедиться, что задан ряд распределения. б) Чему равна вероятность того, что возврат инвестиций бу- : дет составлять по крайней мере 12%. в) Построить функцию распределения. Ответ: 6)0,5. Задача 29. Для того чтобы проверить точность своих финансовых сче- тов, компания регулярно пользуется услугами аудиторов для проверки в бухгалтерских проводках счетов. Предположим, что служащие компании при обработке входящих счетов до- пускают примерно 5% ошибок. Аудитор случайно отбирает 3 входящих документа. а) Найти закон распределения случайной величины , числа ошибок, выявленных аудитором. б) Построить функцию распределения и ее график (вероятност-’ ную гистограмму). в) Определить вероятность того, что аудитор обнаружит бо- лее чем одну ошибку. Ответ: а) Р(0)=0,857375; Р( 1)^0,135375; Р(2)-0,007125; Р(3)~0,000125; в) 0,00725. Задача 30. Найти ожидаемое среднее значение случайной величины для условия задачи 20. Найдите также дисперсию и стандартное! отклонение. 1 Ответ: М(Х) = 1,8; о2 = 2,76; о= 1,66. 5 I Задача 31. Найти ожидаемое значение случайной величины X для усло- вия задачи 21. Ответ: 3,19. Задача 32. Чему равен ожидаемый процент людей, откликнувшихся на рекламу, если ряд распределения такой же, как в задаче 22. Чему равны дисперсия и среднее квадратическое отклонение? Ответ: 21,5%; 162,75; 12,7574. Задача 33. Для ряда распределения, приведенного в задаче 23, рассчи- тать ожидаемое среднее число машин, продаваемых еже- дневно, а также дисперсию и среднее квадратическое откло- нение. Ответ: 2,8; 2,16; 1,4697. Задача 34. По ряду распределения, соответствующему условию задачи 24, вычислить среднюю ожидаемую сумму выпавших очков, дисперсию и среднее квадратическое отклонение. Ответ: 7; 5,83333; 2,4152. Задача 35. По данным условия задачи 25 определить, чему равна веро- ятность того, что в какой-то определенный день число при- бывающих судов превысит ожидаемое среднее. Ответ: 0,3. Задача 36. Исходя из данных условия задачи 26 подсчитать ожидаемое среднее число построенных яхт, дисперсию и среднее квад- ратическое отклонение. Ответ: 4,05; 2,7475; 1,6575. Задача 37. Средний годовой возврат (процент доходности) некоторой акции составляет 8,3%. Дисперсия этого возврата равна 2,3. Для другого типа акций средняя доходность составляет 8,4% в год, а дисперсия равна 6,4. Покупка какой из акций более рисковая? Почему? Задача 38. Доход от некоторого рискованного бизнеса составляет сумму около 1000 условных денежных единиц с заданным рядом распределения: Xl -2000 -1000 0 1000 2000 3000 Р(Х)=р, 0,1 0,1 0,2 од 0,3 о,1 Замечание: -2000; —1000 означают убыток. а) Какой наиболее вероятностный денежный доход риско- ванного бизнеса? б) Является ли этот риск вероятностно-успешным? Объясните. в) Чему равен на длительный период средний доход от этого бизнеса? г) Какова хорошая мера риска вложений в такое рискован- ное предприятие? Почему? Вычислите эту меру. Ответ: в)800. 124 125
Задача 39. Исходя из закона распределения ежедневных продаж авто- мобилей, соответствующего данным условия задачи 23, оп- ределить, чему равна ожидаемая средняя сумма заработка продавца, если предположить, что он зарабатывает сумму, которая рассчитывается приблизительно как корень квадрат- ный из числа проданных автомобилей, умноженный на 300 условных денежных единиц. Ответ: 465,85797. Задача 40. Чему равна ожидаемая средняя сумма заработка конструкто- ра яхты по условию задачи 26, если предположить, что кон- структор зарабатывает в месяц фиксированную сумму, рав- ную 25000 условных денежных единиц плюс 5000 условных денежных единиц за каждую сошедшую со стапелей яхту? Ответ: 39000 усл. ден. ед. Задача 41. Для закона распределения задачи 21 определить ожидаемую среднюю сумму штрафа, если предположить, что штраф, предъ- являемый машинистке за ошибки, исчисляется как корень квадратный из числа ошибок на страницу и каждая единица приравнивается к 1 рублю . Ответ: 1,73 усл. ден. ед. Задача 42. Сегодня люди имеют больше возможностей выбирать раз- личные товары, а не пользоваться одними и теми же, как в прошлом. Так, например, производители телефонов предла- гают до 1000 различных видов телефонов (цвет, тип, воз- можности, портативность и т.д.). Большая компания откры- ла региональный офис и каждому из 200 сотрудников позво- лила выбрать любой телефон интересующего их типа. Пред- положим независимость выбора телефонов и то, что 1000 различных комбинаций видов телефонов равновероят- ны. Чему равна вероятность того, что выбор определенного вида телефона будет сделан одним, двумя, тремя или че- тырьмя сотрудниками? Ответу 0,1638; 0,0164; 0,0011; 0. Задача 43. По данным ряда распределения, соответствующего условию задачи 40 определить дисперсию и среднее квадратическое!; отклонение. Ответ: 54000000; 7348,4692. Задача 44. Под руководством бригадира производственного участка рабо- ] тают три мужчины и три женщины. Бригадиру необходимо! выбрать двух рабочих для специальной работы. Он не Желаем показать, что имеет какие-либо предпочтения и решает вы-1 брать двух рабочих случайно. Пусть Y означает число женщин j в его выборе. Составить закон распределения Y. | Ответ: Р(0)=4),2; Р(1)=0,6; Р(2)=0,2. 1 Задача 45. Для участия в судебном процессе из 20 потенциальных кан-1 дидатов, среди которых 8 женщин и 12 мужчин, выбирают! 6 присяжных заседателей. После отбора в группе оказалась! 126 I
только одна женщина. Имеется ли причина сомневаться в случайности выбора? Ответ: 0,1635. Задача 46. Приблизительно 10% бутылок бракуются на линии из- за серьезных трещин в стекле. Если 2 бутылки отобраны слу- чайно, найдите среднюю и дисперсию числа бутылок, имеющих серьезные дефекты. Ответ: .0,2; 0,18. Задача 47. Вероятность взять высоту при прыжке, которая является нормой для мастера спорта, равна р < 1. Настойчивый спортсмен повторяет попытки, пока не добьется успеха. Ка- ! кова вероятность, что ему это удастся не раньше чем с ’ третьего раза, если по статистике среднее число попыток f равно 5. 1 Ответ: 0,64. | Задача 48. В некотором универмаге осуществляется контроль чеков. | Покупатели подходят к кассе в соответствии с распределени- I ем Пуассона в среднем 7 человек в час. Чему равна вероят- I ность того, что войдут: I а) не более чем 3 покупателя? j б) по крайней мере 2 покупателя? к в) 5 покупателей? I Ответ: а)0,0817; б) 0,863; в)0,1277. I Задача 49. В налоговую инспекцию поступила информация, что в фир- ме «А» 20% списочного состава — «мертвые души». Прове- I ряюший инспектор отбирает случайным образом 4 наряда на К выполненные работы и ищет работников, на которых они В были выписаны. Какова вероятность, что среди четырех слу- чайно выбранных нарядов не будет ни одного фиктивного? В Будет хотя бы один фиктивный? В Ответ: 0,4096; 0,5904. Задача 50. Согласно статистическим данным вероятность того, что 25- В летний человек проживет еще один год, равна 0,998. Страхо- вая компания предлагает 25-летнему человеку застраховаться В на сумму 1000000 руб. Страховой взнос равен 3000 руб. Ка- В кую прибыль ожидает получить компания при страховании В одного 25-летнего человека? В Ответ: 1000 руб. Задача 51. Записи страховой компании показали, что 30% держателей В страховых полисов старше 50 лет предъявили претензии на В полученные страховки. Для проверки было отобрано В 15 человек, имеющих полисы. Чему равна вероятность того, В что по крайней мере 10 человек проявят тревогу в течение В : следующего года? В, Ответ: 0,0037. 127
Задача 52. В некоторой области вероятность того, что человек увидит цветную рекламу, равна 0,2. Выбраны случайно 10 человек. Чему равна вероятность того, что: а) 5 из них увидят рекламу; б) по крайней мере 2 человека видели ее. Ответ: а)0,026; б) 0,6242. Задача 53. Число опечаток, которые делает некая машинистка, подчи- няется закону Пуассона со средним значением 4 опечатки на страницу. Если машинистка делает более чем 4 опечатки, то она обязана перепечатать всю страницу. Чему равна вероят-. ность того, что определенная страница будет перепечатана? Ответ: 0,629. Задача 54. Исходя из условия задачи 18, предположим, что фирма име- ет фиксированную сумму $20000 для подготовки оборудова- ния к первой разведке. За каждую успешную разведку она получает $30000, а за неудачу — $15000. Найти ожидаемую общую стоимость 10 разведок. Ответ: $185000. Задача 55. Экзаменационный тест имеет 15 вопросов, каждый из кото- рых имеет 5 возможных ответов и только 1 из них — вер- ный. Предположим, что студент, который сдает экзамен, ие знает ответов на вопросы. Чему равна вероятность правиль- но ответить ему по крайней мере на 10 вопросов? Ответ: 0,0001. Задача 56. Фирма предлагает в продажу со склада партию из 10 компь- ютеров, 4 из которых — с дефектами. Покупатель приобре- тает 5 из них, не зная о возможных дефектах. Чему равна вероятность того, что все 5 компьютеров окажутся без де- фектов? Ремонт одной дефектной машины будет стоить $50. Найдите математическое ожидание общей средней стоимо- сти ремонта и его дисперсию. Ответ: 0,0238095; М(Х)=$100; D(X)=$16667. Задача 57. Продавец ювелирного магазина заметил, что вероятность про- дажи украшения при единичном контакте с покупателем пр» близительно равна 0,03. В течение рабочего дня к продавц) обратилось 100 посетителей его отдела. Чему равна вероят- ность того, что он продал по крайней мере одно изделие? Ответ: 1 — 0,97100. Задача 58. Представитель фирмы, торгующей оборудованием для тяже лой промышленности, ежедневно встречается с 1 или 2 nd купателями с вероятностями 1/3 и 2/3. В результате кажда встречи продавец может реализовать оборудование 50000 условных денежных единиц с вероятностью 0,9. ( ставьте распределение ежедневных продаж. Найдите мате! тическое ожидание и дисперсию стоимости продаж. Ответ: М (Y)=8,333; D (Y)=380,5558. 128 6 Непрерывные случайные величины 6.1 Определение непрерывной случайной величины. Функция распределения непрерывной случайной величины Напомним, что когда мы характеризовали случайные вели- [ чины, то отметили, что они бывают дискретными и непрерыв- ными. У дискретной случайной величины множество возможных значений — отдельные, изолированные точки на числовой пря- ; мой, которые можно записать в виде конечной или бесконечной последовательности. Непрерывной случайной величиной называют случайную величину, \ которая может принимать любые значения на числовом интервале. \ Примеры непрерывных случайных величин: возраст студен- ’ тов, длина ступни ноги человека, масса детали и т.д. Это поло- жение относится ко всем случайным величинам, измеряемым на непрерывной шкале, таким, как меры веса, длины, времени, температуры, расстояния. Количество осадков, выпадающих в определенный месяц на определенной площади, — непрерывная случайная величина, которая может принять значение, напри- мер, 2,012, 2,0122... и т.д. Измерение может быть проведено с точностью до какого-нибудь десятичного знака, но случайная величина — теоретически непрерывная величина. В экономиче- ском анализе находят широкое применение относи- тельные величины, различные индексы экономиче- ского состояния, которые также вычисляются с определенной F точностью, скажем, до двух знаков после запятой, хотя теорети- • чески их значения являются непрерывными случайными вели- чинами. Вычислить вероятность того, что количество осадков будет точно равно 2,01200...мм, невозможно, но можно вычис- лить вероятность того, что оно будет заключено в границах не- которого интервала. У непрерывной случайной величины возможные значения заполняют некоторый интервал (или сегмент) с конечными или бесконечными границами, и эти значения нельзя представить в виде последовательности. 129 5 Теория статистики с основами теории вероятностей
Закон распределения непрерывной случайной величины можно задать в виде интегральной функции распределения, кото- рая является наиболее общей формой задания закона распреде- ления случайной величины, а также в виде дифференциальной функции (плотности распределения), которая используется для описания распределения вероятностей только непрерывной слу- чайной величины. Функция распределения (или интегральная функция) F(x) явля- ется универсальной формой задания закона распределения случайной величины. Для непрерывной случайной величины функция рас- пределения также определяет вероятность того, что случайная величина X примет значение, меньшее фиксированного действи- тельного числа х, т. е. F(x) — P(X<x). (6.1.1) Если значения случайной величины X изобразить точками на оси Ох, то Дх) есть вероятность того, что случайная величина X примет значение, расположенное левее точки х (рис. 6.1). Х<х , ----1-----------------1------► х О х ; Рис. 6.1. Геометрическая интерпретация события х При изменении х меняются вероятности Р(Х < х)=Дх). По- ; этому Дх) и рассматривают как функцию переменной величи- ны. Принято считать, что случайная величина X известна, если! известна ее функция распределения Дх). Теперь можно дать более точное определение непрерывной случайной величины: случайную величину называют непрерывной, если ее функция распределения есть непрерывная, кусочно- дифференцируемая функция с непрерывной производной. 6.2. Свойства функции распределения (для дискретных и непрерывных случайных величин) 1. Функция распределения есть неотрицательная функция, за- ключенная между 0 и 1, т. е. О < Дх) £ 1. 130
Доказательство ясно, так как F(x) — вероятность, а любая вероятность 0 < Р(А) < 1. 2. Функция распределения есть неубывающая функция, т. е. F(x2) > F(xi), если х2>Х[. Доказательство проведем с помощью рис. 6.2. Х<х, Х<х1 > X Рис. 6.2. Представление события Х<хг в виде суммы двух событий Пусть х2 > хь Событие X < х2 можно представить в виде сум- мы двух несовместных событий: (X < хО и (Х] < X < х2). Тогда по теореме сложения вероятностей несовместных событий Л*<х2) = Л^<х,) + Л*1 < Х< х2). Отсюда P(xt< Х< х2) = Р(Х<х2) — Р(Х<х\) = Дх2) - Дх^. Так как любая вероятность есть число неотрицательное, то P(xi<X< х2) > 0, а следовательно, Дх2) — F(xt) > 0 и Дх2) > ДХ]). Следствие 1. Вероятность того, что случайная величина X примет значение, заключенное в интервале (а, р), равна прираще- нию функции распределения на этом интервале, т. е. Дай X < Р) = Др) - Да). (6.2.1) Следствие 2. Вероятность того, что непрерывная случайная величина X примет одно определенное значение, равна нулю. В самом деле, если в формуле (6.2.1) а= xb а р= Х] + Дх, то получим Дх1< X < xi+ Дх) = F(xj + Дх) — Дх1). Устремим х к нулю. Так как X — непрерывная случайная величина, то и функция Дх) — непрерывна и в силу непрерывности в точке xj разность F(xi + Дх) — ДхО стремится к нулю. Следователь- но, lim [Дх, + Дх) — ДхЛ = 0, a lim Дх]й X < xj+ Дх) = Лх-»0 =ДУ=Х1) = 0. Итак, Л^=х,) = 0. (6.2.2) Согласно сказанному, равенство нулю вероятности Р(Х— Х|) не всегда означает, что событие Х=х\ невозможно. Говоря о ве- 5* 131
роятности события Х=х^ как бы априорно пытаются угадать, какое значение примет случайная величина в опыте. Если Xi лежит в области возможных значений непрерывной ( случайной величины X, то с некоторой уверенностью можно Д предсказать область, в которую случайная величина может по- пасть. В то же время невозможно угадать, хотя бы с малейшей степенью уверенности, какое конкретное значение из бесконеч- ного числа возможных примет непрерывная случайная величи- на. Именно это обстоятельство и отражает условие (6.2.2). Вме- сте с тем следует понимать, что в каждом опыте реализуется од- но, вполне конкретное значение случайной величины. И на практике тот факт, что непрерывная случайная величина имеет нулевую вероятность, не должен нас волновать. Например, если метеослужба объявляет, что температура В воздуха в полдень составила 5°С, то это не означает, что темпе- ратура будет точно равна этому значению. Вероятность такого события равна нулю. Аналогично, если студенту 21 год, то это не означает, что ему точно 21 год; его возраст может быть рав- ным любому дробному числу: 21,5 года или 21 год и 2 месяца и т.п. Если X — возраст, то Д.¥=21) = 0 Используя формулу (6.2.2), можно показать, что AasX< р) = Да<Х< р) = Да< Х< р) = Да£%< р) . (6.2.3) Так как для непрерывных случайных величин Р(х = Х[) = 0, то формулы, приведенные в табл. (4.3), упрощаются и имеют вид: ДХ< х) = Дх) = Д(х); Р(Х> х) = ДХ > х) = 1 - Дх) = 1 - Д(х). На основании формул (6.2.1) и (6.2.3) получим: Да< Х< р) = Да<Х< р) = Да<Х<; р) = Да<Х< р) = = Др) - F(a) = Д(Р) - Д(а). 3. Если все возможные значения случайной величины принадле- жат интервалу (а, Р), то Дх) = 0 при х < а; Дх) = 1 при х > р. (6.2.4) ! В самом деле, Дх) = 0 для всех значений х £а и Дх) = при х > р, поскольку события X < х для любого значения х <аЩ являются в этом случае невозможными, а для любого значения х > р — достоверными. Следствие. Если возможные значения непрерывной случайной величины расположены на всей оси ОХ, то справедливы следующие предельные соотношения: lim Дх) = 0; lim Дх) = 1, (6.2.5) или Д-оо) = 0, Д+оо)=1. Это следствие справедливо и для дискретных случайных ве- личин. 6.3. График функции распределения для непрерывной случайной величины Исходя из перечисленных выше свойств Дх) может быть представлен график функции распределения (рис. 6.3). ад 4 Лх)=1 ₽ Рис. 6.3. График функции распределения непрерывной случайной величины График функции распределения смешанной случайной вели- чины — кусочно-непрерывная функция (рис. 6.4). Дх) *1 О Рис. 6.4. График кусочно-непрерывной функции распределения 132 133
6.4. Плотность распределения вероятностей непрерывной случайной величины (дифференциальная функция) Плотностью распределения вероятностей непрерывной случай- ной величины X называется функция f(x), равная первой производ- ной от функции распределения F(x): fix) = (6.4.1) гдеДх) — дифференциальная функция распределения. Дифференциальная функция применяется только для описания распределения вероятностей непрерывных случайных величин. 6.5. Вероятность попадания непрерывной случайной величины в заданный интервал Вероятность того, что непрерывная случайная величина примет значение, принадлежащее интервалу (а,р), равна определенному инте- гралу от дифференциальной функции, взятому в пределах от а до Д _ . Ла< Х< р) = J fix) dx . (6.5.1) S а Используя соотношения (6.2.2) и (6.2.1), получим ₽ Р{а.< Х< Р) = Р(а< Х< Р) = J fix) dx. а Геометрически этот результат равен площади криволинейной трапеции, ограниченной осью ОХ, кривой распределения fix) и прямыми х = а, х = р. 6.6. Нахождение функции распределения по известной плотности распределения Зная плотность распределения fix), можно найти функцию распределения F(x) по формуле: F[x) = J fix) dx. (6.6.1) 134
В самом деле, так как неравенство X < х можно записать в виде двойного неравенства1: X —<ю< X < х, то F(x) — Р(~<х>< Х< х) = J ftxjdx (рис. 6.5). 00 Дх) 4 а р Рис. 6.5. Связь функции распределения с плотностью распределения Таким образом, для полной характеристики непрерывной случайной величины достаточно задать или функцию распреде- ления, или плотность ее вероятности. Однако в большинстве случаев имеют дело с плотностью вероятности из-за удобств при теоретических исследованиях и из-за простой геометрической интерпретации. 6.7. Свойства дифференциальной функции Дх) 1. Дифференциальная функция — неотрицательная функция'. Дх) > 0. (6.7.1) Это следует из того, что Дх) — неубывающая функция, и значит ее производная неотрицательна. 2. Несобственный интеграл от дифференциальной функции в пределах от — <ю до +<» равен Г. 1 Это равенство, в частности, поясняет термин «интегральная функция распре- деления». 135
-co J Дх) dx = 1. + 00 (6.7.2) Очевидно, что этот интеграл выражает вероятность досто- верного события: — оо< X < + оо. 6.8. Вероятностный смысл дифференциальной функции Так как по определению fix) = F(x), то F(x + Дх) - F(x) .. Р(х<Х<х + Дх) fix) = lim — -------— = lim —о-------------- , Дх-»0 Дх Дх-»0 Дх Р(х < X <х + Дх) где lim ------------- называется плотностью вероятности в Дх-*0 Дх точке. Вероятностный смысл fix) заключается в том, что она явля- ется плотностью вероятности По определению предела: Р(х^Х<х + Лх) „ . . lim — ------------ — fix) + а, Дх-»0 Дх где а — бесконечно малая величина, а->0 при Дх ->0. Отсюда Р(х <Х <х+Дх) « fix) • Дх + а • Дх, где а • Дх есть бесконечно малая величина более высокого порядка, чем f (х)Дх. Значит, бесконечно малой величиной а • Дх можно пренебречь и записать: Дх <Х <х+Дх) */(х) • Дх или 1 По аналогии с определением плотности массы в точке целесообразно рассмат- ривать значение функции fix) как плотность вероятности в этой точке. Если масса непрерывно распределена вдоль оси Ох по некоторому закону, на- пример Дх), то плотностью р(х) массы в точке х называют предел отношения массы интервала (х; х + Дх) к длине интервала при Д х->0, т.е. р(х) = F(x + Дх) - F(x) = lim ------------------• Дх->0 Дх 136
Р(х <А<х+Дх) « Дх) dx (Лх ®dr). Итак, Дх) dx — это вероятность попадания случайной вели- чины х в интервал длиной Ьх. Дх) dx и Р(х <Х <х+£хх). (6.8.1) Эту вероятность называют элементом вероятности. 6.9. Числовые характеристики непрерывных случайных величин Определим математическое ожидание и дисперсию для не- прерывных случайных величин. Математическим ожиданием непрерывной случайной величины называется несобственный интеграл вида: 00 М(Х) = J хДх) dx . (6.9.1) -со Дисперсией непрерывной случайной величины называется несоб- ственный интеграл вида: со Л*) = п2= J (х - ЛДА))2Дх) dx . (6.9.2) -со Средним квадратическим отклонением непрерывной случайной величины называется квадратный корень из дисперсии: cs=^D(X) . (6.9.3) Для числовых характеристик непрерывных случайных вели- чин справедливы те же свойства, что и для дискретных. В част- ности, для дисперсии непрерывной случайной величины спра- ведлива формула: со Л*)= J хУ(х) dx -[М(Х)У= М(#) - Afi(X). (6.9.4) 137
6.10. Моменты случайных величин Начальным моментом к-го порядка (иЦ случайной величины X называется математическое ожидание ее £-й степени: Дискретная случайная величина Непрерывная случайная величина X xk, Pi- (6.10.1) v*= J (6.10.2) Центральным моментом к-го порядка (цк) случайной величи- ны X называют математическое ожидание к-ой степени откло- нения случайной величины X от ее математического ожидания: Дискретная случайная величина Непрерывная случайная величина Ht= S [х, -М(Я)]*Л. (6.10.3) «*=/ “ M(X)]kfix) dx. (6.10.4) i=l Заметим, что начальный момент первого порядка представ- ляет собой математическое ожидание случайной величины, а центральный момент второго порядка Ц2 — дисперсию случай- ной величины. Центральный момент третьего порядка применяется для ха- рактеристики скошенности или асимметрии распределения (коэффициент асимметрии): Нт (бЛ0-5> а Центральный момент 3-го порядка применяется для характе- ристики крутости или эксцесса распределения (коэффи- циент эксцесса): Ек = - 3. (6.10.6) а4 Величина хр, определяемая равенством F(xp) = Р (Х<хр), на- зывается квантилем; квантиль xq s называют медианой. Если плотность имеет максимум, то значение х, при котором Дх) = max, называется модой. 138
Законы распределения непрерывных случайных величин 7.1. Нормальное распределение Наиболее важным распределением непрерывных случайных величин является нормальное распределение. Множество явле- ний в практической жизни можно описать с помощью модели нормального распределения, например, распределение высоты деревьев, площадей садовых участков, массы людей, дневной температуры и т. д. Нормальное распределение используется и для решения многих проблем в экономической жизни. Это, на- пример, распределение числа дневных продаж в магазине, числа посетителей универмага в неделю, числа работников в некото- рой отрасли, объемов выпуска продукции на предприятии и т. д. Чем различаются распределения дискретных и непрерывных слу- чайных величин? Для дискретных случайных величин можно най- ти вероятность того, что, скажем, успех наступит 5 раз в 10 ис- пытаниях, но для непрерывных случайных величин мы не мо- жем найти вероятность того, что масса какого-либо человека равна, например, точно 80,456 456 456 кг. Как и для любой не- прерывной случайной величины вероятность того, что нормаль- но распределенная случайная величина примет любое опреде- ленное значение, равна нулю. Это положение относится ко всем случайным величинам, измеряемым на непрерывной шкале, та- ким, как массы, длина, время, температура, расстояние. Дейст- вительно, возможно определить лишь вероятность того, что мас- са человека будет находиться в интервале между 80,4 кг и 80,5 кг, т. е. распределение вероятностей непрерывной случай- ной величины позволяет определять вероятности в пределах не- которого определенного интервала. Нормальное распределение находит широкое применение и для аппроксимации распределения дискретных случайных вели- чин. Так, например, доходы от определенных видов рискованного бизнеса приблизительно подчиняются нормальному распределе- нию. Однако вероятность того, что случайная величина — доход 139
от некоторой сделки составит $1000, не обязательно равна нулЮ] (хотя эта вероятность и может быть очень малой). Нормальное! распределение в этом случае используется как математическая! модель изучаемого явления, обладающая некоторыми весьма! важными свойствами, с которыми мы в дальнейшем познако-1 мимся. Можно вычислить вероятность того, что доход будет на-1 ходиться в интервале от $1100 до $1200 как вероятность попада-1 ния нормально распределенной случайной величины в заданный! интервал при известных значениях математического ожидания й| среднего квадратического отклонения. I Нормальное распределение иногда называют законом ошибок. I Например, отклонения в размерах деталей от установленного! объясняются многими причинами, каждая из которых влияет на] размер детали, так что отклонение, которое фактически регист-1 рируется при измерениях, является суммой большого числа от»! клонений (ошибок). I Нормальная случайная величина имеет плотность распреде-1 ления, определяемую формулой: | | Дх)=—U-e 2а2 , (7.1.1) I <уу2л I где —оо<х <+оо; п-3,1415; е = 2,71828; а = М(Х), о = о(А). ] Основные свойства f(x): ] а) функция f(x) существует при любых действительных зна-1 чениях х и принимает только положительные значения.] Следовательно, нормальная кривая распределения распо-| ложена выше оси абсцисс; 1 б) при неограниченном возрастании х по абсолютной вели- чине Дх) стремится к нулю, значит ось абсцисс служит] горизонтальной асимптотой кривой нормального распре-1 деления; | в) максимальное значение функция Дх) принимает в точке, соответствующей математическому ожиданию случайной] величины х. Оно равно —, т. е./тах(х) = —при х = а. а\2п i Действительно, приравнивая первую производную от Дх)| к нулю, т. е. j (х g)2 | /'(х) = - -у^==- е 2а2 =0, ; сгу2л । убеждаемся, что f ’(х) = 0 при х = a; f '(х) > 0 при х <а; /(х) < 0 при х >а. Следовательно, функция Дх) принимает максимальное значение в точке х = а; г) кривая нормального распределения симметрична относи- тельно прямой х = а, поскольку разность х — а входит в формулу (7.1.1) в квадрате. д) кривая нормального распределения имеет две точки пе- региба, симметрично расположенные относительно пря- мой х = а: , 1 \ / _L 1 (а — о; —==•); (а + о; —== оУ2ле а-у2ле Чтобы убедиться в справедливости свойства д), исследуем функцию Дх) на выпуклость и вогнутость, и найдем точки пе- региба. Найдем ее вторую производную и приравняем нулю: /"(х) = - 1 <т372тг откуда = 0, так как . (х-*)2 —,~7=- е 2°2 * 0. ст3у2л Из равенства = 0 находим Х| — а — о; Х2 = а + о. I Точки Xi и Х2 являются абсциссами точек перегиба, поскольку I Дх) в этих точках обращается в нуль и при переходе через них | меняет знак. Ординаты точек перегиба найдем, подставив в | формулу (7.1.1) значения точек Х) и х^ I I \2 | (a-ts-a) | ДХ1)=—7=е 2°2 = — I (а+с-а)2 I Дх2) = -U e’ 2°2 = I ау2л ау2ле I Итак, а — о и а + о есть абсциссы точек перегиба, а их ор- Г 1 | динаты одинаковы и равны —==• . I ау2ле f Формула (7.1.1) содержит два параметра: математическое j ожидание а — М(Х) и стандартное отклонение о. Следовательно, 140 141
существует бесконечно много нормально распределенных слу- чайных величин, у которых одинаковые М(Х) и ст(20. Графики их плотностей имеют одинаковую форму — симметричную, ко- локолообразную. Если М(Х) и ст(20 известны, то из семейства нормальных случайных величин выделяем конкретную нормаль- ную случайную величину с определенной плотностью. Математическое ожидание а — это величина, которая харак теризует положение кривой распределения на оси абсцио (рис. 7.1). Изменение параметра а при неизменном ст приводит I перемещению оси симметрии (х = а) вдоль оси абсцисс и, еле довательно, к соответствующему перемещению кривой распре деления; М(Х) = а иногда называют центром распределения. (При х — М(Х) = а вероятность наибольшая, а вследствие симметрии плотности а = М$ = Ме, и площадь, расположенная под кривой, делится пополам осью симметрии). Дх) ° f Лх) Мх)=40 о = 5 Г О JL Дх) М(х)=10 о Мх)=50 Рис. 7.1. Кривые плотности нормального распределения с различными а и а Изменение среднего квадратического отклонения при фик- сированном значении математического ожидания приводит к изменению формы кривой распределения. С уменьшением о вершина кривой распределения будет подниматься, кривая будет более «островершинной» (вытянутой вдоль оси симметрии). С увеличением ст кривая распределения менее островершинна и более растянута вдоль оси абсцисс. 142 Одновременное изменение параметров аист приведет к измене- нию и формы, и положения кривой нормального распределения. Условимся о форме записи случайных величин: Например, запись X ~D (М (20,ст2) означает: случайная вели- чина X подчиняется закону распределения D с математическим ожиданием М(Х) и стандартным отклонением (средним квадра- тическим отклонением ст), либо дисперсией ст2. Это общая фор- ма записи случайной величины, распределенной по закону D. Если речь идет о биномиальном законе, то будем его обозна- чать В; если — о нормальном, то N. Итак, если мы имеем дело со случайной величиной, подчи- няющейся нормальному закону распределения, с математиче- । ским ожиданием 5,7 и ст = 2, то запись будет такая: Х~ М5,7; 22). Обратите внимание, что ст2 записывается как 22, а не 4. 7.2. Стандартное (нормированное) нормальное распределение Если в формуле (7.1.1) а = 0; ст= 1, то ,, * 1 V <p(z)= -7= е 2 у2тг (7-2.1) ф(г) 4 Мг)=0 Рис. 7.2. График кривой стандартного нормального распределения z При а = 0 и ст = 1 нор- мальное распределение на- зывают стандартным (нор- мированным) нормальным распределением (рис. 7.2), а 1 -Z~ кривую<р(.г)= -==-е 2 — 72л нормированной. Стандартная нормальная случайная величина обозначается Z. Запишем по установленному правилу: Z ~N (0; I2). Стандартное нормальное распределение табулировано (см. Приложение, табл. 1). 143
Свойства функции <p(z У а) функция ф(г) — четная, т. е. ф(—z )= ф(г ); б) с увеличением аргумента z по абсолютной величине Дг) монотонно убывает и при z имеет пределом нуль; в) при z = 4 ф(г) = 0,0001, при z - 5 ф(г) - 0,0000015, поэтов му при k I >5 можно считать, что ф(г) = 0. В связи с этим таблицы ограничиваются значениями функции ф(г) до аргументов z — 4 или z = 5; * г) максимальное значение функция ф(г) принимает при z - О т. е. ф(г) = 0,3989. Сравнивая формулы (7.1.1) и (7.2.1), можно сделать вывод что плотность случайной величины, распределенной по нор мальному закону, можно записать так: Лх)=-ф(^-^. (7.2.2) Любая нормально распределенная случайная величина може быть преобразована в стандартную (нормированную) нормально распределенную случайную величину. Пример. 7.1. Пусть необходимо преобразовать случайную величину X ~ N^o2) в слу: чайную величину Z ~ 7V (0; 12). На рис.7.3 изображена нормально распределенная случайная величи на Х(а — 50; а= 10). Как преобразовать ее в стандартную''нор мальную случайную величину (а = 0; о = 1)? Рис. 7.3. Преобразование нормальной случайной величины с а= 50 и с= 10 в стандартную нормальную случайную величину 144
F- Решение. Во-первых, перенесем распределение из центра, равного 50, в центр, равный 0. Это можно осуществить вычитанием 50 из всех значений X. Во-вторых, превратим это распределение в стандартное, для чего произведем сжатие «ширины кривой»1 от. 10 до 1. Поскольку общая площадь под кривой должна остаться равной 1, кривая должна расти вверх, чтобы сохранить ту же самую площадь (см. рис.7.3). Сжатие кри- вой эквивалентно делению значений случайной величины на ее стан- дартное отклонение. Итак, математическое преобразование X в Z достигается вы- питанием а из х, а затем делением результата на о. Отсюда сле- дует, что Z = (7.2.3) а При помощи формулы (7.2.3) можно преобразовать любую нормально распределенную случайную величину X в стандартную нормально распределенную случайную величину Z. Тогда очевид- но, что обратное преобразование стандартной нормальной слу- чайной величины X~ N(a;o2) можно осуществить по формуле: X=a+za. (7.2.4) 7.3. Вероятность попадания в заданный интервал нормально распределенной случайной величины. Интегральная функция Лапласа—Гаусса и ее свойства. Связь нормальной функции распределения с интегральной функцией Лапласа—Гаусса Мы знаем, что если случайная величина задана плотностью распределения Дх), то вероятность того, что X примет значение, принадлежащее интервалу (a, Р), определяется из выражений (6.2.1) и (6.5.1): ₽ Р(а<Х < 0)=f Лх) dx. 1 Ширина кривой — так иногда в литературе называют расстояние между двумя точками перегиба. 145
Если случайная величина X ~N(a ;а2), то В (х~°)2 К 1 2 Р(а<Х< Р) = f —U-e 2° dx. а CTV2lt Для того чтобы можно было пользоваться готовыми табли- цами для вычисления вероятностей, преобразуем X в Z и найдем новые пределы интегрирования. Если х = а, то z = (а - а)/а, если х = р, то z = (Р — о)/ст. Тогда Р(а<Х < р) — —!=, ёП zi ₽z£ гг „ х — а 1 ? 1 'Tj Z= ------- = —= / e 2 а • dz = / ~7=^e 2 dZ , a-а а—а у2?Г a о где X = a +z n; dx = adz. i j _£ Интеграл вида, f-==e 2dt называется интегралом вероятно- о ^2л стей или функцией Лапласа. Его обычно обозначают символом Фо(г): г . J1 Фо(г) = Г-г= е 2Л. о *2* (7.3.1) Интеграл Лапласа в общем виде не берется. Его можно вы- числить одним из способов приближенного вычисления инте- гралов. Эта функция табулирована (см. Приложение, табл. 2). Пользуясь функцией Лапласа, окончательно получим: zv svsn\ л. IР “ а । * (а-а /Ха<л<р) = Фо ---- — Фо ------ \ с ) \ а (7.3.2) Формула (7.3.2) называется интегральной теоремой Лапласа 1. Свойства <flj(z) а) функция Фо(г) является нечетной функцией; т. е. Фо(—z) = = Фо(г). б) При z = 0 функция Лапласа равна нулю. Действительно, Фо(О) = (-т= е 2 dt =0. о у2л в) При z ->+°о Фо(г) ->+0,5, при z -> — оо Ф0(г) ->—0,5. 146
Рнс. 7.4. График интегральной функции Лапласа-Гаусса Ф0(4) = 0,499997, Фо(—4) = — 0,499997. Значит при \z 1>4 можно считать, что Фо(г) « ±0,5. Следовательно, все возможные значения интегральной функции Лапласа-Гаусса принадлежат интервалу (—0,5; +0,5). В литературе встречаются также таблицы, рассчитанные для 2 2 £ функции Ф(г) = -7= Ге 2 dz. Поскольку Ф(г) — 2 Фо(г), то значе- 72л 0J ния функции Ф(г) в два раза больше соответствующих значений Ф0(г) и ее возможные значения заключены в интервале (-1; +1). С увеличением аргумента функции Ф(г) стремится к 1, так как уже при lz 1>4 Ф(г) = 0,9999937 «1,0000. Из формул (6.6.1) и (7.2.2) следует, что функцию нормаль- ного распределения можно представить так: Z-a z-a х 1 ( X — 0) СТ СТ (2) р(х) = f — ф-----I <?(z)dz = f<p(z)dz + f<p(z)dz = — СО & \ & / — 00 —00 0 1 +? . . , (x-a'l 1 . (х-а\ = - ф(гМг + фо------- с =- + ф0-------, 2 J к ст J 2 \ ст / — ОО ... „ . х — а , dx где (1) — замена переменной по формулам z — -------, dz = —; при ст ст х — а этом верхний предел интегрирования равен -----; ст (2) — следствие четности функции <р(?) и определения функции Фо(г). Итак, функция распределения случайной величины, подчи- няющейся нормальному закону распределения, есть: F(x) = 0,5 + Ф0 М. (7.3.3) \ СТ / 147
Рассмотрим ряд примеров на вычисление вероятностей помощи таблиц стандартного нормального распределения хождение значений Z по заданной вероятности. при и на Пример 7.2. Найти вероятность ная случайная величина Z- М®;12) того, что нормально распределен окажется между 0 и 1,56. Это озна чает, что мы хотим определить P(0<Z< 1,56). Решение. На рис. 7.5 зафиксируем 1,56 для точки z — графика. таблице Приложения 2 мы найдем значение на пересечении Z = 1,5 и столбца 0,06, равное вероятности 0,44062. строки Рис. 7.5. Геометрическая интерпретация вероятности к примеру 7.2 0,0676 Площадь под кривой для Z<£-*2,47 Табличная площадь=0,49 для 2,47 0 -2,47 2,47 Рис. 7.6. Геометрическая интерпретация P(Z < -2,47) к примеру 7.3 Пример 7.3. Найти вероятность того, что нормально распределенная случайная величина Z-A(0,l2) примет значение, меньшее, чем — 2,47. Решение. Так как кривая нормального распределения симметрична, i площадь под кривой слева от -2,47 равна площади под кривой справа < +2,47, т.е. /\Z>-2,47) ='л(^>2,47) = 0,5 - 0,49324 = 0,00676 (см. рис. 7.6). Пример 7.4. Найти вероятность того, что нормально распределенная случайная величина z примет зна- чение, принадлежащее интервалу от 1 до 2. Решение. Искомая вероятность — это площадь под кривой между точ- ками 1 и 2. Эта площадь показана на рис. 7.7. Рис. 7.7. Геометрическая интерпретация вероятности P(1<Z<2) к примеру 7.4 148
Л1<£<2) = Фо(2) - Фо(1)= 0,47725 - 0,34134 = 0,13591. В случае, если надо вычислить вероятности значений случайной ве- личины Z с числом знаков после запятой более двух, то используем ли- нейную интерполяцию между двумя соседними значениями в таблице. и пл / 1 слх пл s 1 0,44950+0,45053 n..nnie Например, ДО < 1,64) и ДО < 1,65), т.е. ---—-------= 0,450015. Если требуется еще большая точность, то можно воспользоваться компьютерными программами. Во многих ситуациях может быть рассмотрена задача обрат- ная предыдущей: определение z по заданной вероятности попа- дания случайной величины в интервале. Пример 7.5. Найти значение Z стандартной нормально распределен- ной случайной величины, такой, что вероятность попадания ее в ин- тервал от 0 до Zбудет равна 0,4. Решение. В табл. 2 Приложения найдем значения, близкие к 0,4. Заметим, что все значения в таблице возрастают от 0 до 0,5. Близко к 0,4 значение в таблице 0,39973. Этому значению соответствует Z=l,28 (на пересечении строки 1,2 и столбца 0,080). Пример 7.6. Найти значение Z стандартной нормально распреде- ленной случайной величины, кото- рое отсекает площадь, равную 0,9, расположенную левее точки Z (см. рис. 7.8). Рис. 7.8. Определение Z по заданной вероятности P{Z<z) = 0,9 Решение. Поскольку площадь слева от искомой точки Z больше, чем 0,5, то точка Z должна быть правее 0. Площадь же слева от Z до О равна 0,5. Следовательно, искомая площадь равна 0,9 - 0,5 = 0,4. Не обходимо найти точку Z, для которой площадь равна 0,4. Из предыду щего примера известно, что значение ее равно 1,28. Пример 7.7. Найти 99% вероятностный интервал, симметричный относи- тельно 0, для нормально распределенной стандартной случайной вели- чины. 149
Площадь между двумя Z-оцен- ками, равностоящими от 0 слева и справа, задана и равна 0,99. Необходи- мо определить площадь под кривой между 0 и положительным z- Решение. Обратимся к таблице Приложения 2 и найдем площадь, близкую к 0,495 (0,99/2). Для значений 0,49492 и 0,49506 найдем точки z=2,57 и z=2,58. Простая линейная интерпо- Рис. 7.9. Определение Z по заданной вероятности P(Z<z) = 0,99 ляция дает нам 2=2,575. Это показано на рис. 7.9. Разберем еще примеры на вычисление вероятности попадания нор- мально распределенной случайной величины X в заданный интервал X~N (а;ст2). Пусть задана нормально распределенная случайная величина а=50 и средним квадратическим отклонением а=10, то есть А~?/(50;102). Предположим, что мы хотим найти вероятность того, что X больше 60, т.е. определить Р(Х>(Л). Мы не можем оценить эту веро- ятность непосредственно, но если преобразуем X в Z, то искомая веро- ятность определится по таблице Приложения 2 стандартного нормаль- ного распределения. п , ~ х-a R „ 60-а По формуле Z =------- осуществим преобразование Z =-------- и о с тогда искомая вероятность может быть представлена так: Р(Х > 60) = р(^-?- > \ СТ СТ 7 I о 7 к 10 J = P(Z > 1) = 0,5 - 0,3413 = 0,1587 Пример 7.8. Волжский автомобильный завод запускает в производство новый двигатель. Конструкторы двигателя считают, что средняя длина пробега для автомобиля с новым двигателем составляет 160 тыс. км. со стан- дартным отклонением <т=30 тыс. км. Чему равна вероятность того, что до первого ремонта число км. пробега автомобиля с новым двигателем будет находиться в пределах от 100 тыс. км. до 180 тыс. км? (Считать расстояние пробега, км. нор- мально распределенной случайной величиной). Решение. Определим вероятность события (100000 <Х< 180000) по формуле, которая будет иметь следующий вид: Я юоооо<¥< 180000)=pf1^—< z < —= \ СТ СТ 7 J100000 -160000 „ 180000-160000) Р--------------< Z <-----——------- = w(-2<z<0,6666) = I 30000 30000 У =0,24697+0,47725 = 0,72422 (значение 0,2475 получено путем линейной интерполяции: 024537 + 0,24857 0,4940 П74А07. Итак, данный мотор будет иметь пробег от 100000 до 180000 км с I вероятностью 0,72422. I Решение этого примера проиллюстрировано рис. 7.10. Рис. 7.10. Графическая иллюстрация к примеру 7.8 [Пример 7.9. I Концентрация примеси посторонних веществ в полупроводниках, [используемых в производстве микропроцессоров для компьютеров — [нормально распределенная случайная величина с математическим сжи- манием <3=0,000127 и стандартным отклонением (средним квадратиче- ским отклонением) п=0,000022. [ Рис. 7.11. Графическая иллюстрация преобразования к примеру 7.9 I Полупроводник считается стандартным, если концентрация приме- ря ниже 0,00015. Оцените долю доброкачественных полупроводников? I Так как X-N (127; 222) и нам необходимо найти Р(Х< 150), то имеем: 150 151
P(%<150) = /^-^<^-^) = pfz<^-^)= j ' ’ к a a ) к 22 ) = P(Z < 1,045) = 0,5 + 0,3520 = 0,8520. (Табличное значение 0,3520 получено путем линейной интерполя- ции). Отсюда, 85,2% полупроводников пригодны для использования. Или по другому: вероятность того, что случайно отобранный полупро- водник окажется доброкачественным (стандартным), равна 0,8520. Ре- шение этого примера проиллюстрировано рис. 7.11. ’ Пример 7.10. Дилер, торгующий золотом, знает, что в настоящий момент цена на зо лото за одну тройскую унцию1 составляет 409 условных денежных едини со стандартным отклонением в 12 условных денежных единиц. Он такж знает, что распределение цен на драгоценные металлы, например, золото достаточно хорошо описывается нормальным распределением. Основыва ясь на этом предположении, дилер желает найти вероятность того, что цеи на золото в следующий день будет между 420 и 425 условными денежным единицами за унцию. В этом случае дилер имеет разрешение от своет клиента продавать его запас золота. Чему равна вероятность того, что эт золото будет продано на следующий день? i I ) Итак, можно обобщить процедуру рассмотренных выше пре- i образований для вычисления вероятностей событий X < а, X >р (и а<¥<₽, когда Х~7/(а;<т2), при помощи следующих формул: ( P(^<a)= p(z<?~^], | к о ) I Л*>Р) = p\z>^\ , I к о ) I P(a<X<P) = Р -------<Z<---- = Фо -— ~Фо -------- • ко а 7 к а 7 ко/ В частности, когда границы интервала аир симметричны относительно центра рассеяния, т. е. относительно М(Х) = а, то $~а =а ~ а =Д. И тогда: Р (а — Д < X< а + Д) = Р(\х — а | <Д)= ж Га + Д-бЛ fa-Д-дА „ f Д^ — Фо ------ ~ Фо ------- — 2Фо — • : к ст 7 к ст 7 к с/ • Вероятность того, что отклонение случайной величины X, распределенной по нормальному закону, от математического ожидания а не превзойдет по абсолютной величине Д > 0, нахо- дится по формуле: 409 420425 Z 0,92 1,33 ?(420<x<425)=A0,92<Z<1 ,33) Рис. 7.12. Графическая иллюстрация к примеру 7.10 Решение. На рис. 7.12 показано преобразование .¥-7/(409; 12) в стш дартную нормальную величину Z. И дана иллюстрация искомой гоп щади, равной вероятности продажи золота на следующий день. Имеем J420-a 425-a') j420-a „ 425-<Л Р(420 < X < 425) - 4— < —J - 4— < Z < —J - = Р(0,9166 < Z < 1,3333) = 0,4088-0,3203 = 0,0885. 1 Неметрическая единица массы, применяется в США и Великобритании. Tpofc ская (аптекарская) унция равна 31,1035 г. 152 I Формула (7.3.4) применима и к частоте т, поскольку ее за- вком распределения при достаточно большом числе испытаний практически совпадает с нормальным. | Запишем формулу (7.3.4) применительно к случайной величине р с учетом ее числовых характеристик М(т) = пр и o(/n) = Jnpq |см. формулы (5.4.1) и (5.4.3)): i Формула (7.3.4) может быть применена и к относительной тстоте — : I- ''п' I 153
« 2 Фо л . J т) так как М — = р, с \п) Итак, (7.3.6) Обратимся еще раз к случайным величинам X ~ Nlfiss1) i Z~A(0; I2). Какая между ними существует взаимосвязь? Когд говорят, что Z > 2, тем самым утверждают, что Z больше, чем и 2 стандартных отклонения превышает математическое ожида> ние, так как Z> (0 + 2 • 1) по формуле (7.2.4). Аналогично для нормально распределенной случайной вели чины X с математическим ожиданием, равным 50, и средни» квадратом отклонения, равным 10, событие х > 70 — самое, что X на 2 стандартных отклонения превышает ческое ожидание а = 70, так как 70 > (50 + 2 • 10). Итак, событие X > 70 идентично событию Z > 2. результат был получен при осуществлении преобразования формуле (7.2.3): Р(Х> 70) = это то Ж математи Такой 70-а 70-а 70-50Л „ = 0,5 - 0,47725 = 0,02275. 7.4. Правило «трех сигм» Если в формуле (7.3.4) обозначить — = Z, Д = aZ, то примет вид: Л|АГ-а |< z<т) = 2Ф0а), (7-4.1) где 2®o(z) — вероятность того, что отклонение случайной величины от ее математического ожидания Л/(Л) = а по абсолютной величи будет меньше z сигм. 154
Придадим z значения 1; 2; 3. Пользуясь формулой (7.4.1) и Приложением (табл. 2), вычислим вероятность того, что откло- нение по абсолютной величине будет меньше а, 2а и За: при г = 1 Д = а и Р( | % — а | <а) = 2Фц( 1) = 0,6826; приг=2 Д = 2с и Р(\Х~ а \<2и) = 2Ф0(2) = 0,9544; приг=3 Д = За и Р( |X - а |<3ст) = 2Ф0(3) = 0,9973. Приведенные результаты вычислений представлены на рис.7.13. Вероятность того, что отклонение будет меньше а, или, другими словами, вероятность того, что случайная величина по- падет в интервал (а — а; а + а), равна 0,6826. Геометрически эту вероятность можно представить заштрихованной частью площа- ди под кривой, изображенной на рис. 7.13, а. Вероятность того, что отклонение будет меньше 2а или, другими словами, вероятность того, что случайная величина по- падет в интервал (а — 2а; а + 2а), равна 0,9544 (см. рис 7.13, в). Вероятность того, что отклонение будет меньше За или, другими словами, вероятность того, что случайная величина по- падет в интервал {а — За; а + За), равна 0,9973 (на рис. 7.13, с эта вероятность представлена почти всей площадью, заключен- ной между кривой распределения и осью абсцисс). Следовательно, вероятность того, что отклонение случайной величины от своего математического ожидания по абсолютной величине превысит утроенное среднее квадратическое отклоне- ние, очень мала и равна 0,0027. Другими словами, лишь в 27 случаях из 10 000 случайная величина X в результате испытания может оказаться вне интервала (а — За; а + За). Такие события считаются практически невозможными. В этом и состоит прави- ло «трех сигм». Его можно сформулировать так: если случайная величина распределена по нормальному закону, то ее отклонение от математического ожидания практически не превышает ±5а. 155
Пример 7.11. Рост лиц призывного возраста предполагается нормально распреде- ленным с параметрами а — 172 см, с = 6 см. Определить про- цент лиц, рост которых: а) ниже 165 см, б) выше 175 см. Решение. Если обозначить через X рост наугад вызванного призывника, искомые вероятности событий будут иметь вид: Р (X<165) и Р (X>175). Чтобы воспользоваться формулой (7.4.1), необходимо для первого события задать левую границу, а для второго — правую. Это можно сделать, опираясь на правило «трех сигм». Для первого события в каче- стве левой границы принять а — За = 172 - 18 = 154, для второго со- бытия в качестве правой границы взять а + За= 172 + 18 ~ 190 (напомним, что в соответствии с правилом «трех сигм» случайная вели- чина практически не принимает значения за пределами интервала (а - За; а + За). Следовательно, Р(Х <165) = Р(154 <Х <165) =Ф0 7165-172] к 6 J (154-172 Фо(-1,17) - Фо(-З) = Фо(3) ~ Фо(1,17) = 0,49865 - 0,3790 «0,12, что соответствует 12%. Аналогично, Р(Х<175) = Pfl75 <¥<190) = Фо(3) - Ф0(0,5) = 0,499 - 0,192 » 0,31, что соответствует 31%. : Таким образом, число лиц призывного возраста, имеющих рост ниже 165 см, составляет 12%, а число лиц, имеющих рост выше 175 см, составляет 31%. Искомые вероятности можно найти и так: Р(Х< 165) = pfi^- < --Т—= P(Z< -1,17) = \ а 6 / = P(Z>1,17)= 0,5 - 0,3790 = 0,121 «0,12; Р(Х> 175) = Рр—> 12^221) = P(Z>0,5)= k О b / =0,5 — 0,1915 — 0,3085 «0,31. 7.5. Нормальное распределение 1 как аппроксимация других распределений 1 Ряд вероятностных распределений при увеличении числа на4 блюдений стремится к нормальному распределению. Мы ужй отмечали, что нормальное распределение было открыто, ка» предел биномиального распределения, когда л неограниченно^ возрастает. 4 Рассмотрим теперь ситуацию, при которой нормальное распреде- ление будет служить для описания биномиального распределения. Когда п — число испытаний в биномиальном эксперименте — возрастает, дискретное биномиальное распределение стремится к непрерывному нормальному распределению. Это означает, что для больших п можно аппроксимировать биномиальные вероят- ности вероятностями, полученными для нормально распреде- ленной случайной величины, имеющей такое же математическое ожидание и такое же среднее квадратическое отклонение. Представим частоту появления события А — т в п независи- мых испытаниях как сумму случайных величин: Х\, Xi,..., Л>, т. е. п /и = 2 где % — число появлений события А в г-м испытании. /=1 Так как вероятность появления события А в каждом испыта- нии постоянна и равна р, то ряд распределения для каждой слу- чайной величины Xt один и тот же. Следовательно, М(Х,) = р и Тогда при достаточно большом п закон распределения слу- чайной величины т близок к нормальному (7.1.1), т. е. m-Mjni)1 fim) ~ , или, применяя формулы (5.4.1) и (5.4.3), имеем Л*»)» (т-пр)г е 7npq у2л [ Но из вероятностного смысла \*Р(т <Х= т <т + Лт) ~ Рп> т. | Значит, fix) следует, что fim)dm « (т~пр)г ИЛИ р 1 П, М' где х — т- пр y/npq (7.5.1) ^ПРЯ Формула (7.5.1) называется локальной теоремой Лапласа, 156 157
А. т вычисляется и по формуле Бернулли, но при большом п J применение ее сопряжено с громоздкими вычислениями и луч- I ше пользоваться формулой (7.5.2). | Пример 7.12. | Доля людей, использующих определенный продукт, равна р = 0,5. 1 Случайно отобрано 7 человек. Определим вероятность | того, что не более 4 человек окажутся потребителями этого продукта. | Решение. Используем аппроксимацию биномиального распределения | нормальным распределением. Ситуация изображена на рис. 7.14, где на- 1 копленные суммы частот слева от 4, включая 4, есть А (4). ’ Рис. 7.14. Аппроксимация биномиального распределения с п = 7 и р = 0,5 нормальным распределением с а = 3,5 Показано также, что нормальная аппроксимация для искомой веро- ятности — это площадь под нормальной кривой слева от точки 4,5. (Мы берем 4,5, используя непрерывную аппроксимацию для дискрет- ных величин, а именно — среднее значение между двумя точками). ; Нормальное распределение имеет то же самое а, как и заданное бино- миальное распределение а = пр = 0,5 -7 = 3,5; Jnp(l-p) = 77 -ОЛ-0,5 = 1,323. Аппроксимация нормальным распределением биномиальной веро- ятности А (4) есть: < 45-а) ( 43-35) А* <4,5) = Р\Z<^-^\ ^P\Z<^-~-\ =P(Z<Q;756), \ о ) \ 1,323 J для которой по табл. 2 Приложения находим 0,27 487, прибавляем 0,5 и получаем 0,77487. Вероятность, полученная из таблиц биномиального распределения (см. Приложение, табл. 5) равняется А(4) = 0,77 344, Следовательно, аппроксимация, полученная для даже небольшого числа испытаний (п = 7), вполне приемлема. Посмотрим, что произойдет, если число испытаний воз- растет. Предположим, что отобрано случайно 11 человек и не более | 4 из них используют данный продукт. Вновь оценим вероятность двумя | способами. Сначала по табл. 5 Приложения найдем: /г1(4) = 0,27441 I" (при р = 0,5 и п = И). Затем аппроксимируем нормальным распределе- I нием с математическим ожиданием а = пр = 11 0,5 = 5,5 и стандартным I отклонением ^лр(1 - р) = 1,6583. Найдем: I f 45-5 5) I Р{Х < 4,5)=Р Z < = P{Z < -0,603)= AZ > 0,603) = t \ 1,6583 / \ - 0,5 - 0,22575 = 0,27425 (по табл. 2 Приложения). > Эта аппроксимация более точная и ее иллюстрация дана на рис. 7.15. Рис. 7.15. Аппроксимация биномиального распределения с п » 11 пр = 0,5 нормальным распределением Когда число испытаний возросло от 7 до 11, то точность возросла в четвертом знаке после запятЬй. В нашем примере мы использовали р = 0,5; в этом случае случайная величина, распределенная по биноми- альному закону, достаточно хорошо описывается нормальным распре- делением и для относительно небольшого п, потому что биномиальное распределение симметрично. В случае р * 0,5, биномиальное распреде- ление — несимметричное, и сближение с нормальным распределением осуществляется медленнее, но при большом п аппроксимацию можно считать вполне приемлемой. Практика показывает, что аппроксимация хорошо проявляется в случае, если пр и nq >5, и тем лучше, чем больше л. Чем ближе р к 0,5, тем меньше потребуется п для более точной ап- проксимации. Аппроксимация биномиального распределения с исполь- зованием нормального осуществляется по формулам: — Фо \Jnpq $-пр .Jnpq, Р-ир = а-пр (7.5.2) Фо для п > 50 и р, не близкого к 0 и к 1, или 158 159
Ла<%<Р)=Р а - 0,5 - пр Р + 0,5 - пр npg npg (7.5.3) . где 20 <п < 50, и используется для вычисления вероятности попадания в интервал дискретной случайной величины, подчиняющейся биноми- альному закону распределения, при достаточно большом п. В примерах (5.11), (5.12) и (5.13) мы показали аппроксима- цию гипергеометрического распределения биномиальным и рас- i пределением Пуассона. Рассмотрим пример 7.12, в котором рассмотрим аппрокси- мацию гипергеометрического распределения при больших пит распределением, описываемым локальной теоремой Лапласа, применяемой тогда, когда Dini), (5.7.3), окажется больше 9 (Z)(ffJ)>9)- Тогда определяемая по формуле J Р(п,т)* —~ CTwV2n • е (т-9 л)2 2а2 (7.5.4) где CTffl=7^(w) = , 0 Пример 7.13. Среди 200 лотерейных билетов — 100 выигрышных. Вычислить ве- роятность того, что среди наудачу отобранных 50 билетов окажется ровно 24 выигрышных. По условию задачи N =200, К = 100, п = 50, т = 24. Применяем формулу (2.7.1): р = С1040-С1Ш) = 150!-50!-100! 100! = , Р50’24 200!-24!-76!-26!-74! На примере 5.14, мы убедились, что определение вероятности по формуле (5.6.1) при больших значения Уип сопряжено с громоздкими вычислениями. Выясним, возможно ли в этом случае применение приближенной формулы (7.5.1): 1 Здесь значения факториалов вычислялись по приближенной формуле Стир- линга: л! » пп е~п ^2пп (7.5.6). л-1 49 Дт) = л0(1 - 0)( 1 - -) = 50 0,5 • 0,5(1 - ^) « 9,4 /V — 1 199 Цт) = 9,4 > 9, следовательно, применима формула (7.5.1) (m-О л)2 1 1 Дл,/и> -----т=-е т или Р(п,т)а------------------ф(хт), m-nQ I где хт = -----, = ylD(m) При т = 24; л = 50; 0 = 0,5; ат = ^9Д « 3,066 хт ~ ~ —0,3261, <р(-0,326) = 0,3788 (см. табл. 1 в Прило- 3,0оо жении). Окончательно получаем: Р50 24 ~ 0^788 а qД232 3,066 Полученный результат (0,1232), с использованием аппроксими- рующей формулы (4.5.1) мало отличается от вероятности, вычисленной по формуле (2.6.1) (0,1221). 7.6. Понятие о теоремах, относящихся к группе «центральной предельной теоремы» В теоремах этой группы выясняются условия, при которых возникает нормальное распределение. Общим для этих теорем является следующее обстоятельство: закон распределения суммы достаточно большого числа независимых случайных величин при некоторых условиях неограниченно приближается к нормальному. Здесь мы познакомимся с содержанием (без доказательства) двух таких теорем. > Центральная предельная теорема для одинаково распреде- ленных слагаемых (теорема П.Леви) Теорема 1. Если независимые случайные величины Лц, ЛГ2, ..., Хп имеют один и тот же закон распределения с математическим ожиданием а и дисперсией ст2, то при неограниченном увеличе- нии п закон распределения суммы Xj + Х2 + ... + Хп неограни- ченно приближается к нормальному. > Центральная предельная теорема Ляпунова Пусть дано п независимых случайных величин Х2,..., Хп, имеющих дисперсии ст2, ст2,..., ст2 и центральные абсолют- 6 Теория статистики с основами теории вероятностей 161 160
ные моменты третьего порядка рь р2,.„, р„. Тогда справедлива следующая теорема для случайной величины: У= Хх + х2 +... + хп Теорема 2. Если при неограниченном возрастании п выпол- няется условие lim ,..Р1±Р2^--ьРл 0> (761) Р + О2+-+Олр где - Tj3, p2=HlJf2-T2I3, ..., Т„|3 , то при и—> оо закон распределения Yнеограниченно приближа- ется к нормальному: Аг)= —2о' • Условие (7.6.1) называется условием Ляпунова. Смысл его за- ключается в том, что хотя отдельные слагаемые X, (J = 1, 2, ..., л) могут быть распределены по любым, различным между собой законам распределения, влияние каждого из них на величину У должно быть равномерно малым. Если какие-либо из слагаемых X, оказывают преобладающее влияние на величину У, то условие Ляпунова (7.6.1) не выполня- ется и делать утверждение о нормальном распределении Y нель- зя. Очевидно, в этом случае закон распределения Y будет опре- деляться композицией законов распределения таких слагаемых, влияние которых велико на Y. Коротко сущность теоремы Ляпунова можно сформулировать следующими словами. Если случайная величина Y представляет собой сумму большого числа независимых случайных величин Х\, Х2, ..., Хп, влияние каж- дой их которых на всю сумму равномерно мало, то величина Y имеет распределение, близкое к нормальному, и тем ближе, чем больше п. При этом ценно то, что законы распределения суммируемых случайных величин могут быть любыми, заранее не известными исследователю. Практически данной теоремой можно пользоваться и тогда, когда речь идет о сумме сравнительно небольшого числа случай- 162 ных величин. Опыт показывает, что при числе слагаемых около десяти закон распределения суммы близок к нормальному. Теорема Ляпунова имеет важное практическое значение, по- скольку многие случайные величины можно рассматривать как сумму отдельных независимых слагаемых. Например, ошибки различных измерений, отклонения раз- меров деталей, изготовляемых при неизменном технологическом режиме, распределение числа продаж некоторого товара, объе- мов прибыли от реализации однородного товара различными производителями, валютные курсы, рост, вес животных и растений данного вида, отклонение точки падения снаряда от цели и т.д. могут рассматриваться как суммарный результат большого числа слагаемых и потому приближенно следовать нормальному закону распределения. 7.7. Показательное (экспоненциальное) распределение Экспоненциальное распределение тесно связано с распределе- нием Пуассона, которое используется для вычисления вероятно- сти появления события в некоторый период времени. Распреде- ление Пуассона — это распределение числа появления событий в заданный интервал времени длиной t. Единственный параметр распределения Пуассона А. характеризует интенсивность процесса, т. е. с его помощью мы можем вычислить среднее число появле- ния события. Например, скажем, что в банк в среднем входит пять посети- телей в час. Предположим теперь, что вместо числа появления события в заданный промежуток времени нас интересует длина промежутка времени до появления первого посетителя в банке. Такая задача решается при помощи экспоненциального распреде- ления, а не распределения Пуассона. Другой пример. Если число дорожных происшествий в неко- тором интервале времени подчиняется распределению Пуассона, то длина этого интервала времени подчиняется экспоненциаль- ному распределению. Интервалы времени до поступления пер- вого телефонного звонка на станцию, время ожидания такси также подчиняются экспоненциальному закону. Обозначив среднее значение появления событий в некото- рый промежуток времени через X, а время до появления первого 163
события через х = t, можно, используя функцию плотности Пу- ассона, получить дифференциальную функцию экспоненциаль- ного распределения: О при х<0; Хе-Хх при х^О, (7.7.1) где х > О, X > 0 — параметр. Как видно из формулы (7.7.1), показательное распределение определяется одним параметром. Найдем функцию распределения показательного закона: х Ох F(х) = J f(x)dx= jo dx + k|е"Хх<йс = 1-е~Хх -со -СО О Итак, при х < 0; при х>0. (7.7.2) Изобразим Дх) и Дх) графически: Рис. 7.16. Графики плотности функции распределения показательного распределения Найдем вероятность попадания в интервал (а; 0) непрерыв- ной случайной величины х, которая распределена по экспонен- циальному (показательному) закону. При х >0 Дх) = 1 — е-х“ найдем Да) = 1 - е~*“ и ДР) = 1 - е-Ч). Получим Да < Х< Р) = (7.7.3) 164
Найдем М(Х): М(Х) = j xdx = j х • 0 dx + X ]Хе-Ллб(х. -со —со О Интегрируя по частям, получим 1 М(Х) Л (7.7.4) По формуле (3.9.4) подсчитаем дисперсию: /)(Л)= jx2f(x)dx-(M(X))2 ~ +со / 1 \2 +О0 I = f x2f(x)dx -1 — = X fx2e“>JC</x = -у . < о X2 —co U Интегрируя по частям дважды, получим (7.7.5) и тогда 1 о(А) = Л (7.7.6) Математическое ожидание экспоненциального распределения равно среднему квадратическому отклонению и равно обратной величине параметра Л. Пример 7.14. Непрерывная случайная величина X имеет показательное распределение с параметром X = 0,4. Найти характеристики случайной величины, инте- гральную функцию и вероятность того, что случайная величина примет зна- чение в интервале (6; 10). Так как по условию задачи случайная величина имеет показатель- ное распределение с параметром X = 0,4, то плотность распределения имеет вид: [0, если х<0; А*) |0,4е-0'4х, если х>0; М(Х)= = г = 2,5; D(x) = 6,25. Л 165
Л*) = Из формулы (7.7.2) следует О, если х<0; 1-е~0,4х, если х>0. Аналогично при расчете вероятно- сти попадания случайной величины в интервал (6; 10) можно воспользоваться формулой (7.7.3): Л6 < Х< 10) = е ~°>46 - е -°Л Ю = = е ~2’4 - е ~4 = 0,0907 - 0,0183 = 0,0724. Рис. 7.17. Иллюстрация к примеру 7.14 Покажем эту вероятность на графике Дх) (см. рис. 7.17). Пример 7.15. В большой грузовой порт под погрузку в течение рабочего дня при- бывают грузовые машины. Порт работает с 8 ч утра до 8 ч вечера. Хотя не существует определенного графика прибытия машин под погрузку, \ известно, что в течение часа прибывают примерно пять грузовиков. > Чему равна вероятность того, что в определенный день в порт прибудет грузовик между 815 и 822 утра. Определим, чему равна 1 для временного интервала 815 _ 822; X = (5/60)15 = 1,25. Подставляя А,= 1,25; а =• 1; р = 2 в формулу (7.7.3)1, получим веро- ! ятность того, что первый грузовик прибудет в порт в интервале между 815 и 832 утра. 7.8. Закон равномерного распределения (равномерной плотности) Предположим, что автобус прибывает на остановку между 8 ч 00 мин и 8 ч 10 мин утра. Вероятность того, что автобус при- будет в любой заданный промежуток времени, принадлежащий данному интервалу, пропорциональна длине этого интервала, т. е. возможность того, что автобус прибудет между 8 ч 00 мин и 8 ч 02 мин, такая же, как если автобус прибудет между 8 ч 06 мин и 8 ч 08 мин. Пусть X — означает промежуток времени, в течение 1 Мы рассматриваем 15 мин как временную единицу, которая может быть выра- жена интервалом времени между 1 и 2. 166
которого пассажир должен ждать автобус, если он прибыл на остановку ровно в 8 ч 00 мин. Измерив тщательно число минут от 8 час. до прибытия авто- буса в течение нескольких дней, можно построить график отно- сительных частот времени прибытия автобуса (рис. 7.18): Рис. 7.18. Функция плотности для случайной величины х — времени прибытия автобуса Из рис. 7.18 видно, что относительная частота времени при- бытия, наблюдаемая в промежутке от 00 до 02 мин, такая же, как в промежутке от 06 до 08 мин, т. е. FW < X < 2) — Р(6 < X < 8). Если известно, что возможные значения непрерывной слу- чайной величины принадлежат определенному интервалу, а ее плотность распределения при этом интервале остается постоян- ной, то говорят, что данная случайная величина распределена по закону равномерной плотности. В равномерном распределении вероятность того, что случай- ная величина будет принимать значения внутри заданного ин- тервала, пропорциональна длине этого интервала. Пусть непрерывная случайная величина X распределена на интервале (а; р) с равномерной плотностью. Ее плотность f (х) на этом участке постоянна и равна С (рис. 7.18). Вне этого ин- тервала она равна нулю, так как случайная величина X за преде- лами интервала (а; р) значений не имеет. Рис. 7.19. Общий вид графика функции плотности равномерного распределения 167
Найдем значение постоянной С. Площадь, ограниченная кривой распределения и осью абсцисс, должна быть равна еди- нице (рис. 7.18), т. е. С(₽-а)= 1. Следовательно, С = —-—, р-а и плотность для равномерного закона распределения аналитиче- ски можно записать так: Л» = • при а<:х<р; Р~а (7.8.1) 0, при х < а,х > р. Чтобы получить выражение для функции распределения Дх), воспользуемся формулой Дх) = J f{x)dx, связывающей функцию Дх) с плотностью распределения Дх). X X Прих<аЛ(х) = j/(x)dx = |0 dx = 0; —co —oo x , 0 x । при a <x < P Дх) = [-----dx = fo dx + [---dx = ^-^-'. ’ P~a ’ Jp-a p-a -00 r — aO a r X a P | x при x > P F(x) = f/(x)rfx = fo dx+ f------dx + fo dx = I. j j Jp-a / -co -oo a p Следовательно, О при x<a; Дх) = (x - a) / (p - a) при a < x < P; (7.8.2) Рис. 7.20. График функции распределения для случайной величины, распределенной по закону равномерной плотности 168
Для определения математического ожидания непрерывной случайной величины, распределенной по закону равномерной плотности, воспользуемся формулой (6.9.1). Когда случайная величина X распределена по закону равномерной плотности на участке от а до р эта формула примет следующий вид: °° 1 М{Х) = Г х-----------dx = -00 Р~“ откуда М(Х)= (7.8.3) Для определения дисперсии воспользуемся формулой (6.9.2), которая в нашем случае примет вид . +г( а + рУ 1 , „ , (р-а)2 Дх) = I х-----t- -----dx , откуда Дх) = - - J \ 2 7 Р-а 12 (7.8.4) Среднее квадратическое отклонение ох=7л(х)=^-. (7.8.5) Известно, что в случае непрерывной случайной величины X ь Р (а < X< b) = j/(x)t/x. а Учитывая, что f (х) = 1/(р — а), получим Р(а< Ь 1 L f 1 Л Ь~а -----dx =--- jp-а р-а т. е. Р(а < Х< Ь) = . (7.8.6) Р-а Геометрически эта вероятность представляет собой заштри- хованную площадь на рис. 7.21. 169
Рис. 7.21. Вероятность попадания %, распределенного равномерно, в интервале от а до Ь Пример 7.16. Поезда метро идут с интервалом в 2 мин. Пассажир выходит на платформу в некоторый момент времени. Время X, в течение которого ему придется ждать поезд, представляет собой случайную величину, распределенную с равномерной плотностью на участке (0; 2) мин. Найдем Дх), F(x), М(Х) и D(X). Решение. Случайная величина X — время ожидания поезда. Запи- шем функцию плотности вероятности fix), эта функция равна С на от- резке a < X < 0. f(x) — 0 при X < а и Х> 0. Это можно записать так: 0 при х < а; Лх) = С при а^х<0; 0 при х > 0. Так как площадь под кривой распределения fix) равна I, то для на- шей задачи С(2 — 0) = 1; 2С= 1; С= 0,5, 0 при х < 0; fix) = 0,5 при 0^х<2; 0 при х > 2, Цх)= jf(t)dt. —00 X а) Пусть х < 0, тогда F(x) = jo dt = 0. -оо О х б) Пусть 0 < X < 2, тогда F(x) = j 0 dt + jo,5 dt = O^x . —оо 0 0 2 x в) Пусть x > 2, тогда Дх) = j 0 dt + Jo,5 dt + jo dt = 1 -oo 0 2 170
По формуле (7.8.2) получим: Дх) = при при при х < 0; 0<х<2; х>2. +и 2 2 2 > М (А) = [x/(x)dx = [х-0,5</х = 0,5^-|о = ^-|о = 1 о 2I4J или по формуле (7.8.3) имеем: М (А) = ^-±£ = £±1=1. 2 2 «о 2 2 >ДА) = fox-M(X))2f(x)dx = j(x-l)2-0,5dx = 0,5 fox2 -2x + l)dx = -co 0 0 '2 2 2 \ f з = 0,5 fo2dx-foxdx+fox = 0,5 -r Vo о 0 J I 3 = O,sf I - 4 + 2) = 0/--2'| = 0,5-- = -. 43 J 43 J ’33 или по формуле (7.8.4) имеем: ГС¥)-<2-0)2 4 1 W 12 12 3' Пример 7.17. Инспектор по контролю качества продукции на предприятии, про- изводящем водопроводные трубы, считает, что они разной длины. Пусть длина трубы есть случайная величина, подчиняющаяся равно- мерному распределению на отрезке от 2,950 до 3,005 м. Найти среднюю длину и стандартное отклонение длины водопроводной трубы. Вычислим их по формулам (7.8.3) и (7.8.5). Полагая а = 2,950 и р = 3,005, получим 3,005^950 =29775; = ^9^950 = 88 #2 Эта информация может быть использована при приеме произве- денных труб. Равномерное распределение лежит в основе механизма многих сложных экономических явлений. И хотя равномерное распре- деление не так часто встречается; как нормальное распределение, оно имеет очень много важных статистических приложений. Например, менеджер может использовать модели равномерного распределения для 171
принятия решения о выпуске основной продукции, инвестициях в но- j вую отрасль. j Пример 7.18. I Для условия примера 7.17 определите вероятность того, что 1 пассажиру придется ожидать ближайшего поезда не более 0,5 мин. 1 Решение. Время ожидания поезда X — случайная величина, распре-1 деленная по закону равномерной плотности на участке (0; 2) мин. Эта | плотность равна: | дх) = _1_ = о)5. I Очевидно, что пассажиру придется ожидать не более 0,5 мин, если Хя окажется внутри интервала (1,5; 2,0). 1 Пользуясь формулой (3.5.1), получим I 2,0 I Л 1,5 < X < 2,0) = Jo^dx = 0,25. | 1,5 9 Такой же результат будем иметь, если воспользуемся формулой! (2.8.6). Р (1,5 < X < 2,0) = —^ = ^ = 0,25, так как по условию! Р = Ь = 2,0; а = 0,0; а = 1,5. | 0 120 125 130 135 140 Рис. 7.22. функция плотности равномерного распределения времени полета х Теперь определим вероятность того, что время полета будет между 120 и 130 мин: Л120<;Х<; 130) = 5= — 10 = — = 0,5. 20 20 Пример 7.19. Время полета от Ростова до Санкт-Петербурга составляет минимум! 2 ч, максимум 2 ч 20 мин. Время полета в минутах может быть любым! числом в интервале от 120 до 140 мин (например, 124 мин; 125; 48 мин! и т. д.). Так как случайная величина X (время полета) может принимать! любые значения от 120 до 140 мин, то X — непрерывная случайная ве-1 личина. Анализируя данные о времени полета, можно сделать заключение,! что вероятность времени полета между 120-й и 121-й мин такая же, как! вероятность времени полета в любом другом одноминутном интервале,! включая 140-ю минуту. Внутри каждого равновероятного одноминут-1 ного интервала случайная величина X имеет равномерное распределе-1 ние вероятностей. Функция плотности распределения времени полета имеет вид: fix) = - 0 1 ' 20 0 при при При х < 120; 120 < х < 140; х > 140. I 7.9. Задачи к главам 6 и 7 I Задача 1. Найдите следующие вероятности: J а) Р (—1 < Z < 1) ; | б) Р (-1,96 < Z< 1,96); I в) Р (-2,33 < Z< 2,33); | г) Р (Z < 2,58); I д) Р(-3< Z<3). I Ответ: 0,6826; 0,95; 0,9802; 0,4951; 0,9974. I Задача 2. Найдите вероятность того, что стандартная нормально В распределенная случайная величина будет иметь значения I между -2 и 1. I Ответ: 0,8185. I Задача 3. Найдите вероятность того, что стандартная нормально Г распределенная случайная величина будет иметь значения I между 2 и 3. | Ответ: 0,0215. | Задача 4. Найдите вероятность того, что стандартная нормально [ распределенная случайная величина будет больше, чем — [ 2,33. I Ответ: 0,9901. I Задача 5. Найдите вероятность того, что стандартная нормально | распределенная случайная величина будет иметь значения, I меньшие чем —45. I Ответ: 0. Здесь а = 120, р = 140. 472 173
Задача 6. Насколько вероятно, что стандартная нормально распреде- ленная случайная величина будет иметь значения, меньшие чем -4? Ответ: Р = 0,00003. Задача 7. Найдите стандартную нормально распределенную случайную величину, отсекающую площадь 0,575 (слева). Ответ: 0,19. Задача 8. Найдите Z такое, чтобы Р (Z > г) = 0,28. Ответ: 0,585. Задача 9. Найдите два значения Zh Zтаких, чтобы Р (—z < Z< z)= 0,95. Ответ: ±1,96. Задача 10. Отклонение стрелки компаса из-за влияния магнитного поля в определенной области Заполярья есть случайная величина х -> Л(0; I2). Чему равна вероятность того, что абсо-( лютная величина отклонения в определенный момент вре- мени будет больше, чем 2,4? J Ответ: 0,0164. Задача 11. Если х ~ ДГ(120; 442), то найдите такое значение х, при котором Р(Х< х) = 0,56. Ответ: 126,6. Задача 12. Для нормально распределенной случайной величины X с] М(Х) = 19 500 и о = 400 найдите такую точку в распре- делении, что Р(Х < х) = 0,02. Ответ: 20,32. Задача 13. Для X ~ Л(32; 72) найдите два значения х> и х2 симметрич- ные относительно а — 32 с Р (х{< X < х2) = 0,99. Ответ: 13,94 и 50,06. Задача 14. Пусть X — нормально распределенная случайная величина с математическим ожиданием а ~ 97 и стандартным отклоне- нием о=10. Найдите х такое, что Р (102 < X < х) = 0,5. (Дополнительное условие: а= 102.) Ответ: 103,5. Задача 15. Пьер работает в пункте по обмену валюты в офисе аэропорта Орли в Париже. Его пункт открыт ночью, когда банк аэро- порта закрыт, и он делает в основном свой бизнес на тури-: стах, возвращающихся в Америку, которые хотят обменять! франки в доллары. Из опыта Пьер знает, что потребность в долларах в любую ночь в течение сезона приблизительно подчиняется нормальному закону распределения со средней! $25 000 и средним квадратическим отклонением, равным $5000. Если Пьер сохраняет много наличности, то он должен платить штраф (процент за наличность). Если денег не хва- тает, то он должен посылать человека в круглосуточно рабо- тающее отделение банка за получением наличности, а это тоже стоит денег. Пьер хотел бы иметь в течение ночи такую 174
сумму денег, чтобы с уверенностью 85% покрывать требую- щуюся на ночь сумму валюты. Положите Пьеру определить требуемую сумму долларов? Ответ: 30 185 долл. Задача 16. Доля протеина в пакете с сухим кормом для собак — нор- мально распределенная случайная величина с математиче- ским ожиданием 11,2% и стандартным отклонением 0,6%. Производителям корма необходимо, чтобы в 99% продавае- мого корма доля протеина составляла не меньше хь%, но не более х2, %. Ответ: 9,655 и 12,745. Задача 17. Пусть X — нормально распределенная случайная величина с математическим ожиданием а - 410 и средним квадратиче- ским отклонением сг = 2. Найдите вероятность того, что X примет значение между 407 и 415. Ответ: 0,927. Задача 18. Для нормально распределенной случайной величины с а = - 44 и о = 16 найдите вероятность того, что значение слу- чайной величины будет положительно. Ответ: 0,003. Задача 19. Пусть X — нормально распределенная случайная величина с математическим ожиданием а — 16 и со средним квадрати- ческим отклонением а = 3. Найдите: а) Р (11 < X < 20); б) Р(17 < Х< 49); с) Сумму вероятностей Р (17 < X < 19) и Р (X > 15). Ответ: 0,8608; 0,3707; 0,84134. Задача 20. Еженедельный выпуск продукции на заводе распределен приблизительно по нормальному закону со средним значе- нием а = 134 786 ед. продукции в неделю и о = 13 000 ед. Найдите вероятность того, что еженедельный выпуск продукции: а) превысит 150 000 ед.; б) окажется ниже 100 000 ед. в данную неделю; в) предположим, что возникли трудовые споры и недельный выпуск продукции стал ниже 80 000 ед. Менеджеры обвиняют профсоюзы в беспрецедентном паде- нии выпуска продукции, а профсоюзы утверждают, что вы- пуск продукции находится в пределах принятого уровня (±3а). Доверяете ли Вы профсоюзам? Ответ: а) 0,121; б) 0,0037; Задача 21. В здании областной администрации случайное время ожида- ния лифта равномерно распределено в диапазоне от 0 до 5 мин. 175
1. Чему равна функция распределения F (х) для этого рав-1 номерного распределения? 1 2. Чему равна вероятность ожидания лифта более чем I 3,5 мин? I 3. Чему равна вероятность тогог что лифт прибудет в тече-1 ние первых 45 сек? 1 4. Чему равна вероятность, что время ожидания лифта в! диапазоне от 1 до 3 мин (между 1 и 3 мин)? | Ответ: 2) 0,3; 3) 0,15; 4) 0,4. | Задача 22. Мастер, осуществляющий ремонт на дому, может появиться] в любое время с 10 до 18 ч. Клиент, прождал до 14 ч, отлу ] чился на 1 ч. Какова вероятность, что мастер (приход его] обязателен) не застанет его дома? I Ответ: 0,25. I Задача 23. Предположим, Вы остановились на шоссе из-за того, что у] Вашей машины перегорела обмотка генератора и ее нужно] взять на буксир при помощи троса, которого у Вас нет. Ка-1 ждый из проезжающих останавливается и предлагает Вам] помощь. Однако если и у них нет такого троса, то помочь] они не могут. Только у 10% автомобилистов есть трос.] Сколько автомобилей в среднем остановятся и не] смогут оказать Вам помощь? I Ответ: 10. I Задача 24. Кандидат на выборах считает, что 20% избирателей в опре-| деленной области поддерживают его избирательную плат-1 форму. Если 64 избирателя случайно отобраны из большого I числа избирателей данной области, оцените вероят-| ность того, что отобранная доля избирателей, поддерживаю- ! щих кандидата, не будет отличаться от истинной доли более 1 чем на 0,07. I Ответ: 0,16152. I Задача 25. Авиакомпания знает, что 5% людей, делающих предвари-1 тельный заказ на билет определенного рейса, не будут ис-1 пользовать его. Если авиакомпания продала 160 билетов на 1 самолет, в котором лишь 155 мест, чему равна вероятность I того, что место будет доступно для любого пассажира, ] имеющего заказ и планирующего улететь? | Задача 26. Масса тропического грейпфрута, выращенного в Краснодар-1 ском крае, — нормально распределенная случайная величина з с неизвестным математическим ожиданием и дисперсией, 1 равной 0,04. Агрономы знают, что масса 65% фруктов мень- I ше, чем 0,5 кг. Найдите ожидаемую массу случайно 1 выбранного грейпфрута. 1 Ответ: 0,423. | 176
Задача 27. Фирма, занимающаяся продажей товаров по каталогу, еже- месячно получает по почте заказы. Число этих заказов — есть нормально распределенная случайная величина со сред- ним квадратическим отклонением а = 560 и неизвестным математическим ожиданием а. В 90% случаев число ежеме- сячных заказов превышает 12 439. Найдите среднее число заказов, получаемых фирмой за месяц. Ответ: 13158,6. Задача 28. Масса товаров, помещаемых в контейнер определенного размера, — нормально распределенная случайная величина. Из- вестно, что 65% контейнеров имеют чистую массу больше 4,9 т и 25% — имеют массу меньшую, чем 4,2 т. Найдите среднюю и среднее квадратическое отклонение чистой массы контейнера. Ответ: 5,83 и 2,41. Задача 29. Владелец антикварного аукциона полагает, что предложения цены за определенную картину будут равномерно распреде- ленной случайной величиной в интервале от 500 тыс. до 2 млн руб. а) Найдите дифференциальную функцию; б) Определите вероятность того, что картина будет продана за цену, меньшую чем 675 тыс.; в) Найдите вероятность того, что цена картины будет выше 1 млн руб. Ответ: б) 0,1167; в) 0. Задача 30. На перекрестке дорог движение регулируется автоматиче- ским светофором, включающим зеленый свет через каждые 2 мин. Время простоя автомобиля у этого светофора, про- ехавшего на красный свет, есть случайная величина, распре- деленная равномерное с плотностью на участке 0; 2 мин. Найдите среднее время простоя и среднее квадратическое отклонение. Ответ: 1; 0,5773. Задача 31. Измеряется температура термометром с ценой деления в 1° С. Отсчет производится с абсолютной погрешностью до одного градуса. Величина ошибки измерения X есть случайная ве- личина, распределенная с равномерной плотностью в диапа- зоне (-0,5°; +0,5°). Найдите среднюю ошибку измере- ния, а также стандартное отклонение. Ответ: 0; 0,2887. Задача 32. Очень наблюдательный вор, занимающийся кражей предме- тов искусства, который, вероятно, знает хорошо статистику, заметил, что частота, с которой охранники обходят музей, равномерно распределена между 15 и 60 мин-1. Следова- тельно, если X обозначает время (в минутах) до появления охраны, то дифференциальная функция для X имеет вид 177
0 при х < 15; /(Х) = I 60-15 при 15$х<60 0 при х >60. а) Постройте графики Дх) и F(x). 1 б) Найдите вероятность того, что охранник появится в тече-1 ние 35 мин после появления вора. I в) Найдите вероятность того, что охрана не появится в тече-1 ние 30 мин. I г) Найдите вероятность того, что охрана появится между 351 и 45 мин после прихода вора. 1 Ответ: б) Р(Х < 35) = 0,4444; в) Р(Х > 30) = 0,667; I г) Р(30 < X < 45) = 0,333. | Задача 33. Предположим, что в течение года цены на акции некоторой 1 компании подчинялись нормальному закону распределения ! с математическим ожиданием, равным 48 усл. ден. ед., и| стандартным отклонением, равным 6. Чему равна ве-1 роятность того, что в случайно выбранный день обсуждае-1 мото периода цена за акцию была более 60 усл. ден. ед.? Я Ниже 60 ед. за акцию? Выше 40 ед. за акцию? Между 40 и 1 50 ед. за акцию? 1 Ответ: 0,02275; 0,9772; 0,90824; 0,5375. I Задача 34. Менеджер ресторана по опыту знает, что 70% людей, сделавших | заказ на вечер, придут в ресторан поужинать. В один из вечеров | менеджер решил принять 20 заказов, хотя в ресторане было | лишь 15 свободных столиков. Чему равна вероятность I того, что более 15 посетителей придут на заказанные места? 1 Ответ: 0,16185. j Задача 35. Компьютерная система содержит 45 одинаковых микроэле- 1 ментов. Вероятность того, что любой микроэлемент будет j работать в заданное время, равна 0,80. Для выполнения не- ' которой операции требуется, чтобы по крайней мере 30 микроэлементов были в рабочем состоянии. Чему \ равна вероятность того, что операция будет выполнена j успешно? ! Ответ: 0,99. > Задача 36. Для поступления в некоторый университет необходимо ус- i пешно сдать вступительные экзамены. В среднем их выдер- J живают лишь 25% абитуриентов. Предположим, что в при- емную комиссию поступило 1889 заявлений. Чему равна ве- роятность того, что хотя бы 500 поступающих сдадут все эк- замены (наберут проходной балл)? Ответ: 0,0738. 178
Задача 37. Дневная добыча угля в некоторой шахте распределена по нормальному закону с математическим ожиданием 785 т и стандартным отклонением 60 т. Найдите вероятность того, что по крайней мере 800 т будут добыты в заданный день. Определите долю рабочих дней, в которые бу- дет добыто от 750 до 850 т угля? Найдите вероятность того, что в данный день добыча угля упадет ниже 665 т. Ответ: 0,4013; 0,58; 0,023. Задача 38. Срок службы жесткого диска компьютера — случайная вели- чина, подчиняющаяся экспоненциальному распределению со средней в 12 000 ч. Найдите долю жестких дисков, срок службы которых превысит 20 000 ч. Ответ: 0,1882. Задача 39. Срок службы батареек для слуховых аппаратов приблизи- тельно подчиняется экспоненциальному закону с X = 1/12. Какова доля батареек со сроком службы больше чем 9 дней? Ответ: 0,4727. Задача 40. Служащий рекламного агентства утверждает, что время, в течение которого телезрители помнят содержание коммерче- ского рекламного ролика, подчиняется экспоненциальному закону с Х= 0,25 дня. Найдите долю зрителей, способ- ных вспомнить рекламу спустя 7 дней? Ответ: 0,1739. Задача 41. Компьютерный программист использует экспоненциальное распределение для оценки надежности своих программ. По- сле того как он нашел 10 ошибок, он убедился, что время (в днях) до нахождения следующей ошибки подчиняется экс- поненциальному распределению с X = 0,25. Найдите среднее время, потраченное для нахождения первой ошибки, и определите вероятность того, что для нахождения первой ошибки понадобится более 5 дней, а также вероят- ность того, что на нахождение одиннадцатой ошибки потре- буется от 3 до 10 дней? Ответ: Р(х > 5) = 0,8825; Р(3 < X < 10) = 0,1489.
3 Закон больших чисел 8.1. Принцип практической уверенности. Формулировка закона больших чисел Этот принцип иногда в литературе называется «принципом практической невозможности маловероятных событий». Известно, что если событие имеет очень малую вероятность (отличную от нуля), то в единичном испытании это событие может наступить и не наступить. Но так рассуждаем мы только теоретически, а на практике считаем, что событие, имеющее ма- лую вероятность, не наступает, и поэтому мы, не задумываясь, пренебрегаем им. Например, когда мы смотрим фильм в кинотеатре, теоретически не исключено, что потолок упадет нам на голову. Однако зрители спокой- ны, и действие, происходящее на экране, нас волнует больше, чем мысль об опасности. Это происходит потому, что вероятность того, что потолок обрушится — «ничтожно мала», и практически можно быть уверенным, что такое событие не произойдет, т. е. оно является «практически невозможным» событием. Но нельзя дать ответ в рамках математической теории на вопрос, какой должна быть верхняя граница вероятности, чтобы можно было назвать «практически невозможными» события, вероятности которых не будут превышать найденной верхней границы. Пусть, например, рабочий изготавливает на станке 100 изделий, из которых одно в сред- нем оказывается бракованным. Очевидно, что вероятность брака равна 0,01, но ею можно пренебречь и считать рабочего неплохим специали- стом. Но если строители будут строить дома так, что из 100 домов (в среднем) в одном доме будет иметь место разрушение крыши, то вряд ли можно пренебречь вероятностью такого события. Итак, в каждом отдельном случае мы должны исходить из того, насколько важны последствия в результате наступления события. При «практически достоверных» событиях, вероятность ко- торых близка к единице, также встает вопрос о степени такой близости. 180
Вероятность, которой можно пренебречь в данном исследо- вании, называется уровнем значимости. Итак, сформулируем принцип практической уверенности: «Если какое-нибудь событие имеет малую вероятность (например, р < 0,01), то при единичном испытании можно прак- тически считать, что это событие не произойдет, а если событие имеет вероятность, близкую к единице (р > 0,99), то практиче- ски при единичном испытании можно считать, что это событие произойдет наверняка»1. Таким образом, исследователя всегда должен интересовать вопрос, в каком случае можно гарантировать, что вероятность события будет как угодно близка к 0 или как угодно близка к 1. Математические законы теории вероятностей получены аб- страгированием реальных статистических закономерностей, свойственных массовым случайным явлениям. Основной закономерностью массовых случайных явлений является свойство устойчивости средних результатов. В широком смысле слова под «законом больших чисел» (3.54) понимают известное с глубокой древности свойство ус- тойчивости массовых случайных явлений. Это свойство состоит в том, что средний результат действия большого числа случайных явлений практически перерастает быть случайным и может быть предсказан с достаточной определенностью. Оно вытекает из того, что индивидуальные особенности отдельных случайных явлений, их отклонения от среднего результата в массе своей взаимно погашаются, выравниваются. В узком смысле слова под «законом больших чисел» понима- ют совокупность теорем, в которых устанавливается факт при- ближения средних характеристик к некоторым постоянным ве- личинам в результате большого числа наблюдений. Различные формы закона больших чисел дают возможность уверенно оперировать со случайными величинами (СВ), осуще- ствлять научные прогнозы случайных явлений и оценивать точ- ность этих прогнозов. формулировка закона больших чисел (ЗБЧ), развитие идеи и методов доказательства теорем, относящихся к этому закону, принадлежат русским ученым: П.Л. Чебышеву, А.А. Маркову И А.М. Ляпунову. 1 Венецкий ИГ, Венецкая В.И. Основные математико-статистические понятия и формулы в экономическом анализе. — М.: «Статистика», 1974. — С. 89. 181
8.2. Неравенства Маркова и Чебышева Доказательство ЗБЧ основано на неравенстве Чебышева. Не- | равенство Маркова в литературе иногда называется леммой ! Маркова и даже леммой Чебышева, так как оно является част-1 ным случаем неравенства Чебышева. 1 Лемма Маркова. Если случайная величина X не принимает I отрицательных значений, то для любого положительного числа I справедливо неравенство: I P(X>a)s^Q (8.2.1) I а 1 Доказательство. 1 1) Пусть X — дискретная случайная величина, заданная ря-1 дом распределения, причем 0 < х\ < Х2 < < хп ! I 2) Пусть теперь X — непрерывная случайная величина. Так [ как по условию X не принимает отрицательных значений, то ее | плотность вероятности /(х) = 0 при всех х < 0. Поэтому I М(Х) - jxf(x)dx = |х f(x)dx > pc f(x)dx>a pc f(x)dx= a-P(X>d), I -co 0 a a и опять, делим на а, получаем неравенство (8.2.1). Лемма доказана. I Замечание. I События х < а и х >а— противоположные, поэтому, исполь- I зуя неравенство (8.2.1), получаем Р (Х< a) = 1 - Р 6¥>а) > 1 - (8.2.2) а Пример 8.1. X,- Х1 х2 х„ £i £1 £2 £а I Дана случайная величина X Xi 2 4 6 8 10 12 £1 ОД 0.2 0,25 0,15 0,15 0,15 Все значения СВ разобьем на две группы. К первой группе J отнесем значения СВ, меньшие а(пусть это будут xj, xj,..., хл), а | ко второй группе отнесем все остальные значения СВ, т. е. | большие либо равные a (x^+j, х^+з,..., хл). 1 Как известно, математическое ожидание дискретной случай-1 ной величины X задается формулой: | М(Х) =xiPi +Х2Р2+... + X/j>k +xk+ipk+l+... + х„рп. ] Отбросим в правой части формулы первые К слагаемых. Так как р, > О, X/ >0 и, кроме того, при х, > a, i > к+1, будет иметь ! место следующее неравенство: 1 М (X) ixk+ipk+l + -V» ^а(р4+1 +... + рп). s Из того, что | Рк+1 +... + Рп = Р(Х==хк+1) +... + Р(Х=хп) = Р(Х>а), I следует, что: 1 М(Х)*аР(Х>а). | Разделим обе части последнего неравенства на аи получим ! неравенство (8.2.1). I I Какова вероятность того, что случайная величина X | примет значение, меньшее 11? Оценить эту вероятность, пользуясь не- I равенством Маркова. I Решение. Исходя из условия будем рассуждать так: I Р(Х<11) = Р(Х = 2) + Р(Х=+) + Р(Х=6) + Р(Х=8) + Р(ЛМО) = 0,1 + |. 0,2 + + 0,25 + 0,15 + 0,15 + 0,15 = 0,85 I Используя же неравенство Маркова (5.2.2), получаем I Р (% <11)^1 - = | , 2 0,1+4-0,2+6 0,25 + 8-0,15 + 10-0,15 + 12-0,15 g 1 — ----------------------------------------'- а: ! , t _ од±о,8П,5 + Ч + 1^+1,8 = , - = , - 0.636 = 0.364 I Р(Х <11)2:0,364 Пример 8.2. | Сумма всех вкладов в некоторой сберегательной кассе составляет 120 000 000 руб., а вероятность того, что случайно взятый вклад меньше 1 100 000 руб., равна 0,8. Что можно сказать о числе вкладчиков данной | сберегательной кассы? 182 183
Решение. Пусть X — величина случайно взятого вклада, ап — числе всех вкладчиков. Тогда из условия задачи следует, что Я <А) = 20000000 ; Р(Х < 100 000) = 0,8, V л Я и по неравенству Маркова Р (Х< 100 000) >1 - I , 20000000 20000000 . . '1 Отсюда 0,8 >1 — ; --------> 0,2; 200 > и -0,2; и <1000. Д Д ,о п' 100000 п 100000 | Неравенство Чебышева. Вероятность того, что отклонен!» случайной величины X от ее математического ожидания по абИ солютной величине будет меньше данного положительного чисЯ ла б, ограничена снизу величиной fl 1 ЭД) 1 1----1 > т- е- fl Е fl Л|Л - М(х)\ < е) >1 - (8.2.3)! 6 Доказательство. Я Рассмотрим случайную величину ((X— МЛ))2- Она не принимает! отрицательных значений, поэтому мы можем применить к ней! лемму Маркова, а точнее, неравенство (8.2.2), полагая в нем а=е2: 1 Р ((X- МЛ))2 <б2) Я “ . (*) I е 1 По определению дисперсии 1 М(ЙГ- МА))2 = ад), I а) вероятности неравенства (X — М(Х))2 <е2 и I (X — МЛ)1 <е fl совпадают (равны), поэтому неравенство (*) принимает вцД (8.2.3). J Замечание 1. Если случайная величина X непрерывна, то 1 Х1 1 Р(Х= Х[) = <X<Xi) = J/(x) dx = 0, 1 Xi I поэтому в левой части неравенства (8.2.1) вместо Р(Х> а) можно! писать Р(Х > а), а в левой части неравенства (8.2.3) вместо! Л|Л-М(А)| < е) можно писать Р( |Х - М(Х)|) <б. Однако для дис-| кретных случайных величин замена неправомерна. 1 184 | Замечание 2. Из неравенства (8.2.3) переходом к противопо- ложному событию можно получить неравенство Л|А-Л/(А)| >£)<^ф (8.2.4) I е Щример 8.3. । Вероятность наступления некоторого события р = 0,3 в каждом из и = 900 независимых испытаний. Используя неравенство Чебышева, вценить вероятность того, что событие повторится число раз, заклю- ченное в пределах от 240 до 300. | Дано: л= 900; I п»1 = 240; [ ш2=300. | Решение. М (X) = а = пр = 900 • 0,3= 270; Г а=| 240 - 270 I = 1300 - 270 I = 30; I D(X) = npq = 900-0,3-0,7 = 189; | Р (I X - 270 I <30)2:1 - = 1-1** = 1 -0,21 =0,79. [ e2 302 f И окончательно имеем: Р (| X - 270 I <30)>0,79. 8.3. Теорема Чебышева (частный случай) Эта теорема устанавливает связь в количественной форме между средней арифметической х наблюдаемых значений слу- чайной величины Ли ее математическим ожиданием М (X) = а. I Она формулируется следующим образом: I fl Теорема. При неограниченном увеличении числа п независи- мых испытаний «средняя арифметическая наблюдаемых значений Случайной величины сходится по вероятности к ее математиче- скому ожиданию»', т. е. для любого положительного е. р(|л-а|<е)=1 (8.3.1) I Смысл выражения «х сходится по вероятности к а » заключается в том, что вероятность того, что х будет сколь угодно мало отличаться от а, неограни- внно приближается к единице с ростом числа п. 185
Доказательство. Заметим прежде всего, что мы можем рас- сматривать Х\, Аг,..., Хп не только как наблюдаемые в соответст- вующих независимых опытах значения случайной величины X, но и как независимые случайные величины, имеющие одинаков вое распределение (такое же, как у X), в частности, одинаковое математическое ожидание а = М(Х) и дисперсию ДА). По свой- ствам математического ожидания и дисперсии имеем: М(х) = М\ = 1 M(Xi+X2 + ... 4- Х„) = I ( п ) п (надежностью) можно ожидать, что связанная с этой заменой ошибка (х — а) не превзойдет заданную величину е. Кроме того, при известном значении дисперсии D(X), ис- пользуя неравенство (8.3.2), можно решать ряд других практиче- ских задач. Например, по заданным значениям вероятности (надежности) Р=Р (|х - а| < е) и максимальной допустимой ошибке е, определить число необходимых опытов и; или по за- данным Р и п определить е; или, наконец, по заданным е и п определить границу вероятности события | х — а | < е. = - М(%!) + М(Х2)+ ... + +М(Х„) = п = — (а + а + ... + п Пример 8.4. Дх.) = D = - D{XJ п Применим к (8.2.3) ч 1 а) — — па = а; п - D(Xi + Х2+...+ Х„) = п к + D {Х2)+... + +D (Х„) =\nD(X) = п п случайной величине х неравенство Чебышева Дисперсия случайной величины X равна 4. Сколько требуется произве- сти независимых опытов, чтобы с вероятностью не менее 0,9 можно было ожидать, что среднее арифметическое значение этой случайной величины будет отличаться от ее математического ожидания менее чем на 0,5? Решение. По условию задачи е= 0,5; Д|х-а| < 0,5) >0,9; п =? Применив формулу (8.3.2): Р(\Х-М(Х)\ < е) >1 — ЛЕ Подставляя в лучим /|_ \ йбг) ’ <из соотношения 1 - .. , -TZ. К определяем п = —4- = это неравенство значения М (X ) и Д X ), пов 0,1 е2 = 0,9 пе.2 (8.3.2) 4 -------- = 160. 0,1 0,25 I Если использовать утверждение, что в любом случае средняя ариф- | метическая распределена примерно нормально, то получаем: | Р(|х-а| < е) = 2ФО >0,9. Откуда е^ >1,645 Если теперь в полученном неравенстве взять сколь угодно ма-Ш „пн или лое положительное е и неограниченно увеличить п, то получим К п >6,58, т. е. п >49. lim 1, (Пример 8.5. что и доказывает теорему Чебышева. Из рассмотренной теоремы вытекает важный практически! вывод. Он состоит в том, что неизвестное нам значение матемв тического ожидания случайной величины мы вправе замени^ средним арифметическим значением, полученным по достаток но большому числу опытов. При этом, чем больше проведен» опытов для вычисления, тем с большей вероятности j Дисперсия случайной величины X равна 5. Произведено 100 неза- висимых опытов, по которым вычислено х . Вместо неизвестного зна- чения математического ожидания а принята х . Определить ^максимальную величину ошибки, допускаемую при этом, с вероятно- ^стью не менее 0,8. ?р; Решение. По условию п ~ 100 Р (|х - а | < е) >0,8; е=? 186 187
Применяем формулу (8.3.2) Л|х-а|< е)>1 - пел Из соотношения 1 - = 0,8 определяем е: .2 = Ж) = 5 0,2л 0,2 100 = 0,25; е = 0,5 Ж=±2>(^.). (З.гзГпол^им1^ СЛуЧаИНОЙ величине У неравенство Чебышева Л|У-Л/(У)( <е)>1 _ ^22, или е 8.4. Теорема Чебышева (общий случай) ] Рассмотренная выше теорема Чебышева может быть распро-1 странена на более сложный случай, а именно, когда мы имеем I дело не со средним арифметическим значением одной и Той же 1 случайной величины, а со средним арифметическим значением] п независимых случайных величин, распределенных неодинако-1 во. И в этом случае, если дисперсия каждой из п случайных ве-1 личин ограничена сверху одной и той же постоянной величи-1 ной, среднее арифметическое значение является устойчивым и | сходится по вероятности к определенной неслучайной величине. | Теорема Чебышева. Если Х[, Х2,..., Хп — независимые слу-1 чайные величины с математическими ожиданиями а\, а2,..., ап и! дисперсиями D{, Dt.,--, Dn, причем все дисперсии не превышают йо-| стоянной С, то при возрастании п средняя арифметическая наблю-Л даемых значений величин Х\, Х2,..., Хп сходится по вероятности /с! средней арифметической их математических ожиданий, т. е. 1 . I Ж) 2_ id__ п2 £2 в последнем неравенстве заменим ±DW величиной „с этого неравенство может только усилится, поскольку Тогда окончательно получим: Г « хл £«, п п > 1 - ~ пе2 (8.4.2) где s — любое положительное число. л Доказательство. Рассмотрим случайную величину Y = 1ф- Напишем ее математическое ожидание и дисперсию: п п Y^x-,) М(У)= —-------= id_; п п 188 Каким бы малым ни было фикеированное^Т^Т^ величина дроби — _ о, а вероятность I Я л I ) Хл izl____м , п п 6 т. е. теорема доказана. Ь =*== « к 1, принимает зналеим S” “ ° "ероя™с™, Влиз- Гому средней арифмети 189
Пример 8.6. С какой вероятностью можно утверждать, что от-, клонение средней арифметической 1500 независимых случайных вели- чин от средней арифметической их математических ожиданий не пре- взойдет 0,6, если известно, что дисперсия каждой из величин не пре- вышает 3? Решение. Средняя арифметическая п случайных величин (Т4 + Х2 + +...+ А^/л также есть случайная величина. Средним значением ее будет величина + а2 +... + ап)/п. На основании теоремы Чебышева имеем: lim Pi — - р <е = 1; 7—>оо \ И J (8.5.1) A} +T2+...+A7, п +Х2+-+Хп < X1 —11: « ) Е2 nfAg + Ад+ '.+А'/Л < 3 I п 7 1500 Следовательно, + А"з+- • -+АГЛ 1500 а1 + а2+- -+ал 1500 < 0,6 > 1--------------, J 1500 0,36 или Afj + %2+..-+АГ л 1500 1500 | где е — сколь угодно малое положительное число. Доказательство. Относительная частота — есть случайная величина. Известно, что математическое ожидание М — и v nJ j дисперсия вычисляются по формулам (2.4.4) и (2.4.5): \nJ \п) п Запишем неравенство Чебышева (8.2.3) для случайной вели- v т Нины — : I: П Окончательно получим неравенство 8.5. Теорема Бернулли я При помощи этой теоремы устанавливается связь между от-1 носительной частотой (частостью) события и его вероятностью. Она была доказана Я. Бернулли (опубликована в 1713г.) и поло} жила начало теории вероятностей как науки. Сам Бернулли до} казывал эту теорему сложно, а мы ее докажем проще, потому что у нас есть в распоряжении неравенство Чебышева (у Бер- нулли его не было!). I Пусть произведено п независимых испытаний, в каждом из которых вероятность появления некоторого события А постоял* на и равна Р. | Теорема Бернулли. При неограниченном возрастании числа ________________________________________________ 'i /и независимых испытании п относительная частота — появления п события А сходится по вероятности к его вероятности Р, т. е. j pf^-Xekl- Д- V. п J ) (8.5.2) | Каким бы малым ни было число епри п -><х> величина дроби Й.-+0, a pfXXX 1. ГДЕ2 ) ) Из теоремы Бернулли следует, что при достаточно большом числе испытаний относительная частота т/п появления события практически утрачивает свой случайный характер, приближаясь К постоянной величине Р — вероятности данного события. В Ьтом и состоит принцип практической уверенности. I Несмотря на то, что при неограниченном возрастании числа ^зависимых испытаний разность | - р\ может оказаться как Угодно малой, все же нельзя сказать, что lim — — р. Такое ут- | п Ьерждение было бы совершенно неверным, так как в данном 190 191
вопросе не выполняются необходимые условия, входящие в со- став определения понятия предела. В самом деле, может случить- j ся, что событие А будет происходить при всех последующих испы- таниях, начиная с некоторого номера п > N и тогда lim — = р, но ; П-+х П не исключен и тот случай, когда начиная с некоторого номера и> N, событие А не будет происходить ни при одном испытании т п и тогда hm — = 0. п—>00 П Значит, при неограниченном числе независимых испытаний может случиться, что — ->р, но этого может и не случиться. Тогда возникает вопрос о том, какова же вероятность того, т „ что----->р! п Из теоремы Бернулли ответа на этот вопрос не вытекает, на в более глубоких исследованиях из теории вероятностей доказы- вается, что при п -»<» Р( — ~^Р) = 1- Следовательно, — ->р не по типу lim — - р, а по вероятности.; И л->о> И Пример 8.7. С целью установления доли брака продукции было проверено п схеме возвратной выборки 1000 единиц. Какова вероятность того, что установленная этой выборкой доля брака по абсолютной величине бу- дет отличаться от доли брака по всей партии не более, чем на 0,01, если известно, что в среднем на каждые 10000 изделий приходится 500 бра- кованных? Решение. По условию задачи число независимых испытаний п - 1000, 500 р — -------------- 10000 = 0,05; q = 1 - р = 0,95; е= 0,01 Л1 --р\< 0,01) =? п Применяя формулу (8.1), получим п\ т \п °’-5 9’21- = 0,527. 1000 0,0001 Р\—-р <0,01 >1-^у = 1 - \ И J П£ Итак, с вероятностью не менее 0,527 можно ожидать, что выбороч- ная доля брака (относительная частота появления брака) будет отли- чаться от доли брака во всей продукции (от вероятности брака) не бо- лее чем на 0,01. Замечание. При решении задач на теорему Бернулли обычно имеют место следующие ошибки: 1) В формуле (8.5.2) иногда подставляют значения вероятностей р и q, выраженные в процентах, забывая перевести эти вероятности в доли единицы. 2) Ответ записывают в виде Р = 0,527, в то время как формула (8.5.2) дает лишь нижнюю границу значения вероятности. В от- вете нужно писать Р > 0,527. Пример 8.8. При штамповке деталей вероятность брака составляет 0,05. Сколько нужно проверить деталей, чтобы с вероятностью не ме- нее 0,95 можно было ожидать, что относительная частота бракованных изделий будет отличаться от вероятности брака менее, чем на 0,01? Решение. По условию задачи р = 0,05; q - 0,95; е= 0,01. Д| — — < 0,01) >0,95; л =?; п Из равенства 1 — = 0,95 пе2 находим п = рд 0,05 0,95 0,05 е2 ” 0,05 0,0001 = 9500. Замечание. Оценки необходимого числа наблюдений, получаемые при применении теоремы Бернулли (или Чебышева) очень преувеличены. Су- ществуют более точные оценки, предложенные Бернштейном и Аинчиным, но требующие более сложного математического аппарата. Чтобы избежать преувеличений оценок, иногда пользуются формулой Лапласа: Л1--р1^)«2Ф0ЦГ. и \pq) Недостатком этой формулы является отсутствие оценки допускае- мой погрешности. 8.6. Теорема Пуассона В теореме Бернулли устанавливается связь между относи- тельной частотой появлений события и его вероятностью Р при условии, что последняя от опыта к опыту не изменяется. Други- ми словами, теорема Бернулли справедлива и при проведении опытов в неизменных условиях. 7 Теория статистики с основами теории вероятностей 192 193
Оказывается, аналогичная связь существует и при перемен- ; ных условиях опыта, т. е. когда вероятность от опыта к опыту меняется. Теорема, в которой устанавливается связь между отно- сительной частотой появления события и некоторой постоянной ! величиной при переменных условиях опыта, называется теоре' мой Пуассона. | Теорема Пуассона. Если производится п независимых опы- тов и вероятность появления события А в i-м опыте равна Р,, то i при увеличении п относительная частота появления события — п сходится по вероятности к среднему арифметическому значению вероятностей Р/, т. е. lim P п Za т i=\ п п = 1 (8.6.1) Доказательство. Пусть произведено п независимых опытов с вероятностью появления события А в z-м опыте Р,. Обозначим число появлений события А в /-м опыте через Xt (i = 1,2,3,..., и). Очевидно, общее число, появлений события А в п опытах: п т = X + Х2 +... + Х„ = , а относительная частота m n n Z^ П Определим математическое ожидание и дисперсию относи- тельной частоты появления события А. М — =М \п) п Z* 1=1 п = - ад + х2 +... + хп) = п = 1 М(Р{ + Р2 +... + Р„), п поскольку ряд распределения для X/ имеет вид: где qt = 1 - pt D — V п, поскольку ад) = М(Х? ) - (Л/(Л,))2 = pt- р? = pt qt. Итак, п ( Л Za — f = ^1+^2+-- +Рп _ 1 = 1 I nJ п п п z ч ZAA D — = ---- (**) k nJ п Применяя неравенство Чебышева (8.2.3) для случайной ве- т Гт\ личины т/п, получим Р(| — — М — |<е) > 1 — ——, а учиты- п \nJ е2 вая равенство (**), будем иметь: п 'LPiQi }т_ р1±р,+:..+рп k « п п2е2 (8.6.2) Каким бы ни было число е, при п -><х> величина дроби п Ерл ^-5—>0, а вероятность Р(| — — | иг п п Пример 8.9. Одинаковые партии изделий размешены в 11 ящиках, причем доли первосортных изделий в них составляют 0,0; 0,1; 0,2; 0,3; 0,4; 0,5; 0,6; 0,7; 0,8; 0,9; 1,0. Из каждого ящика наудачу извлечено по одному изделию. Опреде- i лить вероятность того, что доля первосортных изделий в выборке будет отличаться от средней арифметической доли менее 0,2. 7* 195 194
Решение. По условию задачи: л=11; />i=0,0; р2 =0,1; р3 =0,2; р4 =0,3;. р5 =0,4; р6 =0,5; р2 =0,6; р8 =0,7; />9 =0,8; рю =0,9; рв =1,0; е=0,2. Применяя формулу (8.6.2), получим: п V p:qi Al - - р№+-+р»1 <o>2)si - » п п п2е2 = 1 - о'° ^’09 + °»16 + °»21 + 0»24 + °25 + °^4 + 0Л + 0Д6 + 0,09 + 0,0 121 • 0,04 1 !>65 ПКА '-Гй'0'64- 8.7. Задачи к главе 8 Задача 1. Среднее значение расхода воды в населенном пункте состав- ляет 50000 л в день. Оцените вероятность того, что в этом населенном пункте расход воды не будет превы- шать 120000 л в день. Ответ: Р > 0,583. Задача 2. Средняя масса клубня картофеля равна 100 г. Применяя нера- венство Маркова, оцените вероятность того, что наудачу взятый клубень имеет массу не более 300 г. Ответ: Р > 0,66. Задача 3. В результате анализа торговой деятельности некоторого мага- зина установлено, что среднемесячные издержки обращения составляют 300 усл. ден. ед. Оцените вероятч н о с т ь того, что в очередном месяце издержки не выйдут за пределы 280—320 денежных единиц. Известно, что дис- персия издержек равна 16 ден. ед. Ответ: Р > 0,96. Задача 4. Вероятность появления события А в одном опыте р=0,5. Можно ли с вероятностью, большей 0,97, утверждать, что число появлений события А в 1000 независимых опытах бу- дет в пределах от 400 до 600? Ответ: да, т.к. Р i. 0,975. Задача 5. На станке изготавливается некоторая деталь. Оказывается, что ее длина X представляет собой случайную величину. При измерении в трех случаях длина оказалась равной 20,1 см, в двух случаях — 19,8 см, в одном случае длина оказалась рав- ной 20,5см, а в четырех случаях — 19,9см. Найдите нижний предел вероятности того, что длина детали будет за- ключена между 19,7 и 20,3 см. Ответ: Р~г 0,555. Задача 6. Дисперсия случайной величины X равна 2,5. По результатам 200 независимых опытов вычислена средняя арифметическая X, которой заменили неизвестное значение М(Хр= а. Каково наименьшее значение вероятности того, что эта замена при- ведет к ошибке менее чем 0,25? Ответ: Р > 0,8. Задача 7. Для определения средней урожайности на площади 100000 га взято на выборку по одному гектару от каждого участка раз- мером 100 га. Определите вероятность того, что средняя выборочная урожайность будет отличаться от дейст- вительной средней по всей площади не более чем на 0,5 ц, если дисперсия урожайности на отдельных участках (по 100 га) не превышает 2 ц. Ответ : Р > 0,92. Задача 8. Определите с вероятностью (надежностью) не менее 0,8, каково может быть максимальное отклонение выборочной средней урожайности от средней урожайности по всей площади, составляющей 10000 га, если с каждого участка размером 200 га на выборку было взято по одному гектару, а максимальная дис- персия на отдельных участках не превышает 2,5 ц. Ответ: е = 0,5. Задача 9. Партия деталей размещена в 250 ящиках. Для определения средней массы детали в партии было взято по одной детали из каждого ящика. При условии, что дисперсия по каждому ящику не пре- вышает 4, определите максимальное отклонение средней массы детали в выборке от средней массы ее во всей партии. Результат необходимо гарантировать с вероятностью не менее 0,9. Ответ: s =0,4. Задача 10. Даны 3 случайные величины: X 0 10 20 Pi 1/4 1/2 1/4 У -20 0 40 Pi 1/4 1/2 1/4 у -20 0 40 7 1/4 1/2 1/4 Z -10 0 20 40 Pl 0,2 0,4 0,3 0,1 1000 раз берутся наудачу значения X 2000 Г 3000 -«- Z 196 197
Оцените вероятность того, что средняя ариф- метическая полученных значений отклонится от средней арифметической математических ожиданий этих случайных переменных не более, чем на 1. Ответ: Р > 0,92. Задача 11. Известно, что на некотором заводе в среднем 70% продук- ции первого сорта. С вероятностью не менее 0,9 определите границы, в которых должна находиться относительная часто- та первосортной продукции в партии из 10 000 единиц. Ответ: Р(0,686 < ~<0,714)> 0,9. п Задача 12. Вероятность того, что автоматическая касса в автобусе сраба- тывает при опускании монеты, равна 0,95. Определи- те отклонение частости числа случаев, когда авто- мат срабатывает, от вероятности при 1000 опусканий моне- ты, если результат необходимо гарантировать с вероятностью не менее 0,9. Определите также границы, в которых должно находиться число случаев т правильной работы кассы. Ответ: 1) е « 0,022; 2) 0,928 <—< 0,972 или 928 < т < 972. п Задача 13. Вероятность наступления некоторого события в каждом из 900 испытаний равна 0,7. Используя теорему Бернулли, оцените вероятность того, что событие состо- ится число раз, заключенное между 600 и 660. Ответ: Р > 0,79. Задача 14. Вероятность наступления некоторого события равна (в каж- дом испытании). Предполагается произвести 10000 испыта- ний. Используя теорему Бернулли, оцените веро- ятность того, что при этом число наступления события от- клонится от наиболее вероятного значения не более чем на 100. Ответ: Р > 0,8125. Задача 15. Оцените вероятность, что при 100 подбрасыва- ниях монеты герб появится от 400 до 600 раз? Ответ: Р >0,975. Задача 16. Принимая одинаково вероятным рождение мальчика и девочки, оцените с помощью теоремы Бернулли вероятность того, что из 1000 родившихся детей мальчиков будет от 465 до 535. Ответ: Р >0,796. Задача 17. Подлежат исследованию 400 проб руды. Вероятность промыш- ленного содержания металла в каждой пробе для всех проб оди- накова и равна 0,8. Используя теорему Бернулли, оцените вероятность того, что число проб с промышленным со- держанием металла будет заключено между 290 и 350. Ответ: Р > 0,928. 198
Задача 18. Вероятность появлений события при каждом испытании равна 0,6. Производится 800 независимых испытаний. Оце- ните вероятность того, что в этих условиях отклонений час- тости вероятности будет меньше, чем 0,03. Ответ: Р > 0,67. Задача 19. В цехе 20 рабочих мест. Вероятности допущения брака при изготовлении однотипных деталей распределены следующим образом: Количество рабочих мест Kt 2 4 6 8 Pi 0,01 0,02 0,03 0,04 С каждого рабочего места случайным образом отобрано по одной детали. Определите вероятность того, что выборочная относительная частота появления бракованной детали будет отличаться от средней вероятности менее чем на 0,1. Ответ: Р > 0,855. Список литературы 1. Абезгауз Г.Г., Тронь А.П., Коненкин Ю.Н., Коровина И.А. Спра- вочник по вероятностным расчетам. — М., 1970. 2. Белинский В.А., Калихман И.А., Майстров Л.Я., Митькин А.М. Высшая математика с основами математической статистики. — М.: Высш, школа, 1965. 3. Вентцель Е.С. Теория вероятностей. — М.: Наука, 1964. 4. Ван-дер-Варден Б.Л. Математическая статистика. — М.: Изд. иностр, лит., 1960. 5. Вайнберг Дж., Шумекер Дж. Статистика. — М.: Статистика, 1979- 6. Вентцель Е.С., Овчаров Л.А. Теория вероятностей: задачи и уп- ражнения. — М.: Наука, 1969. 7. Венецкий И.Г., Кильдишев Г.С. Теория вероятностей и математи- ческая статистика. — М., 1975. 8. Венецкий ИГ, Венецкая В. И. Основные математико-статистические понятия и формулы в экономическом анализе. — М.: Статис- тика, 1974. 9. Гнеденко Б.Г. Курс теория вероятностей. — 6-е изд. — М.: Наука, 1988. 10. Гнеденко Б.В., Хинчин А.Я. Элементарное введение в теорию ве- роятностей. — М.: Наука, 1970. 11. Геригорн А. С. Элементы теории вероятностей и математической статистики. — Львов, 1961. 12. Гмурман В.Е Теория вероятностей и математическая статистика. — М., 1975. 199
13. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. — М.: Высш, школа, 1975, 1979. 14. Гурский Е.И. Теория вероятностей с элементами математической статистики. — М.: Высш, школа, 1971. 15. Дружинин НК Математическая статистика в экономике. — М., 1971. 16. Емельянов ГВ., Скитович В.П. Задачник По теории вероятностей и ма- тематической статистике. — Л.: Изд-во ЛГУ, 1967. 17. Ивашев-Мусатов О. С. Теория вероятностей и математическая стати- стика. — М.: Наука, 1979. 18. Иванова В.М., Калинина В.Н, Нешумова Л.А., Решетникова ИО. Ма- тематическая статистика. — М.: Высш, школа, 1981. 19. Коваленко ИН, Филиппова А.А. Теория вероятностей и математиче- ская статистика. — 2-е изд — М.: Высш, школа, 1982. 20. Карасев А.И., Аксютина З.М., Савельева Т.Н Курс высшей математи- ки для экономических вузов. Ч. II.Теория вероятностей и математи- ческая статистика. — М.: Высш, школа, 1982. 21. Колемаев В А., Староверов О.В., Турундаевский В.Б. Теория вероятно- стей и математическая статистика. — М.: Высш, школа, 1991. 22. Карасев А. И. Теория вероятностей и математическая статистика. — М., 1971, 1979. 23. Колде Я. К Практикум по теории вероятностей и математической ста- тистике. М.: Высш, школа, 1991. 24. Козлова ЗА. Методические указания по изучению темы «Закон боль- ших чисел». — Ростов-на-Дону, 1979. 25. Лихолетов И.И., Мацкевич И.П. Руководство к решению задач по высшей математике с основами математической статистики и теории вероятностей. — Минск: Высш, школа, 1991. 26. Мостеллер Ф., Рурке Р., Томас Дж. Вероятность. — М.: Мир, 1969. 27. Маринеску И, Мойнягу Ч, Никулеску Р., Ранку Н, Урсяну В. Основы математической статистики и ее применение. — М.: Статистика, 1970. 28. Павловский 3. Введение в математическую статистику. — М.: Стати- стика, 1967. 29. Румшинский Л.З. Элементы теории вероятностей. — М., 1970. 30. Сборник задач по теории вероятностей, математической статистике и тео- рии случайных функций/ Под ред. ДА Свешникова — М.: Наука, 1965. 31. Феллер В. Введение в теорию вероятностей и ее приложения. — М.: Изд иностр, лит., 1952. 32. Чистяков В.П. Курс теории вероятностей. — 3-е изд — М.: Наука, 1987. 33. Четыркин ЕЙ, Калихман ИЛ. Вероятность и статистика. — М.: Фи- нансы и статистика, 1982. 34. Mendenhall W., Wackerby D., Schaffer R. Mathematical statistics with Ap- plications. — PWS-KENT Publishing Company, USA, 1990. 35. Canavos G. Applied Probability and Statistical Methods. — Little, Brown, Company, USA, 1984. 36. Ac&l A Complete Business Statistics. — 2nd ed., Richard D. Irwin, INC., 1993. 200
Часть II Элементы статистики
Введение к части II | Слово «статистика» происходит от итальянского слова stalo, ко- | торое означает государство. Соответственно термин «статистика» 1 относился к лицу, вовлеченному в государственные дела, а ста-1 тистика поначалу отождествлялась со сбором данных, полезных | для государства. В указанном выше смысле статистика возникла 1 в XVI в. в Италии, а затем распространилась во Францию, Гол- I ландию и Германию. Переписи населения и имущества появи- 1 лись гораздо раньше в античные времена. Сегодня статистика не 1 ограничивается информацией о состоянии государства, а прони- | кает практически во все сферы человеческой деятельности. | Приведем лишь несколько примеров. Для предсказания резуль- I татов выборов проводятся предварительные выборочные опросы 1 избирателей, для прогнозирования потребительского спроса 1 изучаются предпочтения определенных групп населения к тому | или иному виду товаров. Физиологи проводят эксперименты для 1 определения лечебного эффекта различных препаратов при I борьбе с определенным видом заболеваний. Инженеры, зани- 1 мающиеся контролем качества продукции, основываясь на про- ] верке небольшого числа изделий, могут сделать заключение о j проценте брака во всей производимой продукции. Экономисты, 1 наблюдая различные индексы экономического состояния в тече- ] ние определенного периода времени, используют эту информа- цию для прогноза состояний экономики в будущем. 1 Статистика разрабатывает методы сбора, систематизации, I анализа, интерпретации и отображения результатов наблюдений мае- I совых случайных явлений с целью выявления существующих в них зако- I номерностей. Математическая статистика создает математиче- ский аппарат анализа массовых экономических и социальных явлений. ] Сбор статистических данных производится по специальным ' правилам статистического наблюдения. ; Совокупность предметов или явлений, объединенных каким- j либо общим признаком или свойством качественного или коли- ] чественного характера, называется объектом наблюдения. Всякий объект статистического наблюдения состоит из отдельных эле- ментов — единиц наблюдения. Результаты статистического наблюдения представляют собой числовую информацию — данные. Статистические данные — это сведения о том, какие значения приняли интересующие анали- тика признаки. Значения признака при переходе от одного эле- , I мента к другому изменяются (варьируют), -поэтому в статистике I различные значения признака также называют вариантами, а I совокупность значений признаков, расположенных в порядке I . возрастания или убывания, — вариационным рядом'. I Если значения признака (например, вес, масса, объем, зара- I ботная плата, производительность труда) выражаются числами, [ то признак называется количественным. [ Если же признак характеризует некоторое свойство или состоя- I ние элементов совокупности, например, профессия, квалификация, I сорт продукции и др., то признак называют качественным. | После того как статистические данные собраны, их группи- [ руют для отражения общего смысла и анализируют. Статистиче- | ский анализ, как правило, предполагает обобщение результатов, полученных путем анализа собранных данных, на всю их сово- купность, т. е. генерализацию данных. Например, всем известны I переписи населения, когда о каждом человеке по специальной I программе собирается информация о возрасте, поле и т.д. Одна- I ко такого рода наблюдения очень трудоемки и требуют больших I затрат времени и средств. Зачастую сплошное наблюдение про- I сто невозможно. При проверке качества продукции зачастую [ происходит ее разрушение (вскрытие консервов), прибор рабо- | тает до полного износа с целью проверки срока службы и т.д. | При изучении покупательского спроса, текущих цен на рынке I нужно ли опрашивать всех покупателей, всех продавцов? Как I правило, в таких случаях исследуется лишь часть совокупности — I выборочная совокупность (выборка). | По результатам изучения вариации признака в выборочной I совокупности делают вывод об этом признаке во всей генераль- I ной совокупности. Результат представляет собой вывод, сделан- I ный на основании выборки, и распространяется на генеральную j совокупность, из которой выборка была получена путем случай- | ного отбора. В этом смысле статистика есть наука о выводе. I Почему мы подчеркиваем роль статистического вывода и в I числе первых понятий статистики рассматриваем генеральную и I выборочную совокупности? Разве недостаточно собрать данные I и интерпретировать их? Конечно, если интерес исследователя I ограничивается лишь тем набором данных, с которым он рабо- I тает, то этого достаточно для определенных выводов. Если же * В литературе по статистическим методам, особенно переводной, вместо тер- мина «вариационный ряд» чаще употребляют термин «набор данных» или «ряд распределения». 202 203
необходимо извлечь содержательные заключения, которые рас*! пространялись бы и на признаки, лежащие за пределами дан-1 ных, ограниченных выборкой, то статистический вывод — един-1 ственный путь, позволяющий сделать это. Например, в процессе ! маркетинговых исследований большой интерес представляет вы-] яснение влияния рекламы какого-либо продукта на объем его ] продаж. Данные случайно выбранных продаж и данные о рекла-! ме по какой-либо фирме могут иметь интерес сами по себе, но! информация об этом намного полезнее, если позволяет сделать! заключение о процессах, лежащих в основе взаимоотношений ! между стоимостью рекламной кампании фирмы и объемом про-| даж. Понимание истинных взаимоотношений между рекламой и| возможностями расширения продаж для фирмы позволяет про-| гнозировать объем продаж для любого уровня рекламы и, следо-1 вательно, обеспечить рекламу, которая максимизирует прибыль. ] Банк может интересовать популярность нового вида банковских] услуг. Для выяснения этого исследователь может случайным об-1 разом отобрать группу людей, обслуживающихся в банке, и вы-1 яснить их мнение об этих услугах. Выводы исследования затем ] можно распространить на всех вкладчиков банка. 1 Существует множество забавных историй о статистике. Приве-1 дем одну из них. Знаменитый воздухоплаватель начала века Мал-1 колм Форбс во время полета на одном из своих воздушных шаров 1 сбился с курса и вынужден был приземлиться в неизвестном месте 1 посередине кукурузного поля. Приземлившись, он заметил челове-1 ка, который шел по направлению к нему. Форбс спросил его: «Сэр, I не подскажете ли Вы мне, где я?» Прохожий ответил: «Конечно, Вы 1 находитесь в корзине посередине кукурузного поля». В ответ Форбс | спросил прохожего еще раз: «Вы случайно не статистик?». Мужчина 1 изумился: «Как Вы догадались!?» — «Очень просто, — ответил 1 Форбс, — Ваша информация краткая, точная и абсолютно беспо- 1 лезная»1. Цель нашего курса — убедить Вас, что информация, яв-1 ляющаяся результатом хорошего статистического анализа, всегда I краткая, точная и никогда не бывает бесполезной! Главную идею, I суть статистики, наверное, лучше всех отразил знаменитый англий- ский экономист Джон Мэйнард Кейнс: «Лучше быть приблизительно | правым, чем абсолютно точно ложным». 1 1 American Statistician 44, no. 2 (May, 1990), p. 122. 204 9 Выборочный метод 9.1 Понятие о выборочном методе I Мы уже говорили, что существует много определений стати- I стики как науки. Согласно одному из них статистика — наука, Г позволяющая распространять выводы, сделанные на основе изучения I части совокупности {случайной выборки), на всю совокупность I {генеральную совокупность). В этом определении заключены f сущность выборочного метода и его ведущая роль в статистике, г Напомним еще раз, что сбор данных осуществляется по спе- I циальным правилам статистического наблюдения. Приведем I лишь некоторые понятия статистического наблюдения, необхо- димые для дальнейшего изложения. I Совокупность предметов или явлений, объединенных каким- I либо общим признаком или свойством качественного или коли- I явственного характера, называется объектом наблюдения. Всякий I объект статистического наблюдения состоит из единиц наблюде- [ ния (единиц отбора), содержащих первичные данные, и единиц I совокупности, являющихся носителями признаков, подлежащих г наблюдению. Единица наблюдения может совпадать с единицей I совокупности. Например, при переписях населения единицей I наблюдения может быть отдельный человек, который одновре- I менно является и источником сведений, и носителем признаков. I В литературе по выборочному методу часто вместо термина еди- I ница совокупности употребляется термин элемент выборки. Мы г также будем пользоваться и этим термином. I Статистическое наблюдение можно осуществлять как для I всей, так и для части совокупности. Но при этом возникает ряд I вопросов об организации такого отбора, о том, сколько единиц I совокупности надо выбрать, насколько достоверны и надежны I будут полученные результаты. Ответы на все эти вопросы дает ( выборочный метод. I Если наблюдение организовано так, что анализу подлежат I все единицы совокупности {сплошное наблюдение), то в этом слу- I чае статистическую совокупность называют генеральной. I 205
Генеральная совокупность состоит из набора всех значений признака, интересующих исследователя. Выборочная совокупность (выборка) — это часть значений; признака, случайно отобранных из генеральной совокупности. Объемом статистической совокупности называется число ее объектов. Объем генеральной совокупности обозначается N, а объем выборочной совокупности п. Если объем генеральной совокуп- j ности велик, то его полагают равным бесконечности. Случайная выборка из п элементов — это такой отбор, при ко- тором элементы извлекаются по одному из всей генеральной j совокупности и каждый из них имеет равный шанс быть ото- бранным. Такая выборка называется собственно-случайной вы- боркой. Одним из примеров использования собственно- случайной выборки является проведение тиражей выигрышей денежно-вещевых лотерей, при которых обеспечивается равная ' возможность попадания в тираж любого номера лотерейного билета. Различают два типа случайных выборок: собственно- случайная повторная выборка (схема возвращенного шара)-, собст- венно-случайная бесповторная выборка (схема невозвращенного шара). Выбор схемы отбора зависит от характера изучаемого объек- та. Напомним, что при повторном отборе единицу наблюдения после извлечения из генеральной совокупности регистрируют и вновь возвращают в генеральную совокупность, откуда она опять может быть извлечена случайным образом. При беспо- вторном отборе отобранный элемент в выборку обратно не воз- вращают. Но практически это не всегда осуществимо. Напри- мер, при проверке качества компьютерных мониторов выбороч- но подвергают проверке на продолжительность срока службы определенную часть генеральной совокупности, но возвращать в генеральную совокупность сгоревшие мониторы не имеет смыс- ла. А вот при маркетинговых исследованиях потоков покупате- лей в магазинах города не исключена повторная регистрация одного и того же лица в нескольких магазинах. 206
9.2. Ошибки выборочного наблюдения. Числовые характеристики выборочной и генеральной совокупностей При осуществлении выборки возможны ошибки на- блюдения: ошибки регистрации и ошибки репрезентатив- ности. >• Ошибка регистрации возникает из-за неточностей, по- грешностей при получении сведений о единицах совокупности, когда истинное значение изучаемого признака не совпадает с его зарегистрированным значением. Например, при переписи населения существует так называемое «возрастное кокетство», когда люди в очень преклонном возрасте начинают прибавлять себе годы, женщины среднего возраста убавляют и т.д. Ошибки регистрации могут возникать как при выборочном, так и при сплошном наблюдении. Для того чтобы по данным выборки независимо от способа отбора можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности, необходимо, чтобы вы- борка правильно отражала пропорции генеральной совокупности, т. е. выборка должна быть репрезентативной (представительной). >• Ошибка репрезентативности представляет собой разность между выборочными и генеральными характеристиками изучае- мой совокупности. Если эта разность равна нулю, то ошибки нет. Ошибки репрезентативности бывают систематическими и случайными. Систематические ошибки репрезентативности возникают из- за того, что нарушается случайность отбора. В учебниках по ста- тистике часто приводится классический пример нарушения ре- презентативности выборки. В 1936 г. американский журнал «Literary Digest» разослал по почте анкету для 10 млн избирателей, в которой был задан вопрос: «За представителя какой партии Вы будете голосовать на предстоя- щих президентских выборах?» Кандидатом от демократов был действующий президент Франк- лин Делано Рузвельт, а кандидатом от республиканцев — сенатор из штата Канзас Альфред Лэндон. После рассылки анкет было по- лучено 2,3 млн ответов. Опубликованные в журнале результаты оп- роса предсказывали, что подавляющее большинство будет голосо- вать за Лэндона. Однако, два месяца спустя, с большим преимуще- ством победу на выборах одержал Рузвельт. Почему? Анкеты были 207
разосланы подписчикам журнала, людям, чьи фамилии и адреса 1 были взяты из телефонных книг, а также владельцам автомобилей, | сведения о которых имелись в полиции. В 1936 г. телефоны и авто- 1 мобили были в основном у зажиточных американцев, составлявших 1 основу республиканской партии. А масса избирателей, относящаяся | к менее состоятельным слоям населения, в выборку не попала. Од- | нако эти люди составляли электорат Рузвельта и их в генеральной | совокупности избирателей было больше! | Итак, информация, полученная в результате осуществления I выборки, будет только тогда надежной основой для принятия I решения относительно тех или иных свойств генеральной сово- 1 купи ости, когда структура образующих выборку элементов будет | аналогична структуре элементов в генеральной совокупности. 1 Если требование случайности отбора выполнено (например, с I помощью таблиц случайных чисел)1, то разность между харакге- 1 ристиками выборочной и генеральной совокупностей называется | случайной ошибкой репрезентативности (представительности). 1 Она возникает потому, что обследуется только часть совокупно- 1 сти. Способы оценки величины случайной ошибки репрезента- I тивности и составляют основу математической теории выбороч- I ного метода. ] Числовые характеристики генеральной совокупности называ- ] ются. генеральными параметрами или просто параметрами. 1 Когда мы говорим о теретическом распределении, то обычно | определяем его при помощи параметров функций распределения. I Например, параметрами нормального распределения являются 1 математическое ожидание и среднее квадратическое отклонение. 1 В теории выборочного метода аналогами этих понятий являются I генеральная средняя и генеральная дисперсия (поскольку они I практически никогда неизвестны, то это — теоретические вели- | чины) и их обозначают X или Хген, ст^.н = М(Х~ %)2соот- 1 ветственно. Доля единиц, обладающих тем или иным признаком 1 в генеральной совокупности, называется генеральной долей и ! обозначается р. | Статистический вывод о параметрах генеральной совокупно- 1 сти основан на выборочных характеристиках. По данным вы- 1 борки рассчитывают выборочные числовые характеристики, ко- 1 |торые называют статистиками, обозначают X или Хвыб> I овыд, 5выб, а выборочную долю обозначают w. I Характеристики, получаемые по различным выборкам, как I правило, отличаются друг от друга. Вообще говоря, ни при ка- I ком п нельзя определить по выборке точное значение неизвест- | ного параметра, можно лишь найти его приближенное значение, В которое является оценкой неизвестного параметра по выборке. I Оценка параметра — определенная числовая характеристика, I полученная из выборки. Когда одно отдельное значение используется | для оценки параметра, то такая оценка называется точечной | оценкой генерального параметра. I Выборочная совокупность в одних случаях организуется для I определения среднего значения признака в генеральной сово- I купности (средний доход, средняя продолжительность жизни, । средняя цена определенного вида товара и т.п.); в других — для I определения доли членов генеральной совокупности, обладаю- I щих интересующим аналитика признаком (процент женщин в | административных органах, доля брака в выпускаемой продук- > ции; доля избирателей, собирающихся голосовать за некоторого г кандидата и т.п.). I Выборочная средняя X есть выборочная статистика, исполь- | зуемая как оценка генеральной средней X. Например, мы мо- I жем получить X = 12,53. Это значение оценки X : I п I ~ Ё*/ I X = . (9.2.1) I л | Эта оценка — точечная, потому что мы установили одно I число, которое, как мы надеемся, лежит близко к оцениваемому I генеральному параметру X : I* Д' I _ Yxi I Х = -^Г’ <9-2-2) I Кроме выборочной средней, которая оценивает генеральную I среднюю, вычисляют выборочное среднее квадратическое от- I клонение овыб или ^ыб1.- 1 Современные пакеты прикладных программ, как правило, предусматривают функцию генерирования случайных чмсел для различных видов распределения. 208 1 В дальнейшем мы поясним, почему делитель формулы (8.3') равен (л-1). 209
п 2 п 2 Свыб-1 „ ’ ---Z “^ВЫО V . I п I п-1 которое используют как оценку среднего квадратического от- клонения генеральной совокупности оген.: (9.2.3) S выб = , (9.2.3)' кие выборки (по 10 банок) в течение достаточно длительного времени, то можно получить распределение выборочных средних. Любое распределение, полученное из выборочных характери- стик, называется выборочным распределением. Когда мы строим распределение выборочных средних, то называем его выборочным распределением средних (рис. 8.1). N 2 (9.2.4) OreH"|'=1 N Генеральная доля равна частному от деления М элементов гене-1 ральной совокупности, обладающих интересующим нас признаком,] на N — общее число элементов в генеральной совокупности: 1 Р = Т- (9-2-5): Генеральная доля избирателей Лэндона вычислялась как частное | от деления числа его избирателей на общее число избирателей. | Оценка генеральной доли — выборочная доля есть отношение I числа элементов выборки т, обладающих интересующим нас] признаком, к объему выборки п: 1 w = — . (9.2.6) I и 1 Предположим, что необходимо оценить долю потребителей, j предпочитающих определенный продукт. Неизвестную гене-1 ральную долю р оценивают при помощи статистики w, выборов-1 ной доли: пусть в случайной выборке из 100 потребителей 1 26 купили интересующий нас продукт. Тогда точечная оценка р есть w = т/п = 26/100 = 0,26. । 9.3. Распределение выборочных характеристик Пусть из произвольной генеральной совокупности извлекают I серию выборок. Естественно ожидать, что выборочные средние ] могут различаться между собой, т. е. варьировать. | Предположим, например, что на консервном заводе, готовую ] продукцию фасуют в банки с номинальной массой, равной 1 10 кг. Если в случайном порядке отбирают 10 банок, то очевид 1 но, что их массы будут очень близки к 10 кг, небольшие откло- j нения от этого значения не вызовут удивления. Выборки по-1 10 банок в течение нескольких дней могут дать средние массы, | например, 10,02; 9,08; 10,09; 10,01; 9,04 кг. Если продолжить та-1 Рис. 9.1. Выборочное распределение средних Обобщим приведенный пример, рассуждая следующим обра- зом. Будем осуществлять испытания по схеме повторной выбор- ки. Взяв наудачу один элемент из генеральной совокупности, мы фиксируем значения признака, возвращаем выбранный эле- мент в генеральную совокупность (чтобы не изменить состав генеральной совокупности), и затем выбираем наудачу следую- щий элемент. Этот процесс будем повторять до получения п значений, представляющих случайную выборку объема п. Обо- значим значения признака у первого выборочного элемента че- рез Х], у второго — через Х2,..., у л-го — через х„ Представим, что из генеральной совокупности произведены все возможные выборки равного объема п и для каждой выборки рассчитаны Х{,Х2,Х3,...,Xk. Полученные значения можно представить в виде ряда распределения выборочных средних и рассчитать среднее значение для этого распределения1: 1 Верхний индекс при х — номер выборки, а нижний индекс — номер элемента в выборке. 210 211
* Xi’ y2 S> * Xj , %2 > • • •>Xn A 2 > X/” • X| , X2 > • • • > Хп Л fc1 1..4.......1 X1,X2>--,xn ~ i Итак, выборочная средняя X также может рассматриваться как < случайная величина, а все возможные значения хх,хг,...,хк этой' случайной величины задают распределение выборочной средней X . Что можно сказать о законе распределения X ? Теоретической основой выборочного метода служат закон больших чисел и центральная предельная теорема Ляпунова1. Из теоремы Ляпунова следует, что если генеральная совокуп- ность подчиняется нормальному закону распределения, то и выбороч- ное распределение X также подчиняется закону нормального рас- пределения: согласно следствию из этой же теоремы при достаточно большом объеме выборки распределение выборочных средних также будет подчиняться нормальному закону распределения независимо от того, какой закон распределения имеет генеральная совокупность. Поскольку Х\,Х2,- -,Хп — независимые, одинаково распреде- ленные случайные величины, то все случайные величины Xi,X2,-.,Xn имеют один и тот же закон распределения вероятно- стей и одинаковые числовые характеристики, в частности, оди- наковые математические ожидания, значения которых обозна- чим через а: т. е. М(Х\)=М{Х2)=...—М(Х^=а. Покажем это. В самом деле, Af = М да следует, что М(Х) — а, т. е. математическое ожидание вы- ; борочной средней равно математическому ожиданию генералы- ; ной совокупности, равно X. п Y | 1 п 1 УД/ = 1 УM(Xi) = —па = а. Отсю- “ п ) п “ п 1 В более строгих и объемных курсах соответствие основных практических при- ложений выборочного метода закону больших чисел и центральной предельной теореме Ляпунова представляет собой отдельный раздел математической стати- стики, требующий специальной математической подготовки. 212
Приняв во внимание, что каждая из величин име- ет то же распределение, что и генеральная совокупность, заклю- чаем, что числовые характеристики этих величин и генеральной совокупности одинаковы, т. е. М(Х)= X =а. Значит математиче- ское ожидание а каждой из величин Х( равно математическому ожиданию признака X генеральной совокупности, равно гене- ральной средней. Дисперсию выборочной средней можно представить: отсюда среднее квадратическое отклонение выборочной средней равно: = Сген / Таким образом, выборочное распределение X . В теории выборочного метода величину Цх) обозначают ц и называют средней ошибкой выборки-. р = = 7о?ен /« = Оген / (9.3.1) Из теоремы Чебышева следует, что X -* М(Х) при п ->ю. Следовательно, выборочная характеристика X сходится по ве- роятности к соответствующей генеральной характеристике X, т. е. X = X. При конечном объеме выборки п это предельное равенство заменяется приближенным равенством X ~ X. Такой же вывод на основании соответствующих теорем зако- на больших чисел можно сделать относительно выборочных ха- рактеристик1 w и оВЫб. Все вышесказанное проиллюстрируем на следующем про- стом примере. 1 Вопрос о близости доли признака в генеральной и выборочной совокупностях решается с использованием теоремы Бернулли. 213
Пример 9.1. Пусть генеральная совокупность состоит из трех чисел: 1, 2 и 3 (N = 3). 1 Имеем следующее распределение для генеральной совокупности: 1 X 1 2 3 £ 1/3 V3— 1/3 Подсчитаем для него генеральную среднюю X и генеральную дис- персию: х = 1-|+2-|+з} = 2; Л,-(1-2)!-|*(2-2)2| + (3-2)!|.|. Осуществим повторные выборки объемом п = 2. Всего повторных ] выборок будет У = З2 =9. Выпишем все возможные выборочные рас-| пределения, подсчитав для каждого их них X и а2^ и соответствую- ! щие им вероятности р\ | Возмож- ные вы- борки 1; 1 1; 2 7; 5 2; 1 2; 2 2; 3 3; 1 3; 2 л л 2 1/1 1/Г 1/1 2 1/1 1/1 1/1 2 1 Р (1/3)2 (1/3)2 (1/3)2 (1/3)2 (1/3)2 (1/3)2 (1/3)2 (1/3)2 (1/3)1 V *1+Х2 Х 2 1 1,5 2 1,5 2 2,5 2 2,5 3 „2 ствыб 0 0,25 1 0,25 0 0,25 1 0,25 0 j Собирая выборки с одинаковыми выборочными значениями и' складывая соответствующие им вероятности согласно теореме сложе- ‘ ния, получим следующий закон распределения для X : X 1 1,5 2 2,5 3 р 1/9 2/9 3/9 2/9 1/9 Аналогично запишем закон распределения для с2ыб : 2 ствыб 0 о,25 1 Р 3/9 = 1/3 4/9 2/9 214 ствыб 0 0,25 1 р 3/9 = 1/3 4/9 2/9 | Из найденных законов распределения для X и с2ыб можно опре- I делить их основные характеристики: ^)=1.l + l^.| + 2.| + 2,5-| + 3.1 = 2; а2вь1б(^) = (1-2)2-| + (1,5-2)2-|+(2-2)2-| + (2,5-2)2-| + (3-2)2-| = 1; 1 Овыб(-^) | или по формуле (9.3.1): 1 Овыб а ген _ J Vw \ I Аналогично можно получить: I ^(п2выб) = |; °2(о2выб)=3 г На практике выборка осуществляется с целью изучения не- известного генерального распределения и его характеристик. Так [что такое нахождение закона и его характеристик принципиаль- [но неосуществимо. Обычно применяют другой метод, который йоснован на том, что выборку объемом п можно рассматривать рак п повторных испытаний, производимых над случайной ве- личиной X, закон распределения которой совпадает с генераль- ным распределением. I Выборочное распределение можно получить для любой ста- |тистики, но наиболее широко используемыми являются выбо- рочное распределение выборочных средних и выборочное распределе- ние выборочных дисперсий. (Пример 9.2. Г Автомат производит детали длиной 60 см со средним квадратиче- |ским отклонением 1 см. Чему равна вероятность того, pro в выборке из 36 деталей средняя длина детали будет 59,7 см? | Решение. Произведена выборка 36 деталей, найдена средняя длина ^деталей. О распределении этих средних можно заключить следующее: | • подчиняется нормальному закону распределения; I 215
• средняя длина детали 60 см; 1 • среднее квадратическое отклонение равно -у= = -57 = 0,167, см. I ’° I Вероятность того, что одна выборка даст среднюю длину деталей | меньше чем 59,7 см, находится как площадь под левым концом кривой | выборочного распределения средних. Для определения этой площади | необходимо найти, на сколько стандартных отклонений полученное значение отстоит от истинного среднего значения: 1 I Поскольку нормальное распределение симметрично, то из таблиц | нормального распределения находим значение вероятности для 1,80, что | дает нам вероятность 0,0359. Следовательно, мы ожидаем, что в 3,59% 1 выборок средняя длина деталей будет меньше, чем 59,7 см (см. рис. 9.2). 1 Рис. 9.2. Выборочное распределение выборочной средней для примера 9.2 Пример 9.3. i Производитель разливает пиво в жестяные банки емкостью 200 мл. Автомат по розливу настроен так, что погрешность наполнения ст со- ставляет ±10 мл. Банки упаковываются в картонные коробки по 25-,. штук; покупатель требует, чтобы средняя масса упаковки не была) меньше указанной на маркировке. Чтобы быть уверенным, что покупа- > тель примет партию, производитель установил разливочный автомат на - 205 мл. Чему равна вероятность того, что случайно вы-[ бранная упаковка не пройдет контроль массы? Решение. Среднее наполнение банки составляет 205 мл со средним? квадратическим отклонением 10 мл. Мы имеем случайную выборку i объемом п = 25 банок. Распределение средних всех возможных выборок^ равного объема л: • подчиняется нормальному закону распределения; • средняя наполняемость равна 205 мл; • среднее квадратическое отклонение равно ~ = 42= = 2 (мл) 4п ^25 Коробки с пивом не пройдут контроля качества, если средняя на- полняемость банок в упаковке будет меньше 200 мл. Следовательно, 7 200-205 __ z=-----2----= -2Р> значит искомая вероятность равна 0,0062 (см. рис. 9.3). Рис. 9.3. Выборочное распределение выборочной средней для примера 9.3 19.4. Основы теории точечного оценивания i параметров . Обозначим в общем случае через ©* статистическую {выборочную) оценку параметра © генеральной совокупности. Теория статистической оценки рассматривает точечную оценку ; и оценку интервальную. ' Интервальная оценка — числовой интервал, определяемый [двумя числами (©^,©2), содержащий неизвестный параметр ге- неральной совокупности — это более информативная мера, чем [точечная оценка. Концепцию интервального оценивания мы обсу- дим далее. [ Точечную оценку можно рассматривать как функцию резуль- i тагов выборки. Многократные извлечения выборок одинакового [объема дадут совокупность таких статистических оценок. В этой [связи возникает задача выбора этой наилучшей оценки. Так как [процесс образования выборки носит случайный характер, то лю- 216 217
бая выборочная характеристика также является случайной величи-1 ной. I Точечной оценкой параметра © называют оценку ©*, избран-1 ную из различных возможных выборочных оценок. Абсолютная I разность е = |© - ©* I— ошибка выборки (оценивания). Так] как выборочная оценка является всего лишь некоторым при- 1 ближением к параметру генеральной совокупности ©, то жела- тельно, чтобы ошибка оценивания была минимальной, такая оценка и будет наилучшей. Чтобы выбранная оценка была наилучшей, она должна обла- дать рядом свойств: состоятельность, несмещенность, эффектив- ность и достаточность. Числовое значение точечной оценки, обладающей этими свойствами, — наилучшее приближение к неизвестному нам истинному значению параметра &. < Для лучшего понимания свойств статистических оценок на- помним понятие сходимости случайных величин1. Пусть дана последовательность случайных величин Х{,Х2,--,Хп. Так как случайные величины, образующие эту последовательность, : являются функциями элементарных исходов, то из них можно по- лучить числовую последовательность, которая может сходиться И' расходиться. Последовательность случайных величин Х^Хь-Хй сходится по вероятности к случайной (или неслучайной) величине X, если при любом £>0 Um = P{jXn ~ Xj < е} = 1, или применяется И1-» 00 ’ Р :• запись Хп -> X . Сходимость по вероятности отличается от сходи- мости в смысле обычного анализа. Различие состоит в том, что если Хп стремится при п-*п к X в смысле обычного анализа, то неравен, ство lxn - X| < £ выполняется всегда, начиная с некоторого п > лу Если Х„ стремится при л-юо к X по вероятности, то при отдельных значениях п это неравенство может не выполняться. 1 Последовательность функции распределения F„(x)=P(^,<x) схо- дится по распределению (говорят также слабо сходится, сходится в основном) к функции F(x), если для любой точки х, где F(x) непре- рывна, выполняется соотношение lim F„ (х) = Г(х) . * I ваемому параметру ©, т. е. при п-^ао или I lim = р{|©‘ - ©I < д} = 1. I, л-»» I Другими словами, с ростом объема выборки вероятность то- I го, что выборочная статистика ©* приближается к параметру ©, I возрастает. Выполнение условия состоятельности гарантирует от грубых j ошибок Д в оценке © при достаточно большом п. ? Выборочная средняя — состоятельная оценка генеральной сред- ней. Это происходит вследствие того, что средняя ошибка X есть ц = = стген / 4п . Когда объем выборки возрастает, ц убывает, а вероятность того, что X будет ближе к математиче- скому ожиданию М( X), возрастает. Этот же вывод следует из теоремы Чебышева: lim Р П-+<х> п где X], х2,...,х„ представляет собой п реализаций случайной величи- ны X с одним и тем же математическим ожиданием а. Из теоремы Бернулли следует, что относительная частота т/п слу- чайного события при п испытаниях Бернулли является состоятель- ной оценкой вероятности р: lim Р — - р = 1 Я-*оо П (^>0). |: Статистическая оценка ©* является несмещенной (без систе- матической ошибки), если ее математическое ожидание равно па- раметру генеральной совокупности, т. е. Если матема- тическое ожидание не равно оцениваемому параметру, то оцен- ку называют смещенной, т. е. когда Л/(0*)^®. Смещение точечной оценки определяется как разность: f В„ = ЛД©’) ~ ®- (9.4.1) Если разность равна нулю, то смещения нет1. Или p|f„(x) = F(x)s е |-> 1 . J L я—>оо Ц Статистическая оценка ©* является состоятельной (или лод| ходящей), если при п —> <х> она сходится по вероятности к оценив 1 Понятие сходимости рассматривалось в разделе «Закон больших чисел». 4 F Не следует смешивать ошибку оценки с ее смещением. Ошибка оценки равна |е') - 0 и, следовательно, представляет собой случайную величину, тогда как Смещение Вп при данном п есть величина постоянная. 218 219
Рис. 9.4. Иллюстрация смещенности оценок Наилучшей из трех оценок (рис.9.4) 0^,02,03 является ©j, так как м(в'з) = 0 , о2 < ст2. Оценка ©2 — смещенная, так как м(е*2) * © > хотя °з < °2 • Выборочная средняя является несмещенной оценкой генеральной средней. Мы уже показали выше, что М(Х) = X. Дисперсия выборочной средней ст2(х) = оценка генеральной дисперсии1: м(о2ыб) = * с ген • Это зна" чит, что ст2ы6 — смещенная оценка о2^ . Смещение Л/(о2ыб) - о2 - о2 = - уу. При л-э=о сме- щение —>0. ®выб |2 2 П 2 2 п .21 = О ген - М\ 1 м.х< п п 2 Оген _ пт1_2 — Стен п п О ген 1 _ 2 — 1 2 В самом деле, из примера 9.1 видно, что — = —-— — смещенная 2 (9.4.2) ? Несмещенная оценка дисперсии называется также исправлен- ной дисперсией (обозначается А2) и вычисляется по формуле: 2 52 = ^°’ы6 = ;Г1 (9.4.3) Покажем, что S2 является несмещенной оценкой . Действительно М(s2) = Л/(о2выб) = - О?ен = °?ен • Формула (9.4.3) отличается от обычной формулы для вычисле- ния дисперсии только знаменателем. Если п — велико, то S2 , вычисленное по формуле (9.4.3) практически совпадет со значе- нием дисперсии, вычисленной обычным способом по формуле (8.2.3). При п > 50 между ними уже почти нет разницы. Поэтому наряду с несмещенными оценками ©* применяются асимптоти- чески несмещенные оценки, для которых Л/(©*)->© при увеличе- нии объема выборки. При малом п (для так называемых малых выборок) становится существенным тот факт, что выборочные дисперсии для различных л -1 2 выборок группируются ОКОЛО величины------СГген - ®ген ~ , л л а не около генеральной дисперсии. Таким образом, если пользо- ваться приближенным равенством Оген “ ствыб > то получим систе- / а2 \ погрешность-----™ , К0Т0Рая для малых выборок существенному занижению оцениваемой величины магическую приведет к 2 о ген • Если же нам известно а = М(Х), то в качестве несмещенной Iя/ \2 оценки дисперсии нужно брать статистику S2 = -£(x -а) • / \2 / \ 2 Действительно, Mix ,-а) = D х . ) = о .Тогда \ J / \ J1 ген = =°ген- Из теории вероятностей известно, что = р • А из этого следует, что выборочная доля есть несмещенная оценка генеральной дали (частоты), есть оценка биномиального распределения. 221 220
Статистическая оценка ©* является эффективной, если при заданном объеме выборки она имеет наименьшую возможную дис- персию. Из двух оценок более эффективной является та, которая • имеет меньший разброс около своего математического ожида- ; ния. Степень эффективности оценивают отношением диспер- ®1) М (®1-®) сий: F =-~-~ = —---------т.е. эффективность — относи- М(©2-®) тельное свойство. Если F> I, то оценка ©2 более эффективна, чем ©j* (и обратно), так как ей соответствует меньшее рассея- ние. ) Состоятельные, несмещенные или асимптотически несме- щенные оценки1 могут быть получены по-разному. Например,; две оценки математического ожидания — средняя арифметиче- ская X и выборочная медиана хмед — являются несмещенными и' состоятельными оценками математического ожидания. Можно ! показать, что а2 * Из этих двух оценок X является.] Хмед 2 ' / I более эффективной, так её дисперсия меньше, чем дисперсия 1 выборочной медианы. ] В строгих курсах математической статистики доказывается, | что дисперсия любой несмещенной оценки параметра © удовле-1 творяет неравенству Рао—Крамера: —г7т ;;—’ <9-4-4> ATI д 1П Л*’®)! пм\------ ( д®2 J I где — плотность распределения вероятностей случайной величины) п — число проведенных испытаний. Оценка параметра может быть получена по каждому из п исм пытаний. Если случайная величина — дискретная, то следует плотность fix,®) заменить функцией распределения вероятно--] стей Р(Х = х;0). Оценка ©*, для которой в неравенстве Рао—Крамера дости- гается знак равенства, называется эффективной. В математической статистике применяются также асимпто- тически эффективные оценки1, дисперсия которых стремится к нижней границе неравенства Рао—Крамера при Выборочная средняя X при известном а является эффективной оценкой X. Докажем Найдем нижнюю границу неравенства Рао—Крамера. Для этого вычислим: это: 4?). J . ' ЭД. • . : Так как нижняя граница неравенства Рао—Крамера L 1 rt2 т/~\ 1----i---------- = 2тен_ 2 совпадает с дисперсией средней /(х;а;а) п \ ! пМ-------Ц---- > да2 (арифметической, то X является эффективной оценкой. I- Примем без доказательства, что оценка выборочной дисперсии be обладает свойством эффективности, если неизвестны пара- метры нормального распределения, но если известно математи- ческое ожидание а, то выборочная дисперсия обладает свойст- вом эффективности. Б Оценка является достаточной, если содержит всю информа- цию об оцениваемом параметре. Достаточные оценки построены ик, что никакие другие оценки не могут дать какой-либо до- полнительной информации об оцениваемых параметрах. 1 Теория статистического оценивания основана на законах распределения вы- борочных характеристик (статистик). Различают точные и асимптотически законы распределения выборочных статистик. Точным называется закон распре- деления статистики ®*„ , справедливый для любого объема выборки п. 1 Асимптотическим называется закон распределения статистики 0* , к второму стремится точный закон распределения при п-ю. 222 223
9.5. Методы получения точечных оценок неизвестных параметров. Метод моментов1 Пусть по результатам выборки jq, Х2,...,хл объема п, извлек ченной из генеральной совокупности с плотностью распределе- ния Дх,-©). требуется определить неизвестный параметр © . Введем понятие эмпирических и теоретических моментов (по аналогии с моментами случайных величин). Моменты k-г о порядка: теоретические Xх* Pi- для дискретных СВ; +? k , , (9.5.1) эмпирические fl j если k = 1, то (9.5.2) vi = vt=x = ~2,xi. n . для непрерывных СВ. Эмпирические и соответствующие им теоретические ire тральные моменты А-го порядка определяются по формулам: Hi =1 теоретические Pi- для дискретных СВ; fix')- (9.5.3) g2=V2 = o. эмпирические если к - 1, то для непрерывных СВ. Эмпирические моменты — случайные величины, а теорети ские моменты — фиксированные, постоянные величины. Метод моментов основан на том, что эмпирические момен принимаются в качестве оценок теоретических моментов и и раметры выражаются через эти моменты. 1 Метод моментов был предложен английским статистиком К. Пирсоном в 1 224
9.6. Метод максимального правдоподобия1 Метод моментов — интуитивно понятен и достаточно легок для практических приложений, но не всегда приводит к наи- лучшим оценкам. Метод, который чаще приводит к оценкам с наилучшими свойствами, называется методом максимального (наибольшего) правдоподобия. Покажем на простом примере логику, на которой основыва- ется этот метод. Предположим, что в урне находится три шара. Известно, что некоторые из них — белые, а некоторые — чер- ные, но сколько из них белых, а сколько черных — неизвестно. Позволено извлечь из урны два шара. Если в произведенной случайной выборке — два черных шара, то что будет хорошей оценкой общего числа черных шаров в урне? Ясно, что черных шаров в урне должно быть два или три. Если в урне два черных и один белый шар, то вероятность из- 2 11/ ч влечь два черных шара есть - • - - - (схема невозвращенного шара). Если в урне три черных шара, то вероятность извлечения 3 2 двух черных шаров будет равна - • - = 1 . Резонно выбрать три как оценку числа черных шаров в урне, поскольку этой оценке соответствует максимальная вероят- ность. Конечно, возможно, что в урне только два черных шара, но наблюдаемый исход позволяет предположить наличие и трех черных шаров в урне. Этот пример иллюстрирует метод поиска оценок, который применим в любой ситуации. Техника, называемая методом максимального правдоподобия, выбирает в качестве оценки те значения параметров, которые максимизируют вероятность (функцию вероятностей). Рассмотрим этот метод в том случае, когда случайная вели- чина, которую мы изучаем, имеет плотность Дх;®). Функцией правдоподобия называется функция Z = Z(®; х!, х2,.. •, хя) = П Л** i ®) • <9-6 * 8- D '1 Предложен в 1912 г. английским статистиком Р. Фишером. В частных случаях j Использовался Д. Бернулли, в первой половине XVIII в. и Гауссом в начале XIX в. 8 Теория статистики с основами теории вероятностей 225
Для дискретной случайной величины 7 = Р(0;Х1=х],Х2=х2,...,Хл=хл)=Пр(х*;0). (9.6.2) j *=i ] Метод максимального правдоподобия состоит в том, что в ] качестве оценок параметра 0 принимается то значение 0*, при котором функция Z достигает своего максимума. Поскольку экс- тремум функций Z и InZ достигается при одних и тех же значе- ниях 0, то эти критические значения определяются из системы уравнений правдоподобия: ^ = 0 аэ* Можно проверить, что оценка 0* = X является оценкой максимального правдоподобия для распределения (£ = 1,2,3,....от)- Основные распределения 1 у случайных величин, используемые в математической статистике В случае, когда случайная величина X подчиняется нормаль- ному закону, оценка параметров основывается на знании точных законов некоторых выборочных распределений, с которыми мы познакомимся ниже. 10.1. Распределение Стыодента f(x;a;a\ = —т=е 2°2 V 7 cV2n [ Предположим, что существует распределение выборочных [ средних из нормально распределенной генеральной совокупно- [ сти. Известно, что если объем выборок п > 30, то распределение 2°3 . Теперь Составим функцию правдоподобия: Z = — составим логарифмическую функцию правдоподобия по а и а: выборочных средних Xi’Xz’Xi’-’Xn также имеет нормальное распределение Распределение нормированных зна- S (»-») °' -^4S(»-«)2 "> . ° О чений Х\>Х2'Хз'-’Хп ° ген Э1п.2Г 1 ’г-» / \ dlnZ п 1 х-1/ \2 l*S— : I __ Отсюда находим а* = — У.Х1 = X \ _вь1и ... п ' П у ‘ Эти оценки совпали с оценками, полученными методом моментов. Этот метод по сравнению с методом моментов имеет пре-* имущества: дает состоятельные оценки; если существует^ эффективная оценка, то метод максимального правдоподобия дает эту оценку. Оценки максимального правдоподобия асим- птотически эффективны и имеют асимптотически нормальное , распределение с параметрами: М(®*) = © и ст(0*) = - — 1 М также имеет нормальное распределение1 с параметрами М0;1). В большинстве случаев значение генеральной дисперсии неиз- вестно. Что произойдет с выражением (10.1.1), если в его знаме- нателе стген заменить на выборочное значение 5ВЬ1б? a2in/(x,e) де2 Если существуют достаточные оценки, то метод максималь- ного правдоподобия дает их. 1 Используя свойства математического ожидания, покажем: (- J 'i ы Л (10.1.1) 227
Английский статистик В.Госсет1 решил эту задачу, имеющую] исключительно важное значение для статистического анализа. В] 1908 г. он открыл закон распределения случайной величины: (10.1.2) *^выб I и назвал его /-распределением2. В его честь это распределение] теперь называют (-распределением Стьюдента. I Сравним выражения (10.1.1) и (10.1.2). Из (10.1.1) ясно, что! значения Z изменяются вследствие того, что каждая выборка име-j ет различные X . В формуле (10.1.2) t имеет два источника вариа-1 ции: X и ^Ыб, которые меняются от выборки к выборке. Поэто-1 му мы не можем утверждать, что распределение /-значений под-] чиняется нормальному закону распределения. 1 /-распределение относится к семейству распределений, кото-| рые зависят от параметра, называемого числом степеней свободы! (обозначается буквами v или к, или df — degree s of freedom). Для] значений / в выражении (10.1.2) число степеней свободы и равно! (п — 1), где п — объем выборки. Оценка вариации зависит не] только от объема выборки, но и от того, как много параметров! должно оцениваться в выборке. Чем больше данных, тем больше] мы можем доверять получённым результатам; чем больше пара-! метров мы должны оценить, тем меньше мы им доверяем. Эти] два момента в статистике учитываются при вычислении числа] степеней свободы: 1 Число степеней свободы Число наблюдений Число параметров, которые должны быть . оценены заранее Смысл числа степеней свободы на следующем простом примере. можно проиллюстрирова’ Пример 10.1. I Менеджер компании имеет бюджет $150 000 на четыре различный проекта. Сколькими «степенями свободы» располагает менеджер? 1 1 Госсет работал исследователем на пивоваренном заводе Гинесса в Дублине? (Ирландия). Работникам завода было запрещено публиковать научные изыскания] Поэтому Госсет опубликовал свое открытие под псевдонимом Стьюдент. 1 2 ^выб — несмещенная оценка генеральной дисперсии. ’ I Решение. Общий бюджет четырех различных проектов можно рас- I сматривать как среднюю арифметическую, умноженную на число про- I ектов (Х1+х2+х3+х4 = п' X). Когда говорят, что бюджет для четырех J проектов составляет $150 000, то понимают, что это то же самое опре- I деление среднего: $150 000/4 = $37 500. Менеджер имеет три возмож- I ности (в пределах общего бюджета) любого распределения сумм на лю- I бые три из четырех проектов. Как только средства на первые три про- I екта распределены, у менеджера не остается выбора при распределении I средств на четвертый проект. Он может выделить на этот проект сред- I ства, равные разности между $150 000 (общей выделенной суммой) и г суммой, выделенной на три предыдущие проекта. Следовательно, ме- | неджер располагает тремя степенями свободы. I В распределении Стьюдента вычисляют ствыб, используя п I наблюдений и оценивая один параметр (среднюю арифметиче- I скую). Отсюда v ~ (п — 1) степеней свободы. I Математическое ожидание и дисперсия случайной величины | / соответственно равны: M(t)=0; D^ = ^2 (v>2)' (10.1.3) (10.1.4) Рис. 10.1. Кривая /-распределения Стъюдента и нормаль- ная кривая Распределение /, симметрично относительно среднего значения, равного нулю. График распределения аналогичен графику стандарт- ного нормального распределения, но более «плосковершинный». Чем больше число степеней свободы, тем меньше /-распределение отличается от стандартного нормального распределения. В .случае неограниченного возрастания числа степеней свободы /-распределение сходится к стандартному нормальному распределению: 5(/;v) -> jV(0;1). На прак- Л-*оо тике формула (10.1.2) применяется только тогда, когда выборка извлечена из нор- мально распределенной генеральной со- вокупности объема п < 30. На рис. 10.1 изображен график плотности статистики / i (кривая распределения Стьюдента). I С увеличением числа степеней свободы v (см. рис. 10.1) гра- фик приближается к кривой плотности нормального распреде- ления. 228 229
Л») Рис. 10.2. Геометриче-j ская интерпретация I критических точек 1 распределения 1 Стьюдента | Аналитическое выражение функции плотности распределен ния Стьюдента имеет довольно сложную форму записи. Для оп-| ределения вероятностей случайных величин, подчиняющихся! распределению Стьюдента, обычно пользуются готовыми табли-1 цами. В Приложении, табл. 3, приведены значения критических точек распределе- ния Стьюдента ta/2,v в зависимости от чис- ла v степеней свободы и заданного уровня вероятности а1. Например, для а = 0,05 и v = 50 ^0,025;50 = 2,009 . С геометрической точки зрения, нахо- ждение критических точек <»/2,v заключа- ется в таком выборе значения t = tal2v, при котором суммарная площадь заштри- хованных на рис. 10.2 криволинейных трапеций была бы равной а. 10.2. Распределение %2 j Распределение xu-квадрат (х2) — непрерывное распределен ние, обычно получаемое как выборочное распределение суммы! квадратов независимых нормально распределенных стандартизо-; ванных случайных величин. I Пусть Х[, Х2,...,Хп — случайная выборка объема п из нор-! мально распределенной генеральной совокупности с генераль- ной средней X и дисперсией ст2. Поскольку эти случайные ве- личины не стандартизованы, то приведем их к стандартному ви/ X- — ~х ду путем Z — преобразования: Zt - —---, где Z, — нормально! С '1 распределенная случайная величина Z- ЛГ(0;1). > 1 РЖ" - а . В дальнейшем изложении мы подробнее оста| '«/2.» 3 новимся на концепции критических точек и вероятности а (уровне значимости), j 230 1 Сумма квадратов стандартизованных переменных (=1\ °' называется случайной величиной х2 с п степенями Выражение (10.2.1) может быть переписано2 так: (10.2.1) (10.2.2) I п (%. _%)2 | где s- --—i-----’ —2~ имеет распределение х2 с п сте- I fl L I пенями свободы, как и указано в выражении (10.2.1). I Известно, что если X — нормально распределенная случай- I ная величина со средней X и дисперсией о2 / 4п , то выраже- [ ние 4п(х-х}/ а имеет нормальное распределение со средней 0 Г и дисперсией 1. Можно показать, что я (у -J)2 /ст2 имеет рас- ' Можно доказать, что (%; — xj / о2 имеет распределение у2 с 1-й степенью свободы. Затем, используя свойство аддитивности распределения %2, можно дока- (Xi — х! зать, что --------- также имеет распределение у2 с я степенями свободы. 231
пределение х2 с 1 степенью свободы. Исходя из этого можно < (п - 1)л2 /<пп п ? доказать, что -—, определенное в выражении (10.9.1), име- > О ет распределение х2 с (л—1) степенями свободы. Распределение ] Х2-асимметричное и принимает только положительные значе-1 ния. Оно зависит только от одного параметра — числа степеней | свободы и = (п — 1). ] На рис. 10.3 изображено х2-распределение для различных I степеней свободы. Асимметрия уменьшается с увеличением чис-1 ла степеней свободы. При неограниченном увеличении числа ] степеней свободы х2 распределение аппроксимируется нормаль-1 ным распределением. Дифференциальная функция сложное аналитическое выра- жение, поэтому для непосред- ственного подсчета вероятно- стей используются специаль- ные таблицы, которые называ- ются «Критические точки рас- пределения х2>>, они даны в табл. 4 Приложения. Критиче- 2 скои точкой Ха к ’ отвечающей заданному уровню вероятности (значимости) а и числу степе- ней свободы к, называется та- кое значение х2 = х2 , при котором p(x2>XaJ= J/(x2)^(x2) = Ха;Л этого распределения имеет | Рис. 10.3. График плотности распределения у2 при различных степенях свободы a, геометрически это соответ-1 ствует площади под криволинейной трапецией справа от х2;*> равной а (рис. 10.3). Например, верхняя 5% точка для х2 с 10 степенями свободы Хоо51о Равна 18,307 (см. рис. 10.3) Математическое ожидание и дисперсия этого распределения равны числу степеней свободы и удвоенному числу степеней свободы соответственно: Af(x2)=/(x2)=v; 7>(х2) = 2у, где v — число степеней свободы х2-распределения. (10.2.3) (10.2.4) 10.3. Распределение Фишера (F-распределение) I Часто возникает необходимость сравнения дисперсий, на- I пример, необходимо установить, являются ли дисперсии двух | или более распределений равными. Для ответа на эти вопросы | служит /’-распределение. I Предположим, что существуют две генеральные совокупно- [ сти, каждая из которых распределена нормально. Из этих сово- I купностей извлечены две выборки объема пх и пу . Генеральные | дисперсии соответственно равны о2 и с2 . Для каждой выборки мы можем вычислить выборочную дисперсию 52 и S2 Тогда случайная величина подчиняется /-распределению: F S2/о2 S^/Jy Выражение (10.3.1) может быть переписано так: f _Х2,(^)/(л%-1) х22(т)/(«,-1)’ где х2 (*) = (лх-1) Sl/ol и х22(У) = (Лд,-1) sy/o2; (10.3.1) (10.3.2) и = пх -1; I V2 = Пу - 1 • I Другими словами, случай- [ ная величина, представляющая | собой отношение двух незави- I симых случайных величин, I подчиняющихся х2-РаспРеде- I лению, каждая из которых де- | лится на их число степеней свободы, называется /’-пере- рис. 10.4. Графики дифференциаль- менной. ных функций распределения Фишера /-распределение имеет асим- в зависимости от числа степеней метричную функцию ПЛОТНОСТИ свободы V! И V2 232 233
вероятности, определенную только для положительных значе- ний. f-распределение определяется двумя параметрами q и vj — s, степенями свободы. Эти функции плотности для различных сте- пеней свободы показаны на рис. 10.4. Критические точки отсечения fV1,V2,o для а, равного 0,05; 0,025; 0,01 и 0,005, предусмотрены в табл. 5 Приложения. На- пример, для 10 степеней свободы в числителе и 6 степеней сво- ; боды в знаменателе ^10;б;0,05=4,06; fl0;6;0,025=5,46; fl 0;6;0,01=7,87; fl0;6;0,005= 10,25. Когда генеральные дисперсии равны, выражение (10.3.1) с2 принимает вид: F = . Si
Интервальное оценивание 111. Основные понятия Мы познакомились с точечными оценками. Если объем вы- борки мал, то точечная оценка может значительно отличаться от оцениваемого параметра, т. е. приводить к грубым ошибкам. Вычисленная точечная оценка может быть близка к оцени- ваемому параметру, а может и очень сильно отличаться от него. Точечная оценка не несет информации о точности процедуры оценивания. Рассмотрим другой вид оценивания неизвестного параметра распределения. Предположим, что выборочная средняя, равная 550, есть точечная оценка неизвестной генеральной средней. Но эта оценка не говорит о том, как близко генеральная средняя X рас- положена относительно выборочной средней. Другое дело, когда речь идет о том, что X находится в интервале (449; 551) и уверен- ность в этом составляет 99%. В этом случае мы получаем гораздо больше информации о возможном значении генеральной средней, чем при точечной оценке. Если мы говорим, что на 90% уверены в том, что X лежит в интервале (400;700), то по сравнению с преды- дущим интервалом (при одинаковых объемах выборки) последний несет меньшую информацию, так как, во-первых, интервал шире, а, во-вторых, уровень доверия ниже. Итак, пусть имеется выборка объема п и 0* — статистическая оценка неизвестного параметра 0 (0* — случайная величина, так как найдена по выборочным данным)1. Пусть |©-©*|<Д, где Д>0 1 В этом разделе используется так называемый классический подход к интер- претации доверительного интервала, при котором генеральный параметр не является случайной величиной. Однако существует альтернативный, байесов- ский подход, который позволяет трактовать неизвестный параметр генеральной совокупности как случайную величину. 235
называют точностью выборки или предельной ошибкой выбор-1 ки. Чем меньше А, тем оценка точнее. 1 Доверительной вероятностью (надежностью) оценки & по 0] называют вероятность у, с которой выполняется неравенство*, |о-0*| < Л , т. е. р(|®-0*|< д)=у . 1 Доверительная вероятность задается априорно. Чем ближе у] к единице, тем точнее оценка. Для практических целей обычно] выбирают у = 0,95; 0,99 или 0,9973. Доверительная вероятность! например, 0,95 означает, что мы пренебрегаем возможностью.? появления события, вероятность которого меньше а = 1 — Р aj =1 — 0,95 = 0,05; а называют вероятностью ошибки. 1 Доверительную вероятность и вероятность ошибки, выра-1 женные в процентах, называют соответственно уровнем доверия у уровнем значимости. Уровень доверия и уровень значимости до-1 полняют друг друга до 100% и определяют надежность стати-1 стического высказывания. 1 Заменяя неравенство |о-о‘|<д равносильным неравенством! ®*—А < 0 < 0* + А, будем иметь: у=7Х®*—А < 0 < 0*+ А). Обо-| значим ©J = О* — Д и ®2 = 0* +Д. Такой интервал называется] доверительным, а его концы — доверительными границами. Итак! доверительный интервал — числовой интервал (0*;0э), в котором с близкой к единице вероятностью Р = 1 — а содержится неиз-i вестный параметр генеральной совокупности. | Так как при различных выборках получаются различные зна-1 чения 0*, то и доверительные границы изменяются от выборки] к выборке и значит являются случайными величинами, отсюда! доверительный интервал — также случайная величина. В этом] контексте лучше говорить не о вероятности попадания 0 в дове! рительный интервал, о вероятности того, что доверительный ин! тервал накроет 0. I 112. Доверительный интервал оценки | для генеральной средней при известной I генеральной дисперсии Из центральной предельной теоремы следует, что при извле- Е чении из генеральной совокупности с параметрами X и о2/и I выборки большого объема выборочная средняя X (по крайней ь мере приблизительно) подчиняется нормальному закону I (- _2\ L All;— . Если же генеральная совокупность к тому же нор- Е \ ” / [ мальная, то X подчиняется нормальному закону независимо от I объема выборки. Известно, что стандартная нормальная величи- на Z попадает в интервал ±1,96 с вероятностью 0,95 (см. Прило- I жение, табл. 2). Преобразование Z в случайную величину X со 1 — п2 I средней X и дисперсией — говорит о том, что еще до извлече- [ п | ния выборки можно с вероятностью 0,95 утверждать, что X будет I находиться внутри интервала I X ±1,96-5=. (11.2.1) I I Выборочная средняя, найденная по данным одной выборки, I — определенное число х. Это определенное значение может I находиться либо внутри интервала (11.2.1), либо вне его. А так [как нам неизвестно значение X, то неизвестно, лежит ли в дей- I ствительнрсти х в пределах интервала (11.2.1) или нет. I После извлечения выборки определенное значение х уже не [йвляется случайной величиной, которой соответствует опреде- ленная вероятность. Однако известно, что до извлечения выборки ( вероятность того, что X попадет в интервал (11.2.1), равна 0,95. |Это означает, что 95% всех значений X, полученных из боль- |шого числа повторных выборок, будет находиться внутри интер- |вала (11.2.1), а поскольку мы на практике имеем единственное значение х , то можем лишь сказать, что на 95% уверены, что х [лежит внутри интервала (рис. 11.1). I 237 236
Рис. 11.1. Вероятностное распределение X и некоторые значения выборочных статистик в повторных выборках Рассматривая конкретное значение х , заметим, что расстоя-1 ние между х и X такое же, что и между X и х . Отсюда следу-] ет, что х попадает в интервал ~Х ±1,96-^ тогда и только /иогда,| ул 1 когда X находится внутри интервала х±1,96-^. При большом! у л J числе испытаний это произойдет в 95% случаев. Следовательно, 1 назовем интервал х ± 1,96 95%-м доверительным интервалом] ул .1 для неизвестной генеральной средней X (рис. 11.2). а I j Рис. 11.2. Интерпретация 95%-го доверительного интервала > для генеральной средней X ! Так как X — неизвестно, то вместо расстояния ±1,96-^= от X берем то же самое расстояние по обе стороны от известной > х. Поскольку до извлечения выборки случайный интервал f Х±1,96-^= с вероятностью 0,95 накрывает X, то после извлече- I Ул Е ния выборки мы можем на 95% быть уверены, что в определен- ном интервале х±1,96-^= находится генеральная средняя j Мы не можем с вероятностью 0,95 утверждать, что X находится I внутри интервала, так как интервал х±1,96-^=- — не случайный, [ ул [. а так как неизвестная X имеет фиксированное значение, то и । она — не случайная величина. Одно из двух: либо ~Х находится [внутри доверительного интервала (вероятность этого события [ равна 1), либо ~Х — вне доверительного интервала (вероятность I этого события равна 0). Однако 95% всех возможных довери- I тельных интервалов для выборок одинакового объема п будут | включать в себя X. И отсюда можно сказать, что мы на 95% [уверены, что X лежит в интервале, который мы построили. 238 239
Приведенные рассуждения можно сформулировать в об- щем виде. Предположим, что выполнены все условия, npi которых выборочная средняя X имеет нормальное распределение (а ] „ X — а г— а;-=\, тогда нормированное отклонение Z =--также 4п] п имеет нормальное распределение N(0;l). Поэтому вероятност) любого отклонения |х - а| может быть вычислена по формуле р(|х-Л/рфд)=2ф0^^ , а у = = 2фо|^^ Но так как м(х\ = X , то у = д) = 2ф0|I = 2Ф0 (^ ' 7 V ' I ° ) i При заданном у по таблице значений функции Лапласа находи» аргумент , зная значение этой функции Фо(г) * ' ст Фо|—. Из z = при известном (по условию) а нахо- I ст I 2 ' ст дим: ; 7 Д = -Т=- = 2ц. (11.2.2). Предельную ошибку выборки можно рассматривать как z-кратнук среднюю ошибку выборки. i Тогда доверительный интервал для оценки X будет имен вид: < %-д<1<Х+д или Х-^-Ь-<Х<Х + ^-, (11.2.3)-. 4п у/п _ ~ я ИЛИ X-Zy<X <Х + zy , а (л—любое л>1), । 240
Длина интервала (11.2.3) 2zrq — не случайная величина. 4п iJ Так как интервал симметричен относительно X , то в качест- ве меры точности интервала естественнее брать половину интер- вала (А). ? Из формулы (11.2.2) следует формула для вычисления объема выборки в случае повторного отбора. n = ±-g- (11.2.4) Решение. Рассмотрим свойства доверительного интервала на следующих примерах. Пример 11.1. Пусть имеем выборку из нормальной генеральной совокупности, в которой случайная величина X нормально распределена для выборки Любого объема. Предположим, что п = 25, значение х = 122 и извест- но аген =20. Построим 95%-й доверительный интервал для неиз- вестной генеральной средней. Решение. ! х ± 1,96-^ = 122 ± 1,96= 122 ± 7,84 => (11,4,16; 129,84). ул у25 Итак, мы можем с 95%-й уверенностью утверждать, что неизвест- ная генеральная средняя % находится где-то между 114,16 и 129,84. Что произойдет с доверительным интервалом для данных этого же примера, если уровень доверия принять равным 80%? Решение. х ± 1,284= = 122 ± 1,28-4=- = 122 ±5,12 (116,88; 27,12). ул у25 Сравняв полученный интервал с предыдущим, заметим, что он бо- е узкий. Это важное свойство доверительных интервалов. > При извлечении из генеральной совокупности выборок равного объема сличение уровня доверия приводит к увеличению длины интервала. Увеличение надежности к сожалению, влечет за собой уменьшение чности. Для 100%-го уровня доверия доверительным интервалом яв- ится [-со;оо]. 241
р=о,1 А=0,8 Р=0,1 1,28 0 1,28 лг+ивЛ Jn -Jn (---------------------) X Рис. 11.3. 80%-й доверительный интервал для генеральной средней X Для получения по возможности узкого интервала при сохранен высокого уровня доверия необходимо увеличивать объем выборки. > При извлечении из генеральной совокупности выборок с фик сированным уровнем доверия увеличение объема выборки уменьшат длину интервала. Интуитивно ясно, что чем больше информации, тем меным неопределенность и больше точность. Пример 11.3. Предположим, что 80%-й доверительный интервал кото- рый мы построили ранее базиру- ется на выборке объема п — 2500 вместо 25. Значения х =122 и стген = 20 такие же как и в пре- дыдущем примере. Новый дове- рительный интервал должен быть в 10 раз уже, чем предыду- щий (так как 72500 = 50 в де- сять раз больше, чем 725 = 5). Следовательно, новый интервал: х±1Д8^= = 122±1Д8-~ = А" = 122 п = 2500 121,49 122,51 17122 (---------•---------) л = 25 116,88 127,12 Рис. 11.4. интервала как функция объема выборки = 122 ±5,12 =>(121,49,122,51). Величина интервала равна 2 • 0,512 = 1,024, в то время как интервала при л = 25 составляет 2—5,12 = 10,24. Этот пример иллюстрирует ценность объема информации. 242
Пример! 1.4. На основании выборки среднее содержание никотина равно , 18,307 мг; найдите доверительный интервал, накрывающий значе- ; ние истинного содержания никотина с заданной надежностью i (1-а )=0,95, считая среднее квадратическое отклонение <тген извест- ( ным и равным несмещенной оценке S = 0,0029 мг. Найдем доверительный интервал, накрывающий значения истинного содержания никотина с доверительной вероятностью у= 1-а= 0,95, • считая о = 0,0029. Для этого по табл. 2 Приложения находим = 0,475 -> z = 1.96. Найдем предельную погрешность интервального оценивая Д = Z = 1,96 2^2 = 0,0025. V» *5 Искомый доверительный интервал равен Х-Ь<Х<Х + Ь; 18,307 - 0,0025 < X < 18,307 + 0,0025; 18,3075 <Х< 18,3095. Смысл полученного результата: если будет произведено достаточно 'большое число выборок по 5 сигарет в каждой выборке, то в 95% из (Них доверительный интервал накроет истинное содержание никотина и только в 5% случаев оно может выйти за границы доверительного ин- тервала. .3. Доверительный интервал для оценки генеральной средней при неизвестной дисперсии Ранее мы строили доверительный интервал при известной (генеральной дисперсии. На практике же генеральная дисперсия, (как правило неизвестна и обычно используется выборочная дис- персия. Для выборок большого объема можно использовать вы- борочную дисперсию вместо генеральной. Но для выборок ма- юго объема (л < 30) это приводит к большой погрешности. В гекоторых случаях нельзя получить выборку большого объема. Например, необходимо построить доверительный интервал, для реднего объема прибыли, получаемого десятью предприятиями некоторой отрасли. Вследствие малого объема выборки нор- мальное распределение не может быть использовано, так как 243
центральная предельная теорема применима лишь к выборк большого объема (л > 30). Это затруднение можно преодоле' применяя распределение Стьюдента. Из таблиц распределения Стьюдента с (л — 1) степеня! свободы находим такую величину ty = , для которо справедливо равенство: \ м / или ,4 5 (11.3.1) Пример 11.5. Аналитик фондового рынка оценивает среднюю доходность опред ленных акций. Случайная выборка 15 дней показала, что среды (годовая) доходность х = 10,37% со средним квадратическим отклон нием s = 3,5%. Предполагая, что доходность акций подчиняется но, мальному закону распределения, постройте 95%-й доверительный и тервал для средней доходности интересующего аналитика вида акций. Решение. Поскольку объем выборки л=15, то необходимо применить распр деление Стьюдента с п—1—14 степенями свободы. В Приложении^ табл. 3,на пересечении строки, соответствующей 14 степеням свободы и колонки, соответствующей уровню значимости а = 0,05 для двусто ронней критической области находим: ta;14= 2,14. Используя это значе ние, построим 95%-й доверительный интервал: x±t„ Х = 10,37±2Д4-Ыг=>(8,44,12,3) f * 44 4is : Следовательно, аналитик может быть на 95% уверен, что средня годовая доходность по акциям находится между 8.44% и 12,3%. Пример 11.6. На основании числовых данных примера 11.4 найдите доверитель ный интервал, накрывающий значение истинного содержания никоти на, с заданной надежностью у=(1-а) = 0,95 считая оген неизвестным. 244
Пусть аген — неизвестно. Найдем по табл. 3 Приложения критические точки распределения Стьюдента по заданной доверительной вероятности у = (1-а) = 0,95 и числу степеней свободы Л-л-1 = 5-1 = 4. ta =4 = 2,78. 2к Вычислим предельную погрешность интервального оценивания Д = Га -^= = 2,78^^ = 0,0036. ‘ V5 : Искомый доверительный интервал равен , х-Ь<Х <х + &; 18,307—0,0036< X < 18,307 + 0,0036; J 18,3034<J <18,3108. ! Сравнивая доверительные интервалы, накрывающие с одной и той Ьже доверительной вероятностью Р — 0,95 истинное содержание никоти- на, в случае, когда <тген известно (пример 11.4) и когда оген — неиз- вестно, заметим, что при неизвестном оген. доверительные интервалы {получаются более широкие. Однако при объеме выборки л >30 эти (Доверительные интервалы отличаются незначительно. Ш.4. Доверительный интервал для оценки I среднего квадратического отклонения Пусть а и о - параметры нормального распределения, ко- >рые нам неизвестны. По выборке найдены точечные оценки ртих параметров X и Составим вспомога- ;льную случайную вели- Эта случайная величи- т I имеет распределение х л-1 степенями свободы, гроятность того, что слу- Рис. Ц.5. Построение доверительного 9 интервала для оценки параметра ст ая величина х2 попадет в интервал (CfQ), равна 245
.2 Cl С, Зададим эту вероятность, равной 1-а = Р значения найдем из условий: Ci С Тогда Q=x 2 . “ 1 1~2;П~1 1 ,2 l*i 01 1 P\ X о с2 = х2 ; 2;«-1 (”-1)*2 ...2 a2 = l-a; или где Пример 11.7. P\ л-1 X о Л-1 о • —5--- ।—2---------- 1Г“ . V*. “ , . г 2;л-' V '’г7”1 1 <о<5У2) = 1~а> Y1 = 1 -a, л-1 1 л-1 Y2 = у2 2;Л-1 X2 а 1-2;л 1 фасовке средняя налаживается для На фабрике работает автоматическая линия по мото кофе в жестяные 100-граммовые банки. Если полняемых банок отличается от точной то линия подгонки средней массы в рабочем режиме. Если дисперсия массы пре- вышает заданное значение, то линия должна быть остановлена на ре- монт и переналадку. Время от времени производится отбор банок с кофе для проверки средней массы и ее колеблемости. Предположим, что с линии в случайном порядке отобрано 30 банок с кофе и оценка дисперсии j2= 18,540. Постройте 95%-й доверительный' интервал для генеральной дисперсии о . Решение. Доверительный интервал для генеральной дисперсии о2 (генеральная совокупность предполагается нормально распределенной) 246 Q и Qi раствори- масса на- Пример 11.8. 11.9. х2 2 (л-1)52 (л-1)52 л а 2 2 ,где х^ значение хи-квадрат распределения 2 с л-1 степенями свободы, которая отсекает площадь —с правой сторо- 2 вы распределения, а х a — значение хи-квадрат распределения, a которое отсекает площадь — с левой стороны распределения. Из табл. Приложения находим значение хи-квадрат с и-1=29 сте- пенями свободы: X 29.0,025 - 45,7 и X29.0,025 = 1^,00 Используя эти зна- ния, определим доверительный интервал: На основании числовых данных примера 11.4 найдите доверитель- ный интервал, накрывающий неизвестное среднее квадратическое от- лонение ст с заданной надежностью (1—а) = 0,95 Для нахождения искомого доверительного интервала по табл. 4 риложения найдем х „ = 11,1 и х2 а = 0,484; -л-1 1-2л-1 Ц-“ОЖ ’’Дг2'87 Искомый доверительный интервал имеет вид: Y]j<a<y1s 0,60 • 0,0029 < о < 2,870,0029; 0,0017< а <0,0084. Y1 На основании числовых данных примера 11.4 найдите предельную югрешность, с которой средняя арифметическая оценивает значение ястинного содержания никотина в сигарете, принимая доверительную ероятность (надежность) 1—а=0,99. По таблице критических точек (распределения Стьюдента) Приложе- табл. 3, по а= 1—0,99=0,01 и числу степеней свободы к = л—1 — 4 247
находим t o,oi,4=4,6 (для двусторонней критической области). Следова-1 тельно, предельная погрешность, которую мы допускаем, считая, что| значение истинного содержания никотина в сигарете данного типа! равна средней арифметической, т.е. X = 18,307 мг, равна 1 Д = Га -^ = 4,6^^ = 0,0006 (мг) I ул-14п 75 I (11.5.3) 11.5. Оценка вероятности (биномиального распределения) по относительной частоте Построим доверительный интервал для вероятности р слу-j чайного события. Точечной оценкой р является относительная] частота w. несмещенная оценка р. т.е. M(w)=p. А поскольку па-| раметр р оказался математическим ожиданием случайной вели-1 чины, то мы опять приходим к задаче, которая уже была реше-1 на. Но здесь есть одна особенность — случайная величина дискретна. Кроме того, ее математическое ожидание равно р и'! дисперсия равна pq = р (1 — р). 1 Если л —> оо то можно считать, что случайная величина wl распределена приблизительно по нормальному закону j По заданной надежности у (или доверительной вероятности <р) 1 найдем такое zy, что PUw-p) <zyoj = у т.е. с надежностью у вы-| j Итак, интервал (pi ; />2) есть доверительный интервал для I оценки вероятности р с надежностью у . | z2 z2 I Но при больших п (порядка сотни) слагаемые — — и — г. 2л 4л I малы и 1 + — я 1. Поэтому | л t w(l-w) w(l-w) Pl=w-zJ—------i; p2=w + z -----L> (11.5.4) 1 । л V л Пример 11.10. Для определения процента людей, нашедших себе супруга через брачное агентство, была организована случайная выборка, объем кото- рой составлял 500 человек из обратившихся за помощью в брачное агентство. Среди них 75 нашли себе супруга. Найдите: а) 90%-й доверительный интервал, накрывающий неизвестный процент людей, нашедших себе супруга через брачное агентство; 6) вероятность того, что истинная доля их отличается от найденной выборочной доли не более, чем на 2%. Решение. полняется неравенство . т a) w =— л 75 500 = 0,15. - р|- < <3Z = (11.5.1) [ Найдем доверительный интервал (р{ [доли р с надежностью у = 0,9. ; Р2) для оценки генеральной I |2 р(1-р) 2 что эквивалентно неравенству |w-p| < д Kzy. Из последнего неравенства получим квадратное относительно р: Из табл. 2 Приложения по у 0,9 — = — = 0,45 определяем zy = 1,645; ( ,2 ,2Л — +1 р2- 2»^ + — р + и'2<0. л п уравнение! (11.5.2) Так как старший коэффициент у квадратного трехчлена по- ложителен, то решением неравенства (11.5.2) является интервал (/’ь /’г) > гДе Р\> Pi — корни этого квадратного трехчлена: iPi',P2 находим по формуле (11.5.4) так как л — достаточно большое чис- ло (л>100). I Сначала найдем предельную погрешность оценивания 4=z,M3.lj645; ’ V л V 500 Искомый доверительный интервал: 0,15-0,026 < р < 0,15 + 0,026, 249 248
или 1 0,124 <р<. 0,176, т.е. />[=12,4%; />2=17,66%. I б) Из условия следует, что предельная погрешность 1 I и>(1 - и>) „ „„ I A = :J-J---=0,02. | TV n j Отсюда n = , °—-------» »1,25 . По табл. 2 Приложения нахо| 0,15 0,85 0,016 ] V 500 j дим искомую вероятность 0,7888. ! 11.6. Необходимый объем собственно-случайной ; выборки Прежде чем образовывать выборочную совокупность, неоЯ ходимо решить вопрос об ее объеме. | Пусть из генеральной совокупности извлечена собственно! случайная выборка методом повторного отбора. В результате той ность оценки неизвестной генеральной средней определяется пре! дельной ошибкой Д* с заданной доверительной вероятностью Р. J При заданной доверительной вероятности Р (или у) пре! дельная ошибка выборки Д равна z — кратной величине среда ней квадратической ошибки, где z — значение аргумента, при у Р ч котором значение функции Фо(х) равно = у т.е. Д? = с^. Им вестно, что д = Решая это уравнение относительно п найдем! п 1 ,2 2 Z ° ген Я =---Z— Дх Так как значение аген — неизвестно, то воспользоваться этой формулой мы не можем. Тогда вместо генеральной дисперсии используют выборочную дисперсию или же организуют неболь! шое дополнительное выборочное наблюдение специально длй оценки генеральной дисперсии. 1 Аналогично можно получить формулу необходимого объема повторной выборки для оценки неизвестной генеральной доли: 1 2 1 « = (11.6.2) д1 (п.6.1) 1 Так как генеральная доля неизвестна, то в качестве р исполь- | зуется значение выборочной доли, полученное ранее примерно в тех же условиях, или же считают произведение pq равным 0,25, j т.е. его максимальному значению. Найдем минимальный объем бесповторной выборки (и) для | оценки неизвестной генеральной средней, исходя из формулы i предельной ошибки выборки: g О 7 к л *— I гем I 1 Л ] £ Дх = % ген I---. V л V А/ Возведя обе части ; произведение z2a^H, получим: откуда £ или равенства в квадрат и поделив их затем на после раскрытия в правой части скобок (11.6.3) I I Д^ N Z2v2efi М^х+^ген , I n =---------. Дх I T2Z2~ + v Z «ген Л [ Заметим, что первое слагаемое в знаменателе — обратная ве- I личина необходимого объема и повторной выборки при тех же | значениях Z, о|ен и Дх • | Поэтому равенство (11.63) можно иначе: [ , I nN I - • £ i п+ N I п N | Аналогично выводится формула минимального объема бес- | повторной выборки, образуемой для оценки неизвестной гене- |ральной доли р: (11.6.4) Я’ =.Nz2P4 NS2w+z2pq (11.6.5) Пример 11.11. I Фирма решила открыть ювелирный магазин в новом районе города |и хотела бы оценить долю людей, заинтересованных в изделиях мага- зина. Компания хотела бы знать оценку генеральной доли с предельной 250 251
ошибкой Д=0,10 и доверительной вероятностью 0,99. Для этого пред-] полагается провести опрос жителей района. По опыту предыдущих оп-| росов компания может считать, что генеральная доля колеблется около] 0,25. Чему равен необходимый объем выборки для оценки теней ральной доли? ] Решение. I 2,576 0,25 0,75 121 12 I п Д2 ОДО2 ’ ’ 1 Компания должна провести опрос 125 человек, отобранных случай-1 ным образом. Заметим, что различные предложения о генеральной доле! р дадут различные численности выборки. | Пример 11.12. J По числовым данным примера 11.4 найдите минимальный объеш выборки, при котором с вероятностью 0,98 можно было бы утверждать,] что принимая выборочную среднюю арифметическую за среднее значе| ние полного содержания никотина в сигарете, погрешность, не превы-1 шает 0,002 мг, считая о = 0,0029. | ,22 '1 « ** Z & ..я Для решения этой задачи воспользуемся формулой п- . | ^98 _2 32 (см. табл. 2 Приложения) 1 2,322 0,00292 ... I п = —------= «11 (сигарет). ,| 0,0022 I Пример 11.13. I На основании данных примера 11.10 определить сколько человей должна содержать выборка, чтобы с вероятностью 0,95 можно была бы утверждать, что максимальное отклонение полученного по резуль- татам этой выборки процента людей, нашедших себе супруга (илй супругу) с помощью брачного агентства от истинного процента ня превышало 1%. | Так как по доверительной вероятности 0,95 из табл. 2 Приложении Zy = 1,96 , то предельная погрешность по условию равна: 1 = 0,01. Отсюда 0,15 0,85 0,0001 £1275 (чел.). V п п = 117. Способы отбора [ Рассмотрим отбор, при котором генеральная совокупность | разбивается на части. Такой отбор осуществляется следующими [способам и : [ а) механический отбор; I б) типический (стратифицированный) отбор; । с) серийный (гнездовой) отбор; |. д) комбинированный отбор. I > При механическом отборе совокупность делится на столько (групп, сколько единиц должно войти в выборку, и из каждой {группы отбирается одна единица. Механический отбор всегда |бесповторный. Например, для оценки успеваемости студентов, {проводится 10-ти процентная механическая выборка. Для этого I из алфавитного списка отбирается каждый десятый студент, на- |пример, 1-й, 11-й, 21-й, 31-й или 7-ой, 17-ый, 27-ой, 37-ый и |Тд. Если выборка 5-ти процентная, то отбору подлежит каждый |20-й студент. I > При типическом отборе генеральная совокупность делится 1по некоторому признаку на качественно-однородные, однотип- | ные (типические) группы и затем из каждой группы собственно- | случайным или механическим отбором выбирают количество |единиц, пропорциональны^ весу группы во всей совокупности. {Пример 11.14. I Планируется провести опрос 1500 жителей небольшого города для I прогноза результатов предстоящих выборов. Списки четырех избиратель- |ных участков города охватывают 100000 избирателей. Расчет структуры мбъема выборки может производиться по следующей условной схеме Г( • IVя ли ’ Участок Число избирателей Доля избирателей в общей численности Число отобранных для выборки избира- телей 1 18000 0,18 1500-0,18=270 2 24000 0,24 1500-0,24=360 3 32000 0,32 1500-0,32=480 4 26000 0,26 1500-0,26=390 Е 100000 1,00 1500 252 253
Вычислим среднюю ошибку выборки в случае типического отбора, Для этого вспомним правило сложения дисперсий: дисперсия признака некоторой совокупности, разбитой на отдельные части, равна среднему значению частных дисперсий плюс дисперсия частных средних о2 = о2+о2. Пример 11. IS1. Рассмотрим данные о числе товаров, проданных 26 продавцами^ универмага. Число про- даж X,- 9 12 13 14 15 16 17 19 21 23 Число про- давцов т 1 2 3 6 5 3 2 1 1 1 Разобьем вариационный ряд на 2 части: в первую группу включим продавцов с числом продаж до 15, а во вторую — продавцов с числом продаж свыше 15. Вычислим частные (внутригрупповые) дисперсии: о? = 2,24; о| = 13,22. Тогда средняя из внутригрупповых (частных) дисперсий 2 „2 М „ = 6,0387, 7 л = 2 а межгрупповая дисперсия о , измеряющая колеблемость групповых средних вокруг общей средней, равна 6.9. Общая дисперсия о2 числа’ продаж, осуществленных 26 продавцами, удовлетворяет правилу сложе- ния дисперсии: 12,94 - 6,04 + 6,9. Обратимся еще раз к генеральной совокупности. Разобьем ее на к частей. Пусть N2,..., Nk — объемы этих частей и N=Nl+N2+...+Nk: Произведем теперь из каждой части по одной выборке, объемы кото- рых равны соответственно п1уп2,...,пк и п = л, + п2 + ... + пк. Тогда генеральная средняя равна У _ x\Nk + X2N2+...+xkNk _ YsiNj N N ’ ’ общая выборочная средняя представляется в виде: 1 Пример взят из книги: Ниворожкина Л.И., Морозова З.А. Вариационные ряды и их характеристики. — Ростов-на-Дону, 1997. — С. 40. 254 27 X = + *2^2+-+Х*Л^ _ SNl N - N Так как X-X = Х1^ + х2^2+--+хк№к _ XjNj + x2N2+...+xkNk N N ~ N N дисперсия средней о2(х) = ц2 т.е. математическое ожидание С-Х) , имеет следующий вид: х2 £(х; -х,-)Л7; N 1 ц2 = М 1 “м ~х№ + № “х')(^= N2 ~xj)^i^j Второе слагаемое равно 0, и мы имеем: 2 (Где — дисперсия средней в i-й части. Так как ц? равна дисперсии признака в Ай части, деленной на ее объем, т.е. т° - -ННк <**’••> Соответствующая формула для вычисления средней ошибки доли при повторном отборе имеет вид: = (11.7.2) Для бесповторного типического отбора формулы (11.7.1) и (11.7.2) преобразуются: Л?- ц = (11.7.3) (11.7.4) 255
Если допустить, что в каждой части генеральной совокупности чис- ло единиц пропорционально объему этой части т.е. «1 _ «2 _ ”3 _ _пк п Nx N2 - Nk N’ _ 1 Уст2У N - 1 N2 ' n n N n N П; N п-. 2 Итак, ц = — п Н = (11.7.5) Аналогично средняя ошибка доли при повторном отборе (11.7.6) При бесповторном типическом отборе средние ошиб1 средней и доли можно выразить формулами: о? Л «' (11.7.7) (11.7.8) случаях раввд А предельная ошибка Д во всех перечисленных z-кратной средней ошибке. Правило сложений вариаций для типической выборки! 2 2 х2 > С О; О Л : — = —+—, значит, дисперсия средней при типическом отбой п п п меньше дисперсии средней при собственно-случайном отборе на вели- 82 чину -. п Пример 11.16. По данным примера 11.14 проведена 15% типическая выборка про- порционально численности избирателей каждого избирательного участи ка. Требуется с вероятностью 0,954 определить пределы, в ко? торых находится доля избирателей, не проголосовавших за выдвинутое кандидата. Отбор бесповторный. 256
Участок Число избирателей Доля избира- телей в об- щей численно- сти Число отобран- ных для выборки избирателей Процент избира- телей, не проголо- совавших за выдви- нутого кандидата 1 18000 0,18 1500-0,18=270 20 2 24000 0,24 1500-0,24=360 12 3 32000 0,32 1500-0,32=480 40 4 26000 0,26 1500-0,26=390 28 I 100000 1,00 1500 — Определим общую выборочную долю избирателей, не проголосо- вавших за выдвинутого кандидата: 4 У Wj/n - г 20-270+12-360 + 40-480 + 28-390 4 1500 \mi 1 3400 + 4320 + 4200+10920 ------------------------= ZD.JO. 1500 Определим внутригрупповые дисперсии: для 1-го участка m'1(1-w1)=20 • 80=1600; для 2-го участка ^(1—w2)=12 • 88=1056; для 3-го участка w3(l—и>3)=28 • 72=2040; для 4-го участка w4( 1—vv4)=28 • 72=2016. Средняя из внутригорупповых дисперсий определяется по формуле wл _ Ч “'iQ - ^1 >1 + w2^ - *2>2 + >Уз(1 - И'зЬ + М1 - ^4>2 = ' ' Я] + «2 + й3 + й4 1600 270 +1056 • 369 + 2400 • 480 + 2016 • 390 1500 43200+380160+1152000+786240 2361600 Л —-----------------------------=--------— 1574 4 1500 1500 Рассчитаем предельную ошибку доли для типического отбора. W - Д < р <w + Д; 24; 542%< р <55 118%. При серийной отборе выбираются целые группы (гнезда), отобранные собственно-случайным или механическим способа- ми, а потом в каждой попавшей в выборку серии, осуществляет- 9 Теория статистики с основами теории вероятностей 257 ।
(11.7.9) ся сплошное наблюдение. Например, таможенная служба выбо- рочно вскрывает каждый сотый контейнер из прибывающих порт, а в нем проверяется полностью весь груз. Вычислим среднюю ошибку средней в случае серийного отбора.- Пусть генеральная совокупность разбита на R равных по объему серий. Мы отбираем г серий, которые подвергаются сплошному наблюдению. Обозначим через х,- среднюю арифметическую в ьой серии, а через ст2 — дисперсию в /-ой серии. Дисперсию части средних т.е. межсерийную дисперсию, обозначим через ст2 . В отборных z сериях найденные средние арифметические зна- чения хьх2,...,хг. представляют эти серии и являются случайными величинами, значения которых зависят от того, какие именно се- рии попали в выборку. Мы как бы из совокупности средних по всем сериям отбираем случайным образом г значений Х|,х2,...,х, Поэтому дисперсия средней по всей совокупности должна вычисляться по формулам собственно-случайного отбора. Если отбор серий повторный, то 2 2 о2 м =п; = -—; р = R-r (11.7.10) отождеств- (11.7.11) В случае же бесповторного отбора имеем: 2 2 82R-r ц = О* = 7/ГГ; ц Если число серий R достаточно велико, то R—1 ляют с R и пользуются упрощенными, формулами 2 З2 ( r'l 32Г г') Очевидно, что средняя ошибка ц будет тем меньше, чем меньше межсерийная дисперсия 82 и чем больше число ото-, бранных серий г. А межсерийная дисперсия будет небольшой в том случае, когда серии более или менее однородны. Пример 11.17. Совокупность состоящую из 4000 разбивают на 50 серий по 80 ма- газинов в каждой. Случайным образом отбирают 10 серий. Среднеме- сячные значения товарооборота магазина в ед. усл. в каждой серии равны: 300; 320; 310; 340; 350; 320; 369; 340; 330. Вычислим среднюю ошибку серийной выборки для случая повтор- ного и бесповторного отборов. Для этого вычислим среднее значение товарооборота по всей сово- купности, усл. ед.: v Xх/ 300 + 320 + 310+340+350+320+360+350+340+330 л - -----------------------—----------------------- 332. п 10 Найдем межсерийную дисперсию, усл. ед.: ст2 = Х(х/~х)2 = (300+322)2 + (320 + 332)2+.,.+(330-332)2 = 336. п 10 Тогда средняя ошибка серийной выборки будет равна при повтор- ном отборе ц » 5,79, а при бесповторном отборе 336 ( 10^1 ’’М 5» Как видно, при бесповторном отборе ошибка меньше. Для определения числа серий воспользуемся формулами собствен- । но-случайного отбора, где роль N, о2 и л теперь будут играть соответст- венно число всех серий R, межсерийная дисперсия и число отобранных серий г. Для повторного отбора ?82 Д232 (11.7.12) дня бесповторного отбора (11.7.13) Z2&2R Rt\2 +Z232 Иногда применяется комбинированный способ отбора, при котором используются различные сочетания перечисленных способов отбора. Рассмотренные примеры иллюстрируют общие принципы различ- ных способов отбора, на практике же для реализации выборки приме- няются более сложные приемы, обеспечивающие случайность. Пример 11.18. Сколько серий нужно отобрать из совокупности, разбитой на 100 серий, чтобы с вероятностью 0.954 можно было утверждать, что ошибка средней выборочной не превзойдет 3. Предполагается, что межсерийная дисперсия равна 25, а отбор бесповторный. По табл. 2 Приложения находим' z = 2. Тогда Z2S2/? 22-25-100 г = —х---х-у =--------=------ 10 (серий). ЯД2+г232 100-9 + 22-25 С целью облегчения решения задач приводим сводную таблицу для 1 вычисления средней ошибки при различных способах отбора (табл. 11.1). 259 258
Таблица 1I.1. Формулы вычисления средних ошибок выборочной средней и доли
|11.8. Выборочное распределение суммы I или разности двух случайных величин | (независимых статистик) ! При сравнивании одноименных параметров двух генераль- I ных совокупностей чаще всего обращается внимание на раз- I5 личие между генеральными средними или генеральными долями. { Нас может интересовать различие средней производительно- I сти двух автоматических линий или долей голосов, отданных из- | бирателями за двух кандидатов или успеваемости студентов в двух | группах, в которых применялись различные методы обучения. I Интуитивно ясно, что разность между двумя выборочными | средними или долями дает нам максимальную информацию о действительном различии между двумя генеральными средними 5 или долями. i Пусть yj и Уг — неизвестные случайные величины, каждая ; из которых подчиняется нормальному закону: У^ЛГ^уо2^) и У2->ЛГ(1У2;О22). Так как выборки, извлеченные из генеральной совокупно- ► сти, независимы, то выборочное распределение У! + Уг обладает следующими свойствами: | 1- *у1±у2 =Х^±ХУ1. Т Г,2 -П2 4-ГГ2 авыбу]±у2 °выбу| +Овыбу2 • 3. Выборное распределение У] ± Уг точно или приблизитель- i но распределено нормально. Свойства выборочного распределения разности между двумя независимыми статистиками может применяться для оценки разности между двумя выборочными средними — Х2) и раз- ; НОСТИ между двумя выборочными ДОЛЯМИ (и»! -tV2). 11.8.1. Свойства выборочного распределения разности двух выборочных средних Если две независимые случайные выборки с объемами п, и п извлечены из генеральных совокупностей со средними 261 I
арифметическими Х2 и ofreH и ofreH соответственно, то выборочное распределение разности обладает свойст- вами: Г~2 Г" L *(*1-*г) =Xi ~Х2’ + 2. Если генеральная совокупность распределена нормально, то выборочное распределение разности точно или при- близительно распределено нормально независимо от объ- ема выборки. 3. Если генеральная совокупность не подчиняется нормаль- ному закону распределения, то выборочное распределение разности приблизительно распределено нор- мально в силу ЦПТ, когда п\ и п2 велики. Пример 11.19. Проведенный социологический опрос служащих некоторой отрасли показал, что заработная плата бухгалтеров предприятий данной отрасли варьирует от 15 971 руб. в год в Краснодарском крае до 39 571 руб. в Магаданской области. Средняя заработная плата в Москве таких же бухгалтеров составила 29 000 руб., а в Санкт-Петербурге — 28 621 руб. , Предположим, что проведена случайная выборка 40 бухгалтеров в Москве и 40 — в Санкт-Петербурге. Чему равна вероятность того, что выборочная средняя Xt в Москве превысит выборочную среднюю Х2 в Санкт-Петербурге на 1000 руб. или больше (среднее квадратические отклонения двух генеральных распределений заработ- ных плат считать приблизительно равными, т.е. О| = <т2 = 5000/ Из свойств выборочного распределения разности - Х2} следует, что х, , = Хх-Х2 =29000-28621 = 379,: <3, i+d=J^+^=ni8O3. «1 п2 1 40 40 Мы считаем, что генеральное распределение заработной платы, вы- борочные распределения выборочных средних и их разности %|-Л2 распределены нормально. 262
Рис. 11.6. Выборочное распределе- ние (jfi-X2) для примера 11.19 Рис. 11.7. Плотность нормального закона с параметрами 0 и 1 для примера 11.19 Найдем ^-значение, соответствующее 1000. Оно представляет собой значение - Х2 = 379, деленное на т- ~ х, т.е. (J1 - %2)- (*1 - *2) _ 1000- 379 o(Vi2) ’ 1118,03 ' Площадь А равна Фо(г), где z = 0,56. Отсюда - Х2) ;> ЮОО] = 0,5 - А = 0,5 - 0,2133 = 0,2877, т.е. вероятность того, что выборочная средняя заработная плата 40 бухгал- теров из Москвы превышает среднюю заработную плату из Санкт- Петербурга, равна 0,2877. 118.2. Свойства выборочного распределения разности двух выборочных долей Предположим, что две независимые случайные выборки объ- емами nt и «2 извлечены из генеральной совокупности, подчи- няющейся биноминальному закону распределения с параметра- ми pi и Р2 соответственно. Выборочному распределению разно- сти выборочных долей wj—w2 = ——-I присущи свойства: V Л1 п2 ) \ Y „ „ „ _ Mlgl . P2Q2 !• Pl Р2 и a(wj-w2) Л1 л2 ' 2. Выборочное распределение (wj—w2), при и л2 достаточно больших имеет приблизительно нормальное распределение в силу ЦПТ. 263
Когда мы используем нормальное распределение для ап- проксимации биномиальных вероятностей, интервал (wj—w2) + ± 2 а(и,1_и,2)должен находиться внутри рангов би-и'г), которые изменяются от —1 до 1, а не от 0 до 1, как в случае одной доли. Пример 11.20. Наказ избирателей о строительстве новой школы должен быть вы- полнен до следующих муниципальных выборов. Основная доля денег, взятая из специально созданного для этого фонда, будет предназначена для строительства новой школы в быстро развивающемся новом районе города, а оставшаяся часть будет использована для ремонта и реставра- ции школ, построенных в других районах города. Местная газета отме- тила, что 75% жителей нового района и 60% жителей других районов города поддерживают это решение. Была произведена случайная вы- борка = 50 жителей нового района и л2= 100 жителей других рай- онов города. Их опросили, поддерживают они или нет такой план рас- пределения денежных средств. Чему равна вероят- ность того, что разность значений выборочных долей жителей, поддерживающих такое решение, не превышает 10%. По условию А=0,75 ир2=0,6. Решение. Вычислим (р,—р2)=0,75—0,60=0,15 и _ _ /0,75 0^5 0,6 0,4 V «1 v“^o~+_ior-0’0784 Интервал (Pf-pi) ± 2 ct(W)-h>2) = 0,15±2 (0,0784) =О15±О,1568, т.е. - 0,068 < (Рх-Рг) <0,3068. Этот интервал находится внутри промежутка от —1 до 1. Значит вы- борочное распределение (wj— >v2) может быть аппроксимировано нор- мальным распределением с заданными значениями средней арифмети- ческой и средним квадратическим отклонением. Найдем вероятность Л-0,1<м'1-в'2<0,1), которой соответствует заштрихованная площадь криволинейной трапе- ции на рис. 11.7. Для нормального распределения этой вероятности соответствует A?i Z < Z2), где (-0,1)-0,15 Zl 0,0784 ’ ’ Z2 = 0,1-0,15 0,0784 = -0,64. 264
Рис. 11.8. Выборочное распределе- ние для примера 11.20 Рис. 11.9. Плотность нормального стандартного распределения для примера 11.20 По табл. 2. Приложения вычисляем Д—3,19 <z< —0.64). Отсюда искомая вероятность равна разности ФО(3,19) - Фо(О,64)= 1 =0,49929-0,23891=0,26038 (см. рис. 11.9). 11.9. Задачи к главам 9,10 и 11 > Свойства оценок Задача 1. Предположим, что вам известны две статистики А и В как возможные оценки одного и того же генерального парамет- ра. Оценка А — несмещенная, но имеет большую вариацию. Оценка В имеет малое смещение, но ее вариация составляет лишь одну десятую часть вариации оценки А. Какая оценка лучше? Объясните. Задача 2. Предположим, что вы имеете оценку с очень большим сдвигом. Однако эта оценка — состоятельная и эффективная. Если вы имеете достаточный бюджет для проведения выборки, то буде- те ли вы использовать эту оценку? Объясните. Ответ. Достаточный бюджет означает, что вы можете про- вести выборку большого объема; состоятельность оценки хо- роша, когда ее вероятность приближается к параметру с уве- личением размера выборки. Задача 3. Предположим, что при выборочном обследовании оценива- ется генеральная дисперсия, при этом была использована смещенная оценка (с п вместо я—1 в знаменателе формулы). Объем выборки п = 100. Полученная оценка равна 1,287. Можете ли вы найти значение несмещенной оценки генеральной дисперсии? Ответ: 1,3. 265
Задача 4. В чем состоит достоинство достаточной статиста- Я ки? Можете ли вы придумать возможные недостатки свойст- | ва достаточности? I Задача 5. Предположим вы имеете две смещенные оценки одного и 1 того же параметра. Оценка А имеет смещение, равное 1/п I (средняя из оценки есть l/п единиц от оцениваемого пара- I метра), где п — объем выборки. Оценка В имеет сдвиг, рав- 1 ный 0,01 (средняя из оценки есть 0,01 единиц от интере- J сующего нас параметра). При каких условиях | оценка А лучше, чем й? 1 Ответ: А лучше В при п >100. ,1 Задача 6. Почему состоятельность — важное свойство? I Задача 7. Проведены три случайные выборки объема: 30, 48 и 32 соот- | ветственно, для которых вычислены средние значения. | Чему равно общее число степеней свободы для дис- | персий этих выборок? 1 Задача 8. Вернувшись после предпраздничного похода по магазинам, | вы решили проверить суммы, истраченные на покупки. Од- | нако из 19 приобретенных предметов вы сохранили чеки i только на 17. Используя эту информацию и сравнивая ее с I первоначальной суммой денег, находившейся в вашем ко- 1 шельке, можете ли вы определить стоимость каж- 1 дой из покупок, чеки на которые утеряны? | Предположим Вы помните сумму 18 из 19 совершенных по- j купок. Можете ли вы определить сумму утерянного \ чека? 1 > Дополнительные проблемы Задача 9. Предположим, что выборка проведена из генеральной сово- купности со средней X = 1,065 и средним квадратическим отклонение о = 500. Объем выборки п = 100. Чему равно ожидаемое значение и среднее квадратическое от- клонение выборочной средней X ? Ответ: 1,065; 2,500. Задача 10. Предположим, что выборка произведена из генеральной со- вокупности со средней X = 53 и средним квадратическим отклонение ст — 10. Объем выборки п = 400. Чему равно ожидаемое значение и среднее квадратическое от- клонение выборочной средней? Ответ: 53 и 0,5. Задача 11. Выборка проведена для оценки генеральной доли. Чему равно ожидаемое значение и среднее квадратическое от- клонение выборочной доли w, если генеральная доля р = 0,2 и объем выборки п = 90? Ответ: 0,2 и 0,042. 266
Задача 12. О б ъ я с н и т е , для чего необходима собственно-случайная выборка? Каковы свойства собственно-случайной выборки? Задача 13. Согласно статистическим данным средняя семья расходует на развлечения 19,50 условных денежных единиц в неделю со средним квадратическим отклонением 5,53. Чему равна вероятность того, что в случайной выбор- ке объема п = 100 мы получим выборочную среднюю больше чем 20,00 условных денежных единиц? Ответ: 0,1727. Задача 14. Средний душевой доход населения страны составляет 3324 условных денежных единицы. Если произведена слу- чайная выборка 1000 жителей, то чему равна ве- роятность того, что выборочная средняя отклонится от генеральной средней более чем на 0,062 средних квадра- тических отклонения? Ответ.0,0499. Задача 15. Тридцать восемь процентов студентов академии сдали экза- мен по статистике на отличные и хорошие отметки. Чему равна вероятность того, что в случайной выбор- ке из 100 студентов по крайней мере 30 окажутся с хороши- ми и отличными оценками по статистике? Ответ:0,9503. Задача 16. Если выборка извлечена из нормальной совокупности с из- вестной дисперсией, то каков должен быть наименьший объем выборки для применения выборочного распределения средних? Ответ: минимума нет (п = 1 будет достаточно). Задача 17. Является ли медиана смещенной оценкой? Почему обычно предпочитают выборочную среднюю выборочной медиане как оценке генеральной средней? Если мы исполь- зуем выборочную медиану, какое предположение мы должны сделать о генеральной совокупности? Сравните эти две оценки. >- Доверительный интервал для средней Задача 18. Что такое доверительный интервал и в чем его пре- имущества? Что такое уровень доверия? Задача 19. Объясните, почему классическая статистика не видит смысла в описании доверительного интервала в терминах вероятности? Задача 20. Объясните, как послевыборочный доверительный уро- вень получается из довыборочной вероятности? Задача 21. Телефонная компания желает оценить среднее время меж- дугородных переговоров в течение выходных, когда действу- ет льготный тариф. Случайная выборка из 50 звонков дала среднюю х— 14,5 мин со средним квадратическим отклоне- 267
нием 5 = 5,6 мин. Постройте 95%- и 90%-ные довери- тельные интервалы для средней продолжительности перего- воров в выходные дни. Задача. 22. Страховая компания оценивает среднюю сумму исков, предъявленных больными за врачебные ошибки. Компания осуществила случайную выборку 165 исков и нашла х = = 16,530 и 5 = 5,542. Постройте 95%- и 99%-ный дове- рительные интервалы для средней суммы исков. Ответ: (15,68437; 17,375,63), (15,4186;17,6414\). Задача 23. Производитель пальчиковых батареек желает оценить сред- нюю продолжительность их работы. Случайная выборка 12 батареек дала х = 34,2 часа и s = 5,9 часа. Найдите 95%-ный доверительный интервал средней продолжительно- сти жизни батареек. Задача 24. Бюро найма желает оценить средние ставки рабочих вакансий в определенной отрасли промышленности. Случайная выборка 60 вакансий дала х = 42,539 рублей и s = 11,690 рублей. По- стройте 90%-ный доверительный интервал для средних ставок по вакансиям в данной отрасли промышленности. Задача 25. Крупный банк заинтересован в автоматизации кассовых операций в филиале, открывающемся в новом регионе. Для принятия обоснованного решения проводится эксперимент по определению среднего числа трансакций в условных де- нежных единицах на человека в день. Случайная выборка 10 экспериментальных трансакций, которые прошли через новые кассовые автоматы, дала следующие результаты: 53, 40, 39, 10, 12, 60, 72, 65, 50, 45. Постройте 95%-ный доверительный интервал для средней суммы трансакций. Ответ: (29,87; 59,33). Задача 26. Автотранспортная компания желает оценить среднее время транзита грузов из столицы в северные регионы страны. Случайная выборка 20 партий товаров дала: х = 2,6 дней, 5 = 0,4 дня. Постройте 99%-ный доверительный ин- тервал для среднего времени транзита товаров. Ответ: (2,34; 2,86). Задача 27. Оптовая фирма, торгующая моющими средствами, желает оценить объем ежедневной продажи упаковок мыла опреде- ленного сорта. Случайная выборка за 13 дней дала следую- щие результаты: 123, ПО, 95, 120, 87, 89, 100, 105, 98, 88, 75, 125, 101. Постройте 90%-ный доверительный интер- вал числа ежедневной реализации упаковок мыла. Ответ: (93,75; 108,71). Задача 28. Бухгалтер желает оценить среднюю сумму счетов сервисной компании. Случайная выборка 46 счетов дала: х = 16,50 ус- 268
ловных денежных единиц, s = 52,00. Постройте 99%- ный доверительный интервал для средней суммы счетов. Ответ: (15,86; 17,14). Задача 29. Частная картинная галерея, участвующая в художественных аукционах, желает оценить среднюю стоимость картин опре- деленного периода и стиля. Экспертами-искусствоведами была проведена оценка 20 картин, отобранных случайным образом. Выборка дала следующие результаты: средняя оце- ночная стоимость одной картины х = 5139 условных денеж- ных единиц, 5 = 640. Постройте 95%-ный довери- тельный интервал средней стоимости одной картины. Задача 30. Консультационной фирме необходимо оценить средний стаж работы менеджеров в определенной отрасли. С этой целью была осуществлена случайная выборка 28 менеджеров, кото- рая дала следующие результаты: х - 6,7 лет, s = 2,4 года. Постройте 99%-ный доверительный интервал для среднего стажа работы менеджеров определенной отрасли. Ответ: (5,44; 7,96). Задача 31. Менеджеру универсама необходима информация о средне- дневной потребности в кефире. Случайная выборка дала следующие результаты продаж (число проданных литровых тетрапаков в день): 48, 59, 45, 62, 50, 68, 57, 80, 65, 58, 79, 69. Предположив, что это случайная выборка дневной по- требности, постройте 90%-ный доверительный ин- тервал для среднего числа пакетов с кефиром, которое надо завозить ежедневно в универсам. > Интервал для доли Задача 32. Туристическая фирма, осваивающая новый вид экскурсион- ного обслуживания, провела опрос 120 случайно отобранных потенциальных клиентов для выяснения того, интересен ли им новый вид услуг или нет. Результаты показали, что 28% опрошенных предпочли бы новый вид экскурсионного об- служивания старому. Постройте 95%-ный довери- тельный интервал для доли клиентов туристической компа- нии, которые станут потребителями нового вида услуг. Ответ: (0,158; 0,309). Задача 33. Создатели нового косметического крема от морщин хотели бы определить процент людей определенной возрастной группы, которым поможет этот крем. Для проверки крем был роздан 68 случайно выбранным людям определенной возрастной группы. Результаты проверки показали положи- тельную реакцию на крем у 42 из них. Постройте 99%-ный доверительный интервал процента людей, которые могут быть удовлетворены действием нового крема от мор- щин. 269
Задача 34. Авиакомпания, открывшая новый авиамаршрут, желает оце- нить долю пассажиров, путешествующих по служебным де- лам по этому маршруту. Случайная выборка 347 пассажиров этого направления определила, что 121 из них — бизнесме- ны. Постройте 99%-ный доверительный интервал до- ли пассажиров, путешествующих по делам службы. Ответ: (0,536; 0,623). Задача 35. Филиал Сбербанка имеет 1253 лицевых счета. Проведенная случайная выборка 200 из них дала среднее значение 648,32 условных денежных единицы. Выборочное среднее квадратическое отклонение равно 210,00 условных денежных единиц. Постройте 99%-ный доверительный интер- вал средней суммы денег на счетах данного филиала. >- Конечная генеральная совокупность Задача 36. Социологическая организация проводит опрос работников предприятия с целью выяснения отношения к структурной реорганизации, проведенной руководством предприятия. На предприятии 1242 работника. Для интервью случайным об- разом было отобрано 160 человек, среди которых 85 отмети- ли, что в общем удовлетворены проведенными преобразова- ниями. Постройте 95%-ный доверительный интервал доли работников, которые положительно оценивают реорга- низацию предприятия. Ответ: (0,459; 0,603). Задача 37. Отдел реализации местной кондитерской фабрики желает определить долю коробок конфет определенного сорта, про- даваемую в специальных отделах продовольственных мага- зинов города. В городе 538 таких отделов. Для оценки случайным образом выбраны 100 из них. Проверка показала, что в среднем за месяц продается 1220 коробок этих конфет со средним квад- ратическим отклонением числа продаж — 550 коробок. Постройте 90%-ный доверительный интервал числа продаваемых коробок конфет. Задача 38. В универсаме еженедельно продается в среднем 1520 кар- тонных упаковок куриных яиц. Для оценки возможной ком- пенсации за поврежденные яйца в поступающих партиях яиц проводится регулярная еженедельная случайная выборка 100 картонок. Если в поступившей партии найдено 12 кар- тонок с поврежденными яйцами, то оцените с вероят- ностью 0,95 долю картонок с повреждениями в партии, со- держащей 1520 упаковок. Ответ: (0,058;0,182). 270
> Выборка и выборочное распределение выборочных средних Задача 39. Хлебный магазин продает 478 лотков батонов ежедневно. Про- дажи (Л) подчиняются нормальному распределению со средним квадратическим отклонением 5=17. • Если проведена случайная выборка объемом п - 1 (неделя), то чему равна вероятность того, что значение X превысит 495? • Если случайная выборка была объемом п = 4 (недели), то чему равна вероятность того, что значе- ние X превысит 495? • Почему ваши ответы различаются? Ответ: 0,1587; 0,0228. Среднее квадратическое отклонение во втором случае меньше, а следовательно, и меньше шансов, что выборочная средняя превысит 495. Задача 40. В среднем оптовый продавец книг реализует 1000 томов в день. Если ежедневные продажи нормально распределены со средним квадратическим отклонением 100, то чему равна вероятность того, что средняя за пять дней будет между 900 и 1100 томами? Ответ: 0,975. Задача 41. Для демонстрации центральной предельной теоремы извле- ките 100 выборок по 5 чисел из таблицы случайных чисел и вычислите выборочную среднюю для каждой из 100 выборок. Постройте частотное распределение выборочных средних. Проведите такую же работу для 100 выборок по 10 чисел и сравните два частотных распределения. Как вы считаете, работает ли центральная предельная теорема? Задача 42. Рыболовная флотилия вылавливает в сезон ежедневно в среднем 130 тонн сельди. Записи в бортовом журнале указы- вают, что уловы различаются день ото дня, и эти различия, измеренные средним квадратическим отклонением, состав- ляют 42 тонны в день. Чему равна вероят- ность того, что в течение 36 дней рыболовного сезона масса выловленной сельди составит 4300 тонн или больше? Ответ: 0.9236. Задача 43. Предположим, что среднее время пребывания в очереди к кассиру универсама составляет 12 мин со средним квадрати- ческим отклонением 3 мин. Если вы отобрали случайным образом 5 покупателей, то чему равна вероятность того, что их время пребывания в очереди составит по край- ней мере 10 мин? Чему равна средняя выборочная времени ожидания в очереди? Чему равно среднее квадратическое от- клонение выборочной средней? Ответ: 0,9319. 271
Задача 44. Из 500 выпускников средних школ города 72% собираются поступать в институт. Чему равна вероят- ность того, что среди случайно отобранных выпускников доля желающих поступить в вуз окажется выше 80%. Задача 45. Предположим, что 50% студентов сдают экзамен по стати- стике на отлично. Чему равна вероятность того, что в выборке из 100 студентов окажется более 50% от- личников? Ответ: 50%. Задача 46. Средний процент жителей, участвующих в выборах на мест- ном уровне в некотором регионе, составляет 40%. Чему равна вероятность того, что в случайной выбор- ке 400 жителей окажется 35% желающих проголосовать на ближайших выборах? Ответ: 0,9793. Задача 47. Менеджер магазина по опыту знает, что 25% входящих в магазин покупателей совершают покупки. Предположим в магазин вошло 200 покупателей. • Чему равна доля покупателей, совершивших по- купки? • Чему равна дисперсия выборочной доли? • Чему равно среднее квадратическое отклонение выборочной доли? • Чему равна вероятность того, что выборочная до- ля будет между 0,25 и 0,30? Ответ: 25%; 0,0009375; 0,031; 0,4463. Задача 48. Возраст работников отдела 23, 19, 25, 32 и 27 лет. Если про- водить случайную безвозвратную выборку по два человека, то каким будет выборочное распределение их сред- него возраста? Чему равно среднее и дисперсия этого распределения? Ответ: средняя 25,2; дисперсия 6,96. Задача 49. Предположим стоимость выборки — 50 копеек за наблюде- ние. Если генеральная совокупность имеет нулевую диспер- сию, то каким должен быть объем выборки для оценки среднего значения генеральной совокупности? Ответ: один. Задача 50. Предположим, что генеральная совокупность имеет нор- мальное распределение. Чему равна вероят- ность того, что выборочная средняя будет меньше гене- ральной средней? Ответ: 0,5. Задача 51. Предположим, что выборочное распределение выборочных средних, осуществленное из выборки объема 40, имеет вы- борочную среднюю 20 и среднее квадратическое отклонение 272
10. Предположим, что генеральная совокупность распреде- лена нормально. Найдите среднее и среднее квадрати- ческое отклонение генеральной совокупности. Ответ: с =63,23; средняя = 20. >• Свойства оценок, точечные оценки и все типы интерваль- ного оценивания Задача 52. Имеются следующие результаты выборок, извлеченных из нормально распределенной генеральной совокупности: • п = 9; Ь¥;= 36; ВД- X )2 = 288; . п =16; = 64; ВД- - X )2 = 180; • п = 25; IX, ~ 500; 2Л2 = 11400. Что является лучшей оценкой средней арифметической, дисперсии, среднего квадратического от- клонения и среднего квадратического отклонения выбороч- ных средних? Ответ: • х = 4,5Х = 36,5Х = 6;5Х = sx / 4п =6/3 = 2 ; • х -4;sx = 12,5Х = jV2;sx = sx / Jn = y/3/2 ; • x = 20; 5X = 100;sx = #00 -10; 5X = sx /-fn = 2 . Задача 53. Брокер проводит случайную выборку четырех акций из большой генеральной совокупности акций с низким номи- налом. Цены акции в генеральной совокупности подчиняют- ся нормальному распределению. Цены акций в выборке со- ставили: $5, $12, $17 и $10. • Вычислите точечную оценку генеральной средней. • Вычислите точечную оценку генеральной диспер- сии. Какова ваша оценка генерального среднего квадра- тического отклонения. • Вычислите точечную оценку доли акций в этой генеральной совокупности, цена которых $10 и выше. Задача 54. По результатам городского социологического опроса, выбор- ка для которого была составлена по избирательным спискам, выяснено, что скорее всего 48% избирателей собираются го- лосовать против нынешнего мэра города. Предположим, что объем выборки составлял 789 вероятных избирателей. По- стройте 99%-ный доверительный интервал для возмож- ных избирателей, которые скорее всего проголосуют против нынешнего мэра. Задача 55. Проводится выборка семей, имеющих низкий доход, для определения стоимости расходов на питание. Известно, что среднее квадратическое отклонение расходов на питание со- ставляет 25,75 рублей. Экономисты, занимающиеся оценкой 273
стоимости питания, желают построить 95%-ный доверитель- 1 ный интервал, в котором находятся границы расходов на пи- I гание, и хотели бы, чтобы предельная ошибка оценки нс Я превосходила 3,95 рубля. Найдите подходящий объем 1 выборки для решения этой задачи. Ответ: N — 164. Я Задача 56. Опрос 300 случайно отобранных жителей города показал, что 1 55% из них довольны деятельностью вновь избранного мэра J Постройте 95%-ный доверительный интервал доли | жителей города, которые также доверяют мэру. Я Ответ: (0,494; 0,606). 1 Задача 57. Аудитор случайно отбирает 50 оплаченных счетов и находит, 1 что их выборочная средняя составила 1100 денежных единиц 1 со средним квадратическим отклонением 287 денежных еда- I ниц. Постройте 90%-ный доверительный интервал 1 для среднего значения суммы оплаченных счетов. 1 Ответ: (1033,4; 1166,6). I Задача 58. Случайная выборка 225 людей, обратившихся в брачное I агентство, показала, что 100 из них нашли себе пару с их I помощью. Постройте 95%-ный доверительный ин- I тервал доли людей, нашедших себе супруга через брачное 1 агентство. я Ответ: (0,38; 0,50). 1 Задача 59. Владелец хлебного магазина заметил, что у него ежедневно 1 остается некоторое количество непроданных батонов, и он I решил оценить реальную потребность в этом сорте хлеба. В | течение месяца он записывал данные о числе проданных ба- 1 тонов и через 30 дней установил, что в среднем за день про- 1 дается 120 батонов со средним квадратическим отклонением | в 10 батонов. Предположим, что ежедневные продажи бато- 1 нов подчиняются нормальному распределению. По- | стройте 90%-ный доверительный интервал для требуе- I мого количества батонов. 1 Ответ: (117; 123). I Задача 60. Предположим, что владелец магазина проводил наблюдения I 60 дней и нашел, что выборочное среднее число продавав- 1 мых батонов равно 115 со средним квадратическим отклоне- | нием 12. Постройте 90%-ый доверительный интервал 1 для требуемого числа батонов. Сравните полученные резуль- 1 тэты с результатами предыдущей задачи. Можете ли вы объ- | яснить, почему полученный интервал меньше», преды- | дущего? I Задача 61. Социологический опрос показал, что 53% избирателей соби- 1 раются поддержать на выборах в городскую думу кандидата | А. Для опроса было выбрано по спискам избирателей 1 274
1000 человек. Оцените на 95%-ном доверительном уровне долю избирателей, которые отдадут свои голоса за кандидата А. Ответ: (0,499; 561). Задача 62. Организация защиты прав потребителей оценивает средний расход бензина марки АИ-93 в новой модели автомобиля. Вследствие ограниченности времени и средств было прове- рено 25 автомобилей. Среднее квадратическое отклонение расхода моющего средства составило 2 литра на 100 км трас- сы. Каковы границы 90%-го доверительного интервала? Задача 63. Менеджер молодежного бара желает оценить средний расход на баночное пиво. Из предыдущего опыта он оценивает среднее квадратическое отклонение расходов на пиво для покупателя в 4 рубля. Если менеджер хотел бы быть уверен- ным в результате на 90% с предельной ошибкой ±5%, то сколько посетителей бара необходимо отобрать в слу- чайном порядке для получения такой оценки? Задача 64. Ректорат академии хотел бы знать мнение студентов о новом учебном корпусе. Из 500 студентов, которым были заданы вопросы, 350 ответили, что им нравятся новые учебные по- мещения. Оцените долю студентов, которым нравится новое учебное здание. Постройте 90%-ный доверительный интервал. Ответ: (0,67; 0,73). > Точечная оценка и доверительный интервал Задача 65. Аналитик рынка утверждает, что на 95% уверен в том, что истинное среднее значение суммы ежемесячных продаж продукции определенного типа находится между 170 000 и 200 000. Объясните, что аналитик имеет в виду? Почему аналитик не может утверждать, что он уверен в ре- зультате на 100%? Задача 66. Предположим, что в магазин, торгующий эмалевыми крас- ками для внутренних покрытий, начали поступать претензии от покупателей о том, что банки заполнены ниже нормы. Производитель красок утверждает, что среднее квадратиче- ское отклонение объема краски в литровой банке составляет 0,02 литра. Случайная выборка 50 банок дала среднее значе- ние объема 0,995 литра. • Постройте 99%-ный доверительный интервал для среднего значения объема краски в литровой банке. • Основываясь на выборочных результатах, объясни- т е , должен ли владелец магазина поддть рекламацию производителям краски? Почему? • Является ли генеральное распределение количества крас- ки в банках нормальным? Объясните. 275
• Объясните, почему наблюдаемое значение 0,98 литра краски в банке не является необычным, даже если находится вне вычисленного вами доверительного интер- вала. Ответ: • (0,9877; 1,0023). • Поскольку доверительный интервал включает специфи- цированное значение 1,0 литр, то владелец магазина не имеет причин утверждать, что объем краски в банке меньше 1, 0 литра. • Поскольку ах известно и п - 50, то согласно центральной предельной теореме можно утверждать, что X распреде- лено приблизительно нормально. Задача 67. Внешняя инспекционная проверка оценивает точность на- полнения двух литровых бутылок с газированным безалко- гольным напитком. Контрольная лаборатория завода проин- формировала инспекторов, что среднее квадратическое от- клонение наполнения двухлитровых бутылок составляет 0,05 литра. Случайная выборка 100 двухлитровых бутылок дала выборочную среднюю 1,99 литров. • Постройте 95%-ный доверительный интервал для оценки генерального среднего значения объема заполне- ния двухлитровых бутылок с безалкогольным напитком. • Является ли генеральное распределение объма заполне- ния бутылок нормальным? Объясните. • Объясните, почему наблюдаемое значение 2,02 литра для двухлитровой бутылки не будет необычным, несмотря на то, что находится вне доверительного интер- вала, вычисленного вами? > Малая выборка Задача 68. Новая расфасовка сухих завтраков предлагается для провер- ки покупательского спроса в 16 магазинах города. Результа- ты месячного эксперимента дали следующий объем продаж в 1200 рублей со средним квадратическим отклонением в 180 рублей. Постройте 99%-ный доверительный интервал среднего объема продаж нового сорта сухих завтраков. Ответ: (1067,40; 1332,60). Задача 69. Постройте 95%-ный доверительный интервал для двух групп данных: Группа Г. 1, 1, 1, 1, 8, 8, 8, 8. Группа 2 1, 2, 3, 4, 5, 6, 7, 8. Объясните, почему доверительные интервалы различ- ны, несмотря на то, что выборочные средние значения сов- падают? 276
> Интервал для доли Задача 70. Менеджер банка в небольшом городе хотел бы определить долю депозитов, с которых ежемесячно перечисляются пла- тежи по счетам. Случайная выборка 100 счетов указала, что с 30 из них производятся ежемесячные выплаты. По- стройте 90%-ный доверительный интервал для оценки генеральной пропорции банковских депозитов, с которых производятся выплаты. Задача 71. Компания, занимающаяся пассажирскими автобусными пе- ревозками, предполагает открыть новый автобусный мар- шрут из пригорода в ценральную часть города. Среди 50 пассажиров, выбранных в случайном порядке, 18 заявили, что будут регулярно пользоваться новым автобусным мар- шрутом. • Пос т р о й т е 90%-ный доверительный интервал для генеральной доли пассажиров, которые будут использо- вать новый автобусный маршрут. • Как может менеджер автотранспортной компании ис- пользовать полученные в предыдущем вопросе результаты для рекомендаций по открытию маршрута? Задача 72. Аудитор, проверяющий страховую медицинскую компанию, хотел бы определить долю рецептов, оплаченных страховой компанией в течение последних двух месяцев. В случайной выборке из 200 рецептов оказались 80 рецептов, оплаченных в течение ближайших двух месяцев. • Постройте 99%-ный доверительный интервал для оценки числа рецептов в генеральной совокупности, ко- торые были оплачены в ближайшие 2 месяца. • Как могут быть результаты, полученные в предыдущем вопросе, использованы в отчете о деятельности страховой компании? Задача 73. Менеджер по рекламе сети предприятий быстрого питания хотел бы выяснить, знакомы ли с коммерческой рекламой предприятий, которая регулярно передается по радио и теле- видению города, школьники старших классов. В случайной выборке 400 школьников старших классов 160 ответили, что знакомы с рекламой быстрого питания. Постройте 95%-ный доверительный интервал для оценки доли школь- ников, знакомых с рекламой предприятий быстрого пита- ния. Задача 74. Ректорат академии хотел бы выяснить долю студентов днев- ного отделения, которые имеют доступ к работе с персо- нальным компьютером вне стен академии (например, дома). Случайная выборка 150 студентов выявила, что 105 из них имеют такой доступ. Постройте 90%-ный доверитель- 277
ный интервал для проверки доли студентов дневного отделе- ния, имеющих доступ к персональному компьютеру вне учебного процесса в стенах академии. Задача 75. Рекламное агентство, обслуживающее местную радиостан- цию, хотело бы оценить среднее время, которое радиослуша- тели проводят, слушая передачи станции. Какой о б ъ - е м выборки необходим, если агентство желает быть увере- но в результатах на 90% с предельной ошибкой ±5 мин. Из прошлого опыта известно, что среднее квадратическое от- Задача клонение времени прослушивания радиопередач составляет 45 минут. 76. Политолог хотел бы оценить долю избирателей, которая проголосует за кандидатов левых сил на ближайших прези- дентских выборах. Он хотел бы оценить эту долю с 90% уровнем доверия и предельной ошибкой выборки ±0,04 от Задача генеральной доли. Какой объем выборки необходим ему для опроса избирателей? Ответ: (0,2284; 0,3716), п = 214. 77. Кабельный телевизионный канал хотел бы иметь оценку доли зрителей, желающих приобретать еженедельную про- грамму передач канала. Владельцы канала хотели бы иметь оценку с 95%-ный уверенностью и предельной ошибкой оценки выборки ±0,05 от генеральной доли. Из опыта других регионов известно, что 30% зрителей будут грамму. Какой размер выборки необходим покупать компании для проведения опроса потенциальных потребителей еженедель- ной программы передач? Список литературы 1. 2. 3. 4. 5. 6. Большее Л.И., Смирнов Н.В. Таблицы математической статистики. — М.: Наука, 1983. Вентцель Е.С. Теория вероятностей. — М.: Наука, 1964. Ван-дер-Варден Б.Л. Математическая статистика. — М.: Изд. иностр, лит., 1960. Вайнберг Дж., Шумекер Дж. Статистика. — М.: Стати- стика, 1979. Венецкий И.Г., Кильдишее Г. С. Теория вероятностей и ма- тематическая статистика. — М.: Статистика, 1975. Венецкий И.Г., Венецкий В.И. Основные математико- статистические понятия и формулы в экономическом анализе. — М.: Статистика, 1974. 278
7. Гурский Е.И. Теория вероятностей с элементами матема- тической статистики. — М.: Высш, школа, 1971. 8. Гешгорн А. С. Элементы теории вероятностей и математи- ческой статистики. — Львов, 1964. 9. Гмурман В.Е. Теория вероятностей и математическая ста- тистика. М.: Высш, школа, 1975, 1979, 1989. 10. Гнеденко Б.В. Курс теории вероятностей. — М.: ГИТТЛ, 1954. 11. Герасимович А.И. Математическая статистика. — М.: Высш, школа, 1983. 12. Дружинин Е.И. Математическая статистика в экономике. — М., 1971. 13. Емельянов Г.В., Скитович В.П. Задачник по теории, веро- ятностей и математической статистике. — Л.: Изд-во ЛГУ, 1967. 14. Ефимова М.Р., Петрова Е.В., Румянцев В.П. Общая тео- рия статистики. — М., 1996. 15. Елисеева И.И., Юзбашев М.М. Общая теория статистики. 4-е изд. — М.: Финансы и статистика, 1999. 16. Закс Л. Статистическое оценивание. — М.: Статистика, 1976. 17. Ивашев-Мусатов О. С. Теория вероятностей и математи- ческая статистика. — М.: Высш, школа, 1981. 18. Карасев А.И., Аксютина З.М., Савельева Т.И. Курс выс- шей математики для экономических вузов. Ч. II. Теория вероятностей и математическая статистика. — М.: Высш, школа, 1982. 19. Колемаев В.А., Калинина В.Н. Теория вероятностей и ма- тематическая статистика. — М., 1997. 20. Крамер Г. Математические методы статистики. — М.: Мир, 1975. 21. Колде Я. К. Практикум цо теории вероятностей и матема- тической статистике. — М.: Высш, школа, 1991. 22. Колемаев В.А., Староверов О.В., Турундаевский В.Б. Тео- рия вероятностей и математическая статистика. — М.: Высш, школа, 1991. 23. Карасев А.И. Теория вероятностей и математическая ста- ' тистика. — М.: Статистика, 1979. 24. Мостеллер Ф., Рукс Р., Томас Дж. Вероятность. — М.: Мир, 1969. 279
25. Маринеску И, Мойнягу Ч., Никулеску Р. и др. Основы ма- тематической статистики и ее применение. — М.: Стати- стика, 1970. 26. Павловский 3. Введение в математическую статистику. — М.: Статистика, 1967. 27. Смирнов Н.В., Дунин-Барковский И.В. Курс теории веро- ятностей и математической статистики. — М.: Наука, 1969. 28. Чистяков В.П. Курс теории вероятностей. — М.: Наука, 1982. 29. Aczel A. Complete Business Statistics. — 2nd ed., Richard D. Irwin, INC, 1993. 30. Canavos G. Applied Probability and Statistical Methods. — Little, Braun. Compary, USA, 1984. 31. Mendenhall W., Wackerly D., Scheaffer R. Mathematical sta- tistics with Applications. — RWS-KENT Publishing Com- pary, USA, 1990. 32. Cheng F. Lee Statistical for Business and Financial Econom- ics. — D.C. Health and Company, 1993. /
2 Статистический вывод: испытание гипотез 12.1. Процедура испытания гипотез Выборочная информация может быть использована для оценки правомерности некоторых предложений (гипотез) о ге- неральной совокупности, которые формулируются до начала сбора выбранных данных. Гипотеза должна формулироваться так, чтобы можно было ис- пользовать известное вероятностное распределение. Такая исходная гипотеза называется нулевой и обозначается Hq. Нулевая гипотеза всегда формулируется для утверждения того, что выборочная стати- стика согласуется с принятым параметром генеральной совокупно- сти. При проверке согласования данных выборки (иначе — доказа- тельств) с гипотезой возможны три результата: • доказательство согласуется с нулевой гипотезой, • доказательство не согласуется с нулевой гипотезой, • доказательство является неубедительным. >- При первом результате нулевая гипотеза будет принята как наиболее верная; в этом случае различие между значением вы- борочной статистики и параметром генеральной совокупности объясняется лишь случайной вариацией, свойственной выбо- рочному исследованию. > При втором результате нулевая гипотеза должна быть от- клонена. Кроме нулевой гипотезы формулируется альтернатив- ная гипотеза, которая чаще всего обозначается Н\. Если Hq: х = а, то Н\ может быть сформулирована как Яр х>а. В третьем случае обычно рекомендуется увеличить объем выборки. В третьем случае рекомендуется увеличить объем выборки. Пример 12.1. Проверяется автомат, наматывающий нитки на катушку. Среднее число витков на катушке должно быть равно 500. Выборка из партии катушек показала, что среднее число витков равно 502,5. Возникает вопрос: правильно ли все еще настроена машина? 281
Решение. | Нулевая гипотеза состоит в том, что машина настроена все еще 1 правильно, т.е. данные выборки согласуются с генеральным парамет- I ром, равным 500 ед. Альтернативной гипотезой может быть предполо- 1 жение, что среднее значение генеральной совокупности не равно 500 | виткам, или другая альтернативная гипотеза — то, что генеральная 1 средняя больше, чем 500 витков. 1 Альтернативная гипотеза определяет точные условия испытания ну- ; левой гипотезы. Отмеченные две формулировки Ht можно записать следующим об- । разом: Случай 1. Hq. ц = 500; j Hf. р *500. j Случай 2. Но: ц = 500; j Яр ц > 500. < > При третьем результате никакое решение не может быть при- нято до тех пор, пока не будет получено больше данных, и испытание j гипотезы не будет проведено вновь. < Заметим, что разграничение трех возможных результатов проводит- j ся лицом, принимающим решение на субъективной основе. Невозмож- ; но на 100% принять или опровергнуть нулевую гипотезу. Возможно лишь либо признать, что нулевая гипотеза верна с высокой степенью вероятности, либо что правильность нулевой гипотезы маловероятна. 12.1.1. Правила испытания гипотез Можно испытывать гипотезу на основе любой статистики, имеющей любое вероятностное распределение. Можно указать основные случаи: выборочная статистика — средняя, 1 доля и дисперсия—подчиняются либо нормальному распределе- нию, либо распределению Стьюдента, либо /"-распределению, либо х2 -распределению. > Проверка на основе нормального распределения используется для испытания среднего значения выборки, х, как оценки гене- ральной средней ц. Такой критерий применяется при любом размере выборочной совокупности, когда дисперсия генераль- ной совокупности а2 известна. При тестировании выборочной доли р можно использовать нормальное распределение, если ) размер выборки большой: пр >5 и и |р-р |>5, поскольку в этом случае нормальное распределение дает хорошее приближение к биномиальному распределению. > Распределение Стьюдента (t-критерий) используется для ис- пытания гипотезы о среднем значении при любом объеме выборки при неизвестной генеральной дисперсии. При больших выборках ^-распределение приближается к нормальному распределению. > F-критерий используется для сравнения генеральных дис- персий. Размер выборки может быть любым при условии, что выборка взята из нормальной генеральной совокупности. > Критерий х2 — непараметрический, т. е. значения выборочной статистики не требуются. Этот критерий основан на частоте появле- ния значений случайных переменных. Используется для испытания гипотезы о связи между переменными или о согласии наблюдаемого распределения с некоторым стандартным распределением. 12.1.2. Одно-и двусторонние тесты При испытании гипотезы следует принимать во внимание фор- мулировку альтернативной гипотезы. То, как задана альтернативная гипотеза, влияет на выбор границы между критической областью и областью доверительных значений. Вернемся к нашему примеру. Если лицо, принимающее решение, интересуется только тем, правиль- но ли машина настроена, то неважно, больше или меньше выборочная средняя, чем предполагаемая средняя генеральной совокупности. Следова- тельно, и нулевая и альтернативная гипотезы будут (соответственно): Hq. ц — 500; Я,: ц= 500. Если принимается решение с 5%-м уровнем значимости, то грани- цы расположены симметрично по выборочному распределению так, как это показано на рис. 12.1. Рис. 12.1. 5%-я двусторонняя проверка 282 Я 283
В этом случае (см. рис. 12.1) применяют двусторонний тест. Если ли- цо, принимающее решение, беспокоится, что средняя действительно стала больше, то нужно применить другую альтернативную гипотезу: 77О: ц = 500; Н{: р > 500. Если решение должно быть принято с 5%-м уровнем значимости, то выбирается единственная граница решения, как показано на рис. 12.2. Рис. 12.2. 5%-я односторонняя проверка Отличие проверки с одной границей от проверки с двумя границами со- стоит в изменении уровня значимости при принятии решения. 12.1.3. Ошибки первого и второго рода Вероятностный характер решений в отношении испытуемой гипотезы приводит к тому, что всегда принимают решение не со 100%-й уверенностью, а с определенной вероятностью ошибки. При испытании гипотезы возможны ошибки первого и второго рода (табл. 12.1). Таблица 12.1. Два типа ошибок, допускаемых при статистической проверке гипотез Принятое решение В действительности, Но Гипотеза верна Гипотеза неверна Отвергнуть Яо Ошибка первого рода, вероятность а Верное решение, ве- роятность (1-Р) Принять #0 Верное решение, вероят- ность (1 - а) Ошибки второго рода, вероятность Р 284
Все решения принимаются относительно испытуемой гипо- тезы Hq. Если в действительности гипотеза Hq верна, а принято решение отвергнуть Яо, то допущена ошибка, называемая ошиб- кой первого рода. С другой стороны, если в действительности верна гипотеза Н\, а принято решение принять Но, то допущена ошибка второго рода. Вероятность ошибки первого рода обозна- чена через а, а вероятность ошибки второго рода обозначена через р. Обозначим через хк критическое значение х. Выборочное распределение х при условии, что верна гипо- теза Но, и выборочное распределение х при условии, что верна гипотеза показаны на рис. 12.3. Область принятия Критическая область Рис. 12.3. Вероятности, связанные с проверкой гипотезы Яо против Яр ц - > О Нулевое и альтернативное распределения — выборочные распределения х при условиях Яои Я] соответственно. Задача состоит в том, чтобы минимизировать а и р и найти критиче- ское значение хк, достигающее этой цели. При перемещении хк вправо а убывает, но р растет (см. рис. 12.3). Обычное ре- шение этой дилеммы состоит в том, что фиксируют некоторое малое значение а и предполагают, что р будет также мало. Фиксированное значение а называется ровном значимости. Обычные значения а, используемые в конкретных задачах: <*= 0,10; 0,05; 0,01. При данном а качество критерия для проверки гипотезы измеряется вероятностью отвергнуть Яо, когда верна Н\. Эта вероятность называется мощностью крите- рия, обычно обозначается через л и выражается так: 285
л = 1-Р = ^{отвергнуть Яо|#1 верна } = ^{принять Я]|Я] }. Мощность является функцией выборочного альтернативного значения параметра щ. Хорошим критерием при фиксированном а является критерий, обладающий большей мощностью. Наи- лучший критерий обеспечивает минимум р среди всех крите- риев, обладающих уровнем значимости а. Иначе говоря, наи- лучший критерий — это критерий, обладающий максимальной мощностью л среди всех критериев с уровнем значимости а . Приняв тот или иной уровень а, задаем критическое значе- ние хк. Критической областью для Hq называется подмножество выборочного пространства, соответствующее отклонению гипо- тезы Hq. Дополнительная область, соответствующая принятию Hq называется областью принятия Hq. Критическая область есть х > хк, а область принятия Hq есть х<хк (см. рис. 12.3). Проверка статистических гипотез складывается из следую- щих шагов: • формулируется в виде статистической гипотезы задача ис- следования; • выбирается статистическая характеристика гипотезы; • анализируются возможные ошибочные решения и оцени- ваются их последствия; • формулируются испытуемая (Hq) и альтернативная (Н\) гипотезы; • задается уровень значимости а и определяется критическое значение статистической характеристики (критерия) хк (z или t, или X2 , или fj; • вычисляется фактическое значение статистической харак- теристики, сравнивается с критическим значением, при- нимается решение относительно испытуемой гипотезы: при х<хк Hq принимается; при х > хк Hq отклоняется. Статистики предпочитают осторожные формулировки. Так, правильнее заключать не «Hq принимается», a «Hq не отклоняет- ся» или «не может быть отклонена». Проверка гипотез проводится как в отношении параметров генеральной совокупности (средней величины, доли, дисперсии, 286
коэффициентов корреляции, регрессии), так и в отношении распределений (непараметрическая гипотеза). 12.2. Испытание гипотезы на основе выборочной средней: генеральная дисперсия известна Пример 12.2. Индийский чай расфасовывается в пачки массой ц = 100 г со стан- дартным отклонением 0,1 г. Случайная выборка л = 15 пачек готовой Продукции показала среднюю массу равной 100,2 г. Имеется ли основание для заключения, что фасовочная машина работает без нарушений в настройке? Решение. Можно предполагать, что распределение массы пачек со- ответствует нормальному распределению. Нулевая гипотеза состоит в том, что выборочная средняя согласуется с выборкой, взятой из нор- мальной генеральной совокупности со средней, равной 100 г, т.е. р = 100 г. Гипотеза Но : ц = 100 г. Логично предположить, что фасовоч- ная машина работала при неправильной настройке и, следовательно, альтернативной гипотезой является Н} ; ц # 100 г, т. е. выборка взята не из нормального распределения со средней, равной 100 г. Из гипотезы Яд следует, что выборочное распределение выбороч- ных средних является тоже нормальным распределением со средней, равной 100 г, и стандартной ошибкой, г, равной 0,1 • V15. Проверим нулевую гипотезу при 5%-м уровне значимости, исполь- зуя нормальное распределение с двумя границами (рис. 12.4). Рис. 12.4. Критические значения выборочного распределения для 5%-го уровня значимости 287
Используя таблицы стандартного нормального распределения, на- ходим, что Xi и Х2 равны 1,96 стандартных ошибок от генеральной средней, тогда рис. 12.4 может быть представлен следующим образом Рис. 12.5. Критические значения стандартного нормального распределения для 5%-го уровня значимости Выразим отклонение выборочной средней х = 100,2 г от генераль- ной средней ц = 100 г через количество стандартных ошибок: х-ц 100,2-100 0,2 7 =s *' __: — — ————— = / / <з/4п 0,1-V15 0,026 т е. наблюдаемое значение лежит на 7,7 стандартных ошибок выше средней ц. Значение стандартизованной переменной 7,7 больше, чем критическое значение, равное 1,96. Следовательно, Р(стандартное отклонение от генеральной средней > 7,7) < 0,025 и результат существенен на 5%-м уровне значимости. Значение z — 7,7 попадает в область отклонения Hq, т.е. выборочная средняя не согласу- ется с нулевой гипотезой. Отклоняем эту гипотезу в пользу альтерна- тивной и делаем вывод, что машина работала в условиях нарушения нор- мальной настройки. Рассмотрим случай односторонней проверки. Пример 12.3. Высота отдельных ростков рассады помидор распределена нормаль- но со средней ц = 43 см и дисперсией а2 = 9. В лунку, в которую было 288
высажено 15 растений, была внесена двойная норма удобрения. Сред- няя высота растений в лунке достигла 46 см. Можно ли предпо- ложить, что двойная доза удобрений не дала эффекта? Решение. Но : ц = 43 см; Н,: ц > 43 см (выборка взята из генеральной совокупности со средней, большей чем 43 см, т.е. ц > 43 см). Примем решение относительно нулевой гипотезы на 0,1 уровне значимости. По таблице стандартного нормального распределения на- ходим, что критическое значение равно z = 3,09 стандартных ошибок выше средней (рис. 12.6). Рис. 12.6. Граничное значение для 0,1%-го уровня значимости Рассчитаем проверочную статистику (тест или критерий) z з _И5. а / 4п Зу15 11,6 Рассчитанное значение г намного меньше критического z — 3,09. Это означает, что Р (стандартизованная переменная > 0,25) > 0,001. Результат не существенен при 0,1 %-м уровне значимости, он не существенен и при уровне значимости, равном 5% (zK = 1,96). Вывод: выборка взята из генеральной совокупности, для кото- рой средняя составляет 43 см, т.е. дополнительное внесение удобрений не дало положительного эффекта. 10 Теория статистики с основами теории вероятностей 289
12.3. Испытание гипотезы на основе выборочной средней: генеральная дисперсия неизвестна Если дисперсия генеральной совокупности а2 неизвестна, в этом случае можно произвести ее оценку, используя выборочное стандартное отклонение s. Тогда соответствующее стандартизо- ванное распределение становится /-распределением с и — 1 сте- пенями свободы. Пример 12.4. Фирма «Светлана» производит электрические лампочки. Для определенного типа лампочек установлен нормативный срок ис- пользования (ресурс) ц = 1500 ч. Для испытания новой партии была взята выборка п = 10 лампочек. Среднее время пользования лампочкой в выбор- ке х = 1410ч со стандартным отклонением s = 90 ч. Свидетельствуют ли эти данные о том, что ожидаемый срок использования изменился по срав- нению с нормативно установленным ресурсом, равным 1500 ч? Решение. Нулевой гипотезой является предположение о том, что выборка была взята из генеральной совокупности со средней 1500 ч. Но Выборочная средняя согласуется с выборкой, взятой из нор- мальной генеральной совокупности со средней 1500 ч, т.е. ц = 1500 ч. Ну. Выборка не была взяга из нормально распределенной совокуп- ности со средней 1500 ч, т.е. ц* 1500 ч. Из гипотезы И следует, что мы будем использовать испытание с двумя границами, из гипотезы Но — что выборочное распределение выборочных средних также является нор- мальным распределением со средней 1500 ч и стандартной ошибкой (o/VIoj ч. Поскольку о неизвестна, то для испытания гипотезы ис- пользуем стандартное /-распределение с числом степеней свободы, рав- ным (10 - 1), т.е. 9. Примем решение при 5%-м уровне значимости. Используя таблицы /-распределения (см. Приложение, табл. 3), нахо- дим, ЧТО t0,05/2,9 — ± 2,26. Граничные значения стандартного распределения показаны на рис. 12.7. Теперь проверочной статистикой является t: SE- с/4п Так как 290
свободы, равным 9 Рис. 12.7. Граничные значения t при 5%-м уровне значимости Следовательно, по данным примера получим 1410-1500 90/(10-1) ’ Проверочная статистика t = —3,0, т.е. меньше граничного значения, равного —2,26. Это означает, что Р (стандартизованная переменная < —3,0) < 0,025. Результат значим на 5%-м уровне. Поскольку результат является значимым, заключаем, что имеется основание считать, что выборка не согласуется с нулевой гипотезой. Отклоняем эту гипотезу. Вероятность появления выборочной средней, равной 14104 ч или менее, из-за слу- чайностей отбора при выборке размером 10 единиц, взятой из нор- мальной генеральной совокупности со средней 1500 ч, меньше чем 5%. Мы верим, что выборка не была взята из такой генеральной совокупно- сти. Средний ресурс лампочек изменился. 12.4. Испытание гипотезы на основе выборочной доли Рассмотренная процедура испытания гипотез может быть также использована для проверки гипотезы о выборочной доле. Доля имеет биномиальное распределение, но при большом объ- еме выборки может быть использовано нормальное распределе- ние в качестве аппроксимации биномиального. 10' 291
Пример 12.5. Поставщик электронных компонентов попытался контролировать производственный процесс так, чтобы доля неисправной продукции была менее 4%. Из поставляемой партии 500 компонентов 28 оказались неисправными. Имеется ли какое-нибудь основание предпо- лагать, что производственный процесс вышел из-под контроля и про- изводится много неисправных изделий? Решение. Но: доля неисправных компонентов в произведенных изделиях рав- на 4%, т.е. р ~ 0,04. Н\. доля произведенных неисправных компонентов возросла, т.е. р > 0,04. Из гипотезы Н\ следует, что испытание необходимо производить с одной границей. Объем выборки из 500 компонентов большой, поэто- му аппроксимируем биномиальное распределение посредством нор- мального распределения. Выборочное распределение, выборочных до- лей будет приблизительно нормальным со средней долей р — 0,04. Стандартная ошибка выборочного распределения: SE;.JZO. Ж»*. 0,00876. р V П V 500 Доля дефектов в выборке р = 28/500 = 0,056. Будем испытывать Но на 1%-м уровне значимости. Критическое значение стандартизованной нормальной переменной z — 2,33. Рис. 12.8. Критическое значение z на 1%-м уровне значимости 292
Проверочная статистика: SE, следовательно, 0,056-0,04 10_ г= 0,00876'“ = Ш Проверочная статистика меньше критического значения на 1%-м уровне. Результат не существенен на уровне 1%: f\z > 1,83) > 0,01. Вы- борочная доля дефектных компонентов 0,056 может быть получена в результате случайностей выборки. Следовательно, принимаем нулевую гипотезу на 1%-м уровне зна- чимости. Нет оснований предполагать, что производственный процесс вышел из-под контроля и дает дефектов больше 4%. 12.5. Испытание гипотез о двух генеральных дисперсиях Мы рассмотрели последовательность статистического вывода по одной выборке — сравнение выборочной статистики с пред- полагаемым параметром генеральной совокупности. Рассмотрим теперь ситуации, в которых имеются две выборочные сово- купности, которые необходимо сравнить. Существует много ситуаций, в которых вариация данных не менее важна, чем средняя величина. Когда оценивают портфель инвестиций, то исходят из ожидаемой прибыли, но в то же вре- мя нельзя сбрасывать со счетов риск инвестирования. Такой риск может быть оценен на основе дисперсии возможной при- были инвестиций. Предположим, что имеются две независимые выборки и не- обходимо знать, взяты ли они из нормальных генеральных совокупностей с одинаковой дисперсией. Сравнение дисперсий фактической прибыли, полученной в прошлые годы, даст воз- можность принять решение. 12.5.1. Отношение дисперсий или F-критерий В параграфе 10.3 было показано, что отношение двух дис- персий подчиняется распределению F-статистики: 293
Поскольку лучшая оценка дисперсии генеральной совокуп- ности вычисляется по формуле *2 п 2 <Г =---Г* , Л-1 то F=..w»sLh-.1) («1-1) n2sl • Нулевая гипотеза предполагает, что две выборки независимы и взяты из нормальных генеральных совокупностей с одинако- выми дисперсиями: of = <$. В этом случае F = 1. Из теории ис- пытания гипотез известно, что если даже нулевая гипотеза вер- на, то маловероятно, что of имеет точно такое же значение, что и ст! из-за колебаний отбора. Следовательно, маловероятно, что F-статистика будет равна 1. Решением, которое мы собираемся принять, используя испытание гипотез, является то, будет ли истинная величина F достаточно близка к 1 для того, чтобы подтвердить вероятность, что выборочные совокупности были взяты-из нормальных генеральных совокупностей с одинаковой дисперсией. В этом случае различие в значениях ст? и может быть отнесено к случайностям. -Как отмечалось ранее, F-распределение зависит от числа степеней свободы в обеих сравниваемых выборках. Когда мы производим оценку единственного генерального параметра по выборке, то теряем одну степень свободы. Таким образом, для каждой выборки остаются (и = 1) степени свободы. Для того чтобы привести стандартную таблицу для ^распре- деления к более удобному виду, даны только значения F г. 1, т.е. это — таблицы с одной границей. Чтобы использовать эти таб- лицы при расчете F делим большую дисперсию на меньшую. Проверочной статистикой является. F= (Большая оцененная дисперсия}/ (Меньшая оцененная дисперсия). Пример 12.6. Представитель инвестиционной компании исследует две инвести- ции — А и В — от имени клиента. Инвестиция А предполагается на срок 10 лет с ожидаемой ежегодной прибылью в течение этого периода 294
17,8%- Инвестиция В рассчитана на срок 8 лет с ожидаемой прибылью 17,8%. Дисперсии ежегодных прибылей от двух инвестиций составляют 3,21 и 7,14. Есть ли какое-либо основание считать, что риски инвести- ций А и В неравны? Предполагается, что распределения ежегодных прибылей на инвестиции подчиняются нормальному распределению. Решение. Мы хотим знать, взяты ли эти две выборочные совокупности еже- годных прибылей от двух инвестиций из нормальных генеральных со- вокупностей с равными дисперсиями, поэтому: Но- аА =аВ’ Hi- Будем испытывать нулевую гипотезу, используя F-критерий с двумя границами, на 5%-м уровне значимости. Это эквивалентно 2,5%-му уровню значимости с одной границей, поэтому используем а = 0,025 для определения критического значения в таблице F. Лучшие оценки двух генеральных дисперсий могут быть получены на основе выбороч- ных дисперсий следующим образом: ал=^7|^=у-3,212 = 11,449 (при к = 9); 6л = = 58,2624 (при к = 7). Яд-1 7 Поскольку а2 F — (Большая оцененная дисперсия)/(Меньшая оцененная дисперсия)^—?-. °А /'’-таблицы построены так, что степени свободы большей дисперсии (V] — 7'СТепеней свободы) приводятся вверху таблицы, а степени свобо- ды меньшей дисперсии (v2 = 9 степеней свободы) — слева. Используя 2,5%-е табличное значение Гиз Приложения, табл. 5, что эквивалентно 5%-му уровню значимости с двумя границами, с 7 и 9 степенями сво- боды, критическое значение равно: ^0,05/2, 7, 9 = 4,197. По данным выборки, проверочная статистика равна: 11,449 Поскольку 5,О9>Го о5/2, 7, 9> 295
Рис. 12.9. Критическое значение F-критерия на 5%-м уровне значимости с двумя границами результат существен на 5%-м уровне значимости. Итак, есть основания предполагать, что риски, определенные дисперсиями годичных прибы- лей, двух инвестиций не равны. 12.6. Сравнение средних величин двух выборок при известных генеральных дисперсиях Рассмотрим ситуации, в которых имеются две выборочные совокупности. Нужно определить, взяты ли они из нормальных генераль- ных совокупностей с равными средними. Например, если аудитора удовлетворяет качество бухгалтерского учета в компании, он может взять выборку счетов для оценки значения ошибки в генеральной совокупности. Если система учета продолжает действовать исправ- но, то вторая выборка должна дать оценку ошибки генеральной со- вокупности, которая незначительно отличается от первой. Подобным образом случайная выборка даст возможность оценить среднюю наполняемость пивом бутылок в генеральной совокупно- сти. Если процесс розлива и дальше функционирует исправно, то последующие выборки не должны дать оценки средней наполняе- мости, которые бы значительно отличались от предыдущих. Это очень важный аспект для контроля качества. 296
В обоих примерах резонно заключить, что дисперсия гене- ральной совокупности остается той же. Однако если рассматри- вать две различные производственные линии розлива пива в бу- тылки, то можем взять выборку из каждой линии для того, что- бы увидеть, имеется ли значительная разница между средней наполняемостью генеральных совокупностей одной и другой линий. В этом случае нет основания предполагать, что две гене- ральные дисперсии равны между собой. При неизвестных дисперсиях генеральных совокупностей процедура испытания гипотез зависит от того, предполагается ли равенство дисперсий или нет. Однако форма нулевой гипоте- зы остается той же во всех случаях. Для испытания гипотезы по двум выборочным средним нулевая гипотеза предполагает, что две выборочные совокупности взяты из генеральных совокупно- стей с равными средними. Но : = Ц2 , т.е. генеральные средние равны между собой. Создается новая переменная, которая является разницей меж- ду выборочными средними (*i - х2) и сравнивается с предпола- гаемой разницей между генеральными средними, т.е. ц1-ц2 = 0. Если разница между выборочными средними незначительно от- личается от нуля, то можно предположить, что нулевая гипотеза приемлема. Если разница значительно отличается от нуля, то можно предположить, что нулевая гипотеза не приемлема. Если aj и ст2 известны, то проверочная статистика следует нормальному распределению и находится следующим образом: 7 (Х1-Х2)-(И1-Ц2), SE? xi~xi Пример 12.7. Компания по производству сахарного песка имеет две производст- венные линии для наполнения мешочков сахарным песком по 1 кг (щ -ц2). Используя данные, собранные в течение долгого периода вре- мени, управляющий оценивает генеральное стандартное отклонение массы мешочков, поставляемых с линии 1 в 0,02 кг (Ст|) и с линии 2 в 0,04 кг (а2). Из линии 1 была взята случайная выборка объемом
«I = 10 мешочков и найдена средняя масса содержимого в мешочках Xi =1,018 кг. Подобная выборка объемом л2 = 12 мешочков была взята из линии 2 и найдена средняя масса х2 = 0,989 кг. Имеется ли какое-нибудь основание предполагать, что две производственные ли- нии развешивают сахарный песок по мешочкам, средняя масса которых отличается? Решение. Нулевая гипотеза предполагает, что две выборочные средние согла- суются с выборочными совокупностями, взятыми из нормальных гене- ральных совокупностей с одинаковой генеральной средней: Hq- Ml = М2 . Т.е. Ml ~М2 =0; Hf-Ml *М2 » т с- Ml-М2 *0. Из Я] следует выбор испытания с двумя границами. Поскольку генеральные дисперсии (ст2 и о2) известны, проверим существенность разности между выборочными средними, используя нормальное распределение. Проведем испытание на 1%-м уровне зна- чимости. Из таблиц стандартного нормального распределения в При- ложении находим граничное значение z = ± 2,576. Рис. 12.10. Критические значения z для 1%-го уровня значимости Проверочная статистика равна: (^1-^г)-(и1-М2) SEVi, где М «2 Р,022 0,042 SEc = = J——+ —— = J—--+ —-— 12 «2 V 10 12 = 0,0132. 298
Отсюда (1,018-0,989)-0 4 0,0132 Поскольку 2,197 < zo.oi = 2,576, результат не существенен на 1%-м уровне, т.е. нет основания отклонять Но. Итак, можно полагать, что мешочки, наполненные сахаром на двух производственных линиях, имеют одинаковую среднюю массу. 12.7. Испытание гипотезы по выборочным средним: генеральные дисперсии неизвестны В этом случае стандартное отклонение зависит от того, мо- жем ли мы предположить, что две генеральные дисперсии равны между собой. Стандартное отклонение разности двух выборочных средних находится по формуле: 12 2 SE- - = I—+ — У«1 «2 Если о2 и а2 неизвестны, то они могут быть оценены по- средством выборочных дисперсий. Возможны два случая: 1. Если генеральные дисперсии равны между собой, то о2 = 02 = ст2 , тогда 02 П Г — =а — + — V ^2 I 2 SE£_^ =,Р- Х2 у «1 Лучшая оценка дисперсии достигается сложением двух вы- борочных дисперсий [s* и л2 j по сравнению с использованием одной или другой по отдельности. Лучшая оценка генерального стандартного отклонения вычисляется по формуле: - ("15)2 +”2^) ~ (ni+n2-2) ’ Поэтому лучшей оценкой требуемой стандартной ошибки является: _ И«1512+П2^)Г l Q SE*'-^ =Y(«1+n2-2) Ur + ^J ’ 299
где -2 £(Х~*)2 п С другой стороны, можно написать: SEx|-X2 - где Л-1 Проверочная статистика для испытания гипотез из двух вы- борочных средних не относится к нормальному распределению, а подчиняется стандратному /-распределению с («1 + — 2) сте- пенями свободы. Это может быть записано следующим образом: 2. Если генеральные дисперсии не равны друг другу, то каж- дая генеральная дисперсия должна быть оценена соответствую- щей выборочной дисперсией: -2 п 2 О =-----S . Л-1 Следовательно: S? S2 где или где „2 Л Г-~2 - Р1 । q2 ' ]»1 «2 ’ а2_Е(х-х)2 se?. л-1 Проверочная статистика для испытания гипотезы по двум выборочным средним находится по формуле: (*1 ~*2)~(ш ~Нг) | 2 2 *1 , *2 У Л1 -1 л2 -1 300
Эта статистика не подчиняется ни нормальному распределе- нию, ни /-распределению. Можно использовать в качестве при- ближения /-распределения, но зависимость от числа степеней свободы более сложная. Если размеры выборки большие (и > 30), распределение этой новой статистики приблизительно нормальное, как описано в центральной предельной теореме. Для выбора подходящей проверочной статистики в случае, когда генеральные дисперсии неизвестны, необходимо знать, ка- кое предположение принимается. Прежде всего нужно решить, можно ли считать неизвестные генеральные дисперсии равными или нет. Для принятия решения используют /-критерий. Пример 12.8. Для исследования качества масла были сделаны выборки по 10 еди- ниц из каждой последовательной серии («1 и л2) и определена доля во- ды в процентах х в каждой выборке. Для первой серии средний процент составил %| = 68,2% со стандарт- ным отклонением = 0,70%. Для второй серии массовая доля воды х2 = 67,0% со стандартным отклонением s2 = 0,74%. Имеется ли основание предполагать, что две серии масла имеют различную массовую долю воды? Решение. Нулевая гипотеза предполагает, что выборочные средние согласу- ются с двумя выборками, взятыми из нормальных генеральных сово- купностей с одинаковой генеральной средней: Но- И1 =Ц2, Hi- Щ *И2- Альтернативная гипотеза состоит в том, что две серии взяты не из одной и той же генеральной совокупности. Следовательно, должна быть проведена двусторонняя проверка. Поскольку генеральные дисперсии неизвестны, следует использо- вать /-критерий для предположения, что две генеральные дисперсии равны друг другу. Для испытания с помощью /’-критерия формулируем гипотезы: Но'- =^2> Н\. О( * О2, Будем испытывать нулевую гипотезу на 5%-м уровне значимости, ис- пользуя испытание с двумя границами. Это означает, что мы используем таб- лицу /-распределения в Приложении, табл. 5, для 9 и 9 степеней свободы: 301
A),05/2, 9, 9~4,026, ^=^LTsi=7()’702 = 0'544’ $ = si = 0,742 = 0,608. 1 л2-1 9 Поскольку о2 является большей, то f-статистика равна: f = 0,608/0,544 = 1,12. Поскольку 1,12 < fo,O5/2, 9, 9 ~ 4,026, различия между дисперсиями не существенны на 5%-м уровне. Наблю- даемые значения согласуются с нулевой гипотезой. Можно предполо- жить, что две генеральные дисперсии равны друг другу, и использовать 7-критерий для проверки гипотезы по выборочным средним. Теперь мы продолжим испытание гипотез на двух выборочных средних на 5%-м уровне значимости, используя 7-критерий с двумя границами с числом степеней свободы: 10 + 10 — 2 = 18. Из табл. 5 в Приложении находим, что <Ь,05/2,18 = 2,10. Поскольку мы предположили, что ^и^2 + «2^2)^ 1 1 ЦЮОДО2 + 10-0,742^ j ।' =^(щ+п2-2) + | Ю+10-2 U0 + T0. = 70,1153 =0,3395. Проверочной статистикой является: Х1-х2 68,2-67,0 ’ §ЕХ- _х-2 ’ 0,3395 - • Поскольку 3,53 > *0,05/2,18 — 2,10, результат существенен на 5%-м уровне. Очевидно, что наблюдения не согласуются с нулевой гипотезой. Отклоняем гипотезу и принимаем гипотезу 2^ как верную: две се- рии проб масла имеют разное содержание воды (по массе). 302
12.8. Испытание гипотезы по двум выборочным долям Если две большие выборки взяты независимо из двух бино- миальных генеральных совокупностей, то статистика (Д - дг) нормально распределена со средней и стандарт- ной ошибкой: сЕ. . _ |а(1-а) + Р2(1-л) п п у «1 «2 где р — выборочная статистика: р — параметр генеральной совокупно- сти; обе выборки большие, т.е. nL и и2 больше или равны 30. Нас обычно интересует, взяты ли или нет две выборки из биномиальных генеральных совокупностей с одинаковой долей случаев, т.е. pi = Р2- Проверочная статистика приблизительно нормально распределена при больших размерах выборки: (А-&)-(/>!-ft) Пример 12.9. Внутренние аудиторы большой компании интересуются системой об- работки счетов доходов. Они взяли случайную выборку объемом л, = 50 законченных счетов и проверили их. Четыре из них оказались дефект- ными. Затем провели вторую случайную выборку объемом п2 = 60 за- вершенных счетов и обнаружили три неисправных счета. Имеется ли какое-либо основание предполагать, что ошибки стали делаться реже? Решение. Нулевая гипотеза предполагает, что две выборки случайно взяты из двух биномиальных генеральных совокупностей с равными долями ошибок: Но- Pi = Р2 = р; Ну-Pi >р2. т е. предполагается, что доля ошибок сократилась, поэтому здесь при- емлемо испытание с одной границей. Будем принимать решение иа 5%-м уровне значимости. Здесь подходит нормальное распределение, поскольку размеры обеих выборок большие. По таблице нормального распределения в Приложении находим: гь,05= 1,645; р{ =4/50 = 0,08; р2 =3/60=0,05. 303
Предполагая, что гипотеза Hq верна, лучшая оценка доли дефект- ных счетов в генеральной совокупности достигается осреднением долей двух выборок. В общем оказывается 7 дефектов из 110 случаев. Поэто- му лучшей оценкой генеральной доли является = 7/110 = 0,0636, тогда SE- - - Й1 „2 КЦЛ36 03364 0,0636 0,9364 -----50----+------60------(1'°*7' Проверочной статистикой является: . (Pi-h)-(Pi-P2) 0,08-0,05 8Ед_Л =~О4бГ = °М Поскольку 0,64 < 2о>О5 = 1,645, результат не существенен на 5%-м уровне. Факты согласуются с гипоте- зой Но на данном уровне значимости. У нас нет причины предполагать, что при обработке счетов доля ошибок сократилась. 12.9. Испытания непараметрических гипотез Будем рассматривать примеры испытаний гипотез, которые не требуют ни предположения о нормальности, ни использова- ния генеральных параметров. Этот раздел испытаний относится к непараметрическим испытаниям. Общая процедура испытания гипотез та же, что и для параметрических испытаний. Рассмотрим самый общий непараметрический критерий «хи-квадрат». Он основан на сравнении ряда наблюдаемых час- тот с ожидаемыми частотами, если верна нулевая гипотеза. Бу- дем использовать этот метод для проверки взаимосвязи призна- ков. Предположим, что нас интересуют два разных признака и мы хотим знать, существуют ли между ними какие-либо связи. Пример 12.10. Имеются данные по оценкам, полученным группой студентов на экзамене по экономической теории и по математике. Нас интересует, существует ли связь между оценками, полученными на 304
экзамене по экономической теории и тем, сдан ли студентами экзамен по математике (табл. 12.2). Таблица 12.2. Пример таблицы сопряженности Результат экзамена по математике Оценка по экономической теории Отлично Хорошо Удовлетво- рительно Неудовлетво- рительно Сдан /н f\7 /и f\4 Не сдан fn fa Число или частота студентов, которые сдали экзамен по математике и получили оценку отлично по экономической теории, записано в верхней левой части таблицы. Число студентов, не сдавших математику и получивших оценку отлично по экономической теории, записывается в нижней левой части таблицы и т.д. Такой тип таблицы называется таблицей сопряженности. Табл. 12.2 имеет две строки и четыре столбца, т.е. является таблицей 2x4 «два на четыре». Используя соответствующую нулевую гипотезу, мы можем рассчитать число студентов, кото- рое ожидается в каждой клетке. Если нулевая гипотеза верна, различия между наблюдаемыми и ожидаемыми частотами будут небольшие. Будем использовать те же правила для решения, что и в прошлом испытании. Проверочная статистика рассчитывает- ся на основе разницы между наблюдаемыми и ожидаемыми час- тотами для всех клеток таблицы. Если обозначить наблюдаемую частоту события fo и ожидае- мую частоту fp, то (f0 — /р) — разность между наблюдаемой и ожидаемой частотами. Проверочной статистикой будет служить у (/o~Zg)2 Возведение в квадрат разности (f0 — Уё) необходимо для того, что- бы избежать нулевого эффекта при суммировании отрицательных и положительных величин. К тому же, чтобы достичь независимости от значения фактических частот, квадраты отклонений делят на ожи- даемые частоты. Это стандартизует все величины. Получаемая стати- стика подчиняется х2 -распределению при достаточно больших зна- чениях ожидаемых частот. Ориентиром обычно служит условие.: ожидаемая частота должна быть не меньше 5, 5. 305
Если одна или более ожидаемых частот меньше, чем 5, то категории должны быть скомбинированы до тех пор, пока час- тота не превысит установленного значения. Для таблиц сопряженности 2x2, в которых сумма частот меньше или равна 100, иногда применяется корректировка — поправка Йетса. Тогда проверочная статистика вычисляется по следующей формуле: (/о-/£-О^)2' /д Такая поправка проводится потому, что х2является непре- рывным распределением, а данные выборки — дискретные. Для больших выборок разница между исправленными и не- исправленными значениями х2 является небольшой и в таких случаях корректировка не требуется. Как мы установили в гл. 10, форма х2 -распределения зави- сит от числа степеней свободы в данной задаче. При использо- вании таблиц сопряженности число степеней свободы равняется: где г и с — число строк и столбцов в таблице сопряженности, соответственно. Если таблица имеет только одну строку, то число сте пеней свободы равно (с — 1) и данные представляют собой ряд распре- деления по одной переменной. Пример 12.11. Управляющий рестораном и кафе для выработки стратегии деятель- ности предприятия провел опрос жителей микрорайона, в котором рас- положены эти объекты. Результаты опроса представлены в табл. 12.3. Таблица 12.3. Результаты опроса Группа опрошенных Частота посещения ресторана или кафе Часто Иногда Не посещают Молодые 120 55 47 Пожилые 139 105 98 Решение. Но: нет связи между возрастной категорией опрашиваемого и часто- той посещения ресторана и кафе, т.е. Но: fo = fE- 306
Hi. есть связь между возрастом опрашиваемого и частотой посеще- ния ресторана и кафе, т.е. Hi:f0* fE. Будем испытывать нулевую гипотезу на 5%-м уровне значимости, используя критерий х2 с (2 - 1) • (3 - 1) = 2 степенями свободы. Из таблицы в Приложении находим, что Хо,о5,2 = 5,991. Для расчета проверочной статистики нужно определить сжижаемые частоты по каждой категории. Таблица 12.4. Ожидаемые частоты Группа опрошенных Частота посещения ресторана или кафе Часто Иногда Не посещают Итого Молодые 102 63 57 222 Пожилые 157 97 88 342 Итого 259 160 145 564 259 опрошенных заявили, что они посещают эти учреждения часто. Доля этой категории составляет 259/564, Если нет связи между посеще- нием и возрастом, то такая же доля часто посещающих будет как среди молодых, так и среди пожилых, т.е. 259/564 из 222 относятся к катего- рии завсегдатаев. Таким образом, ожидаемая клеточная частота в пер- вой клетке таблицы равна: (259/564) • 222=102 чел., т.е. ожидаемые час- тоты рассчитываются как произведение сумм частот по строке и столб- цу таблицы, деленное на объем выборки. Ожидаемые частоты являются средними значениями и могут не ок- ругляться до целого. Расчет «хи-квадрат» приведен в табл. 12.5. Таблица 12.5. К расчету /2 /о /е fo /е (Л-Л)2 (А-/е)7/е 120 102 18 324 3,18 139 157 -18 324 2,06 55 63 -8 - 64 1,02 105 97 8 64 0,66 47 57 -10 100 1,75 98 88 10 100 1,14 564 564 — — 9,81 Найденное значение х2 ~ 9,81 показано на рис. 12.11. 307
Рис. 12.11. Критическое значение %2 на 5%-м уровне значимости при двух степенях свободы 9,81 > 5,991, следовательно, гипотеза Но отклоняется: связь между воз- растом и частотой посещения ресторана и кафе следует признать дока- занной на 5%-м уровне значимости. 12.10. Меры связей, основанные 2 на распределении х В общем и целом о тесноте связи между признаками можно судить rio соотношению Хфакг и х™бл : чем больше Хфакт по срав- нению с Хтабл ’ тем связь теснее. Но отношение Хфакт/Хтабл не соответствует принятому в статистике измерению тесноты связей. Все статистические меры тесноты связей изменяются по абсолют- ной величине в интервале от 0 до 1. Нулевое значение меры связи означает, что переменные х и у независимы, равенство единице означает, что между х и у имеет место полная связь. Критерий х2 как мера связи не удовлетворяет этим условиям: Xmin = 0> Хтах = «пип(тп-1, р-1), где т — число строк, р — число столбцов. В последнем случае (хтах) таблица сопря- женности имеет диагональный вид, т.е. все частоты в клетках таблицы, кроме диагональных частот, равны нулю. 308
Чтобы получить меру связи на основе х2, нужно нормиро- вать величину х2 • Первый шаг в решении этой задачи — деле- ние х2 на число объектов наблюдения п. Мера различия между Пу и пу, приходящаяся на одно наблюдение, называется средней квадратической сопряженностью и обозначается <р2: п Однако q>2, как и х2, не имеет определенной верхней границы, 0^ф2<°о. Из выражения Хтах ясно, что ф2паХ = min(/n — 1, р— 1) при т^р. Для случая двумерного нормального распределения установ- ка лено соотношение ф2 =----- , где г — коэффициент корреляции. 1-г2 2 ——у . Обозначив эту величину через Р, получим 1 + Ф формулу коэффициента взаимной сопряженности К. Пирсона1: р- I *р2 I • «I . ч ~ »1 -т • В случае отсутствия связи Р = 0, так как х2 = О, ф2 = 0. Чем теснее связь, тем ближе значение Р к 1. Но максимально значение Рне достигает 1. max ~yi + min(w-l,/>-l) ’ Если таблица квадратная (т = р), то Pmax=J—— • Из выра- V т жения Ртах очевидна зависимость значения коэффициента вза- имной сопряженности от числа категорий. Так, при т = р, т ~ 3 значение Р не может быть больше 0,816; при т = 5 вели- чина Рне превысит 0,894, при т- 10 Ртах~ 0,949. 1 Пирсон Карл (1857—1936) — английский статистик, основатель так называемой биометрической школы. 309
Чтобы устранить этот недостаток, А.А. Чупров* 1 предложил вычислить коэффициент взаимной сопряженности по следую- щей формуле: г = 1 Ф2 / X2/» ^|/(/и-1)(р-1) ]J(m-l)(p-l) При этом полная взаимная сопряженность признаков изме- ряется как средняя геометрическая из числа степеней свободы таблицы сопряженности, <p„iax = J(m-l)(p-l), О^Тsi. Но если число строк таблицы не равно числу столбцов (т * р), то Т < 1 даже в случае полной связи. Для таблицы 2^2 Т:^. Шведский математик Г. Крамер устранил зависимость пока- зателя взаимной сопряженности от размерности таблицы. Пред- ложенный им коэффициент имеет вид: I 2 I 2~~/ С= Ф * /п Hmax Vmin(m-l),(p-l) ’ где <pfnax = min(« --1) при m р, 0 < С <, 1. Если m = р, то С = Г, если m * р, то С > Т. Разница между значениями коэффициента С= Т не очень велика, если число строк и число столбцов таблицы отличаются не слишком сильно. Между значениями Р и Т разница большая, причем Р> Т. I 1 Чупров А.А. (1874—1926) — видный русский статистик. Предложенный им коэффициент взаимной сопряженности обозначен начальной буквой его фами- лии (Tschuprov А.А.).
2 Вариационный ряд1 13.1. Понятия вариационного ряда, частоты, относительной частоты (частости) Пример 13.1. Рассмотрим в качестве изучаемого признака число продаж каждого из 26 случайно выбранных продавцов универмага: 16, 12, 15, 15, 23, 9, 15, 13, 14, 14, 21, 15, 14, 17, 27, 15, 16, 12, 16, 19, 14, 16, 17, 13, 14, 14. Расположим значения признака в порядке возрастания (или убыва- ния). Обозначив изучаемый признак X, запишем в общем виде: хь х2, .... х„ (и = 26), где хь х2, ..., х„ — упорядоченные значения признака, кото- рые в статистике называются вариантами2. Варианты, расположенные в возрастающем (или убывающем) порядке, т. е. ранжированные, и со- ставляют вариационный ряд-. 9, 12, 12, 13, 13, 13, 14, 14, 14, 14, 14, 14, 15, 15, 15, 15, 15, 16, 16, 16, 17, 17, 19, 21, 23, 27. В нашем примере варианты: 12, 13, 14, 15, 16 и 17 повторяются. Абсолютные числа, показывающие, сколько раз встречаются те или иные варианты в ряду, называются частотами (весами), они обознача- ются /иь т2, ..., тк (иногда nh п2, ..., пк или Д f2, ..., fk), где к — число групп в вариационном ряду (к < л). Вариационный ряд можно предста- вить в виде таблицы. Таблица 13.1. Общий вид вариационного ряда Значения признака (х,) *1 *2 хк Частоты (т,) т2 тк к В табл. 13.1 ^mt = п. <=1 1 В литературе по статистическим методам, особенно переводной, вместо тер- мина «вариационный ряд» чаще употребляют термин «набор данных» или «ряд распределения». 2 Значения признаков ряда Х|, х2, ..., х„ различаются между собой или, иными словами, варьируют, отсюда и происходит термин вариант. 311
Для данных примера 13.1 вариационный ряд представлен в табл. 13.2. Таблица 13.2. Данные о числе товаров, проданных 26 продавцами универмага Число продаж (х,) 9 12 13 14 15 16 17 19 21 23 27 Число продавцов (т,) 1 2 3 6 5 3 2 1 1 1 1 11 В полученном ряду к = 11, и = = 26. /«1 Чаще для анализа полезнее пользоваться не абсолютными, а отно- сительными значениями частот, которые получаются путем деления каждого значения mi на общую сумму всех частот. Отношение частоты того или иного варианта к сумме всех частот ряда называется частостью или относительной частотой: к (13.1.1) 1=1 Для примера 13.1 вариационный ряд частостей (относительных частот) представлен в табл. 13.3. Таблица 13.3. Вариационный ряд частостей числа товаров, проданных 26 продавцами Число продаж (хд 9 12 13 14 15 16 17 19 21 23 27 Доля продав- цов (w,) 0,04 0,08 0,11 0,23 0,19 0,11 0,08 0,04 0,04 0,04 0,04 11 Сумма всех частостей равна 1, т. е. 1. Частости могут быть /=1 выражены в процентах, тогда их сумма равна 100%. После того как результаты статистического наблюдения упорядоче- ны в виде вариационного ряда, можно начинать их анализ. Табл. 13.2 и 13.3 указывают на то, что основная часть продавцов осуществила от 14 до 16 продаж; возможно, менеджеру отдела необходимо провести дальнейший анализ для того, чтобы выяснить причины низкой произ- водительности остальных продавцов. 312
13.2. Дискретные и интервальные вариационные ряды Вариация признака может быть дискретной или непрерывной. Признак называется дискретно варьируемым, если его отдель- ные значения (варианты) отличаются друг от друга на некоторую конечную величину (обычное целое число). Вариационный ряд таких признаков называется дискретным вариационным рядом. Вариационный ряд в примере 11.2 является дискретным. Другие примеры: тарифный разряд рабочего, цена то- вара, число семян в 10-граммовом пакете и т. д. Не всегда значения, принимаемые тем или иным признаком, отличаются друг от друга на какую-то конечную величину. Су- ществует множество признаков, значения которых отличаются друг от друга на сколько угодно малую величину, т. е. признак мо- жет принимать любые значения в некотором интервале. Такие признаки называются непрерывно варьирующими. К подобным признакам можно отнести различные индексы экономического состояния, среднедушевые доходы, процент дневной выработки рабочего, массу одного семени и т. п. Построение вариацион- ного ряда путем перечисления всех. возможных значений при- знаков и их частот может оказаться невозможным, так как оди- наковые значения величин встречаются редко, а число вариан- тов может быть очень большим (теоретически бесконечным). Наиболее простой способ «сжатия» этих данных — группировка их в некоторые интервалы с определенными границами. Предположим, что в компьютере большого предприятия на- ходятся данные о среднемесячной заработной плате 5000 работ- ников. В таком случае можно, например, представить эти дан- ные в следующих интервалах группировки: заработная плата от 100 000 до 300 000 руб., от 300 000 до 500 000 руб. и т. д., а за- тем, рассчитав число работников, имеющих заработную плату в заданных интервалах, определить их частоты и частости. В ин- тервалах указанного типа запись верхней границы предыдущего интервала совпадает с нижней границей последующего. Предпо- лагается, что каждому интервалу принадлежит лишь один из его концов: либо во всех случаях левый, либо во всех случаях пра- вый. Обычно данные, полученные в результате наблюдения не- прерывно варьирующего признака, представляют в виде интер- вального вариационного ряда. Частоты, как уже было сказано, в таком ряду относятся не к отдельному значению признака, а ко 313
всему интервалу. При такой группировке, конечно, теряется часть информации о признаках, но вариационный рад становит- ся компактным. Значением признака в интервальном ряду часто считают середину интервала. Пример 13.2. Менеджер большого универмага записал суммы денег, которые из- расходовали 184 покупателя, посетившие отдел верхней одежды в день сезонной распродажи по сниженным ценам. Зная минимальную и мак- симальную стоимость покупки, менеджер сгруппировал данные о сум- мах, израсходованных на покупки в следующем виде: Таблица 13.4. Распределение покупателей по интервалам расходов на покупку товаров Покупатели Интервалы расходов, тыс. руб. 100-300 300—500 500— 700 700-900 900—1100 1100-1300 Количество покупателей (mi), чел. 30 38 50 31 22 13 Доля покупате- лей (»}) 0,163 0,207 0,272 0,168 0,120 0,071 Кроме вариации дискретных признаков в экономическом анализе часто выделяют вариацию качественных признаков, которую называют атрибутивной. Это вариация таких признаков, как профессия, разряд рабочего, марка товара, вкус, цвет и др. Если при атрибутивной вариа- ции признак принимает только два взаимно исключающих друг друга значения, то вариация называется альтернативной. Например, дорогой — дёшевый, тяжелый — легкий и пр. 13.3. Границы интервалов В интервальных вариационных рядах в каждом интервале различают нижнюю и верхнюю границы интервала: нижняя граница интервала — Jtymjn), верхняя граница интервала — х/(тах). Тогда длина (величина) интервала' обозначается к, (или Л,) и определяется по формуле: k-i -’Qfmax) ^j(min) (13.3.1) I В литературе иногда к-, называется интервальной разностью. 314
В примере 13.2 к, = 300 — 100 — 200. При построении интервальных рядов в каждый интервал включаются варианты, числовые значения которых больше нижней границы интервала и меньше (или равны) верхней гра- ницы (или наоборот)1. Разумеется, надо стремиться строить ин- тервалы так, чтобы избегать попадания значительного числа случаев на границы интервалов. Иногда в начале и в конце ряда встречаются и открытые интервалы — интервалы, имеющие одну границу: либо нижнюю, либо верхнюю. Например, дано распреде- ление территорий России по вводу в действие инвестиций в 1996 г. (январь — сентябрь 1996 г. в % к январю — сентябрю 1995 г.): Интервалы До 60 60-70 70-80 80-90 90-100 Свыше 100 Число регионов 10 29 21 13 6 Для установления границ крайних интервалов часто поступают так: последнему интервалу предшествует интервал от 90 до 100. Его интервальная разность равна 10. Следовательно, условно считаем правую границу последнего интервала равной 100 + 10 = 110. Ана- логично рассуждая, получим2, что начало первого интервала равно 50. Для выбора оптимальной величины интервала (при которой вариационный ряд с равными интервалами будет не очень гро- моздким) применяют формулу Стэрджеса'. •X(max) X(min) 1 +3,322 lg« ’ (13.3.2) где п — число единиц совокупности; Х(тэд), x(min) — наибольшее и наи- меньшее значения вариантов ряда соответственно. 1 В современных статистических сборниках избегают подобного построения интервалов, верхняя граница предыдущего интервала обычно не совпадает с нижней границей последующего. Например, в табл. 11.4 интервалы можно изо- бразить так: до 300, 301—499, 500—699, 700—899, 900—1099, свыше 1100. 2 Приведенный метод не является строгим и дает при вычислении характери- стик ряда существенные искажения. 315
Для данных примера 13.1 Х(тах) = 27 X(mjn) = 9 и по формуле « (13.3.2) имеем: 27-9 к = , ^7 = 3,095 « 3. 1 + 3,322 lg26 Преобразованные в интервальный ряд данные примера 13.2 имеют следующий вид: Интервалы продаж 9-12 12-15 15-18 18-21 21-24 24-27 Число продав- цов (mi) 3 9 10 2 1 1 Интервальные вариационные ряды бывают с равными и не- 5 равными интервалами. Иногда при группировке с равными интервалами сначала ' определяют число интервалов (групп) z при заданном объеме : совокупности, пользуясь формулой Z = 2 In п , (13.3.3) J и тогда (13.з.4) Для примера 13.1 z = 2 1пл = 21п26 = 6,5162 « 6, к = (27 — 9)/6 = 3, что совпадает с результатом, полученным по формуле (13.3.2). 13.4. Плотность вариационного ряда или плотность распределения Одной из характеристик вариационного ряда является плот- ность распределения. Плотность распределения — это отношение частот (или час- тостей) к величине интервала. Плотность распределения пока- зывает, сколько единиц совокупности приходится на единицу вариации признака. Различают абсолютную плотность-. fw= tn j к (13.4.1) 316
и относительную плотность распределения: (13.4.2) Вычислим абсолютную плотность распределения по данным примера 13.2 в третьем интервале: /(а)3 = "*з / кз = 50 / (700 - 500) = 0,25. Если два любых, равных по величине, интервала вариацион- ного ряда имеют одинаковые частоты, то можно сказать, что частоты вариационного ряда распределены равномерно. Если же частоты распределены по различным участкам вариационного ря- да неравномерно, то, зафиксировав определенное значение вари- анта х, найдем частоту интервала вариационного ряда от х + Дх. Обо- значим ее тх х+дх. Отношение тх уже не является посто- янной величиной, а зависит от точки, в которой начинается ин- тервал, т. е. от х и величины интервала Дх. Это отношение и ха- рактеризует плотность ряда в интервале от х до х + Дх. Чтобы охарактеризовать более точно распределение частот на отрезке от х до х + Дх, следует уменьшить Дх. В результате получим плотность вариационного ряда в точке х: Ух - lim ДХ—>оО тх> х+Дх Дх Теперь уже величина плотности не будет зависеть от длины участка Дх. Если вместо частоты возьмем частость иу то получим относительную плотность распределения: ДО) ~ иу х+ах/Дх. 13.5. Накопленные частоты или частости Для характеристики свойств вариационного ряда наряду с поня- тием частоты часто используется понятие накопленной частоты. Накопленные частоты (или частости) показывают, сколько значений признака (или какая их доля) не превышает заданного значения х. Для интервального ряда — это сумма частот всех интервалов, предшествующих данному (включая данный). На- копленные частоты можно рассчитывать в восходящем порядке (частоты вариантов суммируются сверху вниз) и нисходящем порядке (частоты вариантов суммируются снизу вверх). 317
Таблица 13.5. Накопленные частоты для данных примера 13.2 Интервалы расходов (х) Интервалы, тыс руб. 100-300 300—500 500— 700 700—900 900—1100 1100-1300 Число поку- пателей /и. 30 38 50 31 22 13 Накоплен- ные часто- ты в восхо- дящем по- рядке 30 68 118 149 171 184 Накоплен- ные частоты в нисходя- щем поряд- ке 184 154 116 66 35 13 Накопленная в восходящем порядке частота третьего интервала I указывает, что 118 покупателей приобрели товары на сумму, не I превышающую 700 тыс. руб. Накопленная в нисходящем порядке | частота этого же интервала указывает на то, что 116 покупателей | приобрели товары на сумму не менее 500 тыс. руб. 1 Итак, накопленной частотой vit соответствующей варианту | хь называется общее число вариантов, имеющих значения призна- 1 ка, меньшие или равные данному, т. е. для которых X < х,. 1 13.6. Графические методы изображения I вариационных рядов1 I Вариационные ряды графически могут быть изображены в 1 виде полигона, гистограммы, кумуляты и огивы. Графиче- 1 ское изображение ряда распределения | позволяет наиболее просто, наглядно отразить основную тен- | денцию вариации признаков. | >• Полигон распределения (многоугольник) строится в прямо- j угольной системе координат. На оси абсцисс отмечаются точки, 1 соответствующие значениям вариантов. Из них восстанавлива- 1 ются ординаты (перпендикуляры), длины которых соответствуют 1 При построении графика следует пользоваться правилом «золотого сечения»: график должен быть расположен в прямоугольнике, в котором высота будет относиться к ширине как 5:8. | частоте или частости этих вариантов (точнее, плотности распре- I деления). Вершины ординат соединяются прямыми линиями. Рис. 13.1. Полигон распределения числа продаж по данным примера 13.2 Чаще всего полигоны применяются для изображения дис- кретных вариационных рядов частот или частостей. В случаях построения полигона для интервальных рядов ординаты, про- порциональные частоте или частости интервала, восстанавлива- ются перпендикулярно оси абсцисс в точке, соответствующей середине данного интервала. Для замыкания крайние ординаты соединяются с серединой интервалов, в которых частоты или частости равны 0. > Гистограмма распределения строится аналогично полигону в прямоугольной системе координат. В отличие от полигона при построении гистограммы на оси абсцисс откладываются не точ- ки, а отрезки, изображающие интервалы, а вместо ординат стро- ят прямоугольники с высотой, пропорциональной частотам, час- тостям или плотностям интервалов (в случае, если интервалы не равные). Если в ряду с равными интервалами соединить прямыми от- резками середины верхних сторон прямоугольников, то получим полигон распределения. 318 319
Как видим, гистограмма — удобный способ представления частот сгруппированных данных в графическом виде. Мы по- строили гистограмму по абсолютным частотам; аналогично строится гистограмма относительных частот (частостей). Рис. 13.2. Гистограмма данных для примера 13.2 > Кумулятивная кривая (кривая сумм) получается при изо- бражении вариационного ряда с накопленными частотами или частостями в прямоугольной системе координат (рис. 13.3). При построении кумуляты дискретного признака на ось абс- цисс наносят значения признака (варианты). Ординатами слу- жат вертикальные отрезки, длины которых пропорциональны накопленным частотам (или частостям) вариантов. Соединяя вершины ординат прямыми отрезками, получаем ломаную ли- нию (кривую) — кумуляту (см. рис. 13.3). При построении кумуляты интервального вариационного ряда нижней границе первого интервала соответствует частота (частость), равная 0, а верхней — вся частота (частость) интер- вала. Верхней границе второго интервала соответствует накоп- ленная частота первых двух интервалов (т. е. сумма частот этих интервалов). Верхней границе последнего интервала соответст- вует накопленная частота (частость), равная сумме всех частот. 320
Рис. 13.3. Кумулята для данных примера 13.2 (см. табл. 13.4) > Огива строится аналогично кумуляте с той лишь разницей, что на оси абсцисс наносят накопленные частоты (частости), а на оси ординат — значения признака. Рис. 13.4. Огива для данных примера 13.2 И Теория статистики с основами теории вероятностей 321
13.7. Числовые характеристики вариационного ряда Квантили вариационного ряда: перцентили, квартили, деци- ли, медиана. Мода вариационного ряда. Квантили вариационного ряда — это варианты, занимающие определенное место в ранжированной совокупности. К числу квантилей, наиболее часто используемых в статистическом ана- лизе, относят перцентили, квартили, децили и медиану, которые характеризуют структуру вариационного ряда. Р-й перцентиль вариационного ряда — это значение признака, слева от которого лежит Р% вариантов ряда. Позиция Р-го пер- центиля задается как (и + 1) Р/100, где п — число вариантов ряда. Перцентиль — это значение признака в определенной пози- ции ранжированного ряда, мера относительной позиции вариан- та в ряду. Например, определим 25-й, 50-й и 90-й перцентили в вариаци- онном ряду, характеризующем число продаж для 26 случайно вы- бранных продавцов универмага (см. пример 13./). Для определения 25-го перцентиля необходимо вначале найти его позицию в вариационном ряду. (я + 1) Р/100 = (26 + 1)(25/1 = (27)(0,25) = 6,75. Эта позиция находится между шестым и седьмым вариантами. Шестой по порядку вариант в ранжированном ряду равен 13, седьмой — 14. Значение перцентиля находится в точке, которая де- лит расстояние между 13 и 14 в отношении 0,75 к 1, расстояние от 13 до 25-го перцентиля составляет 0,75 от длины отрезка между 13 и 14. Итак, 25-й перцентиль1 равен 13,75. Для того чтобы найти 50-й перцентиль, необходимо определить значение варианта, соответствующего позиции: (п + 1) Р/100 = (26 + 1)(50/100) = (27)(0,5) = 13,5. Просматривая ранжированные варианты, мы видим, что значе- ние 13-го по порядку варианта равно 15, а значение 14-го по по- рядку варианта также равно 15, отсюда, 50-й перцентиль равен 15. 1 Следует четко уяснить, что квантили дискретного вариационного ряда не всегда совпадают с определенными (перечисленными) вариантами. Квантиль — это либо вариант ряда, либо промежуточное значение между двумя соседними вариантами. 322
Соответственно мы определяем 90-й перцентиль как значение варианта, соответствующего позиции (и + 1) Р/100 = (27)(90/100) = = 24,3. Значение 24-го варианта равно 19, а 25-го равно 21, следо- вательно, расстояние от 19 до 90-го перцентиля составляет 0,3 от длины отрезка между 19 и 21 (длина отрезка равна двум). Итак, 90-й перцентиль равен 19,6. В статистике наиболее часто применяются квантили, кото- рые делят вариационный ряд на четыре равные части — кварти- ли (от лат. quarta — четверть): первый квартиль, второй квар- тиль, третий квартиль и четвертый квартиль (обозначаются Qi, Qi, Qi, Ол)- Первый квартиль (25-й перцентиль) — это значение признака в вариационном ряду, слева от которого лежит 1/4 (или 25%) всех вариантов. Второй квартиль — это 50-й перцентиль, он называется ме- дианой и обозначается Me. Медиана — значение признака ряда, относительно которого вариационный ряд делится на две равные по числу вариантов части (это 50-й перцентиль)1. Третий квартиль — это точка, слева от которой находится 3/4, или 75% вариантов ряда. 25-й перцентиль называют — нижним квартилем, 50-й пер- центиль (медиану) — средним квартилем, 75-й перцентиль — верхним квартилем. Мы уже нашли нижний и средний квартили для данных примера 13.1. Верхний квартиль — это точка, соответствующая позиции (27) • (75/100) = 20,65, его значение равно 16,65. В статистическом анализе также часто применяют квантили, которые делят вариационный ряд на десять равных частей — децили. А в дискретном вариационном ряду их значения опреде- ляются соответственно как 10, 20, ..., 90 перцентили. Мода — это значение признака, наиболее часто встречающееся в вариационном ряду. Обозначается Мо. Вернувшись к данным примера 13.1, мы нашли шесть значений, равных 14. Значение признака, равное 14, встречается наиболее часто, следовательно, мода равна 14. * Медиана обладает свойством: сумма абсолютных величин отклонений вариантов от медианы меньше, чем от любой другой величины, т.е. Six, - Mel = = min. п* 323
В общем случае квантили интервального вариационного рядаЯ определяются по формуле: irP^Lmi~vQp-\ /ninl Qp = *Qp(nun) + к-т ’ (13.7.1) | Г 1 ntQp Я где — нижняя граница интервала, в котором находится квантиль; I к — величина квантильного интервала (интервальная разность); I vQp _ 1 — накопленная частота или частость интервала, предшест-1 вующего квантильному; 1 Р — доля признаков, находящихся левее квантиля (например, I для верхнего квантиля — это 0,25, для медианы — это 0,5, 1 для седьмого дециля — это 0,7); 9 2>и, — сумма всех частот; | mQp — частота квантильного интервала. 1 Для расчета значения медианы в интервальном вариацион- I ном ряду вначале находят интервал, содержащий медиану, путем 1 визуального просмотра накопленных частот или частостей. Для 1 нахождения медианы вариационного ряда удобно пользоваться 1 рядом накопленных частот. Медиана расположена в вариацион* | ном ряду так, что в одной части ряда находятся варианты, для i которых значение признака не больше медианы (х( < Me), а в I другой части — варианты больше медианы (х, > Me). Медиан- I ному интервалу соответствует первая из накопленных частот или 1 частостей, превышающая половину всего объема совокупности. I Внутри медианного интервала расчет значения медианы произ- | водится по формуле: | „ °^Xw-vMe-l I Ме - xMe(min) +-------’ (13.7.2) 1 ' тМе I где хМе (min) — нижняя граница медианного интервала; 1 к — величина медианного интервала (интервальная разность); | vMe - 1 — накопленная частота или частость интервала, предшествую- | щего медианному; | 0,5 Z/n, — половина суммы всех частот (или частостей); 1 /лм? — частота медианного интервала. I Пример 13.3. I По данным табл. 13.4 вычислим медиану: | Ме = 500 + 200 ~~ = 596. | I В том случае, если вариационный ряд имеет равные интервалы, то I модальный (содержащий моду) интервал определяется по наибольшей » частоте, при неравных интервалах — по наибольшей плотности. Мода | внутри модального интервала определяется по следующей формуле: I т., -т., , Mo = хМо (min) + к -------Mo fro-1--------- , (13.7.3) [ (mMo - mMo-l) + (mMo - mMoJ I где хмоОшп)— нижняя граница модального интервала; «Мо — частота модального интервала; «Mo-i ~ частота интервала, предшествующего модальному; /пМо-1 — частота интервала, последующего за модальным; к — величина модального интервала. Пример 13.4. По данным табл. 13.5 находим моду: МО - S00 + 200 (50 7 $ _3,) * 577,42. Вместо частот при исчислении квантилей и моды можно использо- вать частости. 13.8. Средняя арифметическая вариационного ряда и ее свойства Самая известная и наиболее употребляемая в экономическом анализе характеристика вариационного ряда — это среднее зна- чение вариационного ряда (средняя арифметическая). Средняя арифметическая взвешенная — это отношение суммы произведений значений вариантов на соответствующие частоты к сумме всех частот: _ к к х = j^Xim: / ]?mi i=i <=i (13.8.1) или _ к х = (13.8.2) i=l где т, — частоты вариационного ряда; и», — частости; к — число групп с одинаковыми значениями признака. Формулы (13.8.1) и (13.8.2) применяют в случае, если вариа- ционный ряд сгруппирован по одинаковым значениям вариантов. Повторяющиеся варианты ряда умножаются («взвешиваются») на соответствующие частоты, поэтому эти формулы в статистике называют средней арифметической взвешенной. 324 325
Для расчета средней можно использовать и не взвешенные данные, тогда формула средней арифметической будет иметь вид: х = (13.8.3) /=1 Средняя арифметическая простая равна частному от деления суммы значений всех вариантов на число всех вариантов в ряду. Когда вычисляется средняя для генеральной совокупности, то она обозначается х или греческой буквой ц. Обозначим числа элементов в генеральной совокупности N, а не п. Среднюю арифметическую для данных примера 13.1 можно найти по формуле (13.8.3): х — (х, + х2 + х з + ... + х„) / п = (9 + 12 + 12 + + 13 +13 +13 +14+14+14+14 + 14 + 14 + 15 + 15 + 15 + 15 + + 15 + 16 + 16 +16 +17 + 17 + 19 + 21 + 23 + 27)/26 = 15,5. Или по формуле средней арифметической взвешенной: х = (9 • 1 + 12 • 2 + 13 • 3 + 14 • 6 + 15 • 5 + 16 • 3 + 17 2 + + 19 -1 + 21 • 1 + 23 -1 + 27-1)/26 = 15,5. Напомним, если находится средняя арифметическая интер- вального вариационного ряда, то за значение признака для каж- дого интервала часто условно принимают его середину, т. е. центр интервала. Для данных примера 13.2: х = [(100 + 300)/2[ • 30 + [(300 + 500)/2] • 38 + [(500 + 700)/2] 50 + + [(700 + 900)/2] • 31 + [(900 + 1100)/2)} • 22 + +[(1100 + 13ОО)/2] • 13 = 617,39. Среднюю арифметическую, медиану и моду также часто называ- ют мерами центральной тенденции, так как они являются характери- стиками центра распределения данных вариационного ряда. Представим числа из примера 13.1 как маленькие шарики на числовой оси (рис. 13.5). Отметим на оси среднюю арифметиче- скую, медиану и моду. Если представить, что все шарики имеют одинаковую массу и находятся на предназначенных для них местах числовой оси, то средняя будет балансом, точкой опоры на числовой оси, по обе стороны которой суммы масс шариков будут равны между собой. Что характеризуют эти три меры и каковы их достоинства и недостатки? Средняя суммирует всю информацию и является центром массы, где вся масса — сумма масс всех шариков. 326
Медиана — это значение признака (точка) в центре набора данных. Одна половина значений признака лежит ниже этой точки, другая — выше. Когда вычисляют медиану, то не рас- сматривают точное место каждой точки на числовой оси, а лишь определяют, лежит ли точка ниже или выше медианы. Что это значит? Следует отметить, что вариант заметно сдвинут впра- во (см. рис. 13.5). Если сдвинуть его (или любой другой, лежа- щий правее 21-го) еще вправо, например, точку, соответствую- щую варианту *26, с 26-й до 100-й позиции, то с медианой абсо- лютно ничего не произойдет. Точное местонахождение любой точки несущественно при определении медианы; важно только ее положение относительно центрального значения, т. е. медиа- на устойчива по отношению к крайним значениям ряда. Средняя арифметическая весьма чувствительна к положению крайних значений ряда. Что случится со средней, если увели- чить значение %2б с 27 до 100? ~х= (9+12+12+13+13+13+14+14+14+14+14+14+15+15+15+15+15+ + 16+16+16+17+17+19+21+23+100)/26 » 18,3. * * * * * * * * * ****** __4-------*_*__4__4_*__*____4____* *___________ 9 12 13 14 15 16 17 19 21 23 27 7= 15,5, Ме = 15, Мо = 14 Рис. 13.5. Меры центральной тенденции Итак, средняя увеличилась почти на три единицы при сдвиге вправо только одной точки %2б- Тем не менее средняя арифмети- ческая имеет существенные преимущества перед другими мера- ми центральной тенденции. Средняя арифметическая основыва- ется на информации, содержащей все значения вариационного ряда, в то время как медиана базируется только на значении, лежащем «в середине ряда». В случае, если желают предотвра- тить влияние нескольких наблюдений, лежащих далеко от цен- тра ряда, то необходимо использовать и медиану. Так, если изу- чают распределение доходов или заработной платы и имеет ме- сто высокая степень неравенства, т. е. в вариационном ряду 327
присутствует некоторое число единиц наблюдения как с очень высокими, так и с очень низкими доходами, то логичнее рассчи- тывать не средний доход, а медианный; в такой ситуации он бо- лее адекватно отразит типичное значение дохода. В экономической литературе, статистических справочниках часто встречаются ряды, в которых крайние интервалы открыты. Для подсчета средней арифметической в таких рядах прибегают либо к приему, описанному в параграфе 13.3, т. е. приравнивают величину последнего интервала к величине предпоследнего ин- тервала, а величину первого — к величине последующего, что может привести к искажениям, либо применяют достаточно сложные методы и приемы определения длины открытого ин- тервала, основанные на экстраполяции (искусственном продол- жении ряда). Наиболее простое и корректное решение вопроса о среднем уровне в такой ситуации — вычисление медианы. Мода не так популярна в статистическом анализе, как сред- няя арифметическая и медиана. Мода говорит о том, какое зна- чение в вариационном ряду встречается наиболее часто. В одном ряду может быть несколько мод. Моде как обобщающей харак- теристике вариационного ряда отдается предпочтение при изу- чении цен на рынке, при изучении спроса населения на отдель- ные продукты питания, одежду и обувь определенных размеров. Обычно говорят, что если средняя арифметическая близка к мо- де и медиане, то она типична. Если набор данных симметричен (это означает, что одна сторона распределения зеркально повторяет другую) и имеет только одну моду, то в таком распределении мода, медиана и средняя арифметическая равны между собой. Эта ситуация представлена на рис. 13.6. ***** ***** ******* * ”"* А ' ' й й ""й 11 * —’* —* Средняя арифметическая — Медиане = Моде Рис. 13.6. Симметричное распределение признака вариационного ряда Вычисление моды особенно существенно в несимметричных вариационных рядах, когда она может сильно отличаться от ме- дианы и средней арифметической. 328
Свойства средней арифметической 1. Средняя арифметическая постоянной величины равна этой постоянной, т. е. с — с, где с = const. Доказательство: k k к В самом деле, если всех) = с, то —c^mi, тогда 1=1 1=1 /=1 к 2. Если все варианты ряда уменьшить (увеличить) на одно и то же число (с), то средняя арифметическая уменьшится (увеличится) на то же число. Доказательство: _____ к к (к к А к х-с = ^{xi-c)mi/^mi~ l/Xmi = i=l i=l <1=1 1=1 / i=l к к к к ~ /^т.=х-с. i=l 1=1 i=i /=1 Пример 13.5. По данным табл. 13.2 (пример 13.1) проверить второе свойство, уменьшив все значения вариантов на 151. Составим рабочую таблицу (табл. 13.6): Таблица 13.6. Расчет средней арифметической для проверки второго свойства Xi — 15 = х'; mi . х>т> -6 -3 —2 -1 0 1 1 2 3 6 5 3 -6 -6 -6 -6 0 3 2 4 6 8 12 2 1 1 1 1 4 4 6 8 12 I 26 13 1 Вычисления будут менее громоздкими, если вместо с взять значение варианта, которому соответствует наибольшая частота. 329
х - 15 = х = '11 11 ^x'itni / ^т, = 13 / 26 = 0,5; v=l <=1 x-15 = 15,5 - 15 = 0,5. 3. Если все варианты ряда уменьшить (увеличить) в одно и то же число раз, то средняя арифметическая уменьшится (увеличится) во столько же раз. Доказательство: _____ к к [х / к) = ^х. / k)mi / <=1 /=1 ' к У, Xi mt к / Xя1' /=1 , - х / к . Пример 13.6. Если найти центры интервалов в табл. 13.4 (пример 13.2), то полу- чим вариационный ряд: _*L_ 200 400 600 800 1000 1200 mi 30 38 50 31 22 13 Средняя арифметическая этого ряда равна 617,39. Проверим третье свойство, уменьшив все значения вариантов в 200 раз. Составим вспо- могательную расчетную таблицу (табл. 13.7). Таблица 13.7. Проверка третьего свойства по данным примера 13.2 х" = х/200 W, xi'mj 1 30 30 2 38 76 3 50 150 4 31 124 5 22 110 6 13 78 2 184 568 '6 А 6 ______ Значит, х" = Хх” т‘ /Хт' = 568/184 « 3,0869565, т. е. (х/200) = V/=l ) м = х/200 или (3, 0869565)(200) « 617,39. 330
4. Если частоты (частости) средней взвешенной разделить или умножить на постоянное число, то средняя арифметическая не изменится. Доказательство: к (к (к к ^ximic или -------- V=1 к к 7=1 к С Пример 13.7. Умножим в табл. 13.2 (пример 13.1) все частоты т, на 2, получим новый вариационный ряд: Xi 9 12 13 14 15 16 17 19 21 23 27 т, 2 4 6 12 10 6 4 2 2 2 2 Вычислим среднюю арифметическую по формуле (13.8.1): х = 15,5. 5. Если вариационный ряд состоит из I непересекающихся групп наблюдений, то средняя арифметическая всего ряда равна взвешен- ной средней арифметической групповых (частных) средних. Причем весами являются объемы групп {N\, fy, ..., N/), где I — число групп. Пусть Л], «2 — числа вариантов в первой и второй группах, х — средняя арифметическая для всех (и|+ н2) вариантов, xt, х2 — средние арифметические для первой и второй групп ряда. 1.Требуется доказать, что х = (x\Nx +x2(V2)/(^i +Ni)- Доказательство1. По определению средней арифметической п, п, h+"2) ("|+«2) имеем Xj = ^ximi /^mit а х2 = ^Гх(/п,-/ , /=1 /=1 /=Л[+1 1=Л|+1 Л/ _ («1+л2) откуда '^ximi=xiNx; ^х^т^х^ 1 = 1 2=Л] + 1 окончательно получим: 1 Доказательство проведем для двух групп. 331
_ (xt/И! +X2W2+-+^,ffln,) + (xn,+lfflw+l+-+Xn[+/,;/n„|+/,2) Xj.Ni +x2N2 Nj + N2 Nj + N2 В общем виде частная средняя Xj /^mj, где суммиро- вание в числителе и в знаменателе дроби осуществляется по тем и только тем номерам вариантов, которые попали в j-ю группу, т.е. от i = щ + «2 +..+«;_] +1 до i = щ + п2+..,+nj, ''тогда общая средняя выражается через частные средние как ! Х = £х/^/ / П ’ j=l где j = 1; 2; Г, Nj+...+Nt = п (гц +п2+...+п/ = k(l <&)) . Пример 13.8. Вычислить частные (внутригрупповые) средние числа продаж (табл.13.2) для данных примера 13.1, разделив вариационный ряд на две части: в первую группу включить продавцов с числом продаж до 15, а во вторую — продавцов с числом продаж свыше 15: Xj m, Х/Ш,- х,- т, Х/«/ 9 1 9 16 3 48 12 2 24 17 2 34 13 3 39 19 1 19 14 6 84 21 1* 21 15 5 75 23 1 23 2 17 231 27 1 27 х 26 403 XI = 5 5 2х, mt / = 23! / 17 = 13,588235; =1 <=1 /11 н х2= /2^ = 172/9 = 19,1111; \i=6 / /=б - 13,5882-17+ 19,1111-9 х = —-------------------
6. Сумма отклонений вариантов ряда от средней арифметиче- ской равна нулю. Доказательство: ^(xi - x)mt /£«<= Sх‘ "Ч I / Z w' = /=1 <=] 4=1 i=l / i=l = £Ximi / Xmi -2mi = x - * = °- i=l Z=1 Z=I (=1 Пример 13.9. Проверим это свойство на данных примера J3.2. Центры интервалов (х,) /и, х;т, X/ — X (х,- — х) т. 200 30 6 000 -417,3913 -12521,739 400 38 15 200 -217,3913 -8260,8694 600 50 30 000 -17,3913 -869,565 800 31 24 800 182,6087 5660,8697 1000 22 22 000 382,6087 8417,3914 1200 13 15 600 582,6087 7573,9131 S 184 113 600 0 1 71. Сумма квадратов отклонений вариантов ряда от средней арифметической меньше, чем сумма квадратов отклонений вари- k 2^2 антов от любого другого числа £(х; - ху т, < £(х, - су пи- м /=1 Доказательство: Обозначим через f сумму квадратов отклонений вариантов от произвольного числа с и будем искать значение с, которое об- ращает функцию f в минимум: 2(х,- ~ с)2 -* min . /=1 Решение2 является корнем уравнения dfjdc = 0 (*). 1 В статистике это свойство называется «минимальным свойством средней арифметической». 2 Уравнение (*) является, как известно, лишь необходимым условием минимума. Достаточным условием является при этом положительный знак производной: iff /d<? > 0. Легко видеть, что последнее неравенство имеет место. В самом деле: d2f _ ti- de1 de - 2 j>}(x, - с)пц = 2^m( = 2л > 0 /=1 J /=1 333
После дифференцирования получаем: 2^(х, -с)(- 1)ги, = 0. /=1 Отсюда имеем: к к к к к =°; Y,ximi ~c£mi=Q'> Y,ximi =CY.mb /-1 i=l i=l i=I <=1 к £ x.mi / = 1 13.9. Геометрическая средняя Предположим, что мы имеем некоторую инвестированную сумму денег, которая приносит ежегодный доход. Процент дохода меняется из года в год. Например, в течение 5 лет мы получили доход ?! в первый год, 4 — во второй год, ?з — в третий год, /4 — в четвертый год, 4 — в пятый год. Доход на инвестиции начисляется один раз в год. Это значит, что после первого года сумма, равная процентному приросту 4, добавляется к первоначальной сумме сче- та. Если необходимо найти средний уровень дохода за пять лет, то надо сложить О, 4, ?з, ?4, 4 и разделить на 5. Полученное значение будет арифметической средней уровня дохода за 5 лет. С другой стороны, заметим следующее. Если первоначальная сумма счета Р, то после первого года мы имеем AI+?i) на счету. В конце второго года на счету будет +?i)(l+4) и так далее. По исте- чении пяти лет будем иметь F= Р(1+4)(1+4)(1+?3)(1+4)(1+4). Если мы хотим определить средний процент дохода ?, который даст нам сумму дохода F по истечении пяти лет, при прибавлении ежегодного накопленного прироста к сумме вклада, то это должна быть геометрическая средняя процента по вкладу. Уро- вень процента / есть средняя из 4, 4, 4» 4, /5 в мультипликатив- ном смысле. Это коэффициент, который находится из следую- щего уравнения: (?+1)5 - (1+4)(1+4)(1+4)(1+4)(1+,5)- Решение этого уравнения находится по формуле: (/ +1) = ^(1 + ?1)(1+12)(1+/з)(1 + '4)-(1 + /й) , (13.9.1) где (?+1) — геометрическая средняя из (1+4),(1+/2),(И-?3),(1+4),(1+?5). Например, предположим, что п - 2 года, 4 = 0,10 и 4 = 0,05. Геометрическая средняя от (1+4) и (1+4) есть: (1+0 = = 71,10 1,05 = 1,0747. Эта средняя дает процентный рост по вкла- 334
ду за два года — 0,0747 или 7,47%. Если бы мы рассчитывали среднюю арифметическую, то получили бы х = (0,10 + 0,05)/2 = = 0,075, что несколько отличается от геометрической средней. Разница в данном примере невелика, но расчет по формуле средней геометрической более верен. 13.10. Меры вариации (рассеяния). Дисперсия и ее свойства Пример 13.10. Рассмотрим два вариационных ряда: Ряд Г. 1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11. Ряд II: 4, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8. Оба ряда имеют одинаковое число наблюдений п — 12 и одинаковые значения средней арифметической, медианы и моды — все равные 6. Но мы ясно видим, что ряды различны. В чем же суть различий между ни- ми? Графическое изображение ряда I и ряда II показано на рис. 13.7. Оба ряда имеют одинаковую центральную тенденцию (измеренную тремя мерами центральности — х, Me и Мо). Однако значения признаков в первом ряду более широко разбросаны: они лежат дальше от средней по сравнению со вторым рядом, т. е. вариация признака в первом ряду зна- чительнее, чем во втором. Ряд I более вариабелен, чем ряд II. Ряд I: *********** Средняя = Медиане = Моде = 6 Ряд II: * * * * * * * * ***** 4 5 6 7 8 Средняя — Медиане = Моде — 6 Рис. 13.7. Сравнение вариации рядов I и II В статистике используется ряд мер вариабельности (колеблемости). 335
Определим интерквартильный размах как разницу между пер- вым и третьим квартилями. Чем больше величина интерквар- тильного размаха, тем больше, рассеяние признака. Интерквар- тильный размах в ряду I равен 5,5; интерквартильный размах в ряду II равен 2,0. Интерквартильный размах — мера рассеяния, или вариации признака. Другая подобная мера — размах вариации. Размах вариации в ряду — разность между наибольшим и наи- меньшим значениями признака. Размах вариации в первом ряду, наибольшее значение признака ми- нус наименьшее значение признака =11 — 1 = 10. Размах вариации во втором ряду: наибольшее значение признака минус наименьшее значение признака = 8 — = 4. Размах вариации пер- вого набора больше, чем размах вариации второго набора данных, т. е. первый набор — более вариабельный, что также видно и на рис. 13.7. Размах вариации и интерквартильный размах — меры раз- броса признаков в наборе данных. Интерквартильный размах более устойчив к значениям крайних вариантов. Существуют и другие более часто используемые меры вариации. Это — среднее линейное отклонение, дисперсия и стандартное отклонение (или среднеее квадратическое отклонение), которые подобно средней используют всю информацию, содержащуюся в вариационном ряду. (Размах вариации содержит информацию только о рас- стоянии между наибольшим и наименьшим значениями, а ин- терквартильный размах содержит информацию только о разно- сти между верхним и нижним квартилями). Пример 13.11. Обсудим расчет дисперсии и среднего квадратического (стандартного) отклонения на данных примера 13.1. Мы можем опреде- лить вариацию как среднее значение отклонений каждого из вариантов от средней арифметической. Однако сумма отклонений всех вариантов от их средней арифметической, согласно свойству средней арифметиче- ской, всегда будет равна нулю. Поэтому для нахождения меры вариа- ции можно возвести в квадрат каждое отклонение от средней1; это из- меняет отрицательные знаки отклонений на положительные, и теперь 1 Если взять значения отклонений вариантов от средней по абсолютной вели- чине, то средняя арифметическая из абсолютных значений этих отклонений есть среднее линейное отклонение: Р = (S Iх' ~*1 336
вариация не равна нулю. Сложим полученные значения и разделим сумму на число вариантов ряда. Полученная мера — средняя арифме- тическая квадратов отклонений, называемая в статистике дисперсией. Таблица 13.8. Расчет дисперсии по данным примера 13.1 Xi Х//И,- X/ -х (Х,-Х)7Л( (Xj-x)2Wj 9 1 9 -6,5 -6,5 42,25 12 2 24 -3,5 -7,0 24,50 13 3 39 -2,5 “7,5 18,75 14 6 84 -1,5 -9,0 13,50 15 5 75 -0,5 -2,5 1,25 16 3 48 0,5 1,5 0,75 17 2 34 1,5 3,0 4,50 19 1 19 3,5 3,5 12,25 21 1 21 5,5 5,5 20,25 23 1 23 7,5 7,5 56,25 27 1 27 11,5 11,5 132,25 S 26 403 0 0 336,5 Для окончательного расчета дисперсии сумму в последнем столбце необходимо разделить на сумму во втором столбце: ст2 = 336,5/26 « 12,94. Дадим определение дисперсии. Дисперсия вариационного ряда есть средняя арифметическая квадрата отклонения {средний квадрат отклонения) значений признаков ряда от их средней арифметической'. для взвешенных вариантов для невзвешенных вариантов к. п . Кх.-х)2^- £(х,-х)2 ст2 = bl—-------; (13.10.1) ст2 = ы----------. (13.10.2) V " 1=1 Определим теперь стандартное отклонение (среднее квадрати- ческое отклонение): 337
Стандартное отклонение вариационного ряда есть арифметиче- ское значение корня квадратного из дисперсии. <т = 7?- (13.10.3) I а = 712,94 « 3,5975 или, округляя до двух знаков, — о » 3,60. Для чего мы используем стандартное отклонение, если уже имеем такую меру вариации признаков, как дисперсия1? Желатель- но, чтобы показатель рассеяния выражался в тех же единицах, что и значение признака (дисперсия этим свойством не облада- ет). Извлекая квадратный корень из дисперсии, мы получаем показатель, имеющий ту же единицу измерения, что и анализи- руемый признак. В чем смысл дисперсии и среднего квадратического отклонения? Как мы можем интерпретировать их значения? По определению о2 — средний квадрат отклонений вариантов от средней ариф- метической, это — мера рассеяния всех значений вариантов от- носительно средней арифметической. Чем больше вариация, тем дальше от средней находятся возможные значения призна- ков. Если сравнивают два вариационных ряда, то тот из них, который имеет большую дисперсию и среднее квадратическое отклонение, более вариабелен. Риск, ассоциируемый с инвести- циями, часто измеряют стандартным отклонением возврата ин- вестиций. Если сравниваются два типа инвестиций с одинако- вой ожидаемой средней возврата, то инвестиции с более высо- ким средним квадратическим отклонением считаются более рискованными (хотя более высокое стандартное отклонение предполагает возврат, более вариабельный с обеих сторон — как ниже, так и выше средней). В научном анализе предпочтительно использование диспер- сии, так как она имеет ряд полезных математических свойств, на практике же лучше работать со стандартным отклонением, поскольку эта мера легко интерпретируется. Если мы имеем калькулятор со статистическими функциями или компьютер, то формулы (13.10.1) и (13.10.2) устроят нас, но для ручного счета они неудобны. Для ручного счета лучше поль- зоваться формулой дисперсии следующего вида, которая легко выводится из формулы (13.10.1): 338
о2 = х2-(х)2. (13.10.4) к _ X X2 т‘ где х2 = —к----• i = l Составим таблицу, чтобы облегчить вычисления (табл. 13.9). Таблица 13.9. Расчет дисперсии для данных примера 13.1 по формуле (13.10.4) X/ 9 1 9 81 12 2 24 288 13 3 39 507 14 6 84 1 176 15 5 75 1 125 16 3 48 768 17 2 34 578 19 1 19 361 21 1 21 441 23 1 23 529 27 1 27 729 - S 26 . 403 6 583 Используя формулу (13.10.4), имеем: <т2 = х2-(х)2 = (6583/26) - (15,5)2 = 253,19 - 240,25 = 12,94. Свойства дисперсии 1. Дисперсия постоянной величины равна нулю. Доказательство: Если х — с (с — const), то и х = с. Тогда £(х-х)2 т, ^Дс-cfmi /=1 /=1 2. Если все значения вариантов уменьшить на постоянную ве- личину, то дисперсия не изменится. 339
Доказательство: Преобразуем все варианты рада (xj—с), (х^—с), (хп — с) и найдем дисперсию этого рада: k г э к Е [(*/ - СНХ - с)] mi £(xz - х)2 2 _ ы______________________id__________„2 °х-с- п л -а*’ Еда' Е7”' /»1 /=1 т е. о2_с = ст|. (13.10.5) Пример 13.12. На данных примера 13.1 (см. табл. 13.2) убедимся, что если все значения вариантов уменьшить на постоянную величину 14, то дисперсия не изме- нится. Для этого составим рабочую таблицу (табл. 13.10): Таблица 13.10. Рабочая таблица Xi mt (х(-14) (X, - 14) /Л; (х, - 14)2от,- 9 1 -5 —5 25 12 2 -2 —4 8 13 3 -1 -3 3 14 6 0 0 0 15 5 1 5 5 16 3 2 6 12 17 2 3 6 18 19 1 5 5 25 21 1 7 7 49 23 1 9 3 81 27 1 13 13 169 S 26 — 39 395 х- 14 = 39/26 = 1,5; °^-14) = 14)2 " " 14>2 = 395/26 " I-52 = 12,94 = . 3. Если все значения вариантов увеличить (уменьшить) в г раз', то дисперсия увеличится (уменьшится) в г2 раз. Доказательство: преобразуем все варианты рада (x\/r), (х^г),..., (x„/f) и найдем дисперсию этого рада: г — может быть как положительным, так и отрицательным числом. 340
Yixi-xf пц i=l Отсюда °х/г = Ox /г2 или о2. = O2 r2 (13.10.6)1 Пример 13.13. На данных примера 13.1 (табл. 13.2) убедимся, что если все значения вариантов увеличить в два раза, то дисперсия увеличится в четыре раза. Таблица 13.11. Иллюстрация третьего свойства дисперсии Xi 2х, (2х() т, (2х,)2 mt 9 1 18 18 324 12 2 24 48 1 152 13 3 26 78 2 028 14 6 28 168 4 704 15 5 30 150 4 500 16 3 32 96 3 072 17 2 34 68 2 312 19 1 38 38 1 444 21 1 42 42 1 764 23 1 46 46 2 116 27 1 54 54 2 916 S 26 S 806 26 332 Вычислим искомую дисперсию по формуле (13.10.4): = (2х)2 - ( 2х )2 - 26 332/26 - (806/26)2 = 51,7692, т. ,е. <%х = 22 1 Следует заметить, что в правой формуле уменьшится в | г| раз. 341
13.11. Коэффициент вариации Напомним, что стандартное отклонение — абсолютная мера рассеяния вариантов ряда. В ряде же случаев используют и от- носительную меру рассеяния — коэффициент вариации. Предположим, что стандартное отклонение в выборке равно 20. Что значит информация, передаваемая этой мерой? Если это набор данных, содержащий информацию о денежных валютных средствах на счетах, то могут быть значительные расхождения в интерпретации о = 20 между ситуациями, когда данные содер- жат информацию о счетах, сумма которых $50 или $60, или в случае, когда счета в $1 000 000 и больше. В первом случае стан- дартное отклонение в 20 единиц очень велико относительно сумм счетов. Для суммы порядка $1 000 000 — что значит вариа- ция +$20 относительно среднего? Конечно, такая вариация будет «каплей в море». Сравнивая эти два случая, можно сказать, что такая абсолютная мера рассеяния, как стандартное отклонение, не передает существенной информации при сравнении вариаци- онных рядов. Коэффициент вариации создан специально как относительная мера вариации. Коэффициент вариации V позволяет представить дисперсию как долю от среднего значения данных: V=~- (13.11.1) X Формула V — стандартное отклонение, деленное на среднюю. Можно выразить вариацию в процентах. Для этого необходимо умножить значение коэффициента вариации /на 100%. Если в выборке счетов средняя х - 60, а стандартное откло- нение ст - 20, то / = ст/х = 20/60 = 0,33. С другой стороны, если средняя сумма счетов х — 1 000 000, а стандартное отклонение равно 20, то К = ст/х = 20/1 000 000 = = 0,00 002, что значительно меньше. Чем меньше значение коэффициента вариации, тем однороднее совокупность по изучаемому признаку и типичнее средняя1. 1 Использование коэффициента вариации имеет смысл при изучении вариации признака, принимающего только положительные значения. Совершенно непра- вильно пользоваться V в случае измерения колеблемости признака, принимаю- щего как положительные, так и отрицательные значения. Не имеет смысла, например, коэффициент вариации V, вычисленный для изучения колеблемости среднегодовой температуры воздуха, что особенно ясно при среднегодовой тем- пературе, близкой к нулю. 342
13.12. Правило сложения дисперсий Колеблемость значений вариационного ряда, как правило, обусловлена влиянием различных факторов или условий. Вы- явить долю вариации, определяемую теми или иными фактора- ми, можно, расчленяя всю совокупность на группы по фактору, влияние которого исследуется. Пусть вся совокупность вариантов ряда разбита на I групп. Для каждой группы вариантов ряда можно вычислить средние, которые называются частными средними, и дисперсии, которые называются частными дисперсиями, или внутригрупповыми дисперсиями'. , (13.1Z.1) Zjni где суммирование и в числителе и в знаменателе дроби осуществляется по тем и только тем номерам вариантов, которые попали в у-ю группу, т. е. от i = («j + п2 + ... + ! + 1) до i = («| + п2 + ... + лу), mt — часто- ты вариантов в у-й группе; х, — значения вариантов внутри у-й группы; Xj — средняя арифметическая у-й группы; Nj = 'Em, — объем у-й груп- пы, у - 1, 2, ..., I (/ — число групп). Пример 13.14. ' Вычислить частные (внутригрупповые) дисперсии числа продаж (табл. 2.2) для данных примера 13.1, разделив вариационный ряд на две группы: в первую группу включить продавцов с числом продаж до 15, а во вторую — продавцов с числом продаж свыше 15. Решение. Вычислим дисперсии по формуле (13.10.4): Таблица 13.12. К вычислению дисперсии /и,- х/и, хрт/ х. от,- xfllj х/от. 9 1 9 81 16 3 48 768 12 2 24 288 17 2 34 578 13 3 39 507 19 1 19 361 14 6 84 1176 21 1 21 441 15 5 75 1125 23 1 23 529 231 3 177 27 1 27 729 17 1 S 9 972 3 406 - “2 = 3177/17 - (231/17)2 = 186,88 _ 184)64 = 2,24; 343
02 = *2 ~ *2 = 3406 / 9 — (972 / 9)2 = 378,44 - 365,23 = 13,21. Средняя из внутригрупповых (частных) дисперсий c2j = ^-n-- (13.12.2) ---------------------------------------------------------j------ где Nj(J= 1, 2, ..., /) — объемы непересекающихся групп; п - ^Nj j-l Средняя из частных дисперсий служит для характеристики среднего рассеяния признака внутри групп. Пример 13.15. По условию примера 13.12 определим среднюю групповых дисперсий о; = ЛГ/j / « = (2,24222 • 17 + 13,20992 • 9)/26 » 6,0387. Межгрупповая дисперсия измеряет колеблемость групповых средних вокруг общей средней. Межгрупповой дисперсией 82 назы- вается средняя арифметическая квадратов отклонений групповых средних xj всех непересекающихся групп от общей средней х, т. е. X(Xi~X) NJ §2 = Zz!---------. (13.12.3) n Межгрупповая дисперсия измеряет вариацию, положенную в основу группировки. Пример 13.16. Вычислить межгрупповую дисперсию распределения числа продаж, используя данные примеров 13.12 и 13.13. Решение. По формуле (13.12.3) имеем: 82 = [(13,58 - 15,5)2 • 17 + (19,11 - 15,5)2 • 9] / 26 « 6,9. Общая дисперсия вариационного ряда не равна сумме из ча- стных дисперсий. Например, предположим, что имеется не- сколько непересекающихся групп данных, характеризующих один и тот же признак. Величина дисперсии внутри каждой из групп незначительна. Однако частные средние по группам резко 344
различаются. Если мы объединим группы в один вариационный ряд, то ясно, что общая дисперсия ряда будет больше средней арифметической из частных дисперсий за счет разницы в значе- ниях признака между группами. Естественно поэтому предпо- ложить, что общая дисперсия складывается из дисперсий, имеющих место внутри частных групп, и дисперсии между средними значениями этих групп. Существует закон, связывающий три вида дисперсии. Общая дисперсия равна сумме средней из внутригрупповых и межгрупповой дисперсии. а2 = ст2 + 82, т.е. (13.12.4) Общая дисперсия Средняя из частных дисперсий Межгрупповая дисперсия Пример 13.17. Вычислить общую дисперсию числа продаж, осуществлен- ных 26 продавцами, по данным примеров 13.13 и 13.14, применяя пра- вило сложения дисперсий. Решение. По формуле (13.12.4) имеем ст2 = 6,04 + 6,9 = 12,94, что совпадает с результатом, полученным по формулам (13.10.3) и (13.10.4). 13.13. Эмпирические моменты распределения Моменты распределения — обобщающие характеристики ва- риационных рядов. Средняя из r-х степеней отклонений вариан- тов х от некоторой постоянной величины А называется момен- том r-го порядка. Если обозначить момент г-го порядка через Мг, то в общем виде можно записать: е(х-4^ Мг = ------ (13.13.1) <=1 В зависимости от величины г могут быть рассчитаны момен- ты любого порядка, но в статистике находят практическое при- менение моменты первых четырех порядков. 345
В качестве постоянной величины А может быть принято лю- бое число. Моменты, при исчислении которых в качестве постоянной величины А принято произвольное число, называют условными моментами. Если А — 0, то моменты именуют начальными. Формула начальных моментов: к S хГ т> тг = ----• (13.13.2) 1=1 Первые четыре начальных момента выглядят следующим об- разом: если г = 0, то mQ = = если r= 1, то т\ = £х}т, /"£mi ~ х> если г = 2, то т2 = = х2 > если г = 3, то ту = ^х^пц = х3 . Очевидно, что начальный момент первого порядка не что иное, как средняя арифметическая. В статистике находят применение моменты, для исчисления которых в качестве постоянной величины используют среднюю арифметическую ряда, т. е. А = х. Такие моменты называют центральными и обозначают ц. Общая формула центральных моментов: k _.г £(*/-*) т, 121 ------ (13.13.3) Центральные моменты первых четырех порядков выглядят следующим образом: щ = S(x< ~ *) т< и2 = -*)2 w/Sw; 346
Ц3 = S(xi ~x) щ = Z(x/ ~x) Центральный момент первого порядка щ всегда равен нулю (согласно 6-му свойству средней арифметической), а централь- ный момент второго порядка Ц2 является дисперсией. 13.14. Асимметрия и эксцесс При изучении экономических явлений симметричные ряды встречаются довольно редко, чаще исследователю приходится иметь дело с асимметричными рядами. Когда график вариаци- онного ряда (распределение набора данных) скошен в правую сторону больше, чем в левую, то мы говорим, что распределение имеет правостороннюю скошенность {асимметрию). Соответст- венно скос в левую сторону дает левостороннюю скошенность {асимметрию). На рис. 13.8 показаны распределения с правосто- ронней и левосторонней скошенностью. Рис. 13.8. Асимметрия распределения Итак, для симметричного распределения с одной модой име- ет место равенство: мода = медиане = средней арифметической. 347
В общем при правосторонней асимметрии средняя находится справа от медианы, которая лежит справа от моды. Для распре- деления с левосторонней асимметрией — наоборот. Чем больше асимметричен график, тем больше расхождение между средней арифметической, медианой и модой (см. рис. 13.8). Поэтому наиболее простой мерой скошенности вариационного ряда (обозначается As) будет разность между средней арифметической и модой As = х — Mq). Если As > 0 — асимметрия правосторон- няя, если As < 0 — левосторонняя. Для сравнения асимметрии в нескольких рядах удобнее пользоваться относительным показателем: At= (~х - М0)/а, (13.14.1) где ст — среднее квадратическое отклонение. Другой, более распростра- ненный, показатель асимметрии основан на использовании централь- ного момента третьего порядка. В симметричных вариационных рядах нечетные центральные моменты равны нулю, при ц3 > 0 имеет место правосторонняя асимметрия, а при ц3 < 0 — левосторонняя. В качестве показателя асимметрии используется величина Л=ц3/ст3, (13.14.2) которая называется нормированным моментом третьего порядка. Если Aj > 0,5 (независимо от знака), то асимметрия считается существенной. Графики вариационных рядов бывают плосковершинными (низковершинными) и островершинными (высоковершинными). Ме- рой крутости служит эксцесс (куртозис), который характеризует островершинность или плосковершинность ряда распределения. (Островершинность или низковершинность ряда распределения определяется относительно кривой нормального распределения, свойства которой будут подробно изучены в последующих раз- делах математической статистики.) В качестве показателя экс- цесса используется величина: Ех = (р4/ст4> “ 3. (13.14.3) Дробь Ц4/СТ4 = Г4 называется нормированным моментом чет- вертого порядка. Если Ех > 0, то эксцесс считают положитель- ным (график ряда распределения островершинный), если Ех < 0, то эксцесс считают отрицательным (график ряда распределения плосковершинный). 348
13.15. Эмпирическая функция распределения (вариационного ряда) Эмпирической функцией распределения совокупности по признаку А называется функция Fn(x), выражающая для каждого X долю тех ее вариантов, у которых признак А имеет значения, меньшие х. Если число таких вариантов есть т(х), а объем совокупности равен п, то: F„ (х) = (13.15.1) Пример 13.18. По данным табл. 13.2 найти эмпирическую функцию распределе- ния по числу продаж 26 продавцов универмага (пример 13.1). Искомая эмпирическая функция распределения равна нулю для всех х 9. Действительно, если, например, х = 9, то т(9) = 0 как число про- даж, количество которых меньше 9 (такого количества продаж не было), а поэтому и Ев(9) — 0. Ясно, что если х < 9, то тем более Fn(x) — 0. Пусть теперь 9 < х < 12, т. е. х больше первого варианта, но не пре- восходит второй. Например, при х = 10 имеем т(10) — 1 — число про- даж, меньших 10 (к ним относится одно значение Х| = 9). Поэтому F„ (10) = 1/26 « 0,04 (см. также табл. 13.13). Аналогично можно показать, что Fn (х) = 0,04 для всех значений 9< х< 12. Если 12 < х < 13, т. е. больше второго варианта, но не пре- 349
восходит третий. Например, если х = 13, то лм(13) = 3, так как количе- ство продаж меньше 13 — у троих продавцов: у одного продавца — 9 продаж у двоих — 12 продаж. Следовательно, F„ (13) = 1/26 + 2/26 = =3/26 да 0,11, как и для других значений 12 < х < 13 и т.д. Найдем аналогично значения эмпирической функции распределе- ния F„(x) для остальных значений х, представим ее в табличной форме: Таблица 13.13. Функция распределения в табличной форме X —от<х<9 9<х<12 12<х<13 13<х<14 14<х<15 15<х^16 ад) 0 0,04 0,11 0,23 0,46 0,65 X 16<лс£17 17<х<19 19<х<21 21<х<23 23<х<27 27<х<оо ад> 0,77 0,85 0,88 0,92 0,96 1 Или же эмпирическую функцию Fn(x) можно записать ана- литически: 0 при х<9; 0,04 при 9 < х < 12; 0,11 при 12 < х< 13; 0,23 при 13<х<14; 0,46 при 14 < х < 15; 0,65 0,77 при при 15 < х < 16; 16<х<17; 0,85 при 17< х < 18; 0,88 при 18<х<20; 0,92 При 20<х<21; 0,96 при 21 < х^ 24; 1 при х>24. График эмпирической функции распределения изображен на рис. 13.10. 350
Пример 13.19. Найти эмпирическую функцию распределения количества денег, израсходованных покупателями на приобретение товаров в отделе верх- ней одежды (по данным табл. 13.4 (пример 13.2)). Очевидно, что эмпирическая функция распределения равна нулю для всех - оо < х < 100, так как среди обследованных не оказалось по- купателей, потративших на покупки меньше 100 тыс. руб. Теперь мож- но найти значение эмпирической функции распределения при х = = 300 тыс. руб. (на правом конце интервала) и нельзя сделать этого, если 100 < х < 300. В самом деле, если, например, х = 299, то число покупателей, потративших денег меньше, чем 299 тыс. руб., т. е. т (299), неизвестно, так как по таблице невозможо установить количество денег, истраченное покупателем, которое отнесено к первому интерва- лу. Поэтому нельзя указать значение F„(299) = т (299)/184. Но при х = = 300 имеем Ги(300) = т (300)/184 = 30/184 « 0,163, поскольку согласно табл. 13.4 покупателей, истративших меньше 300 тыс. руб. (каждый), — 30 человек. Таким образом, можно найти значения эмпирической функции распределения лишь для правых границ каждого интервала. На- пример, при х= 500 тыс. руб. имеем F„(500) = от(500)/184 = 68/184 « 0,37, так как 68 покупателей заплатили за покупки меньше чем 500 тыс. руб. (30 — от 100 до 300 тыс. руб. и 38 — от 300 до 500 тыс. руб.) и т.д. В результате получим искомую эмпирическую функцию распределения. X —оо<х£100 300 500 700 900 1100 1300<х<оо 0 0,163 0,37 0,641 0,81 0,929 1 351
Построим график этой функции. Чтобы показать непрерыв- ность изменения функции F„(x), точки, соответствующие значе- ниям функции при указанных в таблице значениях аргумента, соединим отрезками прямой (рис. 13.11). Рис. 13.11. Эмпирическая функция интервального вариационного ряда по данным примера 13.2 13.6. Задачи к главе 13 Задача 1. Число пассажиров компании «Донские авиалинии» одного из рейсов между Ростовом и Москвой за 30 дней между апрелем и маем текущего года составило: 128, 121, 134, 118, 123, 109, 120, 116, 125, 128, 121, 129, 130, 131, 127, 119, 114, 124, ПО, 126, 134, 125, 128, 123, 128, 133, 132, 136, 134, 129. Найдите нижний, средний и верхний квартиль вариа- ционного ряда. 352
Найдите 10-й, 15-й и 65-й перцентили. Чему равно среднее число пассажиров в рейсе? Определите коэффици- ент вариации. Задача 2. Следующие данные показывают годовой прирост на 15 раз- личных акций: 12.2, 13, 14.8, 11, 16.7, 9, 8.3, -1.2, 3.9, 15.5, 16.2, 18, 11.6, 10, 9.5. Найдите медиану, первый и третий квартили: 55-й и 85-й перцентили для этих данных. Задача 3. Правительство развивающейся страны объявило конкурс для зарубежных инвесторов, заинтересованных в заключении контракта на строительство нового морского порта. В ответ были получены следующие предложения цены (млрд долл.): 2, 3, 2, 4, 3, 5, 1, 1, 6, 4, 7, 2, 5, 1, 6. Найдите квартили, интерквартильный размах и 60-й перцентиль. Задача 4. Следующие данные представляют собой годовой процент ав- томобилей импортного производства в России с 1982 по 1994 гг. (данные условные): 6,7; 9,5; 9,3; 12,3; 12,0; 16,6; 21,3; 21,8; 22,6; 20,9; 18,3; 20,1; 22,8. Найдите среднюю арифметическую, медиану и стан- дартное отклонение этих данных. Задача 5. Двадцати подросткам, отобранным случайным образом, по- казали блок телевизионной коммерческой рекламы о новых сортах жевательной резинки и попросили оценить рекламу в баллах от 0 до 100. Результаты оценки дали следующие бал- лы: 89, 75, 59, 96, 88, 71, 43, 62, 80, 92, 76, 72, 67, 60, 79, 85, 77, 83, 87, 53. Найдите среднюю арифметическую, дисперсию и стан- дартное отклонение выборочного рейтинга. Задача 6. Имеются данные о числе тонн грузов, перевозимых ежене- дельно паромом некоторого морского порта в период нави- гации: 398, 412, 560, 474, 544, 690, 587, 600, 613, 457, 504, 477, 530, 641, 359, 566, 452, 633, 474, 499, 580, 606. 344, 455, 505, 396, 347, 441, 390, 632, 400, 582. Найдите среднюю арифметическую, стандартное от- клонение и интерквартильный размах. Задача 7. Получены сгруппированные данные о дневной выручке в ма- газине электротоваров (тыс. руб.): Сумма продаж Число продаж 0 - 200 3 200 - 300 5 300 - 400 9 400 - 500 14 500 - 600 8 600 - 700 3 12 Теория статистики с основами теории вероятностей 353
Число работников (частоты} 12 23 37 19 15 9 Найдите среднюю арифметическую, дисперсию и стан- дартное отклонение. Определите моду, медиану даного ин- тервального вариационного ряда. Рассчитайте отно- сительные частоты. Начертите гистограмму относи- тельных частот. Задача 8. Служба контроля Росэнерго регулярно проводит выборочные проверки оплаты ежемесячных счетов. Случайным образом отобраны 30 адресов и выявлены суммы, которые потребите- ли должны заплатить за пользование электроэнергией (тыс. руб.): 12, 2, 3, 5, 17, 4, 9, 21, 18, 6, 8, 19, 9, 25, 2, 10, 16, 18, 24, 1, 11, 6, 19, 23, 14, 7, 10, 26, 30, 7. Начертите гистограмму относительных частот. Найдите среднюю арифметическую и стандартное отклонение. Най- дите 80-й и 90-й перцентили, интерквартильный размах. Задача 9. Имеются сгруппированные данные о месячной заработной плате случайно отобранной группы работников промышлен- ной отрасли: Интервалы заработной платы 250 000 - 299 999 300 000 - 349 999 350 000 - 399 999 400 000 — 449 999 450 000 - 499 999 500 000 - 549 999 Нарисуйте гистограмму частот, найдите среднюю и стандартное отклонение. Определите моду, медиану. Задача 10. Пролучены данные о числе цветных телевизоров, продавае- мых ежедневно в магазине электроники в течение некото- рого месяца: 5, 16, 18, 19, 14, 12, 22, 23, 25, 20, 32, 17, 34, 25, 14, 14, 17, 8, 5, 11, 13, 6, 7, 9, 14, 7, 21, 28, 23, 8. Найдите среднюю, медиану и коэффициент вариации. Начертите полигон и кумуляту. Задача 11. Ежегодно американский журнал «Fortune» публикует список наиболее богатых людей в мире с оценками их состояний в миллиардах US долларов. Ниже приводим результаты одной из публикаций за 1989 г.: 25.0, 20.9, 8.7, 7.5, 7.4, 6.0, 5.7, 5.5, 5.0, 5.0, 4.4, 4.0, 3.6, 3.4, 3.1, 3.0, 3.0, 2.9, 2.8, 2.8, 2.5, 2.5, 2.5, 2.4, 2.4, 2.4, 2.2, 2.0, 2.0, 2.0, 1.9, 1.8, 1.7, 1.6, 1.5, 1.5, 1.5, 1.5, 1.4, 1.3, 1.3, 1.3, 1.2, 1.2, 1.2, 1.2, 1.1, 1.1, 1.1, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0. Начертите гистограмму абсолютных и относительных частот. Найдите среднюю арифметическую и стандартное от- клонение. 354
Задача 12. При выборочном обследовании 50 членов семей рабочих и служащих получены данные о количественном составе семьи: 5, 3, 2, 1, 4, 6, 3, 7, 9, 1, 3, 2, 5, 6, 8, 2, 5, 2, 3, 6, 8, 3, 4, 4, 5, 6, 5, 4, 7, 5, 6, 4, 8, 7, 4, 5, 7, 8, 6, 5, 7, 5, 6, 6, 7, 3, 4, 6, 5, 4. Определите моду, медиану и 85-й перцентиль для коли- чества членов семьи в обследованной группе семей рабочих и служащих. Задача 13. В отделе дамской обуви универмага в течение дня были про- даны туфли следующих размеров: 37, 35, 36, 37, 38, 37, 36, 37, 39, 38, 37, 36, 37, 37, 36. Составьте по этим данным ва- риационный ряд. Постройте полигон распределения. Найдите медиану, моду. Задача 14. Постройте гистограмму частот, найдите среднюю ариф- метическую и среднее квадратическое отклонение для данных о дневной выручке в магазине электроники (тыс. руб): X/ 0-200 200-300 300-400 400-500 500-600 600-700 ГП( 3 5 9 14 8 3 Найдите моду и медиану вариационного ряда. Задача 15. Постройте гистограмму частот, найдите среднюю за- работную плату работников одного из цехов промышленного предприятия (в условных денежных единицах): Интервал заработной платы 250- -299 300- -349 350— -399 400- -449 450— -490 500- -549 Число работ- ников 12 23 37 19 15 9 Найдите среднее квадратическое отклонение, коэффи- циент вариации, моду и медиану вариационного ряда зара- ботной платы. Задача 16. Дано распределение рабочих предприятия по заработной плате в разрезе цехов: Заработная плата 70—80 80—90 90—100 100-110 110—120 120—130 Всего Цех 1 7 12 15 6 — — 40 Цех 2 1 5 9 18 12 5 50 Цех 3 — —. 4 8 32 16 60 Всего 8 17 28 32 44 21 150 Вычислите среднюю заработную плату рабочих в каж- дом цехе и по предприятию. Вычислите дисперсии по цехам (частные дисперсии и по предприятию (общую дисперсию)). 12* 355
Задача 17. У вас есть следующая информация об акциях А и В. Экономическое со- стояние в следую- щем году Вероят- ность того, что про- изойдет Возврат по ак- ции В в следую- щем году, % Возврат по ак- ции А в следую- щем году, % Снижение деловой активности 0,3 9,8 10 Умеренный рост 0,4 11,2 11 Подъем деловой активности 0,3 13 12 Рассчитайте среднюю арифметическую, дисперсию и коэффициент вариации. Если вы решили купить одну ак- цию, какую из двух вы выберете. Почему? Задача 18. Дана следующая информация о двух акциях: Состояние эко- номики Вероятность того, что состояние экономики будет Возврат по акции А, % Возврат по акции В, % Плохое 0,35 5 0 Хорошее 0,20. 6 10 Очень хорошее 0,45 9 20 Вычислите среднюю арифметическую и стандартное отклонение по каждой акции. Сравните среднюю арифметическую, стандартное откло- нение и коэффициент вариации по каждой акции. Если вы ре- шите купить одну акцию, то какую из двух вы выберете? Задача 19. Инженер по контролю качества обнаружил в 10 партиях электроламп, произведенных заводом, следующее число бра- кованных изделий: 5, 3, 7, 1, 0, 6, 3, 4, 5, 2. Найдите среднее число и стандартное отклонение бра- кованных ламп. Начертите график. Задача 20. Предположим, что на некотором предприятии собраны дан- ные о числе дней, пропущенных работниками по болезни. Число дней, пропущенных в текущем месяце 0 1 2 3 4 5 Число работников 10 17 25 28 30 27 Найдите среднее число пропущенных дней, стандарт- ное отклонение, медиану и моду распределения. Является ли распределение симметричным? Задача 21. Сравните риск и возможный доход от вложений средств в два фонда: 356
Фонд A Фонд В Ожидаемый возврат, % 10 7 Стандартное отклонение, % 3 2,5 Как вы считаете, какой из фондов предпочтительнее? Объ- ясните. Задача 22. Проведите анализ данных годовых уровней прибыли трех компаний: Год «Cherry Computers» «Lemon Motors» «Orange Electronics» 1983 14,2 “6,2 37,5 1984 12,3 13,3 -10,6 1985 -16,2 -8,4 40,3 1986 15,4 27,3 5,4 1987 17,2 28,2 6,2 1988 10,3 14,5 10,2 1989 -6,3 “2,4 13,8 1990 “7,8 -3,1 11,5 1991 3,4 15,6 -6,2 1992 12,2 18,2 27,5 Найдите среднее значение и стандартное отклонение прибыли для каждой из компаний. Сравните результаты их деятельности за 10 лет. Дея- тельность какой из компаний, по вашему мнению, более ус- пешна? Задача 23. Чтобы выяснить, какие суммы (тыс. руб.) тратят студенты второго курса в течение семестра, питаясь в кафе академии, был проведен опрос 10 случайно отобранных студентов, ко- торый дал следующие результаты: 225, 178, 272, 310. 190, 145, 150, 220, 285, 112. Найдите среднюю арифметическую, медиану и стан- дартное отклонение ряда данных. Задача 24. Таблица, приведенная ниже, содержит данные о стоимости акций «Chaileston Corporation» в различных экономических ситуациях: Экономическое состояние в следующем году Вероятность того, что произойдет Цена за акцию (долл. США) Кризис 0,25 65 Снижение деловой активности 0,25 80 Умеренный рост о,з 95 Подъем деловой активности 0,2 100 Рассчитайте среднюю арифметическую, дисперсию и коэффициент вариации. 357
Задача 25. Администрацию универсама интересует оптимальный уро- вень запасов продуктов в торговом зале, а также среднеме- сячный объем покупок товаров, которые не являются пред-; метом ежедневного потребления в семье (например, таких, как сода). Для выяснения этого вопроса менеджер универса- ма в течение января регистрировал частоту покупок. 100-граммовых пакетов с содой и собрал следующие данные (х,): 8, 4, 4, 9, 3, 3, 1, 2, 0, 4, 2, 3, 5, 7, 10, 6, 5, 7, 3, 2, 9, 8, 1, 4, 6, 5, 4, 2, 1, 0, 8. Постройте вариационный ряд, определите его числовые характеристики. Какие рекомендации вы дали бы администрации универсама? Задача 26*. Валовой доход 10 колхозов объединения «Донрыбпром» в 1973 и 1974 гг. составил (тыс. руб): 1973 г. 221 335 277 182 372 269 416 1 272 95 89 1974 г. 251 340 394 259 457 507 394 1 366 118 153 Найдите средние значения валового дохода и коэффи- циенты вариации в 1973 и 1974 гг. Сравните получен- ные результаты. Задача 27. По данным о стоимости валовой продукции и основных фондов объединения «Донрыбпром» за период с 1971 по 1975 гг. рассчитайте коэффициенты вариации и сравните полученные результаты. Признак 1971 г. 1972 г. 1973 г. 1974 г. 1975 г. Валовая продукция, тыс. руб. 1 353 1 992 2 178 2 491 3 993 Среднегодовая стоимость основных фондов, тыс. руб. 1 724 2 322 2 716 2 716 3 876 Задача 28. Индивидуальный годовой заработок 10 членов рыболовецкой бригады в 1985 г. составил: 1 Задачи 25—27 составлены по данным и примерам монографии М.Г. Лисовича «Проблемы экономики и финансов рыбного хозяйства» /Рост. гос. эконом, акад. — Ростов-на-Дону, 1996. 358
Фамилия, инициалы Рыбин В. И. Карпов С.А. Ельцов К.М, Ракин Г.М. Бреднев А.М. Карасев В.Д. Окунев П.Г. Сомов П.Х. Горбушин С.Т. Линьков Н.К. Индивидуальный годовой зара- боток (руб.) 3141,43 2757,86 2757,86 2590,00 2637,86 2038,57 2254,29 1930,71 2038,57 1822,86 Найдите средний заработок членов бригады и среднее квадратическое отклонение. Задача 29. Ниже перечислены важнейшие индикаторы экономического состоя- ния России за ряд лег. Рассчитайте коэффициенты вариа- ции для этих данных и п р о в е д и т е их сравнительный анализ. Признак 1985 г. 1990 г. 1991 г. 1992 г. 1993 г. 1994 г. 1995 г. ВВП на душу насе- ления, тыс. руб. __ 4,3 9,4 127,8 1154,8 4119,0 11192,1 Среднедушевые де- нежные доходы на- селения, тыс. руб. в месяц* 142 215 466 4,0 45,2 206,3 532,9 Номинальная начис- ленная среднемесяч- ная заработная плата на одного работни- ка, тыс. руб.* 199 303 548 6,0 58,7 220,4 483,6 Средний размер назначенной пен- сии, тыс. руб.’ 73 102 185 1,5 19,7 75,9 183,5 Задача 30. Следующие данные — показатели работы цементной про- мышленности в 1996 г.: Предприятия с годовой мощно- Количество предпри- стью, тыс. т ятий До 500 27 500-1000 И 1000-2000 8 2000-3000 8 Свыше 3000 2 * До 1992 г. в рублях. 359
Найдите среднюю арифметическую и стандартное от- клонение интервального вариационного ряда. Построй- т е гистограмму, определите моду, медиану. Задача 31. Дан вариационный ряд, характеризующий показатели произ- водства обуви в 1996 г.: Предприятия со среднегодовой мощ- Количество предпри- ностью, млн пар ятий До 1 126 1-3 40 3-5 13 Свыше 5 4 Найдите среднюю арифметическую и стандартное от- клонение интервального вариационного ряда. Построй- т е гистограмму, определите моду, медиану. Задача 32. Имеются данные о распределении территорий России по освоению инвестиций: Январь — сентябрь 1996 г. в % к январю — сентябрю 1995 г. Число регионов До 60 10 61-75 29 76-85 21 86-95 13 96-99,9 — Свыше 100 6 Найдите среднюю арифметическую и стандартное от- клонение интервального вариационного ряда. Построй- т е гистограмму, определите моду, медиану. Задача 33. Дано распределение территорий России по вводу в действие жилых домов: Ввод в действие жилых домов Число регионов в январе — сентябре 1996 г., % к январю — сентябрю 1995 г. До 60 18 61-75 18 76-85 13 86-95 5 96-99,9 6 Свыше 100 20 360
Найдите среднюю арифметическую и стандартное от- клонение интервального вариационного ряда. Построй- т е гистограмму, определите моду, медиану. Задача 34. Продажу автомобильного бензина и дизельного топлива на внутренний рынок по регионам Российской Федерации ха- рактеризуют следующие данные: Продано в январе — сентябре 1996 г. в % к январю — сентябрю 1995 г. Количество регионов к январю — сентябрю 1995 г. автомобильного бензина дизельного то- плива До 70 11 34 71-90 45 30 91-99,9 12 12 100 1 — 101-120 12 5 121 и выше 8 8 Найдите среднюю арифметическую и стандартное от- клонение интервального вариационного ряда. Построй- т е гистограмму, определите моду, медиану. Задача 35. Ниже представлена группировка отраслей и подотраслей про- мышленности по темпам роста цен на изготавливаемую про- дукцию за период с начала года: Сентябрь 1996 г. в % к декабрю 1995 г. Число отраслей и подотраслей, единиц До 100,0 4 100,1-108,0 15 108,1-116,0 21 116,1-124,0 31 124,1-132,0 19 132,1 и выше 18 Найдите среднюю арифметическую и стандартное от- клонение интервального вариационного ряда. Построй- т е гистограмму, определите моду, медиану. Задача 36. Ниже приводятся данные о возрастном составе безработных (100%) по Российской Федерации, зарегистрированных в службе занятости, по сведениям на последнюю неделю марта 1996 г., %: 361
Безработные Мужчины Женщины' В том числе в возрасте моложе 20 лет 7,7 11,2 20 — 24 лет 17,0 18,5 25 — 29 лет П,9 11,7 30 — 49 лет 50,9 49,5 50 — 54 лет 4,2 4,0 55 — 59 лет 5,7 3,8 старше 60 лет 2,6 1,3 Всего 100 100 Найдите среднюю арифметическую и стандартное от- клонение интервального вариационного ряда. Постройте гистограмму, определите моду, медиану. Задача 37. По данным приведенной ниже таблицы постройте полигоны распределения: а) оплаты труда; б) социальных трансфертов; в) доходов от собственности и предпринимательской деятель- ности; г) расходов на покупку товаров и услуг; д) расходов на оплату обязательных платежей и взносов; е) накопления сбережений во вкладах и ценных бумагах. Структура денежных доходов и удельный вес расходов в денежных доходах населения (в процентах к денежным доходам) по годам Денежные доходы 1980 1990 1991 1992 1993 1994 1995 Всего 100 100 100 100 100 100 100 в том числе: оплата труда 77,4 74,1 59,7 69,9 58,0 46,4 39,3 социальные трансферты доходы от собственности, предпри- 15,7 13,0 15,5 14,0 17,2 17,4 16,7 нимательской деятельности и др. 6,9 12,9 24,8 16,1 24,8 36,2 44,0 Денежные расходы 1980 1990 1991 1992 1993 1994 1995 Всего 99,1 95,0 90,2 86,4 90,7 95,5 96,5 в том числе: покупка товаров и оплата услуг оплата обязательных платежей 84,3 75,3 62,3 72,9 68,9 64,5 70,5 и разнообразных взносов 12,1 12,2 8,3 8,2 7,6 6,8 6,7 накопление сбережений вс вкладах и ценных бумагах 2,7 7,5 19,6 4,8 6,2 6,5 5,0 покупка валюты — — — 0,5 8,0 17,7 И,3 362
Задача 38. Постройте гистограмму распределения по данным приведенной ниже таблицы, найдите средний, меди- анный и модальный доходы. Распределение населения по среднедушевому денежному доходу в 1995 г. Признак Млн человек % Все население 148,2 100 в том числе со среднедушевым де- нежным доходом в месяц, тыс. руб.: До 20,0 — <— 20,1-40,0 0,1 0,0 40,1—100,0 2,9 2,0 100,1-150,0 7,5 5,0 150,1-200,0 11,0 7,5 200,1—250,0 12,6 8,5 250,1-300,0 12,8 8,7 300,1-350,0 12,2 8,2 350,1—400,0 11,2 7,5 400,1-450,0 10,0 6,8 450,1-500,0 8,8 5,9 500,1—600,0 14,3 9,7 600,1-700,0 10,7 7,2 700,1-800,0 8,0 5,5 800,1-900,0 6,0 4,0 900,1-1000,0 4,5 3,0 Свыше 1000,0 15,6 10,5 Задача 39. Постройте цы, найдите гистограмму распределения по данным табли- средний, медианный и модальный доходы. Распределение населения по среднедушевому денежному доходу в январе — сентябре 1996 г. Признак Млн человек % Все население 148,0 100 в том числе со среднедушевым де- нежным доходом в месяц, тыс. руб.: До 400,0 38,8 26,2 400,1—600,0 34,5 23,3 600,1-800,0 25,4 17,2 800,1-1000,0 16,9 11,4 1000,1-1200,0 10,9 7,4 1200,1-1600,0 11,6 7,8 1600,1-2000,0 5,1 3,4 Свыше 2000,0 ... I8-. 3,3 363
Список литературы 1. Aczel A. Complete Business Statistics. — 2nd ed., Richard D. Irwin, INC., 1993. 2. Cheng F. Lee Statistics for Business and Financial Economics. — D.C. Health and Company, 1993. 3. Венецкий И.Г. Вариационные ряды и их характеристики. — М.: Статистика, 1970. 4. Джини К. Средние величины. — М.: Статистика, 1970. 5. Карасев А.И. Теория вероятностей и математическая стати- стика. — М.: Статистика, 1979.
14 Парная регрессия и корреляция В зависимости от количества факторов, включенных в регрес- сию, принято различать регрессию простую и множественную. Простая регрессия представляет собой регрессию между двумя пе- ременными (у и х), т.е. рассматривается модель вида: у = Дх), где у — зависимая переменная, т.е. результативный признак; х — не- зависимая, объясняющая переменная, т.е. признак-фактор. Мно- жественная регрессия соответственно представляет собой регрес- сию результативного признака с двумя и большим числом факто- ров, т.е. рассматривается модель вида: у — fix\, х^, х^). 14.1. Парная регрессия Исследование связи между переменными начинается с тео- рии, устанавливающей связь между явлениями. Прежде всего из круга факторов, влияющих на результатив- ный признак, необходимо выделить наиболее существенно влияющие факторы. Парная регрессия возможна, если рассмат- ривается доминирующий фактор. Предположим, что выдвигает- ся гипотеза: величина спроса на товар А находится в обратной зависимости от цены. В этом случае необходимо знать, какие остальные факторы предполагаются неизменными. Возможно, в дальнейшем их придется учесть в модели и от простой регрессии перейти к множественной. Уравнение простой регрессии характеризует связь между двумя переменными, которая действует как некоторая законо- мерность, тенденция лишь в среднем, в целом по совокупности наблюдений. Так, если зависимость спроса у от цены х характе- ризуется, например, уравнением у = 5000 — 2х, то оно означает, что с ростом цены на 1 денежную единицу спрос в среднем уменьшается на 2 единицы. В уравнении регрессии корреляци- онная по сути связь признаков представляется в виде функцио- нальной, выраженной соответствующей математической функ- цией. Практически в каждом отдельном случае величина у скла- дывается из двух слагаемых: 365
где у — фактические значения результативного признака; ух — теоретические значения результативного признака, найден- ные исходя из соответствующей математической функции связи у и х, т.е. из уравнения регрессии; е — случайная величина, характеризующая отклонение реального значения результативного признака от теоретического, най- денного по уравнению регрессии. Случайная величина в называется также возмущением. Она включает в себя влияние неучтенных в модели факторов, слу- чайных ошибок и особенностей измерения. Ее присутствие в модели порождено тремя источниками: специфика- цией модели, выборочным характером исходных данных, осо- бенностями измерения. Приведенное ранее уравнение зависимости спроса у от цены х следует записывать так: ух = 5000 - 2х или у = 5000 - 2 х + е, ибо всегда есть место для действия случайности. Обратная зави- симость спроса от цены не обязательно характеризуется линей- ной функцией: ух — а + Ьх. Возможны и другие соотношения, например: -й b - 1 Ух = ах °; у =а + —; ух =----— . х х а + Ьх Поэтому от правильно выбранной спецификации модели за- висит значение случайных ошибок: они тем меньше, чем в большей мере теоретические значения результативного признака подходят к фактическим данным, т.е. ух и у. К ошибкам спецификации будут относиться не только непра- вильный выбор той или иной математической функции для ух, но и недоучет в уравнении регрессии какого-либо существен- ного фактора, т.е. использование парной регрессии вместо мно- жественной. Так, спрос на конкретный товар может определять- ся не только ценой, но и доходом на душу населения. Наряду с ошибками спецификации могут иметь место ошиб- ки выборки. Связано это с тем, что исследователь чаще всего имеет дело с выборочными данными при установлении законо- мерной связи между признаками. Исследование на микроуровне охватывает обычно информацию по предприятию, фирме, ре- 366
гиону; экстраполируя по уравнению регрессии на большую тер- риторию (отрасль, экономика страны в целом), мы, естественно, сталкиваемся с ошибками выборки. Ошибки выборки возникают вследствие неоднородности данных в исходной статистической совокупности, тем более при изучении экономических процес- сов. Если совокупность неоднородна, то уравнение регрессии не имеет практического смысла. Для получения хорошего результа- та обычно исключают из всей совокупности единицы с ано- мальными значениями исследуемых признаков. Поэтому резуль- таты регрессии представляют собой выборочные характеристики. В парной регрессии выбор вида математической функции ух = Дх) может быть осуществлен тремя путями: графи- чески, аналитически, т.е. исходя из теории взаимосвязи, и экспе- риментально. > При изучении зависимости между двумя признаками графи- ческий метод подбора вида уравнения регрессии достаточно нагля- ден: на основе поля корреляции. Основные типы кривых, исполь- зуемые при количественной оценке связей, представлены ниже: Рис. 14.1. Основные типы кривых, используемые при количественной оценке связей Класс математических функций для описания связи двух пе- ременных достаточно широк. Кроме уже указанных, использу- ются и другие типы кривых: 367
у ------; у = а + bx + c~; у = а + blgx; а + ох х 1 - а у = ---.----; у = -------— ; а + bx + сх 1 + йе “ Igy = а + Ьх + сх2 . В практических исследованиях, как правило, имеет место некоторое рассеяние точек относительно линии регрессии. Оно обусловлено влиянием прочих, не учитываемых в уравнении регрессии факторов, т.е. имеют место отклонения фактических данных от теоретических (у — ух). Значение этих отклонений лежит в основе расчета остаточ- ной вариации: ~ -*У-УХ) Чем меньше значение остаточной дисперсии, тем в меньшей мере наблюдается влияние прочих, не учитываемых в уравнении регрессии факторов, тем лучше уравнение регрессии подходит к исходным данным. При машинной обработке статистических данных перебираются разные математические функции и в ав- томатическом режиме выбирается та из них, для которой оста- точная дисперсия является наименьшей. Если остаточная дисперсия оказывается примерно одинако- вой для нескольких функций, то на практике предпочтение от- дается более простым видам функций, так как они в большей степени поддаются интерпретации и требуют меньшего объема наблюдений. Результаты многих исследований подтверждают, что число наблюдений должно в 6—7 раз превышать число рассчитывае- мых параметров при переменной х. Это означает, что искать ли- нейную регрессию, имея менее 7 наблюдений, вообще не имеет смысла. Если вид функции усложняется, то требуется увеличе- ние объема наблюдений: каждый параметр при х должен содер- жать хотя бы 7 наблюдений. Значит, если мы выбираем парабо- лу второй степени: у = а + Ьх + сх2 , то требуется объем информации уже не менее 14 наблюдений. Учитывая, что эконометрические модели строятся часто по дан- ным рядов динамики, т.е. по ограниченной по числу наблюдений информации (10, 20, 30 лет), при выборе спецификации модели предпочтительна модель с меньшим числом параметров при х. 368
14.2. Парная линейная регрессия и корреляция Линейная регрессия сводится к нахождению уравнения вида: ух = а + Ьх . Уравнение вида ух = а + Ьх позволяет по заданным значени- ям фактора х иметь теоретические значения результативного признака, подставляя в него фактические значения фактора х. На графике эти теоретические значения представляют линию регрессии. На практике построение линейной регрессии сводит- ся к оценке ее параметров: а и Ь. Оценка параметров линейной регрессии может быть найдена разными методами. Можно обратиться к полю корреляции и, выбрав на графике две точки (рис. 12.2), провести через них прямую линию. Далее по графику определим значения параметров. Параметр а определим как точку пересечения линии регрессии с осью Оу, а параметр b оценим исходя из угла наклона линии регрессии как dy/dx, где dy — прира- щение фактора х; dx — приращение результата у. Рис. 14.2. Оценка параметров линейной регрессии с помощью поля корреляции При классическом подходе оценивание параметров линей- ной регрессии проводится методом наименьших квадратов. Метод наименьших квадратов позволяет получить такие оценки параметров а и Ь, при которых сумма квадратов откло- нений фактических значений результативного признака у от расчетных, теоретических (ух) была бы минимальной, т.е. 2(л-Пх)2 = тЬ1- /=1 369
Иными словами, среди множества точек корреляционного поля линия на графике выбирается так, чтобы сумма квадратов расстояний по вертикали между точками и этой линией была минимальной (рис. 12.3). Рис. 14.3. Оценка параметров линейной регрессии методом наименьших квадратов Чтобы найти минимум функции, находятся частные произ- водные по каждому из параметров (а, Ь) и приравниваются нулю. Обозначим 22е2 через S. Тогда S = = Ъ(у-a-bxf; ^- = —2^,у+2па + 2Ь^х — 0; da ~ = -2^УХ + 2а^х + 2Ь%х - 0 . Получим систему нормальных уравнений для оценки пара- метров: па + aSx + iSx2 = 2,ух- Решая данную систему нормальных уравнений либо методом последовательного исключения переменных, либо методом оп- ределителей, найдем оценки искомых параметров а и Ь. Можно воспользоваться готовыми формулами: а = у — Ьх (вытекает из первого уравнения системы нормальных уравнений, если все его члены разделить на л): b cov(x,y) где cov (х, у) — ковариация признаков; ст* — дисперсия признака х. 370
Ввиду того, что cov (х, у) = ух — у • х, а ст2 = х2 -(х)2, по- лучим формулу расчета оценки параметра 6: Параметр Ь называется коэффициентом регрессии. Его значе- ние показывает среднее изменение результата с изменением фак- тора на одну единицу. Так, если в функции издержек ух = 3000 + 2х (у — издержки, тыс. руб.; х — количество единиц продукции), то, следовательно, с увеличением объема продукции (х) на одну единицу издержки производства возрастают в среднем на 2 тыс. руб., т.е. дополнительный прирост продукции на одну единицу потребует увеличения затрат в среднем на 2 тыс. руб. Параметр а может не иметь экономического смысла, если его нельзя толковать как значение результативного показателя при х = 0. Может оказаться, что х = 0 может не быть. Попытки экономически интерпретировать параметр а могут привести к абсурдам, особенно при а < 0. Предположим, по группе предприятий, выпускающих один и тот же вид продукции, рассматривается функция издержек: у — а + Ьх + с. Информация, необходимая для расчета оценок параметров а и Ь, представлена в табл. 12.1. Система нормальных уравнений: (7а + 22b = 770; [22а + 80й = 2820. Решив ее, получим а = —5,79; Ь = 36,84. Таблица 14.1. К расчету параметров а, Ь Номер пред- приятия Выпуск продукции х, тыс. ед Затраты на производство у, млн руб. у-х X2 У2 Ух 1 1 30 30 1 900 31,1 2 2 70 140 4 4 900 67,9 3 4 150 600 16 22 500 141,6 4 3 100 300 9 10 000 104,7 5 5 170 850 25 28 900 178,4 6 3 100 300 9 10 000 104,7 7 4 150 600 16 22 500 141,6 Итого 22 770 2 820 80 99 700 770,0 374
Уравнение регрессии: ух= — 5,79 + 36,84 х. Подставив в уравнение значения х, найдем теоретические значения у, т.е. ух. Значение параметра а в данном примере не имеет экономи- ческого смысла. Интерпретировать можно лишь знак при пара- метре а. Если а > 0, то относительное изменение результата идет медленнее, чем изменение фактора. Иными словами, вариация результата меньше вариации фактора: коэффициент вариации по фактору х выше коэффициента вариации для результата у (Ух > Vy)- Для доказательства данного положения сравним отно- сительные изменения фактора х и результата у. b - dx а + Ьх —— <-------, Ьх < а + Ьх , dx х dy dx dy у — < — или — < — ; yx dx x откуда 0 < а и а > 0. В рассматриваемом примере: х = 3,14; х = 1,25; Vx = 39,8% ; у = 110; у = 46,29; Vy = 42,1 % . В уравнении регрессии а < 0, что соответствует опережению изменения результата над изменением фактора: Vy>Vx. Если переменные х и у выразить через отклонения от сред- них уровней, то линия регрессии на графике пройдет через на- чало координат: у' = Ьх, где у — у ~ у и х' = х — х. Оценка коэффициента регрессии при этом не изменится. Уравнение регрессии всегда дополняет линейный коэффици- ент корреляции гух. Существуют разные модификации формулы линейного коэффициента корреляции. Некоторые из них при- ведены ниже: _ _ cov(x^) _ ух-у х г ух - °----------- ------- Как известно, линейный коэффициент корреляции находит- ся в границах: —1 < ryx < 1. Если коэффициент регрессии b > 0, то 0 < гух <1, и наобо- рот: при b < 0 — 1 < гух < 0. В рассматриваемом примере по данным табл. 14.1 значение линейного коэффициента корреляции составило 0,991, что дос- таточно близко к 1 и означает наличие очень тесной зависимо- сти затрат на производство от объема выпущенной продукции. 372
Следует иметь в виду, что линейный коэффициент корреля- ции оценивает «не вообще тесноту связи» рассматриваемых при- знаков, а лишь в линейной ее форме. Поэтому близость абсо- лютной величины линейного коэффициента корреляции к 0 еще не означает отсутствие связи между признаками. При иной спе- цификации модели связь между признаками может оказаться достаточно тесной. Для оценки качества подбора линейной функции рассчиты- вается квадрат линейного коэффициента корреляции г2х., назы- ваемый коэффициентом детерминации. Коэффициент детерминации характеризует долю дисперсии результативного признака у, объясняемую регрессией, в общей дисперсии. Соответственно величина (1 — г2) характеризует до- лю дисперсии у, вызванную влиянием остальных не учтенных в модели факторов. В нашем примере г2 = 0,982. Следовательно, уравнением регрессии объясняется 98,2% дисперсии результативного при- знака, а на долю прочих факторов приходится лишь 1,8% ее дисперсии. Коэффициент детерминации служит одним из кри- териев оценки качества линейной модели. Чем больше доля объясненной вариации, тем соответственно меньше роль прочих факторов и, следовательно, линейная мо- дель хорошо аппроксимирует исходные данные и ею можно воспользоваться для прогноза значений результативного призна- ка. Так, полагая, что объем продукции предприятия может со- ставить 5 тыс. единиц, прогнозное значение для издержек про- изводства окажется 178,4 тыс. руб. 14.3. Оценка существенности параметров линейной регрессии и корреляции После того как найдено уравнение линейной регрессии, про- водится оценка значимости как уравнения в целом, так и от- дельных его параметров. Оценка значимости уравнения регрессии в целом дается с помощью /-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю: Ь = 0 и, сле- довательно, фактор х не оказывает влияния на результат у. Непосредственному расчету /’-критерия предшествует анализ дисперсии. Центральное место в нем занимает разложение об- 373
щей суммы квадратов отклонений величины у от ее среднего значения у на «объясненную» и «необъясненную» компоненты: l(y-j)2 = 1(ух-у)2 + 2(у-Ух)2 • Общая сумма квад- Сумма квадратов Остаточная сумма ратов отклонений отклонений, обуслов- квадратов откло- ленная регрессией нений Общая сумма квадратов отклонений индивидуальных значений результативного признака у от своего среднего значения у вызвана влиянием множества причин. Условно разделим всю совокупность причин на две группы: изучаемый фактор х и прочие факторы. Ес- ли фактор не оказывает влияния на результат, то линия регрессии на графике параллельна оси Ох и у = у. Тогда вся дисперсия ре- зультативного признака обусловлена воздействием прочих факторов и общая сумма квадратов отклонений совпадет с остаточной. Если же прочие факторы не влияют на результат, то у связан с х функ- ционально, и остаточная сумма квадратов равна нулю. В этом слу- чае общая сумма квадратов совпадает с суммой квадратов отклоне- ний, обусловленной регрессией. Поскольку не все точки поля корреляции лежат на линии регрессии, то всегда имеет место их разброс, как обусловленный влиянием фактора х, т.е. регрессией у по х, так и вызванный действием прочих причин (необъясненная вариация). Пригод- ность линии регрессии для последующего прогноза зависит от того, какая часть общей вариации признака у приходится на объясненную вариацию. Очевидно, что если сумма квадратов отклонений, обусловленная регрессией, будет много больше ос- таточной суммы квадратов, то уравнение регрессии статистиче- ски значимо и фактор х оказывает существенное воздействие на результат у. Это равносильно тому, что коэффициент детерми- нации гуХ будет приближаться к 1. Любая сумма квадратов отклонений связана с числом степе- ней свободы, т.е. с числом свободы независимого варьирования признака^ Число степеней свободы связано с числом единиц со- вокупности лис числом определяемых по ней констант. При- менительно к исследуемой проблеме число степеней свободы должно показать, сколько независимых отклонений из л возмож- 374
ных [(у! — у), (уг ~ у), , (уп ~ У )1 требуется для образования данной суммы квадратов. Так, для общей суммы квадратов И / -\2 требуется (л — 1) независимых отклонений, ибо по совокупности из п единиц после расчета среднего уровня свободно варьируют лишь (л — 1) — число отклонений. Например, имеем ряд значе- ний у. 1,2, 3, 4, 5. Среднее значение равно 3 и тогда п отклоне- ний от среднего составят: —2; —1; 0; 1; 2. Так как 2(у,-у) = 0, то свободно варьируют лишь 4 отклонения, а пятое может быть определено, если предыдущие 4 известны. При расчете факторной суммы квадратов £ (ух - у) исполь- зуются теоретические (расчетные) значения результативного признака ух , найденные по линии регрессии: ух = а + Ьх. В линейной регрессии £(ух—у) = Ь2^(х—х) • В этом не- трудно убедиться, обратившись к формуле линейного коэффи- 2 циента корреляции: Гух = Ь — . Отсюда г2 = ь2^-, Оу Оу где с2 — общая дисперсия признака у, Ь2 ох — факторная дисперсия, т.е. обусловленная регрессией. Соответственно сумма квадратов отклонений, обусловленных линейной регрессией, составит: £(Яс-у)2=/>2Е(х-^)2 Поскольку при заданном объеме наблюдений по х и у фак- торная сумма квадратов при линейной регрессии зависит только от одной константы — коэффициента регрессии Ь, то данная сумма квадратов имеет одну степень свободы. К этому же выво- ду придем, если рассмотрим содержательную сторону расчетного значения признака у, т.е. ух. Значение ух определяется по уравнению линейной регрессии: ух - а + Ьх. Но параметр а можно определить как а — у — Ьх. Подста- вив это выражение параметра а в линейную модель, получим: ух = у — Ь- х + Ь- х — у + Ь(х — х). 375
Отсюда видно, что при заданном наборе переменных у и х расчетное значение ух является в линейной регрессии функци- ей только одного параметра — коэффициента регрессии. Соот- ветственно и факторная сумма квадратов отклонений имеет чис- ло степеней свободы, равное 1. Поскольку существует балансовое равенство между числом степеней свободы общей, факторной и остаточной сумм квадра- тов, то число степеней свободы остаточной суммы квадратов при линейной регрессии составит (л — 2), т.е. (п — 1) = 1 + (л ~ 2). Итак, имеем два балансовых равенства: (—\2 / —\2 2 У/-у) +Е(у,- ’ л - 1 = 1 + (л - 2). Поделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или, что то же самое, дисперсию D на одну степень свободы. Определение дисперсии на одну степень свободы приводит их к сравнимому виду. Сопоставляя факторную и остаточную диспер- сии на одну степень свободы, найдем величину /'-отношения: / ^факторная/Дктаточная Если нулевая гипотеза справедлива, то факторная и остаточ- ная дисперсии не отличаются друг от друга. Для опровержения ее необходимо, чтобы факторная дисперсия превышала остаточ- ную в несколько раз. Разработаны (английским статистиком Снедекором) таблицы критических значений /-отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение /-критерия — это максимальное значение отношения дисперсий, которое может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычисленное значение /-отношения признается достоверным (отличным от 1), если оно больше табличного. В этом случае отбрасывается нулевая гипотеза об отсутствии связи признаков и делается вывод о су- щественности этой связи. Если же значение /-критерия окажется меньше табличного, то вероятность нулевой гипотезы выше заданного уровня (например, 0,05) и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи. В этом случае уравнение регрессии считается статистически незначимым. 376
F В рассматриваемом примере: / —\2 _ ? ZU-rJ =2У-4Й = 99 700 - 7 1102 = (О \ ' = 15 000 (общая сумма квадратов); 1(ух~у)2 = Ь2 • Е(^-х)2 = (36,84)2 • [80 - 7 (22 : 7)]2 = О) = 14 735 (факторная сумма квадратов); Е(у-З'х)2 = 15 000 -14 735 = 265; Дфакторная — 14 735, Достаточная = 265 : 5 = 53; /фактическое = 14 735 : 53 = 278. Критические значения /’-критерия для уровней значимости а = 0,005 и а = 0,01: для а = 0,05 F 1,5 = 6,61; для а = 0,01 F 1,5 = 16,26. Поскольку /фактическое превышает табличные значения при 5- и 1%-м уровне значимости, то можно сделать вывод о значи- мости уравнения регрессии (связь доказана). Значение /’-критерия связано с коэффициентом детермина- ции г. Факторную сумму квадратов отклонений можно предста- вить как г2 а2 п, а остаточную сумму квадратов — как (1 - г2) а2 = п . Тогда значение /’-критерия можно получить исходя из формулы: .2 1 - г В нашем примере г2 = 0,982. Тогда F = 7-^7—г (7 - 2) = 273 I “ Ujxo2 (некоторое несовпадение результатов связано с ошибками ок- ругления). Оценка значимости уравнения регрессии обычно дается в виде таблицы дисперсионного анализа (см. табл. 14.2). В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стан- дартная ошибка: пц и та. 377
Таблица 14.2. Дисперсионный анализ результатов регрессии Источники вариации Число степеней свободы Сумма квадратов отклонений Дисперсия на одну степень свободы F-отношение факти- ческое таблич- ное при а = 0,05 Общая 6 15 000 — — — Регрессия 1 14 735 14 735 278 6,61 Остаток 5 265 53 1 — Стандартная ошибка для коэффициента регрессии определя- ется по формуле: ть ть = В числителе подкоренного выражения используется остаточ- ная дисперсия на одну степень свободы, обозначаемая часто в литературе S. Для нашего примера значение стандартной ошибки коэффи- циента регрессии составило: _.53_ = 2 21 10,857 ’ ’ где S2 = 53 (по таблице дисперсионного анализа). Величина стандартной ошибки совместно с /-распределением Стьюдента при двух степенях свободы применяется для провер- ки существенности коэффициента регрессии и для расчета его доверительных интервалов. Для оценки существенности коэффициента регрессии его зна- чение сравнивается с его стандартной ошибкой, т.е. определяется фактическое значение /-критерия Стьюдента: tb = Ъ /ть, которое затем сравнивается с табличным значением при определенном уровне значимости и числе степеней свободы (л — 2). В рас- сматриваемом примере фактическое значение /-критерия для ,, 36,84 1^-7 коэффициента регрессии составило: tb = J — = 16,6/ Этот же результат получим, извлекая квадратный корень из найденного ранее /’-критерия, т.е. tb = F= V278 = 16,67. 378
Справедливость равенства = F можно показать, раскрыв содержание величины t, выразив ть через его составляющие: fl = /п?ь = Ь2' 2 2 _ Д факторная р Достаточная При а = 0,05 (для двустороннего критерия) и числе степеней свободы 5 табличное значение tb = 2,57. Если фактическое зна- чение /-критерия превышает табличное, то, следовательно, гипо- тезу о несущественности коэффициента регрессии можно от- клонить, что имеет место в нашем примере. Доверительный интервал для коэффициента регрессии опре- делим как b + t-ть- 95%-е границы для коэффициента регрес- сии b в примере составят: 36,84 + 2,57-2,21 = 36,84 + 5,68, т.е. 31,60 < Ь< 42,52. Поскольку коэффициент регрессии в эконометрических ис- следованиях имеет четкую экономическую интерпретацию, то доверительные границы интервала для коэффициента регрессии не должны содержать противоречивых результатов (например, —10 < b < 40), по которым истинное значение одновременно со- держит положительные и отрицательные величины и даже ноль. Стандартная ошибка параметра а определяется по формуле: = ------------------ V п Ь2 L X-2 ,(х — х) V «У/х —х) В остальном процедура оценивания существенности данного параметра не отличается от рассмотренной выше для коэффици- ента регрессии: ta = а/та\ сравнение tac табличным значением. Надежность линейного коэффициента корреляции проверя- ется по значению ошибки коэффициента корреляции тг с ис- пользованием формулы: 11 - г2 тг - л-2 ’ 379
Фактическое значение 7-критерия Стьюдента определяется аналогично предыдущим показателям, т.е. tr = Г - Г2 п- 2 Данная формула наглядно показывает, что в парной линейной регрессии t2 — F, ибо, как уже указывалось, F = г2 1 - г2 (л-2). Кроме того, /2 F. Следовательно, tr = tb. Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. В рассматриваемом примере tr не совпало с tb в результате ошибок округлений. Значение tr = 16,73 заметно превышает таб- личное значение 2,57 при а = 0,05. Следовательно, коэффици- ент корреляции существенно отличен от нуля и зависимость достоверная. Однако рассмотренная формула оценки коэффициента кор- реляции рекомендуется к применению при большом числе на- блюдений и если г не близко к +1 или —1. Если же значение коэффициента корреляции близко к +1, то распределение его оценок отличается от нормального или распределения Стьюден- та, так как значение коэффициента корреляции ограничено: от —1 до +1. Чтобы обойти это затруднение, Р. Фишером было предложено ввести для оценки существенности г вспомогатель- ную величину z, связанную с коэффициентом корреляции сле- дующим отношением: 1 , 1 + г Z = - In--. 2 1 - г При изменении г от —1 до +1 величина z меняется от —оо до +оо, что соответствует нормальному распределению. Математи- ческий анализ доказывает, что распределение величины z мало отличается от нормального даже при близких к 1 значениях ко- эффициента корреляции. Стандартная ошибка величины z опре- деляется по формуле: 1 «г = 7=7 ’ - 3 где п — число наблюдений. При г = 0,991 z = 0,5 • In [(1 + 0,991) : (1 - 0,991)] = 2,699, а mz = 1 : (7—3) = 0,5. Значение z можно не рассчитывать, а вос- 380
пользоваться готовыми таблицами ^-преобразования, в которых приведены значения z для различных г. Далее выдвигаем нулевую гипотезу, что корреляция отсутст- вует, т.е. теоретическое значение коэффициента корреляции равно нулю. Коэффициент корреляции значимо отличен от ну- 7 ля, если — = tz > ta = 0,05, т.е. если фактическое значение t, mz превышает его табличное значение при уровнях значимости а = 0,05 или а = 0,01. В рассмотренном примере: z-V«-3 = 2,699-77-3 =5,398 при /фа = 0,05 = 2,57. Ввиду того, что гиг связаны между собой приведенным выше соотношением, можно вычислить критические значения г, соответствующие каждому из значений z- Таблицы критических значений z разработаны для уровня значимости 0,05 и 0,01 и соответствующего числа степеней свободы (см. Приложение, табл. 9). Критические значения г предполагают справедливость нуле- вой гипотезы, т.е. г отлично от нуля. Если фактическое значе- ние коэффициента корреляции по абсолютной величине пре- вышает табличное, то данное значение г считается существен- ным. Если же г оказывается меньше табличного, то фактическое значение г несущественно. В рассматриваемом примере при числе степеней свободы л - 2 = 5 критическое значение г при а = 0,05 составляет 0,754, а при а = 0,01 оно равно 0,874, что ни- же фактического значения гух = 0,991. Следовательно, получен- ное значение г существенно отлично от нуля. 14.4. Задачи к главе 14 Задача 1. Туристическая компания предлагает места в гостиницах при- морского курорта. Менеджера компании интересует, на- сколько возрастает привлекательность гостиницы в зависи- мости от ее расстояния до пляжа. С этой целью по 14 гостиницам города была выяснена среднегодовая напол- няемость номеров и расстояние в километрах до пляжа: Расстояние, км 0,1 0,1 0,2 0,3 0,4 0,4 0,5 0,6 0,7 0,7 0,8 0,8 0,9 0,9 Наполняемость, % 92 95 96 90 89 86 90 83 85 80 78 76 72 75 381
Постройте график исходных данных и определи- те по нему характер зависимости. Рассчитайте вы- борочный коэффициент линейной корреляции Пирсона, проверьте его значимость при а = 0,05. Постройте уравнение регрессии и дайте интерпретацию полученных ре- зультатов. Задача 2. Компанию по прокату автомобилей интересует зависимость меж- ду пробегом автомобилей X и стоимостью ежемесячного об- служивания Y. Для выяснения характера этой связи было отобрано 15 автомобилей. X 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Y 13 16 15 20 19 21 26 24 30 32 30 35 34 40 39 Постройте график исходных данных и определите по нему характер зависимости. Рассчитайте выбо- рочный коэффициент линейной корреляции Пирсона, про- верьте его значимость при а — 0,05. Постройте урав- нение регрессии и дайте интерпретацию полученных резуль- татов. Задача 3. Компания, занимающаяся продажей радиоаппаратуры, уста- новила на видеомагнитофон определенной модели цену, дифференцированную по регионам. Следующие данные по- казывают цены на видеомагнитофон в 8 различных регионах и соответствующее им число продаж. Число продаж, шт. 420 380 350 400 440 380 450 420 Цена, тыс. руб. 5,5 6,0 6,5 6,0 5,0 5,6 4,5 5,0 Постройте график исходных данных и определите вид зависимости. Рассчитайте коэффициент линейной корре- ляции Пирсона, оцените его значимость при д = 0,01. По- ст р о й т е уравнение регрессии и объясните смысл полу- ченных результатов. Задача 4. Опрос случайно выбранных 10 студентов, проживающих в общежитии университета, позволяет выявить зависимость между средним баллом по результатам предыдущей сессии и временем в неделю, затраченным студентом на самостоя- тельную подготовку: Средний балл 4,6 4,3 3,8 3,8 4,2 4,3 3,8 4,0 3,1 3,9 Время, ч 25 22 9 15 15 30 20 30 10 17 382
Постройте график исходных данных и определите по нему характер зависимости. Рассчитайте выбо- рочный коэффициент линейной корреляции Пирсона, про- верьте его значимость при а = 0,05. Постройте урав- нение регрессии и дайте интерпретацию полученных резуль- татов. Если студент занимается самостоятельно по 12 ч в не- делю, то каков прогноз его успеваемости? Задача 5. Некоторая компания недавно провела рекламную кампанию в магазинах с демонстрацией антисептических качеств своего нового моющего средства. Через 10 недель компания решила проанализировать эффективность этого вида рекламы, со- поставив еженедельные объемы продаж с расходами на рек- ламу: Объем продаж, тыс. руб. 72 76 78 70 68 80 82 65 62 90 Расходы на рекламу, тыс. руб. 5 8 6 5 3 9 12 4 3 10 П о с т р о й т е график исходных данных и определите по нему характер зависимости. Рассчитайте выбо- рочный коэффициент линейной корреляции Пирсона, про- верьте его значимость при а = 0,05. П встройте урав- нение регрессии и дайте интерпретацию полученных резуль- татов. Задача 6. Предположим, что мы имеем случайную выборку из 10 домо- хозяйств для изучения связи между числом холодильников в домохозяйстве и числом членов домохозяйства (X — число членов домохозяйства; Y — число холодильников): X 6 2 4 3 4 4 6 3 2 2 Y 4 1 3 2 2 3 4 1 2 2 Постройте график исходных данных и определите по нему характер зависимости. Рассчитайте выбо- рочный коэффициент линейной корреляции Пирсона, про- верьте его значимость при а =0,01. Постройте урав- нение регрессии и дайте интерпретацию полученных резуль- татов. Задача 7. Имеются выборочные данные о стаже работы (X, лет) и выра- ботке одного рабочего за смену (У, шт.): 383
X 1 3 4 5 6 7 Y 14 15 18 20 22 25 Постройте график исходных данных и опреде- лите по нему характер зависимости. Рассчитайте выборочный коэффициент линейной корреляции Пирсона, проверьте его значимость при а = 0,05. Постройте уравнение регрессии и дайте интерпретацию полученных ре- зультатов. Задача 8. Семь вновь принятых сотрудников брокерской компании про- ходят аттестацию в конце испытательного периода. Результа- ты их работы оцениваются тестированием на профессиональ- ную пригодность и по отдаче с каждого инвестированного ими рубля. Результаты молодых специалистов были ранжиро- ваны следующим образом: Критерий А В С D Е F G Результат теста 3 2 6 4 1 7 5 Отдача с рубля 1 3 5 2 4 6 7 Вычислите коэффициент корреляции рангов Спирмена, оцените его значимость. Задача 9. Следующие данные получены из случайной выборки по обо- ротам 8 годовых консолидированных балансов. Числа в таб- лице показывают объем продаж и цену единицы товара: Продажа, тыс. шт. 12,2 18,6 29,2 15,7 25,4 35,2 14,7 11,17 Цена, руб. 29,2 30,5 29,7 31,3 30,8 29,9 27,8 27,0 Рассчитайте выборочный коэффициент кор- реляции Пирсона между объемом продаж и ценой товара. Проверьте значимость коэффициента корреляции для а — 0,05. Задача 10. Перед сдачей экзаменов в конце семестра в 20 группах сту- дентов университета был проведен опрос о том, какую оцен- ку по сдаваемым в сессию курсам они ожидают получить. После сессии средние полученные оценки были сопоставле- ны со средними ожидаемыми. Результаты приведены в таб- лице: 384
Ожидаемая 3,4 3,1 3,0 2,8 3,7 3,5 2,9 3,7 3,5 3,2 Полученная 4,1 3,4 з,з 3,0 4,7 4,6 3,0 4,6 4,6 3,6 Ожидаемая з,о 3,5 3,3 3,1 3,3 3,9 2,9 3,2 3,4 3,4 Полученная 3,5 4,0 3,6 3,1 з,з 4,5 2,8 3,7 3,8 3,9 Рассчитайте линейный коэффициент корреля- ции Пирсона, проверьте его значимость при а = 0,05. Список литературы 1. Гнеденко Б.В., Хинчин А.Я. Элементарное введение в теорию вероятностей. — М.: Физматгиз, 1961. 2. Гмурман В.Е. Введение в теорию вероятностей и математиче- скую статистику. — М.: Высш, школа, 1966. 3. Елисеева И.И., Юзбашев М.М. Общая теория статистики. Изд. 4-е. — М.: Финансы и статистика, 1998. 4. Карасев А.И. Теория вероятностей и математическая стати- стика. — М.: Статистика, 1979. 5. Козлова З.А., Ткачева Т.Н. Простейшие комбинаторные зада- чи и непосредственный подсчет вероятностей с помощью формул комбинаторики. — Ростов-на-Дону: РИНХ, 1978. 6. Козлова З.А., Ткачева Т.Н. Основные теоремы теории вероят- ностей. — Ростов-на-Дону: РИНХ, 1980. 7. Колемаев В.А., Калинина В.Н. Теория вероятностей и матема- тическая статистика: Учебник. — М.: ИНФРА-М, 1997. 8. Эддоус М., Стэнсфилд. Методы принятия решений: Пер. с англ. — М.: Издательское объединение «ЮНИТИ», 1997. 9. Mendenhall W., Wackerty D., Scheaffer R. Mathimatical Statistics with Applications. — PWS-KENT Publishing Company, USA, 1990. 10. Canavos G. Applied Probability and Statistical Methods. — Little, Brown & Company, USA, 1984. 11. Aczel A. Complete Business Statistics. — 2nd ed., Richard D. Ir- win, INC., 1993. 13 Теория статистики с основами теории вероятностей
15 Анализ временных рядов и прогнозирование 15.1.Основные понятия Динамические процессы современного мира привлекают к себе пристальное внимание. Во-первых, от них зависит будущее, без прогноза которого невозможно принятие сколько-нибудь серьезных решений. Нельзя, например, разрабатывать ответственные программы со- циально-экономического развития отдельных стран и мира в целом без учета того, что, по прогнозам ООН, к началу 2000 г. население Земли превысит 6 млрд чел., а к 2050 г. — 9 млрд чел., что породит множество новых проблем экономического, социаль- ного, экологического и другого плана. Нельзя вести дела на бирже без прогноза курсов валют и акций. Особенно нужны эти прогнозы при использовании новых финансовых инструментов защиты от риска (фьючерсов, опционов и форвардных контрактов). Во-вторых, количественные характеристики упомянутых процессов служат для качественной оценки настоящего: одно дело — страна с вялотекущим развитием, совсем другое — с ин- тенсивной динамикой. Иной раз достаточно всего одного пока- зателя биржевой динамики, вроде индекса Доу Джонса (США), или индекса РТС (Россия), или FTSE (Великобритания), DAX-30 (Германия), Nikkei-225 (Япония) и т.д., чтобы дать качествен- ную оценку экономической ситуации целой страны. Динамика в статистике отражается с помощью временных ря- дов. Временные ряды — это ряды чисел, отражающие развитие изу- чаемого явления во времени. Другие их названия: хронологические ряды, ряды динамики, в машинных программах — Time Series. Самым простым показателем, используемым при работе с временными рядами, является средний уровень ряда. Для интер- вальных рядов он исчисляется с помощью средней арифметиче- ской, а для моментных — с помощью средней хронологической. Характерной особенностью интервального ряда является то, что в нем данные приводятся за определенные промежутки времени. Эти данные можно суммировать. Их сумма имеет вполне реаль- 386
ное содержание, чего нельзя сказать о показателях моментных рядов. Рассмотрим интервальный ряд. Пример 15.1. Объем продаж на валютной бирже за первую половину марта 1999 г., млн долл. США Дата (t) 1.03 2.03 3.03 4.03 5.03 9.03 10.03 11.03 12.03 Объем про- даж (у,) 131 136 128 150 140 132 180 148 160 Примечание: В нерабочие и праздничные дни (6—8 марта) торгов не было. Средний уровень интервального ряда исчисляется по формуле средней арифметической: - 1395 1у1. п 9 Сумма всех уровней приведенного ряда имеет вполне реальное зна- чение — это совокупный объем продаж валюты за первые две недели марта. Он равен 1305 млн долл. Рассмотрим моментный ряд, в котором данные приводятся на последовательные моменты времени. Пример 15.2. Вклады населения в учреждениях банков России в первом квартале 1997 г. Дата На 1 января На 1 февраля На 1 марта На 1 апреля Сумма, млн руб. 119 292,9 129 744,4 132 797,4 133 928,3 Сумма чисел этого ряда реального смысла не имеет, что по- зволяет легко отличать его от интервального ряда, где у суммы уровней ряда смысл есть. Средний уровень моментного ряда исчисляется по формуле средней хронологической: У У ^- + У2+уз + ...+^ п-1 где У1 и уп — начальный и конечный уровни ряда; у2, Уз — промежуточные уровни; п — число уровней ряда, принимаемых в расчет. 387 13»
Согласно последней формуле средний размер вкладов насе- ления в банках России за 1-й квартал 1997 г., млрд руб.: 119 292,9 „а-ААА ,„1г„А 133 928,3 у =----2------------ -------------2---= 129 717 4 4-1 Средний уровень последнего ряда можно было рассчитать и другим путем: вначале рассчитать средние остатки для отдельных ме- сяцев, а потом из них найти среднюю для трех месяцев в целом. Та- кой путь обычно рекомендуется разными служебными инструкция- ми. Результат будет тот же, но расчеты станут более громоздкими. В принципе по средним уровням за короткие промежутки вре- мени можно всегда исчислить средний уровень за более длитель- ный промежуток времени. Если исходные промежутки времени равновелики, то для расчета общей средней можно использовать простую арифметическую, как это было сделано в примере с остат- ками вкладов. Если исходные промежутки времени не равны между собой, то нужна средняя арифметическая взвешенная. Чем короче промежутки между моментами времени и, зна- чит, чем больше промежуточных уровней участвует в расчете, тем точнее характеризуется средний уровень ряда. Когда же их нет, тогда средний уровень ряда исчисляют только по концам ряда. Результат получается не очень точным, но при определен- ных условиях вполне удовлетворительным. В частности, можно получить вполне удовлетворительный результат, если воспользо- ваться таким приемом в только что приведенном примере с ос- татками вкладов в банках: у^= 119292^339^ = 1266196 Удовлетворительные результаты можно получить не всегда, а только для тех рядов, график которых близок к прямой, т. е. при наличии либо равномерного роста, либо равномерного падения. Если же имеет место ускоряющийся рост или ускоряющееся падение и ряд на графике изображается кривой, то расчет сред- него уровня только по концам ряда может дать ошибки тем большие, чем больше кривизна кривой, изображающей этот ряд на графике. Уменьшить ошибки в таком случае можно с помо- щью следующей формулы: У--У1. lny„-lnyf ’ где In уп, In — натуральные логарифмы начального и конечного уров- ней ряда. 388
Допустим, ряд имеет такой вид: Дата (Г) 1 2 3 4 Уровень ряда (у) 10,0 12,7 16,8 22,0 На графике — это кривая возрастающей функции. Средняя арифметическая, исчисленная по концам ряда, бу- дет не очень точна. Она составит: 10,0 + 22,0 --------= 1 о,и. 2 Более точный результат здесь бы дала средняя хронологиче- ская, в расчете которой участвуют не только конечные, но и промежуточные уровни: 10,0 ,, 0 22,0 ----+ 12,7 + 16,8 + —— —2--2_ = 152 4-1 Такой же результат даст здесь средняя, исчисленная по при- веденной выше формуле. Она будет равна: 22-10 = 12 In 22-In 10 3,091-2,302 Это полностью совпадает с тем, что можно получить путем включения в расчет промежуточных уровней. Показатели роста и прироста предназначены для характери- стики скорости изменения уровней ряда (уф Показатели роста представляют собой отношение двух уровней, а прироста — их разность. Если упомянутые показатели имеют вид относитель- ных величин, их называют коэффициентами. Если они выраже- ны в процентах — темпами. Показатели могут быть цепными и базисными. У цепных ве- дется сравнение текущего уровня с предыдущим, а у базисных — с начальным, принятым за базу. Таким образом, цепные коэффициенты роста будут иметь сле- дующий вид: ^2/1= У1!уi; к-з/2= Уз/Уг; = уь!уз ; fyi-i = у, 1у,-\ • Базисные коэффициенты роста будут такими: ^2/1 ~У2/У1 > ^з/1= уз/у\ ; ^t/i ~у^/у\ ; = У//у\ В свою очередь цепные показатели прироста, которые назы- вают еще «первыми разностями», будут исчисляться так: d2 = У-z - Уь Ф = Уз - Уъ Ф = у4~ Уз; ...; ф = у,- - уЬ1. 389
Базисные показатели прироста будут иметь такой вид: ^2 = У2-Уь = у3~ух, d4 = У4~уу, dt= Ух~ух- Абсолютные приросты можно выразить в процентах к преды- дущему или начальному (базисному) уровню. В результате будут получены цепные или базисные темпы прироста. Базисные тем- пы прироста называют еще «пунктами» прироста. В пунктах прироста принято показывать динамику специ- альных биржевых индексов. Старейшим биржевым индексом является индекс Доу Джонса. Он рассчитывается с 1869 г. и представляет собой простой средний арифметический индекс цен на акции 30 крупнейших американ- ских компаний. Ниже приводится динамика этого показателя. Динамика индекса Доу Джонса на Нью-Йоркской бирже Дата Пункты 1869 г. 100 1967 г. 1 000 1993 г. 5 000 28 января 1998 г. 7 915 17 марта 1999 г. 10 001 Прогноз на 2001 г. 11 000 Эти данные отражают рост цены акций упомянутых компа- ний по сравнению с 1869 г., т. е. рост цены акций упомянутых компаний выражен в базисных процентах, или пунктах. У индекса Доу Джонса были падения. Одно из особенно рез- ких произошло 29 октября 1929 г., что положило начало Вели- кой депрессии. Падение произошло неожиданно, после безу- держного роста этого индекса. Судя по приведенным данным, индекс Доу Джонса вырос 17 марта 1999 г. по сравнению с 28 января 1998 г. на 2086 пунктов (т.е. 10 001 - 7915). Если указанный рост необходимо представить не в пунктах, а в процентах, то для этого следует проделать такой расчет: (10 001-7 915) 100% 7,915 Пункты можно складывать и вычитать, ибо все они имеют одинаковое наполнение, так как исчислены по отношению к одной и той же базе, принятой за 100%. Этого нельзя сказать о процентах. Их база все время меняется. 390
Если показатель упал на 20 пунктов, а потом опять вырос на 20 пунктов, то он вернулся на прежний уровень. Когда подобное ожидают и от процентов, забывая о том, что они имеют у разных периодов разное наполнение, то совершают «ошибку перемены ба- зы». Эту ошибку, в частности, совершает тот, кто считает, что его зарплата вернется на прежний уровень, если она после падения на 20% в одном периоде вырастет на 20% в другом. Она станет в дей- ствительности меньше на 4%, ибо 0,8 • 1,2 = 0,96, или 96%. Определение содержания одного процента прироста позволяет предупреждать ошибку перемены базы, а также служит для пра- вильной оценки успехов, достигнутых в истекшем периоде. Иной раз прирост в процентах выглядит очень внушительно. Но если проценты являются «пустыми», то такой прирост не явля- ется настоящим успехом. Содержание одного процента прироста может быть получено: а) делением абсолютного прироста на прирост в процентах, б) делением предыдущего уровня на 100. Мы уже приводили пример с индексом Доу Джонса, в кото- ром он вырос на 26,4%, или 2806 пунктов. Таким образом в од- ном проценте содержится 79 пунктов, т.е. 2068 : 26,4. Это же значение получим, если разделим предыдущий уро- вень ряда, относящийся к 28 января 1998 г., на 100: 7915 : 100 = 79. Средний темп (коэффициент) роста или прироста позволяет оценить среднюю скорость изменения уровней временного ряда. К помощи этого показателя приходится прибегать тогда, когда надо сравнить скорость изменений у рядов разной длины. На- пример, в одном случае объем явления вырос за пять лет в 3 раза, а в другом случае — за восемь лет в 5 раз. Какой рост был выше? Сравнивать 3 и 5 нельзя, ибо эти коэффициенты роста относятся к разным временным интервалам. Сравнивать в таком случае можно только среднегодовые коэффициенты роста. Средний коэффициент роста исчисляется с помощью сред- ней геометрической простой или взвешенной. Взвешенная используется тогда, когда значения некоторых ко- эффициентов роста повторяются. Средняя геометрическая простая имеет следующую формулу: K~t$K\K2Ky К„ , где Kt, К2, Ку, .... Кп — цепные коэффициенты роста за п периодов. 391
Поскольку произведение цепных коэффициентов дает базис- ный коэффициент роста, а базисный коэффициент можно полу- чить делением конечного уровня на начальный, постольку при- веденную выше формулу можно записать еще и так: if’1-30- Если бы начальный уровень был обозначен через уо, то ко- рень надо было бы брать я-й степени, а не степени п — 1. Выше уже приводился пример, в котором давались уровни ря- да за 4 периода: 10,0; 12,7; 16,8 и 22,0. По этим данным можно исчислить 3 цепных коэффициента роста: 1,27; 1,32 и 1,31. Средний коэффициент роста для этого примера составит 3/1,27 1,32 1,31 = Следовательно, средний темп роста здесь составил 130%, а средний темп прироста равен 30%. Средний темп прироста ни в коем случае нельзя исчислять по простой арифметической. Согласно правилу мажорантности средних при использовании средней арифметической всегда по- лучается завышенный результат по сравнению со средней гео- метрической. При коротких рядах это завышение может быть не очень заметным, но при длинных рядах — очень существенным. Пример, подтверждающий это, приведен ниже. Средняя геометрическая взвешенная имеет такой вид: Если два первых года ежегодный прирост был бы равен 20%, а последующие три года — 40%, то надо было бы воспользовать- ся последней формулой, которая в данном случае дала бы сле- дующее значение среднегодового коэффициента роста: ^ = ^Ц21,43 =1,316. Последний расчет вполне допустимо записать еще и так: К = 132/5- 1,43/5 =1,07565 1,22371 = 1,316. В соответствии с этим средняя геометрическая может полу- чить такой вид: *=П(*Г'), где К, — цепной коэффициент роста в ;-м периоде, w, = ----вес /-го периода. 392
Причем обязательно = 1. Приведенная здесь формула средней геометрической может показаться непривычной, но она в последнее время встречается все чаще и чаще. Сделаем расчеты среднегодовых темпов роста для индекса Доу Джонса. За период с 1869 по 1999 гг., т.е. за 130 лет, он вырос до уровня 10 001 пункт, т.е. приблизительно в 100 раз, или на 9901 пункт. Его среднегодовой коэффициент роста в таком слу- чае будет равен: К = 13#100 = 1,0361, т.е. среднегодовой темп прироста составил 3,61%. Ни в коем случае здесь нельзя использовать среднюю ариф- метическую. Она для данных условий будет равна: 9901 130 Среднегодовой коэффициент иной раз приходится рассчиты- вать за дробное число периодов времени. Например, если за полгода произошел рост в 1,5 раза, то в пересчете на годовой коэффициент это составит: 1,52= 2,25. Если же такой рост произошел за два года, годовой коэффи- циент роста будет равен: Af = Vb5 = l^ = U25. Если рост в 1,5 раза произошел за 3 квартала года, то в пере- счете на годовой коэффициент это составит: ЛГ = 1^ = 1,717. Рост же в 1,5 раза за 15 месяцев в пересчете на год составит: К = 1,5% = 1^83 . По приведенным выше данным индекс Доу Джонса за пери- од с января 1998 г. по март 1999 г., т.е. за 14 месяцев, вырос, как было нечисленно выше, в 1,264 раза. Следовательно, его сред- негодовой рост за этот период был равен: К = 1,264% = 1,222. Другими словами, среднегодовой темп прироста данного биржевого индекса в этом периоде составил 22,2%. 393
В ряде случаев бывает полезно знать период удвоения явления, т.е. время, за которое уровень ряда удвоится при заданных тем- пах роста. Например, полезно знать, за какое время удвоится банков- ский вклад за счет начисляемых на него процентов или за какое время может удвоиться численность населения района, области, края или страны1. Расчет периода удвоения можно сделать следующим образом: 1g* ’ где х — период удвоения; К — заданный коэффициент роста. Менее точно, но более просто, расчет периода удвоения можно сделать и так: _ 70 Х d ’ где d — средний прирост в процентах. Например, если население страны ежегодно увеличивается на 1%, то надо ожидать, что его численность удвоится за период длительностью: _ lg2 0,30103 Х lgl,01 0,004321 69,7 ГОДа' Менее точно этот же результат может быть получен и так: х = -у = 70 лет. Если банковский вклад приносит 5% годовых, то он удвоит- ся за период длительностью: lg2 0,30103 Х lgl,05 0,021189"14,2 Г°Да’ Или, если применить более простой способ: 70 ' х = — = 14 лет. Упрощенный способ расчета периода удвоения дает удовле- творительные результаты лишь при условии, что ежегодный прирост не превышает 30%. При более высоких темпах прироста он начинает сильно занижать период удвоения. 1 Период удвоения населения земного шара до начала 20-го столетия составлял около 500 лет, а во второй половине этого столетия он сократился до 40—45 лет. Такое ускорение роста численности населения — источник обострения ряда социальных и экологических проблем. 394
15.2. Приемы преобразования временных рядов Преобразование временных рядов включает в себя приемы,.по- зволяющие сделать ряды более удобными для анализа. В частно- сти, оно включает в себя приведение рядов к одному основанию и их смыкание. Приведение рядов к одному основанию приходится использо- вать тогда, когда временные ряды имеют различия, затрудняю- щие их непосредственное сравнение (разные начальные перио- ды, разную валюту и др.). При приведении рядов к одному ос- нованию выбирается один, общий для всех рядов, период, кото- рый принимается у них за 100%. От выбора упомянутого перио- да подчас зависит ответ на вопрос, какой ряд растет быстрее. Приведем в подтверждение пример. Пример 15.3. Имеются следующие данные о численности населения Ростовской области за ряд лет: Численность населения Ростовской области на начало года, тыс. чел. Население 1970 г. 1988 г. 1991 г. 1993 г. 1994 г. Городское 2420,4 3101,6 3097,8 3016,8 2994,5 Сельское 1410,9 1211,5 1250,0 1366,1 1407,0 Если возьмем за базу 1970 г., то получим таблицу, по которой мож- но будет сделать вывод о более быстром росте городского населения: Динамика численности населения Ростовской области в процентах к 1970 г. Население 1970 г. 1988 г. 1991 г. 1993 г. 1994 г. Городское 100 128,1 127,9 124,6 123,7 Сельское 100 85,9 88,6 96,8 99,7 395
Картина получится совсем иной, если взять за базу 1988 г. Динамика численности населения Ростовской области в процентах к 1988 г. Население 1988 г. 1991 г. 1993 г. 1994 г. Городское Сельское 100 100 99,9 103,2 97,3 112,8 96,5 116,1 Твердого правила для выбора общего основания сравнивае- мых рядов нет. Это позволяет недобросовестным исследователям манипулировать данными. Смыкание временных рядов используют тогда, когда надо соз- дать один длинный, сквозной ряд из нескольких коротких ря- дов, отличающихся либо методологией расчета показателей, ли- бо границами территории, либо ценами, что не позволяет их соединить вместе без всяких пересчетов. Смыкание рядов может быть осуществлено только в том случае, если ряды имеют хотя бы один общий период. Пример 15.4. По одному из районов области имеются данные о численности на- селения с 1970 г. по 1990 г. в одних границах, а с 1990 г. по 1998 г. — в других. Эти данные представлены ниже: Численность населения района на начало года, тыс. чел. Население 1970 г. 1985 г. 1990 г. 1995 г. 1998 г. В старых границах 200 230 240 — — В новых границах — — 300 330 340 Поскольку у двух рядов имеется один общий год, постольку их смыкание возможно. По данным этого общего года исчисля- ем коэффициент пересчета данных из старых границ в новые: ^Хгар‘ 240 * 1,25’ С помощью этого коэффициента делаем пересчет численно- сти населения: для 1970 г. 200 • 1,25 = 250; для 1985 г. 230 • 1,25 = 287,5. Можно сделать и обратный пересчет — из новых границ в старые: для 1995 г. 330 : 1,25 = 264; для 1998 г. 340 : 1,25 = 272. 396
В результате этих пересчетов получим таблицу. Численность населения района на начало года, тыс. чел. Население 1970 г. 1985 г. 1990 г. 1995 г. 1998 г. В старых границах 200 230 240 264 272 В новых границах 250 287,5 300 330 340 15.3. Приемы анализа временных рядов Каждый уровень временного ряда формируется под воздей- ствием большого числа факторов, которые условно можно под- разделить на три группы: • факторы, формирующие тенденцию ряда; • факторы, формирующие циклические колебания ряда; • случайные факторы. При различных сочетаниях этих факторов зависимость уров- ней ряда от времени может принимать различные формы. Большинство временных рядов экономических показателей име- ют тенденцию, характеризующую совокупное долговременное воз- действие множества факторов на динамику изучаемого показателя. Взятые в отдельности эти факторы могут оказывать разнона- правленное воздействие на исследуемый показатель, однако в совокупности они формируют его возрастающую или убываю- щую тенденцию. Пример временного ряда, содержащего возрастающую тен- денцию, показан на рис. 15.1, а. Изучаемый показатель может быть подвержен циклическим колебаниям. Эти колебания могут носить сезонный характер, поскольку экономическая деятель- ность ряда отраслей экономики зависит от времени года (например, цены на сельскохозяйственную продукцию в летний период ниже, чем в зимний; уровень безработицы в курортных городах в зимний период выше по сравнению с летним). При наличии данных за длительные промежутки времени можно вы- явить циклические колебания, связанные с общей динамикой конъюнктуры рынка и с тем, в какой фазе бизнес-цикла нахо- дится экономика страны. Гипотетический временной ряд, содержащий только сезон- ную компоненту, представлен на рис. 15.1, б. Некоторые временные ряды не содержат тенденции и цик- лической компоненты, а каждый следующий их уровень обра- 397
зуется как сумма среднего уровня ряда и некоторой (положительной или отрицательной) случайной компоненты. Пример ряда, содержащего только случайную компоненту, показан на рис. 15.1, в. Рис. 15.1. Основные компоненты временного рада: а — тенденция; б — сезонная компонента; в — случайная компонента Очевидно, что реальные данные не следуют целиком и пол- ностью какой-либо из описанных выше моделей. Чаще всего они содержат все три компоненты. Каждый их уровень форми- руется под воздействием тенденции, сезонных колебаний и слу- чайной компоненты. 398
В большинстве случаев фактический уровень временного ря- да можно представить как сумму или произведение трендовой, циклической и случайной компонент. Соответствующие модели получили названия аддитивной и мультипликативной моделей временного ряда. Основная задача исследования отдельного вре- менного ряда — выявление каждой из перечисленных выше компонент с тем, чтобы использовать полученную информацию для прогнозирования будущих значений ряда. Основная цель анализа временных рядов — выявление глав- ной тенденции развития изучаемого явления. Выявлению ос- новной тенденции развития могут помешать случайные колеба- ния уровней ряда, а также ошибки измерения. Для их погаше- ния используют своего рода фильтры. Понятие фильтрации включает в себя приемы устранения ошибок (шума) из наблю- дений за динамикой явлений. Одним из таких фильтров можно назвать «фильтр Кал мана», который знаменит тем, что исполь- зовался при слежении за космическим кораблем «Аполлон XI» при его полете на Луну. Однако возможности его применения в экономической области довольно ограничены: ему нужна особая точность измерений и значительное число наблюдений, что в экономических исследованиях встречается редко. Ниже мы рас- смотрим более простые и легко применимые в экономике прие- мы погашения «шумов», мешающих разглядеть главную тенден- цию развития изучаемого явления. К числу их можно отнести укрупнение интервалов, сглаживание и выравнивание рядов. Укрупнение интервалов представляет из себя замену данных, имеющих отношение к мелким временным периодам, данными по более крупным периодам. Например, можно заменить суточ- ные данные недельными или декадными, декадные — месячными. Это позволит более отчетливо показать «ось развития явления». Например, объем продажи валюты на биржах меняется изо дня в день под влиянием самых разнообразных факторов, вклю- чая и чисто случайные. Относительно меньшую колеблемость обнаруживают недельные объемы продажи валюты, еще мень- шую — месячные и далее квартальные. Объединив мелкие ин- тервалы в крупные, мы погасим известную часть случайной ко- леблемости и получим возможность более отчетливо показать основное направление развития событий на валютных биржах. Недостатком этого приема является то, что с переходом к более крупным интервалам длина ряда сильно укорачивается. 399
Имея же очень короткий ряд, выявить какую-либо тенденцию развития невозможно. Сглаживание рядов позволяет погасить случайные колебания ряда так, чтобы его длина не слишком укоротилась. Сглажива- ние рядов осуществляется с помощью скользящей средней. Она называется так потому, что как бы скользит по ряду, двигаясь от начала к его концу. Скользящая средняя является своеобразным фильтром, отделяющим случайные из- менения ряда от неслучайных. Эта средняя исчисляется для не- скольких уровней, входящих в интервал сглаживания, и затем относится к середине этого интервала. Расчет скользящей средней покажем на примере. Таблица 15.1. Объем продаж долларов США на ММВБ за отдельные дни января 1998 г., млн долл. Дата Фактические данные Данные, сглаженные с помощью скользящей средней 12 января 135,7 — 13 января 109,5 (135,7 + 109,5 + 56,4) : 3 = 100,5 14 января 56,4 (109,5 + 56,4 + 97,7) : 3 = 87,9 15 января 97,7 (56,4 + 97,7 + 103,4) : 3 = 85,8 16 января 103,4 — На графике сглаженные данные имеют вид более плавного ряда, чем фактические данные. В общем виде расчет трехчленной скользящей средней для /-го периода можно записать так: - , +yi +yi+i у‘ 3 Для пятичленной скользящей средней формула будет иметь такой вид: - _ У,-2 + У/-1 + У/ + У/+1 + У/+2 ' 5 ' При расчете скользящей средней лучше брать нечетное число уровней ряда. Тогда не придется заниматься «центрированием» дан- ных, что неизбежно при расчете скользящей средней по четному числу членов, когда ее относят к промежутку между двумя датами. В табл. 15.1 против 12 и 16 января пришлось поставить про- черк, ибо для этих дат, стоящих на концах ряда, применить рас- смотренный выше способ расчета скользящей средней невоз- можно. С этим надо либо мириться, либо искать иные способы 400
расчета. В частности, для начальной даты (12 января 1998 г.) можно сделать такой расчет: =(2yi + у2) : 3 = (2 • 135,7 + 109,5) : 3 =127,0. Для 16 января 1998 г. расчет будет выглядеть так: уп = (2у„ + Л-1) : з = (2 • 103,4 + 97,7) : 3 = 101Д В конечном итоге сглаженный ряд будет иметь такой вид: 12 января 1998 г. 127,0 13 января 1998 г. 100,5 14 января 1998 г. 87,9 15января 1998 г. 85,8 16января 1998 г: 100,5 Сумма всех уровней сглаженного по данной методике ряда полностью совпадает с аналогичной суммой для исходного ряда: 127,0 + 100,5 + 87,9 + 85,8 + 101,5 = 502,7; 135,7 + 109,5 + 56,4 + 97,7 + 103,4 = 502,7. Последнее обстоятельство говорит о том, что сглаженный ряд «плотно сел» на исходный ряд и хорошо его представляет. Совпадение вышеупомянутых сумм свидетельствует о совпаде- нии средних уровней этих двух рядов. При применении пятичленной скользящей средней на кон- цах сглаженного ряда появляются по две «пустых» даты. Чтобы их заполнить, мы предлагаем такие формулы для начала ряда: У1 = (3yi + 2уг + уз) : 6; Ь = (2у2 + Уз) : 3. Для конца ряда можно применить следующие рас- четы: Уп-i = (2 уд-| + Уп-i) • 3; Уп = (Зу„ + 2у„.! + у„_2) : 6. Использование этих формул позволит получить сглаженный ряд с несмещенным средним уровнем. Менее удовлетворитель- ный результат дают формулы, предложенные другими авторами, ибо они приводят к смещению среднего уровня ряда. 401
Помимо скользящей средней для сглаживания динамических рядов используется также экспоненциальная средняя. Она подробно будет рассмотрена ниже в связи с вопросами прогнозирования. Здесь же пока отметим, что при использовании экспоненциальной средней применяются веса, убывающие по экспоненциальному закону по мере удаления в прошлое. При использовании же скользящей средней веса не применялись. Как для расчета скользящей средней, так и для расчета экс- поненциальной средней существуют специальные вычислитель- ные программы, находящиеся в разделах TIME SERIES ANALYSIS многих пакетов прикладных программ. Выравнивание рядов служит тем же целям, что и сглаживание, — выявлению основной тенденции развития. Только в отличие от эмпирического сглаживания выравнивание является аналитиче- ским приемом, позволяющим представить временной ряд в виде математической модели и исчислить с помощью этой модели такие уровни, которые бы он имел, если бы отсутствовали слу- чайные влияния в виде «шумов», искажений и др. Эти уровни называют выравненными и обозначают как yt в отличие от фак- тических уровней, обозначаемых как yt. В качестве моделей служат уравнения регрессии, параметры которых рассчитывают по способу наименьших квадратов, т. е. так, чтобы сумма квадратов отклонений выравненных уровней от фактических была бы минимальной, т. е. чтобы Х(^-Яг)2-»тт. Рассмотрим только наиболее часто используемые для вырав- нивания динамических рядов уравнения регрессии и укажем, для отражения каких именно тенденций развития они наиболее всего подходят. Кроме них существуют другие формы уравнений и математических функций, которые можно было бы использо- вать в качестве математических моделей динамических рядов. В принципе математическую модель можно подобрать для любого, самого экзотического временного ряда, в малейших деталях от- ражающую все повороты развития изучаемого явления. Однако чрезмерное математическое усердие опасно тем, что среди мело- чей может затеряться главная тенденция развития, ради выявле- ния которой собственно и предпринимается выравнивание вре- менных рядов. 402
Вид уравнения Отражаемая уравнением тенденция Уравнение прямой yt = at + b Равномерный рост при а > 0 или равномерное падение при а < 0 Показательная функция У, = b Ускоряющийся рост при а > 1 или замедляющееся падение при а < 1 Гипербола а , -+ь Замедляющееся падение при а > 0 или замедляющийся рост при а < 0 Парабола yt — afi + bt + с Рост, переходящий в падение, или па- дение, переходящее в рост в точке b 2а Для нахождения параметров приведенных выше уравнений существуют специальные алгоритмы и машинные программы. В частности, для нахождения параметров уравнения прямой может быть использован такой алгоритм: „ - - п Если периоды или моменты времени пронумеровать так, чтобы "£t = 0, то вышеприведенные алгоритмы существенно упростятся и превратятся в следующие: Покажем использование этих алгоритмов на примере дина- мического ряда, который приводился выше при рассмотрении вопроса о способах расчета средних уровней и средних коэффи- циентов роста. В этом примере у четырех дат были следующие порядковые номера: 1, 2, 3 и 4. Будем считать нулевым моментом промежуток между второй и третьей датой. Тогда у этих четырех дат появят- ся такие порядковые номера: —1,5, —0,5, +0,5 и +1,5. Их сумма равна нулю, что в дальнейшем упростит наши расчеты. Для осуществления последних составим такую таблицу: 403
t У yt -1,5 10,0 -15,00 2,25 -0,5 12,7 -6,35 0,25 +0,5 16,8 +8,40 0,25 + 1,5 22,0 33,00 2,25 =61,5 Xyr= 20,05 X г2 =5,00 Отсюда: 20,05 Л А 61,5 а=—-— = 4,01 о = ——=15,375. 5 4 При таких параметрах уравнение получит следующий вид: у, = 4,01/4- 15,375. С помощью этого уравнения найдем теперь выравненные уровни и заодно их отклонения от фактических значений: t Фактические уровни (у) Выравненные уровни ( у,) (у - Ус) (У- Уг)2 -1,5 10,0 9,36 0,64 0,4096 -0,5 12,7 13,37 -0,67 0,4489 0,5 16,8 17,38 -0,58 0,3364 1,5 22,0 21,39 0,61 0,3721 Итого 1,567 Выравненные уровни на графике расположатся на одной прямой, проходящей на самом близком расстоянии от фактиче- ских уровней данного динамического ряда. Сумма квадратов от- клонений, которая здесь равна 1,567, является отражением влияния случайных факторов. С ее помощью рассчитаем сред- нюю (стандартную) ошибку уравнения: и ЕЁ.о,885. V п-т V 4-2 Здесь п — число наблюдений (в примере п = 4); т — число параметров в уравнении (здесь т = 2, т.е. параметры а, Ь). Чем меньше стандартная ошибка, тем лучше подобрана модель. В нашем примере уравнение прямой не очень удачно. Как отмеча- лось выше, наш ряд на графике изображается не прямой, а кривой линией. Поэтому для него лучше подошло бы уравнение криволи- нейной зависимости, например показательная функция: yt='ba‘. 404
Для нахождения ее параметров можно воспользоваться уже приводившимся выше алгоритмом нахождения параметров урав- нения прямой. Но для этого криволинейную зависимость необ- ходимо превратить в «некое подобие» уравнения прямой, т. е. подвергнуть линеаризации. Это достигается посредством ее ло- гарифмирования: 1g у = t Iga + lgZ>. Теперь остается несколько видоизменить алгоритм расчетов: Iga =------- S'2 , L _ 7 Igo = —------- - at . п п ж п Чтобы воспользоваться этим алгоритмом, составим следую- щую таблицу: t У igy t igy fl 1 10,0 1,0000 1,0000 1 2 12,7 1,1038 2,2076 4 3 16,8 1,2253 3,6759 9 4 22,0 1,3424 5,3697 16 Итого 4,6715 12,2532 30 Используя итоги данной таблицы, сделаем следующие расчеты: 12^532 - ^12 Iga =-----------=-4---= 0,11489. 30 4 Отсюда а = Ю0’11489 ® 1,303. Данная величина является средним коэффициентом роста. Мы получали его и ранее, только с помощью иного расчета — с помощью средней геометрической: Небольшое расхождение, которое здесь имеет место, вызвано неизбежными в таких расчетах округлениями. Мы специально остановились здесь на совпадении результа- тов, ибо это помогает лучше понять суть одного из параметров показательной функции. Найдем теперь значение параметра Ь: 405
Igd = - ОД 1489 - 0,8807 . Отсюда b = Ю0’8807 = 7,59 801. Таким образом, искомая показательная функция будет иметь такой вид: у, =7,598 1,303'. С помощью этого уравнения найдем выравненные уровни динамического ряда и для удобства расчета стандартной ошибки уравнения, называемой также стандартной ошибкой оценки (std. error) составим следующую таблицу: t У yt У- У> (У- Л)2 1 10,0 9,90 0,10 0,01 2 12,7 12,90 -0,20 0,04 3 16,8 16,81 -0,01 0,00 4 22,0 21,90 +0,10 0,01 Итого 0,06 Отсюда ц =. = 0,1732. V 4-2 Как мы видим, ошибка при использовании показательной функции в качестве модели динамики оказалась существенно меньше, чем при использовании уравнения прямой. Это говорит о том, что в данном случае показательная функция является бо- лее удачной моделью, чем уравнение прямой. В демографии для прогноза общей численности населения используется несколько видоизмененный вариант показательной функции, а именно: Я,= А/Яо, где ff0 — численность населения в начальном периоде; Ht — прогноз для периода Г, Я — среднегодовой коэффициент роста, исчисляемый по формуле средней геометрической. Выше уже отмечалось, что параметр а, входящий в состав показательной функции, по своему существу является среднего- довым коэффициентом роста. Учитывая это, следует сделать вы- вод о том, что главное отличие формулы, используемой j демо- графических расчетах, от показательной функции вида yt = а' b состоит в том, что у нее вместо сомножителя Ь, исчисляемого по 406
способу наименьших квадратов, берется фактическая начальная численность населения. Это приводит в конечном счете к тому, что выравненные значения у нее проходят обязательно через концы исходного ряда. При использовании же параметра b вы- равненные значения проходят на наименьшем расстоянии от всех уровней ряда, но минуют концы временного ряда. В силу сказанного показательная функция вида yt = ba' хо- рошо подходит для интерполяций, т. е. для нахождения недос- тающих промежуточных уровней исходного ряда, но дает менее удачные прогнозы. Функция же Ht - к' Но хорошо служит для экстраполяций, т. е. для прогнозов, но дает менее удачные ин- терполяции. Прогнозы у нее получаются более реальными, ибо при ее использовании шаги к горизонту прогнозирования ведут- ся от реального последнего уровня исходного ряда. 15.4. Оценка качества используемой модели динамики Помимо величины стандартной ошибки для оценки качества используемой модели динамического ряда применяется также критерий Фишера F. Он представляет собой отношение двух дисперсий, а именно: отношение дисперсии, вызванной регрес- сией, т. е. изучаемым фактором, к дисперсии, вызванной слу- чайными причинами, т. е. остаточной дисперсией: р _ Дисперсия от регрессии Остаточная дисперсия В развернутом виде формула этого критерия может быть представлена так: F= TSyt-y? .УАУ ~ У^2 т-1 п-т где л — число наблюдений, т. е. число уровней ряда; т — число параметров в уравнении; у — фактический уровень ряда; yt — выравненный уровень ряда; у — средний уровень ряда. Как можно понять из последней формулы, дисперсия от случая есть не что иное, как квадрат ошибки уравнения. Соответствующие подсчеты этой величины у нас уже были сделаны выше. При ис- пользовании показательной функции эта дисперсия у нас составит: 407
n-m 4-2 Найдем дисперсию от регрессии: 2 = °рег /И-1 (9,9 -15,375)2 +(12,9 -15,375)2 + (16,81 -15,375)2 + (21,9+15,375)2 оп =----------------------------------------------------------- 80,736. 2-1 Таким образом, при использовании показательной функции в качестве модели нашего динамического ряда критерий F будет равен: F =^^ = 2691,2. 0,03 При использовании же уравнения прямой F = = ЛЙ? = 102’62 рег ост 07835 Здесь 2 (9,36 -15.375)2 + (13,37 -15,375)2 + (17,38 -15,375)2 + (21,39 -15,375)2 CTper- 7_< Чем больше значение F, тем лучше уравнение. Значение критерия F при использовании в качестве модели динамики по- казательной функции оказалось во много раз больше, чем при использовании уравнения прямой. Это говорит о том, что пока- зательная функция как модель динамики в данном примере бр- лее удачна, чем уравнение прямой. Более удачная, чем другие, модель не всегда может оказаться достаточно удовлетворительной. Ее можно признать таковой только в том случае, когда критерий F у нее перешагнет извест- ную критическую границу. Эта граница устанавливается с по- мощью таблиц F-распределения, небольшой фрагмент которой приводится ниже. Процентные точки F-распределения (Q = 5%) vl Ч2 1 2 3 4 5 7 10 20 30 СО 1 161,4 18,51 10,13 7,71 6,61 5,59 4,96 4,35 4,17 7,88 2 199,5 19,00 9,55 6,94 5,79 4,74 4,10 3,49 3,32 5,30 408
Таблица имеет, как мы видим, три в х о д а : Q; V] и v^. Первый вход (0) — это уровень значимости проверки, т. е. веро- ятность ошибки первого рода, заключающейся в отклонении верной нулевой гипотезы. Здесь гипотезы об отсутствии связи между динамикой уровней ряда и фактором времени. При эко- номических исследованиях упомянутый уровень принято брать в размере 5%. Второй вход — величина V] — число степеней сво- боды дисперсии от регрессии, т. е. т — 1, где т — число пара- метров в уравнении, служащем в качестве модели динамики. Уравнение прямой, показательная функция и гипербола имеют по два параметра. Для них vj = 1. У параболы три параметра. Для нее Vi = 2. Третий вход — величина vj ~ число степеней свободы остаточной дисперсии, вызываемой влиянием случай- ных факторов. Она определяется как п — т, где п — число на- блюдений, т. е. число уровней в анализируемом ряду. В рассматриваемом выше примере и для прямой, и для пока- зательной функции vj = 1 и V2 — 2. Значит, критическое значе- ние критерия F для них равно 18,51. Они его мнбгократно пре- высили и потому могут считаться вполне пригодными для отра- жения динамики. Вероятность того, что они могут показывать не динамику, а какие-то случайные факторы, в обоих случаях менее 5%. При использовании более подробных таблиц крите- рия Fдля уравнения прямой она составит менее 1%, а для пока- зательной функции она будет равна менее 0,05%. 15.5. Анализ временного ряда: аддитивная и мультипликативная модели Анализ временного ряда заключается в выделении отдельных компонент. Методика анализа зависит от того, какова связь ме- жду этими компонентами: аддитивная или мультипликативная. Аддитивной моделью временного ряда называется такая модель, в которой изменение значений переменной во вается через сложение отдельных компонент: времени описы- Фактическое значение уровня ряда Трендовое значение Сезонная компонента Случайная ком- понента (ошибка) т.е. Т + S + Е. 409
Процедура анализа аддитивного временного ряда включает: • расчет значений сезонной компоненты 5; • вычитание сезонной компоненты из фактических значе- ний (десезонализация данных), т.е. У — 5; • расчет тренда Т на основе десезонализированных данных; • расчет ошибок как разностей между фактическими и трендовыми значениями Е = У— Т; • расчет ошибки, аппроксимации — среднего отклонения или MAD или среднеквадратической ошибки MSE. Для выделения сезонной компоненты производится устране- ние сезонных колебаний методом скользящей средней. На осно- ве уровней временного ряда рассчитываются скользящие сред- ние, которые освобождены от сезонных колебаний, но включа- ют случайную компоненту. Например, для исключения сезонных колебаний из поквар- тальных данных находятся осредненные «скользящие» уровни: _ 1/2^1 +У2 +Уз + У4 +1/2 У5 . уз------------------------- , « _ 1/2У2 +Л + J'4 + J'5 +1/2 Уб . у4--------------- , =, _ 1/2 Уз + J'4 + J'S +У6 + 1/2 У? атп У5-------------д----------- и Т.Д., где у = Tt + Ej — элемент временного ряда, содержащий тренд и слу- чайную компоненту. Тогда выделение сезонной компоненты производится на ос- нове равенства у - у = 5 + Е . ’ Сезонная компонента находится как среднее значение се- зонных оценок для каждого сезона независимо от особенностей года. Общая сумма сезонных оценок должна быть равна нулю: = 0 (здесь j — номер сезона). Это необходимо, чтобы ус- реднить значения сезонной компоненты в целом за год. Поэто- му полученные сезонные оценки приходится корректировать, чтобы выполнить это условие. После этого устраняем сезонную компоненту из фактических данных, т.е. находим У — S = Т + Е. Данные такого рода называются десезонализированными. Они ис- пользуются для построения уравнения тренда. Уравнение линейного тренда имеет вид: 410
Т = а + Ы , где t — номер квартала (или месяца); а — отрезок, отсекаемый линией тренда при пересечении с осью ординат; b — характеристика наклона линии тренда к оси абсцисс. Параметры а и b находятся методом наименьших квадратов. Уравнения для расчета параметров а и b имеют вид: /_ n^ty-^У «Р2-(Р)2’ п п где t — порядковый номер квартала; у = Т + Е — десезонализированные уровни временного ряда. Найдя сезонную компоненту и тренд, выделяем случайную компоненту: У-5-Т=Е. Значения случайной компоненты (ошибки) используются для расчета среднего абсолютного отклонения: п ж MAD = ——, п или среднеквадратической ошибки MSE = . п Если ошибки малы, то делают вывод о том, что тенденция устойчива и позволяет получить хорошие краткосрочные про- гнозы. Прогнозные значения по аддитивной модели рассчиты- вают как У = Г*+ 5, где Т — трендовое значение для соответствующего квартала (месяца); S — сезонная компонента для соответствующего квартала (месяца). Трендовое значение для прогнозного квартала (месяца) рас- считывают по уравнению тренда: Г* = а + bt, где t — порядковый номер прогнозного квартала (месяца). Чем меньше период упреждения, тем более обоснованным оказывается прогноз. 411
Аддитивная модель применяется при постоянстве сезонной компоненты. Если она возрастает с возрастанием тренда, то луч- ший результат будет получен на базе мультипликативной модели-. Г= T-S-E, где Т — трендовая компонента, S — коэффициент сезонной компонен- ты, Е — относительное влияние случайной компоненты. В этом случае производят выравнивание ряда методом сколь- зящей средней и находят коэффициент сезонности: У:У = SE. Если временной ряд построен по квартальным данным, то сумма коэффициентов сезонности должна быть равна 4, а если 12 по месячным, — то JS, = 12 • Если этого нет, то производят 1=1 корректировку коэффициентов сезонности, чтобы выполнить это условие. На основе десезонализированных данных рассчитывают уравнение тренда — линейное или нелинейное — и находят трендовые значения Т. Затем вычисляют ошибки: относительную Е = У: (Т -S) ; абсолютную Еа = У ~(Т S). Так же, как и в предыдущем параграфе, оценивается бли- зость модели к фактическим данным с помощью показателей MAD и MSE. Прогнозные значения определяются как У = Г • 5, где 7* — прогнозное значение, найденное по уравнению тренда. Например, Т* = а + bt, где t — порядковый номер прогноз- ного квартала (месяца). Затем рассчитанное значение 7* корректируют на сезонную компоненту соответствующего квартала или месяца: 7* • S. 15.6. Спектральный анализ временного ряда При спектральном анализе исходят из предположения, что временной ряд является суммой, или спектром многих волнооб- разных изменений, которые можно описать с помощью тригоно- метрических функций. Целью спектрального анализа является отыскание скрытых периодичностей и оценка их интенсивности. 412
В природе и технике строгие периодические колебания, т. е. цик- лы, встречаются более или менее часто. В экономике они редки. Для описания волнообразных колебаний динамического ряда используют периодическую функцию Фурье следующего вида: 360Л/ , . 36ОЛ/Л yt=a0+^\akcos~— + bksm——^ , где а0 — средний уровень ряда; к — номер гармоники; t — порядковый номер временного периода; п — длина ряда, т. е. число уровней в нем. Номер гармоники — это то число волн данной длины, кото- рые смогут уложиться в данном ряду. Например, для ряда дли- ной в 10 лет у волны длиной в 5 лет номер гармоники будет ра- вен 2. У волны длиной в два года гармоника будет равна 5. Вышеприведенная формула периодической функции хорошо соответствует особенностям анализа периодических колебаний в акустике, механике, электротехнике и в других областях физики. Однако она не подходит для экономических исследований, где на первое место выдвигается не частота колебаний, а длина волны I. Учитывая, что I = , мы можем придать периодической функции более удобный для применения в экономической об- ласти вид, а именно: — v’f 360/ , . 360/Л У г = ао + Л ^/cos-y— + 6/sm —J . Для нахождения параметров последней можно предложить такой алгоритм: Е> 2^ 360/ . 2^ . 360/ а0=-~; a^-^ycos-j-; b^-^ysm—. При этом дисперсию (амплитуду) волны / можно будет найти так: 2 °;2 + bi а общую дисперсию можно рассчитать, как: о2 Иу-у? Доля объясненной вариации ряда, или коэффициент детер- минации, при этом будет исчисляться следующим образом: стобщ 413
Покажем использование всех этих формул на примере. Пример 15.5. Имеются данные об объеме продаж доллара на одной из межбан- ковских валютных бирж. Объем продаж долларов США за две недели февраля 1998 г. (по 5 рабочих дней в неделе), млн долл. Дата t Объем продаж в млн. долл. 9 февраля 1 45,0 10 февраля 2 52,0 11 февраля 3 41,0 12 февраля 4 35,0 13 февраля 5 44,0 16 февраля 6 46,0 17 февраля 7 56,0 18 февраля 8 40,0 19 февраля 9 34,0 20 февраля 10 42,0 Чтобы установить наличие циклов и их длительности, рассчитаем матри- цу коэффициентов автокорреляции, имеющих формулу: где угт — уровни, сдвинутые по отношению к уровням исходного ряда на т временных периодов. Величину т называют тау-сдвигом. Если для расчета матрицы упомянутых коэффициентов использо- вать машинную программу, то можно получить такую таблицу зависи- мости коэффициентов автокорреляции от тау-сдвига: Тау-сдвиг, дн. 1 2 3 4 5 Коэффициент авто- корреляции 0,06315 0,48137 0,63204 0,07560 0,07956 Из всех коэффициентов этой таблицы только коэффициент для сдвига в 5 дней является значимым, перешагнувшим критическую гра- ницу для 5%-го уровня значимости, которая равна 0,88233. Для расчета 414
параметров функции с такой длиной волны составим следующую таб- лицу: t У 360г 5 sin а cos а у sin а у cos а I 45 72 0,95 0,31 42,75 13,95 2 52 144 0,59 -0,81 30,68 -42,12 3 41 216 -0,59 -0,81 -24,19 -33,21 4 35 288 -0,95 0,31 -33,25 10,85 5 44 360 0 1 0 44 10 42 360 0 1 0 42 Итого 435 36,83 -17,49 Пользуясь итогами данной таблицы, произведем расчеты: 435 2 2 а0 = ~43,5; й/= ^(-17,49) =-3Д' д, = ^(36,83) = 7,37. Таким образом, периодическая функция, или ряд Фурье, в нашем примере для волны в 5 дней будет иметь такой вид: yt = 43,5 - 3,5cos—— + 7,37sin —. Исчисленные с помощью этой функции выравненные значения уровней ряда составят: для понедельников (t= 1; 6) .......49,4 для вторников (t = 2; 7) .........50,68 для сред (t = 3; 8) ...............42,0 для четвергов (Г = 4; 9) ..........35,41 для пятниц (Г = 5; 10) ............40,0 Сумма отклонений фактических уровней ряда от выравненных в данном примере составит 4,02. В принципе эта сумма должна была быть равной нулю. Мы не вы- шли на ноль потому, что проигнорировали наличие небольшого тренда и посчитали, что ряд является стационарным, т. е. колеблется вокруг некоего среднего уровня, равного 43,5. На самом деле небольшой тренд есть. Чтобы его учесть, нам надо было бы вместо значения а0 = 43,5 поставить at = -0,5636 +46,60. Параметры последнего уравнения пря- мой, отражающей небольшое линейное падение объемов продаж валю- ты на бирже, мы получили с помощью пакета прикладных программ (ППП). Вычисленные с его помощью общая дисперсия ряда и диспер- сия от пятидневной волны равны 46,73 и 33,28 соответственно. Таким образом, с помощью пятидневной волны удалось объяснить 33,28 : 46,72 = 0,712, т. е. 71,2% всей колеблемости анализируемого ди- намического ряда. Это так называемая детерминированная колеблемость, 415
а значение 0,712 не что иное, как коэффициент детерминации — R2. На долю случайной компоненты здесь приходится 28,8%. Коэффициент детерминации можно пересчитать в критерий F, ис- пользуемый для оценки качества моделей динамики. Этот пересчет выглядит так: R2(n-rri) 0,712(10-3) (1-Л2)(я-/и) 0,288(3-1) Табличное значение данного критерия для Q = 5%, = 2 и = 7 равно согласно таблице 4,74. Поскольку /факт > F критич, постольку рас- сматриваемую модель динамики можно признать вполне удовлетвори- тельной. Вышеприведенную таблицу коэффициентов автокорреляции для наглядности можно изобразить в виде коррелограммы. Кор- релограмма — это график, на оси абсцисс которого откладывает- ся масштаб для тау-сдвига, а на оси ординат — для коэффици- ентов автокорреляции. При этом знаки при коэффициентах особого значения не имеют и их можно опустить без потери наглядности представле- ния соотношений между коэффициентами. Помимо расчета коэффициентов автокорреляции и составле- ния коррелограммы для обнаружения скрытых периодичностей используется также периодограмм-анализ. Он позволяет с опреде- ленной вероятностью ответить на вопрос, сколько и какой дли- ны волн (или сколько гармоник и каких номеров) содержит анализируемый динамический ряд. Периодограмм-анализ ис- пользуют в акустике, радиотехнике и т.п. областях. Его приме- нение в экономике наталкивается на серьезные трудности, обу- словленные множеством действующих здесь факторов, создаю- щих множество интерферирующих волн. При этом одни волны взаимно усиливают друг друга, а другие — взаимно уничтожают- ся. Разобраться во всех этих переплетениях исключительно сложно. Требуется большой объем вычислительной работы, ибо поиск периодичностей приходится вести путем подстановки в периодическую функцию произвольных значений длин волн (или номеров гармоник) в надежде, что при какой-нибудь оче- редной подстановке будут получены пиковые значения коэффи- циентов при синусах или косинусах. Тогда соответствующие им волны можно будет признать в качестве действительно сущест- вующих. Выявленные в ходе периодограмм-анализа волны могут иметь различную силу. Одни могут быть очень слабыми, а дру- гие — сильными. Соотношение силы отдельных волн или гар- 416
моник показывают наглядно с помощью графика линейчатного спектра Фурье. На этом графике по абсциссе показывают длины волн, а по ординате их мощность. В качестве меры мощности этих волн берут вызываемые ими дисперсии, т. е. 2 Д/2 + fy2 1 2 Если все дисперсии более или менее равны, то говорят, что ряд характеризуется «белым шумом» (по аналогии с «белым све- том», представляющим собой совокупность световых волн раз- ной длины, но равной интенсивности). Наличие какой-либо пе- риодичности в изменении уровней ряда при этом отрицается. На практике встречаются исключительные трудности нахож- дения скрытых периодичностей исходного ряда, с которыми при- ходится встречаться в ходе спектрального анализа. Недаром в имеющейся по данному вопросу литературе обычно приводятся очень скупые сведения о практическом использовании спектраль- ного анализа в реальной экономической работе. Чаще указывают- ся сведения из других областей: например, о том, что Мур, иссле- дуя данные за 70 лет, обнаружил периодичность в изменении ко- личества выпавших осадков в одном из штатов США (периоды оказались равными 8 и 33 годам); об изучении методами спек- трального анализа циклов солнечной активности и т.п. В экономической работе, если и приходится встречаться с реально существующими циклами строгой периодичности, то лишь при изучении сезонности. Правда, в литературе имеются утверждения о существовании в экономике длинных волн с пе- риодом 40—60 лет и коротких с периодом 6—11 лет, а также «строительных» волн с периодом в 15—20 лет, по которым раз- виваются строительные циклы ряда стран. Однако серьезной статистики, подтверждающей все это, нет. 15.7. Приёмы прогнозирования Любой прогноз основывается на переносе прошлых тенден- ций, выявленных в ходе анализа временного ряда, на будущее. Период времени, для которого делается прогноз, называется горизонтом прогнозирования. Расстояние до него от текущего пе- риода называется периодом упреждения. Если период равен I—3 шагам в будущее, то говорят о краткосрочном прогнозе. При 4—10 шагах прогноз называют среднесрочным. При более длинных пе- риодах упреждения говорят о долгосрочных прогнозах. 417 14 Теория статистики с основами w • / теории вероятностей
В ходе прогнозирования приходится встречаться со следую- щим противоречием. Длинный исходный ряд позволяет хорошо погасить всякие случайные всплески и падения, но создает опасность переноса на будущее слишком старых закономерно- стей. Короткий ряд исключает такую опасность, но не избавляет от влияния случайностей. Прогноз не может считаться качест- венным, если на нем сказались случайности или очень старые закономерности. Чтобы разрешить упомянутое противоречие, ищут компро- мисс между стремлением погасить случайности и не допустить переноса на будущее слишком старых закономерностей. В усло- виях резких изменений, характерных для нашей страны, найти такой компромисс очень трудно: слишком короткие ряды надо использовать, чтобы не допустить присутствие в прогнозе утра- тивших силу закономерностей. Известным выходом из такого затруднительного положения может служить применение для прогнозов так называемых адаптивных моделей. Их особенностью является то, что при каж- дом поступлении новой информации в параметры модели вно- сят соответствующие коррективы. В результате этого модель по- стоянно адаптируется к новым условиям. При этом системати- чески проверяется близость ее расчетных данных к фактическим уровням ряда. Применение одной из адаптивных моделей, име- нуемой моделью Р. Брауна, будет показано ниже на примере составления прогноза для стационарного динамического ряда. Самой сложной проблемой прогнозирования, до сих пор не- имеющей удовлетворительного решения, является предсказание ломки тенденции, лежащей в основе прогнозных расчетов. Пока ломки нет, прогнозирование не представляет большого труда и дает минимальные ошибки. Когда же она происходит, то самые изощренные системы прогнозирования дают сбой и возникают большие ошибки. От этого не спасают никакие вычислительные программы, ибо все они хорошо работают только в условиях со- хранения тенденций развития. Аналитики биржевых ситуаций на основе многолетних на- блюдений за индексом Доу Джонса утверждают: вероятность ломки тенденций возникает тогда, когда очередное падение биржевых курсов оказывается более глубоким, чем предыдущее. Например, если динамика упомянутого индекса за четыре пе- риода имеет вид: 7200, 7160, 7240 и 7180, то падение, проис- шедшее в конце этого ряда не должно вызывать тревоги. Другое 418
дело, если бы на конце ряда оказалась цифра меньше 7160. Это было бы сигналом того, что в самом ближайшем будущем на бирже может произойти обвал курсов акций или ценных бумаг. 15.7.1. Методы прогнозирования стационарных рядов Стационарным динамическим рядом называется такой дина- мический ряд, у которого отсутствует тенденция к росту или па- дению, т. е. отсутствует тренд. Уровни стационарного динамического ряда колеблются во- круг некоторого среднего значения. Прогнозирование сводится к поиску этого среднего значения. Чем успешнее осуществится этот поиск, тем меньше будут ошибки прогноза. Прогноз для периода t + 1, т. е. на один шаг вперед, на ос- нове среднего уровня может иметь следующий вид: П ж = (Ф, + Ф^-j + Ф,_2) : 3, где Ф; — фактический уровень текущего периода; Ф,~1, Ф,-2 — уровни более ранних периодов. Здесь для расчета средней взяты всего три прошлых уровня. В принципе их может быть больше. Погашение случайностей при этом будет более сильным. Однако, углубляясь в историю, надо всегда помнить об опасности переноса на будущее слиш- ком старых закономерностей. Недостатком вышеприведенной средней является то, что при ее расчете придается одинаковый вес периодам, по-разному уда- ленным от горизонта прогнозирования. Между тем периодам, близким к горизонту прогнозирования, следовало бы давать не- сколько больший вес. Это в какой-то мере ослабляло бы влияние старых закономерностей и усиливало бы значение закономерно- стей последних лет, близких к горизонту прогнозирования. Ска- занное особенно актуально для времени больших и резких изме- нений в экономике, что характерно сейчас для нашей страны. Неравные веса можно взять произвольно. Например, сле- дующим образом: Период t t - 1 t - 3 Вес 3 2 1 Тогда расчет средней будет выглядеть так: Уг-з+у^-г+у,^ у’~ 6 • 14* 419
Р. Браун предложил брать веса, убывающие по экспоненте: Период t t- 1 t-2 t-3 t — п Вес а а(1-а) а(1~а)2 а(1—а)3 а(1—а) п Средняя с такими весами называется, как уже отмечалось выше, экспоненциальной. Она была ранее использована нами для сглаживания динамического ряда. Теперь нам предстоит рас- смотреть ее применение для целей прогнозирования. Величина а называется параметром сглаживания и исчисля- ется по формуле, предложенной Р. Брауном: 2 а = ---Г’ п-1 где п — число уровней динамического ряда, которые желательно принять во внимание при расчете средней. Если прогнозист сочтет, что в силу ряда обстоятельств ему следует ориентироваться только на четыре последних уровня ряда, то: а = ~ = 0,4. 4+1 Веса отдельных периодов при этом будут иметь такой вид: Период t t- 1 t-2 t- 3 Вес 0,4 0,4(1-0,4) 0,4(1—0,4)2 0,4(1-0,4) или 0,4 0,24 0,144 0,0864 В зарубежных работах по прогнозированию предлагается брать а на уровне 0,05—0,30, т. е. ориентироваться на длитель- ную историю: 8—40 временных периодов. Такие предложения для наших быстро меняющихся условий не подходят. Для современных условий России параметр а сле- дует брать на уровне 0,7—0,9. Если взять, например, а = 0,7, то прогноз для периода t + 1 будет выглядеть так: П,+1 = Ф, • 0,7 + Ф,_| • 0,21 + Ф^2-0,063 + Ф,_3- 0,0189 +... «Хвост» этого выражения, т. е. Фм • 0,21 + Ф,_2 • 0,063 + Фн - 0,0189 +..., можно представить как прогноз для периода t. Тогда прогноз для периода t + 1 имеет вид рекурентной формулы: П,+1 = Ф, -а+ П,- (1 — а). 420
Расчеты каждого очередного прогноза являются при этом продолжением ранее сделанных расчетов. Исключается необ- ходимость производить их каждый раз с самого начального пе- риода. При использовании приведенной рекуррентной формулы трудности возникают лишь в самом начале, когда еще не дела- лось никаких предыдущих прогнозов. Эта трудность устраняется тем, что для самого раннего периода употребляют «наивный прогноз» П1 = Фр Можно также вместо «наивного прогноза» использовать экс- пертную оценку. Тогда прогноз для второго периода на базе данных первого периода имеет вид: П2 ~ • а + ПЭ । • (1 — а), где nSj — прогнозная величина первого периода, установленная экс- пертным путем. При экспертной оценке величине ПЭ! стремятся придать та- кое значение, которое бы в последующих расчетах минимизиро- вало ошибку прогноза. Минимизация ошибки достигается не только перебором возможных значений упомянутой величины, но также перебором различных значений параметра сглаживания а. Чем меньше в конечном результате получается ошибка после- дующих прогнозов, тем лучше будет адаптация модели к реально сложившимся условиям. 15.7.2. Методы прогнозирования рядов при наличии тренда Когда в изменениях уровней ряда можно усмотреть наличие тенденции к росту или падению, то говорят, что ряд имеет тренд. Наличие тренда должно иметь объективное подтверждение, а не основываться на одном только визуальном впечатлении. Для получения упомянутого подтверждения можно воспользоваться критерием серий. Согласно этому критерию можно говорить о наличии тренда только тогда, когда число серий в ряду не пре- вышает определенного критического значения, взятого из соот- ветствующих таблиц. При этом серией считается последователь- ность элементов одного вида. Например, последовательность элементов, меньших медианы. Или последовательность элемен- тов, где все они, напротив, больше или равны медиане. 421
Пример 15.6. Допустим, обороты фирмы за период с января по сентябрь состави- ли, млн руб.: 10, 12, 11, 13, 13, 14, 13, 15, 13. Можно ли считать, что данный ряд действительно обладает трендом или перед нами чисто случайная колеблемость его уровней? Решение. Для ответа на этот вопрос подсчитываем число серий, обозначая уровни, меньшие медианы, которая здесь равна 13, через А. Остальные уровни — через В. Получаем: АААВВВВВВ. Налицо 2 серии. Критическое значение, найденное по таблицам для 3 элементов одной последовательности, 6 элементов второй и 5%-го уровня значимости проверки равно тоже 2. Превышения нет. Значит, гипотезу о наличии тренда отклонить нельзя. Конечно, может все-таки случиться, что у данного ряда никакой тенденции к росту нет, а все дело состоит в случайной колеблемости его уровней. Однако вероятность этого меньше 5%. При наличии тренда прогноз осуществляют с помощью регрес- сионных уравнений. Они рассматривались нами выше как модели динамики. Самой простой моделью является уравнение прямой: yt = at + b, тле t — фактор времени, т. е. порядковый номер уровня ряда. Подставив в данное уравнение в качестве t порядковые но- мера будущих периодов времени, получим точечный прогноз для этих периодов. По сравнению с точечным значительно большую практиче- скую ценность имеет интервальный прогноз, имеющий заданную вероятность. Вероятность же осуществления точечного прогноза согласно положений теории вероятностей равна нулю. Для получения интервального прогноза предварительно рас- считывается предельная ошибка уравнения. Для ее нахождения используют формулу: Д = t ц, где ц — стандартная ошибка (std. error of estimate), t — квантиль распределения Стьюдента для соответствующего числа степеней свободы, равного, как это отмечалось выше, п~т, и заданной вероятности прогноза (Q), которая обычно берется на уровне 5%. Элементарная логика говорит о том, что ошибка прогноза не может оставаться постоянной, несмотря на увеличение периода упреждения. Она должна, безусловно, расти. С увеличением пе- риода упреждения должны также расширяться границы довери- 422
тельного интервала. Другими словами, нужна поправка на изме- нение периода упреждения. Ее можно осуществить с помощью следующей формулы: If п+1 3(n + 2L-l)2] Л — I----1---------- * П п-п ) где L — период упреждения; и — длина ряда. 15.8. Связный анализ временных рядов ' Изучение связи между двумя рядами называют связным анали- зом. К нему прибегают тогда, когда хотят оценить эффективность затрат в те или иные мероприятия. Например, сравнивают рост за- трат на рекламу с ростом товарооборота торгового предприятия или динамику затрат на удобрения с динамикой урожайности. При осуществлении связного анализа надо всегда помнить о возможности искажения его результатов за счет влияния так на- зываемой ложной корреляции, которая может возникнуть из-за простого сопутствия во времени развития двух явлений. Яркий пример ложной корреляции привел в одной из своих работ английский статистик Д. Финни. Он сравнил динамику зарегистрированных радиоприемников и число душевнобольных в послевоенной Англии и получил высокий коэффициент кор- реляции, хотя прямая связь здесь, конечно, отсутствует. Сопутствие во времени может возникнуть из-за наличия у временных рядов автокорреляции. Под ней понимают зависи- мость последующих уровней ряда от предыдущих. Для характе- ристики автокорреляции существует тест Дарбина-Уотсона, ко- торый исчисляют по формуле: л-1 Х(^1-е,)2 DW = -^-------, где е, — разность между фактическим и выравненным уровнем для z-ro периода. Автокорреляция отсутствует и можно без опасности искаже- ний изучать связь между двумя рядами, когда DW близок к 2. Автокорреляция есть и возможны большие искажения уровня связи между рядами за счет существования между ними ложной корреляции, когда DW близок к нулю или 4. 423
Существуют таблицы значений этого теста. Входами в них является заданная вероятность проверки и число наблюдений п. В них, например, для п = 15 и 95%-й достоверности выводов приводятся такие границы этого теста: а) при DW < 1,08 (или DW > 2,92) существует положительная (или отрицательная) автокорреляция; б) при 1,08 < DW < 1,36 и при 2,64 < DW < 2,92 существует неоп- ределенность, когда нельзя с достаточной уверенностью ни отклонить, ни принять гипотезу о наличии автокорреляции; в) при 1,36 > DW < 2,64 автокорреляция отсутствует. Наличие у рядов автокорреляции не только затрудняет изу- чение связи между ними, но и делает совершенно невозможным осуществление прогноза значений уровня одного ряда по пред- полагаемым значениям второго ряда. Иной раз сразу видно, что ряды никак не могут быть связан- ными, ибо материальная природа отражаемых ими явлений не допускает этого. В других случаях решить вопрос о наличии или отсутствии связи между рядами довольно трудно. В таких случа- ях нужна проверка рядов на наличие автокорреляции и необхо- димо использование приемов, ослабляющих или исключающих искажающее влияние ложной корреляции. 15.9. Задачи к главе 15 Задача 1. Имеются следующие данные об итогах торгов на ММВБ: Дата Инструмент Дуре, руб. Объем сделок в млн ед. 1.09.99 USD 25,2246 155,650 ЕВРО 26,9900 0,100 1.09.99 USD 25,8702 166,127 ЕВРО 27,5189 0,180 3.09.99 USD 25,8196 141,548 ЕВРО 27,7300 0,270 6.09.99 USD 25,8901 129,400 ЕВРО 27,5733 1,820 7.09.99 USD 25,7935 211,318 ЕВРО 27,1619 0,640 По этим данным рассчитайте: а) среднедневной курс каждой валюты; б) среднедневной объем сделок; в) цепные и базисные коэффициенты роста курса валют и объема сделок; 424
г) среднедневные коэффициенты роста курса валют и объема сделок. Задача 2. По данным задачи №1 составьте уравнения для прогноза курса валют и объема сделок. Задача 3. Сделайте прогноз курсов валют и объемов сделок на конец сентября 1999 г., используя результаты расчетов в задаче № 1. Прогноз составьте точечный и интервальный. Задача 4. Производство стеклопакетов в региональном отделении фир- мы характеризуется следующими данными (в тыс. шт.): 1992 г. 1993 г. 1994 г. 1995 г. 1996 г. 1997 г. 1998 г. 1999 г. 11,7 13,5 14,1 13,9 15,2 16,7 18,5 19,1 Проанализируйте динамику производства и сделайте прогноз для 2000 и 2001 гг. Задача 5. Площадь, занятая техническими культурами в 1994 г. в фер- мерском хозяйстве, составила 52 га. Ежегодные темпы при- роста посевной площади этих культур следующие: 1995г. 1996 г. 1997 г. 1998 г. 1999 г. 15% 12% 13% 9% 15% Найдите ежегодное и среднегодовое изменения площа- ди, занятой техническими культурами. Задача 6. Остатки трикотажных изделий на складе регионального отде- ления фирмы «Бенетон» составили (в тыс. руб.): На 1.01.99г. На 1.02.99 г. На 1.03.99 г. На 1.04.99 г. 55 89 110 78 Определите средний остаток изделий за 1-й квартал. Задача 7. Остатки вкладов населения в отделении филиала АКБ соста- вили (в млн руб.); На 1.01.98г. На 1.04.98 г. На 1.07.98 г. На 1.10.98 г. На 1.01.99г. 32 34,8 37,9 35,0 36,9 Определите среднегодовой остаток вкладов. Задача 8. Ежегодный прирост объема продукции фирмы характеризуете* следующими данными (в процентах к предшествующему году): 1995 г. 1996 г. 1997 г. 1998 г. 1999 г. 1,2% 1,5% 2,0% 1,1% 1,6% 425
Определите относительное изменение объема про- дукции за весь период и в среднем за год. Задача 9. Какими темпами надо увеличивать ежегодный объ- ем инвестиций, чтобы их объем за 10 лет увеличился в 5 раз? Задача 10. Проведите смыкание следующих динамических рядов: Население района, тыс. чел. Границы 1993 г. 1994 г. 1995 г. 1996 г. 1997 г. 1998 г. 1999 г. В старых границах В новых границах 890 900 950 970 1200 1230 1300 1400 Список литературы 1. Андерсен Т Статистический анализ временных рядов. — М.: Мир, 1976. 2. Кильдишев Г.С., Френкель А.А. Анализ временных рядов и прогнозирование. — М: Финансы и статистика, 1973. 3. Ковалева Л.И. Многофакторное прогнозирование на осно- ве рядов динамики. 4. Лукашин Ю.П. Адаптивные методы краткосрочного про- гнозирования. — М.: Статистика, 1979. 5. Льюис Х.Д. Методы прогнозирования экономических по- казателей. — М.: Статистика, 1972. 6. Рябушкин Т.В., Френкель А.А. Методологические проблемы анализа и прогноза краткосрочных процессов. — М.: Статисти- ка, 1979. 7. Основы экономического и социального прогнозирования. — М.: Высш, школа, 1995. 8. Гранберг Д. Статистическое моделирование и прогнозиро- вание. — М.: Финансы и статистика, 1990. 9. Френкель А.А. Математические методы анализа динамики и прогнозирование производительности труда. — М: Экономика, 1972. 10. Четыркин Е.М. Статистические методы прогнозирования. — М.: Статистика, 1977. 11. Peter J. Brockwell, Richard A. Davis. Time Series: Theory and Methods. — Springer-Verlag, 1991. 426
Приложение: Статистико-математические таблицы Таблица 1. Значения функции f(x)= Целые и де- сятые ДОЛИ X Сотые доли х 0 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 10 И 0,0 0,3989 0,3989 0,3989 0,3988 0,3986 0,3984 0,3982 0,3980 0,3977 0,3973 0,1 3970 3965 3961 3956 3951 3945 . 3939 3932 3925 3918 0,2 3910 3902 3894 3885 3876 3867 3857 3847 3836 3825 0.3 3814 3802 3790 3778 3765 3752 3739 3726 3712 3697 0,4 3683 3668 3653 3637 3621 3605 3589 3572 3555 3538 0,5 3521 3503 3485 3467 3448 3429 3410 3391 3372 3352 0,6 3332 3312 3292 3271 3251 3230 3209 3187 3166 3144 0,7 3123 3101 3079 3056 3034 ЗОН 2989 2966 2943 2920 0,8 2897 2874 2850 2827 2803 2780 2756 2732 2709 2685 0,9 2661 2637 2613 2589 2565 2541 2516 2492 2468 2444 1,0 0,2420 0,2396 0,2371 0,2347 0,2323 0,2299 0,2275 0,2251 0,2227 0,2203 1,1 2179 2155 2131 2107 2083 2059 2036 2012 1989 1965 1,2 1942 1919 1895 1872 1849 1826 1804 1781 1758 1736 1,3 1714 1691 1669 1647 1626 1604 1582 1561 1539 1518 1,4 1497 1476 1456 1435 1415 1394 1374 1354 1334 1315 1,5 1295 1276 1257 1238 1219 1200 1182 1163 1145 1127 1,6 1109 1092 1074 1057 1040 1023 1006 0989 0973 0957 1,7 0940 0925 0909 0893 0878 0863 0848 0833 0818 0804 1,8 0790 0775 0761 0748 0734 0721 0707 0694 0681 0669 1,9 0656 0644 0632 0620 0608 0596 0584 0573 0562 0551 2,0 0,0540 0,0529 0,0519 0,0508 0,0498 0,0488 0,0478 0,0468 0,0459 0,0449 2,1 0440 0431 0422 0413 0404 0396 0387 0379 0371 0363 2,2 0355 0347 0339 0332 0325 0317 0310 0303 0297 0290 2,3 0283 0277 0270 0264 0258 0252 0246 0241 0235 0229 2,4 0224 0219 0213 0208 0203 0198 0194 0189 0184 0180 2,5 0175 0171 0167 0163 0158 0154 0151 0147 0143 0139 2,6 0136 0132 0129 0126 0122 0119 0116 0113 ОНО 0107 427
IO 00 § 2 2 S ® о о о о © о о о о о SR к g S а 2 | §§§§§§§ м to [О W (д ч) ф 1Л ь- о кд со и> s I Таблица 2. Значение интеграла вероятностей F(r) - - je t 0-0 0,1 0,2 Л Ч Сотые доли 0 0000 0797 1585 2358 1 0080 0876 1663 2434 2 0160 0955 1741 2510 3 0239 1034 1819 2586 4 0319 1114 1897 2661 5 0399 1192 1974 2737 6 0478 1271 2051 2812 7 0558 1350 2128 2886 в 0638 1428 2205 2961 У 0718 1507 2282 3035 0,4 0,5 0,6 0,7 л я 3108 3829 4515 5161 5763 3182 3899 4581 5223 5821 3255 3969 4647 5285 5878 3328 4039 4713 5346 5935 3401 4108 4778 5467 5991 3473 4177 4843 5497 6047 3545 4245 4909 5527 6102 3616 4313 4971 5587 6157 3688 4381 5035 5646 6211 3752 4448 5098 5705 6265 0 Q 6319 6372 6424 6476 6528 6579 6626 6679 6729 6778 1,0 1 1 6817 7287 6875 7330 6923 7373 6970 7415 7017 7457 7063 7499 7109 7540 7154 7580 7199 7620 7243 7660 1,2 1 ч 7699 8064 7737 8098 7775 8132 7813 8165 7850 8198 7887 8230 7923 8262 7959 8293 7995 8324 8030 8355 1,4 1 S 8385 8664 8415 8690 8444 8715 8473 8740 8501 8764 8529 8788 8557 8812 8584 8836 8611 8859 8638 8882 1Р 1-6 8904 8926 8948 8969 8990 9011 9031 9051 9070
Окончание табл. 2 : 9265 1 1 2IW | 1 9534 1 9634 I I 9715 I 10846 сч СИ 00 04 | 9872 1 I 9904 I 9929 1 1 9961 I | ZL66 ( I 99800 I I 99858 I | 00666 1 I 99999943 1 I 99999996 1 999999998 О© 85 Я а 07 L_2£ L_44 69 1 9901 I СЧ 1 04 СП ЧП ж сч о> ей 95 96J & ел 86 86 66 85 а 66 £66 ОО 85 00 85 ГХ гп 1/*) СЧ 2 ,00 СЧ 40 00 40 3: 04 о 40 сч © О О :гб ' 93! | 951 961 97С 97( 00 04 00 04 985 £ >66 £ 991 997! 00 85 >866 мп 40 4© 2 00 СЧ СЧ 1 МП СЧ 00 ел <34 00 г< 40 1 921 СП 1 951 1 96( >96 1 )L6 | оо 04 | 98( ор 04 85 1 99* 04 04 99( I 9971 I 9984 00 85 I 1 99999? 1 999995 53 мп 04 00 £ сч СЧ Я 2 40 00 •-Ч 40 00 1 а 04 СП 04 JV6 1 и© 04 | 965 I 97? 981 00 04 00 04 §5 99? 9971 1 998? 9985 <3 сч сч 40 40 40 04 Г«ч. сП 04 04 мп СП О СП 5\ 04 04 мп 04 & 04 98( 00 04 98! 991 99? 99? £ 85 ©Р §4 00 ж £ 04 85 СП 3 40 <£ СЧ $ 40 VH СП 5§ мп мп 40 04 О о\ 1 93: МП 04 96( 1 97* 1 98( 00 04 00 04 [991 85 1 99? ;сбб] 1 998? '866 СП С4 сч 58 О 40 МП СП СЧ </п СЧ 04 СЧ о\ СП 04 94? МП 04 196 Г 971 97? 786 00 04 991 I 99? >66 § 9974 9981 9987 9991 9993 999? »--i 00 40 сч а | 9840 | а 8 СП О 3 04 СП 40 00 04 126 :t6 J МП 04 36 1 97? Г 97< 981 В Г 99? 99? 997? [998] 998( СП сП СП 00 Ш СЧ МП 40 40 »“Ч 04 О СП О о о\ 928 942 954 1 964 972 978 983 987 066 £66 1 1 994 996 9973 О g 9866 9990 9993 $666 1 *- 00 04 О СЧ СП мп 40 00 04 О СЧ m -чг МП —' сч сч сч сч СЧ сч СЧ СЧ сч СЧ СП сП СП СП СП сп
Таблица 3. Значение t-критерия Стьюдента при уровнях значимости 0,10; 0,05; 0,01 Число степеней свободы df Р Число степеней свободы df р 0,10 0,05 0,01 0,10 0,05 0,01 1 6,3138 12,706 63,657 18 1,7341 2,1009 2,871 2 2,9200 4,3027 9,9248 19 1,7291 2,0930 2,86( 3 2,3534 3,1825 5,8409 20 1,7247 2,0860 2,845 4 2,1318 2,7764 4,6041 21 1,7207 2,0796 2,831 5 2,0150 2,5706 4,0321 22 1,7171 2,0739 2,811 6 1,9432 2,4469 3,7074 23 1,7139 2,0687 2,80' 7 1,8946 2,3646 3,4995 24 1,7109 2,0639 2,79< 8 1,8595 2,3060 3,3554 25 1,7081 2,0595 2,78'. 9 1,8331 2,2622 3,2498 26 1,7056 2,0555 2,771 10 1,8125 2,2281 3,1693 27 1,7033 2,0518 2,77( 11 1,7959 2,2010 3,1058 28 1,7011 2,0484 2,76: 12 1,7823 2,1788 3,0545 29 1,6991 2,0452 2,754 13 1,7709 2,1604 3,0123 30 1,6973 2,0423 2,751 14 1,7613 2,1448 2,9768 40 1,6839 2,0211 2,70 15 1,7530 2,1315 2,9467 60 1,6707 2,0003 2,661 16 1,7459 2,1199 2,9208 120 1,6577 1,9799 2,6 Г 17 1,7396 2,1098 2,8982 ОО 1,6449 1,9600 _ 2,57. Таблица 4. Значение %2-критерия Пирсона при уровнях значимости 0,10; 0,05; 0,01 df 0,10 0,05 0,01 df 0,10 0,05 0,6 1 2,71 3,84 6,63 21 29,62 32,67 38,9 2 4,61 5,99 9,21 22 30,81 33,92 40,2 3 6,25 7,81 11,34 23 32,01 35,17 41,6 4 7,78 9,49 13,28 24 33,20 36,42 42,9 5 9,24 11,07 15,09 25 34,38 37,65 44,3 6 10,64 12,59 16,81 26 35,56 38,89 45,6 7 12,02 14,07 18,48 27 36,74 40,11 46,9 8 13,36 15,51 20,09 28 37,92 41,34 48,2 9 14,68 16,92 -21,67 29 39,09 42,56 49,5 10 50,99 18,31 23,21 30 40,26 43,77 50,8 И 17,28 19,68 24,72 40 51,80 55,76 63,6 12 18,55 21,03 26,22 50 63,17 67,50 76,1 13 19,81 22,36 27,69 60 74,40 79,08 88,3 14 21,06 23,68 29,14 70 85,53 90,53 100,4 15 22,31 25,00 30,58 80 96,58 101,88 112,3 16 23,54 26,30 32,00 90 107,56 113,14 124,1 17 24,77 27,59 33,41 100 118,50 124,34 135,8 18 25,99 28,87 34,81 19 27,20 30,14 36,19 20 28,41 31,14 37,57 431
Таблица 5. Значение F-критерия Фишера при уровне значимости 0,05 dfi #1 1 2 3 4 5 6 7 8 9 10 11 12 14 16 20 30 СО 1 161 200 216 225 230 234 237 239 241 242 243 244 245 246 248 250 254 2 18,51 19,00 19,16 19,25 19,30 19,33 19,36 19,37 19,38 19,39 19,40 19,41 19,42 19,43 19,44 19,46 19,50 3 10,13 9,55 9,28 9,19 9,01 8,94 8,88 8,84 8,81 8,78 8,76 8,74 8,71 8,69 8,66 8,62 8,53 4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,93 5,91 5,87 5,84 5,80 5,74 5,63 5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,78 4,74 4,70 4,68 4,64 4,60 4,56 4,50 4,36 6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,96 3,92 3,87 3,81 3,67 7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,63 3,60 3,57 3,52 3,49 3,44 3,38 3,23 8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,34 3,31 3,28 3,23 3,20 3,15 3,08 2,93 9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,13 3,10 3,07 3,02 2,98 2,93 2,86 2,71 10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,97 2,94 2,91 2,86 2,82 2,77 2,70 2,54 11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,86 2,82 2,79 2,74 2,70 2,65 2,57 2,40 12 4,75 3,88 3,49 3,26 3,11 3,00 2,92 2,85 2,80 2,76 2,72 2,69 2,64 2,60 2,54 2,46 2,30 13 4,67 3,80 3,41 3,18 3,02 2,92 2,84 2,77 2,72 2,67 2,63 2,60 2,55 2,51 2,46 2,38 2,21 14 4,60 3,74 3,34 3,11 2,96 2,85 2,77 2,70 2,65 2,60 2,56 2,53 2,48 2,44 2,39 2,31 2,13 15 4,54 3,68 3,29 3,06 2,90 2,79 2,70 2,64 2,59 2,55 2,51 2,48 2,43 2,39 2,33 2,25 2,07 16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,45 2,42 2,37 2,33 2,28 2,20 2,01 17 4,45 3,59 3,20 2,96 2,81 2,70 2,62 2,55 2,50 2,45 2,41 2,38 2,33 2,29 2,23 2,15 1,96 18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,29 2,25 2,19 2,11 1,92 19 4,38 3,52 3,13 2,90 2,74 2,63 2,55 2,48 2,43 2,38 2,34 2,31 2,26 2,21 2,15 2,07 1,88 20 4,35 3,49 3,10 2,87 2,71 2,60 2,52 2,45 2,40 2,35 2,31 2,28 2,23 2,18 2,12 2,04 1,84 21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,20 2,15 2,09 2,00 1,81 Окончание табл. 5 dfi 22 23 24 25 26 27 28 dfi _ 1 4,30 4,28 4,26 4,24 4,22 4,21 4,20 2 3,44 3,42 3,40 3,88 3,37 3,35 З.З? 3 3,05 3,03 3,01 2,99 2,98 2,96 2,95 4 2,82 2,80 2,78 2,76 2,74 2,73 2,71 5 2,66 2,64 2,62 2,60 2,59 2,57 2,56 6 2,55 2,53 2,51 2,49 2,47 2,46 2,44 7 2,47 2,45 2,43 2,41 2,39 2,37 2,36 8 2,40 2,38 2,36 2,34 2,32 2,30 2,2? 0 ЭЙ 9 2,35 2,32 2,30 2,26 2,27 2,25 2,24 2 22 10 2,30 2,28 2,26 2,24 2,22 2,20 2,19 2 18 11 2,26 2,24 2,22 2,20 2,18 2,16 2,15 2,14 12 2,23 2,20 2,18 2,16 2,15 2,13 2,12 2,10 14 2,18 2,14 2,13 2,11 2,10 2,08 2,06 2,0? 76 2,13 2,10 2,09 2,06 2,05 2,03 2,02 2,00 2,07 2,04 2,02 2,00 1,99 1,97 1,96 1,94 1,98 1,96 1,94 1,92’ 1,90 1,88 1,87 1,85 1,78 1,76 1,73 1,71 1,69 1,67 1,65 1,64 29 30 40 50 60 100 СО 4,18 4,17 4,08 4,03 4,00 3,94 3,84 При 3,33 3,32 3,23 3,18 3,15 3,09 2,99 меча 2,93 2,92 2,84 2,79 2,76 2,70 1 2,60 ние: 2,70 2,69 2,61 2,56 2,52 2,46 2,37 dfx,d 2,54 2,53 2,45 2,40 2,37 2,30 2,21 2,43 2,42 2,34 2,29 2,25 2,19 2,09 1сла cti 2,3j 2,34 2,25 2,20 2,17 2,10 ] 2,01 гпеней 2,27 2,18 2,13 2,10 2,03 1,94 свобо/ 2,21 2,12 2,07 2,04 1,97 1,88 [Ы для 2,16 2,07 2,02 1,99 1,92 1,83 бблыш 2,12 2,04 1,98’ 1,95 1,88 1,79 ;й и ме 2,09 2,00 1,95 1,92 1,85 1,75 ньшей 2,04 1,95 1,90 1,86 1,79 1,69 диспе 1,99 1,90 1,85 1,81 1,75 1,64 эсии сс 1,93 1,84 1,78 1,75 1,68 1,57 зответс 1,84 1,74 1,69 1,65 1,57 1,46 твенно 1,62 1,51 1,44 1,39 1,28 1,00
Таблица 6. Значения функции Пуассона Р(Х= т) =—е~х т! m 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 0,9048 0,8187 0,7408 0,6703 0,6065 0,5488 0,4966 0,4493 0,4066 0,3679 1 0,905 0,1637 0,2223 0,2681 0,3033 0,3293 0,3476 0,3659 0,3659 0,3679 2 0,0045 0,0164 0,0333 0,0536 0,0758 0,0988 0,1216 0,1438 0,1647 0,1839 3 0,002 0,0011 0,0033 0,0072 0,0126 0,0198 0,0284 0,0383 0(0494 0,0613 4 0,0000 0,0001 0,0003 0,0007 0,0016 0,0030 0,0050 0,0077 0,0111 0,0153 5 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0007 0,0012 0,0020 0,0031 6 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0002 0,0003 0,0005 7 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 \х 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 0 0,1353 0,0498 0,0183 0,0067 0,0025 0,0009 0,0003 0,0001 0,0001 1 0,2707 0,1494 0,0733 0,0337 0,0149 0,0064 0,0027 0,0011 0,0005 2 0,2707 0,2240 0,1465 0,0842 0,0446 0,0223 0,0107 0,0050 0,0023 3 0,1805 0,2240 0,1954 0,1404 0,0892 0,0521 0,0286 0,0150 0,0076 4 0,0902 0,1681 0,1954 0,1755 0,1339 0,0912 0,0572 0,0337 0,0189 5 0,0361 0,1008 0,1563 0,1755 0,1606 0,1277 0,0916 0,0607 0,0378 6 0,0120 0,0504 0,1042 0,1462 0,1606 0,1490 0,1221 0,0911 0,0631 7 0,0034 0,0216 0,0595 0,1045 0,1377 0,1490 0,1395 0,1171 0,0901 8 0,0009 0,0081 0,298 0,0653 0,1033 0,1304 0,1396 0,1318 0,1126 9 0,0002 0,0027 0,0132 0,0363 0,0689 0,1014 0,1241 0,1318 0,1251 10 0,0000 0,0008 0,0053 0,0181 0,0413 0,0710 0,0993 0,1186 0,1251 11 0,0000 0,0002 0,0019 0,0082 0,0225 0,0452 0,0722 0,0970 0,1137 12 0,0000 0,0001 0,0006 0,0034 0,0113 0,264 0,0481 0,0728 0,0948 13 0,0000 0,0000 0,0002 0,0013 0,0052 0,0142 0,0296 0,0504 0,0729 14 0,0000 0,0000 0,0001 0,0005 0,0022 0,0071 0,0169 0,0324 0,0521 15 0,0000 0,0000 0,0000 0,0002 0,0009 0,033 0,0090 0,0194 0,0347 16 0,0000 0,0000 0,0000 0,0000 0,0003 0,0015 0,0045 0,0109 0,0217 17 0,0000 0,0000 0,0000 0,0000 0,0001 0,0006 0,0021 0,0058 0,0128 18 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0009 0,0029 0,0071 19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0037 20 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0006 0,0019 21 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0009 22 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0004 23 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 24 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 25 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 434
Таблица 7. Значение функции е'х X е'х X е-* X е-х X е'х X е’х 0,00 1,0000 0,40 0,6703 0,80 0,4493 1,20 0,3012 1,60 0,2015 01 0,9900 41 6637 81 4449 21 2982 61 1999 02 9802 42 6570 82 4404 22 2952 62 1979 03 9704 43 6505 83 4360 23 2923 63 1959 04 9608 44 6440 84 4317 24 2894 64 1940 05 9512 45 6376 85 4274 25 2865 65 1920 06 9418 46 6313 86 4232 26 2837 66 1901 07 9324 47 6250 87 4190 27 2808 67 1882 08 9231 48 6188 88 4148 28 2780 68 1864 09 9139 49 6126 89 4107 29 2753 69 1845 10 9048 50 6065 90 4066 30 2725 70 1827 11 8958 51 6005 91 4025 31 2698 71 1809 12 8869 52 5945 92 3985 32 2671 72 1791 13 8781 53 5886 93 3916 33 2645 73 1773 14 8694 54 5827 94 3906 34 2618 74 1755 15 8607 55 5769 95 3867 35 2592 75 1738 16 8521 56 5712 96 3829 36 2567 76 1720 17 8437 57 5655 97 3791 37 2541 77 1703 18 8353 58 5599 98 3753 38 2516 78 1686 19 8270 59 5543 99 3716 39 2491 79 1670 20 8187 60 5488 1,00 3679 40 2466 80 1653 21 8106 61 5434 01 3642 41 2441 81 1637 22 8025 62 5379 02 3606 42 2417 82 1620 23 7945 63 5326 03 3570 43 2393 83 1504 24 7866 64 5273 04 3535 44 2369 84 1588 25 7788 65 6220 05 3499 45 2346 85 1572 26 7711 66 5169 06 3465 46 2322 86 1557 27 7634 67 5117 07 3480 47 2299 87 1541 28 7558 68 5066 08 3396 48 2254 88 1526 29 7483 69 5016 09 3362 49 2254 89 1511 30 7408 70 4966 10 3329 50 2231 90 1496 31 7334 71 4916 11 3296 51 2209 91 1481 32 7261 72 4868 12 3263 52 2187 92 1466 33 7189 73 4819 13 3230 53 2165 93 1451 34 7118 74 4771 14 3198 54 2144 94 1437 35 7047 75 4724 15 3166 55 2122 95 1423 36 6977 76 4677 16 3135 56 2101 96 1409 37 6907 77 4630 17 3104 57 2080 97 1395 38 6839 78 4584 18 3073 58 2060 98 1381 39 6771 79 4538 19 3042 59 2039 99 1367 2,00 1353 435
Таблица 8. Критические значения коэффициентов корреляции для уровней значимости 0,05; 0,01 df <х=0,05 а=0,01 df а=0,05 а=0,01 1 0,996917 0,9998766 17 0,4555 0,5751 2 0,995000 0,990000 18 0,4438 0,5614 3 0,8783 0,95873 19 0,4329 0,5487 4 0,8114 0,91720 20 0,4227 0,5368 5 0,7545 0,8745 25 0,3809 0,4869 6 0,07067 0,8343 30 0,3494 0,4487 7 0,6664 0,7977 35 0,3246 0,4182 8 0,6319 0,7646 40 0,3044 0,3932 9 0,6021 0,7348 45 0,2875 0,3721 10 0,5760 0,7079 50 0,2732 0,3541 11 0,5529 0,6835 60 0,2500 0,3248 12 0,5324 0,6614 70 0,2919 0,3017 13 0,5139 0,6411 80 0,2172 0,2830 14 0,4973 0,6226 90 0,2050 0,2673 15 0,4821 . 0,6055 100 0,1946 0,2540 16 0,4683 0,5897 Примечание : для простой корреляции df на 2 меньше, чем число пар вариантов; в случае частной корреляции необходимо также вычесть число исключаемых переменных. Таблица 9. Z-преобразование. Значения величины z для значений г Г 0 1 2 3 4 5 6 7 8 9 0,0 0,0000 0,0100 0,0200 0,0300 0,0400 0,0501 0,0601 0,0701 0,0802 0,0902 0,1 0,1003 0,1105 0,1206 0,1308 0,1409 0,1511 0,1614 0,1717 0,1820 0,1923 0,2 0,2027 0,2132 0,2237 0,2342 0,2448 0,2554 0,2661 0,2769 0,2877 0,2986 0,3 0,3095 0,3206 0,3317 0,3428 0,3541 0,3654 0,3769 0,3884 0,4001 0,4118 0,4 0,4236 0,4356 0,4477 0,4599 0,4722 0,4847 0,4973 0,5101 0,5230 0,5361 0,5 0,5493 0,5627 0,5763 0,5901 0,6042 0,6184 0,6328 0,6475 0,6625 0,6777 0,6 0,6931 0,7089 0,7250 0,7414 0,7582 0,7753 0,7928 0,8107 0,8291 0,8480 0,7 0,8673 0,8872 0,9076 0,9287 0,9505 0,9730 0,9962 1,0203 1,0454 1,0714 0,8 1,0986 1,1270 1,1568 1,1881 1,2212 1,2562 1,2933 1,3331 1,3758 1,4219 0,9 1,4722 1,5275 1,5890 1,6584 1,7380 1,8318 1,9459 2,0923 2,2976 2,6467 436
Таблица 10. Таблица случайных чисел Ряд Колонка 12345 67890 12345 67890 12345 67890 12345 67890 01 66194 28926 99547 16625 45515 67953 12108 57846 02 78240 43195 24837 32511 70880 22070 52622 61881 03 00833 88000 67299 68215 11274 55624 32991 17436 04 12111 86683 61270 58036 64192 90611 15145 01748 05 47189 99951 05755 03834 43782 90599 40282 51417 06 76396 72486 62423 27618 84184 78922 73561 52818 07 46409 17469 32483 09083 76175 19985 26309 91536 08 74626 22111 87286 46772 42243 68046 44250 42439 09 34450 81974 93723 49023 58432 67083 36876 93391 10 36327 72135 33005 28701 34710 49359 50693 89311 11 74185 77536 84825 09934 99103 09325 67389 45869 12 12296 41623 62873 37943 25584 09609 63360 47270 13 90822 60280 88925 99610 42772 60561 76873 04117 14 72121 79152 96591 90305 10189 79778 68016 13747 15 95268 41377 25684 08151 61816 58555 54305 86189 16 92603 09091 75884 93424 72586 88903 30061 14457 17 18813 90291 05275 01223 79607 95426 34900 09778 18 38840 26903 28624 67157 51986 42865 14508 49315 19 05959 33836 53758 16562 41081 38012 41230 20528 20 85141 21155 99212 32685 51403 31926 69813 58781 21 75047 59643 31074 38172 03718 32119 69506 67143 22 30752 95260 68032 62871 58781 34143 68790 69766 23 22986 82575 42187 62295 84295 30634 66562 31442 24 99439 86692 90348 66036 48399 73451 26698 39437 25 20389 93029 11881 71685 65452 89047 63669 02656 26 39249 05173 68256 36359 20250 68686 05947 09335 27 96777 33605 29481 20063 09398 01843 35139 61344 28 04860 32918 10798 50492 52655 33359 94713 28393 29 41613 42375 00403 03656 77580 87772 86877 57085 30 17930 00794 53836 53692 67135 98102 61912 11246 31 24649 31845 25736 75231 83808 98917 93829 99430 32 79899 34061 54308 59358 56462 58166 97302 86828 33 76801 49594 81002 30397 52728 15101 72070 33706 34 36239 63636 38140 65731 39788 06872 38971 53363 35 07392 64449 17886 63632 53995 17574 22247 62607 36 67133 04181 33874 98835 67453 59734 76381 63455 437
Продолжение табл. 10 Ряд Колонка 12345 67890 12345 67890 12345 67890 12345 67890 37 77759 31504 32832 70861 15152 29733 75371 39174 38 85992 72268 42920 20810 29361 51423 90306 73574 39 79553 75952 54116 65553 47139 60579 09165 85490 40 41101 17336 48951 53674 17880 45260 08575 49321 41 36191 17095 32123 91576 84221 78902 82010 30874 42 62329 63898 23268 74283 26091 68409 69704 82267 43 14751 13151 93115 01437 56945 89661 67680 79790 44 48462 59278 44185 29616 76537 19589 83139 28454 45 29435 88105 59651 44391 74588 55114 80834 85686 46 28340 29285 12965 14821 80425 16602 44653 70467 47 02167 58940 27149 80242 10587 79786 34959 75339 48 17864 00991 39557 54981 23588 81914 37609 13128 49 79675 80605 60059 35862 00254 36546 21545 78179 50 72335 82037 92003 34100 . 29879 46613 89720 13274 51 49280 88924 35779 00283 81163 07275 89863 02348 52 61870 41657 07468 08612 98083 97349 20775 45091 53 43898 65923 25078 86129 78496 97653 91550 08078 54 62993 93912 30454 84598 56095 20664 12872 64647 55 33850 58555 51438 ' 85507 71865 79488 76783 31708 56 55336 71264 88472 04334 63919 36394 11095 92470 57 70543 29776 10087 10072 55980 64688 68239 20461 58 89382 93809 00796 - 95945 34101 81277 66090 88872 59 37818 72142 67140 50785 22380 16703 53362 44940 60 60430 22834 14130 96593 23298 56203 92671 15925 61 82975 66158 84731 19436 55790 69229 28661 13675 62 39087 71938 40355 54324 08401 26299 49420 59208 63 55700 24586 93247 32596 11865 63397 44251 43189 64 14756 23997 78643 75912 83832 32768 18928 57070 65 32166 53251 70654 92827 63491 04233 33825 69662 66 23236 73751 31888 81718 06546 83246 47651 04877 67 45794 26926 15130 82455 78305 55058 52551 47182 68 09893 20505 14225 68514 46427 56788 96297 78822 69 54382 74598 91499 14523 68479 27686 46162 83554 70 94750 89923 37089 20048 80336 94598 26940 36858 71 70297 34135 53140 33340 42050 82341 44104 82949 72 85157 47954 32979 26575 57600 40881 12250 73742 Окончание табл. 10 Колонка 12345 67890 12345 67890 12345 67890 12345 67890 73 11100 02340 12860 74697 96644 89439 28707 25815 74 36871 50775 30592 57143 17381 68856 25853 35041 75 23913 48357 63308 16090 51690 54607 72407 55538 76 79348 36085 27973 65157 07456 22255 25626 57054 77 92074 54641 53673 54421 18130 60103 69593 49464 78 06873 21440 75593 41373 49502 17972 82578 16364 79 12478 37622 99659 31065 83613 69889 58869 29571 80 57175 55564 65411 42547 70457 03426 72937 83792 81 91616 11075 80103 07831 59309 13276 26710 73000 82 78025 73539 14621 39044 47450 03197 12787 47709 83 27587 67228 80145 10175 12822 86687 65530 49325 84 16690 20427 04251 64477 73709 73945 92396 68263 85 70183 58065 65489 31833 82093 16747 10386 59293 86 90730 35385 15679 99742 50866 78028 75573 67257 87 10934 93242 13431 24590 02770 48582 00906 58595 •88 82462 30166 79613 47416 13389 80268 05085 96666 89 27463 10433 07606 16285 93699 60912 94532 95632 90 02979 52997 09079 92709 90110 47506 53693 49892 91 46888 69929 75233 52507 32097 37594 10067 67327 92- 53638 83161 08290 12639 08141 12640 28437 09268 93 82433 61427 17239 89160 19666 08814 37841 12847 94 35766 31672 50082 22795 66948 65581 84393 15890 95 100853 42581 08792 13257 61973 24450 52351 16602 96 20341 27387 72906 63955 17276 10646 74692 48438 97 54458 90542 77563 51839 52901 53355 83281 19177 98 26337 66530 16687 35179 45560 00123 44546 79896 99 34314 23729 85264 05575 96855 23820 11091 79821 100 28603 10708 68933 34189 92166 15181 66628 58599 438 439
Оглавление Предисловие 5 Часть I. Элементы комбинаторики и теории вероятностей 7 Глава 1. Элементы комбинаторики 8 1.1. Размещения 8 1.2. Факториал 9 1.3. Перестановки 9 1.4. Сочетания 10 1.5. Перестановки с повторениями 11 1.6. Размещения с повторениями 12 1.7. Сочетания с повторениями 13 1.8. Основные правила комбинаторики 15 1.9. Бином Ньютона 16 1.10. Задачи к главе 1 17 Глава 2. Основные понятия, определения и теоремы теории вероятностей 21 Введение к главе 2 21 2.1. Алгебра событий 22 2.2. Основные определения: испытание, событие. Классификация событий 24 2.3. Классическое определение вероятности. Свойства, вытекающие из этого определения 26 2.4. Основные.теоремы теории вероятностей 31 2.5. Зависимые и независимые события 34 2.6. Задачи к главе 2 41 440
Глава 3. Формула полной вероятности и формулы Бейеса 52 3.1. Формула полной вероятности 52 3.2. Вычисление вероятностей гипотез (формулы Бейеса) 55 3.3. Задачи к главе 3 58 Список литературы 63 Глава 4. Случайные величины 64 4.1. Дискретные случайные величины 64 4.2. Функция распределения (интегральная функция распределения) 68, 4.3. Независимость случайных величин и математические операции над случайными величинами 76 4.4. Ожидаемое среднее значение дискретной случайной величины 78 4.5. Свойства математического ожидания дискретной случайной величины 80 4.6. Ожидаемое среднее значение функции случайной величины 83 4.7. Дисперсия дискретной случайной величины 85 4.8. Свойства дисперсии дискретной случайной величины 86 4.9. Дисперсия линейной функции случайной величины 89 Глава 5. Законы распределения дискретных случайных величин 90 5.1. Схема повторных испытаний. Биномиальное распределение 90 5.2. Формула Бернулли. Биномиальные вероятности 92 5.3. Биномиальный закон распределения 93 5.4. Математическое ожидание, дисперсия и график биномиального распределения 96 5.5. Распределение Пуассона 100 5.6. Гипергеометрическое распределение и его аппроксимация биномиальным и пуассоновским распределениями 105 441
5.7. Производящая функция 111 5.8. Мультиномиальное распределение 114 5.9. Геометрическое распределение 115 5.10. Задачи к главам 4—5 116 Глава 6. Непрерывные случайные величины 129 6.1. Определение непрерывной случайной величины. Функция распределения непрерывной случайной величины 129 6.2. Свойства функции распределения (для дискретных и непрерывных случайных величин) 130 6.3. График функции распределения для непрерывной случайной величины 133 6.4. Плотность распределения вероятностей непрерывной случайной величины (дифференциальная функция) 134 6.5. Вероятность попадания непрерывной случайной величины в заданный интервал 134 6.6. Нахождение функции распределения по известной плотности распределения 134 6.7. Свойства дифференциальной функции f (х) 135 6.8. Вероятностный смысл дифференциальной функции 136 6.9. Числовые характеристики непрерывных случайных величин 137 6.10. Моменты случайных величин 138 Глава 7. Законы распределения непрерывных случайных величин 139 7.1. Нормальное распределение 139 7.2. Стандартное (нормированное) нормальное распределение 143 7.3. Вероятность попадания в заданный интервал нормально распределенной случайной величины. Интегральная функция Лапласа—Гаусса и ее свойства. Связь нормальной функции распределения с интегральной функцией Лапласа—Гаусса 145 442
7.4. Правило «трех сигм» 15z 7.5. Нормальное распределение как аппроксимация других распределений 15( 7.6. Понятие о теоремах, относящихся к группе «центральной предельной теоремы» 161 7.7. Показательное (экспоненциальное) распределение 161 7.8. Закон равномерного распределения (равномерной плотности) 16( 7.9. Задачи к главам 6 и 7 171 Глава 8. Закон больших чисел 18( 8.1. Принцип практической уверенности. Формулировка закона больших чисел 18( 8.2. Неравенства Маркова и Чебышева 18.' 8.3. Теорема Чебышева (частный случай) 18' 8.4. Теорема Чебышева (общий случай) 181 8.5. Теорема Бернулли 19( 8.6. Теорема Пуассона 191 8.7. Задачи к главе 8 19< Список литературы 191 Часть П. Элементы статистики 201 Введение к части II 202 Глава 9. Выборочный метод 201 9.1. Понятие о выборочном методе 20.' 9.2. Ошибки выборочного наблюдения. Числовые характеристики выборочной и генеральной совокупностей 201 9.3. Распределение выборочных характеристик 21( 9.4. Основы теории точечного оценивания параметров 211 9.5. Методы получения точечных оценок неизвестных параметров. Метод моментов 22' 9.6. Метод максимального правдоподобия 22' 443
Глава 10. Основные распределения случайных величин, используемые в математической статистике 227 10.1. Распределение Стьюдента 227 10.2. Распределение %2 230 10.3. Распределение Фишера (F-распределение) 233 Глава 11. Интервальное оценивание 235 11.1. Основные понятия 235 11.2. Доверительный интервал оценки для генеральной средней при известной генеральной дисперсии 237 11.3. Доверительный интервал для оценки генеральной средней при неизвестной дисперсии 243 11.4. Доверительный интервал для оценки среднего квадратического отклонения 245 11.5. Оценка вероятности (биномиального распределения) по относительной частоте 248 11.6. Необходимый объем собственно-случайной выборки 250 11.7. Способы отбора 253 11.8. Выборочное распределение суммы или разности двух случайных величин (независимых статистик) 261 1.1.8.1 . Свойства выборочного распределения разности двух выборочных средних 261 11.8.2. Свойства выборочного распределения разности двух выборочных долей (и»! = w2) 263 11.9. Задачи к главам 9, 10 и 11 265 Список литературы 278 Глава 12. Статистический вывод: испытание гипотез 281 12.1. Процедура испытания гипотез 281 12.1.1. Правила испытания гипотез 282 12.1.2. Одно- и двусторонние тесты 283 12.1.3. Ошибки первого и второго рода 284 444
12.2. Испытание гипотезы на основе выборочной средней: генеральная дисперсия известна 2 12.3. Испытание гипотезы на основе выборочной средней: генеральная дисперсия неизвестна 2 12.4. Испытание гипотезы на основе выборочной доли 2 12.5. Испытание гипотез о двух генеральных дисперсиях 2 12.5.1. Отношение дисперсий или f-критерий 1 12.6. Сравнение средних величин двух выборок при известных генеральных дисперсиях 2 12.7. Испытание гипотезы по выборочным средним: генеральные дисперсии неизвестны 2 12.8. Испытание гипотезы по двум выборочным долям 2 12.9. Испытания непараметрических гипотез 2 12.10. Меры связей, основанные на распределении х2 - Глава 13. Вариационный ряд 3 13.1. Понятия вариационного ряда, частоты, относительной частоты (частости) 2 13.2. Дискретные и интервальные вариационные ряды 2 13.3. Границы интервалов 2 13.4. Плотность вариационного ряда или плотность распределения ; 13.5. Накопленные частоты или частости ' 13.6. Графические методы изображения вариационных рядов ' 13.7. Числовые характеристики вариационного ряда ' 13.8. Средняя арифметическая вариационного ряда и ее свойства 2 13.9. Геометрическая средняя 13.10. Меры вариации (рассеяния). Дисперсия и ее свойства 13.11. Коэффициент вариации 13.12. Правило сложения дисперсий 13.13. Эмпирические моменты распределения 445
13.14. Асимметрия и эксцесс 347 13.15. Эмпирическая функция распределения (вариационного ряда) 349 13.16. Задачи к главе 13 352 Список литературы 364 Глава 14. Парная регрессия и корреляция 365 14.1. Парная регрессия 365 14.2. Парная линейная регрессия и корреляция 369 14.3. Оценка существенности параметров линейной регрессии и корреляции 373 14.4. Задачи к главе 14 381 Список литературы 385 Глава 15. Анализ временных рядов и прогнозирование 386 15.1. Основные понятия 386 15.2. Приемы преобразования временных рядов 395 15.3. Приемы анализа временных рядов 397 15.4. Оценка качества используемой модели динамики 407 15.5. Анализ временного ряда: аддитивная и мультипликативная модели 409 15.6. Спектральный анализ временного ряда 412 15.7. Приёмы прогнозирования 417 15.7.1. Методы прогнозирования стационарных рядов 419 15.7.2. Методы прогнозирования рядов при наличии тренда 421 15.8. Связный анализ временных рядов 423 15.9. Задачи к главе 15 424 Список литературы 426 Приложение 427
Учебное пособие Елисеева Ирина Ильинична, Князевский Владимир Сергеевич, Ниворожкина Людмила Ивановна, Морозова Зоя Андреевна ТЕОРИЯ СТАТИСТИКИ С ОСНОВАМИ ТЕОРИИ ВЕРОЯТНОСТЕЙ Редактор О.И. Левшина Корректор В. Г. Коржилова Оригинал-макет Н.В. Спасской Художник А. В. Лебедев Лицензия серия ИД № 03562 от 19.12.2000 Подписано в печать 15.01.2001. Формат 60x88 1/16 Усл. печ. л. 28,0. Уч.-изд. л. 18,0 Тираж 15 000 экз. (1-й завод — 5 000). Заказ 107 ООО “ИЗДАТЕЛЬСТВО ЮНИТИ-ДАНА” Генеральный директор В.Н. Закаидзе 123298, Москва, ул. Ирины Левченко, д.1 — 9 Тел. (095) 194-00-15. Тел/факс (095) 194-00-14 www.unity-dana.ru E-mail: unity@tech.ru Отпечатано в ГУП ИПК “Ульяновский Дом печати” 432601, г. Ульяновск, ул. Гончарова, 14