Text
                    Министерство образования Российской Федерации
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ
ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
Ю.Д. Максимов
МАТЕМАТИКА
Выпуск 8
Математическая статистика
Опорный конспект
Санкт-Петербург
Издательство СПбГПУ

УДК 519.2 ББК 22.171 Максимов ЮД Математика. Выпуск 8. Математическая статистика: Опор- ный конспект. СПб.: Изд-во СПбГПУ, 2002, 96 с. Пособие соответствует государственному образовательному стандарту и дейст- вующим программам дисциплины «Математика» бакалаврской подготовки всех об- щетехнических и экономических направлений. Это учебное пособие представляет собой последний восьмой выпуск серии опор- ных конспектов по математике, посвященный математической статистике. В нем по- следовательно вводится весь понятийный аппарат, формулируются теоремы, приво- дятся формулы. Сложные доказательства опущены, но даются подробные разъясне- ния с иллюстративными примерами прикладного характера. К каждой главе даны контрольные вопросы и задачи для самопроверки. В приложении - 7 статистических таблиц, применяемых в тексте. Предназначено для студентов второго, третьего курсов общетехнических факуль- тетов, гуманитарного факультета, экономических специальностей. Табл. 13. Ил. 21. Библ.: 20 названий. Печатается по решению редакционно-издательского совета Санкт-Петербургского государственного технического университета. Ответственный редактор Хватов Ю.А. © Санкт-Петербургский государственный политехнический университет, 2002 © Максимов Ю.Д., 2002
К 100-летию с начала занятии 2-го октября 1902 г. ПРЕДИСЛОВИЕ Настоящее учебное пособие представляет собой опорный конспект по мате- матике, который разделен на 8 выпусков. Здесь представлен 8-й выпуск, посвя- щенный математической статистике. В опорном конспекте с помощью определений последовательно вводятся все базисные понятия, предусмотренные программой и государственным обра- зовательным стандартом, формулируются основные теоремы, большая часть которых не доказывается, рассматриваются основные задачи, методы их реше- ния и технология применения этих методов к решению практических задач. Из- ложение сопровождается подробными комментариями и многочисленными примерами. Математическая статистика в общем курсе математики занимает особое по- ложение. С одной стороны, она базируется на теории вероятностей и, следова- тельно, использует все разделы курса математики. С другой стороны, здесь много описательного материала, который составляет так называемую описа- тельную статистику. Доказательство основных теорем настолько трудно и гро- моздко, что не приводится даже в продвинутых курсах для математиков. Есте- ственно, что и здесь даны лишь ссылки на более подробные источники. Выводы формул, требующие несложных рассуждений, здесь приводятся. Таким обра- зом, в настоящем 8-м выпуске представлен практически полный курс математи- ческой статистики, который читается на общетехнических факультетах. Он рас- считан примерно на 8 лекций. Знания читателя по теории вероятностей предпо- лагаются в объеме 7-го выпуска. Практические занятия по математической ста- тистике носят особый характер. В процессе их проведения студенты выполняют серию расчетных лабораторных работ с помощью вычислительных средств или под руководством преподавателя выполняют серию расчетных индивидуальных заданий по всем темам курса. В списке литературы указаны учебники [8, 9, 10, 11,14,15,18] для углубленного изучения теории. Некоторые параграфы и их части отмечены звездочкой (♦). Этот материал предназначен для углубленного изучения. Начало и конец доказательства или решения примера отмечены знаками ► и <. В конце каждой главы имеются кон- трольные вопросы и задачи с ответами в конце книги. В конце выпуска приве- ден перечень знаний, умений и навыков, которые должен приобрести студент, изучивший курс. Приложение содержит 7 таблиц, которые используются в кур- се. Автор выражает глубокую признательность своим коллегам Куклину Б.А., Шевлякову Г.Л., Ястребову А.В. за обсуждение отдельных тем книги, а Ястре- бову А.В., кроме того, за ее набор и оформление. 3
РАЗДЕЛ 16. МАТЕМАТИЧЕСКАЯ СТАТИСТИКА ВВЕДЕНИЕ 1°. Предмет математической статистики. Раздел «Математическая статистика» общего курса математики обычно изу- чается последним, так как основывается на теории вероятностей и всех других ранее изученных математических разделах. Сами статистические данные и вы- воды, полученные на их основе, используются в естественных и гуманитарных науках, в инженерной практике, экономике. Особенно велика роль статистики в решении задач управления производством, социальными группами людей, ибо без знания состояния управляемого объекта разумное управление этим объек- том невозможно. Эти знания об объекте несут обработанные и осмысленные статистические данные. Слово «статистика» происходит от слова «status» - состояние, государство. Статистика - одна из древнейших наук. Еще в глубокой древности люди накап- ливали и анализировали сведения о природных и общественных явлениях с це- лью их познания и прогноза. Существуют производственная, экономическая, социальная, медицинская, демографическая и другие отраслевые статистики. Математическая статистика изучает математическую сторону работы с число- выми данными независимо от конкретной отраслевой специфики. Определение. Математической статистикой называется наука, разрабатывающая методы регистрации, описания и анализа данных на- блюдений и экспериментов с целью получения вероятностно- статистических моделей случайных явлений. Математическая статистика - абстрактная наука. Ее методы применимы для обработки данных наблюдений и экспериментов любой природы, поэтому ис- пользуются во всех конкретных естественных и гуманитарных науках, экономи- ке, технике, медицине и т. д., т. е. во всех отраслевых статистиках. Основными задачами математической статистики являются следующие: • Приближенное определение вероятности события по относительной час- тоте. • Нахождение приближенного закона распределения случайной величины по данным экспериментов. • Оценивание числовых характеристик или параметров распределения слу- чайной величины по данным экспериментов. • Проверка статистических гипотез о свойствах изучаемого случайного яв- ления. 4
• Определение эмпирической (регрессионной) зависимости между пере- менными, описывающими случайное явление, на основе экспериментальных данных. Рассмотрим типичную схему исследований при решения указанных задач. Эти исследования естественно делятся на две части. Сначала путем наблюдений и экспериментов собираются, регистрируются статистические данные, составляющие выборку, - это числа, называемые также выборочными элементами. Затем они упорядочиваются, представляются в ком- пактной, наглядной или функциональной форме. Вычисляются различного рода средние величины, характеризующие выборку. Часть математической статисти- ки, обеспечивающая эту работу, называется описательной статисткой (descriptive statistics). Вторая часть работы исследователя состоит в получении на основе найден- ных сведений о выборке достаточно обоснованных выводов о свойствах иссле- дуемого случайного явления. Эта часть работы обеспечивается статистически- ми методами, составляющими статистику выводов (inferential statistics). 2°. Краткие исторические сведения. Несомненно, что создание теории вероятностей в XVII веке и ее развитие стимулировались требованиями улучшения статистической обработки данных экономики, демографии, страхового дела. Сам термин «статистика» возник в XVIII в. К этому же времени относится начало преподавания статистики в уни- верситетах Германии. Методы теории вероятностей стали оказывать влияние и на статистику. Она перестает быть чисто описательной и наполняется математическими моделями изучаемых случайных явлений. Рождение математической статистики, как полноправной науки, ее выделе- ние из ряда отраслевых и хозяйственных статистик произошло после того, как она стала строиться на основе теории вероятностей. Это случилось в двадцатом столетии, когда и сама теория вероятностей стала строиться на основе аксиома- тики, теории множеств, функционального анализа. Основоположниками математической статистики были Я. Бернулли (1654- 1705), К. Гаусс (1777-1855), П. Лаплас (1749-1827). В XIX веке большой вклад в нее сделали российские математики П.Л. Чебышев (1821-1894), А.А. Марков (1856-1922), А.М. Ляпунов (1857-1918). В XX веке важные результаты были получены К. Пирсоном (1857-1936), Р. Фишером (1890-1962), Г. Крамером (1893-1985), Р. Мизесом (1883-1953), а также отечественными математиками А.Н. Колмогоровым (1903-1987), Н.В. Смирновым (1900-1966) и др. 5
ГЛАВА 1. ОПИСАТЕЛЬНАЯ СТАТИСТИКА §1. Генеральная совокупность. Выборка. Выбор В соответствии с поставленными основными задачами математической ста- тистики рассмотрим абстрактный эксперимент Е. В результате его проведения мы измеряем (наблюдаем) значение х изучаемой случайной величины X. В реальных условиях случайной величиной X являются, например, пара- метр детали при массовом производстве, величина инфляции, любой общий ко- личественный признак определенного множества объектов. Определение 1.1. Генеральной совокупностью называется множе- ство возможных значений изучаемой случайной величины X с приписан- ным этому множеству законом распределения Х\ L(X). Примеры, 1) X - число рождений в городе за рассматриваемый промежуток времени. Генеральной совокупностью здесь является множество чисел {0,1,2,..., N}, ог- раниченное сверху каким-то числом N. Так как заранее для всех случаев ука- зать какое-либо конкретное число N невозможно, то с целью упрощения мате- матической теории здесь удобно рассматривать идеализированную генеральную совокупность - все множество целых неотрицательных чисел {0,1,2,... } с не- которым законом распределения. 2) X - величина отклонения детали от заданного размера при массовом производстве. Для удобства исследований за генеральную совокупность здесь принимают все множество вещественных чисел с некоторым законом распреде- ления. 3) X - длительность обслуживания в системе массового обслуживания. Здесь генеральной совокупностью является множество неотрицательных веще- ственных чисел с некоторым законом распределения. Числа, составляющие генеральную совокупность, называются ее элемента- ми. Закон L(X) распределения случайной величины X называется генераль- ным законом распределения, а числовые характеристики X - генеральными чи- словыми характеристиками. Так как генеральная совокупность - большая, то перебрать все ее элементы невозможно, поэтому для изучения генеральной совокупности из нее делают выборку и по ее свойствам судят о свойствах генеральной совокупности. I Определение 1.2. Выборкой называется множество измеренных зна- мений Х],х2,...,хл случайной величины X. б
Выборка записывается в виде л-мерной точки (Х1,х2,...,хл). Числа, со- ставляющие выборку, называются ее элементами; их количество п - объемом юрки. Выборку нельзя составлять как попало. Иначе она не будет правильно ха- рактеризовать генеральную совокупность. Определение 1.3. Процесс составления выборки называется выбором. Различных типов выбора существует несколько. Будем, во-первых, различать выбор с возвращением и без возвращения. Оба типа выбора имеют смысл для конечной перенумерованной генеральной сово- купности. Их можно уподобить выбору шаров из урны. При выборе без возвра- щения шары выбираются последовательно и в урну не возвращаются. При вы- боре с возвращением шар вынимается из урны, запоминается его номер, а далее шар возвращается обратно в урну. Таким образом, при последующих выборах он снова может быть извлечен. Кажущееся различие этих двух типов выбора на самом деле не меняет веро- ятности попадания каждого элемента в выборку при условии, что элемент по- падает в выборку только один раз в случае выбора с возвращением, хотя выбран может быть много раз (не будете же вы опрашивать одного и того же респон- дента несколько раз при социологическом опросе или исследовать одну и ту же деталь при контроле на брак партии). Действительно, при выборе с возвращением вероятность вынуть конкретный шар из урны, содержащей N шаров, равна 1/У - одна и та же при каждом вы- боре шара. При выборе без возвращения вероятность попадания меченого шара в выборку при к-м выеме {к = 1,2,..., N) равна W-1 ЛГ-2 tf-З tf-(*-l) 1 1 # ^-1^-2‘“’^-(Ь2)^-(Ы) N\ т. е. также одна и та же независимо от того, на каком этапе составления выбор- ки шар в ней появится. Это есть вероятность того, что при последнем к -м вы- еме меченый шар появился, а во всех предыдущих (к -1) выемах - нет. Во-вторых, будем различать выбор случайный, т. е. проводимый с помощью какого-либо случайного механизма, и неслучайный (пристрастный, по законо- мерности). В статистике применяется в основном случайный выбор как более надежный в отражении свойств генеральной совокупности. Определение 1.4. Простым случайным выбором называется выбор, удовлетворяющий следующим требованиям: 1. Выбор является случайным. 2. Каждый элемент генеральной совокупности может быть выбран. 3. Каждый элемент выбирается независимо от остальных. 4. Все элементы выборки получаются в равных условиях. Реально такой выбор можно осуществить на основе урновой схемы из ко- нечной генеральной совокупности, перенумеровав все ее элементы, а затем вы- 7
бирая номера с помощью какого-либо случайного механизма: выбор карточек из колоды, чисел из таблицы равномерно распределенных случайных чисел (таблица VI приложения), одинаковых шаров из барабана и т. д. (выбор без воз- вращения или с возвращением). Так можно выбирать коллективы людей по перечню для обследования, ав- томашины партии для испытания, штуки товара из партии для контроля и т. д. В реальных условиях простой случайный выбор не всегда осуществим. Он является как бы эталонным идеальным выбором. Реальный выбор лишь при- ближенно можно считать простым случайным. Его нельзя, например, осущест- вить из бесконечной генеральной совокупности (время обслуживания, отклоне- ние результата измерения от нормы), из генеральной совокупности, образова- ние которой не завершено и может продолжаться бесконечно долго (исследуется средняя температура июля в Санкт-Петербурге; июли могут про- должаться потенциально бесконечно долго). Виды реальных выборов. 1. Механический выбор. В этом случае элементы генеральной совокупности выбираются по какой-либо закономерности. Например, измерения производятся через равные промежутки времени, контролируется каждая десятая деталь, схо- дящая с конвейера, каждый пятый человек по списку. Применяется для автома- тизированного контроля. 2. Серийный выбор. Элементы в этом случае выбираются не по одному, а сериями. Например, контролю подвергается не одна таблетка лекарства, а упа- ковка, не один человек из какой-либо группы, а вся группа. Диктуется условия- ми производства и обследования. 3. Типический выбор. В этом случае генеральная совокупность делится на непересекающиеся части. Из каждой части выбираются элементы в количестве, пропорциональном объему части. Так можно получить сведения о средней зарплате в отрасли, об урожайно- сти поля, о политических предпочтениях людей. Характерен для экономических и социологических исследований. 4. Субъективный выбор - на основе какого-либо субъективного принципа. Например, обследуются не все партии продукции, а лишь одна, наиболее по- дозрительная на содержание брака, ведется опрос по телефону, а не всех слоев населения. Он экономит время, средства, но может привести к большим ошиб- кам. 5. Выбор с помощью случайных независимых измерений (температура среды, величина тока, загрязненность реки). Характерен для инженерных и естествен- нонаучных исследовании. Все типы выборов могут комбинироваться между собой. Существуют и дру- гие типы выборов. В математической статистике рассматривается только простой случайный выбор. Отметим одно его важное свойство - случайность (рандомизирован- 8
ность). Случайный выбор - объективен, гарантирует от пропуска скрытых зако- номерностей в генеральной совокупности, поэтому реальный выбор следует ор- ганизовывать так, чтобы свойство случайности присутствовало. В механиче- ском и субъективном выборах случайность отсутствует, поэтому они менее на- дежны. (Например, каждая десятая деталь, снимаемая с конвейера, может по- ставляться бракоделом. Такой контроль может исказить результаты). Обратимся снова к анализу выборки. Повторяя выборку (xi,x2,... ,хл) не- сколько раз, мы будем в общем случае получать каждый раз новые элементы, поэтому элементы выборки рассматриваются как случайные величины. Так как они принимают значения из одной и той же генеральной совокупности, то рас- пределены одинаково - так же, как случайная величина X, образующая рас- сматриваемую генеральную совокупность. хь х2, •••, хп ~ это п копий случай- ной величины X. Далее, так как каждый элемент выборки получен независимо от остальных, то все элементы выборки рассматриваются как взаимно незави- симые случайные величины. Итак, с теоретической точки зрения выборка (xi,x2,... ,хп) ~ это п-мерная случайная величина, все компоненты которой - взаимно независимые одинако- во распределенные случайные величины. Их закон распределения - такой же, как у изучаемой случайной величины X. Такую теоретическую выборку следует отличать от ее реализации, т. е. на- бора п чисел, полученных в конкретном выборе (в конкретных измерениях). Чтобы подчеркнуть это различие, теоретическую выборку, т. е. п -мерную слу- чайную величину, иногда обозначают символом (Х\, Х2,..., Хп), составленным из больших букв, а ее реализацию - символом (хьх2,... ,хл), составленным из малых букв. В дальнейшем с целью упрощения записей и теоретическую вы- борку, и ее реализацию будем обозначать одним и тем же символом (xi ,х2,..., хл), так как из текста обычно ясно, о чем идет речь. Обсудим еще последнее свойство простого случайного выбора - о том, что все элементы выборки получаются в равных условиях. Это свойство можно выразить, введя случайную величину X , принимаю- щую выборочные значения хьх2,.,., хл с одной и той же вероятностью 1/и. Дискретное равномерное распределение с законом, заданным формулой Р(%*=х*) = 1/и, £ = 1,2,...,л, (1.1) называется выборочным распределением, а его числовые характеристики - вы- борочными числовыми характеристиками (иначе - числовыми характеристи- ками выборки). К выборкам, как и к выбору, предъявляется ряд требований. Важнейшим из них является требование репрезентативности (представительности). Это требование означает, что выборка должна хорошо представлять всю ге- неральную совокупность. Например, изучая среднюю зарплату отрасли, нельзя 9
ограничиться данными одного завода, одного месяца и т. д. Для составления репрезентативной выборки более всего подходит типический выбор. Простой случайный выбор тоже репрезентативен, так как теоретически любой элемент генеральной совокупности может попасть в выборку, но менее надежен, чем типический, так как в силу независимости и случайности выбора элементов возможна их концентрация и, следовательно, недостаточно представительный охват генеральной совокупности. Другим требованием является требование однородности выборки. Это оз- начает, что условия проведения экспериментов для получения выборки не должны меняться. Выборка должна быть получена из одной генеральной сово- купности, а не из нескольких. В ней должны отсутствовать выбросы. Неодно- родная выборка не может дать правильного прогноза. Будем различать малые и большие выборки, так как они отличаются мето- дами обработки. Для обработки большой выборки привлекаются асимптотиче- ские методы, основанные на центральной предельной теореме. В статистиче- ской практике принято считать выборку с объемом п > 30 большой. Для изучения двумерной случайной величины (X.Y) создается двумерная выборка, представляющая таблицу пар чисел (х, ,у,) (/ = 1,2,..., л). Существуют выборки любой размерности. §2. Вариационный и статистический ряды Выборка является труднообозримым множеством. Для дальнейшего изуче- ния выборку подвергают перегруппировке. Определение 2.1. Вариационным рядом называется последователь- ность всех элементов выборки, расположенных в неубывающем порядке. Одинаковые элементы повторяются. Запись вариационного ряда: х^, х<2),..., х^. Элементы вариационного ряда называются порядковыми статистиками. ' Минимальный и максимальный элементы называются крайними, иначе - экс- тремальными элементами вариационного ряда: •*mm = •*(!) • -^тах = х(п) • (2.1) Разность между максимальным и минимальным элементами называется разма- хом, или широтой выборки: ~ Xmax ~ *min * (2-2) Определение 2.2. Средний элемент вариационного ряда, если п - нечет- ное, или полусумма двух средних элементов, если п - четное, называется медианой выборки и обозначается med: X(/+D прил = 2/ + 1, [(*(/) +JC(/+1))/2 ПРИ « = 2/. < ' ) 10
Определение 2.3. Элементы вариационного ряда, на четверть отстоя- щие от краев, называются соответственно нижней и верхней квар- тилями и обозначаются гщ и z3/4. Математически точно квартили определяются по формулам: , _г . ,_Д«/4] + 1 при я/4 дробном, 1/4 [ п/4 при п/4 целом. ' * Здесь [а] - целая часть числа а, т. е. наибольшее целое число, не превосходя- щее а. -3/4 = *(/?-/+!) • (2-5) Числа xmin, z1/4, med, z3/4, xmax дают ежа- । | t тую информацию о выборке и, следовательно, о xmin med zy4 xmax генеральной совокупности. Они могут быть изо- бражены в виде так называемого ящика с усами Рис. 2.1. «Ящик с усами» [19], рис. 2.1. Пример 2.L Взята выборка наименьших цен в долларах США за 1 л? на но- вое жилье в отдаленных районах следующих областных или столичных городов России в 1997-1998 гг.: Астрахань - 330, Барнаул - 340, Брянск - 360, Волгоград - 380, Екатерин- бург - 380, Иркутск - 450, Казань - 350, Москва - 900, Нижний Новгород - 350, Новосибирск - 400, Омск - 360, Пенза - 320, Петрозаводск - 360, Самара - 400, Санкт-Петербург - 500, Ставрополь - 360 (газета «Известия», 21.01.98). Построить вариационный ряд и «ящик с усами». ► Заметим предварительно, что элемент выборки 900 является аномальным, что объясняется исключительным положением Москвы как столицы по отно- шению ко всей России. Его следует исключить из выборки, иначе она будет не- однородной. После исключения вариационный ряд получает вид: 320, 330,340, 350, 350,360, 360, 360,360, 380, 380,400,400,450, 500. Из него находим xmin=320; xmax=500; med = х^ =360; z1/4 = л<4) = 350; z3/4 =Х(12) =400; R = 500-320 = 180, так как / = [и/4] + 1 = [15/4] +1 = 3 +1 = 4; n-/+ 1 = 15-4 + 1 = 12. «Ящик с усами»: 320 Пенза 350 Казань Н. Новгород 360 Брянск Омск Петрозаводск Ставрополь 400 Новосибирск Самара I 4 500 С.-Петербург Если в выборке много повторяющихся элементов, то вариационный ряд можно преобразовать в статистический ряд. 11
Определение 2.4. Статистическим рядом называется последова- тельность различных элементов zt вариационного ряда с указанием частот гц повторения элементов. В общем случае статистический ряд можно записать в виде таблицы (nl + n2 + ...+nk =п). zi Z1 z2 zk п. «1 «2 »k Пример 2.2. Преобразуем вариационный ряд из примера 2.1 в статистиче- скийряд. 320 330 340 350 360 380 400 450 500 1 1 1 2 4 2 2 1 1 Статистический ряд можно изобразить графически в виде полигона (многоугольника), откладывая по оси абсцисс элементы статистического ряда, а по оси ординат - частоты (или относительные частоты). Полученные точки плоскости соединяются отрезками. Полигон статистического ряда из примера 2.2 имеет вид (рис. 2.2). Рис. 2.2. Полигон частот к примеру 2.2 Полигон частот (или относительных частот) дает хорошее представление о распределении частот в выборке. Элемент, отвечающий наибольшей частоте по сравнению с соседними элементами статистического ряда, называется выбороч- ной модой (mod). Для рис. 2.2 mod = 360. §3. Выборочная функция распределения Рассмотрим функциональный способ описания выборки. Определение 3.1. Выборочной (эмпирической) функцией рас- пределения называется относительная частота события Х<х, полу- ченная по выборке: F„*(x)=P*(X<x). (3.1) 12
Для получения относительной частоты Р (X <х) просуммируем в стати- стическом ряде, построенном по данной выборке, все частоты пь ддя которых элементы z, статистического ряда меньше х. Тогда Р*(X < х) = ~ • Полу- Zj<X чаем (3-2) z,<x Это функция распределения дискретной случайной величины X*, заданной таблицей распределения X* z\ z2 zk р »\/п И2/« пк/п Ее графиком является восходящая ступенчатая линия, называемая кумулятой (линия накопленных относительных частот). Пример 3.1. Измеренные с точностью до одного грамма отклонения веса де- талей от номинала составили следующую выборку объема п = 16: (О, 1, 0, -2,2, 3, 2, 0, 0, -1,1, -1, 0,1, -3, -2). Для этой выборки статистический ряд представлен следующей таблицей: zi -3 -2 -1 0 1 2 3 sf 1 2 2 5 3 2 1 На основе этой таблицы строим выборочную функцию распределения. 0 при х<-3, 1/16 при -3 < х < -2, 3/16 при -2 <х<-1, 5/16 при -1<х<0, 10/16 при 0<х<1, 13/16 при 1<х<2, 15/16 при 2 < х < 3, 1 при х>3. График этой функции (кумулята) представлен на рис. 3.1. Так как относительная частота события приближается к вероятности собы- тия при увеличении п, то выборочная функция распределения Fn (х) прибли- женно представляет функцию распределения F(x) генеральной совокупности, как говорят, является ее оценкой: F„*(x)«F(x). (3.4) 13
Рис. 3.1. Кумулята (график выборочной функции распределения) и аппроксимируемый ею график генеральной функции распределения F(x). Точный математический смысл приближения Fn (х) к F(x) заключен в сле- дующей теореме. Теорема 3.1. Для любого фиксированного х выборочная функция распре- деления Fn (х) при п-><х> стремится по вероятности к генеральной функ- ции распределения F(x): <35> ► По теореме Бернулли теории вероятностей относительная частота события по вероятности стремится к вероятности этого события при и -» оо. В данном случае Р*(X <x) = F*(х), P(JT < х) = F(x); получаем формулу (3.5). ◄ §4. Выборочные числовые характеристики С помощью выборки образуются ее числовые характеристики. Это числовые характеристики случайной величины X с равномерным законом распределе- ния (1.1), который означает, что каждый элемент выборки xk (/г = 1,... ,и) при- нимается с вероятностью 1/и, ибо предполагается, что выборка образована с помощью простого случайного выбора. Числовые характеристики случайной величины X называются выбороч- ными числовыми характеристиками. Случайная величина X* аппроксимирует изучаемую случайную величину X в силу того, что Fn*(x) по вероятности стремится к F^(x) при п ->оо. При этом следует ожидать, что и выборочные числовые характеристики будут аппроксимировать соответствующие генераль- ные характеристики, т. е. являться их оценками. Такой метод образования оце- нок генеральных числовых характеристик называется методом аналогии (или подстановки). Вместо числовых характеристик X рассматриваются аналогич- 14
ные числовые характеристики X . Это означает также, что во все формулы для генеральных числовых характеристик вместо X подставляется случайная вели- чина X , ее аппроксимирующая. Итак, Определение 4.1. Выборочной оценкой генеральной числовой харак- теристики называется ее приближенное значение, найденное по выборке. Одним из методов получения оценок является метод аналогии (подстановки). Свойства этих оценок будут рассмотрены позднее. Сейчас рассмотрим сами оценки. 1°. Основные оценки. 1. Выборочное среднее <41> 7 = 1 является оценкой генерального математического ожидания т = МА". 2. Выборочный начальный момент порядка I 1 п а1=^Ёх1- <4-2) 7 = 1 является оценкой генерального начального момента порядка I: az =М[Л,/]. 3. Выборочный центральный момент порядка I (4-3) 7 = 1 является оценкой генерального центрального момента порядка Z: Р/ =M^(Ar-m)zj. 4. Выборочная дисперсия «2='”2=^Х^-Х)2 <4-4) 7=1 является оценкой генеральной дисперсии с2 = = М - т)2 j. 5. Выборочное среднее квадратическое отклонение * = >/?. (4.5) является оценкой генерального среднего квадратического отклонения о = 4с2 . Для выборочной дисперсии справедлива формула, аналогичная формуле для генеральной дисперсии: s2 =а2~х2 =а2-а2. (4.6) 15
, п . п , п . ► -2», +х2)4Ех,2-241-<, +->2 • j=l /=1 /=1 = а2 - 2х2 + х 2 = а2 -х1 4 — 2 Пример 4.1. Вычислим выборочные числовые характеристики x,a2,s , $ для выборки из примера 3.1. При этом удобно воспользоваться статистическим рядом (3.3). ► х =(-3 1-2-2-1-2 + 0-5+1 -3 + 2-2 + 3-1)/16 = 1/16 = 0.0625; °2 = (<-3)2 • 1 + (~2)2 • 2 + (-1)2 • 2 + О2 • 5 +12 3 + 22 • 2 + З2 • 1)|/16 = 39/16 = 2.4375; s2 = а2 - х2 = 39/16 -1/162 = 623/256 « 2.4336; >/2.4336 «1.56. ◄ * 2°. Дополнительные оценки. Кроме основных выборочных числовых характеристик (4.1) - (4.5), рассмот- рим еще выборочные числовые характеристики, выраженные через порядковые статистики. В этом случае будем предполагать, что случайная величина X, об- разующая генеральную совокупность, непрерывна и имеет плотность вероятно- сти /(х) с непрерывной производной /'(х) в окрестности рассматриваемых точек. Тогда: * 6. Выборочная медиана med (2.3) является оценкой генеральной медианы Me = (1/2) (в случае ее однозначности). * 7. Выборочные квартили гщ и z3/4 (2.4), (2.5) являются оценками соответ- ствующих генеральных квартилей £у4 = Fx*(l/4), £3/4 = F^1(3/4) (в случае их однозначности). * 8. Выборочное среднее абсолютное отклонение 1 п rf = ^|x/-med| (4.7) 1=1 является оценкой генерального среднего абсолютного отклонения 8 = М[|Х-Ме|]. (4.8) Здесь дополнительно предполагается существование конечного второго гене- рального момента. ♦9. Полусумма выборочных квартилей =j(zl/4 + z3/4)« (4.9) *10. Полусумма экстремальных выборочных элементов ==2^(’Xmin + *max)- (4-Ю) 16
*11. Разность выборочных квартилей, называемая выборочной интерквар- тильной широтой Я = -3/4 ~ -1/4 • (4.11) *12. Размах выборки Я = *max “ xmm (см- (22)). Четыре выборочные характеристики X, med, lq, tR (4.12) являются характеристиками положения выборки, а четыре выборочные харак- теристики 5, d, qy R (4.13) являются характеристиками рассеяния элементов выборки относительно цен- тров (4.12) соответственно. Для симметричного генерального распределения все выборочные характе- ристики (4.12) оценивают центр симметрии распределения. Свойства введенных выборочных числовых характеристик будут рассмотрены в следующей гл. 2. В силу различия этих свойств все рассмотренные величины (4.12), (4.13) характе- ризуют выборку, а потому и генеральную совокупность, системно. Недостатки одних компенсируются другими. ★Пример 4,2, Вычислим выборочные числовые характеристики med, zj/4, -3/4 > xmm » Xmax > ’ Я, Я, ДЛЯ выборки ИЗ примера 3.1. ► Сначала составим вариационный ряд на основе статистического ряда (3.3). -3,-2,-2,-1,-1,0, 0, 0, 0, 0, 1,1, 1,2, 2,3 Из него получаем: med = 0, Zjy4 — Л(4) = — 1, ~з/4 —-*(13) =: 1, •4nin=:’~3, *тах = 3, ^=(-1 + 1)/2 = 0; ГЛ=(-3 + 3)/2 = 0; ? = 1-(-1) = 2; Я = 3-(-3) = 6; с7 = (3 + 2-2 +1-2 +1-3 + 2-2 +3)/16 = (3 + 4 + 2 + 3 + 4 + 3)/16 = 19/16 = 1.1875. Полезно сравнить полученные характеристики med, tq, tR с х d с s. х = (-3 + (-2)-2 + (-1)-2 + 1- 3 + 2-2 + 3)/16= 1/16 = 0.0625; med = tq = tR = 0 близки к х . Это говорит о том, что генеральное распределе- ние предположительно симметрично относительно нуля и все оценки на это указывают. Далее, а2 = (9 + 4-2 +1-2 +1-3 + 4-2 +9)/16 = 39/16 = 2.4375; s2 = 2.4375-0.06252 « 2.4336; s «-72.4336 = 1.56. smd отличаются более сильно, так как оценивают различные генеральные характеристики о и 5. Если же предположить генеральное распределение нор- мальным, на что есть теоретические основания, то d тоже можно считать оцен- кой и, если предварительно эту выборочную оценку нормировать с помощью 17
нормирующего коэффициента ^(16) = 0.76 (см. табл. VII приложения): d* = J/^(16) = 1.1875/0.76 »156. Об этом пойдет речь в главе 2. ◄ §5. Группированный статистический ряд. Гистограмма 1°. Группированный статистический ряд. Если выборка получена из непрерывной генеральной совокупности и объем ее большой, то вариационный и статистический ряды, как и сама выборка, бу- дут трудно обозримыми множествами. Действительно, в этом случае при доста- точно точном измерении практически не будет равных элементов выборки, ибо вероятность равенства значений непрерывной случайной величины равна нулю. Тогда прибегают к другому способу группирования элементов выборки. Промежуток [xmin,xmax] делится на некоторое число к равных по длине промежутков. Обозначим эти промежутки слева направо через Дь Д2, •••> &к- Если точки, разделяющие промежутки, обозначить а0,а{9...,ак, то д 1 = kmin. A2=[°b°2). •••> Л/ =к-1,а,). ••• . At =[a*-b*maxl Здесь ао = xmin» ак ~ Хтах • Пусть и, - число элементов выборки, попавших в проме- жуток Д;. Числа ,пк называются частотами попадания элементов вы- борки в рассматриваемые промежутки. I Определение 4.1. Совокупность промежутков Дь Д2,..., Д* w соответ- ствующих им частот называется группированным статистическим [рядом. Естественно, возникает вопрос - как выбрать число к промежутков? При слишком большом к картина распределения будет искажена случай- ными колебаниями частот. Отдельные промежутки даже могут оказаться пус- тыми. При слишком малом к будут сглажены и затушеваны характерные осо- бенности распределения. Для определения к можно рекомендовать полуэмпирическую формулу [4] * = 1.72л,/3. (5.1) Здесь п - объем выборки; 30<и^1000. При п = 40 => £ = 6; при и = 100 => £ = 8; при л = 200 => к = 10; при и = 400 => к = 12;при п = 1000 => к = 17. Применяется также формула Старджесса £ = l + 3.31gn. (5.2) Длина промежутков Дь Д2,Д* определится по формуле h - - *тах ~ Лт1п к~ к Вместо группы элементов, попавших в интервал Д;, рассматривается один их представитель. В качестве такого представителя обычно берут среднюю точ- 18
ку х* промежутка Л,. Группированный статистический ряд можно оформить в виде таблицы. Технически при ручном счете это делается следующим образом. Просматриваем выборку по порядку и каждый элемент относим в соответ- ствующий промежуток, ставя при этом палочку в графе рядом. Когда накапли- вается четыре палочки 1111, их перечеркиваем после появления в этом проме- жутке следующего элемента. Получается пяток . Затем образуем следую- щий пяток и т. д. Так находим частоты (/ = 1,2,..., к) (табл. 5.2). При использовании компьютера частоты находятся автоматически по про- грамме после введения выборки в компьютер. Пример 5J, Проведено 100 измерений предела текучести аДкГ/ли?) неко- торого сорта стали (предел текучести - давление, при котором образец стали теряет упругие свойства и начинает «течь»). Данные помещены в таблицу 5.1 и составляют первичную выборку. Таблица 5.1. Результаты измерений предела текучести сгу(к/7лш2) одного сорта стали 26.7 37.0 30,5 28.1 27.4 25.4 36.1 33.4 29.7 26.4 34.0 26.6 27.9 35.4 35.3 29.6 29.4 26.4 37.0 28.7 33.7 31.2 34.5 31.8 25.5 30.2 32.7 28.3 39.9 33.5 34.1 30.0 35.8 30.7 25.9 31.6 34.4 31.5 31.8 27.4 24.7 33.4 - 33.1 33.2 30.3 31.6 35.8 32.2 35.2 30.8 37.0 26.3 30.2 31.8 32.5 29.7 28.0 32.4 32.3 31.9 26.7 34.7 33.6 30.7 31.9 30.8 32.3 30.4 33.8 29.5 29.7 31.8 30.1 32.4 30.6 28.1 32.2 30.5 30.8 33.4 28.7 32.6 32.7 32.3 29.8 30.6 37.2 38.4 35.0 33.1 30.6 35.4 25.6 33.5 32.0 31.6 26.1 29.4 36.4 28.0 Таблица 5.2. Группированный статистический ряд для выборки из табл. 5.1. № проме- жутка 1 Границы промежутков Подсчет частот «г Средняя точка промежутка а,-! Ч 1 24.7 26.6 4++Г11П 9 25.65 2 26.6 28.5 44+Г 44+Г 1 11 27.55 3 28.5 30.4 ЖЛЖ'-ШГ] 16 29.45 4 30.4 32.3 4Ч4Т4++Г4-НТ44+Г44+Г II 27 31.35 5 32.3 34.2 4++Г4-Н-Г44+Г 1111 19 33.25 6 34.2 36.1 4+Н-4++Г 1 11 35.15 7 36.1 38.0 44+Г 5 37.05 8 38.0 39.9 II 2 38.95 100 19
Из табл. 5.1 находим xmjn = 24.7; xmax = 39.9. Тогда Я = xma_-xmin= 39.9-24.7 = 15.2; Л = 8; h = R/k = 152/8 = 1.9. Делим промежуток [27.4; 39.9] на 8 равных частей и подсчитываем частоты. Ре- зультаты сведены в таблицу 5.2. 2°. Оценивание генеральных числовых характеристик с помощью груп- пированного статистического ряда. С помощью группированного статистического ряда можно приближенно вычислить выборочные моменты. Так как группа элементов выборки, входящих в промежуток Д/э заменяется средней точкой х* промежутка, то следует счи- тать, что элемент х* встречается в выборке раз, т. е. имеет частоту п2. Полу- чаем следующие формулы. 1 к х=а^пТ1П1Х'’ (53) 1=1 1 к (5-4) /=1 Такое усреднение по промежуткам несколько искажает выборочные число- вые характеристики, но при большом объеме выборки это искажение несущест- венно. Применение формул (5.3), (5.4) целесообразно при ручном счете. При счете на компьютере применяются точные формулы (4.1), (4.2). Пример 5.2. Найдем выборочные числовые характеристики x,s2,s для вы- борки из табл. 5.1 с помощью группированного статистического ряда (табл. 5.2). ► Вычисления оформляются в виде таблицы (5.3). Таблица 5.3. Подсчет первых двух выборочных моментов по формулам (5.3), (5.4) i л, 2/ л.2/ 1 9 25.65 657.9 230.85 5921.1 2 11 27.55 795.0 303.05 8349.0 3 16 29.45 867.3 471.20 13876.8 4 27 31.35 982.8 846.45 26535.6 5 19 33.25 1105.6 631.75 21006.4 6 11 35.15 1235.5 386.65 13590.5 7 5 37.05 1372.7 185.25 6863.5 8 2 38.95 1517.1 77.90 3034.2 Е 100 — — 3133.10 99177.1 20
С помощью таблицы 5.3 получаем х =3133.10/100 = 31.33; а2 =99177.1/100 = 991.77; ? = аг - х2 = 991.77 - 31.332 = 1020; j = V1020 «3.19. ◄ 3°. Гистограмма. Группированный статистический ряд наглядно можно изобразить в виде гистограммы. Определение 5.2. Гистограммой выборки называется фигура, образо- ванная прямоугольниками с основаниями А, и высотами ц f{nh) Гистограмма изображена на рис. 5.1. Величины njn называются относительными, a nj(nh) - приведенными частотами группированного статистического ряда. Рис. 5.1. Гистограмма и полигон группированного статистического ряда С помощью гистограммы оценивается кривая плотности вероятности, так как ступенчатая ломаная, ограничивающая гистограмму сверху, близка к гра- фику плотности вероятности. Действительно, площадь прямоугольника с основанием А? равна /(nh)-П;/п, т. е. относительной частоте попадания элементов выборки в промежуток А,. При большом п относительная частота близка к вероятности попадания значения случайной величины X в промежуток А,. Эта вероятность численно равна площади криволинейной трапеции с основанием А, и ограни- ченной графиком плотности. Таким образом, этот участок криволинейной трапеции, ограниченной гра- фиком плотности, аппроксимируется прямоугольником гистограммы с основа- нием А,. поэтому и вся рассматриваемая криволинейная трапеция аппроксими- руется гистограммой. 21
Обычно приведенные частоты очень малы, поэтому гистограмму строят, увеличивая масштаб по оси Оу, что равносильно тому, что при одинаковых масштабах по осям строят прямоугольники с высотами сп{ (/ = !,...,£), где с надлежащий коэффициент пропорциональности. Сравнивая ступенчатую ломаную, ограничивающую гистограмму сверху, с известными графиками теоретических плотностей (нормальной, показательной и других), можно выдвинуть гипотезу о законе распределения генеральной со- вокупности (рис. 5.1). Другим наглядным изображением группированного статистического ряда является полигон приведенных частот - это ломаная с вершинами в точках С помощью полигона также оценивается кривая плотности веро- ятности (рис. 5.1). Пример 5.3. Построим гистограмму и полигон приведенных частот для группированного статистического ряда (табл. 5.2). Рис. 5.2. Гистограмма и полигон группированного статистического ряда из табл. 5.2 Из рис. 5.2 видим, что ломаная, ограничивающая гистограмму сверху, и по- лигон по очертаниям близки к графику нормальной плотности. Это позволяет выдвинуть гипотезу о нормальности распределения изучаемой генеральной со- вокупности. *4°. Гистограммная и полигональная оценки плотности вероятности. Ступенчатая линия, ограничивающая гистограмму сверху, может быть опи- сана аналитически функцией /=1 4 < 22
Здесь К(и) - функция, называемая ядром, определяется формулой , Л. -1/2 < и <1/2; " [0, и < -1/2 или и 2.1/2, (5'6) п - объем выборки, л, - число элементов выборки, попавших в промежуток , х* - средняя точка промежутка A,, h - длина Д, (/ = 1,...,£), к - число про- межутков. При выполнении достаточно общих условий относительно генеральной плотности /(х) можно утверждать, что и гистограммная оценка /л(х), и оцен- ка /л(х) с помощью полигона приведенных частот сближаются с оцениваемой плотностью f (х), т. е. являются, как говорят, ее состоятельными оценками: в точках х непрерывности плотности [7, 10]. Контрольные вопросы и задачи для самопроверки к главе 1 1. Что такое генеральная совокупность, выборка, выбор? 2. Сформулируйте определение простого случайного выбора. 3. Какие виды реальных выборов вы знаете? 4. Какая выборка называется репрезентативной, однородной? 5. Что такое вариационный, статистический ряд? 6. Дайте определения крайних элементов вариационного ряда, размаха, ме- дианы, квартилей. 7. Что такое полигон частот? 8. Дайте определение выборочной функции распределения. 9. Что такое оценка генеральной числовой характеристики? 10. Опишите метод аналогии (подстановки) образования оценок. 11. Перечислите основные выборочные оценки генеральных числовых ха- рактеристик. 12. Что такое группированный статистический ряд? 13. Что такое гистограмма выборки? 14. Взята выборка первых 15 чисел из первой строки таблицы VI равномер- но распределенных случайных чисел на промежутке [0,100]: (98, 52, 01, 77,67, 14, 90, 56, 86, 07, 22,10, 94, 05, 58). Постройте вариационный ряд. 15. В вариационном ряде, построенном в задаче 14, найдите xmin, xmax, zl/4» z3/4- 16. С помощью вариационного ряда, построенного в задаче 14, и величин, найденных в задаче 15, вычислите med, tq, х. Убедитесь, что все они близки к середине промежутка [0,100]. 23
ГЛАВА 2. ТОЧЕЧНОЕ ОЦЕНИВАНИЕ ЧИСЛОВЫХ ХАРАКТЕРИСТИК И ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ Одной из важнейших задач математической статистики является задача приближенного вычисления числовых характеристик и параметров закона рас- пределения изучаемой случайной величины. Эта задача называется задачей оценивания неизвестных величин. Сформировались два направления в теории оценивания - точечное и интервальное. В настоящей главе рассматривается теория точечного оценивания. §1. Понятие точечной статистической оценки. Требования к оценкам Определение 1.1. Точечной статистической оценкой неизвест- ной числовой характеристики или параметра 6 распределения называется функция 0Л (jq,..., хп), зависящая от элементов выборки, приближенно рав- ная 0: ё„(х19.,.,хп)*е. (1.1) Для каждой конкретной выборки - это число, т. е. точка на числовой оси. Определение 1.2. Статистикой называется любая функция выбороч- ных элементов (наблюдений). Таким образом, статистическая точечная оценка - это статистика, по значе- ниям которой можно судить о величине 0. Слова «точечная», «статистическая» в применении к оценкам в пределах главы в дальнейшем для простоты будут опускаться. Для одной и той же неизвестной величины 0 можно составить бесконечно много различных оценок. Например, в качестве оценки математического ожи- дания т нормального распределения могут служить выборочное среднее х, выборочная медиана med, полусумма квартилей полусумма крайних эле- ментов tR. В силу многообразия оценок, применяемых для оценивания одной и той же неизвестной величины, возникает задача выбора из них лучшей в определенном смысле. К оценкам предъявляется ряд требований. Заметим предварительно, что все статистические оценки являются случай- ными, так как случайными являются элементы выборки. Определение 1.3. Оценка 0Л =0л(хь...,л„) называется состоятель- ной оценкой 0, если она стремится по вероятности к 0 с ростом п: 24
Это означает, что для любого е > 0 выполняется соотношение НтР(|ёл-0|^Е) = О. (1.3) Л—>00 V ' ' Это требование означает сближение 9Л и 9 с ростом п в вероятностном смысле. В математической статистике, как правило, применяются только со- стоятельные оценки. Пример 1.1. Из предельной теоремы Бернулли теории вероятностей следует, что относительная частота Р (Л) события А является состоятельной оценкой вероятности Р(Л) этого события: Р*(Л) £->Р(Л). Определение 1.4. Оценка Qn называется несмещенной оценкой в, если математическое ожидание оценки равно 6: М9Л=9. (1.4) В противном случае оценка называется смещенной. Разность М9Л - 9 называется смещением оценки. Требование несмещенности означает, что выборочные значения 9Л, оценок, полученные в результате повторения выборок, группируются не только около их математического ожидания, но и около оцениваемой величины 9 (рис. 1.1). О . е I I -JC Рис. 1.1. Группировка выборочных значений 0л>/ смещенной оценки 9Л около своего математического ожидания М9Л, а не около оцениваемой величины 9. Определение 1.5. Оценка 9Л величины 9 называется робастной, если она устойчива по отношению к выбросам в статистических данных Выбросы в выборке могут появиться вследствие сбоев регистрирующего прибора, грубых ошибок оператора. Выбросы группируются на концах вариационного ряда наблюдений. Поэто- му оценки, не имеющие в своем составе элементов, близких к концам вариаци- онного ряда, будут робастными. Это, например, выборочная медиана med и полусумма квартилей tq. Замечание 1.1. Понятие робастности оценок понимается более широко, чем об этом сказано в определении 1.5, так как нарушения в составлении выборки могут происходить не только по причине появления выбросов. Например, вы- борка может быть неоднородной вследствие примешивания элементов из дру- 25
гой генеральной совокупности. Мы ограничимся только случаем появления вы- бросов. Определение 1.6. Оценка 0* числовой характеристики или параметра О распределения называется эффективной в рассматриваемом классе Т состоятельных и несмещенных оценок, если она имеет в этом классе ми- нимальную дисперсию: D0*=minD0„. (1.5) т Замечание 1.2. Для рассматриваемого распределения и рассматриваемого класса оценок Т эффективная оценка может не существовать, а удается лишь определить нижнюю грань дисперсий оценок inf О0Л. Тогда возникает задача т построения оценок, дисперсии которых будут возможно ближе к этой грани. Определение 1.7. Из двух оценок 01л и 02л одной и той же числовой ха- рактеристики или параметра 0 распределения в классе Т состоятельных и несмещенных оценок более эффективной считается та, дисперсия кото- рой меньше. Если имеет место неравенство D0lw<D02n, (1.6) то 0^ - более эффективная оценка 0, чем 02л. Отношение Dei„/D02„ (1.7) называется относительной эффективностью оценки 02л относительно оценки 01п, а отношение mfD0n/D02„ = eff02n (1.8) называется эффективностью оценки 02л в рассматриваемом классе оценок Т. Пример 1.2. Для нормального распределения N(m,o) оценкой математиче- ского ожидания т могут служить выборочное среднее х и выборочная медиа- на med в силу симметричности нормального распределения. / л 2 Доказано, что D х = о2/п (для любого п) и Dmed * у — (нри больших п). Следовательно, при больших п относительной эффективностью выборочной медианы относительно х будет Dx/Dmed = 2/л * 0.64. Определение 1.8. Оценка 0Л параметра 0 распределения называется асимптотически эффективной в классе Т состоятельных и несме- щенных оценок, если существует предел limeff0„=l. (1.9) Л—>00 26
Асимптотически эффективные оценки дает метод максимального правдопо- добия получения оценок, который рассматривается далее в §5. В более общем случае, если отказаться от требования несмещенности оцен- ки 0Л параметра 0, то в качестве меры разброса значений 0Л относительно 0 вместо дисперсии D0n обычно выбирается величина среднего квадрата ошиб- ки, то есть второй момент вида м£(0л -0)2j. Тогда оценка 0* называется эф- фективной в классе Т состоятельных оценок, если выполняется равенство м^(0’-е)2]=тгм[(ёя-е)2]. (1.Ю) Отношение efffk = infM[(0„ -е)21/м[(ё1п-0)21. (1.11) Т L J/ I J называется эффективностью оценки 01л в классе Т состоятельных оценок. §2. Свойства выборочного среднего и выборочной дисперсии 1°. Свойства х. Свойство 1. Выборочное среднее х является состоятельной оценкой гене- рального математического ожидания ?и = МАг, что следует из предельной тео- ремы Чебышёва: Свойство 2. х является несмещенной оценкой m: Мх = ш. (2.2) = ^иМ% = т, так как выборочные элементы х2 рассматриваются как экземпляры изучаемой случайной величины X. По- этому Мх/ =МА" = /и (/ = 1,...,л). 4 Свойство 3. х не является робастной оценкой m, так как в своем составе имеет крайние элементы вариационного ряда. Свойство 4. _2 D*=V’ (2.3) ► Dx=D iy* = — .◄ J « п п Этот результат означает, что с ростом п рассеяние х уменьшается обратно пропорционально п. 27
2°. Аналогично доказывается, что выборочный начальный момент а, поряд- ка I также является состоятельной и несмещенной оценкой генерального на- чального момента а/ =МАг/ порядка I: Ма/=а/. (2.5) 3°. Свойства выборочной дисперсии s2. Свойство 1. Выборочная дисперсия является состоятельной оценкой гене- ральной дисперсии: s2—5->g2=DX. (2.6) Л—>00 ► s2 = а2 ~~т2 = так как на предел по вероятности рас- пространяются известные теоремы о пределе суммы и произведения, известные из курса математического анализа, и а2—х—вследствие формул Л—>00 л—>00 1 п (2.1) и (2.4). ◄ Свойство 2. Вспомогательная формула для выборочной дисперсии •52 = - я»)2 -(х- т)2. /=1 - х)2 = ^[(х, - т)2 - (х - от)2] = /=1 = nS[^' ~т^-m) + (x-m)2j = /=1 = ±^Xi-m)2-l(x-m) + ±п(х-т)2 = (2.7) л = п^Х' ~т)2 ~2^Х~т>)2 + “т>>2 = £<Х' ~т>>2 ~ " т)2 • < /=1 /=1 Свойство 3. Выборочная дисперсия s2 - смещенная оценка генеральной 2 G2 дисперсии о с отрицательным смещением ——: М?=су2-^. (2.8) ► Применим формулу (2.7). 28
Ms2 =-£M(x, -m)2 -M(x -m)2 =-nM(X-MJf)2 -Dx = /=1 = DX-Dx = g2-—. ◄ n Вследствие смещенности выборочной дисперсии возникает задача создания несмещенной оценки дисперсии. Так как Ms2 =^^-ст2, то смещение можно устранить, умножив 52 на мно- п житель----г. м-1 Образуем э 1 п 5 -х)2. (2.9) /=1 5* является несмещенной оценкой ст2. Действительно, Ms*2 =-"_.«^ст2 = о2. м-1 м-1 п В заключение заметим, что s2 не является робастной оценкой а2. §3. Свойства оценок для т и с в случае нормального распределения 1°. Свойства оценок математического ожидания т. Рассматриваем 4 выборочных характеристики х, med, tg, tR. Так как нор- мальное распределение - симметричное, то эти выборочные характе- ристики х, med, tg, tR являются оценками т. Действительно, выборочная ме- диана med является оценкой генеральной медианы Me, полусумма выбороч- ных квартилей является оценкой полусуммы генеральных квартилей 9g, а так как т = Me = 0g, то все они оценивают т. Оценка tR =j(xmin + xmax) в силу симметричности конструкции также оценивает т [11, с. 412]. Все эти оценки состоятельные и несмещенные. tq и med являются робастными оценками, х и tR - нет. Относительная эффективность этих оценок различна. При п > 4 имеют ме- сто неравенства Dx <Dtq <Dmed<DtR. (3.1) Доказано, что для нормального распределения при известном о выборочное среднее х является эффективной оценкой параметра т [4]. 29
*2°. Свойства оценок среднего квадратического отклонения с. J1 п -^(ху -х)2 , П /=1 1 п d = —|х/ - med|, q = z3/4 - - интерквартильная широта, R = xmax - xmm - П i=l размах. Все они характеризуют рассеяние, но являются смещенными оценками а, выражаются через а, следовательно, после нормирования, означающего де- ление на соответствующий нормирующий коэффициент ks(ri) = Ms/c, kd(n) = Md/a9 kg(n) = Mq/a, kR(n) = MR/v эти характеристики станут несмещенными оценками о. Таблица нормирующих коэффициентов приведена в приложении (таблица VII). Образуем несмещенные оценки а: Нормированное среднее квадратическое отклонение У = s/ks(n); ks(n) = • Г (£)/г(^А). (3.2) Нормированное среднее абсолютное отклонение d* =dlWn). (3.3) Нормированная интерквартильная широта (3.4) Нормированный размах Я* = Л/Лл(и). (3.5) Все эти оценки (3.2) - (3.5) - состоятельные [4]. q является робастной оцен- кой, остальные - нет. Относительная эффективность этих оценок различна, так как различны их дисперсии. При л > 6 имеют место следующие неравенства [4]: ОУ <Dt/* <D7?* <Dq\ (3.6) §4. Метод моментов получения оценок параметров генерального распределения Пусть известен вид генерального закона распределения, а параметры 01, в2,в него входящие, неизвестны. Возникает задача их статистиче- ского оценивания. Метод моментов Пирсона (К. Пирсон - англ, математик, ,1857-1936) - один из первых методов получения таких оценок, основанный на сравнении выборочных и генеральных моментов распределения. Идейно он очень прост. Предполагается, что имеется выборка (Х),...,хя) из исследуемой генераль- ной совокупности. На ее основе вычисляются т начальных моментов 30
а^,...,ат. Так как вид генерального закона известен, то, следовательно, можно найти т первых начальных генеральных моментов aj(013...,0^), ... , aw(8i,...,0m), которые выражаются через неизвестные параметры. Выбороч- ные и генеральные моменты одинакового порядка приравниваются: [a1(01,...,em)=a1, ....................................... (4-1) > ®/п) = ат- Получили систему т уравнений с неизвестными величинами 0],...,0т. Ре- шение (01,...,вда) этой системы дает оценки 0,=0/(х1,...,лл) неизвестных па- раметров 0, (z = 1,..., т ). При выполнении достаточно общих условий получен- ные оценки состоятельные: ё;—0 = 1...........т). (4.2) Среднее значение такой оценки отличается от истинного значения парамет- ра на величину порядка 1/и [11]. В общем случае они - смещенные и не явля- ются эффективными и асимптотически эффективными. Замечание 4.1. Вместо начальных моментов можно использовать централь- ные. Пример 4.1. ► Для показательного закона с плотностью ч f х<°; х>0 1 п известно, что cq =М% = 1/Х. Так как = х = —^xz, то система (4.1) в этом 1=1 случае сводится к одному уравнению 1/Х = х, из которого находим £ = 1/х.4 (4.3) Пример 4.2. ► Для нормального закона jV(/h,cj) известно, что оц =MJf = ти; ц2 =М^(АГ-/Иу)2| = с2. Для этого случая удобно взять первый начальный и второй центральный моменты. Получаем систему из двух уравнений- fa]=tzb ри = х, tp2=zw2 |g2 = 5^. Находим оценки двух параметров по методу моментов: /и = х; п = 5. 4 (4.4) Пример 4.3. Для равномерного закона, определяемого плотностью 0, неизвестными параметрами являются a, b. 31
► Известно, что оц = тх = {а + £)/2; ц2 = &х ~ ”а)2/12• Дл* нахождения оценок а, b составляем систему уравнений ai=ab ((a + b)/2 = x, р + а = 2х, Н2 = т2 [(a + b)2/}2 = s1 |д-а = 2л/3-5, из которой находим а = х - 5д/3; b = х + sj3. < (4.5) §5, Метод максимального правдоподобия получения оценок параметров генерального распределения Метод максимального правдоподобия, созданный Фишером (Р. Фишер - англ, математик, 1890-1962), является достаточно универсальным и плодотвор- ным методом оценивания. Пусть имеется выборка (*1,...,хл) из генеральной совокупности с плотно- стью вероятности f (х,9), содержащей один неизвестный параметр 0. Выборка является п -мерной случайной величиной, компоненты х, которой взаимно независимы, одинаково распределены с плотностью /(х,0). Тогда плотность распределения л-мерной случайной величины (х1?х2,... ,хЛ) будет равна Цх1,х2,...,хл;9) = /(х1,9)/(х2,9).../(хл,9). (5.1) Эта функция называется функцией правдоподобия для рассматриваемой выбор- ки. Будем считать 9 переменной неслучайной величиной, а элементы Xj, х2,..., хп выборки фиксированными, так как выборка фактически осущест- влена. Если придавать 0 различные значения, то естественно ожидать, что плотность L(x1,x2,...,xn;9) примет максимальное значение в случае, когда 0 окажется равным истинному его значению, так как при других значениях 0 ме- нее вероятно за один раз получить именно данную выборку. Эти интуитивные соображения приводят к тому, что за оценку 0 берут та- кое значение 9, при котором функция правдоподобия достигает максимума. Технически (так как L состоит из произведений) удобнее искать max In L (точка 9, дающая максимум InL, дает и максимум L). Итак, для отыскания 9 имеем уравнение ^ = °, (5.2) которое называется уравнением правдоподобия, а его решение 0 = 0(хьх2,...,хл), зависящее от элементов выборки, оценкой максимального правдоподобия. 32
При выполнении достаточно общих условий оценки максимального правдо- подобия являются состоятельными и асимптотически эффективными. В общем случае они являются смещенными [11, с. 544]. В случае, когда генеральная плотность вероятности /(x,Oj,... ,Gk) содер- жит к параметров, вместо одного уравнения правдоподобия решается система уравнений ^^ = 0, ^ = 0. (5.3) Пример 5,1, Рассмотрим показательный закон с плотностью ,z 14_f о, х<0; х^О. ► Функция правдоподобия при х > 0 имеет вид L(xi,...,xWJX) = X',e”Xxl...e“Ax" = Хлехр| -Х^х, |; V >=1 ) InL = rtlnX-xVx/; ^^ = г“Ух/ =0. 1 ЭХ X 1 /=1 /=1 1 lv Отсюда ^ = “2^х/ = х; /=1 Х = 1/х. (5.4) Оценки максимального правдоподобия и метода моментов (4.3) параметра по- казательного закона совпадают. 4 Пример 5,2, Для нормального закона N(m,o) плотность вероятности имеет вид (х~т)2 f(x,m,c2) =—. <5уГ2п ► Удобно считать, что здесь два параметра тио2. Следовательно, функ- ция правдоподобия равна / \n <X1~W)2 (х„-т)2 L = —М е 2с? ’ 2<? • vav27t/ Тогда In L = -|1п(2л) - jln(a2) - “т)2 2а /=1 Далее, дифференцируя InL по т и о2, получаем систему уравнений правдопо- добия 33
din L _ 1 у dm ” rr2 31n£_ n , 1 x2_n n Из первого уравнения находим ^xz - пт = 0. Отсюда /=1 1 " m = ~^xz=x. (5.6) /=1 Из второго уравнения: (с2) = ^Ц-^)2=^. (5-7) f=l Эти оценки мы получили ранее методом моментов. 4 Пример 5.3, Для равномерного закона плотность вероятности равна f{x,a,b) = ~ а)’ Х (5.8) 7 v [ 0, х ё[а,о]. ► Функция правдоподобия для х e[a,Z>] имеет вид L =---------<,----J, (5.9) (Р - d) (xmax ~ Xjnin) так как b - а > хтах - хт1П. Из неравенства (5.9) следует, что функция L прини- мает наибольшее значение при b = хтах и а = xmin. Таким образом, оценками максимального правдоподобия в случае равномерного закона являются а = -*min > ~ -*шах • (5 • Ю) Они отличаются от оценок (4.5) метода моментов. 4 Замечание 5.1. В случае дискретного закона распределения Р(Х = xz) = p(xz,0) функция правдоподобия определяется формулой £ = Пр(хь0). (5.11) /=1 Пример 5.4. Найти оценку максимального правдоподобия параметра а за- кона Пуассона Р(Х = к) = аке~а/к\. 34
г г Ух, п ► ^^“’•••74^=^ Х|- *”• /=1 In L = -па + In а • | £х, | - £1п(х,!); = -п + ^£х, =0; \/=1 ) /=1 /=1 1 п 1 л |Ёх'=и; 4 /=1 /=1 Замечание 5.2. В §4, 5 рассмотрены два наиболее употребительных на прак- тике метода получения оценок параметров закона распределения - методы мо- ментов и максимума правдоподобия. Существуют и другие методы, освещен- ные в литературе. Назовем еще методы квантилей, минимума хи-квадрат, наи- меньших квадратов, наименьших абсолютных отклонений, минимакса [10,11]. Контрольные вопросы и задачи для самопроверки к главе 2 1. Дайте определение точечной статистической оценки. 2. Что такое статистика? 3. Какая оценка называется состоятельной, несмещенной, робастной, эф- фективной? 4. Какая из двух оценок считается более эффективной? 5. Что такое относительная эффективность, эффективность, асимптотиче- ская эффективность оценки? 6. Какими свойствами обладает выборочное среднее х ? 7. Какие свойства имеет выборочная дисперсия s21 8. Укажите статистические оценки математического ожидания т для случая нормального распределения. 9. Укажите статистические оценки среднего квадратического отклонения о для случая нормального распределения. 10. Опишите метод моментов получения оценок. 11. Опишите метод максимального правдоподобия получения оценок. 12. Получите по методу моментов оценки параметров гамма-распределения, заданного плотностью 0, х < 0; •/х(х) = Ц^-х°-1е-*х> х>0. [Г(а) Используйте справочные формулы о первом начальном и втором центральном моментах гамма-распределения: тх =т = а[Ъ; = о2 = a/b2 . Гамма- распределение применяется в теории надежности для описания времени безот- казной работы приборов. 35
13. Распределение Парето применяется для описания величины доходов на- селения выше фиксированного уровня х0. Плотность распределения Парето за- дается формулой z* . f 0, , /х(х) = ] а -а-1 (<*>!)• [<ХХ0 X , X JCq Вычислите математическое ожидание т и с его помощью по методу моментов найдите оценку d параметра а (х0 - фиксировано). 14. Найдите оценку параметра а распределения Парето из задачи 13 по ме- тоду максимума правдоподобия (х0 - фиксировано; а > 1). 36
ГЛАВА 3. ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ ЧИСЛОВЫХ ХАРАКТЕРИСТИК И ПАРАМЕТРОВ РАСПРЕДЕЛЕНИЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ Точечные оценки, рассмотренные в предыдущей главе, хотя и являются численными, не дают всей желательной информации об оцениваемых генераль- ных характеристиках. Если, например, х = 10, то совершенно неясно, насколько точно число 10 оценивает неизвестное математическое ожидание т. Мы лишь знаем некото- рые качественные свойства х, такие, как состоятельность и несмещенность ко- торые дают уверенность, что х - хорошая оценка по сравнению с другими воз- можными. А следовало бы связать точечную оценку с объемом выборки, выра- ботать показатели ее точности и надежности. Эти вопросы решаются в теории интервального оценивания. §1 . Доверительный интервал. Точность и надежность оценки Пусть 0 - неизвестная числовая характеристика или параметр генерального распределения. Определение 1.1. Если выполняется соотношение Р(01<е<е2)=у, (i.i) то интервал (61,62) называется доверительным интервалом, кото- рый накрывает неизвестную генеральную характеристику 0 с довери- тельной вероятностью у. Здесь 01 = 6j(xj,..., хп ), 02 = ^2(Х1 > • • • > хп) “ известные функции выбороч- ных элементов *i,..., хп, т. е. статистики. Они вычисляются по выборке. Число у называется также надежностью, с которой доверительный интер- вал накрывает 0. Число а = 1 - у называется уровнем значимости. Статистики 01 и 02 в соотношении (1.1) являются точечными оценками 0. Одна дает левую, а другая - правую границы, между которыми содержится 0 с надежностью у. Половину длины доверительного интервала e = (02-0j)/2 (1.2) назовем точностью интервального оценивания. Пусть теперь известна одна точечная оценка 0 генеральной числовой харак- теристики или параметра распределения 0. 37
Определение 1.2. Если выполняется соотношение р(|е-ё|<е)=у, (1.3) то число е называется точностью, а число у - надежностью оценки б генеральной числовой характеристики 0. Здесь 0 = 0(хь..., хп) - статистика, т. е. функция выборочных элементов. Если известны 8 и у, то легко построить доверительный интервал для 0 с помощью ее точечной оценки 0. Действительно, |0 —6|<е <=> ~8<0~0<8 <=> 0—8<0<0+8. Тогда 0! =0-е; 02 =0 + 8, и мы от соотношения (1.3) приходим к соотноше- нию (1.1). Как находить 8, у, строить доверительный интервал (0Ь02) в конкретных случаях будет рассмотрено в следующих параграфах. Мы эти вопросы рассмот- рим для практически наиболее важных случаев оценивания: вероятности собы- тия р, математического ожидания т и среднего квадратического отклонения а. §2 . Точность и надежность оценивания вероятности события с помощью его относительной частоты при большом объеме выборки Пусть р - вероятность события А, а р* = ~ - его относительная частота. По теореме Муавра - Лапласа теории вероятностей при больших п справедливо приближенное равенство рИ<Хф(х), (2.1) I Jnpq J где Ф(х) = 4- Ь',1/2<Л (2.2) - функция Лапласа. Из формулы (2.1) находим Р| К < X | = Р| -х < < X | ®Ф(х)-Ф(-х) = I jnpq ) k Jnpq ) = Ф(х) - [1 - Ф(х)] = 2Ф(х) -1. Отсюда 38
•^«2Ф(х)-1. (2.3) Р р-Н V п Из формулы (2.3) видим, что в наших построениях р отличается от р* =\ь/п на величину порядка X/Jn . Так как р неизвестно, то его заменяем на р*, a q соответственно на #* = 1 - /Л Это означает, что под корнем в формуле (2.3) мы пренебрегаем малыми слагаемыми порядка х/{пу[п^. Получаем форму- лу Р Р )Л «2Ф(х)-1. Полагаем /d-Р) ^с. п ’ 2Ф(х)-1 = у. Отсюда Ф(х) = (1 + у)/2. Решая уравнение (2.5), находим его корень И(1+у)/2 = Ф”1((1 + у)/2) - квантиль нормального распределения N(0,l) порядка (1 + у)/2 . Тогда F_w jpU~P*) e~w(i+r)/2V п • (2.4) (2.5) (2.6) (2.7) Формулы (2.5), (2.7) связывают три величины е, у, п. Задавая две из них, можно найти третью. Тем самым будет построен доверительный интервал для неизвестной вероятности р: - е <р< р* + е) = у. (2.8) Пример 2,1, Заданы п = 1600 и у = 0.95. Требуется найти е и построить до- верительный интервал для вероятности р с помощью найденной по выборке относительной частоты р* = 0.2. ► Решая уравнение (2.5) Ф(х) = (1 + у)/2 = (1 + 0.95)/2 = 0.975 с помощью таблицы квантилей нормального распределения, получим ^i+y)/2 ~ "о,975 = 1-96. Далее по формуле (2.7) находим Е = w0.975^^^ = w0.975 = 0 01w0.975 = 0 01 ’196 * °°2 . Получаем доверительный интервал для неизвестной вероятности р : Р(0.18<р< 022) = 0.95. ◄ (2.9) 39
Замечание 2.1. Решенной задаче 2.1 может быть придано, например, сле- дующее реальное содержание. В результате проведенного социологического опроса л = 1600 человек рейтинг кандидата N в президенты составляет 20%. Тогда доверительный интервал (2.9) позволяет утверждать, что с надежностью у = 0.95 действительный рейтинг кандидата N заключен в пределах 18%-20%. Этот результат можно выразить и иначе: рейтинг N равен 20% ± 2% с 5-процентной ошибкой. Замечание 2.2. Вероятность р, оцениваемая с помощью доверительного ин- тервала (2.8) и точечной оценки р*, является параметром биномиального зако- на распределения случайной величины X : Р(Х = к) = С^рк ()-р)т~к, к=0,19...9т. §3. Доверительный интервал для математического ожидания т нормальной генеральной совокупности Известно [11], что для выборки объема п из нормальной генеральной сово- купности случайная величина л/м-1 -распределена по закону Стьюдента с л-l степенями свободы. (О законе распределения Стьюдента см. в §5, гл. 4. Таблица квантилей распределения Стьюдента - таблица III приложения.) Здесь 5 - выборочное среднее квадратическое отклонение. Так как плотность /„^(х) этого распределения - функция четная, то получаем z ______ к , ___ \ х р(-х <л/п“1 —у“< xj = р(-х < Vn -1 < xj = j /„_!(/) = -х х х = 2J )dt = 2 f -1 = 2F„_,(x) -1. 0 -oo Здесь Fn^(x) - функция распределения закона Стьюдента с п -1 степенями свободы. Отсюда находим Р|х—JL_<rn<x + -7^-=)=2F__ 1(х)-1. (3.1) \ д/Л-1 VM-1/ Полагаем 2Fw-1(x) -1 = у . Тогда F„4(x) = (l + y)/2. (3.2) По таблице квантилей распределения Стьюдента с п -1 степенями свободы на- ходим квантиль порядка (1 + у)/2 /(1+т)/2(«-1) = ЛГ-1((1 + У)/2) (3.3) и получаем искомый доверительный интервал для т: 40
of- 5,(1+у)/2(л-0 _ Л(1+у)/2(л~1)>) Р х —i-----------< т < х + —— --- = у к ТгйТ <П-\ ) (3-4) Пример 3.1. По выборке объема л = 20 из нормальной генеральной сово- купности найдены х = 5.00 и 5 = 0.25. Требуется построить доверительный ин- тервал для тп при у = 0.95. Число т можно интерпретировать как среднее зна- чение контролируемого параметра производимого продукта. Контроль прово- дится по результатам 20 измерений. ► С помощью таблицы квантилей распределения Стьюдента решаем урав- нение (3.2): F19(x) = (l + 0.95)/2 = 0.975. Получаем Г0975(19) = 2.09. Формула (3.4) дает: 5.00-°2-5Д09.<т<5.00 + 4.88<т<5.12. V19 V19 Итак, Р(4.88 < т < 5.12) = 0.95. 4 *§4. Доверительный интервал для среднего квадратического отклонения и нормальной генеральной совокупности Известно [11], что для выборки объема п из нормальной генеральной сово- купности случайная величина ns2/ст2 распределена по закону х2 (хи-квадрат) с п -1 степенями свободы. (О распределении хи-квадрат см. в §7, гл. 4). Зада- димся доверительной вероятностью у и по таблице IV приложения найдем квантили X(i-y)/2(n“I) и Х(1+у)/2(лраспределения хи-квадрат с п-1 сте- пенями свободы соответственно порядков (1-у)/2 и (1 + у)/2. Это значит, что v 2 для случайной величины х имеют место равенства: р(х2 <Х(1-т)/2(п-!)) = 0 -У)/2; р(х2 < X(1+Y)/2(л -1)) = (1 + Х)/2 • Тогда p(xg-t)/2(«-1) < х2 <Х(1+7)/2(л-1)) = р(х2 <X(|+7)/2(«-1))-P(x2 <X(i-7)/2(«-l)) = Отсюда pf X?1-y)/2(«-1)<:?T <Х^7)/2(л-1)| 4г1- , >-4>" 2 \ n = ' ° ' \.Xo-Y)/2(n ~l) ™ X(i+7)/2(” “ W Окончательно 41
s4n sjn I------------ < CT < I----------- <VX(l+r)/2("-1) VX(l-r)/2 (»-!)> (4.1) что и дает доверительный интервал для генерального среднего квадратического отклонения ст с доверительной вероятностью у . Замечание 4.1. Любой доверительный интервал можно построить неодно- значно. Всегда применяется какой-нибудь дополнительный принцип его по- строения. При построении доверительного интервала (4.1) исходили из принци- па, что вероятности попадания х2 в промежутки левее доверительного интер- вала и правее его равны между собой (рис. 4.1). (1-Г)/2^"ч/^ XU-T)/2(«-1) Рис. 4.1. Положение доверительного интервала для пу2/ст2 на числовой оси Пример 4.1. Сделано л = 20 измерений контролируемого параметра произ- водимого продукта. По полученной выборке найдено значение выборочного среднего квадратического отклонения 5 = 0.25. Требуется построить довери- тельный интервал для ст с надежностью у = 0.95. (ст характеризует разброс зна- чений контролируемого параметра). ► По таблице распределения хи-квадрат находим Х(1-у)/2(и - » = *0.025(19) = 8.91; %^+у)/2(л -1) = Хо.975(19) = 32.9. Применяя формулу (4.1), получаем 025-719 0.25-719 V319 л/851 <=> 0.19 <ст <0.36. Итак, Р(0.19<ст< 0.36) = 0.95. ◄ §5. Доверительный интервал для математического ожидания т любой генеральной совокупности при большом объеме выборки 1 п Выборочное среднее х= — У\ является суммой большого числа незави- 7 = 1 симых одинаково распределенных слагаемых. В силу центральной предельной теоремы при большом объеме выборки (л >30) случайная величина 42
* 7= Ул —— распределена приблизительно нормально #(0,1). Пусть yDx Ф(х) - функция Лапласа (2.2). Тогда имеем р(-х <*Jn* < х^ = р(-х х^ « Ф(х) -Ф(—х) = = Ф(х) - [1 - Ф(х)] = 2Ф(х) -1. Отсюда pfx-°* <т<х+^£)«2Ф(х)-1. (5.1) \ Ул у1п> Полагаем 2Ф(х) -1 = у. Тогда Ф(х) = (1 + у)/2. (5.2) Пусть Н(1+у)/2 - квантиль нормального распределения #(0,1) порядка (1 + у)/2, т. е. решение уравнения (5.2): «(1+т)/2=Ф-‘((1 + Г)/2). (5.3) В соотношении (5.1) о заменяем на 5, так как величина и неизвестна. Такая замена означает, что в этом соотношении под знаком вероятности мы пренебре- гаем слагаемыми порядка 1/л, так как с той же надежностью о отличается от 5 на величину порядка 1/Ул (см. формулу (6.9) в следующем §6). В результате мы получаем доверительный интервал для т с надежностью у : of_ s'u(l+i)/2 _ лч P x-----т=- < m < x + —' I = у. (5.4) \ >ln *Jn ) Пример 5.1. По выборке с объемом л = 100 вычислены выборочные харак- теристики х = 0.13; 5 = 1.05. Требуется построить доверительный интервал для т с надежностью у = 0.95. ► По таблице II приложения для квантилей нормального распределения #(0,1) находим квантиль И(1+У)/2 = “0.975 = Т96. Тогда по формуле (5.4) полу- чаем A1Q 1.05 1.96 А1а , 1.05 1.96 _ АА« А00 0.13--------<тл<0.13 + —..... <=> -0.07 <т<0.33. УТоо Ухоо Таким образом, Р(-0.07 <т <033) = 0.95. Этот результат можно записать также в виде: т = 0.13 ±02 с надежностью 0.95. ◄ 43
*§6. Доверительный интервал для среднего квадратического отклонения о любой генеральной совокупности при большом объеме выборки 1 п Выборочная дисперсия $2 = —^Г(х; ~*)2 является суммой большого числа /=1 практически независимых одинаково распределенных слагаемых (имеется одна п связь: 2^(*/-*) = 0). В силу центральной предельной теоремы случайная ве- личина (.у2 ~М$2)Д/о$2 распределена приблизительно нормально N(0,1). Пусть Ф(х) - функция Лапласа (2.2). Тогда при больших п получаем q 52-Ms2 Р -Х< ----7^- I VdT2 Положим 2Ф(х) -1 - у . Отсюда Ф(х) = (1 + у)/2. Пусть квантиль мального распределения 7/(0,1) порядка (1 + у )/2 : «(1+Т)/2 =Ф’’((1 + У)/2). « Ф (х) - Ф(-х) = Ф(х) - [1 - Ф(х)] = 2Ф (х) -1. (6.1) нор- (6.2) Известно, что М? = а2 п (63) (гл. 2, (2.8)); m$-s п п (64) [11, с. 382]. Здесь ~ бесконечно малая высшего порядка, чем ц4 =м{(Х-/Их)4] - 4-й генеральный центральный момент. Он заменен на вы- борочный 4-й центральный момент m4=^X(Xi~^4 ’ (6-5) 1=1 а о заменено на s. Это означает, что в формуле (6.4) в среднем мы пренебрега- ем бесконечно малыми порядка выше, чем ~ [11, с. 383]. Вместо ти4 удобно использовать безразмерную выборочную числовую характеристику £=^--3, (6.6) называемую выборочным эксцессом. Он является оценкой генерального эксцес- са 44
Я = ^-3. (6.7) В результате сделанных приближений находим D.v2 + А^ + 2). «I/ J «^54 J J » Итак, Jd? = 4=Je+2. (6.8) у!п Преобразуем неравенства под знаком вероятности в формуле (6.1). учитывая, ЧТО Х = W(1+y)/2’ s2 - о2 а2 - s2 —х < —<===="<X <=> -х< —г===-<х <=> То? То? s2 - x-^Ds2 < ст2 < 52 +x^Ds2 <=> ?fl-4-V£ + 2|<G2<52fl + 4’V£ + 2>] <=> V •Jn J \ vn / z ___xl/2 Z ____xl/2 о s 1-4=v£ + 2 <ct<T 1 + ^V£ + 2 . \ yjn J \ *jn / Разлагая функции в биномиальный ряд и оставляя первые два члена, получим окончательно PG6 " 2^7И(1+г)/2^ + 2) < ст < + ^«(1+г)/2^ + 2^ = У • (6.9) Это и есть доверительный интервал для о с доверительной вероятностью у . Пример 6.1. По выборке с объемом л = 100 вычислены 5 = 1.05; /и4=2.86, Е = -0.62. Требуется построить доверительный интервал для а с надежностью у = 0.95. ► По таблице II приложения находим квантиль ^i+y)/2 = Ц),975 = 1 Н0Р“ мальногораспределения N(0,l) порядка 0.975. Применяем формулу (6.9). 1.05(1 -^1-96>/2 -O.62) <ст< 1.05(1 + 1.96V2-0.62j <» 0.93<ст<1.21. Итак, Р(0.93 < ст < 1.21) = 0.95. ◄ 45
Контрольные вопросы и задачи для самопроверки к главе 3 1. Дайте определение доверительного интервала. 2. Что такое точность и надежность оценки? 3. Как определяется точность и надежность оценки вероятности события по относительной частоте? 4. Постройте доверительный интервал для математического ожидания т нормальной генеральной совокупности. 5. Постройте доверительный интервал для математического ожидания т любой генеральной совокупности при большом объеме выборки. 6. Найдите квантили распределения Стьюдента (по таблице III) порядка 0.9 и 0.99 с 10 степенями свободы. 7. Найдите точность оценки х = 10 при выборке объема п = 400 с надёжно- стью у = 0.95, если s = 2. 46
ГЛАВА 4. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ При проведении статистических исследований возникают различные вопро- сы о свойствах генерального распределения и выборки. Для ответов на эти во- просы выдвигаются гипотезы, требующие статистической проверки на основе полученной выборки. Эти гипотезы могут быть выдвинуты непосредственно практикой, а могут возникнуть как дальнейший этап статистических исследований после разведоч- ного анализа, обеспеченного описательной статистикой. §1 . Виды статистических гипотез Приведем примеры наиболее важных в практическом отношении гипотез. 1. Гипотеза о равенстве математических ожиданий двух генеральных сово- купностей. Она возникает, когда нужно проверить, одинаковы ли средние значения ос- новных параметров изделий, производимых двумя станками, участками, цеха- ми. 2. Гипотеза о равенстве дисперсий нескольких генеральных совокупностей. Например, следует сравнить точность двух измерительных приборов, раз- брос значений контролируемого параметра при массовом производстве продук- та на двух участках. 3. Гипотеза о законе распределения генеральной совокупности. Эта гипотеза может возникнуть на основе теоретических соображений, имеющегося опыта исследований, на основе изучения гистограммы выборки. 4. Гипотеза об однородности выборки, об отсутствии в ней выбросов. Определение 1.1. Статистической гипотезой называется предпо- ложение о виде или свойствах генерального или выборочного распределений, которое можно проверить статистическими методами на основе имею- щейся выборки. Определение 1.2. Статистическая гипотеза о генеральном распределе- нии называется простой, если она его полностью определяет. В против- ном случае гипотеза называется сложной. Как правило, гипотезы о генеральном распределении - сложные. 47
§2 . Критерий значимости. Общая схема проверки статистических гипотез Для проверки любой статистической гипотезы выбирается какой-либо кри- терий, называемый критерием значимости. Определение 2.1. Критерием значимости называется правило про- верки статистической гипотезы. Выдвинутую гипотезу проверяют на основе имеющийся выборки. Для этого конструируется функция выборочных элементов, называемая статистикой, по величине которой судят о справедливости гипотезы. Определение 2.2. Статистикой критерия значимости называ- ется статистика, по значениям которой судят о справедливости стати- стической гипотезы. Часто ее для простоты тоже называют критерием. Например, для проверки гипотезы о том, что вероятность интересующего нас события А равна р, можно взять статистику Z = (2.1) являющуюся отклонением относительной частоты ц/л от вероятности события Л. Если гипотеза верна, то при увеличении п относительная частота будет приближаться к р по вероятности, а следовательно, Z будет стремиться к ну- лю. При большом п маловероятно, что Z будет сильно отличаться от нуля. В этом примере и в общем случае следует знать закон распределения статистики критерия, чтобы судить, какие ее значения маловероятны, а какие - нет. В основе большинства критериев значимости лежит следующий простой принцип: если сделана гипотеза о том, что событие имеет очень малую вероят- ность, но в результате одного лишь испытания это событие произошло, то сле- дует подвергнуть сомнению справедливость выдвинутой гипотезы. События с малой вероятностью а, которой в данной ситуации можно пре- небречь, будем называть практически невозможными, а с вероятностью 1 - а, близкой к единице, - практически достоверными. Вероятности а и 1 - а абстрактно выбрать нельзя. Их значения диктуются реальной ситуацией. Например, если а - вероятность нераскрытая парашюта или разрушения дорогостоящей плотины паводком, то а должно быть десятич- ной дробью с большим числом нулей после запятой. Это число обычно стан- дартизируется мировой практикой. Определение 2.3. Уровнем значимости а называется столь малая вероятность, что событие с такой вероятностью является практически невозможным. Обычно проверяемая гипотеза обозначается Hq , а ей альтернативная - . Например, если вероятность брака (событие А) равна р, а после усовершенст- 48
вования технологического процесса ожидается, что она будет меньше, то в ка- честве Hq можно взять гипотезу: Р(Л) = р,ав качестве Р(Л)<р. Если сформулированы гипотезы Hq и и выбрана статистика критерия Z, то следует указать еще область Vk маловероятных значений Z, попадание в ко- торую статистики Z заставляет нас отвергнуть Hq и принять Н\. Определение 2.4. Критической областью критерия значимости на- зывается подобласть Vk области V значений статистики Z, вероят- ность попадания в которую для этой статистики при условии истинно- сти проверяемой гипотезы HQ равна уровню значимости а: P(Ze^//70)=a. (2.2) Дополнительная область V \ Vk называется областью допустимых значений статистики критерия. Если Z е(И\К*), то гипотеза Hq при заданном уровне значимости а принимается. Обычно говорят более осторожно: Hq не противо- речит имеющейся выборке, т. е. гипотеза Hq правдоподобна. Область Vk можно выбрать неоднозначно. Однако, зная закон распределе- ния случайной величины Z, хотя бы асимптотический, т. е. при большом объе- ме выборки п, и, налагая на Vk дополнительные условия, можно критическую область найти однозначно, задав величину a. Общая схема проверки статистических гипотез. 1. Выдвигаются проверяемая и альтернативная гипотезы Hq , Нх. 2. Выбирается уровень значимости а (обычно 0.001; 0.01; 0.05; 0.1). 3. Выбирается статистика Z критерия значимости и соответствующая ей, уровню значимости и проверяемым гипотезам Hq и Нх. критическая область Vk, являющаяся частью области V значений статистики Z. При этом V \ Ук бу- дет областью допустимых значений Z. 4. Вычисляется выборочное значение ZB статистики Z. 5. Формулируется критерий проверки. Если ZB еУк, то гипотеза Hq отвер- гается, так как в результате одного лишь испытания, получения выборки про- изошло практически невозможное событие ZB е Ук с вероятностью a. Если ZB е(И \Ук), то гипотеза Hq принимается. Определение 2.5. Критерием согласия называется критерий значи- мости, применяемый для проверки гипотезы о генеральном законе распре- деления. Заметим, что существуют и другие схемы проверки статистических гипотез. 49
§3 . Ошибки первого и второго рода. Односторонний и двусторонний критерии 1°. Ошибки пёрвого и второго рода. Суждения о принятии или отвержении выдвинутой статистической гипотезы не являются абсолютными, а носят лишь вероятностный характер, т. е. являют- ся правдоподобными. Принимая или отвергая гипотезу, мы можем совершить ошибку. Определение 2.5. Ошибкой первого рода называется ошибка отвер- жения правильной гипотезы. Ошибкой второго рода называется ошиб- ка принятия неверной гипотезы. Вероятность ошибки первого рода равна уровню значимости, т. е. a = P(ZeK*/W0). (3.1) Эта формула означает, что гипотеза отвергается с вероятностью a, хотя эта гипотеза верна. Вероятность ошибки второго рода обозначается р: р=Р(2еИ\Г*/Я1)- (32) Формула (3.2) означает, что принимается гипотеза Яо, с вероятностью Р, хотя верна альтернативная гипотеза . При той схеме проверки гипотез, которая сформулирована в §2, вероятность а задается. Вероятность же р приходится находить. Это удается в редких слу- чаях, так как для этого нужно знать распределение статистики Z для случая альтернативной гипотезы Н\. Принципы назначения уровня значимости а при проверке статистической гипотезы согласуются с опасностью совершения ошибок первого и второго ро- да. Эти принципы вообще находятся вне статистики. Они выдвигаются практи- кой. Для того, чтобы проверяемая гипотеза была достаточно обоснованно от- вергнута, уровень значимости выбирают достаточно малым; в практике: 0.01; 0.001. Напротив, если делается вывод о принятии гипотезы, то уровень значи- мости не должен быть очень малым, ибо в этом случае расширяется область допустимых значений V \ Vk, и даже при неверной гипотезе статистика Z кри- терия может попасть в эту область за счет случайных колебаний. Будет совер- шена ошибка второго рода. Уровень значимости в этом случае можно взять равным 0.05; 0.10. Чем меньше уровень значимости, тем меньше вероятность забраковать верную гипотезу, т. е. совершить ошибку первого рода, но при этом увеличивается вероятность принятия неверной гипотезы, т. е. совершения ошибки второго рода. 50
2°. Односторонний и двусторонний критерии. Пусть известен закон распределения статистики критерия Z (хотя бы асим- птотический). Будем предполагать, что известна плотность вероятности при условии, что справедлива проверяемая гипотеза Яо. График плот- ности изображен на рис. 3.1. Рис. 3.1. Правосторонняя критическая область Пусть для простоты область значений Z - вся вещественная ось. Если критическая область Vk представляет собой промежуток (-оо,я) или (д,+оо), то соответствующий критерий называется односторонним {левосторонним или правосторонним). Если же критическая область является объединением этих полубесконечных промежутков: Vk = (~оо, a) U (/>,+<»), то соответствующий критерий называется двусторонним. Пример 3.1. Проверяется гипотеза Яо о том, что вероятность события Р(А) = р. Ддя статистики критерия (2.1): Z = ^-p целесообразен двусторон- ний критерий, так как большие по модулю отклонения относительной частоты ц/л от вероятности р заставляют отвергнуть гипотезу • §4 . Проверка гипотезы о равенстве дисперсий двух нормальных генеральных совокупностей Напомним, что эта гипотеза возникает при сравнении точности двух одина- ковых измерительных приборов, при сравнении разброса значений параметров продуктов массового производства двух станков, цехов, заводов. Математическая постановка задачи. Изучаются две генеральные совокуп- ности, распределенные нормально. Пусть (*],..., хда) - выборка объема т из 51
первой, а СУ],... ,уп) - выборка объема п из второй генеральной совокупности, полученной независимо от первой. Генеральные математические ожидания не- известны. Проверяется гипотеза Hq о равенстве дисперсий: сг^ = а у против гипотезы Критерий проверки следующий. 1. Вычисляются несмещенные оценки дисперсий 1 т п <41> /=1 /=1 Здесь х и у - выборочные средние, найденные заранее. 2. Статистикой критерия является отношение А = 4 Аг- (4.2) В предположении справедливости гипотезы Яо отношение (4.2) распределено по закону Фишера (F -распределение) с числами степеней свободы к\ = т -1 и k-i = п -1. Закон обозначается символом F(k^ ,к2). Таблица квантилей F -распределения приведена в конце книги в приложе- нии (табл. V). График плотности вероятности F -распределения показан на рис. 4.1. Рис. 4.1. График плотности вероятности F -распределения. Критическая область (-£*!—a(£i,&2), 4-°°) критерия При отношении дисперсий п^/пу = 1 отношение оценок (4.2) должно быть элизким к 1, поэтому гипотеза Но должна отвергаться при слишком малых или слишком больших значениях F. Если же условиться помещать в числитель F - отношения большую дисперсию из двух s% и зу, вычисленных по формуле 4.1), то неприемлемыми для справедливости гипотезы Но будут слишком Зольшие значения F. Таким образом применяемый критерий будет правосто- юнним. Ъ
3. Выбираем уровень значимости а . 4. По таблице находим квантиль распределения Фишера. 5. Вычисляем выборочное значение FB статистики критерия (4.2). 6. Сравниваем FB и Если то гипотеза Яо на выбранном уровне значимости а принимается. В противном случае - отверга- ется. На рис. 4.1 показана критическая область (Д_а(А:1, ^2)>+оо)“ Пример. ?и = 16, п - 20, 1.23; Sy ~ • Требуется проверить гипотезу = аУ ПРИ уровне значимости a = 0.05. ► Находим числа степеней свободы £1=ти-1 = 15; /г2 = и -1 = 19 и вычис- ляем /7В = 1.23/0.97 = 1.27. По таблицей квантилей распределения Фишера нахо- дим квантиль ,Аг2) = ^095(^> ~ 223 • ЕиДим> чт0 FB < 2.23. Гипотеза о равенстве дисперсий принимается. 4 §5. Проверка гипотезы о равенстве математических ожиданий двух генеральных совокупностей Эта гипотеза возникает на производстве при сравнении средних значений контролируемого параметра продукта, выпускаемого двумя станками, цехами, заводами. В экономике сравнивают средний уровень зарплаты, средний объем выпускаемой продукции в двух регионах, отраслях хозяйства. Эта задача может возникнуть в социальной сфере при сравнении социальных факторов, таких, как средний возраст, средний уровень обеспеченности жильем. Имеются две независимые выборки (хьх2,...,хт) и (Уу,У2,---,Уп) из двух генеральных совокупностей. По этим выборкам найдены выборочные средние W л у = ^у>> <51) J=1 1=1 и выборочные дисперсии 1 m 1 п sr =^<У>~уУ2- (5-2) /=1 /=1 1°. Случай нормальных генеральных совокупностей. Предположим, что предварительно была проверена гипотеза о равенстве дисперсий и Gy генеральных совокупностей, из которых были извлечены выборки, и можно утверждать, что Ст^=о|=ст2. (5.3) Проверяется гипотеза Hq о равенстве математических ожиданий т% = ту ге- неральных совокупностей, из которых извлечены выборки. Альтернативной ги- потезой Ну является гипотеза тиу * ту. 53
Критерий проверки. 1. Применяем статистику критерия _____________ г_ х-у lmn(m + n-2) f54) V т + п Доказано [18, с. 241], что статистика Т распределена по закону Стьюдента с к = т + п — 2 степенями свободы. Таблица квантилей распределения Стьюдента приведена в конце книги в приложении (табл. III). Закон Стьюдента обозначает- ся символом Т(к). Аналитическое выражение плотности распределения Стьюдента с к степе- нями свободы дается формулой (5.5): к+\ Лх) = с(1+х2Д)' 2 • (5.5) Константа С, исходя из условия нормировки плотности, задается формулой (5б) Здесь Г(х) - гамма-функция. График плотности вероятности распределения Стьюдента показан на рис. 5.1. Рис. 5.1. График плотности распределения Стьюдента. Площадь заштрихованных частей в сумме равна а Если т% = /Ну, то х и у должны быть близкими, а следовательно, Т - ма- лым. Если же - у| является большим числом, то это свидетельствует о невер- ности гипотезы Hq. Отсюда следует, что критерии значимости должен быть двусторонним. Критическая область выбирается так, чтобы вероятности попа- дания в ее левую и правую части были равны а/2, где а - уровень значимости. 2. Назначаем уровень значимости а. 3. По таблице находим квантиль h-a/2(m + п ~ = *1-а/2 порядка 1-а/2 для распределения Стьюдента с т + п - 2 степенями свободы. Она показана на рис. 5.1. 4. Вычисляем выборочное значение Тъ статистики Т по формуле (5.4). 54
5. Сравниваем |7^| и /]_а/2. Если выполняется неравенство |7i|<*]_a/2» то гипотеза Но принимается, так как Т* попадает в область допустимых значений (~rba/2’ri-a/2) • Если же |Т^| > Г]_а/2, то гипотеза HQ отвергается, так как Тв попадает в критическую область |х| > ty_a/2 Пример 5.1. Сравнить процентное содержание контролируемой примеси в выпускаемом продукте на основе выборок из двух партий (для удобства все числа умножены на 100): л: (11,14, И, 11, 13, 16, 14, 19, 14,18, 19, 19, 23, 22,18); у: (19, 17,18,19, 17, 25, 19, 22, 13,18, 21, 30, 21, 13,10). Сравнение произвести по их выборочным средним х9 у и выборочным диспер- сиям sx, sy на уровне значимости a = 0.05. ► Здесь объем выборок одинаков m = п = 15. Путем непосредственных вы- числений по формулам (5.1), (5.2) получаем х = 242/15 = 16.13; у = 282/15 = 18.80; 4 = ^=22.4. Сравним сначала выборочные дисперсии s2x и Sy по критерию Фишера (§4). FB ~^/s2x - По таблице V приложения находим квантиль рас- пределения Фишера Fq 95(14,14) = 2.40. Сравниваем FB и F095(14,14): FB < 2.40. Согласно критерию равенства генеральных дисперсий можно счи- тать, что обе выборки принадлежат генеральным совокупностям с равными дисперсиями: = Сту = с2. Теперь можно приступить к сравнению выбороч- ных средних х и у. Вычисляем Тл по формуле (5.4). \т I - 18.80-1613 /152 28 _. , , 1 715 (14.4 +22.4) V 2-15 По таблице находим квантиль распределения Стьюдента zi-a/2(w + w-2) = /0975(28) = 2.048. Сравниваем |7j и *0.975(28): |7^| <2.048. Следовательно, расхождение между х и у не значимо. Гипотеза принима- ется. 4 Пример 5.2. Цех в среднем выпускает п = 100 штук продукции в месяц. За- траты металла на 1 кг изготовленной продукции равны х= 2.47кг. При этом sx = 12 кг. После усовершенствований в технологическом процессе в следую- щем месяце оказалось у = 2.03 кг; sY = 1.05 кг. Здесь X, Y - случайные величи- ны, равные весу металла, затрачиваемого на изготовление одного килограмма одной штуки продукции в рассматриваемых месяцах. Требуется установить, привели ли усовершенствования к уменьшению затрат металла или различия объясняются естественным разбросом показателей. 55
► Сначала проверяем гипотезу о равенстве дисперсий. Находим выборочное значение статистики Фишера FB =у^- = у^ = 1.14. Берем уровень значимости а = 0.05 и по таблице V приложения находим квантиль ^1-а(^1Л2) = Л).95(100Л00) = 1-4 распределения Фишера (интерполируем со- седние значения таблицы). Сравниваем FB и 1.4: FB < !.4. Гипотеза о равенстве дисперсий принимается. Теперь проверяем гипотезу о равенстве математиче- ских ожиданий тх и ту. Вычисляем Тп по формуле (5.4): Т - *~У 1тп(т + п-2) _ В~ /тс2 * т + п 2,47-2,03 /100-100-(100+ 100-2) V100-(1.22 +1.052) ЮО+ЮО По таблице III находим квантиль /]_а/2(>и + л - 2) = tQ 975(198) = 1.96 распреде- ления Стьюдента. Так как Тъ > 1.96, то гипотеза Hq о равенстве математических ожиданий отвергается. Усовершенствования действительно привели к умень- шению затрат металла. 4 2°. Случай больших выборок из любых генеральных совокупностей. Центрированная и нормированная случайная величина v = [(х - у) - (mx - mY)]/^2х!т + оу/п по центральной предельной теореме распределена приближенно нормально по закону N(0,1) как сумма большого числа взаимно независимых одинаково рас- пределенных случайных величин. Тогда получаем Р(-х < v < х)« Ф(х) - Ф(-х) = Ф(х) - [1 - Ф(х)] = 2Ф(х) -1 = 1 - a. Здесь Ф(х) - функция Лапласа, a - уровень значимости, 1 -а - доверительная вероятность. Отсюда Ф(х) = 1 -а/2. Решая это уравнение с помощью таблицы, найдем х = «ра/2 - квантиль порядка 1 - а/2 распределения N(0,1). Далее по- лучаем p(-“l-a/2 7°х/'« + '4А <mx-mr-(x-y)< щ.а/2 ^х/т + ау/п^ = 1 - а. Преобразуем выражение под знаком вероятности, заменив на s2x и сгу на Sy. Получим доверительный интервал для разности тх ~ mY д = (х - У - «l-a/2Vax/'” + °r/«; X - у + «i-a/г + с доверительной вероятностью 1 - a. Критерий проверки гипотезы Яо: тх = ту. 56
Если Д накрывает нуль, то гипотеза Яо принимается, в противном случае - отвергается. Пример 5.3. Требуется сравнить средние баллы х = 10.8 и у = 11.7 результа- тов входного тестирования по элементарной математике 168 студентов 1-го курса факультета технологии и исследования материалов СПбГТУ в 2000/2001 и 2001/2002 учебных годах. Результаты оценивались по 20-балльной шкале. При этом были вычислены s2x =2.75 и Sy = 1.57 . ► Выдвинута гипотеза : тх = ту. Выбираем уровень значимости а = 0.05. По таблице находим М]_а/2 = “0 975 ~196 • Строим доверительный ин- тервал Д: Д = (10.8 -11.7 -1.967(2.75+ 1.57)/168; 10.8-11.7 +1.967(2.75 +1.57)/168) = = (-1.21;-0.59). Д не накрывает нуль. Гипотеза Яо отвергается. Это означает, что разница между х и у значима, т. е. студенты 1-го курса в 2001/2002 учебном году по элементарной математике подготовлены лучше, чем в предыдущем году. 4 §6. Проверка гипотезы о равенстве вероятностей двух событий с помощью доверительного интервала при больших объемах выборок Применим метод доверительных интервалов для проверки статистической гипотезы о равенстве вероятностей двух событий. По двум сериям независимых наблюдений с большими объемами zij и л2 найдены относительные частоты рА и рв двух событий А и В , вероятности которых обозначим рА=Р(Л) и рв=Р(В). Построим доверительный интер- вал для вероятности рА: Р(01<рл<02) = 7 (6.1) с доверительной вероятностью у, которую выбираем заранее. Упрощенный критерий проверки: если доверительный интервал для рА (6.1) накрывает веро- ятность рв, то гипотеза Яо о равенстве вероятностей рА = рв принимается с доверительной вероятностью у (т. е. она правдоподобна). Если же рв оказыва- ется вне интервала, то выдвинутую гипотезу Яо о равенстве вероятностей сле- дует отвергнуть. За Рв принимается ее оценка р*в. Более обоснованным, но более громоздким является следующий критерий. Строим доверительный интервал для разности вероятностей рА- рв. Если этот интервал накрывает нуль, то гипотеза Яо принимается, в противном случае - отвергается. Таким интервалом будет интервал (р*А - Рв - ъ, рА - рв + ь), где 57
£ = M(i+y)/2VPx(! “Рл )Л1 + Рв<1 ~ Рв)/п2 i *(1+т)/2 ” квантиль нормального распределения N(0,1) порядка (1 + у)/2. Пример 6.1. В результате проведенного социологического опроса п = 1600 человек рейтинг кандидата N в президенты составил 20%. После проведенных мероприятий по увеличению рейтинга был проведен повторный опрос такого же количества людей. Новый рейтинг оказался равным 21%. Ставится вопрос: увеличился рейтинг или он остался прежним, а разницу в числах можно объяс- нить естественным разбросом данных? ► Вводим два события: А - при первом опросе респондент поддерживает кандидата N, В - при втором опросе респондент поддерживает кандидата N. р*А =02; pj =0.21. В примере 2.1 гл. 3 построен доверительный интервал для вероятности рл=Р(Л): Р(0.18<рл <0.22) = 0.95 с доверительной вероятно- стью у = 0.95 (уровень значимости а = 1 - у = 0.05). Относительная частота р*в =0.21, которую мы принимаем за вероятность рв, попадает в этот интервал, поэтому можно утверждать, что рейтинг кандидата N не увеличился. Гипотеза Hq о равенстве вероятностей Ра~Рв принимается на уровне значимости а = 0.05. Проверим теперь гипотезу Hq по более обоснованному критерию. Р*А ~ РВ = °-2 ~ 0 21 = —0.01; И(1+у)/2 = Ц) 975 s i е = 1.967(0.2 • 0.8 + 0.21 • 0.79)/1600 = 0.028. Интервал (рА - Рв - Ра~ Рв + е)= (-0.038; 0.018) накрывает нуль, следова- тельно, гипотеза Hq принимается. 4 §7. Проверка гипотезы о законе распределения генеральной совокупности 1°. Общие вопросы. Закон распределения случайной величины является ее полной вероятност- ной характеристикой. Естественно стремление исследователей построить этот закон приближенно на основе статистических данных. Сначала выдвигается гипотеза о виде закона распределения, который может быть в одномерном случае нормальным, показательным, Пуассона и т. д. Такая гипотеза может возникнуть из теоретических соображений (например, на осно- ве центральной предельной теоремы), на основе анализа гистограммы, на осно- ве статистической практики. После того, как выбран вид закона распределения, возникает задача оцени- вания его параметров (она решалась ранее в гл. 2) и проверки закона в целом. Критериев проверки существует много. Мы рассмотрим наиболее обосно- ванный и наиболее часто используемый в практике - критерий х2 (хи-квадрат), 58
введенный английским статистиком К. Пирсоном (1900 г.) для случая, когда параметры закона известны. Этот критерий был существенно уточнен англий- ским математиком Р. Фишером (1924 г.), когда параметры распределения оце- ниваются методом максимума правдоподобия по выборке, используемой для проверки. Ограничимся случаем одномерного распределения. Итак, выдвинута гипотеза Н$ о генеральном законе распределения с функ- цией распределения F(x). Конкурирующей гипотезой является гипотеза о справедливости одного из конкурирующих распределений. Рассмотрим два различных случая. 2°. Параметры проверяемого закона полностью известны. Эти параметры могут быть оценены по независимой выборке. Разобьем генеральную совокупность, т. е. множество значений изучаемой случайной величины %, на к непересекающихся промежутков Д|,Д2,...,Д*. Пусть р{ = Р(X е Ду), i = 1,..., к. Если генеральная совокупность - вся вещест- венная ось, то подмножества Д,-- полуоткрытые промежутки, i'= 2,..., к -1. Крайние промежутки будут полубесконечными: До = (-оо, aj), Д* =[а^,+оо), рис. 7.1. Д1 Д2 Ду Д^-1 д* х -------1------1 1 1-1 1 1—> а\ а2-------------------------------------------ai-\ ai-ак-\ Рис. 7.1. Разбиение вещественной оси на непересекающиеся промежутки при проверке гипотезы о законе распределения по методу хи-квадрат к Отметим, что =1. Будем предполагать, что все д >0 (i = \,...,k). /=1 Пусть далее - частоты попадания выборочных элементов в промежутки Д], Д2,..., Д^ соответственно. В случае справедливости гипотезы Hq относительные частоты ц/и при большом и должны быть близки к веро- ятностям pi (/ = !,...,&), поэтому за меру отклонения выборочного распреде- ления от гипотетического с функцией F(x) естественно выбрать величину к z х2 Ечтг-д) . (71) /=1 где q - какие-нибудь положительные числа (веса). К. Пирсоном в качестве ве- сов выбраны числа ci=nlpl (i! = 1,... 9к). Тогда получается статистика критерия хи-квадрат К. Пирсона 59
=2/^- ‘72> которая обозначена тем же символом, что и закон распределения хи-квадрат. Закон распределения хи-квадрат появляется в теории вероятностей при изу- чении суммы квадратов к взаимно независимых нормальных случайных вели- чин Ху..., Хк с одними и теми же параметрами т = 0 и а = 1: Z = X? + Xl + ... + X%. (7.3) Доказано [J8], что случайная величина Z распределена по закону хи-квадрат с к степенями свободы. Этот закон обозначается х2(^)- Плотность вероятности этого закона определяется формулой /(*) = О £ /1 \ к 1 х 2-2 Г->2 е~2 при х<0, при х>0 (7.4) (^>2). Здесь Г(х) - гамма-функция. График функции /(х) для различных к изобра- жен на рис. 7.2. Рис. 7.2. График плотности вероятности распределения хи-квадрат при числе степеней свободы к = 2, 6, 8. К. Пирсоном доказана теорема об асимптотическом поведении статистики X2 (7.2) при объеме выборки и стремящемся к бесконечности, которая указы- вает путь ее применения. Теорема К. Пирсона. Статистика (7.2) критерия %2 асимптотически при распределена по закону х2 с к-} степенями свободы. Доказательство теоремы можно прочесть в [11]. Для прояснения сущности метода хи-квадрат сделаем ряд замечаний. Замечание 7.1. (о выборе числа к). Выбор подмножеств Ai,...,A^ и их числа к в принципе ничем не регламентируется, так как и->оо. Но так как число п хотя и очень большое, но конечное, то к и п должны быть согласова- ны. Обычно его берут таким же, как и для построения гистограммы, т. е. можно 60
руководствоваться формулой /г»1.72^/л или формулой Старджесса к «1 + 3.31gл. При этом, если Д - промежутки, то их длины удобно сделать равными, за исключением крайних - полу бесконечных. Замечание 7.2 (о числе степеней свободы). Числом степеней свободы функ- ции (по старой терминологии) называется число ее независимых аргументов. Аргументами статистики х2 являются частоты п\,...,пк. Эти частоты связаны одним равенством И] +... + пк = п, а в остальном независимы в силу независи- мости элементов выборки. Таким образом, функция х2 имеет к -1 независи- мых аргументов: число частот минус одна связь. В силу теоремы Пирсона число степеней свободы статистики х2 отражается на виде асимптотической плотно- сти /(х). Рассмотрим теперь второй наиболее важный в практическом отношении случай. 3°. Параметры проверяемого закона неизвестны. Неизвестные параметры оцениваются по той же выборке, которая использу- ется для проверки гипотезы о законе распределения. Если оценка произведена по методу максимума правдоподобия, то справедлива теорема Р. Фишера, уточ- няющая теорему К. Пирсона. Теорема Р. Фишера. Статистика (7.2) критерия асимптотически при и —> оо распределена по закону хи-квадрат с числом степеней свободы, равным r^k-l-\, (7.5) где I - число параметров, оцененных по выборке. Доказательство теоремы можно прочесть в [11, с. 460]. Заключение теоремы Фишера объясняется тем, что оценивание параметров накладывает дополнительные связи на частоты И], ..., пк и поэтому уменьшает число степеней свободы статистики х2 • Критерий проверки гипотезы сформулируем на основе теоремы Фишера, но предварительно сделаем некоторые комментарии. Замечание 7.3. Из вида (7.2) статистики критерия х2 видим, что большие значения х2 неприемлемы для справедливости гипотезы Hq . Отсюда следует, что применяемый критерий является правосторонним, а критической областью будет промежуток вида ^Х?-а(г)>гДе Х1-а(г) “ квантиль распределения порядка 1-а распределения хи-квадрат с г степенями свободы. Из формулы (7.2) также видно, что веса q = п/р} пропорциональны п, т. е. с ростом п увеличиваются. Таким образом, если выдвинутая гипотеза Яо невер- на, то относительные частоты и, /п не будут близки к вероятностям pf, и с рос- 61
том п величина х2 будет увеличиваться. При фиксированном уровне значимо- сти а будет фиксировано пороговое число Xi-aW- Поэтому, увеличивая п, мы придем к неравенству Хв >Xi-a(r), где Хв “ выборочное значение стати- стики х2 (7.2). Хв попадет в критическую область (рис. 7.3), и неверная гипоте- за будет отвергнута. № критическая область Рис. 7.3. Критическая область критерия хи-квадрат Из этих рассуждений следует, что при сомнительной ситуации, когда Хв~Х1-а(г)> следует увеличить объем выборки (например, в 2 раза), чтобы проверяемое неравенство было более четким. Замечание 7.4. Теория и практика применения критерия х2 указывают, что если для каких-либо подмножеств А, (/ = !,...,£) условие иД >5 не выполня- ется, то следует объединить соседние подмножества (промежутки). Это условие zr п.- па выдвигается требованием близости величин -~=^‘ , квадраты которых явля- ylnPi ются слагаемыми х2, к нормальным N(0,1). Тогда случайная величина в фор- муле (7.2) будет распределена по закону, близкому к хи-квадрат. Такая близость обеспечивается достаточной численностью элементов в подмножествах А,. Критерий проверки. 1. Выбираем уровень значимости a. 2. С помощью гипотетической функции распределения F(x) с / оцененны- ми параметрами вычисляем оценки вероятностей Д= Р(X е А,) (/ = 1,2,..., к). 3. По таблице находим квантиль Xi-a(r) распределения хи-квадрат с г - к -1 -1 степенями свободы порядка 1 - a. 4. Находим частоты и, попадания элементов выборки в подмножества Az (z = 1,2,... ,&) и вычисляем выборочное значение статистики критерия хи- квадрат: 62
(7.6) 2_у (”/-*А)2 5. Сравниваем Хв и квантиль х?-а(г) • 5.1. Если Хв <Х?-а(г)> то гипотеза Hq принимается. 5.2. Если Хв -Х2-а(г)> то гипотеза Hq отвергается. Выбирается одно из альтернативных распределений, и процедура проверки повторяется. В заключение отметим, что кроме критерия хи-квадрат, применяются крите- рии А.Н. Колмогорова, Н.В. Смирнова, Р. Мизеса и др. [9, с. 352]. Пример 7.1. Проверить гипотезу о нормальном распределении генеральной совокупности по выборке, содержащей 100 измерений предела текучести одно- го сорта стали (пример 5.1, гл. 1). ► По этой выборке был построен группированный статистический ряд (табл. 5.2, гл. 1), содержащий 8 промежутков. На основе этого ряда были вы- числены выборочные характеристики х = 31.3 и 5 = 3.19 (табл. 5.3, гл. 1) Таблица 7.1. Вычисление Хв при проверке гипотезы о нормальности генерального распределения в примере 7.1 i Границы Ду ^-1 Лу Ш 1 1 <$1 II Фо(М А = = ф0(М- -Фо(^-1) лД rii-npi {nt-npt)2 npt 1 — QO 26.6 9 -00 -1.48 -0.5 -0.4306 0.0694 6.94 2.06 0.61 2 26.6 28.5 11 -1.48 -0.88 -0.4306 -0.3106 0.1200 12.00 -1.00 0.08 3 28.5 30.4 16 -0.88 -0.28 -0.3106 -0.1103 0.2003 20.03 -4.03 0.81 4 30.4 32.3 27 -0.28 0.31 -0.1103 0.1217 0.2320 23.20 3.80 0.62 5 32.3 34.2 19 0.31 0.91 0.1217 0.3186 0.1969 19.69 -0.69 0.02 6 34.2 36.1 11 0.91 1.51 0.3186 0.4345 0.1159 11.59 -0.59 0.03 7 36.1 + 00 7 1.51 + 00 0.4345 0.5 0.0655 6.55 0.45 0.03 S — 100 — — 1.0000 100.00 0.000 220 = xl Так как в последнем промежутке число элементов л8 = 2, то и соответст- вующее математическое ожидание должно быть близким. Просчитывая, нахо- дим пр% = 1.39 < 5. В соответствии с рекомендацией, сделанной в замечании 7.4, 63
объединяем 8-й промежуток с 7-м. Число оцениваемых параметров в нормаль- ном распределении равно 2, поэтому число степеней свободы асимптотического закона хи-квадрат равно г = £- /-1 = 7- 2-1 = 4. Выбираем уровень значимо- сти а = 0.05 и по таблице находим квантиль распределения хи-квадрат Х?-а(г) = Хо.95(4) - 9.49. Далее на основе группированного статистического ря- да вычисляем Хв по формуле (7.6). Вычисления сведены в табл. 7.1. Сравнивая Хв=220 и Хо.950) = 9.49, видим, что Хв <Хо.95(4)- Заключаем, что гипотеза Hq о нормальности распределения случайной величины, равной пределу текучести стали, на уровне значимости а = 0.05 согласуется с данными измерений. Контрольные вопросы и задачи для самопроверки к главе 4 1. Что такое статистическая гипотеза? 2. Какая гипотеза называется простой? 3. Что такое критерий значимости, статистика критерия значимости? 4. Что такое уровень значимости? Как он связан с доверительной вероятно- стью? 5. Что такое критическая область критерия? 6. Изложите общую схему проверки статистических гипотез. 7. Что такое критерий согласия? 8. Какие ошибки называются ошибками первого и второго рода? 9. Какие критерии называют односторонними и двусторонними? 10. Какая статистика применяется при проверке гипотезы о равенстве двух дисперсий? 11. В каких реальных задачах возникает гипотеза о равенстве математиче- ских ожиданий двух генеральных совокупностей? 12. Как с помощью доверительного интервала проверяется гипотеза о равен- стве вероятностей двух событий? 13. Как формулируются теоремы Пирсона и Фишера об асимптотическом поведении статистик критерия хи-квадрат? 14. Как формулируется критерий хи-квадрат для проверки гипотезы о законе распределения генеральной совокупности с неизвестными параметрами? 15. Проверьте гипотезу Но о равенстве математических ожиданий двух нормальных генеральных совокупностей по двум независимым выборкам объе- ма п = 60, для которых вычислены х = 5.2; sx = 1.3; у = 5.1; sy = 1.4. Возьмите уровень значимости а = 0.05. 64
ГЛАВА 5. КОРРЕЛЯЦИОННЫЙ И РЕГРЕССИОННЫЙ АНАЛИЗ В главе 5 исследуются вопросы зависимости между двумя случайными ве- личинами X и Y на основе двумерной выборки (хьу]), (х2,У2), ••• , В корреляционном анализе зависимость оценивается с помощью выборочного коэффициента корреляции г^у > а в регрессионном анализе зависимость между X и Y описывается функционально в среднем. Если зависимость обнаружива- ется, то она может быть использована в целях диагностики, прогнозирования и управления значениями одной величины по значениям другой в среднем. §1. Корреляционный анализ 1°. Выборочный коэффициент корреляции. Определение 1.1. Корреляционным анализом называется раздел математической статистики, исследующий зависимость между случай- ными величинами с помощью выборочных оценок генеральных коэффициен- тов корреляции. Мы ограничимся рассмотрением лишь парного коэффициента корреляции, характеризующего зависимость между двумя случайными величинами. Суще- ствуют и множественные коэффициенты корреляции, учитывающие связь трех и более случайных величин. Пусть по выборке значений {х^у,}” двумерной случайной величины (X,Y) требуется оценить генеральный коэффициент корреляции ~их)2]м[(Г - иу)г] Естественной оценкой р^у служит выборочный коэффициент корреляции г=глг=т^, (1.2) SXSY который конструируется по методу аналогии (подстановки). Здесь 1 л 1 п Кхг = ~ - У)=^Lx>y> ~ ху о3) 1=1 1=1 - выборочная ковариация (корреляционный момент), . п п 1=1 1=1 - выборочные дисперсии компонент. 65
rXY ~ состоятельная оценка Pxy- Легко доказываются (см. далее §4) сле- дующие свойства /jjy, аналогичные свойствам для рду: 1) <1; 2) если yi^axi+b, z = 1,..., и, то г%у = +1 при а > 0 и r%y = “1 при а < 0. 2°. Гипотеза о независимости случайных величин. Рассмотрим случаи, когда генеральное распределение двумерной случайной величины - нормальное. Тогда, как известно из теории вероятностей, генераль- ный коэффициент корреляции Рху ра»ен нулю тогда и только тогда, когда компоненты X и Y независимы. Важнейшей задачей корреляционного анализа является задача определения наличия или отсутствия зависимости между компонентами двумерной нор- мальной случайной величины. Для этой цели проверяется статистическая гипо- теза Hq : рху - 0 против альтернативы р%у * 0. Доказано [11, с. 438], что при условии Рху = 0 случайная величина t = у1п-2-гху1 ^1-гху (1.5) распределена по закону Стьюдента с п - 2 степенями свободы, где п - объем двумерной выборки. (О законе Стьюдента см. гл. 4, §5). Критерий проверки. 1)Взяв уровень значимости а, находим квантиль *1-а/2(л”2) распределе- ния Стьюдента. 2) По выборке вычисляем коэффициент корреляции г, пользуясь формула- ми (1.2)-(1.4). 3) Критическую область задаем неравенством 1'1>'1-а/2("-2). (L6> Если это неравенство выполняется, то гипотеза Hq отвергается, и на уровне значимости а принимается альтернативная гипотеза о наличии связи между X и Г. Пример 1.1 [15]. На сталеплавильном заводе проведены измерения угара кремния в процентах (признак X) и выхода стали в процентах (признак У) по результатам л = 15 плавок определенного сорта стали. Получена следующая двумерная выборка: 1) (7.9; 70.3), 2) (0.9; 85.0), 3) (3.7; 100.0), 4) (8.1; 78.1), 5) (6.9; 77.9), 6) (0.8; 98.4), 7) (6.0; 59.2), 8) (72; 86.8), 9) (8.8; 70.1), 10) (10.2; 42.2), 11) (112; 81.9), 12) (0.5; 97.1), 13) (4.6; 682), 14) (9.7; 92.1), 15) (1.0;91.2). Требуется решить вопрос о наличии или отсутствии связи между X и Y. ► Сначала нанесем на чертеж полученные экспериментальные точки (х,,^) и визуально решим поставленный вопрос (рис. 1.1). 66
100 -и • 90• • 80 - • • * 70 - • • • 60 - • 50 - 40 - * 30 - 20 - 10 - О| 1 2 3 4 5 6 7 8 9 10 11 12 j£% Рис. 1.1. Экспериментальные точки (х,, / = 1,2,...»15, из примера 1.1 Из рис. 1.1 видно, что в среднем высокий процент угара кремния отрица- тельно влияет на выход стали, т. е. с возрастанием X величина Y в среднем убывает. Применим теперь аналитический критерий проверки. 1) Вычислим, выборочный коэффициент корреляции по формулам (1.2)- (1.4). Получаем: х = 5.83; у = 79.9; $х = 3.56; ^ = 15.45; ^XY = -29.79; г = гуу = -0.542. 2) Вычислим выборочное значение статистики t по формуле (1.5): /в = Vi3(-0.542)/л/l -0.5422 = -2.33. 3) Выбираем уровень значимости а = 0.05 и находим по таблице квантиль распределения Стьюдента *1-а/2(л - 2) = *0.975 U3) = 2.16. 4) Сравниваем |*в| и *0975(13): |гв|> {0 975O3), т-е- значение *в попадает в критическую область, что на уровне значимости а = 0.05 означает отвержение гипотезы Hq об отсутствии связи и принятие альтернативной гипотезы о нали- чии связи между X и Y. 4 Хотя формально гипотеза о наличии связи между X и Y в примере 1.1 под- тверждена, однако малый объем выборки (л = 15) и близкие значения |*в| и *0975О3) не позволяют достаточно уверенно утверждать о наличии этой связи. Следует увеличить объем выборки, взять меньший уровень значимости (например, а = 0.01) и вновь провести проверку. 3°. Г рубая проверка зависимости компонент двумерной нормальной случайной величины. Существуют простые формулы для грубой проверки наличия зависимости между случайными величинами X и Y. 67
Если выполняется неравенство |rvr|V^l>2.5, (1.7) то зависимость фиксируется с уровнем значимости а = 0.05. Если же WV^i>3, (1.8) то зависимость фиксируется с уровнем значимости а = 0.01 [4]. §2. Общие сведения о регрессионном анализе При решении многих задач физики, экономики, медицины, инженерии при- ходится экспериментально изучать зависимость наблюдаемой случайной вели- чины Y от одной или нескольких других случайных или неслучайных величин Хъ...,Хк. Случайная величина Y называется откликом, а величины ., Хк - факторами (иначе - предикторами). Например, изучается зависимость какого-либо свойства стали (прочность, хрупкость, вязкость) от процентного содержания компонент, от параметров технологического процесса; в экономике изучается величина валового продук- та, дохода, инфляции в зависимости от времени. Изучаемую зависимость выражают функционально уравнением у = ф(Л1,...,х^), естественно, лишь в среднем. Такое уравнение называется регрессионным, иначе -уравнениемрегрессии. Детерминированной зависимости между откликом и факторами быть не может в силу их случайности. Кроме того, всегда существуют неконтролируе- мые случайные факторы, влияющие на отклик. Это, в первую очередь, измен- чивые параметры среды - температура, влажность, давление, а также ошибки измерения. Отклик и факторы характеризуют состояние некоторой физической систе- мы, изучение которой можно представить схемой (рис. 2.1). Неконтролируемые случайные факторы (шум) Рис. 2.1. Схема функционирования абстрактной физической системы 68
В дальнейшем мы ограничимся рассмотрением лишь одного фактора X. Следует отметить, что между случайными величинами X, Y причинно- следственной связи может не быть, хотя вероятностная связь наблюдается, так как на них влияют общие случайные факторы. Например, показатели урожая на разных полях причинно-следственно не связаны, но вероятностная связь на- блюдается, так как имеет место общий влияющий фактор - погода. Определение 2.1. Регрессионный анализ - это раздел математиче- ской статистики, изучающий зависимость между случайными величинами с помощью уравнений регрессии. Регрессионная зависимость, выраженная уравнением регрессии, называется просто регрессией. Термин «регрессия» введен в науку английским антрополо- гом Гальтоном (1822-1911), открывшим регресс к середине размеров потомков по сравнению с отклонениями от средних размеров родителей. Эту зависимость можно выразить линейной функцией. Термин «регрессия» прижился и стал употребляться более широко. Определение 2.2. Регрессией называется функциональная связь в сред- нем любых случайных величин. Теоретически уравнение регрессии, выражающее зависимость Y от X в среднем, записывается уравнением У=МХУ, (2.1) где МХУ - условное математическое ожидание случайной величины Y при за- данном значении х случайной величины X. Это некоторая функция у = у{х), выражающая зависимость у от х. В частности, она может быть многочленом и даже линейной функцией: у = р0 + PjX. По экспериментальным точкам (Х],У]), ... , (*п,Уп) теоретическое уравне- ние регрессии (2.1) можно построить лишь приближенно. Такое уравнение бу- дем называть эмпирическим уравнением регрессии. Например, его можно по- строить в виде многочлена У = Bq + ВуХ + ... + В^Х* , (2.2) в частности, в виде линейной функции У = В0 + В\х • (2.3) Определение 2.3. Регрессия, выраженная линейной функцией (2.3), назы- вается эмпирической простой линейной регрессией. Слово «простая» употребляется потому, что рассматривается лишь один фактор. Соответствующая теоретическая простая линейная регрессия описы- вается уравнением У = ₽о + ₽1Х- (2.4) Коэффициенты Bq, В\ являются оценками соответствующих коэффициентов Ро, pj теоретической регрессии. 69
Наиболее распространенным методом для построения эмпирического урав- нения регрессии является метод наименьших квадратов. §3. Метод наименьших квадратов Постановка задачи. Имеется п экспериментальных точек (хьу|), ... , (хл,ул). Требуется найти многочлен у(х) виДа (2.2) так, чтобы сумма квадра- тов отклонений многочлена в точках xt от наблюденных значений yi (/ = 1,...»и имела наименьшее значение: п п е=£[л-Я*/)]2=2л2-»тт. (3.1) 2 = 1 2 = 1 Определение 3.1. Метод нахождения коэффициентов многочлена (2.2) по экспериментальным данным на основе минимизации суммы квадратов отклонений (3.1) называется методом наименьших квадратов. Мы рассмотрим этот метод для построения простой линейной регрессии. Графически выполнить условие (3.1) для линейной функции у = В$ + Врс означает провести прямую между экспериментальными точками так, чтобы сумма квадратов отклонений была минимальной (рис. 3.1). Пусть п п Q=XK‘^yi~Bo~B^2- <3-2) 2=1 2=1 Коэффициенты Во, В^ рассматриваются как переменные, обращающие функ- цию Q в минимум. Используем необходимые условия экстремума 70
отсюда п п пВо + В^, =£.у,, Z=1 /=1 п п п fioSx>+BiE^=Zx^- . /=1 /=1 i=l Разделим оба уравнения на п. (3.3) Используем известные статистические обозначения и формулы. 1 п /=1 1 п У = п1> - выборочное среднее X, - выборочное среднее У, - второй выборочный начальный момент X, Я3.4) 1 п 1 V 2 /=1 __ । w x^=-Zx-y/ - второй выборочный начальный момент У, - второй выборочный сме- шанный начальный момент X и У, 1 п 71
Продолжение формул (3.4) 4=|Z^“x)2=a2^“x2 7=1 SY = £(У< ~ у)2 =а2У~У2 <=1 1 " ^хг=^'^,^~х^У'~у^=ху~ху /=1 rXY = ^XY KsXsf} - выборочная дисперсия X, - выборочная дисперсия У, - выборочная ковариация X и Y, - выборочный коэффициент корреляции X и Y. Х3.4) I У_ . х ху С помощью этих обозначений система (3.3) записывается в виде + = Л _ (3 5) хВ0 + а2ХВ]=ху. Неизвестный коэффициент В| находим по формулам Крамера 1 х _ ху-ху _ Kxy _ Кху ,^Y_ = r A'r x°2X a2X-x2 4 Wy' sx ^SX Коэффициент Bq находим непосредственно из первого уравнения (3.5): BQ = y-xBv Таким образом, ~ rXY~* < 1 V (3.6) В0 = у-хВ1. Заметим, что определитель системы (3.5) равен Ъх-Х2 -*)2>0. 7 — 1 если среди значений хх,...,хп есть различные, что и будем предполагать. В этом случае система (3.5) имеет единственное решение. Можно доказать, что стационарная точка (3.6) дает глобальный минимум функции Q (т. е. наимень- шее значение) [4]. §4. Статистический анализ эмпирической простой линейной регрессии 1°. Остаточная дисперсия. Степень приближения прямой у = Bq + В^х экспериментальных данных бу- дем характеризовать средним квадратическим отклонением, рассчитанным на 72
одну степень свободы (п точек минус две связи, которые накладываются на экспериментальные данные двумя зависимостями для и В\ (3.6)): <41> Величина s2 называется остаточной дисперсией. Для 5 имеется более простая формула 5 = 5^^2(1"Г^- (42) ► е = ~ Во - В,х, )2 = £(у, - у + В}х -В^)2 = 7=1 7 = 1 = - У) - Bi(x( - х)]2 = £(У, ~ У)2 + В2 £(х, - х)2 - 7 = 1 7 = 1 7 = 1 “2^1^(х/ -*)(z - >0 = + ^12«4 - 2”B\rxYsXsY = 7 = 1 = nsy + ПГхуЗу - = ПЗу ~ = П$2 (1 - Г^у) • Подставляя этот результат в (4.1), получим (4.2). 4 2°. Прямые регрессии «у на х» и «х на у». Докажем сначала, что выборочный коэффициент rXY = ^xyKsxsy) удовлетворяет условию \rXY| 1 • корреляции (4.3) ► В силу неравенства Коши - Буняковского |^лу| ~ 1 1 j -£Х’г'-хКу<-у) 7=1 IA £М=> 1 и з"! 1 4:1 1Л 5 СЧ 1 у (у,-у)2 _ 2--^ -s*sr- 1=1 Отсюда 1^1 = |^|/(sx^) 5 1 < Запишем теперь полученное ранее уравнение регрессии у = Bq + В^х в сим- метричной форме. Используем формулы (3.6). Отсюда у = у - хВ1 + В1х = у + В} (X - X) = у + Гху (X - X). sx У-У SY х-х =Гхг^Г- (4.4) 73
(Говорят, что это уравнение прямой регрессии у на х). Ее угловой коэффици- ент: <4-5) Аналогично рассуждая, исходя из требования обращения в минимум функ- п ции й = ^2(х, Я]^)2 (отклонения по абсциссам), можно построить уравнение прямой регрессии х относительно у (говорят: «х на у»): т— = гху ~—- SX SY (4.6) Ее угловой коэффициент: kx,y=y-f-- (4-7) /Л rXY SX Заметим, что |jtx^|^|^x|, так как jr^y] <1. Обе прямые регрессии (4.4) и (4.6) проходят через точку (х,у) - центр регрессии (рис. 4.1). 3°. Роль выборочного коэффициента корреляции. Если |r^y| = 1, то из формул (4.4), (4.6) заключаем, что обе прямые регрессии сливаются в одну прямую y = ^0 + Bjx. Кроме того, из формул (4.1), (4.2) ви- дим, что 5 = 0, следовательно, О = 0, и поэтому yt = Bq + (/ = 1,..., и), т. е. все экспериментальные точки лежат на прямой регрессии. Это случай жесткой линейной зависимости Y = Bq + ВхХ между случайными величинами в пределах проведенных экспериментов (рис. 4.2). Если r^Y = 0, то одна прямая регрессии горизонтальна, а другая - верти- кальна (рис. 4.3). Такой случай означает, что в среднем на изменение X слу- чайная величина Y не реагирует и на изменение Y случайная величина X в среднем не реагирует. К этому случаю мы приходим, когда случайные величи- ны независимы - экспериментальные точки расположены хаотично, но в сред- 74
нем симметрично около прямых регрессии, либо когда в распределении экспе- риментальных точек имеется строгая симметрия около какой-либо прямой рег- рессии. х=х прямая регрессии х на у в «^У~У прямая регрессии у на х Рис. 4.3. Случай = О *4°. Условия Гаусса - Маркова для экспериментальных данных. Для того, чтобы сделать статистические выводы из полученных результатов по регрессии в части их точности и надежности, необходимо сделать предпо- ложения о распределении экспериментальных данных. Такими предположе- ниями являются условия Гаусса - Маркова. (К.Ф. Гаусс - немецкий математик, 1777-1855; А.А. Марков - российский математик, 1856-1922): Отклонения е, - yt - y(xt) (/ = !,...,/?) наблюдаемых значений yt случайной величины Y от значений функции регрессии у(х,) = Bq + Bxxt нормально рас- пределены, независимы, имеют нулевые математические ожидания и равные дисперсии. Ошибки измерения (/ = 1,...,л) пренебрежимо малы по сравне- нию с ошибками измерения величин yt (J = 1,..., п). Во многих случаях на практике эти предположения можно считать выпол- ненными. Мы будем предполагать, что величины xt (/ = 1,...*л) измерены точ- но. Тогда De, =D_y, =Dy = c2. (4.8) Основанием для такого допущения является сама математическая модель у = Bq + Вхх, которая призвана описывать зависимость у только от одной пере- менной (фактора) х без учета многих факторов, влияющих на у. Это влияние мы относим только к у, а не к х, и весь разброс экспериментальных точек объ- ясняем только погрешностью нахождения у. *5°. Свойства оценок и доверительные интервалы регрессии. Приведем основные результаты для эмпирической простой линейной рег- рессии (доказательство в [1]). 75
Теорема 4.1. М?=о2, (4.9) т. е. остаточная дисперсия, вычисляемая по формулам (4.1) или (4.2), явля- ется несмещенной оценкой дисперсии отклика и2 =DK. Теорема 4.2. М[в0 + ад=р0+pjx, (4.Ю) т. е. эмпирическая линейная регрессия, найденная по методу наименьших квадратов, является несмещенной оценкой соответствующей теоретиче- ской регрессии. Теорема 4.3. Границы доверительных интервалов для параметров р0, р} теоретической линейной регрессии с доверительной вероятностью 1-а имеют вид ___ ^0±/1-а/2(«-2)5л/^7/(5х>/Й)> (4.11) Я1±П-а/2(«-2)^Х^) (412) Здесь а - уровень значимости, ~ квантиль распределения Стьюдента порядка 1-а/2 с п -2 степенями свободы, величины sx, а1Х определяются формулами (3.4), .у - остаточная дисперсия (4.1) или (4.2). Теорема 4.4. Границы доверительного интервала для теоретической линейной регрессии y = Po + Pi* с доверительной вероятностью 1-а име- ют вид У±<1-а/2(n-2) sjl + (x-х)2/4/4п. (4.13) Здесь у = В$ + Вхх - оценка теоретической регрессии y = p0-hpjx. Осталь- ные величины имеют тот же смысл, что и в теореме 4.3. Замечание 4.1. Формула (4.13), определяющая доверительный интервал для Му = р0 + pjx, определяет и коридор ошибок прогноза значений у = Po + Pi* с доверительной вероятностью 1 - a. Этот коридор ограничен двумя гипербола- ми с уравнениями У = У ± 'l-a/2 (« - 2) • S^\ + (x-x)2/у/п. (4.14) Осью этого коридора является прямая эмпирической регрессии у-Bq + B^x (рис. 4.4). 76
Рис. 4.4. Коридор ошибок линейной регрессии Ошибка прогноза значений У~Ро + Р1х является наименьшей при х-х и возрастает по мере удаления от центра. 6°. Адекватность линейной модели регрессии данным эксперимента. Важным является вопрос, адекватна ли принятая линейная модель регрес- сии данным эксперимента, т. е. достаточно ли хорошо линейная функция у = Bq + В^х аппроксимирует экспериментальные точки. Об этом можно судить по многим признакам. 1) Достаточно хорошее представление о качестве аппроксимации дает чер- теж, на который нанесены экспериментальные точки и прямые регрессии. 2) Величины выборочного коэффициента корреляции г%у и остаточного среднего квадратического отклонения 5 также дают представление о качестве аппроксимации. Если |гду| близок к 1, а з мало по сравнению с sx и Зу, то ка- чество аппроксимации хорошее. 3) Сравниваются две модели регрессии. Для этого выборка делится на две независимые части. Одна часть используется для построения линейной функ- ~ 2 ции регрессии и соответствующей остаточной дисперсии 3], другая часть явля- ется контрольной. С помощью контрольной части выборки строится другая функция регрессии, например, квадратическая у = Bq + В^х + В2х2, и для нее вычисляется остаточная дисперсия s2 . Если s2 значимо меньше s2, то линей- ная модель хуже, и следует принять на данном этапе квадратическую модель. Проверка неравенства s2 < s2 также проводится с помощью критерия Фишера равенства дисперсий (гл. 4, §4). 4) Существуют слабые критерии проверки адекватности линейной модели - критерии проверки наличия вероятностной зависимости между X и У. Если зависимость есть, то ее можно описать линейной регрессией (хотя, может быть, и не наилучшим образом). Если зависимости нет, то линейная модель (и ника- кая другая также) не адекватна эксперименту. 77
Отсутствие зависимости между X и Y можно проверить с помощью гипо- тезы Р] = 0. Эта гипотеза принимается, если доверительный интервал с грани- цами (4.12) для pj при принятом уровне значимости накрывает нуль. Наличие или отсутствие зависимости между X и Y можно также проверить с помощью гипотезы рду =0 (см. гл. 5, §1). Существуют простые формулы для грубой проверки такой зависимости: формулы (1.7) и (1.8). *5) Наиболее надежным и наиболее употребительным способом проверки адекватности модели регрессии данным эксперимента является способ сравне- 7 2 ния дисперсии неадекватности sH с дисперсией воспроизводимости $&, если имеются повторные опыты. Пусть в каждой точке х,- проведено и, опытов и при этом наблюдались значения случайной величины Y (i! = 1,..., т; 7 = 1,...,^ ). При этом общее число опытов равно т YLn‘=n- (415> /=1 Вычисляется выборочное среднее в каждой точке х;: ^=^7^7 <' = ’..........................(4Л6) Z 7=1 и дисперсия воспроизводимости . т п, sB2=—!— (4.17) в 7 п-т v Здесь п-т - число степеней свободы статистики 5, - общее число опытов п минус число связей т, которые накладываются равенствами (4.16). Далее вы- числяется дисперсия неадекватности /=1 Здесь £ = Bq + Bjx, - значение эмпирической функции регрессии в точке xt. т-2 - число степеней свободы статистики (число абсцисс xf минус число связей, накладываемых вычислением коэффициентов Во, Bj). Легко доказать [4], что Q=Q.+Qa, (4.19) где т п, ^ = Ц(Уи-У1)2 (4.20) 78
иначе записанная остаточная сумма квадратов (3.1). Доказано [1], что статистики s2 и sB независимы и их можно сравнить с помощью отношения Фишера F = (4.21) которое распределено по закону Фишера F{m~2,n-т) с т-2 и п-т степе- нями свободы. Проверяем гипотезу о равенстве двух дисперсий и (гл. 4, §4). Задаемся уровнем значимости а и по таблице находим квантиль распределения Фишера. Пусть FB - выборочные значение статистики Фишера (4.21). Если ^<^_а(т-2,и-т), (4.22) ю гипотеза адекватности принимается. В этом случае дисперсия неадекватно- 2 сги 5Н находится на уровне дисперсии воспроизводимости, не зависящей от выбранной модели, поэтому величину можно объяснить естественным раз- бросом данных. Если значительно меньше, чем 5В (в этом случае неравенст- во (4.22) тоже выполняется), то это говорит об очень хорошем соответствии мо- дели опытным данным. Если гипотеза адекватности не принимается, то нужно искать другую модель, например, квадратическую у = Bq + В^х + В2х2. Пример 4.2. Имеются 20 экспериментальных точек (X],yj), ••• , (xio>Mo)> (xio>^ib) ” значений двумерной случайной величины (X.Y), где X - а5 (кГ/лш2) - предел текучести стали, Y = ов (кГ(мм2) - предел прочности стали. Здесь каждому из 10 значений х, случайной величины X соответствуют два значения у-, у" случайной величины Y (/ = ],...,10) - повторные измере- ния в одной и той же точке. Данные помещены в табл. 4.1. Таблица 4.1. Экспериментальные данные о пределе текучести х; и пределе прочности у/, у" 20 образцов стали i 1 2 3 4 5 6 7 8 9 10 Х1 45 54 63 74 85 93 104 111 123 135 у! 52 70 74 87 92 117 123 121 133 •157 у" 65 82 83 94 105 125 132 134 142 180 Требуется построить уравнения прямых регрессии и сделать их статистиче- ский анализ. ► Для построения уравнений прямых регрессии требуется вычислить число- вые характеристики (3.4). Для этого составляем табл. 4.2. 79
Таблица 4.2. Расчет характеристик эмпирической линейной регрессии / Х, У',’ X2 у2 у;'2 У1 W (у"-у;)2 Л = =B0+BiXz (й-Ю2 1 45 52 65 2025 2704 4225 58.5 2632.5 169 60.1 2.56 2 54 70 82 2916 4900 6724 76 4104 144 70.0 36 3 63 74 83 3969 5476 6889 78.5 4945.5 81 80.0 2.25 4 74 87 94 5476 7569 8836 90.5 6697 49 92.1 2.56 5 85 92 105 7225 8464 11025 98.5 8372.5 169 104.3 33.64 6 93 117 125 8649 13689 15625 121 11253 64 113.2 60.84 7 104 123 132 10816 15129 17424 127.5 13260 81 125.3 4.84 8 111 121 134 12321 14641 17956 127.5 14152.5 169 133.1 31.36 9 123 133 142 15129 17689 20164 137.5 16912.5 81 146.3 77.44 10 135 157 180 18225 24649 32400 168.5 22747.5 529 159.6 79.21 2 887 2168 86751 256178 1084 105077 1536 — 330.7 С помощью таблицы 4.2 находим х = 887/10 = 88.7; у = 2168/20 = 108.4; а2Х = 86751/10 = 8675.1; a2Y = 256178/20 = 12808.9; ю ю = Еш + УЛ/20 = у, /10 = 105077/10 = 10507.7; /=1 /=1 sx = V8675.1 — 88.72 = 28.415; sr = 712808.9-108.42 = 32.532; Кху = 10507.7-88.7-108.4 = 892.62; гху = 892.62/(28.415 • 32.532) = 0.96562; Bl =rXY-sYlsx =0.96562-32.532/28.415 = 1.1055; Во = у - xBt = 108.4-88.7 • 1.1055 = 10.342. Уравнение прямой регрессии у на х: у = В0^-В1х = 10.342 + 1.1055х «10.3 +1.11х. Уравнение прямой регрессии х на у: 80
У). <=> x = 0.844y-2.7 <» >- = 3.2 + 1.19x. SX SY Построим прямые регрессии и экспериментальные точки (рис. 4.5). Рис. 4.5. Экспериментальные точки и прямые регрессии в примере 4.2 Статистический анализ результатов. 1. Вычисляем остаточную дисперсию и остаточное среднее квадратиче- ское отклонение. т и, 10 10 бв = "^)2 = E[w~£)2 + (Х-У/)2]=0-5Х(^-Х)2 = 2=1 У=1 2 = 1 2 = 1 = 0.5-1536 = 768; т 10 Qh = (Я - У. )2 = ^У. - Л)2 = 2 • 330.7 = 661.4; 2=1 2=1 б = бв + бн = 768 + 661.4 = 1429.4. По формуле (4.1): s = jQKn-T) = ^/1429.4/18 = 8.911« 8.91. По формуле (4.2) вычисляем 5 для контроля: s = 32532^|(iZa965622) = 8.914 « 8.91. 2. Суждение об адекватности линейной модели по чертежу, остаточной дисперсии и коэффициенту корреляции. Экспериментальные точки достаточ- но хорошо группируются около прямых регрессии. Остаточная дисперсия s ма- ла по сравнению с Sy и sx. Коэффициент корреляции г%у близок к 1. Вывод: линейная модель регрессии адекватна экспериментальным данным. 81
Тангенс угла между прямыми регрессии равен 0.035 - очень мал - прямые почти сливаются, т. е. экспериментальные точки связаны зависимостью, близ- кой к линейной - очень сильной зависимостью. * 3. Проверка адекватности линейной модели с помощью критерия Фи- шера. Находим отношение Фишера /^ = = (0.093/8.764)2 =1.076. Выбира- ем уровень значимости а = 0.05 и по таблице находим квантиль распределения Фишера /*0.95(8,10) = 3.07. Видим, что F* < /*0 95(8,10). Это неравенство озна- чает, что линейная модель адекватна опытным данным с доверительной вероят- ностью 0.95. * 4. Границы доверительных интервалов для коэффициентов Pq, Pi ли- нейной модели регрессии при доверительной вероятности 1-а = 0.95. При- меняем формулы (4.11), (4.12). Для р0: Во ± = 1034 ± 2.101 • 8.91^8675.1/(28.42 • V20)=103 ± 13.7, для р! : В\ ±'0.975(1 8)5/(5хл/м) = 1.11 ± 2.101 - 8.91/(28.42• V20) = 1.11 ±0.15. * 5. Границы доверительного интервала для функции регрессии У = ₽О + Р1Х с доверительной вероятностью 1-а = 0.95. Применяем формулу (4-13). у ± /0 95(18)s/l + (x-x)2/4/'Jn = у ± 2.101 • 8.91 • /1 + (х - 88.7)2/28.422 />/20 = = у ± 4.19/1+ (х-88.7)2/807.4. Здесь у = BQ + Bjx = 10.3 +1.1 lx. Применим полученные формулы для прогноза у при х = 100. Тогда у(100) = 10.3 + 111 = 121.3; у ± 4.19/1 + (100 - 88.7)2/807.4 = 1213 ± 4.5. Таким образом, у = 121.3 (±4.5), или иначе: 116.8 < у < 125.8. 4 Контрольные вопросы и задачи для самопроверки к главе 5 1. Что такое регрессионный анализ? 2. Напишите формулу для вычисления выборочного коэффициента корреля- ции. 3. Как проверяется статистическая гипотеза о равенстве нулю коэффициента корреляции? 4. Что такое регрессионный анализ? 5. Что такое эмпирическая простая линейная регрессия? 6. В чем состоит метод наименьших квадратов? 82
7. Выведите формулы для нахождения параметров Bq, В\ эмпирической простой линейной регрессии по экспериментальным данным. 8. Что такое остаточная дисперсия? 9. Выведите формулу, выражающую остаточное среднее квадратическое от- клонение через выборочный коэффициент корреляции. 10. Запишите уравнения прямых регрессии «у на х» и «л на у» в симмет- ричной форме. 11. Как ведут себя прямые регрессии при г^у -» 0 и гуу -»1 ? 12. Какая регрессия называется адекватной опытным данным? 13. Как проверить адекватность простой линейной регрессии опытным дан- ным с помощью чертежа, остаточной дисперсии и выборочного коэффициента корреляции? 14. Как проверить адекватность простой линейной регрессии опытным дан- ным с помощью двух независимых выборок? *15 . Как проверить адекватность простой линейной регрессии опытным данным с помощью выборки с повторными измерениями? 16. По опытным данным объема п = 26 найден эмпирический коэффициент корреляции г^у=0.6. Проверьте наличие вероятностной зависимости между случайными величинами X и Y с помощью формул (1.7), (1.8). 17. Составьте уравнения прямых регрессии по следующим опытным дан- ным: х = 12; у = 0.8; s% = 2.1; sY = 1.3; r%y = 0.6. Вычислите тангенс угла меж- ду прямыми регрессии по формуле tg(p = (^2+ гДе = £2 = кх/у> и постройте эти прямые на плоскости. 83
Перечень знаний, умений и навыков, которыми должен овладеть студент, изучив математическую статистику 1°. Знания на уровне понятий, определений, описаний, формулировок. 1. Генеральная совокупность. Выборка. Простой случайный выбор. Репре- зентативная и однородная выборки. Вариационный и статистический ряды. Группированный статистический ряд. Распределение выборки. 2. Числовые и функциональные характеристики выборки (выборочные среднее, дисперсия, начальные и центральные моменты, экстремальные эле- менты, медиана, квартили, функция распределения). 3. Графические методы описания выборочного распределения (полигон, гистограмма, кумулятивная ломаная - график эмпирической функции распре- деления). 4. Точечные оценки числовых характеристик и параметров распределения генеральной совокупности. 5. Требования к точечным оценкам: состоятельность, несмещенность, эф- фективность, асимптотическая эффективность, робастность. 6. Свойства выборочной дисперсии (состоятельность, смещенность). Не- смещенная оценка дисперсии. 7. Метод подстановки (аналогии) получения точечных оценок числовых ха- рактеристик генерального распределения. 8. Методы моментов и максимума правдоподобия получения оценок пара- метров генерального распределения. 9. Доверительный интервал (интервальная оценка) числовой характеристики или параметра генерального распределения. Точность и надежность точечной оценки. 10. Статистическая гипотеза. Критерий проверки. Статистика критерия. Уровень значимости. Критическая область. Ошибки первого и второго рода. Критерий согласия. Общая схема проверки статистической гипотезы. 11. Критерий проверки гипотезы о равенстве дисперсий двух нормальных генеральных совокупностей. 12. Критерий проверки гипотезы о равенстве математических ожиданий двух нормальных генеральных совокупностей. 13. Критерий хи-квадрат проверки гипотезы о распределении генеральной совокупности с неизвестными параметрами. 14. Выборочный коэффициент корреляции. Проверка гипотезы о наличии или отсутствии зависимости между случайными величинами с помощью выбо- рочного коэффициента корреляции. 15. Задача регрессии. Полиномиальная эмпирическая регрессия. Эмпириче- ская простая линейная регрессия. 16. Метод наименьших квадратов построения регрессии. 84
17. Прямые линейной эмпирической регрессии «у на л» и «х на у». 18. Проверка адекватности эмпирической простой линейной регрессии опытным данным. 2°. Знания на уровне доказательств и выводов. 1. Теорема о приближении по вероятности эмпирической функции распре- деления к функции распределения генеральной совокупности. 2. Состоятельность и несмещенность выборочного среднего как оценки ге- нерального математического ожидания. 3. Нахождение по методам моментов и максимума правдоподобия оценок параметров законов Пуассона, равномерного, показательного, нормального (выборочно). 4. Построение доверительного интервала для математического ожидания нормальной генеральной совокупности по методу Стьюдента. 5. Построение доверительного интервала для математического ожидания произвольной генеральной совокупности при большом объеме выборки на ос- нове центральной предельной теоремы. 6. Построение эмпирической простой линейной регрессии по методу наи- меньших квадратов. 3°. Умения в решении задач. Студент должен уметь: 1. Строить вариационный ряд, группированный статистический ряд, поли- гон, гистограмму, график эмпирической функции распределения по выборке. 2. Вычислять оценки математического ожидания, дисперсии, моментов по готовым формулам на основе выборки. 3. Строить доверительный интервал для математического ожидания нор- мальной случайной величины по методу Стьюдента. 4. Строить доверительный интервал для математического ожидания любой случайной величины в случае большой выборки на основе центральной пре- дельной теоремы. 5. Проверять гипотезы о равенстве дисперсий и математических ожиданий двух нормальных генеральных распределений. 6. Проверять гипотезу о законе распределения по методу хи-квадрат. 7. Строить эмпирическую простую линейную регрессию по готовым форму- лам на основе заданной двумерной выборки. Ответы и решения задач для самопроверки К главе 1. 14. 01,05, 07, 10,14,22, 52, 56, 58,67, 77, 86,90,94,98. 1S- xmrn =0-1; xmax =98; med = 56; гхц = 10; z3/4=86. 16. med = 56; tq = 48; tR = 495; x = 49.13. 85
К главе 2. 12. m = a/b\ a2 = a/b2 ; m/а2 = Ь; а-тЬ-п^/а2 =з> а = х2/^; b-x/s1. 13. т = Jxoxq x“a-1dfr = ахо jx~adx = axj хо“а/(а -1) = ах0/(а -1); т = х; х0 х0 х=ах0/(а-1) => а = х/(х-х0). 14. А = а"хоа(х1...хл)“а~1; 1п£ = и1па + лаЫх0-(ачЛ)^Г1пх* ; к=1 ^=Л+й1пх0-£1п**=0; Ь=1 Л=1 П fl П / п х а= nSblx*-Inxo =* d = HZlnx*_,nx0 =Л/^1п^- V *=1 / V *=1 J / £=1 0 К главе 3. 6. Г09(10) = 1.372; /0.99U0) = 2-764. 7. По формуле (5.4) находим е = ^(i+y)/2 /4п = 2 • Uq 975/>/400 = 2 • 1.96/20 = 0.196 * 0.2. К главе 4. 15. Проверяем сначала гипотезу о равенстве дисперсий. Находим выбороч- ное значение статистики Фишера FB = 1.4/1.3 = 1.08. По таблице V находим квантиль F\^a(klyk2) = F095(60,60) = 1.5 распределения Фишера. Видим, что FB<L5. Гипотеза о равенстве дисперсий принимается. Сравниваем математи- ческие ожидания. Вычисляем выборочное значение Тъ по формуле (5.4). 7 * /тп(т + п-2) 5,2 -5.1 1602(60+ 60 - 2) _ q ’ у/т^+и^ т+п ' 7б0 (1.32 + 1.42)’ 60+60 По таблице Ш находим квантиль + w - 2) = /О.975018) = W8 • Видим, что |7^| < 1.98. Расхождение между х и у не значимо. Гипотеза Яо о равенстве ма- тематических ожиданий принимается. К главе 5.__ 16. |/*лт|^л“ 1 = 0-6-V25 = 3>2.5. Зависимость фиксируется на уровне зна- чимости a = 0.05. 17. Уравнение прямой регрессии «у на х »: (у - 0.8)/1.3 = 0.6(х -1.2)/2.1; = ку/х = 0.6 • 1.3/2.1 = 0.37. Уравнение прямой регрессии «х на у»: 86
(х -1.2)/2.1 = 0.6(у - 0.8)/1.3; к2 = кх/у = 13/(06 • 2.1) = 1.03; tgср = (1.03 - 0.37)/(1 +1.03 • 0.37) = 0.48; ф « 26°. Литература 1. АсатурянВ.И. Теория планирования эксперимента. - М.: Радио и связь, 1983, 248 с. 2. Большее Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1983,416 с. 3. Вентцель Е.С. Теория вероятностей. - М.: Физматгиз, 1962, 564 с. 4. Вероятностные разделы математики / под ред. Максимова Ю.Д. - СПб.: Изд. Иван Федоров, 2001, 600 с. 5. Гмурман В.Е. Руководство к решению задач по теории вероятностей и ма- тематической статистике. - М.: Высшая школа, 1975, 336 с. 6. Турский Е.И. Сб. задач по теории вероятностей и математической статисти- ке. -Минск: Вышейшая школа, 1975, 270 с. 7. Деврой Л., Дьёрфи. Непараметрическое оценивание плотности. - М.: Мир, 1988. 8. Ивченко Г.И., Медведев Ю.И. Математическая статистика. - М.: Высшая школа, 1984, 248 с. 9. Коваленко И.Н., Филиппова А. А. Теория вероятностей и математическая статистика. - М.: Высшая школа, 1973, 368 с. 10. Колемаев В.А., Староверов О.В., Турундаевский В.Б. Теория вероятностей и математическая статистика. - М.: Высшая школа, 1991,400 с. И. Крамер Г. Математические методы статистики. -М.: Мир, 1975, 648 с. 12. Линник Ю.В. Метод наименьших квадратов и основы теории обработки на- блюдений. - М.: Физматгиз, 1962, 350 с. 13. Максимов Ю.Д. Математика. Выпуск 7. Теория вероятностей. Опорный конспект. - СПб.: Изд. СПбГТУ, 2000, 76 с. 14. Математическая статистика. Математика в техн, университете. Т. XVII / под ред. Зарубина В.С., КрищенкоА.П. - М.: Изд. МГТУ им. Н.Э. Баумана, -2001,424 с. 15. Регина Шторм. Теория вероятностей. Математическая статистика. Стати- стический контроль качества. - М.: Мир, 1970, 368 с. 16. Сб. задач по математике для втузов. Теория вероятностей и математическая статистика, т. 3. / под ред. А.В. Ефимова. - М.: Наука, 1990,432 с. 17. Сб. задач по теории вероятностей, математической статистике и теории слу- чайных функций / под ред. А.А. Свешникова. - М.: Наука, 1970, 656 с. 18. Смирнов Н.В., Дунин-Барковский И.В. Краткий курс математической стати- стики для технических приложений. - М.: Физматгиз, 1959,436 с. 87
19. ТьюкиДж. Анализ результатов наблюдений. Разведочный анализ. - М.: Мир, 1981,694 с. 20. Чудесенко В.Ф. Сб. заданий по специальным курсам высшей математики. Типовые расчеты. - М.: Высшая школа, 1999, 128 с. 88
ПРИЛОЖЕНИЕ. СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ Таблица I. Значения нормированной функции Лапласа Фо(^)=-7==Р-'2/2^- -к/УТГ J X 0 1 2 3 4 5 6 7 8 9 0.0 0.00000 00399 00798 01197 01595 01994 02392 02790 03188 03586 0.1 03983 04380 04776 05172 05567 05962 06356 06749 07142 07535 0.2 07926 ОЙ 17 08706 09095 09483 09871 10257 10642 11026 11409 0.3 11791 12172 12552 12930 13307 13683 14058 14431 14803 15173 0.4 15542 15910 16276 16640 17003 17364 17724 18082 18439 18793 0.5 19146 19497 19847 20194 20540 20884 21226 21566 21904 22240 0.6 22575 22907 23237 23565 23891 24215 24537 24857 25175 25490 0.7 25804 26115 26424 26730 27035 27337 27637 27935 28230 28524 0.8 28814 29103 29389 29673 29955 30234 30511 30785 31057 31327 0.9 31594 31859 32121 32381 32639 32894 33147 33398 33646 33891 1.0 34134 34375 34614 34849 35083 35314 35543 35769 35993 36214 1.1 36433 36650 36864 37076 37286 37493 37698 37900 38100 38298 1.2 38493 38686 38877 39065 39251 39435 39617 39796 39973 40147 1.3 40320 40490 40658 40824 40988 41149 41308 41466 41621 41774 1.4 41924 42073 42220 42364 42507 42647 42785 42922 43056 43189 1.5 43319 43448 43574 43699 43822 43943 44062 44179 44295 44408 1.6 44520 44630 44738 44845 44950 45053 45154 45254 45352 45449 1.7 45543 45637 45728 45818 45907 45994 46080 46164 46246 46327 1.8 46407 46485 46562 46638 46712 46784 46856 46926 46995 47062 1.9 47128 47193 47257 47320 47381 47441 47500 47558 47615 47670 2.0 47725 47778 47831 47882 47932 47982 48030 48077 48124 48169 2.1 48214 48257 48300 48341 48382 48422 48461 48500 48537 48574 2.2 48610 48645 48679 48713 48745 48778 48809 48840 48870 48899 2.3 48928 48956 48983 49010 49036 49061 49086 49111 49134 49158 2.4 49180 49202 49224 49245 49266 49286 49305 49324 49343 49361 2.5 49379 49396 49413 49430 49446 49461 49477 49492 49506 49520 2.6 49534 49547 49560 49573 49585 49598 49609 49621 49632 49643 2.7 49653 49664 49674 49683 49693 49702 49711 49720 49728 49736 2.8 49744 49752 49760 49767 49774 49781 49788 49795 49801 49807 2.9 49813 49819 49825 49831 49836 49841 49846 49851 49856 49861 X 3.0 3.5 4.0 5.0 ф0(*) 0.49865 0.49977 0.499968 0.49999997 Таблица II. Квантили ир нормального распределения jV(O, 1) Р 0.90 0.95 0.975 0.99 0.995 0.999 0.9995 UP 1.282 1.645 1.960 2.326 2.576 3.090 3.291 89
Таблица III. Квантили tp(k) распределения Стьюдента Т(к) к - число степеней свободы распределения; р - порядок квантили. z, А z,4 ( 2ч-(^2)/2 /г(х) = + i-j 0.750 0.900 0.950 0.975 0.990 0.995 0.999 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 оо 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.681 0.679 0.677 0.674 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.684 1.671 1.658 1.645 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.021 2.000 1.980 1.960 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.423 2.390 2.358 2.326 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 • 2.771 2.763 2.756 2.750 2.704 2.660 2.617 2.576 318 22.3 10.2 7.173 5.893 5.208 4.785 4.501 4.297 4.144 4.025 3.930 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.307 3.232 3.160 3.090 90
Таблица IV. Квантили Хр(Аг) распределения хи-квадрат х2(*) р - порядок квантили; к - число степеней свободы распределения. 0.90 0.95 0.99 0.90 0.95 0.99 1 2.71 3.84 6.63 21 29.62 32.67 38.93 2 4.61 5.99 9.21 22 30.81 33.92 40.29 3 6.25 7.81 11.34 23 32.01 35.17 41.64 4 7.78 9.49 13.28 24 33.20 36.42 42.98 5 9.24 11.07 15.09 25 34.38 37.65 44.31 6 10.64 12.59 16.81 26 35.56 38.89 45.64 7 12.02 14.07 18.48 27 36.74 40.11 46.96 . 8 13.36 15.51 20.09 28 37.92 41.34 48.28 9 14.68 16.92 21.67 29 39.09 42.56 49.59 10 50.99 18.31 23.21 30 40.26 43.77 50.89 11 17.28 19.68 24.72 40 51.80 55.76 63.69 12 18.55 21.03 26.22 50 63.17 67.50 76.15 13 19.81 22.36 27.69 60 74.40 79.08 88.38 14 21.06 23.68 29.14 70 85.53 90.53 100.42 15 22.31 25.00 30.58 80 96.58 101.88 112.33 16 23.54 26.30 32.00 90 107.56 113.14 124.12 17 24.77 27.59 33.41 100 118.50 124.34 135.81 18 25.99 28.87 34.81 19 27.20 30.14 36.19 20 28.41 31.14 37.57 Плотность вероятности распределения хи-квадрат х2 W 42(Х) = [2~i/2r~l(k/2)x(i-2)/2e~x/2, х >0. 91
Таблица V. Квантили распределения Фишера р - порядок квантили; къ к2 - числа степеней свободы. р = 0.95 4 6 12 24 30 40 60 120 00 1 224.6 234.0 244.9 249.0 250.1 251.1 252.2 253.3 254.3 2 19.2 19.3 19.4 19.5 19.5 19.5 19.5 19.5 19.5 3 9.1 8.9 8.7 8.6 8.6 8.6 8.6 8.5 8.5 4 6.4 6.2 5.9 5.8 5.7 5.7 5.7 5.7 5.6 5 5.2 5.0 4.7 4.5 4.5 4.5 4.4 4.4 4.4 6 4.5 4.3 4.0 3.8 3.8 3.8 3.7 3.7 3.7 7 4.1 3.9 3.6 3.4 3.4 3.3 3.3 3.3 3.2 8 3.8 3.6 3.3 3.1 3.1 3.0 3.0 3.0 2.9 9 3.6 3.4 3.1 2.9 2.9 2.8 2.8 2.7 2.7 10 3.5 3.2 2.9 2.7 2.7 2.7 2.6 2.6 2.5 11 3.4 3.1 2.8 2.6 2.6 2.5 2.5 2.4 2.4 12 3.3 3.0 2.7 2.5 2.5 2.4 2.4 2.3 2.3 13 3.2 2.9 2.6 2.4 2.4 2.3 2.3 2.3 2.2 14 3.1 2.8 2.5 2.3 2.3 2.3 2.2 2.2 2.1 15 3.1 2.8 2.5 2.3 2.2 2.2 2.2 2.1 2.1 16 3.0 2.7 2.4 2.2 2.2 2.2 2.1 2.1 2.0 17 3.0 2.7 2.4 2.2 2.1 2.1 2.1 2.0 2.0 18 2.9 2.7 2.3 2.1 2.1 2.1 2.1 2.0 1.9 19 2.9 2.6 2.3 2.1 2.1 2.0 2.0 1.9 1.9 20 2.9 2.6 2.3 2.1 2.0 2.0 1.9 1.9 1.8 22 2.8 2.5 2.2 2.0 2.0 1.9 1.9 1.8 1.8 24 2.8 2.5 2.2 2.0 1.9 1.9 1.8 1.8 1.7 26 2.7 2.5 2.1 1.9 1.9 1.9 1.8 1.7 1.7 28 2.7 2.4 2.1 1.9 1.9 1.8 1.8 1.7 1.7 30 2.7 2.4 2.1 1.9 1.8 1.8 1.7 1.7 1.6 40 2.6 2.3 2.0 1.8 1.7 1.7 1.6 1.6 1.5 60 2.5 2.3 1.9 1.7 1.6 1.6 1.5 1.5 1.4 120 2.4 2.2 1.8 1.6 1.6 1.5 1.4 1.4 1.3 00 2.4 2.1 1.8 1.5 1.5 1.4 1.3 1.2 1.0 /Н*) = Плотность вероятности распределения Фишера F{k^k2): О, х<0; , х>0. к\ук2- натуральные числа. 92
Таблица VI. Равномерно распределенные случайные числа 98 52 01 77 67 14 90 56 86 07 22 10 94 05 58 60 97 09 34 33 50 50 07 39 98 11 80 50 54 31 39 80 82 77 32 50 72 56 82 48 29 40 52 42,01 52 77 56 78 51 83 45 29 96 34 06 28 89 80 83 13 74 67 00 78 18 47 54 06 10 68 71 17 78 17 88 68 54 02 00 86 50 75 84 01 36 76 66 79 51 90 36 47 64 93 29 60 91 10 62 99 59 46 73 48 87 51 76 49 69 91 82 60 89 28 93 78 56 13 68 23 47 83 41 13 65 48 11 76 74 17 46 85 09 50 58 04 77 69 74 73 03 95 71 86 40 21 81 65 44 80 12 43 56 35 17 72 70 80 15 45 31 82 23 74 21 11 57 82 53 14 38 55 37 63 74 35 09 98 17 77 40 27 72 14 43 23 60 02 10 45 52 16 42 37 96 28 60 26 55 69 91 62 68 03 66 25 22 91 48 36 93 63 72 03 76 62 11 39 90 94 40 05 64 18 09 89 32 05 05 14 22 56 85 14 46 42 75 67 88 96 29 77 88 22 54 38 21 45 98 91 49 91 45 23 68 47 92 76 86 46 16 28 35 54 94 75 08 99 23 37 08 92 00 48 80 33 69 45 98 26 94 03 68 58 70 29 73 41 35 53 14 03 33 40 42 05 08 23 41 44 10 48 19 49 85 15 74 79 54 32 97 92 65 75 57 60 04 08 81 22 22 20 64 13 12 55 07 37 42 11 1000 20 40 12 86 07 46 97 96 64 48 94 39 28 70 72 53 15 63 60 64 93 29 16 5 0 53 44 84 40 21 95 25 63 43 65 17 70 82 07 20 73 1 7 90 61 19 69 04 46 26 45 74 77 74 51 92 43 37 29 65 39 45 95 93 42 58 26 05 27 15 47 44 52 66 95 27 07 99 53 59 36 78 38 48 82 39 61 01 18 33 21 15 94 66 94 55 72 85 73 67 89 75 43 87 54 62 24 44 31 91 19 04 25 92 92 92 74 59 73 42 48 11 62 13 97 34 40 87 21 16 86 84 87 67 03 07 11 20 59 25 70 14 66 70 23 52 37 83 17 73 20 88 98 37 68 93 59 14 16 26 25 22 96 63 05 52 28 25 62 04 49 35 24 94 75 24 63 38 24 45 86 25 10 25 61 96 27 93 35 65 33 71 24 72 00 54 99 76 54 64 05 18 81 59 96 11 96 38 96 54 69 28 23 91 23 28 72 95 29 35 96 31 53 07 26 89 80 93 54 33 35 13 54 62 77 97 45 00 24 90 10 33 93 33 59 80 80 83 91 45 42 72 68 42 83 60 94 97 00 13 02 12 48 92 78 56 52 01 06 46 05 88 52 36 01 39 09 22 86 77 28 14 40 77 93 91 08 36 47 70 61 74 29 41 32 17 90 05 97 87 37 92 52 41 05 56 70 70 07 86 74 31 71 57 85 39 41 18 38 69 23 46 14 06 20 11 74 52 04 15 95 66 00 00 18 74 39 24 23 97 11 89 63 35 19 56 54 14 30 01 75 87 53 79 40 41 92 15 85 66 67 43 68 06 84 96 28 52 07 45 15 51 49 38 19 47 60 72 46 43 66 79 45 43 59 04 79 00 33 20 82 66 95 41 94 86 43 19 94 36 16 81 08 51 34 88 88 15 53 01 54 03 54 56 05 01 45 11 76 98 08 62 48 26 45 24 02 84 04 44 99 90 88 96 39 09 47 34 07 35 44 13 18 80 33 18 51 62 32 41 94 15 09 49 89 43 54 85 81 88 69 54 19 94 37 54 87 30 43 80 95 10 04 06 96 38 27 07 74 20 15 12 33 87 25 01 62 52 98 94 62 46 11 71 79 75 24 91 40 71 96 12 82 96 69 86 10 25 91 74 85 22 05 39 00 38 75 95 79 18 63 33 25 37 98 14 50 65 71 31 01 02 46 74 05 45 56 14 27 77 93 89 19 36 74 02 94 39 02 77 55 73 22 70 97 79 01 71 19 52 52 75 80 21 80 81 45 17 48 54 17 84 56 11 80 99 33 71 43 05 33 51 29 69 56 12 71 92 55 36 04 09 03 24 11 66 44 98 83 52 07 98 48 27 59 38 17 15 39 09 97 33 34 40 88 46 12 33 56 48 32 47 79 28 31 24 96 47 10 02 29 53 68 70 32 30 75 75 46 25 02 00 99 94 69 07 49 41 38 87 63 79 19 76 35 58 40 44 01 10 51 82 16 15 01 84 87 69 38 93
Таблица VII. Нормирующие коэффициенты для устранения смещения оценок среднего квадратического отклонения а в случае нормального распределения [4] п 2 4 6 8 10 12 14 16 18 20 ks(n) 0.798 0.921 0.952 0.965 0.973 0.978 0.981 0.984 0.985 0.987 Ы”) 0.564 0.663 0.704 0.725 0.739 0,748 0.755 0.760 0.764 0.768 kR{n) 1.128 2.059 2.534 2.847 3.078 3.258 3.407 3.532 3.640 3.735 *,(») X 2.059 1.284 1.704 1.312 1.586 1.324 1.526 1.330 1.491 Несмещенные оценки о: s' = s/ks(n) - нормированное среднее квадратическое отклонение; d = d/kd(n) - нормированное среднее абсолютное отклонение; <7* = “ нормированная интерквартильная широта; Я* = R/kR(n) - нормированный размах. (см. 2°, §3, гл. 2). 94
Оглавление Предисловие......................................................... 3 Введение............................................................ 4 Глава 1. Описательная статистика.................................... 6 § 1. Генеральная совокупность. Выборка. Выбор................... 6 §2 . Вариационный и статистический ряды........................ 10 §3 . Выборочная функция распределения........................... 12 §4 . Выборочные числовые характеристики......................... 14 § 5. Группированный статистический ряд. Гистограмма............ 18 Контрольные вопросы и задачи для самопроверки к главе 1......... 23 Глава 2. Точечное оценивание числовых характеристик и параметров распределения генеральной совокупности........................... 24 §1 . Понятие точечной статистической оценки. Требования к оценкам. 24 §2 . Свойства выборочного среднего и выборочной дисперсии...... 27 §3 . Свойства оценок для т и с в случае нормального распределения. 29 §4 . Метод моментов получения оценок параметров генерального распределения................................................... 30 §5 . Метод максимального правдоподобия получения оценок параметров генерального распределения........................... 32 Контрольные вопросы и задачи для самопроверки к главе 2......... 35 Глава 3. Интервальное оценивание числовых характеристик и параметров распределения генеральной совокупности................ 37 §1 . Доверительный интервал. Точность и надежность оценки...... 37 §2 . Точность и надежность оценивания вероятности события с помощью его относительной частоты при большом объеме выборки......................................................... 38 §3 . Доверительный интервал для математического ожидания т нормальной генеральной совокупности............................. 40 ♦§4. Доверительный интервал для среднего квадратического отклонения о нормальной генеральной совокупности.............. 41 §5. Доверительный интервал для математического ожидания т любой генеральной совокупности при большом объеме выборки..... 42 ♦§6. Доверительный интервал для среднего квадратического отклонения о любой генеральной совокупности при большом объеме выборки................................................ 44 Контрольные вопросы и задачи для самопроверки к главе 3......... 46 Глава 4. Проверка статистических гипотез........................... 47 § 1. Виды статистических гипотез............................... 47 §2 . Критерий значимости. Общая схема проверки статистических гипотез......................................................... 48 95
§3 . Ошибки первого и второго рода. Односторонний и двусторонний критерии...................................................... 50 §4 . Проверка гипотезы о равенстве дисперсий двух нормальных генеральных совокупностей..................................... 51 §5 . Проверка гипотезы о равенстве математических ожиданий двух генеральных совокупностей..................................... 53 §6 . Проверка гипотезы о равенстве вероятностей двух событий с помощью доверительного интервала при больших объемах выборок....................................................... 57 §7 . Проверка гипотезы о законе распределения генеральной совокупности.................................................. 58 Контрольные вопросы и задачи для самопроверки к главе 4....... 64 Глава 5. Корреляционный и регрессионный анализ................... 65 §1 . Корреляционный анализ................................... 65 §2 . Общие сведения о регрессионном анализе.................. 68 §3 . Метод наименьших квадратов.............................. 70 §4 . Статистический анализ эмпирической простой линейной регрессии..................................................... 72 Контрольные вопросы и задачи для самопроверки к главе 5....... 82 Перечень знаний, умений и навыков, которыми должен овладеть студент, изучив математическую статистику...................... 84 Ответы и решения задач для самопроверки.......................... 85 Литература....................................................... 87 Приложение. Статистические таблицы............................... 89 Таблица I. Значения нормированной функции Лапласа............. 89 Таблица II. Квантили ир нормального распределения V(0,1) ..... 89 Таблица III. Квантили tp(k) распределения Стьюдента Т(к)...... 90 Таблица IV. Квантили Хр(^) распределения хи-квадрат %2 (к).... 91 Таблица V. Квантили распределения Фишера ...... 92 Таблица VI. Равномерно распределенные случайные числа......... 93 Таблица VII. Нормирующие коэффициенты для устранения смещения оценок среднего квадратического отклонения о в случае нормального распределения............................ 94 96
Максимов Юрий Дмитриевич МАТЕМАТИКА Выпуск 8 МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Опорный конспект Лицензия ЛР №020593 от 07,08.97. Подписано в печать 18.07.2002. Формат 60x84/16. Печать офсетная. Усл. печ. л. 6. Уч.-изд. л. 6. Тираж 200. Заказ 551. Отпечатано с готового оригинал-макета, предоставленного автором, в типографии Издательства СП6ГПУ. 195251, Санкт-Петербург, Политехническая ул., 29.