Text
                    МАТЕМАТИКА
В ТЕХНИЧЕСКОМ УНИВЕРСИТЕТЕ
■а
XVII
МАТЕМАТИЧЕС1САЯ
СТАТИСТИКА
i
i
Издательство МГТУ имени Н.Э.Баумана


Комплекс учебников из 20 выпусков Под редакцией В. С. Зарубина и А. П. Крищснко I. Введение в анализ П. Дифференциальное исчисление функций одного переменного III. Аналитическая геометрия IV. Линейная алгебра V. Дифференциальное исчисление функций многих переменных VI. Интегральное исчисление функций одного переменного VII. Кратные и криволинейные интегралы. Элементы теории поля VIII. Дифференциальные уравнения IX. Ряды X. Теория функций комплексного переменного XI. Интегральные преобразования и операционное исчисление XII. Дифференциальные уравнения математической физики XIII. Приближенные методы математической физики XIV. Методы оптимизации XV. Вариационное исчисление и оптимальное управление XVI. Теория вероятностей XVII. Математическая статистика XVIII. Случайные процессы XIX. Дискретная математика XX. Исследование операций
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Под редакцией д-ра техн. наук, профессора B.C. Зарубина и д-ра физ.-мат. наук, профессора А. П. Крищенко Допущено Министерством образования Российской Федерации в качестве учебника для студентов высших технических учебных заведений Москва Издательство МГТУ им. Н. Э. Баумана 2001
УДК 519.22(075.8) ББК 22.172 М34 Рецензенты: проф. Ю.Н. Тюрин, проф. Э.К. Лецкий М34 Математическая статистика: Учеб. для вузов / В.Б. Го- ряинов, И.В. Павлов, Г.М. Цветкова и др.; Под ред. B.C. Зарубина, А.П. Крищенко. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2001. -424 с. (Сер. Математика в техническом университете; Вып. XVII). ISBN 5-7038-1730-7 (Вып. XVII) ISBN 5-7038-1270-4 Предлагаемая книга, выпущенная в серии "Математика в техническом университете", знакомит читателя с основными понятиями математической статистики и некоторыми из ее приложений. Ее отличительной особенностью является взвешенное сочетание математической строгости с прикладной направленностью задач. Каждую главу книги завершает большой набор типовых примеров, контрольных вопросов и задач для самостоятельного решения. Содержание учебника соответствует курсу лекций, который авторы читают в МГТУ им. Н.Э. Баумана. Для студентов технических университетов. Может быть полезен преподавателям, аспирантам и инженерам. Ил. 28. Табл. 63. Библиогр. 35 назв. Выпуск книги финансировал Московский государственный технический университет им. Н.Э. Баумана УДК 519.22(075.8) ББК 22.172 © В.Б. Горяинов, И.В. Павлов, Г.М. Цветкова, О.И. Тескин, 2001 © Московский государственный технический университет ISBN 5-7038-1730-7 (Вып. XVII) им* НЭ" БаУмана>2001 ISBN 5-7038-1270-4 © Издательство МГТУ им. Н.Э. Баумана, 2001
ПРЕДИСЛОВИЕ Предлагаемая книга является выпуском XVII комплекса учебников „Математика в техническом университете". Хочется надеяться, что она будет полезна при овладении прикладными методами теории математической статистики. Математическая статистика — раздел математики, который занимается разработкой методов получения научно обоснованных выводов о массовых явлениях и процессах по данным наблюдений или экспериментов. Например, по имеющейся информации о числе бракованных изделий в партии готовой продукции надо сделать вывод о качестве используемого технологического процесса. Математическая статистика предполагает вероятностную природу данных наблюдений, поэтому она основана на понятиях и методах теории вероятностей. Задачи математической статистики в известной мере являются обратными к задачам теории вероятностей. Если в теории вероятностей мы считаем заданной вероятностную модель случайного явления и делаем расчет вероятностей интересующих нас событий, то в математической статистике исходим из того, что вероятностная модель не задана (или задана не полностью), а в результате эксперимента стали известны реализации каких-либо случайных событий. На основе статистических данных математическая статистика подбирает подходящую вероятностную модель для получения вывода о рассматриваемом явлении или процессе. Проиллюстрируем сказанное на примере. Постановка задачи теории вероятностей. Вероятность выпадения „герба" при подбрасывании монеты известна и равна р. Какова вероятность того, что при п подбрасываниях монеты герб выпадет к раз, где 0 ^ к ^ п?
ПРЕДИСЛОВИЕ Постановка задачи математической статистики. Монету подбрасывали п раз, и „герб" выпал к раз. Что можно сказать о вероятности выпадения герба при одном подбрасывании? Возможны и другие постановки задачи. Например, проверить, можно ли на основании полученных данных считать, что вероятность выпадения „герба" при одном подбрасывании равна ро- В настоящее время математическая статистика — обширный раздел математики. В предлагаемой читателю книге рассмотрены основные понятия математической статистики и решаемые ею задачи: оценивание неизвестных параметров распределения вероятностей, проверка статистических гипотез, установление формы и степени связи между несколькими случайными переменными. Отличительной особенностью прелагаемого учебника является также изложение непараметрических методов математической статистики, приобретающих все большую популярность в технических приложениях. Непараметрические методы стали доступными в инженерной практике благодаря появлению персональных компьютеров и пакетов прикладных программ по математической статистике. Построение книги имеет блочную структуру. В каждой главе после изложения теоретического материала даны типовые примеры с решениями, а также контрольные вопросы и задачи для самостоятельного решения. Наличие большого количества примеров и задач позволяет использовать книгу не только как учебник, но и как задачник при проведении семинарских занятий. Место этого учебника среди многих других книг и руководств по математической статистике определяется желанием дать доступное для инженеров изложение основ теории, не перегруженное строгими выводами. Более требовательный читатель может обратиться к специальной литературе, используя имеющиеся в тексте ссылки.
Содержательная сторона статистических моделей разъясняется на конкретных примерах преимущественно из инженерной практики. Таким образом, по замыслу авторов, учебник должен заполнить пробел между руководствами по математической статистике, имеющими „рецептурный" стиль изложения, и университетскими курсами, требующими математической подготовки в объеме, не предусмотренном программами технических вузов. Следует отметить, что, поскольку книга рассчитана на читателей, впервые знакомящихся с математической статистикой, авторы старались не допускать двойственного толкования обозначений, как это принято в учебных пособиях и монографиях, предназначенных для подготовленного читателя. Для уточнения того, что нужно знать из других разделов математики для чтения учебника, в начале книги сформулированы вопросы для самопроверки. При зтом понятия и термины, которые нужно знать и которые были введены в других выпусках серии „Математика в техническом университете", в вопросах выделены прямым полужирным шрифтом. Далее помещен список основных обозначений, содержащий часто встречающиеся в тексте символы и их расшифровку. В конце книги приведены таблицы некоторых распределений, список рекомендуемой литературы и предметный указатель, в который входят в алфавитном порядке (по существительному в именительном падеже) все выделенные в тексте полужирным курсивом термины с указанием страниц, на которых они строго определены или описаны. Выделение термина светлым курсивом означает, что в данном параграфе он является одним из ключевых слов и читателю должно быть известно значение термина. Читатель может уточнить это значение, найдя при помощи предметного указателя необходимую страницу. Ссылки в тексте на номера формул, рисунков и таблиц набраны обычным шрифтом (например, (1.5) — пятая формула в главе 1; рис. 3.2 — второй рисунок в главе 3; табл. 1.4 —
8 ПРЕДИСЛОВИЕ четвертая таблица в главе 1), а на параграфы и таблицы в приложениях— полужирным (например, 1.3 — третий параграф в главе 1, табл. П.2 — вторая таблица приложения), В квадратных скобках даны ссылки на другие выпуски серии, например [X] — ссылка на десятый выпуск. Авторы приносят глубокую благодарность И.К.Волкову, который оказал серьезную помощь при написании книги. Задания для самопроверки 1. Что такое множество, подмножество? Какие множества называют конечными, счетными? Какие операции над множествами (подмножествами) Вы знаете? Какими свойствами обладают эти операции? Что такое отрезок, интервал, полуинтервал? [ I ] 2. Дайте определение отображения. Дайте определение действительной функции действительного переменного. Какую функцию называют монотонной, возрастающей, убывающей, неубывающей, четной, нечетной? Какую функцию называют обратной к данной? Какие функции называют полиномами? [I] 3. Что называют пределом функции f(x) при х —> а;о, при х -» +оо, при х -» —оо? Какую функцию называют непрерывной в точке, непрерывной слева в точке, в интервале, на отрезке? [I] 4. Дайте определение производной действительной функции действительного переменного. Дайте определение производной п-го порядка. [II] 5. Что такое матрица? Какую матрицу называют нулевой, диагональной, единичной, симметрической? Дайте определение произведения двух матриц. Какую квадратную матрицу называют невырожденной, вырожденной, неотрицательно определенной? Какую матрицу называют обратной по отношению к данной? Что называют рангом
9 матрицы? В чем состоит операция транспонирования матриц? Что называют следом матрицы, алгебраическим дополнением? [III] 6. Запишите неравенство Коши — Буняковского. В каком случае оно обращается в равенство? [IV] 7. Что такое случайный эксперимент (опыт) и из чего состоит множество его (элементарных) исходов? Что называют пространством элементарных событий (исходов)? Какое событие называют случайным? Перечислите операции над событиями и сформулируйте их свойства. Дайте классическое, статистическое и аксиоматическое определения вероятности. Что называют вероятностным пространством? [XVI] 8. Дайте определение условной вероятности. Какие события называют независимыми? [XVI] 9. Какую схему повторных испытаний называют схемой Бернулли (биномиальной)? Запишите формулу Бернул- ли. [XVI] 10. Дайте определения (скалярной) случайной величины, n-мерного случайного вектора закона распределения (вероятностей) случайной величины и случайного вектора (векторной случайной величины). [XVI] 11. Что называют рядом распределения дискретной случайной величины? Дайте определения функции распределения (вероятностей) одномерной и п-мерной случайных величин (случайного вектора). Сформулируйте свойства функции распределения одномерной и n-мерной случайных величин. [XVI] 12. Дайте определения плотности распределения (вероятностей) одномерной и n-мерной (векторной) случайных величин. [XVI] 13. Дайте определение квантили уровня ос (функции) распределения (случайной величины). [XVI] 14. Приведите определение математического ожидания (среднего значения) для дискретной и непрерывной случай-
10 ПРЕДИСЛОВИЕ ных величин. Перечислите свойства математического ожидания. [XVI] 15. Дайте определение дисперсии и среднего квадратичного отклонения случайной величины. Сформулируйте их свойства. [XVI] 16. Приведите определение начального и центрального моментов fc-ro порядка распределения случайной величины. [XVI] 17. Что называется медианой случайной величины? [XVI] 18. Дайте определение условного закона распределения (условной функции распределения, условной плотности распределения) случайной величины. [XVI] 19. Дайте определение условного математического ожидания, условной дисперсии случайной величины. Перечислите их свойства. Что такое регрессия, функция регрессии? Какую линию называют линией регрессии? [XVI] 20. Дайте определение ковариации и коэффициента корреляции двух случайных величин. Сформулируйте их свойства. Какие случайные величины называют независимыми, некоррелированными, одинаково распределенными? [XVI] 21. Какое распределение (закон распределения) называют биномиальным, нормальным, гауссовым, стандартным нормальным, равномерным, экспоненциальным (показательным), гамма-распределением, распределением Ко- П1И, распределением Пуассона, распределением Стью- дента? [XVI] 22. Какую случайную величину называют нормально распределенной, равномерно распределенной, экспоненциально распределенной, биномиально распределенной? Чему равны их математические ожидания и дисперсии? [XVI] 23. Какую матрицу называют ковариационной, корреляционной? [XVI]
11 24. Дайте определение корреляционного отношения. Какая связь существует между корреляционным отношением и коэффициентом корреляции? [XVI] 25. Что называют функцией от случайной величины? Как найти функцию распределения функции от случайной величины, зная закон распределения аргумента? Запишите выражение для плотности распределения монотонной функции от непрерывной случайной величины. Что называют композицией (сверткой) плотностей распределения случайных величин? [XVI] 26. Что можно сказать о распределении линейной комбинации случайных величин, распределенных по нормальному закону? [XVI] 27. Дайте определения сходимости по вероятности последовательности случайных величин и слабой сходимости последовательности функций распределения. [XVI] 28. Запишите второе неравенство Чебышева. Сформулируйте закон больших чисел в форме Бернулли и в форме Чебышева. [XVI] 29. Сформулируйте центральную предельную теорему (теорему Ляпунова) и интегральную теорему Муавра — Лапласа. [XVI]
ОСНОВНЫЕ ОБОЗНАЧЕНИЯ <4 и ► — начало и окончание доказательства # — окончание примера, замечания, теоремы без доказательства R — множество вещественных чисел 1-1.3 Rn — линейное арифметическое пространство IV р(ж), р(х;в) — плотность распределения вероятностей для непрерывной случайной величины X XVI, 1.1 в — параметр функции (плотности) распределения 1.1 0=(0Ь##М0Г) — вектор параметров функции (плотности) распределения 1.1 Р {А} — вероятность события А XVI р Yn —У Y — сходимость по вероятности последовательности °° {Yn} случайных величин к Y XYI Fn(x) => F(x) — сходимость по распределению (слабая сходимость) последовательности {Fn(x)} функций распределения к функции F(x) XVI Хп = (Хи •••! Хп) — случайная выборка объема п из генеральной совокупности X 1.1 afn = (a:i, ..., хп) — выборка объема п из генеральной совокупности X (реализация случайной выборки Хп) 1.1 Хп — выборочное пространство (множество значений случайной выборки) 1.1 V — класс (множество) распределений случайной выборки 1.1 Fx(x) — функция распределения генеральной совокупности X (случайной величины X) XVI, 1.1
13 {F(x)} — статистическая модель 1.1 ;<?*€©} — параметрическая модель 1.1 (л — г-й порядковый член вариационного ряда случайной выборки Хп 1.3 щ -— г-й член вариационного ряда выборки Хп 1.3 ...,fn) — функция распределения случайной выборки Хп объема п 1.1 <^ —♦ F{x,Xn) — выборочная функция распределения 1.3 Fn(x) — эмпирическая функция распределения 1.3 рп{х) — эмпирическая плотность распределения 1.3 д(Хп) — выборочная характеристика (статистика) 1.2 дв = д(хп) — выборочное значение (значение выборочной характеристики д(Хп)) 1.2 MX, /i — математическое ожидание случайной величины X XVI DJ,(72 — дисперсия случайной величины X XVI а — среднее квадратичное отклонение случайной величины XVI fik(Xn) — начальный выборочный момент fc-ro порядка (оценка начального момента к-го порядка) 1.3 fik — начальный момент fc-ro порядка выборки 1.3 $к(Хп) — центральный выборочный момент fc-ro порядка (оценка центрального момента fc-ro порядка) 1.3 Pit — центральный момент fc-ro порядка выборки 1.3 X — выборочное среднее (оценка математического ожидания) случайной выборки Хп 1.3 х — среднее (значение) выборки хп 1.3 Э2(Хп) — выборочная дисперсия (оценка дисперсии) случайной выборки Хп 1.3
14 ОСНОВНЫЕ ОБОЗНАЧЕНИЯ а2 — дисперсия выборки 1.3 Э(Хп) — выборочное среднее квадратичное отклонение (оценка среднего квадратичного отклонения) случайной выборки Хп 1.3 д — среднеее квадратичное отклонение выборки 1.3 S2(Xn) — исправленная несмещенная оценка дисперсии 8.1 S2 — значение S2(Xn) 8.1 S2(Xn) — оценка дисперсии при известном математическом ожидании 8.1 0(Хп) — точечная оценка параметра в 1.2 0 — значение оценки параметра в 1.2 р — коэффициент корреляции XVI-5.5, 1.3 K(Xn,Yn) — выборочный корреляционный момент (оценка корреляционного момента) 1.3 К — корреляционный момент выборки 1.3 p(Xn,Yn) — выборочный коэффициент корреляции (оценка коэффициента корреляции) 1.3 р — коэффициент корреляции выборки (значение оценки коэффициента корреляции) 1.3 Ь(в;Хп) — функция правдоподобия 2.2 ipn(Xi,...,Xn) — отношение правдоподобия 4.3 1(0) — количество информации по Фишеру 2.1 е(0) — показатель эффективности 2.1 0(Хп) — нижняя граница интервальной оценки для параметра в 1.2, 3.1 в(Хп) — верхняя граница интервальной оценки для параметра в 1.2, 3.1 (£(^п), £(£п)), (0,0) — доверительный интервал для параметра в 3.1
15 D<f — система 7-доверительных множеств 3.4 s(0) — оперативная характеристика 4.5 W — критическое множество 4.2 Я — статистическая гипотеза 4.1 М(в) — функция мощности критерия 4.5 7 — коэффициент доверия (доверительная вероятность) 3.1 г, r£v — корреляционное отношение 6.2 r(Xn,Yn) — оценка корреляционного отношения для пары случайных выборок Хп и Yn 6.2 ? — значение оценки корреляционного отношения 6.5 Pij(j(ij)) — частный коэффициент корреляции 6.5 Pij{J{i,j)){Xoni--">XNn) — оценка частного коэффициента корреляции 6.5 Pij(j(ij)) — значение оценки частного коэффициента корреляции 6.5 RVi R — множественный коэффициент корреляции (коэффициент детерминации) 6.5 Rv(XnjYn) — оценка множественного коэффициента корреляции 6.5 Rji — значение оценки множественного коэффициента корреляции 6.5 uq — квантиль уровня q стандартного нормального распределения 6.5 tq — квантиль уровня q распределения Стьюдента XVI Хд — квантиль уровня q распределения х2 Д-3.1 fq — квантиль уровня q распределения Фишера Д.ЗЛ 2) — случайная величина X имеет нормальное распределение с параметрами \х и а2 Д.3.1
16 ОСНОВНЫЕ ОБОЗНАЧЕНИЯ X~S(m) — случайная величина X имеет распределение Стью- дента с m степенями свободы Д.3.1 X ~ ^(т) — случайная величина X имеет распределение х2 с т степенями свободы Д*ЗЛ X ~ F(k,m) — случайная величина X имеет распределение Фишера скит степенями свободы Д.ЗЛ X ~ Г(Л,а) — случайная величина X имеет 7-Р^спределение с параметрами Л и а Д.ЗЛ X ~ П(Л) — случайная величина X имеет распределение Пуассона с параметром Л Д-3.1 Не — 7~зона Для параметра в 3.4 Т — класс допустимых моделей регрессии Д.7Л
17 Буквы латинского алфавита Начертание А а В Ь С с D d Е е F f Gg Н h I i J j К k L 1 M m A a В b С с D d E t F f G g H h I i J j К к L I. M m Произношение a бэ цэ ДЗ e зф же аш и йот ка эль эм Начертание N п О о Рр Qq R г S s Т t U u V v W w X х Yy Z z N n О о Рр Q ч R г S s Т t U и V v W w X х У У Z z Произношение эн о пэ ку эр эс тэ У вэ дубль-вэ икс игрек зэт Представлен наиболее употребительный (но не единственный) вариант произношения (в частности, вместо „йота иногда говорят „жи"). Буквы греческого алфавита Начертание А В Г д Е Z Н е а Р 7 S е С V 99 Произношение альфа бета гамма дельта эпсилон дзета эта тэта Начертание I К Л М N [И О П 1 К А V О 7Г Произношение йота каппа ламбда ми ни кси омикрон пи Начертание Р Е Т Т Ф X Ф fi Р а г V Ч> X Ф Произношение ро сигма тау ипсилон фи хи пси омега Наряду с указанным произношением также говорят „лямб- да", мю" и „ню".
1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ 1.1. Генеральная совокупность. Выборка. Выборочные характеристики Прежде чем ввести основные понятия математической статистики, рассмотрим пример. Некоторое стабильно работающее (т.е. работающее в одних и тех же условиях) предприятие изготавливает приборы, которые характеризуются некоторым количественным признаком. В силу влияния не поддающихся учету факторов значение количественного признака от прибора к прибору меняется. Например в случае, когда интерес представляет доля брака в производстве приборов, каждому изделию можно приписать значение 1, если прибор функционирует нормально, и значение 0, если прибор неисправен. Количественным признаком может быть также время бесперебойной работы прибора, точность измерительного прибора, чувствительность датчика и т.п. В силу объективных причин обеспечивать контроль каждого прибора, как правило, не удается. Поэтому для контроля качества продукции поступают следующим образом. Выбирают наудачу некоторое количество п (конечное число) приборов и по их показателям судят о всей продукции в целом, например о доле бракованных изделий или о средней продолжительности бесперебойной работы прибора и т.д. В подобных ситуациях естественно предполагать, что наблюдения за контролируемым показателем (хотя бы мысленно) можно проводить сколько угодно раз. Результаты п наблюдений рассматриваются как значения случайной величины — рассматриваемого количественного признака. Эта случайная величина может быть как
1.1. Выборка и выборочные характеристики 19 дискретной, так и непрерывной. Например, она может принимать только два значения 0 и 1, если речь идет о проверке, является прибор бракованным или нет. В другой же ситуации, когда оценивается время бесперебойной работы прибора, естественно считать, что случайная величина может принимать любое неотрицательное значение и является непрерывной. В математической статистике множество возможных значений случайной величины X называют генеральной совокупностью случайной величины X или просто генеральной совокупностью X. Под законом распределения (распре- делением) генеральной совокупности X будем понимать закон распределения вероятностей случайной величины X. Исходным материалом для изучения свойств генеральной совокупности (т.е. некоторой случайной величины) являются экспериментальные (статистические) данные, под которыми понимают значения случайной величины, полученные в результате повторений случайного эксперимента (наблюдений над случайной величиной). Предполагаем, что эксперимент хотя бы теоретически может быть повторен сколько угодно раз в одних и тех же условиях. Под словами „в одних и тех же условиях" будем понимать, что распределение случайной величины Х^ i= I, 2, ..., заданной на множестве исходов г-го эксперимента, не зависит от номера испытания и совпадает с распределением генеральной совокупности X. В этом случае принято говорить о независимых повторных экспериментах (испытаниях) или о независимых повторных наблюдениях над случайной величиной. Совокупность независимых случайных величин Xi, ••., Хп, каждая из которых имеет то же распределение, что и случайная величина X, будем называть случайной выборкой из генеральной совокупности X и записывать Хп = (Xi, ..., Хп) (иногда просто Хь ..., Хп). При зтом число п называют объемом случайной выборки, а случайные величины Xt- — элементами случайной выборки.
20 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ Любое возможное значение х*п = [х\, ..., хп) случайной выборки Хп будем называть выборкой из генеральной совокупности X (также реализацией случайной выборки Хп) Число п характеризует объем выборки, а числа ж;, t = 1,п, представляют собой элементы выборки х*п. Выборку х*п можно интерпретировать как совокупность п чисел хи • ••» хп> полученных в результате проведения п повторных независимых наблюдений над случайной величиной X. Основой любых выводов о вероятностных свойствах генеральной совокупности X, т.е. статистических выводов, является выборочный метод, суть которого заключается в том, что свойства случайной величины X устанавливаются путем изучения тех же свойств на случайной выборке. Множество возможных значений случайной выборки Хп содержит информацию о случайной величине, полученную в эксперименте. Это множество называют выборочным пространством и обозначают Хп. Выборочным пространством может быть или п-мерное линейное арифметическое простиран- cmeo Rn, или его подмножество. Бели X — дискретная случайная величина, то выборочное пространство — конечное или счетное. Элементы Xi, г = 1, п, случайной выборки Хп независимы и имеют то же распределение, что и генеральная совокупность X. Таким образом, функция распределения Fg{ti,...,tn) случайной выборки Хп имеет вид tn} = Гр*,), (1.1) где F(t) — функция распределения случайной величины X (генеральной совокупности X). О распределении случайной величины X в одних случаях у исследователя могут быть самые общие представления. Напри-
1.1. Выборка и выборочные характеристики 21 мер, X является непрерывной случайной величиной и только (о распределении практически ничего не известно!). В других случаях функция распределения (в случае непрерывной случайной величины — плотность распределения вероятностей) известна, но не известны параметры, от которых она зависит. Например, известно, что генеральная совокупность X имеет нормальный закон распределения где /х и о — неизвестные параметры. Значит, можно говорить только о семействе (классе) V распределений случайной выборки, в котором содержится априорная информация (информация до опыта) исследователя. Выборочное пространство, на котором задан класс распределений V, назовем статистической моделью*. В случае повторных независимых испытаний статистическую модель будем обозначать {F(x)}, поскольку она полностью определена функцией распределения F(x) генеральной совокупности X. Если функция распределения (плотность распределения) задана с точностью до неизвестного вектора параметров в = = (01, -.., вг) с множеством возможных значений 0, т.е. в € О, то статистическую модель называют параметрической моделью. Параметрическую модель обозначают {F(x;6); 0£0}. Множество в называют параметрическим множеством. Следует отметить, что о параметрическом множестве исследователь может не иметь никакой априорной информации. Статистическую модель называют непрерывной или дискретной, если случайная величина X является, соответственно, непрерывной или дискретной. В дальнейшем мы будем "Разумеется, это слишком узкое толкование термина, которое уместно лишь в рамках данной книги.
22 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ предполагать, что генеральная совокупность X с функцией распределения F(x) является либо дискретной, либо непрерывной случайной величиной. В первом случае распределение X задают в виде таблицы (ряда распределений), а во втором — в виде плотности распределения рх{х)- При этом будем использовать единое обозначение р(х) (или р(х;в) для параметрических моделей) как для плотности распределения случайной величины Л\ когда она непрерывная, так и для вероятности Р{Х = х} в случае дискретной случайной величины X. Пример 1.1. Пусть известно, что генеральная совокупность случайной величины X распределена по нормальному закону с известной дисперсией и неизвестным средним в. Тогда статистическая модель имеет вид {JF(a;;0); в £ 0 = R} и может быть задана с помощью плотности распределения вероятностей Если неизвестны оба параметра: среднее значение в\ и среднее квадратичное отклонение в2, то статистическая модель имеет вид {F(z;0); в = {ви в2) G в}, где в С R2 (#i € R, 02 € R+) и плотность распределения вероятностей содержит два неизвестных параметра: 1 Пример 1.2. Пусть случайная величина X имеет распределение Пуассона с неизвестным параметром. Тогда статистическая модель имеет вид {F(x;0); 0 € О = (0, со)}, где F{x\6) определяется равенством р(х;в) = РгЬХ = х= —е-в, х = 0, 1,2,... X т
1.1. Выборка и выборочные характеристики 23 Замечание 1.1. Наряду с генеральной совокупностью одномерной случайной величины можно рассматривать генеральную совокупность многомерной (векторной) случайной величины, распространяя введенные выше понятия на этот случай. При этом случайную выборку объема п из генеральной совокупности (Ху У, ..., Z) будем обозначать IXni Yn% ..., Zn). # В дальнейшем мы будем рассматривать различные функции Y = д(Х1,...)Хп) (или Y — д(Хп)) случайной выборки Хп = = {Хи ..., Хп), например: Любую функцию д(Хп) случайной выборки в математической статистике называют статистикой, или выборочной характеристикой. Распределение этой случайной величины называют выборочным распределением. Выборочное распределение однозначно определяется совместным распределением случайных величин Х\, ..., Хпу т.е. распределением случайной выборки Хп. Значение g{fn) выборочной характеристики g(Xn)i определенное по реализации тГп случайной выборки Хп, называют ее выборочным значением. В математической статистике часто приходится рассматривать поведение выборочных характеристик при п —> оо, где п — объем случайной выборки {Х\, ..., Хп). При этом будем писать Yn = g(X\,...,Xn) и рассматривать последовательность случайных величин {У^}, сходящуюся в том или ином смысле к некоторому Y — случайной величине или константе. В [XVI] были рассмотрены основные типы сходимости последовательности случайных величин и связь между ними. В этой книге будем использовать два вида сходимости: сходимость по вероятности и сходимость по распределению, или слабую сходимость.
24 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ Напомним, что последовательность {Уп} случайных величин швают с» любого е > О Р называют сходящейся по вероятности к У, т.е. Yn —У У, если для lim П-ЮО Если имеет место равенство lim FYn(x) = n—>oo в каждой точке непрерывности Fy(x)y то говорят о слабой сходимости последовательности Fyn (x) функций распределения (сходимости по распределению) и пишут Уместно также говорить о слабой сходимости последовательности {Уп} случайных величин к У. В этом смысле можно утверждать, что из сходимости по вероятности следует слабая сходимость. Отметим, что в теории вероятностей и ее приложениях наиболее часто используемые законы распределения случайных величин имеют общепринятые названия и обозначения. Например, нормальный закон со средним /х и дисперсией с2 обозначают символом iV(/x, tr2); распределение Пуассона со средним А — символом П(А) и т.д. Если наблюдаемая в эксперименте случайная величина X имеет распределение некоторого стандартного типа, то соответствующая статистическая модель имеет такое же название: нормальная модель, модель Когии, биномиальная модель , пуассоновскал модель и т.д. Для обозначения того, что случайная величина X имеет закон распределения F(x), употребляют символическую запись X ~ F(ж). Например, запись X ~ ЛГ(/х,<т2) означает, что случайная величина X имеет нормальный закон распределения с параметрами \i и <т2.
1.2. Основные задачи математической статистики 25 1.2. Основные задачи математической статистики При решении любой задачи математической статистики исследователь располагает двумя источниками информации. Первый и наиболее определенный (явный) — это результаты наблюдений (эксперимента) в виде выборки из некоторой генеральной совокупности скалярной или векторной случайной величины. При этом объем выборки п может быть фиксирован, а может увеличиваться в ходе эксперимента (т.е. могут использоваться так называемые последовательные процедуры статистического анализа). Второй источник — это вся априорная информация об интересующих исследователя свойствах изучаемого объекта, которая накоплена к текущему моменту. Формально объем априорной информации отражается в той исходной статистической моделщ которую исследователь выбирает при решении своей задачи. В математической статистике всегда в той или иной мере используют априорную информацию об исследуемом объекте, но степень обоснованности такого использования лежит на совести (или зависит от компетентности) конкретного исследователя. Если есть сомнения в том или ином исходном допущении при решении конкретной задачи, то его нужно проверять и обосновывать, а при невозможности это сделать — отбросить и попытаться найти решение задачи без привлечения сомнительных допущений. Перечислим некоторые задачи математической статистики, наиболее часто встречающиеся в ее приложениях. Оценка неизвестных параметров. Задача оценивания неизвестных параметров возникает в тех случаях, когда функция распределения генеральной совокупности известна с точностью до параметра 0. В этом случае необходимо найти такую
26 1, ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ статистику в(Хп), выборочное значение в = 0{хп) которой для рассматриваемой реализации хп случайной выборки можно бы* ло бы считать приближенным значением параметра в. Статистику в(Хп)у выборочное значение в которой для любой реализации хп принимают за приближенное значение неизвестного параметра 0, называют его точечной оценкой или просто оценкой, а в — значением точечной оценки (просто оценки). Понятно, что точечная оценка в(Хп) должна удовлетворять вполне определенным требованиям для того, чтобы ее выборочное значение в соответствовало истинному значению параметра в. Свойства точечных оценок рассмотрены ниже (см. 2). Для точечных оценок параметра в будем использовать и другие обозначения, например 0(^Г„), в*(Хп). Возможным является и иной подход к решению рассматриваемой задачи: найти такие статистики 0(Хп) и 0(ХП), чтобы с вероятностью у выполнялось неравенство } = 7- В этом случае говорят об интервальной оценке для в. Интервал (в[Хп),9{Хп)) называют доверительным интервалом для в с коэффициентом доверил 7* Доверительные интервалы обсуждаются в 3. Проверка статистических гипотез. Статистической гипотезой называют любое предположение о распределении вероятностей наблюдаемой случайной величины — скалярной или векторной. В некотором смысле задача проверки статистической гипотезы является обратной к задаче оценивания параметра. При оценивании параметра мы ничего не знаем о его истинном значении. При проверке статистической гипотезы мы из каких-то
1.2. Основные задачи математической статистики 27 соображений предполагаем известным его значение и хотим по результатам эксперимента проверить наше предположение. Примерами гипотез могут служить следующие предположения о вероятностных свойствах наблюдаемых случайных величин: 1) fi = д0) где fi — математическое ожидание случайной величины X (гипотеза о величине математического ожидания); 2) о\ = о\, где aj и о\ — дисперсии случайных величин Х\ и Х% (гипотеза об однородности дисперсий); 3) F(x) = Fr{x)y где F(x) — неизвестная функция распределения наблюдаемой случайной величины X, a Ft(x) — некоторая предполагаемая исследователем функция распределения (гипотеза о виде распределения). Установление формы и степени связи между случайными величинами. Методы математической статистики, способствующие установлению формы и степени связи между случайными величинами, излагаются в таких? разделах математической статистики, как корреляционный анализ, дисперсионный анализ, регрессионный анализ и др. Смысл таких задач поясним на простом примере. Пусть У — случайная величина, поведение которой мы хотели бы определять по значениям двух других случайных величин Х\ и Л^2. Например, У — это степень шума двигателя автомашины, all и %2 — соответственно величина пробега автомобиля и вес груза в нем. Корреляционный и дисперсионный анализ позволяет нам ответить на вопрос: есть ли связь между Х\, Х2 и У и насколько она существенна. На основе же регрессионного анализа мы можем построить так называемую регрессионную модель в виде зависимости где у — среднее значение шума У в зависимости от значений х\ и Х2 случайных величин Х\ и Х2. Наличие такой модели
28 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ (которую строят, опираясь на результаты имеющихся статистических данных — результатов эксплуатации автомобилей) позволяет в дальнейшем выбрать наилучший режим эксплуатации и решать многие другие задачи. Подобные задачи рассмотрены в 6-8. 1*3* Предварительная обработка результатов эксперимента Прежде чем перейти к детальному анализу полученных в результате проведенного эксперимента статистических данных, обычно проводят их предварительную обработку. Иногда результаты такой обработки уже сами по себе дают ответы на многие вопросы. Но в большинстве случаев они служат исходным материалом для дальнейшего анализа. Вариационный ряд* Одним из самых простых преобразований статистических данных является их упорядочивание по величине. Пусть (хи •••> хп) — выборка объема п из генеральной совокупности X. Ее можно упорядочить, расположив значения в неубывающем порядке: где Ж(!) — наименьший, х^ — наибольший из элементов выборки. Определение 1.1. Последовательность чисел удовлетворяющих условию (1.2), называют вариационным рядом выборки, или, для краткости, просто вариационным рядом; число х^> г = 1, п, называют i-м членом вариационного ряда.
1.3. Предварительная обработка результатов эксперимента 29 Обозначим Хф, г = 1, п, случайную величину, которая при каждой реализации случайной выборки Хп принимает значение, равное г-му члену вариационного ряда. Определение 1.2. Последовательность случайных величин называют вариационным рядом случайной выборки. При этом Хф, г = 1, п, называют i-м членом вариационного ряда случайной выборки. Переход от случайной выборки Хп к ее вариационному ряду не приводит к потере информации, содержащейся в случайной выборке, поскольку их совместная функция распределения (1.1) остается одной и той же. Однако функция распределения каждой случайной величины Лдо, г = 1, п, уже не совпадает с функцией распределения F(x) генеральной совокупности X, хотя и может быть через нее выражена. Например, можно показать (см. пример 2,20), что для крайних членов вариационного ряда случайной выборки Х^ и Х^ их функции распределения имеют вид Эти соотношения позволяют находить неизвестную функцию распределения F(x) генеральной совокупности X, имея в эксперименте лишь результаты измерений либо величины Пример 1.3. В результате пяти повторных независимых наблюдений некоторой случайной величины X (например, X — давление в газовом баллоне, измеряемое в мегапаскалях) полу-
30 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ чены следующие ее значения: хг = 10,4; ж2 = 9,5; ж3 = Ю,7; я4 = 9,3; ж5 = 10,1. Для данной выборки объема п = 5 вариационный ряд имеет вид 9»3! х(2) = 9'5' ж(з) = Ю»1; ж(4) = Ю,4; ж(5) = 10,7. Статистический ряд. Среди элементов выборки Х\, ..., хп (а значит, и среди членов вариационного ряда х^, Ж(2), • ••> S(n)) могут быть одинаковые. Так бывает, либо когда наблюдаемая случайная величина X — дискретная, либо когда X — непрерывная, но ее значения при измерениях округляют. Пусть среди элементов выборки х\, ..., хп выделены т <п их различных значений, расположенных в порядке возрастания. Обозначим их z^ ..., Z(my Предположим, что каждое из них повторяется соответственно ni, ..., пт раз, причем, разумеет- Определение 1.3. Статистическим рядом для выборки называют таблицу, которая в первой строке содержит значения z^j, ..., 2(mj (напомним, что z^ < ... < 2(m)), а во второй — числа их повторений (табл. 1.1). Число n,-, i= I, m, показывающее, сколько раз встречался элемент z^ в выборке, называют частотой, а отношение щ/п — относительной частотой этого значения. Таблица 1.1 *(2) п2 ... ... *(т) nm Статистические данные, представленные в виде статистического ряда, называют группированными.
1.3. Предварительная обработка результатов эксперимента 31 Исходные данные группируют обычно при больших объемах выборки (свыше 50), причем не только в виде статистического ряда, но и следующим образом: отрезок J = [ж(1), S(n)L содержащий все выборочные значения, разбивают на m промежутков «/,-, как правило одинаковой длины Д. При этом считают, что каждый промежуток содержит свой левый конец, но лишь последний промежуток содержит и свой правый конец. При таком соглашении каждая точка отрезка J содержится в одном и только в одном промежутке J,-. Далее, для каждого промежутка J,, i= I, тп, подсчитывают число п* элементов выборки, попавших в него (при этом п = щ +... + nm), а результаты представляют в виде табл. 1.2, которую называют интервальным статистическим рядом. Таблица 1.2 Jl п2 ... Jm пт т Иногда в верхней строке табл. 1.2 указывают не интервал, а его середину ж*, а в нижней строке вместо частоты п* записывают относительную частоту щ/п. Число промежутков т, на которые разбивают отрезок J, выбирают в зависимости от объема выборки п. Для ориентировочной оценки величины т можно пользоваться следующей формулой*: m«log2n+l1 которая дает нижнюю оценку величины m и наиболее точна при больших значениях п. Например, при и = 100 она дает т ^ 6, а при п = 1000 — т ^ 9. •См.: Айвазян С.А., Енюков И.С., Мешалкин Л.Д., 1983.
32 L ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ Пример 1.4. В течение суток измеряют напряжение X тока в электросети в вольтах. В результате опыта получена выборка объема п = 30: 107; 108; 110; 109; 110; 111; 109; 110; 111; 107; 108; 109; ПО; 108; 107; ПО; 109; 111; 111; ПО; 109; 112; 113; ПО; 106; ПО; 109; 110; 108; 112. Построим статистический ряд этой выборки. Наименьшее значение в выборке х^ = 106, наибольшее — Ж(8) = ИЗ. Подсчитываем частоту п*, к =1,8, каждого из восьми различных значений в выборке и строим табл. 1.3. Таблица 1.3 Цк) пк 106 1 107 3 108 4 109 6 110 9 111 4 112 2 113 1 Эмпирическая и выборочная функции распределения. Рассмотрим функцию п(ж,ЛГп), которая для каждого значения хбКи каждой реализации хп случайной выборки Хп принимает значение, равное числу элементов в выборке afn, меньших х. Определение 1.4* Функцию п (1.3) где п — объем случайной выборки, будем называть выборочной функцией распределения. Согласно определению 1.4, при любом фиксированном х функция F(x;Xn) есть случайная величина, которая принимает одно из значений п-1 п п
1.3. Предварительная обработка, результатов эксперимента 33 и имеет биномиальное распределение с параметром р, равным значению функции распределения генеральной совокупности X в точке ж, т.е. р— F(x). Теорема 1.1. Для любого фиксированного х последовательность случайных величин {F[x;Xn)} сходится по вероятности при п —> оо к значению F(x) функции распределения генеральной совокупности X в точке х. < При любом фиксированном х выборочная функция распределения F[x;Xn) есть относительная частота события {X < х}. В соответствии с законом больших чисел в форме Бернулли, относительная частота при п —у оо сходится по вероятности к вероятности события {X < х}. Следовательно, F(x;Xn) -^ P{X <x} = F{x). ► Для каждой реализации хп функцию п(х,хп) аргумента х в дальнейшем будем обозначать п{х). Определение 1.5. Эмпирической функцией распределения называют скалярную функцию Fn(x), которая определена для любого х G R следующим образом: ад = ^, (1.4) где п — объем выборки. Функция Fn(x) обладает всеми свойствами функции распределения. При этом она кусочно постоянна и изменяется скачками в каждой точке хщ (ждо — г-й член вариационного ряда). Если все выборочные значения х\,..., хп различны, то функцию Fn(x) можно записать в следующем виде: О, х ^ а:(1); Fn{x) = {i, Х(л< я: ^ *«+1Ь i = T^=T;
34 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ т.е. в каждой точке х^ функция Fn(x) имеет скачок величиной 1/п. График функции Fn(x) изображен на рис. 1.1. п-1 п *+- Х(2) О *(3) Рис. 1.1 *(п) Замечание 1.2. Функция Fn(x) позволяет любую выборку (а?!, ..., хп) интерпретировать как генеральную совокупность X, все значения которой равновероятны, т.е. 1 Такая интерпретация позволит в дальнейшем рассматривать числовые характеристики случайной величины X как приближенные значения соответствующих числовых характеристик исходной генеральной совокупности X. # Из сказанного выше следует, что функция Fn(x) является статистическим аналогом функции распределения F(x) генеральной совокупности X. Функцию распределения F(x) генеральной совокупности X в математической статистике называют иногда теоретической функцией распределения. В случае непрерывной статистической модели и большого объема выборки (свыше 50) экспериментальные данные удобнее представлять в виде интервального статистического ряда
1.3. Предварительная обработка результатов эксперимента 35 (см. табл. 1.2). Разделив частоты nt/n = pi на длину А интервалов Ji получим значения п,/(пД), г = 1, т. Определение 1.6. Эмпирической плотностью распределения^ соответствующей реализации хп случайной выборки Хп из генеральной совокупности Л\ называют функцию Рп(я)> которая во всех точках интервала Jt-, г = 1, т, принимает значение —^-, а вне интервала J равна нулю, т.е. пД1 О, а; ^ J. (1.5) График функции рп(я), представляющий собой кусочно постоянную функцию на промежутке J = [^(i), 2(m)]* называют гистограммой (рис. 1.2). Рис. 1.2 G Часто гистограммой называют диаграмму, составленную из прямоугольников с основанием Д и высотами пг/(пД), г = 1, т. Нетрудно увидеть, что суммарная площадь всех прямоугольников, образующих такую диаграмму, равна 1, так как ЕПг 1 — = - п п i1
36 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ Кроме того, площадь каждого прямоугольника щ/n есть частота попадания элементов выборки в соответствующий интервал Ji статистического ряда. Рассмотрим случайную величину щ(Хп)/щ которая для каждой реализации хп случайной выборки Хп равна частоте щ/n. В соответствии с законом больших чисел в форме Бернулли щ(Хп)/п при п -юо будет сходиться по вероятности к вероятности попадания случайной величины X в промежуток Jt, г— 1,т, т.е. щ{Хп) р^ U п-Юо где р(х) — плотность распределения генеральной совокупности X. Если длина Д промежутков достаточно мала и объем выборки п велик, то с вероятностью, близкой к 1, можно утверждать, что п или где Xi — середина промежутка Jt, i= l,m. Таким образом, при большом объеме выборки п и достаточно малом Д с вероятностью, близкой к 1, можно считать, что рп(х) «р{х). Иными словами, функция рп{%) является статистическим аналогом плотности распределения р(х)у наблюдаемой в эксперименте случайной величины X. Наряду с гистограммой часто используют другое графическое представление для приближенного описания функции р(х)у которое называют полигоном частот. По определению полигон частот — это ломаная, отрезки которой соединяют середины горизонтальных отрезков, образующих прямоугольники в гистограмме (рис. 1.3). Полигон частот используют
1.3. Предварительная обработка результатов эксперимента 37 также в том случае, когда в эксперименте наблюдают дискретную случайную величину X. В этом случае по оси абсцисс откладывают все возможные (различные) значения случайной величины X, полученные в эксперименте, а по оси ординат — соответствующие частоты % = щ/щ и соседние точки соединяют отрезками прямой. Рис. 1.3 Пример 1.5. Измерен рост п = 500 студентов. Результаты измерений представлены в виде интервального статистического ряда (табл. 1.4). Таблица 1.4 [145,150) 1 [170,175) 132 [150,155) 2 [175,180) 55 [155,160) 28 [180,185) 16 [160,165) 90 [185,190) 6 [165,170) 169 [190,195] 1 Построим гистограмму — график эмпирической плотности распределения роста студентов. Для построения гистограммы (рис. 1.4) нужно найти выборочную плотность распределения, используя формулу (1.5) и
38 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ учитывая, что Д = 5: JL, «€[145,150); x e [150,155); x e [155,160); x € [160,165); x € [165,170); 28 90 ^, ж € [175,180); ^, x € [180,185); JL, ж €[185,190); .55»' ^[190,195]. 145 150 155 160 165 170 175 180 185 190 195 х Рис. 1.4
2.3. Предварительная обработка результатов эксперимента 39 Пример 1.6. В условиях примера 1.4 построим полигон частот. Для этого найдем относительные частоты каждого из элементов выборки и представим результаты в виде таблицы (табл. 1.5). Таблица 1.5 п 106 1 20 107 3 20 108 4 20 109 6 20 ПО 9 20 111 4 20 112 2 20 113 1 20 Построим точки с координатами (г^щ/п), г = 1,8, соединим их отрезками прямых (рис. 1.5). 107 108 109 110 111 112 113 Рис. 1.5 Выборочные числовые моменты. Пусть Хп — случайная выборка из генеральной совокупности X с функцией распределения F(x) (и плотностью распределения р(х) в случае непрерывной статистической модели). Напомним [XVI], что, зная р(х) или F(z), можно записать математическое ожидание функции д{Х) в виде или оо Мд(Х)= J g(x)p{x)dx —ОО ОО Мд{Х)= J g(x)dF(x),
40 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ где последний интеграл есть интеграл Римана — Стилтьеса [XI]. При д(Х) = Хк или д(Х) = (X - MX)*, к > 1, получаем соответственно начальные моменты т* и центральные моменты тпд. fc-ro порядка случайной величины X: оо оо тк = М(Хк)= f xkdF(x) = I xkp(x)dx, —оо —оо оо оо тк=М(Х-МХ)к= f{x-MX)kdF{x) = f\x-MX)kp(x)dx. В частности, при д(Х) = X и д(Х) = (X — MX)2 получаем формулы соответственно для математического ожидания и дисперсии случайной величины X. Все эти числовые характеристики в математической статистике называют теоретическими (или генеральными числовыми характеристиками, т.е. относящимися к генеральной совокупности). Так же, как функциям F(x) или р(х) мы сопоставили их статистические аналоги — эмпирические функции Fn(x) и рп(х), построенные по выборке жп, можно каждой теоретической числовой характеристике сопоставить ее статистический аналог, если в соответствующих формулах, приведенных выше, заменить F(x) на Fn(ar), а р(х) на рп(х). Статистические аналоги теоретических числовых характеристик можно получить из следующих соображений. Как отмечалось в замечании 1.2, любую выборку хп можно рассматривать в качестве генеральной совокупности дискретной случайной величины X, все значения которой равновероятны, т.е. 1 = *,} = -, 1=1,1».
1.3. Предварительная обработка результатов эксперимента 41 По определению начальные и центральные моменты кто порядка такой генеральной совокупности соответственно равны 1 n I n где 1 п s = jUi = -^Si. (1.6) t=i Числа /х^, Vk есть значения выборочных характеристик {статистик) t=l t=l где т.е. fik = $к{хп), % = щ{хп). Выборочную характеристику t=i называют выборочным начальным моментом k-го по- рлдка. В частности, выборочный начальный момент первого порядка X = V\ {Xn) называют выборочным средним. Выборочную характеристику называют выборочным центральным моментом к-го порядка. В частности, выборочный центральный момент 2-го порядка Э2{Хп) = Р2(-ХП) называют выборочной дисперсией.
42 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ Выборочную характеристику д(Хп) = Лд2{Хп) называют выборочным средним квадратичным отклонением. Величины 1 п 1=1 Л (1.10) являются статистическими аналогами соответственно дисперсии <T2 = DX и среднего квадратичного отклонения генеральной совокупности X. Числа af, S2, 5, /2^., Р* будем называть соответственно средним значением (или средним), дисперсией, средним квадратичным отклонением, начальным моментом и центральным моментом k-го порядка выборки. Выборочные характеристики можно ввести также и при рассмотрении выборок из многомерных генеральных совокупностей. Так, например, рассмотрим случайную выборку (Хп, У^) объема п из двумерной генеральной совокупности (X, Y). Выборочную характеристику t=i называют выборочным корреляционным моментом. Выборочную характеристику ,Уп) = где t=i 1=1 называют выборочным коэффициентом корреляции.
1.3. Предварительная обработка результатов эксперимента 43 Значения К(хп,уп) и p{xnjyn) выборочного корреляционного момента и выборочного коэффициента корреляции, где (а?п, уп) — реализация случайной выборки (Хп, У^), будем со- ответственно обозначать Кху и рху, называя корреляционным моментом выборки (хп, уп) и коэффициентом корреляции выборки (хП} уп). Замечание 1.3. При больших п от выборки хп часто переходят к интервальному статистическому ряду. При этом значения ~х, Э2 и Кху соответственно вычисляют по формулам т x = Y,PiZi, (1-13) fr-s)2, (1.14) 1=1 m у), (1.15) где pi = щ/п — относительная частота события {X € •/,}, г = = 1, т, а у{ и у имеют тот же самый смысл, что и хь и ж, но для случайной величины Y. # Основное свойство выборочных моментов, как начальных, так и центральных, и в том числе выборочного среднего X и выборочной дисперсии <72(ХП), состоит в том, что при увеличении объема выборки п они сходятся по вероятности к соответствующим теоретическим (генеральным) моментам*. В частности, при п—> оо имеем X —У MX, а Э2(ХП) —> DX. п—too n—too Более того, можно показать, что распределение выборочных моментов является асимптотически (при п —» оо) нормальным. Точные формулировки этих утверждений в некоторых частных случаях будут приведены в дальнейшем изложении. *См.: Крамер Г.
44 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ 1.4. Решение типовых примеров Пример 1.7. В результате эксперимента получена выборка объема п = 79: 2; 4; 2; 4; 3; 3; 3; 2; 0; 6; 1; 2; 3; 2; 2; 4; 3; 3; 5; 1; 0; 2; 4; 3; 2; 2; 3; 3; 1; 3; 3; 3; 1; 1; 2; 3; 1; 4; 3; 1; 7; 4; 3; 4; 2; 3; 2; 3; 3; 1; 4; 3; 1; 4; 5; 3; 4; 2; 4; 5; 3; 6; 4; 1; 3; 2; 4; 1; 3; 1; 0; 0; 4; 6; 4; 7; 4; 1; 3. Построим статистический ряд, полигон частот, эмпирическую функцию распределения и нарисуем ее график, найдем ж, а , <т. Наименьший элемент выборки (первый член вариационного ряда) X(i) = 0, наибольший — аг(7э) = 7. Составим статистический ряд, расположив все элементы выборки в порядке возрастания (табл. 1.6). Таблица 1.6 0 4 1 13 2 14 3 24 4 16 5 3 6 3 7 2 Х>* = 79 Статистический ряд содержит восемь элементов: 0, 1, 2, 3, 4, 5, 6, 7. Для построения полигона частот (рис. 1.6) следует вычислить относительные частоты га*/гс каждого из элементов статистического ряда: U =±«0,0506; й = Нй,; ^,; ^ = | «0,3038; ^ = ^«0,2025; ^=i «0,0380; = = |«0,0380; ^ = !*
1.4. Решение типовых примеров 45 кй 01234567х Рис. 1.6 Чтобы найти выборочную функцию распределения, нужно последовательно суммировать относительные частоты: 0,0000, 0,0506, 0,2152, 0,3924, 0,6962, 0,8987, 0,9367, 0,9747, 1,0000, X 0 1 2 3 4 5 6 X < < < < < < < > 0; ж< X ^ X ^ аг< х < X ^ X ^ 7. 1; 2; 3; 4; 5; 6; 7; График функции Fn(x) — ступенчатая кривая (рис. 1.7). 3 4 Рис. 1.7
46 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ Учитывая, что элементы выборки повторяются, с помощью формулы (1.6) находим среднее значение выборки: х = ^(0-4+1-13 + 2 -14 + 3 -24 + С помощью формулы (1.9) находим дисперсию выборки Э2 = 4((° ~ 2'84)2 •4 + (! " 2>84)2 • 13 + (2 - 2,84)2 • 14 + + (3 - 2,84)2 • 24 + (4 - 2,84)2 • 16 + (5 - 2,84)2 • 3 + + (6 - 2,84)2 • 3 + (7 - 2,84)2 • 2) « 2,3668; а с помощью формулы (1.10) — среднее квадратичное отклонение выборки ***к /АЛ л ш. л а = Vа1« 1,54. Пример 1,8. Измерена максимальная емкость 20 подстро- ечных конденсаторов, и результаты измерений (в пикофара- дах) приведены в табл. 1.7. Составим статистический ряд и построим гистограмму. Таблица 1.7 Номер конденсатора Емкость, пФ Номер конденсатора Емкость, пФ 1 4,40 И 4,31 2 4,31 12 4,42 3 4,40 13 4,60 4 4,40 14 4,35 5 4,65 15 4,50 6 4,56 16 4,40 7 4,71 17 4,43 8 4,54 18 4,48 9 4,36 19 4,42 10 4,56 20 4,45 Статистический ряд представлен в табл. 1.8. Наименьшее значение выборки хщ = 4,31, наибольшее — а:(2о) == 4,71. Для построения гистограммы результаты наблюдений представим в виде интервального статистического ряда, разбив отрезок [4,31, 4,71] на пять равных промежутков (табл. 1.9).
1.4. Решение типовых примеров 47 Таблица L8 щ Цг) Щ 4,31 2 4,48 1 4,35 1 4,50 1 4,36 1 4,54 1 4,40 4 4,56 2 4,42 2 4,60 1 4,43 1 4,65 1 4,45 1 4,71 1 14 5>i = 20 1=1 Таблица 1.9 Jk [4,31, 4,39) 4 [4,39, 4,47) 8 [4,47, 4,55) 3 [4,55, 4,63) 3 [4,63, 4,71] 2 Длина Д каждого полученного промежутка равна 0,08. Определим эмпирическую плотность распределения, используя формулу (1.5): = 2,500, х е [4,31, 4,39); pn(x)=i 20-0,08 8 20-0,08 3 20» 0,08 3 20-0,08 2 20-0,08 0, = 5,000, х£ [4,39, 4,47); = 1,875, а: €[4,47, 4,55); = 1,875, are [4,55, 4,63); = 1,250, х е [4,63, 4,71]; х i [4,31, 4,71]. График функции рп{х) (гистограмма) представлен на рис. 1.8. Пример 1.0. В результате измерения диаметров 200 валиков из партии, изготовленной одним станком-автоматом, получены отклонения измеренных диаметров от номинала (в микрометрах). Группированные данные представлены в виде интервального статистического ряда (табл. 1.10). Найдем среднее значение х и дисперсию а2 выборки.
48 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ Р„<х), 5 4 3 2 1 ,^-....... 1 : г J 4,31 4, г-* 1 1 1 39 4, Рис 47 4,55 4,63 4,71 х . 1.8 Таблица 1.10 Ji щ Ji щ [-20,-15) 7 [5, Ю) 41 [-15,-10) 11 [10,15) 26 [-10,-5) 15 [15,20) 17 [-5,0) 24 [20,25) 7 [0,5) 49 [25,30] 3 10 Е Щ = 200 1=1 Обозначив через хщ середины промежутков «/,-, г = 1,10, представим группированные данные в виде табл. 1.11. Таблица 1.11 Xi ГЦ -17,5 7 -12,5 11 -7,5 15 -2,5 24 2,5 49 7,5 41 12,5 26 17,5 17 22,5 7 27,5 3 10 £"•• = 200 »=1 Среднее значение, согласно формуле (1.13), можно представить следующим образом: m - n (l) n
1.4. Решение типовых примеров 49 В данном случае п = 200, m = 10, а значения щ и х^ даны в табл. 1.11. Вычисляя, находим х = —-(-7-17,5 -11 -12,5 -15 -7,5 -24-2,5 + 49-2,5 + Z\)\) \ + 41-7,5 + 26-12,5+ 17-17,5 + 7-22,5 + 3-27,5] =4,3. Дисперсию выборки находим по тем же данным с помощью формулы (1.14): m 1 10 1 1=1 1=1 + 26 • 8,22 +17 • 13,22 + 7 ■ 18,22 + 3 • 23,22) « 83,84. Пример 1.10. Из двумерной генеральной совокупности (X, У) получена выборка объема п = 20: (1365,0,28); (1375,0,38); (1375,0,42); (1375,0,31); (1405,0,33); (1410,0,47); (1410,0,60); (1420,0,47); (1425,0,50); (1415,0,66); (1440,0,65); (1385,0,37); (1390,0,53); (1395,0,38); (1450,0,85); (1450,0,93); (1455, 0,60); (1475, 1,68); (1480, 1,45); (1485, 1,80). Найдем значение корреляционного момента выборки *y J i=i По выборке 1365; 1375; 1375; 1375; 1405; 1410; 1410; 1420; 1425; 1415; 1440; 1385; 1390; 1395; 1450; 1450; 1455; 1475; 1480; 1485 находим 1 20 1=1
50 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ По выборке 0,28; 0,47; 0,85; находим 0,38; 0,50; 0,93; 0,42; 0,66; 0,60; 0,31; 0,65; 0,68; 0,33; 0,37; 1,45; 0,47; 0,53; 1,80 0,60; 0,38; 20 В результате получаем KxyK^z ((1365 -1419) (0,28 - 0,68) + (1375 -1419) (0,38 - 0,68) + + (1375-1419) (0,42-0,68)+ (1375-1419) (0,31-0,68) + + (1405 -1419) (0,33 - 0,68) + (1410 -1419) (0,47 - 0,68) + + (1410-1419)(0,60-0,68) + (1420-1419)(0,47-0,65) + + (1425-1419)(0,50-0,68) + (1415-1419)(0,66-0,68) + + (1440-1419)(0,65-0,68) + (1385-1419)(0,37-0,68) + + (1390 -1419) (0,53 - 0,68) + (1395 -1419)(0,38 - 0,68) + + (1450-1419)(0,85-0,68) + (1450-1419)(0,93-0,68) + + (1455-1419)(0,60-0,68) + (1475-1419)(1,68-0,68) + + (1480-1419)(1,45-0,68) + (1485-1419)(1,80-0,68)) «10,955. Вопросы и задачи 1.1. Что называют случайной выборкой, объемом выборки, элементом выборки, реализацией случайной выборки (выборкой)? 1.2. Что называют генеральной совокупностью?
Вопросы и задачи 51 1.3. Какие повторные наблюдения (эксперименты) называют независимыми? 1.4. Укажите связь между функцией распределения случайной выборки и функцией распределения генеральной совокупности. 1.5. Что такое статистика, выборочная характеристика? 1.6. Что такое выборочные распределения? 1.7. Что называют вариационным рядом случайной выборки, вариационным рядом выборки? 1.8. Что называют статистическим рядом? 1.9. Что такое интервальный статистический ряд? 1.10. Дайте определение выборочной и эмпирической функций распределения. 1.11. Дайте определение эмпирической плотности распределения. 1.12. Что такое гистограмма? 1.13. Что такое полигон? 1.14. Что называют выборочным средним, выборочной дисперсией, выборочными моментами, выборочным корреляционным моментом, выборочным коэффициентом корреляции? 1.15. Напишите выражения для среднего значения, дисперсии, начального и центрального моментов, корреляционного момента, коэффициента корреляции выборки. 1.16. По результатам измерений имеем выборку 2781, 2836, 2807, 2763, 2858. Составьте вариационный ряд, постройте эмпирическую функцию распределения и ее график. Вычислите Ж, (72. О т в е т: х = 2809; с2 = 1206,8.
52 1. ОСНОВНЫЕ ПОНЯТИЯ ВЫБОРОЧНОЙ ТЕОРИИ 1.17. Докажите, что имеет место равенство п * 1.18. По результатам измерений задана выборка 3,7; 7,2; 5,2; 5,7; 5,7; 5,2; 5,7; 7,2; 6,2; 5,2; 4,7; 6,7; 4,2; 5,7; 6,2; 3,7; 5,2; 6,2; 5,2; 5,2; 5,2; 4,2; 5,2; 7,7; 5,7; 4,7; 5,7; 5,7; 6,2; 5,2; 4,7; 3,2; 6,2; 7,2; 4,2; 5,2; 5,7; 6,2; 5,7; 3,7; 4,7; 5,2; 6,7; 4,2; 6,2; 7,2; 6,7; 7,7; 4,2; 4,7; 5,2; 5,2; 5,7; 5,2; 7,2; 5,2; 6,7; 5,7; 6,2; 4,7; 4,2; 4,7; 6,7; 4,7. По выборке составьте статистический ряд, постройте гистограмму, эмпирическую функцию распределения и ее график. Вычислите значения числовых характеристик af, а2, д. Ответ: ж = 5,73; Э2 = 1,187; с = 1,06. 1.19. При сверлении отверстий одним и тем же сверлом и последующем измерении диаметров отверстий получены данные, представленные в виде интервального статистического ряда (табл. 1.12). Найдите значения ~х и сх. Таблица 1.12 У(к) Пк УМ пк [40,25, 40,28) 2 [40,37, 40,40) 12 [40,28, 40,31) 10 [40,40, 40,43) 8 [40,31, 40,34) 18 * [40,43, 40,46) 5 [40,34, 40,37) 25 Х>, = 80 Ответ: х » 40,355; ах « 0,04.
Вопросы и задачи 53 1.20. Из двумерной генеральной совокупности сделана выборка объема п = 60 (данные приведены в табл. 1.13). Найдите значение выборочного коэффициента корреляции. Таблица L1S 6,75 6,25 5,75 5,25 4,75 4,25 3,75 4100 1 4300 1 2 1 3 4500 2 3 5 2 4700 1 4 7 5 4900 2 1 5 1 5100 3 1 3 2 5300 2 2 5500 1 Ответ: р = 0,63.
2. ТОЧЕЧНЫЕ ОЦЕНКИ Одной из задач математической статистики (см. 1.2) является оценка неизвестных параметров выбранной параметрической модели. Очень часто в приложениях рассматривают параметрическую модель. В этом случае предполагают, что закон распределения генеральной совокупности принадлежит множеству < F(x;0): в € 0 >, где вид функции распределения задан, а вектор параметров 0*= (0i, ..., вг) неизвестен. Требуется найти оценку для в или некоторой функции от него (например, математического ожидания, дисперсии) по случайной выборке (A"i, ..., Хп) из генеральной совокупности X. Например, предположим, что масса X детали имеет нормальный закон распределения, но его параметры в\ = \х и 02 = о2 неизвестны. Нужно найти приближенное значение параметров по результатам наблюдений ял, ..., хп, полученным в эксперименте (по реализации случайной выборки). Как уже отмечалось (см. 1.2), в математической статистике существуют два вида оценок: точечные и интервальные. В этой главе будут рассмотрены точечные оценки, а интервальным оценкам посвящена следующая глава. 2.1. Состоятельные, несмещенные и эффективные оценки Пусть Хп = (Xi, ..., Хп) — случайная выборка из генеральной совокупности X, функция распределения F(x;0) которой известна, а в — неизвестный параметр, т.е. рассматривается параметрическая модель {F(x\0), в € 0} (для простоты изложения будем считать пока, что в — скаляр).
2.1. Состоятельные, несмещенные и эффективные оценки 55 Требуется построить статистику 0(ХП), которую можно было бы принять в качестве точечной оценки параметра 0. Интуитивно ясно, что в качестве оценки параметра в можно использовать различные статистики. Например, в качестве точечной оценки для /х = ЪЛХ можно предложить такие статистики: 1=1 п — четное; п — нечетное. Какую же из этих статистик предпочесть? В общем случае нужно дать ответ на вопрос: какими свойствами должна обладать статистика 6{Х\,...,Хп) = 0(ХП), чтобы она была в некотором смысле наилучшей оценкой параметра в? Рассмотрению требований к оценкам и методам их нахождения посвящена настоящая глава. Заметим, что в дальнейшем, как правило, будем говорить об оценке параметра в параметрической модели, хотя все сказанное можно перенести и на функцию от 0. Определение 2.1. Статистику 0{Хп) называют состоятельной оценкой параметра в € G, если с ростом объема выборки п она сходится по вероятности к оцениваемому параметру 0, т.е. п-¥оо Иными словами, для состоятельной оценки в(Хп) отклонение ее от в на величину е и более становится маловероятным при большом объеме выборки. Это свойство оценки является очень важным, ибо несостоятельная оценка практически бесполезна. Однако следует отметить, что на практике приходится
56 2. ТОЧЕЧНЫЕ ОЦЕНКИ оценивать неизвестные параметры и при малых объемах выборки. Естественным является то требование, при выполнении которого оценка не дает систематической погрешности в сторону завышения (или занижения) истинного значения параметра 0. Определение 2.2. Статистику 0(Хп) называют несмещенной оценкой параметра 0, если ее математическое ожидание совпадает с 0, т.е. ЪЛ0(Хп) = 0 для любого фиксированного п. Если оценка является смещенной (т.е. последнее равенство не имеет места), то величина смещения Ьп{в) = ЪЛ0(Хп) -0. Как мы увидим далее, смещение оценки часто можно устранить, введя соответствующую поправку. Говорят также, что оценка 0(Хп) является асимптотически несмещенной, если при п —» оо она сходится по вероятности к своему математическому ожиданию, т.е. для любого е>0 Предположим, что имеются две несмещенные оценки 0{Хп) и 0(Хп) для параметра 0. Если дисперсии И0(Хп) и Т>0(Хп) удовлетворяют условию D0(Xn)^D0(Xn) (2.1) для любого фиксированного п и 0 € в, то следует предпочесть оценку 0(Хп), поскольку разброс статистики 0(Хп) относительно параметра 0 меньше, чем разброс статистики 0(Хп). Определение 2.3. Если в некотором классе несмещенных оценок параметра 0} имеющих конечную дисперсию, существует такая оценка 0(Хп), что неравенство (2.1) выполняется для всех оценок 0(Хп) из этого класса, то говорят, что оценка 9(Хп) является эффективной в данном классе оценок.
2.L Состоятельные, несмещенные и эффективные оценки 57 Иными словами, дисперсия эффективной оценки параметра в некотором классе является минимальной среди дисперсий всех оценок из рассматриваемого класса несмещенных оценок. Замечание 2.1. Эффективную оценку в классе всех несмещенных оценок будем называть эффективной оценкой, не добавляя слов „в классе несмещенных оценок". Замечание 2.2. В литературе по математической статистике при рассмотрении параметрических моделей вместо термина „эффективная оценка" в классе всех несмещенных оценок используют и другие: „несмещенная оценка с минимальной дисперсией", „оптимальная оценка". Теорема 2.1. Оценка (выборочное среднее) математического ожидания генеральной совокупности X с конечной дисперсией является несмещенной, состоятельной и эффективной в классе всех линейных оценок, т.е. оценок вида п где £ ai = li Для произвольной параметрической модели. < Напомним, что элементы X,, г — 1, п, случайной выборки Хп являются независимыми случайными величинами и распределенными так же, как и сама генеральная совокупность X. Следовательно, МХг; = MX = /х и DХ{\ = D X = а2, г = Т7п.
58 2. ТОЧЕЧНЫЕ ОЦЕНКИ В силу свойств математического ожидания имеем У"МХ п *—' / nf—' п t=l г=1 что и доказывает несмещенность оценки X. Далее, поскольку последовательность Х\, ..., Хп состоит из независимых одинаково распределенных случайных величин с конечной дисперсией, то в силу закона больших чисел в форме Чебышева для любого е > О P{|Z-/i| <*•}-> 1, п-юо, т.е. оценка X сходится по вероятности к оцениваемому параметру, а это и означает ее состоятельность.' Покажем теперь, что Вв(Хп) = ^ ^ t=i ;=i t=i t=i достигает своего минимального значения при аг = 1/п, т.е. когда оценка 0(Хп) = X, что и означает эффективность оценки X в классе линейных оценок. Для отыскания условного минимума функции [V] t=i при ограничении составим функцию Лагранжа [V] п п £,(<*!,...,an;A) = J2ai+X{YlQi ~ О'
2.1. Состоятельные, несмещенные и эффективные оценки 59 где А — множитель Лагранжа. Необходимые условия существования условного экстремума имеют вид 8L Решив эту систему, находим А = —2/гс и at = 1/п, г = 1, щ и убеждаемся в том, что при этих значениях аргументов функция Sr(ai,...,an) имеет условный минимум. ► Замечание 2.3. Можно доказать состоятельность оценки X для математического ожидания (если оно существует), не предполагая существования конечной дисперсии DX. # Свойства выборочной дисперсии отражены в следующей теореме. Теорема 2.2. Если Хп — случайная выборка из генеральной совокупности X с конечной дисперсией о*2, то выборочная дисперсия <т2(Хп) — смещенная состоятельная оценка а2. А Действительно, 1=1 t=l
60 2. ТОЧЕЧНЫЕ ОЦЕНКИ Используя свойства математического ожидания, получим Хп) = ±М п 1 п 1 2 а2 л -1 2 / 2 п п п т.е. <72(Jfn) — смещенная оценка для дисперсии. Докажем, что Э2(Хп) является состоятельной оценкой. Доказательство проведем для случая, когда генеральная совокупность имеет моменты до четвертого порядка включительно и нулевое математическое ожидание. Последнее допущение не является принципиальным, так как дисперсия не зависит от значения ее математического ожидания (от точки отсчета). Применяя второе неравенство Чебышева, имеем Г {Хп)"~ Найдем дисперсию с2(Хп): ± J2? - 2XX + X2) = J2(t ) n4 nf n n Воспользуемся известным равенством, согласно которому дисперсия скалярной случайной величины равна математическому ожиданию ее квадрата минус квадрат ее математического ожидания:
2.1. Состоятельные, несмещенные и эффективные оценки 61 Поскольку заключаем, что t=l Получим выражения для математических ожиданий трех слагаемых, используя свойства математического ожидания и независимость случайных величин Х^ i =^ 1, п, каждая из которых имеет нулевое математическое ожидание и дисперсию а2. Для первого слагаемого имеем MX? J Чтобы вычислить второе слагаемое, преобразуем его: t=l U£x? t * v.=i j,k=i
62 2. ТОЧЕЧНЫЕ ОЦЕНКИ Так как t=l то 1=1 J,fc=l = £ М{Х?Х;Хк) + 2 JT M(XfXj) = 0. Следовательно, t=l Vi=l 1=1 t=l + E Я*?) = 4(nm4+n(n- «,i=l ' i*3 Аналогично можно показать, что п4 \А^ V П3 l t=l В итоге получаем Щ° \Хп)) = ^ ^3 + т4 -Зсг4 4 т4 -3<г4 2 т4 -5<г4 т4 +3(п - 1)<г4 п* п п2 п3 Поскольку ЪЛЭ2(Хп) = <т2 — <т2/п, окончательно находим Y\ n*-*4 2(m4 -2<r4) t m4 -3<г4 п п2 п3
2.1. Состоятельные, несмещенные и эффективные оценки 63 откуда с учетом второго неравенства Чебышева и следует состоятельность оценки Э2{Хп) для дисперсии а2 генеральной совокупности X. ► Замечание 2.4. Из теоремы 2.2 следует, что статистика t=l 2 является несмещенной и состоятельной оценкой дисперсии а генеральной совокупности. Бе называют исправленной выборочной дисперсией. Действительно, 1 = 1 Имеем MS*(Xn) = -?- П — 1 П — 1 71 при п —> оо, откуда и следует несмещенность и состоятельность Отметим, что в дальнейшем ее выборочное значение будем обозначать S2. Замечание 2.5. Можно доказать, что выборочные начальные и центральные моменты являются состоятельными оценками соответствующих моментов генеральной совокупности, если только они существуют*. Однако эти оценки, кроме X, являются смещенными. *См.: Крамер Г.<, а также: Ивченко Г.И., Медведев Ю.И.
64 2. ТОЧЕЧНЫЕ ОЦЕНКИ Пример 2Л. Пусть п — число испытаний по схеме Бер- нулли с неизвестной вероятностью успеха 0. Рассмотрим случайную выборку (Хи ••> Хп), где Xi, г= 1,п, — случайная величина, которая с вероятностью в принимает значение 1 („успех" в г-м испытании) и с вероятностью 1 —в — значение О („неудача" в г-м испытании). В качестве оценки в возьмем относительную частоту успехов, т.е. в(Хп) = к(Хп)/щ где есть суммарное число успехов в п испытаниях. Эта оценка является несмещенной, так как -M{X1 + ... + Xn) = ±{MXi + ... + MXn) = -n0 = 6, шЬ шЬ То и состоятельной, что непосредственно вытекает из закона больших чисел в форме Бернулли, согласно которому для любого {ia^)j}=l. # В дальнейшем в соответствии с установившейся традицией статистику к{Хп), так же как и ее значение, часто будем обозначать просто символом к. В каждом конкретном случае должно быть ясно, о чем идет речь: о случайной величине или ее реализации. Пример 2.2. Пусть Хх, ..., Хп — случайная выборка из генеральной совокупности X, имеющей нормальное распределение с неизвестным средним значением в и известной дисперсией <т2. Оценка в = 0(Xi,.m9iXn) = Хг является несмещенной для б, ибо MATi = ЪЛХ = б, но не является состоятельной, так как, во-первых, Х\ не зависит от объема выборки и, следовательно,
2.1. Состоятельные, несмещенные и эффективные оценки 65 ее распределение не меняется с ростом п, а во-вторых, О Пример 2*3, Имеем случайную выборку Хп из генеральной совокупности X с равномерным законом распределения I 0, t£[a,b], где b — a = l — известная величина, 6=(a + b)/2 — неизвестный параметр. Возьмем в качестве оценки параметра в среднее арифметическое крайних членов вариационного ряда Убедимся, что в*(Хп) является несмещенной оценкой параметра бив классе всех несмещенных оценок X не является эффективной оценкой параметра в для заданной параметрической модели. Плотности распределения Хщ и Х^ на отрезке [а, Ь] соответственно равны z-a\n-i I /x-a\n-i 1 _, (см. пример 2.20). Вычислив б = J -L.
66 2. ТОЧЕЧНЫЕ ОЦЕНКИ получим ч а + Ъ нто и доказывает несмещенность оценки 0*(хп). Далее, используя совместную плотность распределения вероятностей случайных величин* Хщ и АГ(П) y и равенство можно получить Поскольку то, следовательно, в классе всех несмещенных оценок X не является эффективной оценкой параметра в для рассматриваемой параметрической модели. Теорема 2.3 (о единственности эффективной оценки). Пусть в(Хп) и в(Хп) — две эффективные оценки для параметра в рассматриваемой параметрической модели. Тогда *См.: Емельянов Г.В., Скитович В.П.
2.1. Состоятельные, несмещенные и эффективные оценки 67 где равенство следует понимать в вероятностном смысле: Р{хп € {хп: 6(хп) ф в(хп)}} = 0. Ч Действительно, рассмотрим статистику По условию Ш(Хп) = Т>ё(Хп). Значит, Т)6*{Хп) = \{рв(Хп) + Ш(*П)) + \ = ^(рв{хп)+cov{e{xn),e{xn))'). Поскольку \cov(e(Xn),e{xn))\ ^ у/вв(хп)d*(*n) = de{xn), ;ve{xn). А так как в(Хп) — эффективная оценка, то D в* (Х„) = D в(Хп) = D в{Хп) и, как следствие, cov(£(xn) Дхп)) = т>в(хп)=: Из последнего равенства следует [XVI], что (п) = кв{Хп)+Ь.
68 2, ТОЧЕЧНЫЕ ОЦЕНКИ Так как Т>О{Хп) = cov(k6{Xn) +Ъ,в{Хп)) = кЪв{Хп) = кЪ6(Хп), то получаем к = 1. Из условия несмещенности оценок следует, что Ь = 0: Мв{Хп) = Мв{Хп) = М(в{Хп) + Ь)= Мв(Хп) + 6. Таким образом, в(Хп) = 6(Хп). ► В дальнейшем изложении при рассмотрении параметрических моделей будем использовать дифференцирование по параметру под знаком интеграла, зависящего от параметра. Параметрические модели, для которых выполнены условия, обеспечивающие законность указанных операций, называют регу- лярными моделями. Теорема 2.4 (неравенство Рао — Крамера*). Пусть рассматриваемая параметрическая модель является регулярной и в(Хп) — несмещенная оценка неизвестного параметра в. Тогда имеет место неравенство где Здесь 1(в) — количество информации по Фишерч?* в одном наблюдении, ър(цб) — плотность распределения генеральной совокупности X в случае непрерывной статистической модели и вероятность события {X = t} в случае дискретной статистической модели. *С.Р. Рао — индийский математик, К.Х. Крамер — шведский математик. **Р.Э. Фишер (1890-1962) — английский статистик и генетик.
2.1. Состоятельные, несмещенные и эффективные оценки 69 4 Доказательство проведем для непрерывной модели. Пусть р(ЦО) > 0 при t 6 А С R и p(t;0) = 0 при tg А. Тогда плотность распределения t=i случайной выборки Хп отлична от нуля на множестве В = АхАх...хАс Rn, гдеТ= (*!, ..., tn) — векторный аргумент. Поскольку R» имеем или dlnp* (Т,б) ^ рд (T,^)rfT=0. (2.3) в Так как в{Х\,„^Хп) — несмещенная оценка параметра б, то itv В Таким образом, Rn В
70 2. ТОЧЕЧНЫЕ ОЦЕНКИ или, что то же самое, Умножив равенство (2.3) на параметр в и вычтя его из равенства (2.4), приходим к равенству mf^^J!. ,2.5) в Согласно неравенству Коши — Буняковского, имеем в (у а\\2 откуда и следует неравенство (2.2), так как М Неравенство (2.2) определяет нижнюю границу дисперсий несмещенных оценок параметра в для регулярных моделей.
2.1. Состоятельные, несмещенные и эффективные оценки 71 Величину е(в) = п[(6)В6(Хп) называют показателем эффективности по Рао — Крамеру. Из (2.2) следует, что для любой несмещенной оценки параметра в величина е(6) удовлетворяет условию 0 < е(в) ^ 1. Определение 2.4. Несмещенную оценку в(Хп) параметра О £ 0 С R называют эффективной по Рао — Крамеру, если показатель эффективности е(0) = 1. Замечание 2.6. Равенство »**•>== имеет место тогда и только тогда, когда (Хп,в) дв = что является необходимым и достаточным условием обращения неравенства Коши — Буняковского в равенство. Следовательно, это равенство является критерием эффективности длл регулярных моделей. При этом из равенства (2.5) следует, что а{в) = 1/D6(^n). Замечание 2.7, Эффективная оценка по Рао — Крамеру для рассматриваемой регулярной модели является эффективной (см. определение 2.3). Утверждение следует из теоремы 2.3 о единственности эффективной оценки в классе несмещенных оценок. Обратное утверждение неверно, поскольку не любая параметрическая модель является регулярной (см. пример 2.21). Пример 2.4. Рассмотрим нормальную модель N(0,&2) в предположении, что дисперсия <т2 известна. Оценка
72 2. ТОЧЕЧНЫЕ ОЦЕНКИ является несмещенной для неизвестного среднего значения в = = /х (см. теорему 2.1). Убедимся в ее эффективности по Рао — Крамеру. Во-первых, в силу независимости элементов случайной выборки Хп = (Х\, •••» Хп) имеем \/2тг Следовательно, т.е. для нормальной модели X — эффективная оценка параметра /х. Пример 2,5. Рассмотрим модель N(fi,0) в предположении, что среднее значение /х генеральной совокупности известно, а в = а2 — неизвестный параметр. Покажем, что t=l является несмещенной и эффективной по Рао — Крамеру оценкой параметра а2. Действительно, t=l 1=1 П t=l т.е. S2(Xn) — несмещенная оценка.
2.1. Состоятельные, несмещенные и эффективные оценки 73 Вычислим дисперсию S2(Xn): DS2(Xn) = MS4(Xn) - {MS2(Xn))2 = n m4 n(n — 1) 4 4 3<r4 n -1 4 4 2<r4 = —5- + v-b V4 - a4 = 1 <r4 - a4 = . n* n* n n n Затем определим информацию по Фишеру: / 1 (ЛГ-^)2ч2 1 " Ч га2"1" 2<т4 У ~4<т4 2<г6 ' 4а8 - J_ _ ^1 . 3^ _ l = 4<т2 ~ 2<т6 ' поскольку для нормальной модели ш4=3<т4 [XVI]. В результате получим т.е. 52(ХП) — эффективная оценка параметра в для нормальной модели. # Заметим, что
74 2. ТОЧЕЧНЫЕ ОЦЕНКИ является несмещенной оценкой параметра а1 (см, замечание 2.4), но для нормальной модели N(fiy0) эта оценка не является эффективной. Это вытекает из теоремы 2,3 о единственности существования эффективной оценки. Можно показать, что Следовательно, Пример 2.6. Рассмотрим экспоненциальную модель О, х < 0. Покажем, что А" является эффективной по Рао — Крамеру оценкой неизвестного параметра в. Действительно, J п. = /Xg\2 M(X-6>) D^ 6>2 04 04 04 02' откуда заключаем, что
2.2. Понятие достаточных статистик 75 2.2. Понятие достаточных статистик Применение в реальных прикладных задачах методов математической статистики, как правило, связано с обработкой и хранением больших массивов статистических данньщ относящихся к изучаемому объекту или процессу. Поэтому в этой области существует проблема сокращения объемов исходных данных без потери информации о статистической модели. Именно в связи с этой проблемой рассматривают так называемые достаточные статистикщ к изучению которых мы приступаем. Пусть Хп — случайная выборка из генеральной совокупное- ти X с функцией распределения F(x;0), где в — неизвестный параметр. Пусть, далее, Т = Т(Хп) — некоторая статистика (функция случайной выборки). Предположим, что нам известна не выборка жп, являющаяся реализацией случайной выборки Хп, а только значение Т(хп) = t статистики Т. В дальнейших рассуждениях нас будет интересовать условная функция распределения случайной выборки Хь ..., Хп при условии, что статистика Т(Хп) приняла значение t. Заметим, что в общем случае это условное распределение зависит от параметра в. Определение 2.5. Статистику Т(Хп) называют достаточной для параметра 0, если условная функция распределения Fg (zi,...,zn | Т(Хп) = t) случайной выборки Хп при условии Т(Хп) = t не зависит от параметра в при любом возможном значении t. Согласно определению 2.5, при фиксированном значении t изменение параметра в не влияет на условный закон распределения случайной выборки Хп при условии Т(Хп) = t. Это
76 2. ТОЧЕЧНЫЕ ОЦЕНКИ означает, что значение t статистики Т(Хп) дает полную информацию о параметре в. Замечание 2.8. Поскольку для непрерывной статистической модели «1 Zn —OO —OO а для дискретной то в случае достаточной статистики Т(Хп) соответственно условная плотность распределения pg [z\^.^zn\ T(Xn) = t) и условная вероятность ¥{X\ = ж{, ..мХп = х3п \ Т(Хп) — t} не зависят от в. Пример 2.7. Пусть Xt, t= 1,п, — число успехов в г-м испытании по схеме Бернулли. Рассмотрим статистику »>n» имеющую смысл числа успехов в п испытаниях по схеме Бернулли. Покажем, что она является достаточной для параметра в — вероятности успеха в одном испытании. Найдем условное распределение вероятностей, которое для случая дискретной модели будем записывать в виде
2.2. Понятие достаточных статистик 77 Согласно определению условной вероятности, имеем Если х\ +... + хп = t, то Напомним, что случайные величины X,, г= 1,п, могут принимать здесь только значения 1 или 0, причем Х\ +... + Хп = t. Поскольку вероятность P{T(Xn) = t} определяется формулой Бернулли то условную.вероятность можно переписать в виде т.е. она не зависит от в. Если же х\ +... + хп ф t, то а следовательно, и т.е. одять-таки условная вероятность не зависит от б, а значит, согласно определению 2.5, Т(Хп) = Хг + ... + Хп — достаточная статистика для параметра в. # Проверять достаточность конкретных статистик, основываясь на определении 2.5, довольно сложно. Следующая теорема
78 2. ТОЧЕЧНЫЕ ОЦЕНКИ дает критерий достаточности статистики, который помогает выполнять такую проверку. Предварительно введем функцию n]e)f (2.6) которую называют функцией правдоподобия. Здесь р(х;0) обозначает плотность распределения непрерывной случайной величины или вероятность события {X = х] в случае дискретной случайной величины, a AT,-, t = 1,п, — элементы случайной выборки Хп. Теорема 2.5 {критерий факторизации Неймана — Пирсоне?). Статистика Т = T(#i,...,a:n) является достаточной для параметра в тогда и только тогда, когда для любой реализации (х\, ..., хп) случайной выборки (Х\, ..., Хп) выборочное значение функции правдоподобия имеет вид ,...,xn), (2.7) т.е. может быть представлено в виде произведения двух сомножителей, из которых второй не зависит от 0, а первый (зависящий от в) зависит от результатов наблюдений хи ••■! хп только через статистику Г = Т{х\,...,жп). < Приведем доказательство для дискретной модели и учтем, что в рассматриваемом случае вероятность р{х{\в) = P^{ATt- = xi], i = I~n, зависит от в. Поэтому будем использовать следующую форму записи: *Е. Нейман (1894-1981) — американский математик и статистик; Э. Пирсон (1857-1936) — английский математик, биолог и философ.
2.2. Понятие достаточных статистик 79 что в соответствии с (2.6) приводит к равенству Если статистика Т = Т(Хп) достаточна, то при любом фиксированном значении t из области возможных значений условное распределение выборки не зависит от б и, следовательно, его можно записать в виде h(xnit) или h(xn)y так как t — фиксированная величина. Пусть Т(Хп) — t. Тогда для любой реализации хп случайной выборки, удовлетворяющей условию Т(хп) = t, событие {Хп = хп} включено в событие {T(Xn) = t}, т.е. {Хп = хп} С С {Т(Хп) = i) и, следовательно, т.е. имеет место равенство (2.7). Наоборот, пусть имеет место представление (2.7). Тогда при любом жп, для которого Т(хп) = t, с учетом равенств имеем РЛХ -х \Т(Х) t) L(xn;6) g{t,e)h{xn) h{xn) E L{xn-6) E g{t,e)h(xn) £ h(xny T(Sn)=t T(Sn)=t T(Sn)=t т.е. условное распределение выборки не зависит от в. Если же хп таково, что Т(хп) ф t, то очевидно, что
80 2. ТОЧЕЧНЫЕ ОЦЕНКИ Таким образом, в любом случае условная вероятность не зависит от 0, а это и означает достаточность статистики Т(Хп) согласно определению (2.5). ► Заметим, что всякая эффективная по Рао — Крамеру оцеп- ка в = в(Хп) параметра в является достаточной статистикой. Это следует из равенства (Хп,в)) (критерия эффективности для регулярных моделей, см. замечание 2.6) и соотношения (2.7). Обратное утверждение неверно (см. пример 2.27). Приведем без доказательства следующие утверждения. 1°. Если существует эффективная оценка параметра, то она является функцией от достаточной статистики. Из этого утверждения следует, что эффективную оценку следует искать среди функций от достаточных статистик. 2°. Если Т(Хп) — достаточная статистика для параметра 0, то таковой же является и любая взаимно однозначная функция от Т(Хп). Нахождение эффективных оценок с помощью достаточных статистик связано с понятием полноты достаточной статистики, которое здесь мы не будем рассматривать, а отсылаем заинтересованного читателя к специальной литературе*. Замечание 2.9. Определение 2.5 достаточной статистики можно обобщить на случай вектора параметров в = (в\, ..., вг). Векторную статистику т = (ть ...,гг) = №№,...,хп), ..., тг(хи...,хп)) •См.: Ивченко Г.И., Медведев Ю.И.
2.2. Понятие достаточных статистик 81 будем называть достаточной для вектора параметров 0, если условное распределение выборки Хп = (Xi, ..., Хп) при условии Т(Хп) =£ где Г= (*i, ..., tr) — некоторое фиксированное значение, не зависит от параметра 0. При этом критерий факторизации — теорема 2.5 — обобщается на случай векторной статистики. # Как уже отмечалось выше, достаточные статистики позволяют сократить объем исходных данных, сохраняя всю содержащуюся в этих данных информацию. Кроме того, один из наиболее универсальных методов нахождения оценок для неизвестных параметров — метод максимального правдоподобия, который приводит к оценкам параметров через достаточные статистики. Приведем примеры, поясняющие смысл и свойства достаточных статистик. Пример 2.8. Пусть (a?i, ..., хп) — реализация случайной выборки (X\j ..., Хп), и случайная величина X имеет экспоненциальное распределение, т.е. {X \е~0, 0 0; О, х < 0. В этом случае функция правдоподобия имеет вид 1 ± откуда в соответствии с критерием факторизации Неймана Пирсона следует, что статистика t=l
82 2. ТОЧЕЧНЫЕ ОЦЕНКИ является достаточной. Здесь роль множителя д {Т(х\,..., хп), 0) играет все выражение для L(x1,...,xn;6), a /i(a:i,...,arn) = 1. В данном случае существует эффективная оценка параметра 0, выражающаяся через достаточную статистику, а именно: оценка п .. t=l как было показано в примере 2.6, является эффективной по Рао — Крамеру. Пример 2.9 (общая нормальная модель). Пусть в эксперименте наблюдается случайная величина X ~ N(0i,0|) с неизвестными параметрами 0i, 02. Так как плотность распределения X имеет вид то значение функции правдоподобия для выборки а^, ..., хп из генеральной совокупности X в данном случае имеет вид l ( i А, _ч2 откуда в силу критерия факторизации Неймана — Пирсона (множительЛ(ж1,...,хп) = 1) заключаем, что двумерная статистика Т= (7i,T2), где t=i i=i является достаточной для вектора параметров (0i,02)-
2.2. Понятие достаточных статистик 83 Пример 2.10. Пусть дана случайная выборка [Х\} ..., Хп) из генеральной совокупности X ~ /2(0,6), т.е. X имеет равномерное распределение на интервале (0, 0), где в — неизвестный параметр. Покажем, что крайний член вариационного ряда Х(п) случайной выборки является достаточной статистикой для параметра 0, т.е. T(Xi,...,Xn) = X(nj — достаточная статистика. Действительно, так как плотность равномерного распределения имеет вид \о, **[о,е], то выборочное значение функции правдоподобия имеет вид I -г -Л /(£)"' «."бМ t=M; I 0 в противном случае. Мы видим, что область изменения каждого аргумента Xi функции £(xi,...,xn;0) зависит от параметра в. Рассмотрим статистику и положим I 0 в противном случае. в противном случае. Тогда выборочное значение функции правдоподобия для выборки хп можно представить в виде L(a:1,...,rrn;0)=(7(r,0)^(a:1,...,a:n).
84 2. ТОЧЕЧНЫЕ ОЦЕНКИ Заметим, что при определении функции Л(ж1,...,жп) на хг не наложены ограничения, поскольку Xi ^ Т(хп) = х{п) ^ 0, г = 1, п. Это значит, что функция /i(ari,...,xn) не зависит от параметра 0. Согласно критерию факторизации, статистика Т(хп) = Х^ является достаточной для параметра 0. Пример 2.11 (модель Коши). Пусть имеется случайная выборка Хп из генеральной совокупности X ~ К(в)ч т.е. X имеет распределение Коши: Функция правдоподобия в рассматриваемом случае имеет вид ^1 + (^е) Из этого равенства следует, что существует лишь одна статистика T(Xi,...,Xn), которая для выборочного значения функции правдоподобия дает представление (2.7), а именно: тривиальная статистика (Ti(Xn),...,Tn(Xn)) = (Х\у ••-, Хп), совпадающая с самой случайной выборкой. # Отметим, что из определений эффективности по Рао — Крамеру и достаточных статистик вытекает, что существование эффективных оценок по Рао — Крамеру или достаточных статистик можно ожидать для специальных классов параметрических моделей. Если существование таких оценок установлено, то их можно найти с помощью метода максимального правдоподобия, который изложен в следующем параграфе.
2.3. Методы получения точечных оценок 85 2.3, Методы получения точечных оценок Рассмотрим методы определения точечных оценок параметров 0i9 ...9 0Г9 от которых зависит распределение p(s;0i,?..,0r) генеральной совокупности X. В математической статистике разработано большое число методов оценивания неизвестных параметров по данным случайной выборки, из которых в приложениях наиболее часто используются: - метод моментов; - метод максимального правдоподобия; - графический метод (или метод номограмм); - метод наименьших квадратов. Рассмотрим первые три из них (последний рассмотрен ниже, см. 7). Метод моментов. Метод моментов был предложен английским статистиком К. Пирсоном и является одним из первых общих методов оценивания. Он состоит в следующем. Пусть имеется случайная выборка Хп = (Х\, ..., Хп) из генеральной совокупности X, распределение которой р{х;в) известно с точностью до вектора параметров 0= (0i, ..., 0Г). Требуется найти оценку параметра в по случайной выборке Хп. Будем предполагать, что у случайной величины X существуют первые г моментов: mfc = MXfc, fc=l,r. Ясно, что величины mk являются функциями неизвестного вектора параметров 0, т.е. т = гпк(в). Рассмотрим выборочные моменты Д^(ХП) (или же щ(Хп), см. 1.3). Выборочные моменты являются состоятельными оценками соответствующих моментов генеральной совокупности X (см. замечание 2.5), поэтому при большом объеме выборки mk и к= 1,г, можно заменить соответственно моментами Дь и выборки хп.
86 2. ТОЧЕЧНЫЕ ОЦЕНКИ В методе моментов в качестве точечной оценки в(Хп) = = (0i(Xn), ..., вг(Хп)) вектора параметров в берут статистику, значение которой для любой реализации хп случайной выборки Хп получают как решение системы уравнений £fc = Wk(0), fc = !77. (2.8) Можно показать*, что при условии непрерывной зависимости решения этой системы от Д^, к = 1,г, оценка, полученная методом моментов, является состоятельной и имеет асимптотически нормальное распределение, т.е. ее распределение при п ->• оо стремится к нормальному. При этом уравнения (2.8) во многих случаях просты и их решение не вызывает больших вычислительных сложностей. Понятно, что метод моментов не применим, когда моменты генеральной совокупности нужного порядка не существуют (например, для распределения Коти, у которого не существует даже начальный момент первого порядка — математическое ожидание [XVI]). Пример 2.12. Пусть случайная величина X имеет гамма- распределение с плотностью х < О, где А и а — два неизвестных параметра. Заметим, что этому распределению подчиняется время X до отказа системы из а = т (т — натуральное число) однотипных элементов, если каждый из т - 1 элементов включается в работу после отказа предыдущего, и время до отказа X,-, г = 1,ш, *См.: Ивченко Г.И., Медведев Ю.И.
2.3. Методы получения точечных оценок 87 любого элемента имеет экспоненциальное распределение О, х < 0. Найдем с помощью метода моментов оценки неизвестных параметров А и а. В данном случае, используя определение гамма-функции оо Г(а)= /V-Vdt, а также рекуррентное соотношение Г(а+ 1) = <>Г(а), получим следующие выражения для первого, второго начальных моментов и дисперсии: оо XaxQ _д_ , Г(а+П а _ q(q + l) /\аха О DX = М{Х2) - (MX)2 = m2 - ml = ^. Пусть жп — выборка объема гс из генеральной совокупности X. Находим моменты выборки /2i = x и V2 = ?2. Приравнивая моменты mi = MX и m2= DXk соответствующим моментам выборки, получаем систему уравнений
88 2. ТОЧЕЧНЫЕ ОЦЕНКИ откуда находим значения оценок а2 \<т Следовательно, оценками неизвестных параметров будут статистики Пример 2.13. Методом моментов найдем оценку параметра в = р в биномиальной модели, где р есть вероятность „успеха" в любом из п независимых повторных наблюдений, а случайная величина к(Хп) — число „успехов". Случайной выборкой Хп в данном случае являются п дискретных случайных величин Х{, каждая из которых принимает значение 1 с вероятностью ри Ос вероятностью 1—р. При этом к(Хп) = Х\ + ... + Хп, а математическое ожидание Ык(Хп) = пр [XVI]. Если в результате п независимых наблюдений мы получили выборочное значение к(Хп) = fc, то уравнение, которое нужно составить согласно методу моментов, имеет вид Получаем р = к /п. Следовательно, точечной оценкой параметра р является относительная частота. Метод максимального правдоподобия. Одним из наиболее универсальных методов оценивания параметров является метод максимального правдоподобия (предложенный Р. Фишером), суть которого состоит в следующем. Рассмотрим функцию правдоподобия случайной выборки Хп из генеральной совокупности X, распределение p(x;ff) которой известно с точностью до параметра в £ в:
2.3. Методы получения точечных оценок 89 По определению, оценкой максимального правдоподобия параметра в называют статистику 0(Хп)1 значения в которой для любой выборки хп удовлетворяют условию n;0), (2.9) 060 т.е. для выборки функция правдоподобия, как функция аргумента 0, достигает максимума. Если функция L{xn\§) дифференцируема как функция аргумента в при любом значении хп из множества Хп значений случайной выборки Хп и максимум L(xn;ff) достигается во внутренней точке из 0, то значение точечной оценки максимального правдоподобия в случае скалярного параметра удовлетворяет уравнению (необходимому условию экстремума [II]) U илй «Eig&.o, рло, так как при логарифмировании точки экстремума остаются теми же, а уравнение, как правило, упрощается. Если распределение случайной величины X зависит от вектора параметров в = (0i, ..., 0Г), то второе из уравнении (2.10) заменяется системой уравнений A-^L = 0, fc=l,r. (2.11) Уравнения (2.10) и (2.11) называют уравнениями правдоподобия. Для наиболее важных семейств распределений р(х',в) уравнение правдоподобия имеет единственное решение 0= (0!, ..., вг). Во многих случаях решение системы (2.11), являющейся, как правило, нелинейной, приходится искать численными методами*. •См.: Ивченко ГЖ, Медведев ЮЖ
90 2. ТОЧЕЧНЫЕ ОЦЕНКИ Пример 2.14. Применим метод максимального правдоподобия для оценки параметра в = р в биномиальной модели, где р имеет смысл вероятности „успеха" в любом из п независимых повторных испытаний (испытаний по схеме Бернулли), в которых было зафиксировано к „успехов". В рассматриваемом случае значения функции правдоподобия L(k;p) есть вероятность появления к „успехов" в серии из п испытаний. Эта вероятность, как известно, определяется по формуле Бернулли, т.е. Находя получаем уравнение правдоподобия (2.10) в виде дЫЦк;р) к п-к др ~Р 1-р"°' откуда получаем р = к/п. Нетрудно убедиться в том, что р есть точка максимума L(k;p). Следовательно, оценка максимального правдоподобия вероятности р совпадает с относительной частотой „успеха" в п испытаниях. Пример 2.15. Пусть наблюдаемая в эксперименте случайная величина X — время работы прибора до отказа — имеет экспоненциальное распределение с плотностью ;,А)= < ' \ 0, х<0, где А — неизвестный параметр. Применяя метод максимального правдоподобия, найдем точечную оценку для параметра А. Пусть хп = (хг, ..., хп) —
2.3. Методы получения точечных оценок 91 любая реализация случайной выборки Хп из генеральной совокупности X. В рассматриваемом случае t=l In L {x\,..., xn; A) = n In A - > Следовательно, уравнение правдоподобия (2.10) имеет вид d\nL(x]X) n ^ ил л откуда следует, что А=(~ Итак, точечной оценкой неизвестного параметра А является Х(Хп) = \[Х. Если учесть, что MX = 1/А, а наилучшей оценкой MX = /z является выборочное среднее х-i то полученный ответ представляется вполне естественным. Пример 2.16. Для общей нормальной модели 7V(0i,0|) методом максимального правдоподобия найдем оценку вектора параметров 0 = (0i, 02). В этом случае функция правдоподобия
92 2. ТОЧЕЧНЫЕ ОЦЕНКИ и, как следствие, ^2 2 г=1 Поскольку число неизвестных параметров г = 2, система уравнений правдоподобия (2.11) будет состоять из двух уравнений: д п Решая систему, получаем t=i Следовательно, оценками максимального правдоподобия для математического ожидания MX = в\ и дисперсии DX = #2 случайной величины, распределенной по нормальному закону, являются соответственно выборочное среднее и выборочная дисперсия . # Оценки максимального правдоподобия могут быть смещенными (см. примеры 2.16, 2.27) и не являться эффективными (см. пример 2.27). Однако, как показывают примеры, часто
2.3. Методы получения точечных оценок 93 смещенность можно устранить» Кроме того, во многих случаях для несмещенной и не являющейся эффективной по Рао — Крамеру оценки в(Хп) параметра в выполняется условие Вт е(в)=1 п—Юо (см. пример 2.27). В этом случае оценку в(Хп) параметра в называют асимптотически эффективной. Приведем без доказательства основные свойства оценок максимального правдоподобия для регулярных моделей. 1. Если для скалярного параметра в существует эффективная оценка, то уравнение правдоподобия (2Л0) имеет единственное решение, которое является выборочным значением этой оценки. 2. Если существует достаточная статистика параметра 0, то решения уравнения правдоподобия являются функциями от выборочного значения этой статистики. Следовательно, если, кроме того, существует эффективная по Рао — Крамеру оценка в(Хп)у то единственное решение уравнения правдоподобия является функцией от выборочного значения достаточной статистики. 3. Если параметрическая модель (F(s;0), в е 0} удовлетворяет некоторым общим условиям*, то уравнение правдоподобия имеет решение 0, которое является выборочным значением состоятельной оценки в(Хп) параметра в. Оценка в(Хп) является асимптотически эффективной и имеет асимптотически нормальное распределение N(6,1/у/пТЩ). Графический метод (метод номограмм)* Графический метод позволяет не только достаточно просто найти значения оценок неизвестных параметров распределения вероятностей F(x;0i,02) наблюдаемой в эксперименте случайной величины, но и сделать предварительное заключение о правильности выбора вида распределения. Окончательное заключение *См.: Ивченко ГЖ, Медведев ЮМ
94 2. ТОЧЕЧНЫЕ ОЦЕНКИ о правильности такого выбора проводят с помощью так называемых критериев согласия, которые рассмотрены подробно в 5. Идея графического метода состоит в следующем. С помощью некоторого нелинейного преобразования и = и(у) семейство уравнений у = F(a:;0i,02) приводится к виду и = ах + Ь. По выборке хп = (a?i, ..., хп) из генеральной совокупности X строится эмпирическая функция распределения Fn(x), являющаяся, как известно, статистическим аналогом для теоретической функции распределения F(a;;0i,02). Если в результате преобразования и = и(у), которое применяется к функции у = Fn(x), точки (st, u(Fn(xi))) будут достаточно „тесно" концентрироваться около некоторой прямой, то можно говорить о правильности выбора семейства распределений F(x;0i,02). В этом случае остается найти приближенные значения в\ и 02 параметров в\ и 02. Для реализации идеи графического метода строят вероятностную бумагу — бумагу, разграфленную (специальным образом) так, чтобы график функции F(a;;0i,02) изображался на ней прямой линией. С этой целью на оси ординат отмечают не значения переменной и, а соответствующие им значения 3/. Тем самым равноотстоящим точкам на оси ординат соответствуют значения j/, связанные с и нелинейной зависимостью и = и{у). Из пояснений к вероятностной бумаге всегда ясно, как связаны параметры а и Ь с параметрами 0i и 02 рассматриваемого семейства. Проиллюстрируем сказанное на примере нормального зако- на распределения Ф1—-1, где /х и о — неизвестные параметры. Графики функций этого семейства при /х = 2 и ст = 1/2,1,2 изображены на рис. 2.1. Рассмотрим преобразование и = Ф~г(у), в результате которого получим и = ^—ii, или и = ах + 6, где а=-, Ь=-^ (2Л2)
2.3. Методы получения точечных оценок 95 По выборке («i, ..., хп) из генеральной совокупности X построим эмпирическую функцию распределения Fn(x). Если точки («*, u(Fn(xi))) достаточно „тесно" концентрируются около некоторой прямой, то предположение о нормальном законе распределения принимаем. Затем на глаз проводим (на вероятностной бумаге) прямую линию и = ах + Ь, проходящую как можно ближе ко всем точкам («*, w(Fn («,))), и определяем приближенные значения а и 6. Используя равенства (2.12), находим приближенные значения неизвестных параметров: Пример 2.17. Для определения предела прочности стекловолокна, изготовленного по новой технологии, проведены испытания на разрыв п = 17 образцов. Получены следующие значения предела прочности X (в мегапаскалях): xi = 181, ж2 = 194, х3 = 173, хА = 153, х5 = 168, я6 = 176, х7 = 163, х8 = 152, ж9 = 155, xlo=156, жц = 178, «12 = 160, «13 = 164, «14 = 169, «15 = 155, х16 = 122, «17 = 144. Предел прочности образцов, изготовленных по старой технологии, хорошо согласовывался с нормальным законом распределения. Требуется проверить согласие результатов экспе-
96 2. ТОЧЕЧНЫЕ ОЦЕНКИ римента с нормальным законом распределения и оценить его параметры. Для решения поставленной задачи воспользуемся графическим методом. Перейдем от выборки к вариационному ряду ж(1)? x(2)t •■•! х(\7) и нанесем значения Х{, i= 1,17, на ось Ох. Далее с помощью таблицы квантилей нормального распределения (см. табл. П.2) находим значения функции Ф~1(з/ё)» обратной к функции Ф(ж), при гц = ^^-, г = 1717: Ф"1 (19/34) = -Ф-1 (15/34) = 0,1479, ф-1 (21/34) = -Ф-1 (13/34) = 0,2993, ф-^рЗ/З^ = -Ф-ЧИ/З^ = 0,4578, Ф"1 (25/34) = -ф-*(9/34) = 0,6289, Ф"1 (27/34) = -Ф"1(7/34) = 0,8208, Ф"1 (29/34) = -Ф-Х(5/34) = 1,0494, Ф"1 (31/34) = -Ф-!(3/34) = 1,3517, Ф"х(33/34) = -Ф-^!^) = 1,8895. На рис. 2.2 приведены значения Fn(x) в плоскости переменных х и м = Ф~1(у). u 2- 1- 1- 2- У -0,95 -0,8 122 -0,2 -0,05 144 ^ *^Ш 181 194 x Рис. 2.2
2.4. Решение типовых примеров 97 На рис. 2.2 видно, что точки графика функции Fn(x) расположены достаточно близко от прямой u = ax + b при а = tga « 0,58, Ь = -d/a « -62,7, где d — расстояние от 0 до точки пересечения прямой с осью Ох. Следовательно, оценки параметров fi и о нормального распределения F(ar;/i,cr) =Ф( ^—^J равны а = 1/а = 1,75, Д = -Ь/а = d = 110. Для сравнения приведем оценки параметров /х и ст, полученные методом максимального правдоподобия: /2 = 162,5, д =, т.е. оценки весьма близки. 2.4. Решение типовых примеров Пример 2.18. В результате пяти измерений длины стержня одним прибором (без систематических ошибок) получены следующие данные: 92; 94; 103; 105; 106. Найдем выборочное значение несмещенной оценки S2(X^) дисперсии ошибок прибора. Выборочное значение несмещенной оценки вычисляется по формуле где п — объем выборки. В данном случае среднее значение х выборки равно _ 92 + 94+103 + 105+106 lftft х = = 100.
98 2. ТОЧЕЧНЫЕ ОЦЕНКИ Используя это значение, находим S2(XS) = J ((92 - 100)2 + (94 - 100)2 + (103 - 100)2 + + (105 - 100)2+ (106 - 100)2) = (-8)2 + (-6)2 + 32 + 52 + 62 = -— —— = 42,5. Пример 2.19* Убедимся в том, что выборочная функция распределения является несмещенной оценкой для функции распределения F(x) генеральной совокупности X в точке х £ R. По определению выборочная функция распределения имеет вид F(t' X } — п{Хщ> п* где п(х,Хп) — число элементов случайной выборки, меньших х. Используя функцию Хевисайда [XI] получим Х ~\0, х<0, t=i Так как оо х МЦх-Х{)= [ h{x-t)p{t)dt= f p(t)dt = F{x), —оо —оо где р(х) — плотность распределения генеральной совокупности X) оценка F(x;Xn) является несмещенной: 1 п 1 MF(x;Xn) = -J2Mh{x - Xi) = -nF{x) = F{x). n*ri n *=1
2.4. Решение типовых примеров 99 Пример 2.2СК Рассмотрим случайную выборку (Xi, ..., Х5) объема га = 5 из генеральной совокупности X, распределенной по показательному закону ■-{ Ае~Ла\ х > 0; 0, х < 0. В качестве точечной оценки математического ожидания возьмем среднее арифметическое крайних членов вариационного ряда Покажем, что оценка является смещенной. Из свойств математического ожидания получаем откуда заключаем, что для вычисления математического ожидания точечной оценки необходимо знать законы распределения случайных величин Х^) и Х(5). Для первой из них имеем х) = 1 - P{*! > ar,..., Х5 > х) = £ *}...Р{Х5 £ х) = 1 - (1 - F(x))5, где F(x) — функция распределения генеральной совокупности. Аналогичны вычисления для случайной величины Х(5у. FX{S)(x) = Р{Х(5) < х} = Р{*! < *, ...,Х5 < а:} = (F(x))n. Учитывая вид функции распределения генеральной совокупности (вид показательного закона распределения), заключаем, что 0, ж<0.
1002. ТОЧЕЧНЫЕ ОЦЕНКИ Следовательно, оо MJC(1) = J xpX(l) и оо M Jf(5) — / xPXt5) (x) dx (x)dx = OO = 5a/, OO и :(l-€-5** *dx = rfa;- 287 "бол- Из найденных формул окончательно находим 299 120А* Сравнивая найденное значение с математическим ожиданием для рассматриваемой генеральной совокупности X, убеждаемся, что М0(Хб) Ф MX, т.е. точечная оценка в{Х$) смещенная. Пример 2.21. Пусть задана случайная выборка объема п из генеральной совокупности X с плотностью распределения {еа~х х > аи И С , £ ^ Of, 0, х<а. В качестве точечной оценки неизвестного параметра а возьмем в(Хп) = Х(\у Убедимся, что эта оценка смещенная. Найдем несмещенную оценку и покажем, что обе оценки являются состоятельными. Предварительно найдем плотность распределения случайной величины 6(Хп). Если F(x) — функция распределения генеральной совокупности JC, то функция распределения случайной величины Х(!) имеет вид Fy(1) (х) = 1 — (1 — F(x))n (см. пример 2.20). Поскольку
2.4. Решение типовых примеров 101 при х ^ a, TO 0, х < а. Исходя из функции распределения, можем найти плотность распределения оценки в(Хп) [ О, х < а. Таким образом, оо = / xnen = a + -, т.е. оценка б(Хп) = Хщ — смещенная. Из последнего равенства легко увидеть, как нужно модифицировать оценку в(Хп)у чтобы получить несмещенную оценку. Несмещенной оценкой параметра а является в*(Хп) = в(Хп) — 1/п. Покажем, что оценка в*(Хп) является состоятельной. Для этого применим второе неравенство Чебышева. Так как оо = I *2 J -*) dx = a2 + — + \ 2 п п2 то Отсюда следует, что обе оценки состоятельные.
102 2. ТОЧЕЧНЫЕ ОЦЕНКИ Пример 2.22. Пусть дана случайная выборка (Х\, ..., Хп) из генеральной совокупности X с плотностью распределения { 0, а: < 0, где <т — известный параметр. Покажем, что эффективной по Рао — Крамеру оценкой неизвестного параметра в является *=1 Прежде всего убедимся, что в(Хп) является несмещенной оценкой параметра 0. Имеем 1 п 1 п 1 ть r^i п^г^ п Поскольку (Ых-в)2 € 1<т^ у 1 =/1пж -= J хоу2к то, введя новое переменное t = —, получим у/2ж J —со = -= I te~'2dt + —= / .2 СО .2 / —СО — СО Чтобы убедиться в том, что показатель эффективности по Рао — Крамеру е(в) равен единице, найдем дисперсию ТУв(Хп)
2.4. Решение типовых примеров 103 и количество информации по Фишеру 1(6). Для дисперсии имеем Л П 1 71 t=l 1=1 7 {]пх-в)2 {]пх-в)2 п2 17 о i {]пх-в) =- (lux-в)2 =е 2<т* dx. о С помощью замены переменного t = х~ приходим к следующему результату: Для 1(6) имеем ,./9 \дв а* 1 7 1 О"»-'У = Цг / (lnx - в)2i~ о В результате окончательно находим Пример 2.23. В условиях примера 2.21 найдем нижнюю границу г неравенства Рао — Крамера и объясним, по- п1[в) чему дисперсия D0*(Xn) =DJfpj несмещенной оценки параметра 0 = а меньше величины Г//|Ч.
104 2, ТОЧЕЧНЫЕ ОЦЕНКИ Имеем Поэтому nl(a) n и, следовательно, п Последнее неравенство объясняется тем, что рассматриваемая параметрическая модель не является регулярной. Действительно, дифференцируя интеграл оо / —оо по параметру а, получаем оо — / p(x;a)dx = 0. — ОО Однако В таких случаях часто можно найти несмещенные оценки, дисперсия которых меньше чем ■ . # Заметим также, что параметрическая модель, рассмотренная в примере 2.3, не является регулярной. При этом, как мы
2.4. Решение типовых примеров 105 видим, дисперсия оценок примеров 2.3 и 2.23 является бесконечно малой при п -> оо более высокого порядка, чем 1/п. Такие оценки называют сверхэффективными. Пример 2.24. Пусть случайная величина X имеет распределение Пуассона где Л — неизвестный параметр. В результате независимых наблюдений получена случайная выборка (Ai, ..., Хп). Найдем методом моментов точечную оценку в(Хп) параметра Л и убедимся, что зта оценка является несмещенной и состоятельной. Так как оценивается один параметр, то для получения оценки нужно составить одно уравнение. Известно [XVI], что МX = А. Следовательно, в качестве точечной оценки параметра Л распределения Пуассона можно взять выборочное среднее, т.е. в(Хп) = Х. Из теоремы 2.1 следует, что эта оценка является несмещенной и состоятельной. Пример 2.25. Пусть дана случайная выборка (Х\, ..., Хп) объема п из генеральной совокупности X, имеющей равномерный закон распределения I 0, х£(а,Ь), с неизвестными параметрами а и 6. Найдем методом моментов точечные оценки этих параметров. Известно [XVI], что для равномерно распределенной случайной величины X
106 2. ТОЧЕЧНЫЕ ОЦЕНКИ Выборочное среднее X и выборочная дисперсия Э2(Хп) вычисляются по формулам i=l i=l Составляем систему двух уравнений а + Ь _ Решая систему, получаем Окончательно имеем Ь(Хп) = Х+ у/За(Хп), а(Хп) = X - Пример 2.26. Пусть дана случайная выборка (Ai, ..., Хп) объема п из генеральной совокупности X, распределенной по биномиальному закону с неизвестным параметром в (вероятностью появления события в одном испытании). Методом максимального правдоподобия найдем точечную оценку параметра в. Функция правдоподобия в этом случае имеет вид где
2.4. Решение типовых примеров 107 Отсюда находим п iln6+ (kn - ^Ца:,) 1п(1 - 0). i=l t=l Следовательно, уравнение правдоподобия д\пЬ(хп;в) дв в данном случае сводится к следующему: 1 n n ( Решив уравнение правдоподобия, найдем критическую точку функции правдоподобия i=l Покажем, что эта точка является точкой максимума выборочного значения функции правдоподобия. Для этого найдем вторую производную по в: 82\пЬ(х п; Легко убедиться, что Поэтому б — точка максимума выборочного значения функции правдоподобия, определяющая оценку максимального правдоподобия
108 2. ТОЧЕЧНЫЕ ОЦЕНКИ Пример 2.27. Методом максимального правдоподобия по случайной выборке (Ai, ..., Хп) найдем оценку параметра 0 распределения Парето (0 > 0, а > 0): О, х < в. Для выборочного значения функции максимального правдоподобия при выполнении условий 0 ^ жг, г = 1, п, находим 0\«+ia/ 0\«+i Ясно, что L(zi,...,a;n;0) =0, если 0 > ж; для какого-либо значения индекса г. Из вида функции правдоподобия L(zi,...,zn;0) заключаем, что она является возрастающей функцией 0 при 0 < Х(х) и равна нулю при 0 > Х^у Следовательно, 6(ХП) = = А(п) — оценка максимального правдоподобия параметра 0. Пример 2.28. Рассмотрим параметрическую модель = < Г(А)~ ' ' О, а: ^ О, где р(х;Х) — плотность распределения генеральной совокупности Хл Л > 0 — неизвестный параметр, 0 > 0, а Г(х) — гамма-функция. Для этой модели: а) найдем оценку в(Хп) параметра 0 методом максимального правдоподобия и покажем, что она смещенная; б) найдем несмещенную оценку 0*(Хп) параметра 0;
2.4. Решение типовых примеров 109 в) покажем, что для рассматриваемой параметрической модели существует достаточная статистика; г) убедимся, что оценка в*(Хп) не эффективная, но асимптотически эффективная. а. Запишем функцию правдоподобия Отсюда находим dlnL(ai,...,a:w;fl) _ пЛ дв ~T~ Решая уравнение правдоподобия Т 1=1 получаем Покажем, что в(Хп) = Х/Х — смещенная оценка параметра в. Плотность распределения случайной величины Y = 1/Х имеет вид пЛ+1 - — Этот результат можно получить, зная для данной модели характеристическую функцию [XVI] /<o=(i-frA-
НО 2. ТОЧЕЧНЫЕ ОЦЕНКИ Найдем математическое ожидание случайной величины Y — пА+1 -* е У dy = где t = 1/у. Используя равенство о и свойство гамма-функции Г(Л +1) = ЛГ(Л), получаем (пв)пХ Г(пА -1) пв Г(пЛ) (пв)^-1 пА-1" Следовательно, 6. Легко заметить, что несмещенной оценкой параметра в является в. Чтобы доказать существование достаточной статистики для рассматриваемой модели, используем критерий (2.7). Для этого функцию правдоподобия представим в виде 1=1 п
2.4. Решение типовых примеров 111 где Из этого представления, согласно критерию (2.7), вытекает, что Т(Х\,...,Хп) = у Xj t=i является достаточной статистикой. г\ Чтобы проверить, является ли несмещенная оценка 0*(Хп) эффективной, необходимо вычислить ее дисперсию и количество информации по Фишеру 1(6). Для дисперсии оценки, предполагая, что пХ > 2, получаем ВГ (Хп) = М{в*(Хп))2 - (Мв*(Хп))2 = -— 02 ) п / (пА-1)(пЛ-2) пХ-2' Отметим, что (см. пример 2.12). Используя эти равенства, вычислим 1(6):
112 2. ТОЧЕЧНЫЕ ОЦЕНКИ Теперь можно найти показатель эффективности по Рао — Крамеру 1 пХ - 2 '~ п1{в)Ъв*{Хп)'~~ п\ Поскольку е(в) < 1, оценка 6*(Хп) не является эффективной по Рао — Крамеру. Но при этом lim е(в) = 1, так что 0*{Хп) — асимптотически эффективная оценка параметра в. # В заключение отметим, что для нормальной модели выборочное среднее ~Х является несмещенной эффективной оценкой параметра 0Х = \i независимо от того, известен параметр 0| = °2 или нет- Для параметра в\ = а2 оценка является смещенной (см. теорему 2.2), а оценка несмещенной. При известном параметре вг = \i эффективной по Рао — Крамеру является оценка (см. пример 2.5). При неизвестном параметре в\ = \х оценка 52 эффективная, но по Рао — Крамеру она не является эффективной*. *См.: Ивченко Г.И., Медведев Ю.И.
Вопросы и задачи 113 Вопросы и задачи 2.1. Что называют точечной оценкой неизвестного параметра генеральной совокупности? 2.2. Какую точечную оценку называют несмещенной? 2.3. Какую точечную оценку называют состоятельной? 2.4. Какая точечная оценка является несмещенной, состоятельной и эффективной в классе линейных оценок для математического ожидания генеральной совокупности? 2.5. Какая точечная оценка для дисперсии генеральной совокупности является: а) смещенной; б) несмещенной? Являются ли эти оценки состоятельными? 2.6. Какую точечную оценку называют эффективной по Рао — Крамеру? 2.7. Запишите неравенство Рао — Крамера. 2.8. Что называют показателем эффективности по Рао — Крамеру? 2.9. Какую статистику для параметра 6 называют достаточной? 2.10. Сформулируйте необходимое и достаточное условие существования достаточной статистики. 2.11. Какая связь существует между достаточными статистиками и эффективными по Рао — Крамеру оценками? 2.12. В чем состоит метод моментов нахождения точечных оценок? 2.13. В чем состоит метод максимального правдоподобия нахождения точечных оценок? 2.14. В условиях задачи 1.16 определить значение несмещенной оценки дисперсии ошибок прибора: а) если значение измеряемой величины известно и равно 2800;
114 2. ТОЧЕЧНЫЕ ОЦЕНКИ б) если значение измеряемой величины неизвестно. О т в е т: a) S2 = 1287,8; б) S2 = 1508,5. 2.15. В условиях задачи 1.18 определите значение несмещенной оценки дисперсии генеральной совокупности X. Ответ: S2 = 1,205. 2.16. Выборка объема п извлечена из равномерно распределенной на отрезке [а, 6] генеральной совокупности X. Известна длина этого отрезка 6 - а = й, но не известна середина интервала с= ?——. В качестве оценки середины интервала предлагается среднее арифметическое крайних членов вариационного ряда выборки. Покажите, что эта оценка несмещенная и состоятельная. 2.17. Из генеральной совокупности, распределенной по биномиальному закону, извлечена выборка объема п. Найдите методом моментов оценку неизвестного параметра р и покажите, что эта оценка будет несмещенной, состоятельной и эффективной по Рао — Крамеру. 2.18. Найдите методом максимального правдоподобия по выборке объема п точечную оценку геометрического распределения где Xi — число испытаний до появления события; р — вероятность появления события в одном испытании. Ответ: р(Хп) = \fX. 2.19. Найдите методом максимального правдоподобия по выборке объема п точечную оценку параметра Р гамма-распределения (а известно) с плотностью /() а'"*//> I /» ° * ° Ответ: 0{j?n)
Вопросы и задачи 115 2-20. Имеется выборка объема п из генеральной совокупности Л", распределенной по эакону х2 с плотностью где а — неизвестный параметр. Найдите с помощью метода максимального правдоподобия оценку параметра а. Ответ: a{Xn) = 2.21. Из распределения с плотностью извлечена выборка объема п. Найдите оценку максимального правдоподобия для параметра в. Ответ: в(Хп) = тах|Х;|. 1 1=1, П
3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ И ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 3.1. Понятия интервальной оценки и доверительного интервала При оценивании неизвестных параметров наряду с рассмотренными выше точечными оценками используются также интервальные оценки. В отличие от точечной оценки интервальная оценка позволяет получить вероятностную характеристику точности оценивания неизвестного параметра. Пусть Хп — случайная выборка объема п из генеральной совокупности X с функцией распределения F(ar;0), зависящей от параметра 0, значение которого неизвестно. Предположим, что для параметра в построен интервал (в{Хп), 6(Хп)), где 0(ХП) и 6(Хп) являются функциями случайной выборки Хп, такими, что выполняется равенство } = 7- (ЗЛ) В этом случае интервал (0(ХП), в(Хп)) называют интервальной оценкой для параметра в с коэффициентом доверил 7 (или, сокращенно, *у-доверительной интервальной оценкой), а в{Хп) и в(Хп) соответственно нижней и верхней границами интервальной оценки. Интервальная оценка {в{Хп), 0(Хп)) представляет собой интервал со случайными границами, который с заданной вероятностью 7 накрывает неизвестное истинное значение параметра в. Таким образом, для различных реализаций случайной выборки Хп, т.е. для различных элементов выборочного пространства ХП1 статистики 0_(Хп) и в(Хп) могут принимать различ-
3.1. Понятия интервальной оценки и доверительного интервала 117 ные значения. Более того, согласно (3.1), существует подмножество /С С Л'щ такое, что если хп 6 /С, то в £ (0[хп), в(хп)). При этом вероятностной характеристикой точности оценивания параметра в является случайная величина которая для любой реализации хп случайной выборки Хп есть длина интервала (0(жп), в(хп)). Интервал (0(яп), 0(аГп)) называют доверительным интервалом для параметра в с коэффициентом доверия у или 1-доверительным интервалом. Заметим, что наряду с термином „коэффициент доверия" широко используют также термины доверительная вероятность и уровень доверия. При этом коэффициент доверия 7 чаще всего выбирают равным 0,9, 0,95 или 0,99, т.е. близким к1. В некоторых ситуациях (например, при рассмотрении дискретных случайных величин) вместо равенства (3.1) удается обеспечить лишь неравенство т.е. построить интервальную оценку для параметра в с коэффициентом доверия, не меньшим у. Иногда требуется оценить параметр в только снизу или только сверху. При этом, если то статистику 0{Хп) называют односторонней нижней у-доверительной границей для параметра 0. Аналогично, если Т>{в<в(Хп)} = Ъ то статистику в(Хп) называют односторонней верхней ^-доверительной границей для параметра в.
118 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Пример 3.1. Пусть в — среднее значение предела прочности X некоторого материала, которое оценивают независимо друг от друга в каждой из N различных лабораторий по результатам п независимых натурных испытаний. Иначе говоря, среднее значение предела прочности в каждой лаборатории оценивают по „своим" экспериментальным данным, представленным выборкой объема п, и в каждой лаборатории получают „свои" значения верхней и нижней границ 7-Доверительного интервала (рис. 3.1). N r p*^ /ffffffffff^ ^ в Рис. 3.1 Возможны случаи, когда 7-Д°веРительный интервал для параметра в не накрывает его истинного значения. Если М — число таких случаев, то при больших значениях N должно выполняться приближенное равенство 7 ~ (N — M)/N. Таким образом, если опыт — получение выборки объема п в лаборатории, то уровень доверия у — доля тех опытов (при их многократном независимом повторении), в каждом из которых 7~Д°веРительный интервал накрывает истинное значение оцениваемого параметра. 3.2. Построение интервальных оценок Пусть Хп — случайная выборка объема п из генеральной совокупности X с функцией распределения F{x;6), зависящей от параметра б, значение которого неизвестно. Рассмотрим один
3.2. Построение интервальных оценок 119 из наиболее распространенных методов построения интервальных оценок для 0, связанный с использованием центральной статистики — любой статистики Т(Хп,0), функция распределения которой не зависит от параметра в. Примеры центральных статистик приведены в 3.3. Для упрощения дальнейших рассуждений будем предполагать следующее: 1) функция распределения Fj{t) является непрерывной и возрастающей; 2) заданы такие положительные числа а и /?, что коэффициент доверия 7 = 1 — <* ~ /?; 3) для любой выборки хп из генеральной совокупности X функция Т(хп,в) является непрерывной и возрастающей (убывающей) функцией параметра в £ 0. Согласно допущению 1, для любого q E (0,1) существует единственный корень hq уравнения Fr{t) = g, который называют квантилью уровня q функции распределения Fr(t) случайной величины Т(Хп,0). Таким образом, согласно допущению 2, имеют место равенства P{ha<T(Xn,e)<h1.p} = = FT(hl-(3)-FT(ha) = l-0-a = 7, (3.2) которые справедливы для любых возможных значений параметра в, так как Т(ХП}8) — центральная статистика, и ее функция распределения Fr{t) не зависит от б. Для преобразования (3.2) в (3.1), т.е. для построения искомой интервальной оценки, воспользуемся следующими соображениями. Пусть для определенности функция Т(хп,в) является возрастающей функцией параметра в. Тогда, согласно допущению 3, для каждой выборки хп 6 Хп уравнения Т(жп,б) = ha и
120 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Т(хП1в) = h\-p имеют единственные решения в_(хп) и в(хп) соответственно. При этом неравенства ha < Т(хп,6) < hi-p, в(хп) <в< в{хп) являются равносильными, т.е. для любой выборки хп £ Хп они выполняются или не выполняются одновременно. Таким образом, 7 = Р{Ла <Т(Хп,в) <hi-p} = и (<?(ХП), в(Хп)) — искомая интервальная оценка. Завершая рассуждения, заметим, что фактически построение доверительного интервала сводится к выполнению следующих действий: 1) построение центральной статистики Т(Хп,0) с известной функцией распределения Fr(t); 2) представление заданного коэффициента доверия у в виде 7=1-<*-/?; 3) нахождение квантилей ha и /ii-./? уровня а и 1 — /? функции распределения Fr(t); 4) нахождение значений нижней 9{хп) и верхней в(хп) границ искомой интервальной оценки путем решения уравнений T(sn,e) = ha, T(xn,e) = h1-0 (з.з) соответственно в случае, когда T(afn,0) — возрастающая функция параметра в. Если же T(afn,0) — убывающая функция параметра б, то 0_{Хп) и в(Хп) получают путем решения уравнений Т(хп,в) = Л1Н9, Т(хп,в) = ha (3.4) соответственно.
3.3. Примеры построения интервальных оценок 121 3.3. Примеры построения интервальных оценок Рассмотрим построение интервальной оценки для параметров некоторых часто используемых распределений. Экспоненциальное распределение* Пусть Хп — случайная выборка объема п из генеральной совокупности X с экспоненциальным законом распределения, имеющим плотность распределения v ' ' I 0 х<О где А > 0 — неизвестный параметр. Требуется построить интервальную оценку для параметра Л по данным случайной выборки Хп. В данном случае 0 = А. Рассмотрим статистику где X — выборочное среднее для Хп. Эта статистика имеет ^-распределение с 2п степенями свободы (см. Д.ЗЛ), т.е. является центральной статистикой. Уравнения (3.3) в данном случае принимают вид 2АшГ = Ха(2*>), 2Хпх = х?н&(2»), где Хд(2гс) — квантиль уровня q для х2^РаспРеДе^ения с 2п степенями свободы. Получаем, что нижняя и верхняя границы интервальной оценки с коэффициентом доверия у=1 — а — /3 для параметра экспоненциального распределения А имеют вид 2пХ ' 1 п) 2пХ Нормальное распределение. Пусть Хп — случайная выборка объема п из генеральной совокупности X, распределенной по нормальному закону с параметрами ц и <т2. Рассмотрим
122 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ некоторые варианты построения интервальных оценок для параметров /х, а. Вариант 1 — оценка для математического ожидания при известной дисперсии. В данном случае статистика имеет стандартное нормальное распределение с параметрами /х = 0, а2 = 1, т.е. является центральной статистикой. Функция Т{Хпф) является убывающей функцией по /и, и система уравнений (3.4) принимает вид - м(жп)) у/п{х-~р(хп)) = Щ0 =^ где ия — квантиль уровня q стандартного нормального распределения. Учитывая, что для нормального закона Щ-а = —иа} получаем следующие нижнюю и верхнюю границы у-довери- тпельного интервала для параметра \i при 7=1—а — /3: *~ у/тг Вариант 2 — оценка математического ожидания при неизвестной дисперсии. При неизвестной дисперсии статистика является центральной, так как имеет распределение Стъюден- та сп-1 степенями свободы (см. Д.3.1), которое не зависит от fx и а2. Система уравнений (3.4) в данном случае принимает вид
3.3. Примеры построения интервальных оценок 123 где tq(n— 1) — квантиль уровня q распределения Стьюдента с п — 1 степенями свободы. Поскольку плотность распределения Стьюдента — четная функция, то tQ(n — 1) = — ti-a(n — 1)- Отсюда заключаем, что нижняя и верхняя границы интервальной оценки с коэффициентом доверия 7 = 1 — & — ft Для параметра fi в случае с неизвестной дисперсией можно определить по формулам tl.a(n-l). Вариант 3 — оценка среднего квадратичного отклонения. Рассмотрим статистику 1 (Лп,<7) = Эта статистика является центральной, так как имеет х2-рас- пределение сп-1 степенями свободы (см. Д.3.1), которое не зависит от /л и а2. При этом Т{хп,а) — убывающая функция параметра ст. Исходя из этого, согласно (3.4), находим нижнюю и верхнюю границы интервальной оценки для параметра и с коэффициентом доверия 7 = 1 — <* — /3: - S{Xn)yfr=l ~ о\Хп) = . =, <?{лп) = где Х%(п — 1) — квантиль уровня q для х2-распределения сп-1 степенями свободы. Приближенные интервальные оценки. Сначала рассмотрим два частных случая построения таких оценок. Пусть требуется найти интервальную оценку для математического ожидания в случае, когда закон распределения генеральной совокупности X неизвестен. Предполагаем, что существуют конечные математическое ожидание /z = MX и дисперсия а2 = DX.
124 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Рассмотрим статистику В соответствии с центральной предельной теоремой эта статистика при больших объемах га случайной выборки Хп имеет закон распределения, близкий к стандартному нормальному. Поэтому при достаточно больших га неравенства -иг-р ^ у/п <£ щ„а о выполняются с вероятностью, близкой к величине у = 1 — а — (3, где ия — квантиль уровня q стандартного нормального распределения. Приведенные неравенства эквивалентны следующим: X - —7= Щ-а ^ fl ^ X + —= UX-р. у/П у/П Эти неравенства не дают еще интервальной оценки для параметра /и, так как их левая и правая части содержат неизвестный параметр ст. Применяя еще одно приближение, а именно: подставляя в указанные неравенства вместо неизвестного точного значения <т его оценку S(Xn)^ получаем нижнюю и верхнюю границы (приближенной) интервальной оценки с коэффициентом доверия y=l—a — j3 для математического ожидания /л: тг/v \ Т" i S\Xn) лш li{Xn) = X + — щ-а =Х= щ-р, li{Xn) = X + — Пусть проводится серия из п испытаний по схеме Бернулли и Хи г = 1, га, — исход г-го испытания („успех" или „отказ"). По данным случайной выборки Хп = (Хь ..., Хп) построим доверительный интервал для вероятности р „успеха" в каждом отдельном испытании.
3.3. Примеры построения интервальных оценок 125 Рассмотрим суммарное число я успехов" в серии из п испытаний, т.е. введем случайную величину которая имеет биномиальное распределение с параметром р. Для построения доверительного интервала для р воспользуемся статистикой К{Яп)-пр \/пр(\-р) В соответствии с предельной теоремой Муавра — Лапласа статистика Т(Хпур) при больших объемах п случайной выборки Хп имеет закон распределения, близкий к стандартному нормальному. Тем самым неравенства щ- выполняются с вероятностью, которую при больших п можно считать приближенно равной у = 1 — а — 0. Указанные неравенства могут быть записаны в виде Эти неравенства еще не дают интервальной оценки параметра р, так как их левая и правая части содержат этот параметр. Поэтому на практике в указанные части неравенств часто подставляют вместо неизвестного точного значения р его оценку p(Xn) = K(Xn)/n. В результате получают следующие верхнюю и нижнюю границы интервальной оценки с коэффи-
126 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ циентом доверия -у = 1 — а — р для параметра р: —{1——у Подчеркнем, что эти доверительные границы являются приближенными и могут использоваться при достаточно больших объемах наблюдений п. Приведенный способ построения приближенного доверительного интервала для параметра р биномиального распределения может применяться и в следующей более общей ситуации. Пусть в(Хп) — точечная несмещенная оценка для параметра б, построенная по данным случайной выборки Хп. Обозначим через значение дисперсии оценки 0(Хп). Предположим, что оценка в(Хп) имеет асимптотически нормальное распределение. Другими словами, нормированная случайная величина имеет распределение, которое при п -¥ оо сходится к стандартному нормальному распределению. В этом случае неравенства где ия — квантиль уровня q стандартного нормального закона распределения, выполняются с вероятностью, которую при достаточно больших п можно считать приближенно равной
3.3. Примеры построения интервальных оценок 127 7= 1 -а — /3. Указанные неравенства эквивалентны (см. 3.2) следующим: в(хп) - Щ-аУЩв) < в < 9(хп)+щ-0 уЩё). Записанные неравенства еще не дают интервальной оценки для 0, так как их левая и правая части содержат неизвестный параметр 0. Подставляя в левую и правую части указанных неравенств вместо в оценку 0(Хп), получаем окончательно следующие нижнюю и верхнюю границы для параметра в с коэффициентом доверия у=1 — а — /3: в(Хп) = в(Хп)-и1.с в(Хп) = в(Хп) Изложенный метод является приближенным и может применяться при достаточно большом объеме случайной выборки. Заметим, что его использование фактически связано с „двойным приближением", а именно: закон распределения оценки в(Хп) заменяют нормальным и, кроме того, в приведенных формулах для границ 0(ХП), в(Хп) интервальной оценки в дисперсию Vn (в) вместо точного значения в подставляют его оценку 0(ХП). При малых и средних объемах случайной выборки применение указанного метода может приводить к значительным ошибкам. Поэтому использовать его следует с достаточной степенью осторожности и лишь в качестве первого приближения. Пример 3.2. Рассмотрим построение приближенного доверительного интервала для параметра р биномиального распределения. Пусть проводилось и = 16 независимых испытаний с неизвестной вероятностью р „успеха" в каждом испытании, при этом наблюдалось к = 8 „успехов". Определим значения границ доверительного интервала для р с коэффициентом доверия 7 = 0,9.
128 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Значение точечной оценки параметра р определяется как ~ к дисперсия этой оценки [XVI] Применяя приведенные выше формулы, получаем следующие значения для нижней и верхней границ доверительного интервала: £ = Р - ttot95\T (1п Р) = 0,294, P) = 0,706. 3.4. Метод доверительных множеств Пусть Хп — случайная выборка объема п из генеральной совокупности X, закон распределения которой зависит от г-мерного вектора параметров в. Каждому фиксированному значению вектора параметров в поставим в соответствие такое множество Hg из выборочного пространства Хп, что где 7 — заданный коэффициент доверия. Как известно (см. 3.1), нижняя и верхняя границы интервальной оценки (множества в R) являются случайными величинами, поскольку они функции случайной выборки. Теперь в Rr рассмотрим такое множество D* со случайной границей, что- бы при каждом фиксированном значении вектора параметров в случайные события
3.4. Метод доверительных множеств 129 были эквивалентны, т.е. Полученную таким образом совокупность множеств Dg называют системой у-доверительных множеств, а рассмотренную процедуру — методом доверительных множеств (методом Неймана) для параметра в. Если в — скаляр, то метод доверительных множеств имеет простую и наглядную графическую интерпретацию (рис. 3.2). Поэтому все дальнейшие рассуждения проведем именно для этого случая, т.е. при г = 1. П в в Рис. 3.2 в Заметим, что процедура построения доверительных множеств Dj£ основана на выборе множеств Н$, а это может быть реализовано различными способами, в том числе и с использованием некоторой статистики П = П(Х). Зачастую в качестве статистики ЩХп) используют несмещенную точечную оценку параметра 0. Для упрощения дальнейших рассуждений функцию распределения Fu(t,0) статистики И(Хп) будем предполагать непрерывной, возрастающей по t и убывающей по в. Каждому возможному значению параметра в поставим в соответствие значения t\ = £i(0), £2 = ^2(^)1 выбираемые из условий Fn{tue) = a, Fn(*2,0) = 1-/5. (3.5)
1303. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Таким образом, £i(0), £2(0) являются соответственно квантилями уровней а и 1 -/? для функции распределения Fn(M) статистики И(Хп). При этом выполняется равенство где 7 = 1 — а — /?• Множество значений статистики ЩХп), принадлежащих отрезку [*i(0), *2(#)]> обозначим Н$ и назовем 7-зокой (гамма-зоной) для 0 (см. рис. 3.2). Как следует иэ этого определения, для любого возможного значения параметра в вероятность того, что статистика П(Хп) попадет в 7~зону, равна 7- Далее, каждому значению статистики И(Хп) поставим в соответствие интервал тех значений 0, для которых данное значение статистики ЩХп) попадает в 7-зону (см. рис. 3.2). Значения нижней в_(Хп) и верхней в(Хп) границ этого интервала определяются из условий )) = П(£п), h(S(xn)) = П(аГ„), которые в силу (3.5) эквивалентны следующим: F(U(Sn),e)=a, F(n(xn),0) = 1-0. (3.6) Построенный таким образом интервал является у-довери- тельной оценкой для параметра 9. Действительно, при любом возможном, а следовательно, и при неизвестном истинном значении в интервал (в(Хп)у в(Хп)) накрывает значение в тогда и только тогда, когда наблюдаемое значение статистики П(Хп) попадает в 7-зону Н$ для данного значения в. Тем самым, согласно определению 7~зоны, выполняется равенство Если функция распределения F(t;6) возрастает по параметру 0, то границы ti(6) и £2(0) 7~зоны убывают по в. Повторяя
ЗА. Метод доверительных множеств 131 предыдущие рассуждения, заключаем, что в этом случае значения нижней и верхней границ формально (см. 3.2) определяются из условий Fn(n(*«)ffi(*n)) = a, Fu(n($n)A$n)) = 1-/9. (3.7) Этот метод применяют аналогичным образом и в тех случаях, когда статистика П(Хп) является дискретной случайной величиной. Рассмотрим, например, случай, когда статистика И(Хп) принимает неотрицательные целые значения 0, 1, 2, •.. п щ 1 1 • 1 1 1 в ъ е Рис. 3.3 В отличие от непрерывного случая, рассмотренного выше, границы 7~ЗОНЫ теперь становятся ступенчатыми кривыми (рис. 3.3). При данном фиксированном значении в границу h{&) 7"ЗОНЫ определим как максимальное из чисел fc, таких, что выполняется неравенство Р{ЩХп) > к} = 1 - Р(к;в) >\-а. Границу г2(в) 7-зоны определим как минимальное из чисел fc, удовлетворяющих неравенству Нижнюю в(Хп) и верхнюю в(Хп) границы интервальной оценки параметра в с коэффициентом доверия не меньше у =
132 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ = 1 — а — Р определим как минимальное и максимальное значения среди всех 0, удовлетворяющих неравенствам М*КП(*„К*2(*), (3-8) т.е. среди всех 0, принадлежащих 7-зоне при данном значении статистики ЩХп), полученном в результате эксперимента. Неравенства (3.8) эквивалентны неравенствам Отсюда получаем, что если функция распределения статистики П(Хп) убывает по 0, то нижнюю и верхнюю границы 7-интер- вальной оценки для в формально (см. 3.2) можно определить из уравнений ГРп(П(Хп),0(Хп)) = 1-/3, ) Аналогично, если функция распределения статистики П(Хп) возрастает по 0, то границы 7~интеРвальн°й оценки для в формально (см. 3.2) можно найти из уравнений (o.lUj \ где коэффициент доверия у = 1 — а — /3. Рассмотрим далее в качестве примеров построение интервальных оценок для параметров биномиального распределения и распределения Пуассона. Интервальная оценка Клоппера — Пирсона для параметра биномиального распределения. Пусть дискретная случайная величина Х{, i= l,ra, характеризует исход г-го испытания в серии из п испытаний, проводимых по схеме Бер- нулли. Тогда случайная величина К = Х\ + ... + Хп — число
ЗА. Метод доверительных множеств 133 успехов в п испытаниях. При этом К = К(Хп) — функция случайной выборки Хп = (Xi,...,Xn). В рассматриваемом случае П(*п) = *(*„). Функция распределения статистики К(Хп) имеет вид F{x;p) = _ О, х ^ 0. Эта функция убывающая по р. Применяя общую формулу (3.9), получаем, что нижняя и верхняя границы интервальной оценки с коэффициентом доверия у=1 — а — р для параметра р (см. 3.2) определяются из следующих уравнений: ^(1-р(Хп)Г-^1-/3 при 3=0 К(Яп) ^С&(Хп)(1-р{Хп))п^ = а при 3=0 Эти уравнения называются уравнениями Клоппера — Пирсона. При К(Хп) = 0 нижняя граница р(Хп) = 0. При К(Хп) = = п верхняя граница р(Хп) = 1. Заметим, что приведенные уравнения Клоппера — Пирсона могут быть также выражены через неполную бета-функцию (см. Д.3.1): BpJxn)(K(Xn),n - К(Хп) + 1) = /9, Пример 3.3. Пусть число испытаний п = 16, а число наблюдаемых „успехов" К = 8, коэффициент доверия у = 0,95.
134 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Полагал а = /3 = 0,025, получаем р = 0,247, р = 0,753. Доверительный интервал для параметра распределения Пуассона. Пусть X — дискретная случайная величина, имеющая распределение Пуассона с неизвестным параметром А. Требуется построить доверительный интервал для параметра А на основе наблюдаемого значения d# случайной величины X. Согласно предположению, функция распределения случайной величины X имеет вид з<х ]ш 0, х ^ 0. Это функция, убывающая по А. Применяя снова формулы (3.9), получаем уравнения е_Л . _ _ ^Tv^A решая которые находим значения нижней и верхней границ доверительного интервала для А с коэффициентом доверия у = 1 - а — /3. При d* = 0 значение нижней границы А = 0. 3.5. Решение типовых примеров Пример 3.4. При помощи вольтметра, точность которого характеризуется средним квадратичным отклонением 0,2 В, проведено 10 измерений напряжения бортовой батареи. Найдем доверительный интервал для истинного значения напряжения батареи с коэффициентом доверия у = 0,95, если среднее арифметическое результатов наблюдений х = 50,2 В. Контролируемый признак имеет нормальный закон распределения.
3.5. Решение типовых примеров 135 Для нахождения доверительного интервала (см. 3.3) где Ui_aj2 — квантиль нормального распределения уровня 1 - а/2, а a = 1 - 7, обратимся к таблице квантилей нормального распределения (см. табл. П.1). По этой таблице находим ul-a/2 — w0,975 = 1,96. Поскольку ^ ^| 0,1, доверительный интервал имеет вид (50,2 — 0,1, 50,2 + 0,1), или (50,1,50,3). Пример 3.5. Из большой партии электроламп было отобрано случайным образом 400 шт. для определения средней продолжительности горения. Выборочная средняя продолжительность горения ламп оказалась равной 1220 ч. Найдем с коэффициентом доверия 7 = 0,997 доверительный интервал для средней продолжительности горения электролампы по всей партии, если среднее квадратичное отклонение продолжительности горения равно 35 ч. Независимо от закона распределения генеральной совокупности X (продолжительности горения электролампы) статистика где имеет асимптотически нормальное распределение с параметрами (0,1), что следует из центральной предельной теоремы.
136 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Поскольку объем выборки большой (гс = 400), то границы доверительного интервала находим так же, как и в примере 3.4. Для а = 1 — 7 = 0,0028 находим квантиль нормального распределения Щ-а/2 = ^0,9986 = 2,98. В силу соотношений а 2,98-35 = /400 доверительный интервал имеет вид (1220 — 5,52, 1220 + 5,52), или (1214,48, 1225,52). Пример 3.6. В результате пусков 10 ракет получены (в условных единицах) значения боковых отклонений точек попадания от точек прицеливания (табл. 3.1). Номер ракеты Отклонение 1 1,0 2 2,0 3 1,0 4 -0,1 5 -0,5 6 5,0 7 -1,0 Таблица 8 3,0 9 0,5 3.1 10 1,0 Полагал, что случайная величина X (случайное боковое отклонение точек попадания от точек прицеливания) имеет нормальное распределение, построим доверительный интервал для ее математического ожидания с коэффициентом доверия 7 = 0,99. Для нахождения доверительного интервала воспользуемся статистикой Х-ц которая имеет распределение Стьюдентпа с п — 1 степенью свободы. Выборочное среднее имеет значение t=i 1 , = — fl + 0,2 +1-0,1 -0,5 + 5 - ю v = 1,01,
3.5. Решение типовых примеров 137 а выборочная дисперсия — значение t=i + 3,992 + (~2,01)2 + 1,992 + + (-0,51)2+(-0,01)2) =2,8673. Значение выборочного среднего квадратичного отклонения равно а = ^2,749 яз 1,69. По таблице квантилей распределения Стьюдента (см. табл. П.2) для п — 1 = 9 находим квантиль h-ct/2(n — 1) уровня 1 — а/2. По условию задачи Следовательно, гг_а/%(п — 1) = *о,995(9) = 3,25. Вычислив получаем доверительный интервал (1,01 — 1,79, 1,01 +1,79), или (-0,78, 2,80). Пример 3.7. Из партии однотипных высокоомных сопротивлений отобрано 10 штук. У каждого из них измерены отклонения сопротивления от номинального значения (табл. 3.2). Номер изделия Отклонение 1 1 2 3 3 -2 4 2 5 4 6 2 7 5 8 3 9 -2 3.2 10 4 Предполагая, что контролируемый признак имеет нормальный закон распределения, найдем выборочное среднее ж, исправленную выборочную дисперсию S2 и доверительный интервал для дисперсии с коэффициентом доверия у = 0,96.
138 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Находим выборочное среднее 1+3-2+2+4+2+5+3- 10 и исправленную выборочную дисперсию _ч2 1 + 1 + 16 + 4 + 9+1 + 1 + 16 + 4 5,88. 1=1 Чтобы построить доверительный интервал для дисперсии, воспользуемся статистикой (n-l)S*{Xn)^nd*(Xn) имеющей распределение х2 с п *~ 1 степенью свободы. По таблице квантилей распределения х2 (см. табл. IL3) находим квантили Ха/2(п~ *) и Xi-a/2(n~~ -О УРовней а/2 и 1 — а/2. В данном случае а= 1-7=! -0,96 = 0,04 и распределение имеет девять степеней свободы. Следовательно, Ха/2(9) = Хо,о2(9) = 2,09; Xi_a/2(9) = Хо,9в(9) = 21,07. Для границ доверительного интервала получаем (п-1)52 5,88-9 ЛАА (n-l)S2 5,78-9 OJ ОЛ v с — __z ^ 2 44* —- — 24 89 v2 (п — *\} 91 7 ' * \2 (п — Л\ 9 0Q ' Отсюда находим доверительный интервал для дисперсии с коэффициентом доверия 0,96: (2,4, 24,9). Пример 3.8. Найдем доверительный интервал для вероятности попадания снаряда в цель с коэффициентом доверия 7 = 0,9, если после 220 выстрелов в цель попало 75 снарядов.
3.5. Решение типовых примеров 139 Используя таблицу квантилей нормального распределения (см. табл. П.2), находим квантиль Щ_а/2 Для а= 1—7* Поскольку а = 1 - 7 = 1 - 0,9 = 0,1, то щ_а/2 = «о,95 = 1,645. Границы доверительного интервала (см. 3.3) имеют вид m «i-a/2 /го / mx 75 1,645 /75- V 22 145 2202 Значит, доверительный интервал для вероятности попадания снаряда в цель следующий: (0,289, 0,393). Пример 3.9. По выборке (a?i, ..., хп) объемап из генеральной совокупности X, равномерно распределенной на отрезке [0,0], построим доверительный интервал для неизвестного параметра в, если п = 500, 7 = 0»95 и задан статистический ряд (табл. 3.3). Таблица 3.3 Xi 0,5 41 1,5 34 2,5 54 3,5 39 4,5 40 5,5 45 6,5 41 7,5 33 8,5 37 9,5 41 10,5 47 11,5 39 Для построения доверительного интервала воспользуемся статистикой Т(ХЬ...,ХП) = ^, где X(n) = max X, — крайний член вариационного ряда. Эта t=l f п статистика имеет распределение {0, а; < 0; xn, O^a^l; 1, х>1.
140 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Для а = 1 — 7 находим квантили уровня а/2 и 1 — а/2 данного распределения. Поскольку f TO F(ta/2) = еа/2 = f, F(h_a/2)=q_a/2 = l -1, a\i/" — J ■ Таким образом, значение статистики Х^/в с вероятностью (а\х1п (2-а\11п о 7 попадает в интервал с границами ( — J и ( ——J . она- чит, интервальная оценка для б следующая: 2 U Согласно условиям примера, a = 0,05, а статистика Х^ принимает значение £(500) = П?5. Поэтому доверительный интервал имеет вид или (11,5, 11,6). Пример 3.10. Построим интервальную оценку для разности математических ожиданий двух генеральных совокупностей, распределенных по нормальному закону с параметрами (/xi, а) и (/х2, о) с неизвестной дисперсией а по двум случайным независимым выборкам (Х\} ..., Хп) и (Yi, ..., Ym). Предполагая, что п = т = 5, с\ = 3,37, Ъ\ = 0,46, 7 = 0,9, найдем доверительный интервал. Для построения интервальной оценки воспользуемся статистикой Т{Хп) = Т^Хп) у/п + т-2,
3.5. Решение типовых примеров 141 где i(Xn) = Покажем, что статистика Ti(Xn) имеет распределение Стьюдента с 771 + п — 2 степенями свободы. Для этого достаточно убедиться, что статистика Т\(ХП) имеет нормальный закон распределения с параметрами (0,1), а статистика Т2{ХП) — распределение х2 с m + n — 2 степенями свободы. Действительно, статистика X — Y имеет нормальное распределение с параметрами (/xi -/42, <72(l/n+1/m)), так как свертка нормальных законов распределения есть нормальный закон распределения [XVI]. Следовательно, (Х-Г)-(/«!- ff^+t имеет нормальный закон распределения с параметрами (0,1). Статистика Т2(Хп) есть сумма независимых случайных величин ndi(Xn)/a2 и гпа^Хг^/а2^ имеющих распределение х2 с п - 1 и та — 1 степенями свободы соответственно, т.е. распределение Т2(Хп) есть композиция двух х2~РаспРеДелений, а потому имеет х2-Распределение с числом степеней свободы (п - 1) + (га - 1) = п + 771 - 2. Для заданного коэффициента доверия 7 по таблице квантилей распределения Стьюдента (см. табл. П.4) находим квантиль tp(n + 7П — 2) уровня Р = (1 + 7)/2- Соотношение >- - 2) > = 7
142 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ означает, что с вероятностью 7 выполняется неравенство п + т Отсюда заключаем, что границы интервальной оценки параметра /xi — /Х2 имеют вид Для 7 = 0,9, п = т = 5 находим квантиль £о,9б(8) = 1,86 распределения Стьюдента (см. табл. П.4). В результате, учитывая, что Щ = 3,37, о\ — 0,46, получаем доверительный интервал вида или (-2,28, 1,32). Пример 3.11. Пусть (Х\, ..., Хп) и (Ух, ..., Ym) — независимые случайные выборки из двух генеральных совокупностей, распределенных по нормальному закону с параметрами (/xi, a\) и (/Х2,^|) соответственно. Построим интервальную оценку для отношения дисперсий o\jo\ с доверительной вероятностью у. Значения границ доверительного интервала найдем при п = 25, т = 16, д\ = 1,44, о\ = 1,21, 7 = 0,9. Для построения интервальной оценки воспользуемся статистикой Т = J,m~ ч , где статистики Т\ = пс\{Хп)/с\, Т2 = = тгш\{Х^)1о\ независимы и имеют х2"Распределения с п — 1 и 771 — 1 степенями свободы соответственно. Следовательно, статистика Т имеет распределение Фишера со степенями свободы 771— 1 И П— 1. По таблице квантилей распределения Фишера (см. табл. П.5) находим квантили /а/2(гс — 1,ш — 1) и /i_a/2(n ~ l»m — 1)» гДе
3.5. Решение типовых примеров 143 а = 1 — 7- В силу соотношения интервальная оценка имеет вид Л, , 1ЧтЭ|(Хп)п-1 1 Ып-1,т-1)—^ ' -, /. a(n-l,m- na\{Xn) m-l Для заданных значений у = 0,9, п = 25 и m = 16 находим /о,об(24,15) = 0,474 и /Of95(24,15) = 2,29. Отсюда получаем границы доверительного интервала f ^u^»-1 16 1,21 24 Пример 3.12. Предположим, что некоторый элемент испы- тывается последовательными независимыми циклами. Точное значение вероятности р безотказной работы элемента в каждом цикле неизвестно. Испытания проводятся до первого отказа. Требуется построить доверительный интервал для р в предположении, что первый отказ наблюдался в цикле с номером п. Рассмотрим случайную величину v — номер цикла, в котором наблюдался первый отказ. Эта случайная величина имеет отрицательное биномиальное распределение: Таким образом, задача сводится к построению доверительного интервала для параметра р отрицательного биномиального распределения по значению наблюдаемой случайной величины.
144 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Функция распределения случайной величины v определяется выражением Применяя далее общие уравнения (3.9), получаем значения нижней и верхней границ интервальной оценки для параметра р с коэффициентом доверия у = 1 — а — @: Тем самым нижняя и верхняя границы интервальной оценки для параметра/?, найденные из уравнений (3.9), совпадают соответственно с нижней границей в биномиальной схеме испытаний для случая d = О отказов в серии из п — 1 испытаний и верхней границей для случая d = 1 отказу в серии из п испытаний, являющихся решением уравнений Клоппера — Пирсона. Пример 3.13. При доверительном оценивании по результатам испытаний показателя надежности (коэффициента готовности) восстанавливаемого элемента возникает следующая задача. Построить интервальную оценку для отношения р = X/fi параметров двух экспоненциальных законов распределений с плотностями м ' \ 0, ж<0, \ 0, х<0, на основе двух независимых случайных выборок (Х\, ..., Хп) и (Yi, ..., Ym) из этих распределений. Рассмотрим статистику Г = (Tim)/(T2n), где п т Х, и Т2 = 2 Статистики Т\ и Тг имеют х2~РаспРеделения с 2п и 2тп степенями свободы. Отсюда следует, что статистика Т является
Д.3.1. Необходимые сведения о некоторых распределениях 145 центральной и имеет распределение Фишера с 2п и 2тп степенями свободы. Применяя общий подход, получаем нижнюю и верхнюю границы доверительного интервала для параметра m m ^(f) /(22)^ ^ 12 Дополнение ЗЛ. Необходимые сведения о некоторых распределениях Гамма-распределение. Плотность этого распределения {\а г/ v* e , х > и, Г(а) О, ж < О, определяется двумя параметрами А > 0 и а > 0. Здесь оо Г(а)= fta-le-fdt — о гамма-функция. Далее, если случайная величина £ имеет гамма-распределение с параметрами А, а, будем использовать сокращенное обозначение £ ~ Г (А, а). Теорема 3.1. Если две случайные величины £~Г(А,а) и ?7~Г(А,/?) независимы, то f+ 77~Г(А,а + /?). ^ В соответствии с известной формулой свертки плотностей распределения, плотность распределения Pt+V(t) суммы двух независимых случайных величин f и г/ имеет вид t
146 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ где учтено, что р$ (х) = 0 при х < О и pv (t — х) = О при х > t. При х > 0 имеем Н(х) = Сц'-'е-*», Pv(x) = C2xp-le-Xx, где Ci, C2 — нормировочные константы, вычисляемые по формулам После простых преобразований получаем t PHv (t) = dC2e-Xt Jxa~l (t - xf~l dx 0 и после замены х = ut переменного под знаком интеграла приходим к равенству e-x\ (3.11) где С — нормировочная константа: 1 о 1 f Доказательство утверждения теперь следует непосредственно из (3.11) и формулы Эйлера для бета- и гамма-функций [VI]. ► Из теоремы 3.1 легко получить следующее более общее утверждение. Теорема 3.2. Если случайные величины fi, ..., £п независимы, &~Г(А,а;), г = Т~гс, то & + ... + 6г~Г(А,а! + ... + ап). Распределение Релея. Пусть случайная величина £ имеет нормальное распределение с математическим ожиданием // = О
Д.3.1. Необходимые сведения о некоторых распределениях 147 и дисперсией о1. Тогда случайная величина f2 имеет распределение Релел: х p(x)={ <7v/2^€ 2<T2' Ж>°; (3.12) О, х^О, для которого далее будем использовать сокращенное обозначение £2 ~ Г(1/2«т2,1/2). Действительно, для функции распределения случайной величины £2 при х > 0 находим где F^(t) = Ф(г/<т) — функция распределения случайной величины £, записанная через функцию стандартного нормального распределения. Тем самым откуда после дифференцирования получаем формулу (3.12) в случае х > 0. Поскольку £2 ^ 0, имеем F^2 (х) = 0 при х ^ 0. Распределение х2* Пусть fi, ^2? ..-i Cm — независимые случайные величины, каждая из которых имеет стандартное нормальное распределение. Тогда из теоремы 3.2 и распределения Релея следует, что
148 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ т.е. плотность распределения случайной величины f\ + f\ + ... имеет вид 1 -mft-l-f/2 > л. О, х <£ 0. Это распределение называют распределением х2 (хи-ква- драт) или ^-распределением с m степенями свободы. Для случайной величины f с х2-распределением с тп степенями свободы будем использовать сокращенное обозначение f ~ Х2(ш)- Из теоремы 3.2 и установленной связи между распределением х2 и гамма-распределением вытекает следующее утверждение. Следствие 3.1. Если случайные величины fi, ..., fn независимы, & ^ Х2(ш»)> ^=1»^» то сумма этих случайных величин также имеет распределение х2- Экспоненциальное распределение. Частным случаем гамма-распределения при а = 1 является экспоненциальное распределение, его плотность имеет вид р(х) = { € ' *" ' (3.13) \ 0, я<0. Экспоненциальное распределение часто используется в математической теории надежности, теории массового обслуживания и других приложениях. Распределение Эрланга. Пусть &, &» • - •» £п — независимые случайные величины, каждая из которых имеет экспоненциальный закон распределения (3.13). Из теоремы 3.2 следует, что сумма этих случайных величин имеет гамма-распределение: О (3.14)
Д.ЗЛ. Необходимые сведения о некоторых распределениях 149 С ПЛОТНОСТЬЮ ( О, х < О, которое называют распределением Эрланга порядка п. Замечание 3.1. Исходя из (3.14) нетрудно показать, что случайная величина A(£i +...+£п)> где £i,..., fn — независимые случайные величины, каждая из которых имеет экспоненциальный закон распределения 3.13, также имеет гамма-распределение: Учитывая указанную выше связь между гамма-распределением и распределением х2> можно показать, что случайная величина ... +£п) имеет распределение х2 с 2п степенями свободы: Этот факт используют, в частности, при построении доверительных интервалов для параметра А экспоненциального распределения. О распределении статистики Стьюдента. При построении доверительных интервалов для параметров нормального распределения использовалась статистика S(Xn) где X — выборочное среднее, a S2(Xn) — исправленная оценка дисперсии. Покажем, что эта статистика имеет распределение Стьюдента с п — 1 степенями свободы. Заметим, что выборочное среднее X имеет нормальное распределение N{fiya2/n). Отсюда следует, что случайная
150 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ величина имеет стандартное нормальное распределение. В то же время, случайная величина v = имеет распределение х2 с п ~~ 1 степенями свободы, причем случайные величины Z, V независимы*. Статистика Т далее может быть представлена в виде Т = откуда с учетом определения распределения Стьюдента следует, что статистика Т имеет распределение Стьюдента с п — 1 степенями свободы. Распределение Фишера. Пусть случайные величины £, г) независимы и имеют распределение х2 с п и m степенями свободы соответственно, т.е. f ~ X2(n)i V ~ X2(m)- Тогда случайная величина <р = —^ имеет плотность распределения ту 2 О, X < О, где С — нормировочная константа, равная С = *См., например, Рао СР.
Д.3.1. Необходимые сведения о некоторых распределениях 151 Это распределение называют распределением Фишера со степенями свободы пит. Бета-распределение. Плотность бета-распределенил (распределения бета) с параметрами а, /3 имеет вид °-\\-х)1>-\ «6(0,1]; где С — нормировочная константа, равная С=1/В(а,/3), а В(а,/7) — бета-функция. Соответствующая функция распределения при х ^ 0 имеет вид _ Bx(a,f3) где X = I неполная бета-функция. Заметим, что для неполной бета-функции справедливо следующее известное равенство: где m, n — целые числа. Это равенство, в частности, используется при построении стандартных доверительных границ Клоппера — Пирсона для параметра р биномиального распределения. Частным случаем бета-распределения при а = /3= 1 является равномерное распределение на отрезке [0,1].
152 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ Вопросы и задачи 3.1. Что называют интервальной оценкой для неизвестного параметра распределения генеральной совокупности? 3.2. Что такое коэффициент доверия (доверительная вероятность), нижняя и верхняя границы интервальной оценки неизвестного параметра? 3.3. Какую статистику называют центральной? 3.4. Какую статистику используют при построении интервальной оценки для параметра экспоненциального распределения? 3.5. Какую статистику используют для построения интервальной оценки для математического ожидания в случае нормальной модели при известной дисперсии? По какому закону статистика распределена? 3.6. Какую статистику используют для построения интервальной оценки для математического ожидания в случае нормальной модели при неизвестной дисперсии? По какому закону статистика распределена? 3.7. Какую статистику используют для построения интервальной оценки для дисперсии нормально распределенной генеральной совокупности? По какому закону она распределена? 3.8. На чем основан метод построения приближенной интервальной оценки для неизвестного параметра генеральной совокупности? 3.9. Какую статистику используют при построении приближенной интервальной оценки: а) для параметра биномиального распределения, б) для математического ожидания случайной величины? 3.10. В чем состоит метод доверительных множеств? 3.11. Что называют 7-зоной для параметра 0?
Вопросы и задачи 153 ЗЛ2. Запишите уравнения Клоппера — Пирсона. Как их используют при построении интервальной оценки параметра биномиального распределения? 3.13. Постоянная величина измерена 25 раз с помощью прибора, систематическая ошибка которого равна нулю, а случайные ошибки измерения распределены по нормальному закону со средним квадратичным отклонением <т=10м. Определите значения границ доверительного интервала для измеряемой величины при коэффициенте доверия 0,99, если х = 100 м. Ответ: значение нижней границы 94,9 м, верхней— 105,1м. ЗЛ4. Оценка измеряемой величины определяется формулой Результаты отдельных измерений не содержат систематической ошибки и подчинены нормальному закону распределения со средним квадратичным отклонением о = 2,1. Определите интервальные оценки Jn с доверительной вероятностью 0,9 для значения измеряемой величины при различных объемах случайной выборки Xn: a) n = 5, б) п = 10, в) п = 25. О_твет: а) (Х- 1,55, Х+1,55); б) (Х-1,09, ~Х + 1,09); в) (Х-0,69, Х + 0,69). 3.15. Средняя квадратичная ошибка высотомера <т = 15м. Сколько надо иметь таких приборов на самолете, чтобы с достоверностью 0,99 ошибка измерения средней высоты X была меньше 30 м? При этом случайные ошибки распределены по нормальному закону, а систематические ошибки отсутствуют. Ответ: на самолете должно быть не менее двух высотомеров. 3.16. На основании 100 опытов было определено, что в среднем для производства детали. требуется ? = 5,5с, a at = 1,7с. Сделав допущение, что время для производства детали распределено по нормальному закону, определите доверительный
154 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ интервал для математического ожидания производства детали с коэффициентом доверия 0,85. Ответ: (5,25,5,75). 3.17. По результатам измерений 100 резисторов, случайно отобранных из большой партии однотипных изделий, получена оценка сопротивления ~х — ЮкОм. Найдите: а) вероятность того, что для резисторов всей партии значения сопротивления лежат в пределах (10±0,1)кОм (среднее квадратичное отклонение измерения известно: <т = 1кОм); б) количество измерений, при котором с вероятностью 0,95 можно утверждать, что для всей партии резисторов значения сопротивления лежат в пределах (10±0,1)кОм. Ответ: а) 0,68; б) п ^ 385. 3.18. Провели 5 независимых равноточных измерений для определения заряда электрона; получили следующие результаты (в абсолютных электростатических единицах): 4,781 • 10~10; 4,792 • 10"10; 4,795 • 10"10; 4,779 - 1О~10; 4,769 • Ю"10. Определите значение оценки величины заряда электрона и найти доверительный интервал при коэффициенте доверия 99%, считая, что ошибки распределены по нормальному закону и измерения не имеют систематических ошибок. Ответ:ж = 4,783 • КГ10; (4,761 • ИГ10, 4,805• 10""10). 3.19. На контрольных испытаниях 16 осветительных ламп были определены значения оценок математического ожидания и среднего квадратичного отклонения их срока службы, которые оказались равными ~х = 3000 ч и Э = 20 ч соответственно. Считая, что контролируемый признак (срок службы лампы) имеет нормальный закон распределения, определите: а) доверительный интервал для математического ожидания при доверительной вероятности 0,9; б) вероятность, с которой можно утверждать, что абсолютная величина ошибки определения тп не превысит 10 ч. Ответ: а) (2991,2, 3008,8); б) 0,93.
Вопросы и задачи 155 3.20. Провели 40 измерений базы длиной L. По результатам опыта получены значения оценок измеряемой величины и среднего квадратичного отклонения: х = 10400 м и Эх = 85 м. Ошибки измерения подчиняются нормальному закону распределения. Найдите вероятность того, что интервал со случайными границами (0,999ЛГ, 1,001Х) накроет неизвестный параметр L. Ответ: 0,55. 3.21. Из партии валов отобрали щ = 9шт. Значения выборочного среднего диаметра вала Т\ = 30мм, выборочной дисперсии Ъ\ = 9мм2. Затем осуществили повторный эксперимент, отобрав п2 = 16 шт. и получили значения выборочных оценок Х2 = 29мм, о\ = 4,5 мм2. Используя объединенные выборочные оценки, найдите 99%-ный доверительный интервал для среднего. Ответ: (27,98,30,74). 3.22. По результатам 10 измерений емкости конденсатора прибором, не имеющим систематической ошибки, получили следующие отклонения от номинального значения (пФ): 5,4; -13,9; -11; 7,2; -15,6; 29,2; 1,4; -0,3; 6,6; -9,9. Найдите 90%-ный доверительный интервал для дисперсии и среднего квадратичного отклонения, предполагая, что генеральная совокупность имеет нормальное распределение. Ответ: (96,81,49,34); (9,84,22,17). 3.23. По 15 независимым равноточным измерениям были рассчитаны значения оценок математического ожидания и среднего квадратичного отклонения максимальной скорости самолета v = 424,7 м/с и av = 7,7 м/с. Считая, что генеральная совокупность имеет нормальное распределение, определите: а) доверительный интервал для среднего квадратичного отклонения при доверительной вероятности 0,9; б) вероятность того, что абсолютная величина случайной ошибки при определении av по 15 измерениям не превзойдет 2 м/с. Ответ: а) (6,69, 12,7); б) 0,76.
156 3. ИНТЕРВАЛЬНЫЕ ОЦЕНКИ 3.24. Известно, что измерительный прибор не имеет систематических ошибок, а случайные ошибки измерения подчиняются нормальному закону распределения. Сколько надо провести измерений для определения оценки среднего квадратичного отклонения прибора, чтобы с доверительной вероятностью 70 % абсолютная величина ошибки определения этой величины была не более 20% от Э(Хп)? Ответ: не менее 15 измерений. 3.25. При проверке 100 деталей из большой партии обнаружено 10 бракованных. Найдите 95 %-ный доверительный интервал для доли бракованных деталей во всей партии. Ответ: (0,055,0,174). 3.26. Из большой партии транзисторов одного типа были случайным образом отобраны и проверены 100 шт. Коэффициент усиления 36 транзисторов оказался меньше 10. Найдите 95 %-ный доверительный интервал для доли таких транзисторов во всей партии. Ответ: (0,266,0,454). 3.27. С автоматической линии, производящей подшипники, было отобрано 100 шт., причем 10 оказались бракованными. Найдите: а) 90 %-ный доверительный интервал для вероятности того, что произвольно выбранный подшипник окажется бракованным; б) количество подшипников, которые надо проверить, чтобы с вероятностью 0,9973 можно было утверждать, что доля брака отличается от частоты не более чем на 5%. Ответ: а) (0,12,0,38); б) п ^ 88. 3.28. В 10000 сеансах игры с автоматом выигрыш появился 4000 раз. Найдите: а) 95%-ный доверительный интервал для вероятности выигрыша; б) количество сеансов игры, которые следует провести, чтобы с вероятностью 0,99 можно было утверждать, что вероятность р выигрыша отличается от его частоты не более чем на 1 %. Ответ: а) (0,39,0,41); б) п ^ 16231.
Вопросы и задачи 157 3.29. Для экспоненциального распределения со w сдвигом", имеющего плотность О, х < 0, по выборке объема п постройте интервальную оценку параметра в с доверительной вероятностью у. Указание: В качестве исходной рассмотрите статистику Т = Х(\\ — 0, имеющую функцию распределения о, ж о. Ответ: f Х(1) + ^, Х{1) + "Н^ М где а > 0 и /? > О связаны равенством 1 — а — /? = у. 3.30. Постройте интервальную оценку для разности /ii — /X2 математических ожиданий двух генеральных совокупностей, распределенных по нормальным законам с параметрами (/xi, a\) и (/i2, ^2) по результатам независимых выборок (Xi, ..., Хп) и (У\, ..., Ут) в предположении, что дисперсии а\, о\ известны. Указание: В качестве исходной следует взять статистику и убедиться в том, что эта статистика имеет стандартный нормальный закон распределения с параметрами (0,1). Ответ:
4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ В этой главе рассмотрен второй класс задач математической статистики (см. 1.2), связанных с проверкой статистических гипотез. Выше (см. 2, 3) были рассмотрены задачи оценивания неизвестного параметра в по реализации случайной выборки из генеральной совокупности случайной величины X, закон распределения которой зависит от 0. При этом мы не располагали никакой априорной информацией относительно параметра 0. При проверке статистической гипотезы о параметре в исследователь заранее на основании той или иной априорной информации выдвигает предположение (гипотезу) о величине 0, например в = 0О, где во — некоторое заданное значение параметра. После этого он проводит эксперимент, в результате которого получает реализацию хп случайной выборки Хп из генеральной совокупности X, распределение которой зависит от параметра 0. По этим данным ему нужно дать ответ на вопрос: согласуется гипотеза 0 = во с результатами эксперимента или нет? Другими словами, исследователю нужно решить, можно ли принять выдвинутую гипотезу или ее нужно отклонить как противоречащую результатам эксперимента и принять некоторую альтернативную гипотезу (например, в ф во). 4.1. Основные понятия Пусть имеется выборка £п, являющаяся реализацией случайной выборки Хп из генеральной совокупности АГ, плотность распределения которой p{t\0) зависит от неизвестного параметра в.
4Л. Основные понятия 159 Статистические гипотезы относительно неизвестного истинного значения параметра 0 называют параметрическими гипотезами. При этом если в — скаляр, то речь идет об однопараметрических гипотезах, а если вектор, — то о многопараметрических гипотезах. Статистическую гипотезу Я называют простой, если она имеет вид Я: в = #о, где во — некоторое заданное значение параметра. Статистическую гипотезу называют сложной, если она имеет вид Я: в е D, где D — некоторое множество значений параметра 0, состоящее более чем из одного элемента. Пример 4.1. Предположим, проводится серия из п независимых испытаний по схеме Вернулли с неизвестным параметром р, где р — вероятность „успеха" в одном испытании. Тогда гипотеза Н: р= 1/2 является простой. Примерами сложных гипотез являются следующие: Hi: p^ 1/2; Я2: p ^ 1/2; Я3: 1/4 О*£ 3/4 и т.д. Пример 4.2. Пусть Хп — случайная выборка объема п из генеральной совокупности X, распределенной по нормальному закону с неизвестным математическим ожиданием \i и известной дисперсией а1. Тогда гипотеза Я: \i = //о» где //0 — некоторое заданное значение параметра /z, является простой. Гипотезы Hi: fi ^ //о; Я2: \х < /х0; Я: /х0 ^ /х ^ \i\ являются сложными. Пример 4.3. Пусть в примере 4.2 оба параметра \i и а неизвестны. В этом случае гипотеза Я: \i = /io становится сложной, так как ей соответствует множество значений двумерного вектора в = (/л, а), для которых // = /г0, 0 < о < оо.
160 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ 4.2. Проверка двух простых гипотез Рассмотрим сначала случай, когда проверяются две простые статистические гипотезы вида где д0, дг — два заданных (различных) значения параметра. Первую гипотезу Но обычно называют основной, а вторую Hi — альтернативной, или конкурирующей, гипотезой, хотя эта терминология является достаточно условной. Так, например, одна и та же гипотеза может в одних задачах выступать в качестве основной, а в других — в качестве альтернативной. По данным выборки хп необходимо принять решение о справедливости одной из указанных гипотез. Критерием, или статистическим критерием, проверки гипотез называют правило, по которому по данным выборки хп принимается решение о справедливости либо первой, либо второй гипотезы. Критерий задают с помощью критического множества W, являющегося подмножеством выборочного пространства Хп случайной выборки Хп. Решение принимают следующим образом: 1) если выборка хп принадлежит критическому множеству W, то отвергают основную гипотезу Но и принимают альтернативную гипотезу Hi; 2) если выборка хп не принадлежит критическому множеству W (т.е. принадлежит дополнению W множества W до выборочного пространства Хп), то отвергают альтернативную гипотезу Н\ и принимают основную гипотезу Но- При использовании любого критерия возможны ошибки следующих видов: 1) принять гипотезу Н\, когда верна Но — ошибка первого рода;
4.3. Критерий Неймана — Пирсона 161 2) принять гипотезу #о, когда верна #i — ошибка второго рода. Вероятности совершения ошибок первого и второго рода обозначают аи/?: где Р{А\ Hj} — вероятность события А при условии, что справедлива гипотеза #j, j = 0,1. Указанные вероятности вычисляют с использованием функции плотности распределения случайной выборки Хп: W w Вероятность совершения ошибки первого рода а называют также уровнем значимости критерия. Величину 1 — /3, равную вероятности отвергнуть основную гипотезу Яо, когда она неверна, называют мощностью критерия. 4.3. Критерий Неймана — Пирсона При построении критерия для проверки статистических гипотез, как правило, исходят из необходимости максимизации его мощности 1 — /3 (минимизации вероятности совершения ошибки второго рода) при фиксированном уровне значимости а критерия (вероятности совершения ошибки первого рода). Для упрощения дальнейших рассуждений будем считать, что Хп — случайная выборка объема п из генеральной совокупно- сти непрерывной случайной величины X, плотность распределения вероятностей которой p(t;6) зависит от неизвестного
162 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ параметра 0, и рассмотрим две простые гипотезы Но', в = в0 и Нг:в = 01. Введем функцию случайной выборки Хп: Статистика <р(Хп) представляет собой отношение функций правдоподобия при истинности альтернативной и основной гипотез соответственно. Бе называют отношением правдоподобия. Для построения оптимального* (наиболее мощного) при заданном уровне значимости а критерия Неймана — Пирсона в критическое множество W включают те элементы хп выборочного пространства Хп случайной выборки ХП1 для которых выполняется неравенство где константу С^ выбирают из условия которое обеспечивает заданное значение уровня значимости a и может быть записано в виде /.../ L(tu...,tn;60)dti...dtn = a. При этом вероятность ошибки второго рода не может быть уменьшена при данном значении вероятности ошибки первого рода а. Рассмотрим примеры построения оптимального критерия Неймана — Пирсона при проверке простых гипотез относительно параметров основных, наиболее часто используемых распределений. *См.: Леман Э.
4,3. Критерий Неймана — Пирсона 163 Пример 4.4. Построение оптимального критерия Неймана — Пирсона для параметра /х нормального закона распределения с известной дисперсией о2 проведем для случая двух простых гипотез Яо: /х = Мо, Нг: /х = Мь где fjLo и fix — некоторые заданные значения, связанные неравенством /io < /il. В рассматриваемом случае функция правдоподобия имеет вид а отношение правдоподобия — 1=1 В данном случае неравенство равносильно неравенству п ^^С, (4.1) t=i где константу С выбирают из условия обеспечения заданного уровня значимости а: х,>С|/х = й,}=«. (4.2) 1=1
164 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ Действительно, ln t=l откуда следует, что ^2 Z^* ^2 ^ '"^' Случайная величина Х\ + ... + Хп имеет нормальное распределение с математическим ожиданием n/х и дисперсией пет2 (см. 1.2). Позтому условие (4.2) можно записать в виде или C-71/io 1—а- Таким образом, константа С, задающая критическую область в (4.1), определяется равенством С = п//0 + иг-а(ту/п. (4.4) При этом вероятность совершения ошибки второго рода 1=1 является минимально возможной при данном значении а.
4.3. Критерий Неймана — Пирсона 165 Пример 4.5. Если в условиях примера 4.4 неравенство Mo < Ml заменить неравенством Mi < Мо> то в этом случае критическое множество W задается неравенством где константу С выбирают из условия Таким образом, ф —^1=а или, что то же самое, C-71/io = «« = -«!-«. Из последнего равенства находим С = Пример 4.6* Построение оптимального критерия Неймана — Пирсона в случае экспоненциального распределения с параметром Л проведем для двух простых гипотез Но'. Л = Ао, H\i A = Ai, где Ао < Ai. В этом случае функция правдоподобия Таким образом, ^
166 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ Отсюда видно, что критическое множество можно задать неравенством 1=1 где константа С выбрана из условия обеспечения заданного уровня значимости а: Случайная величина 2\{Х\ + ... + Хп) при А = Ао имеет X2-распределение с 2п степенями свободы (см. Д.3.1). Исходя из этого, получаем выражение для константы С: AOt где X«(2w) — квантиль уровня а для х2-распределения с Ъх степенями свободы. При этом вероятность совершения ошибки второго рода равна = 1 - Н2п(2ХгС) = 1 - где H2n(t) — функция распределения случайной величины, имеющей х2-р^спределение с 2п степенями свободы. Пример 4*7. Построение оптимального критерия Неймана — Пирсона для параметра биномиального распределения проведем для случая двух простых гипотез где р — вероятность „успеха" в одном испытании при реализации схемы независимых испытаний Бернулли, а р0 и рг —
4.3. Критерий Неймана — Пирсона 167 заданные значения параметра, удовлетворяющие неравенству Ро<Рь Пусть объем испытаний достаточно велик и Xj — результат j-ro испытания. Случайная величина Xj принимает значения О и 1 с вероятностями 1 — р и р соответственно. Функция правдоподобия в этом случае имеет вид где К(Хп) = Х\ +... + Хп — общее число „успехов" в серии из п испытаний. Отношение правдоподобия определяется равенством - L{Xt,...,Xn-iPl) _ /p,ч*<*»)/1-ро\«-К(Хп) Значит, критическое множество для оптимального критерия Неймана — Пирсона в данном случае имеет вид i2C. (4.6) Константу С выбирают исходя из условия Распределение случайной величины К(Хп) при достаточно больших п в соответствии с известной интегральной теоремой Муавра — Лапласа имеет асимптотически нормальное распределение с математическим ожиданием /х = пр и дисперсией а2 — пр{1 — р). Используя указанное распределение, выберем константу С в (4.6) из условия обеспечения заданного уровня значимости а, т.е. из условия
168 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ откуда, используя квантиль «i_a стандартного нормального закона, получаем С = про + иг-а\/про(1-ро). При этом вероятность ошибки второго рода равна y/npi(l-pi) -.(* y/npi(l-pi) 4.4. Определение объема выборки Выше (см. 4.3) при построении оптимального критерия Неймана — Пирсона с заданным уровнем значимости а предполагалось, что объем п случайной выборки Хп известен и фиксирован. Но возможной является ситуация, когда возникает необходимость в определении (заранее, до проведения наблюдений) такого объема п* случайной выборки, при котором может быть построен критерий для проверки двух простых гипотез Но'- в = во и Hi: в = 0г с заданными или меньшими значениями вероятностей аи/? совершения ошибок первого и второго рода соответственно. В рассматриваемой ситуации величину п* определяют как минимальное целое значение п, для которого система неравенств может быть выполнена при некотором значении константы С = С*. При этом соответствующий оптимальный критерий Неймана — Пирсона, обеспечивающий заданные значения а, /3
4.4. Определение объема, выборки 169 будет иметь критическое множество, определяемое неравенством Пример 4.8. Определим объем выборки для случая нор* мальной модели. Для ситуации, рассмотренной в примере 4.4, из выражений (4.3), (4.5) получаем, что система неравенств (4.9) в этом случае имеет вид Следовательно, для обеспечения заданных значений а, (3 вероятностей совершения ошибок первого и второго рода минимально необходимый объем п* выборки и соответствующую константу С* можно определить из системы уравнений Используя квантили стандартного нормального распределения, запишем эти уравнения в виде =щ =^=-^- (4Л0) Исключая из уравнений константу С, находим необходимый объем выборки Пусть, например, требуется проверить гипотезы ТТ . .. ц О С ТТ . .. О О при а = 0,8 и заданных значениях вероятностей а = 0,05,0 = 0,1. Применяя формулу (4.11) и учитывая, что щ-а = uo,95 = Ii64,
170 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ щ-р = ио,9 = 1,28, получаем необходимый в этом случае объем выборки п* = 61. Пример 4.9. Определим объем выборки для схемы испытаний Бернулли. Для задачи проверки гипотез, рассмотренной в примере 4.7, вновь используем возможность аппроксимации биномиального распределения нормальным распределением с параметрами fi = пр и а2 — пр(1 - р). После этого, согласно (4.7), (4.8), приходим к системе уравнений для определения п* и С*: *( \y/nPl{l-pi) которая может быть представлена в следующем виде: С — про С — пр\ у/про(1—ро) Решая эту систему, находим (4.12) Равенство (4.12) (приближенно) определяет минимально необходимый объем выборки, позволяющий обеспечить заданные значения вероятностей совершения ошибок первого и второго рода при проверке простых гипотез вида Но :р = ро, Н\ :p = Pi в схеме Бернулли. Поскольку в (4.12) величина п* не обязательно целая, то на практике в качестве объема выборки берут наименьшее целое число, большее или равное п*. # Минимально необходимый объем наблюдений, определенный с использованием оптимального критерия Неймана — Пирсона, не может быть улучшен (уменьшен) в ситуации, когда объем выборки фиксируется и задается заранее, до наблюдений. Тем не менее средний объем наблюдений может быть
4.5. Сложные параметрические гипотезы 171 уменьшен при тех же значениях вероятностей совершения ошибок первого и второго рода в последовательной схеме наблюдений, когда решение об остановке наблюдений принимается по ходу процесса наблюдений, в зависимости от получаемых данных (см. 4.6). 4.5. Сложные параметрические гипотезы Предположим, что требуется проверить две сложные гипотезы Но: ве во, Нц 0 6 0ь (4.13) где Эо, ©1 — некоторые непересекающиеся области значений параметра в. Например, области Эо, Si могут быть заданы неравенствами в ^ во и в ^ 0i, где во и в\ — некоторые фиксированные значения параметра, удовлетворяющие неравенству 0о<01. Критерий проверки сложных гипотез (4.13) по-прежнему задается с помощью критического множества W реализаций случайной выборки Хп, на основе которого решение принимают следующим образом: - если реализация хп случайной выборки Хп принадлежит критическому множеству W\ тогда основную гипотезу Но отвергают и принимают альтернативную гипотезу Н\\ - если реализация хп случайной выборки Хп не принадлежит критическому множеству W, тогда отвергают альтернативную гипотезу Н\ и принимают основную гипотезу Яо. Вероятности совершения ошибок первого и второго рода в случае сложных гипотез имеют прежний смысл и определяются выражениями вевг.
172 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ В отличие от случая простых гипотез, величины а(0), 0{в) являются некоторыми функциями от параметра 0. Максимально возможное значение вероятности совершения ошибки первого рода а = maxa(0) 0€в называют размером критерия. Функцию определяющую значение вероятности отклонения основной гипотезы Но в зависимости от истинного значения параметра 0, называют функцией мощности критерия. Бели существует критерий, который при данном фиксированном размере а максимизирует функцию мощности М(в) по всем возможным критериям одновременно при всех в из множества ©i, то такой критерий называют равномерно наиболее мощным. Равномерно наиболее мощные критерии существуют лишь в некоторых частных случаях при проверке гипотез относительно одномерных параметров (см. примеры 4.10-4.12). Вероятности совершения ошибок первого и второго рода связаны с функцией мощности следующими соотношениями: евО] (4.14) вевг. (4,15) Тем самым равномерно наиболее мощный критерий, если он существует, минимизирует вероятность совершения ошибки второго рода (3(0) (при фиксированном размере а) одновременно при всех в 6 ©1- Замечание 4.1. Формально равенства (4.14), (4.15) справедливы при всех возможных значениях 0, но при значениях в, отличных от указанных в (4.14), (4.15), величины а(в), /3(8)
4.5. Сложные параметрические гипотезы 173 теряют свой смысл — вероятностей совершения соответствующих ошибок. # Иногда наряду с функцией мощности используется также оперативная характеристика критерия представляющая собой вероятность принятия основной гипотезы Но при условии, что истинное значение параметра равно 0. Нетрудно увидеть, что оперативная характеристика и функция мощности связаны соотношением s(0) =Л — М(0). Построение критериев для проверки сложных параметрических гипотез проиллюстрируем далее для случая нормальной модели. Пример 4.10. Рассмотрим проверку простой гипотезы Но: \ь = /io против сложной гипотезы Н-\\ /x > /хо относительно параметра — среднего /i нормального распределения при известной дисперсии <т2. При любом /xi > /i0 критическая область оптимального наиболее мощного критерия Неймана — Пирсона размера а для простых гипотез /i = fio против /х = /xi имеет вид (4.1), где константу С выбирают из условия (4.2) или (4.3). Поэтому она не зависит от /zi. Это означает, что построенный уже выше для указанных простых гипотез критерий с критическим множеством, задаваемым неравенством (4.1) Ж| > С = n/i0 + ttl_a<Vn, (4.16) является равномерно наиболее мощным критерием размера а для данной задачи со сложной альтернативной гипотезой Eii fi > /i0. Пример 4.11. В условиях предыдущего примера рассмотрим проверку простой гипотезы Но: М = Мо против сложной гипотезы Hi: \i < fio-
174 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ В зтом случае, используя результаты, полученные при рассмотрении примера 4.5, приходим к выводу, что равномерно наиболее мощный критерий размера а для данной задачи задается критическим множеством, определяемым неравенством п , ^ С = га/хо - ui-a<jy/n. Пример 4Л2. В условиях примера 4Л0 рассмотрим проверку двух сложных гипотез вида Но: /i^/io, Ht: р^Ри (4.17) Заметим, что для критерия с критическим множеством (4.16) вероятность совершения ошибки первого рода > С | /г} = 1 - 1=1 есть возрастающая функция переменного р.. Тем самым максимальное значение вероятности совершения ошибки первого рода, определяемое как достигается в точке /i = /i0, откуда следует, что данный критерий, применяемый к сложным гипотезам (4.17), имеет размер Рассуждая далее так же, как в примере 4.10, получаем, что указанный критерий с критической областью (4.16) является равномерно наиболее мощным критерием для данной задачи со сложными гипотезами. Пример 4.13. Рассмотрим проверку гипотез относительно параметра нормального распределения fi следующего вида: Яо: // = /*о, Нг: fi^fJLo (по-прежнему предполагаем, что дисперсия а2 известна).
4.5. Сложные параметрические гипотезы 175 В этом случае основная гипотеза #0 является простой, а альтернативная гипотеза Hi является сложной. При /х = /х0 рассмотрим статистику которая имеет стандартное нормальное распределение. Критическое множество для проверки указанных гипотез Яо, #i определим следующим образом: Соответствующий критерий по построению имеет вероятность совершения ошибки первого рода а. Пример 4.14. Рассмотрим проверку двух сложных гипотез Но: /х = /хо, Нг: /х >/х0 (4.18) относительно параметра /х нормального закона распределения в случае, когда дисперсия <г2 неизвестна. В отличие от примера 4.10 гипотеза #0 также является сложной. При /х = /хо статистика (4.19) s{xn имеет распределение Стьюдента с п — 1 степенями свободы (см. Д.3.1). Исходя из этого получаем, что критерий с уровнем значимости а для гипотез (4.18) задается критическим множеством где fi_a(n — 1) — квантиль уровня 1 — а распределения Стьюдента с п — 1 степенями свободы.
176 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ Аналогично на основе статистики (4.19) строят критерий для проверки сложных гипотез Но: /i = /io, Нг: р</ю (4.20) или Но: М = йь Нц /х#/х0. (4.21) Для гипотез (4.20) критерий размера а задается критическим множеством, определяемым неравенством Для гипотез вида (4.21) критерий размера а задают критическим множеством, определяемым неравенством \Х-Цо\ £- , . Пример 4.15. Рассмотрим проверку гипотез о равенстве математических ожиданий для двух различных нормальных распределений. Пусть определены две случайные выборки (Хи ..., Хп) и (Yi, ..., Ym) объемов п и тп из генеральных совокупностей независимых случайных величин X ~ N(iiu<t\) иУ~ N(^2^2) соответственно. Рассмотрим следующие задачи проверки сложных гипотез относительно параметров fi\y //2 в случае, когда дисперсии (4.22) (4.23) (4.24) Разность выборочных средних X — Y имеет нормальное распределение с математическим ожиданием /xi — /i2 и дисперсией <т| известны: Яо: Яо: Яо: Ml = /*2, 1*1 = Ц>2, Я,: Нц Hi:
4.5. Сложные параметрические гипотезы 177 o\jn + ст^/тп. Отсюда следует, что при справедливости основной гипотезы, т.е. при fi\ = //2, статистика X~Y (4.25) п тп имеет стандартное нормальное распределение. Исходя из этого, заключаем, что критерии размера а для указанных задач задаются критическими множествами -у ^ \х-у\ ^ m Рассмотрим также задачу проверки гипотез (4.22)-(4.23) о равенстве средних двух нормальных распределений в предположении, что их дисперсии не известны, но равны между собой: d = {Т2 = ст. Обозначим через t=i соответствующие исправленные оценки дисперсии. Статистики {n-l)Sl(Xn)/(T2 и (m-l)S2{Ym)/cr2 имеют ^-распределения сп-1иш-1 степенями свободы. Тем самым статистика с2 имеет также х2"Распределение с п + тп — 2 степенями свободы (см. Д.3.1). Учитывая, что случайная величина (4.25) при Hi = fi2 имеет стандартное нормальное распределение, получаем, что статистика f(Xn,Yn) = (m- 1)5|(Ут)
178 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ имеет распределение Стьюдента cn + m-2 степенями свободы (см. Д.3.1). Поэтому критерии размера а для проверки гипотез (4.22)-(4.23) задаются с помощью критических множеств, определяемых следующими неравенствами: го-2), 4.6. Последовательный критерий отношения правдоподобия Во многих случаях на практике наблюдения проводят последовательно. При этом статистическая информация поступает не один раз, а последовательными порциями данных. Предположим, что наблюдается последовательность независимых одинаково распределенных непрерывных случайных величин Х\, ..., ЛГП, ..., каждая из которых имеет плотность распределения р(х;в), где в — некоторый параметр, значение которого неизвестно. На основе результатов наблюдений х\, ..., яЛ, ... нужно проверить две простые гипотезы Hq: в = 0о и Н\: в = 0i, где 0о, #1 — некоторые заданные значения параметра. В рассматриваемой ситуации количество наблюдаемых случайных величин (и тем самым объем выборки) не фиксируется заранее, а определяется по ходу наблюдений, в зависимости от получаемых данных. Последовательный критерий отношения правдоподобил (критерий Валь да*) строят следующим образом. На очередном n-м шаге наблюдений, исходя из полученных результатов наблюдений xi, ..., жп, вычисляют {Pn[Xl,...,Xn) — *См.: Вальд А.
4.6. Последовательный критерии отношения правдоподобия 179 Эта величина имеет смысл значения отношения правдоподобия для гипотез Но и Н\ на п-м шаге наблюдений. На каждом п-м шаге проверяют следующие два неравенства: В<<рп(хи...,хп)<А, (4.26) где В и А — некоторые заданные константы, удовлетворяющие условию 0 < В < 1 < А. Если оба неравенства (4.26) выполняются, то наблюдения продолжают, т.е. осуществляют наблюдение следующей случайной величины Xn+i- Другими словами, неравенства (4.26) задают „область продолжения наблюдений" для критерия Вальда. Наблюдения прекращают при первом нарушении хотя бы одного неравенства (4.26). При нарушении левого неравенства принимают гипотезу #о- При нарушении правого неравенства принимают гипотезу Н\. Таким образом, номер v шага, на котором прекращают наблюдения для критерия Вальда, определяют из равенства и = тт{п:<рп{хи...,хп)£{В,А)}. (4.27) Вектор результатов наблюдений для любого последовательного критерия, и в том числе для критерия Вальда, имеет вид (vy X\j ..., ж^), где v — номер шага, на котором прекращены наблюдения, Х\Л ..., xv — совокупность всех результатов наблюдений. Для критерия Вальда правило принятия решения по результатам испытаний х\Л ..., хп имеет следующий вид: - если w(£i,...,av) ^ В, то принять гипотезу Но\ - если (р^Хг^.^х^) ^ Л, то принять гипотезу #i- Вероятности совершения ошибок первого и второго рода (риски первого и второго рода) для этого критерия равны соответственно
180 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ Значения рисков а, /3 для критерия Вальда могут быть приближенно оценены с помощью следующих известных соотношений*: (4.28) где 'M.(<pl/(Xi,...,Xi/)\Hj) — условное математическое ожидание случайной величины (pv(X\^.^Xn) при условии, что на шаге v (шаг, на котором прекращаются наблюдения) по результатам наблюдений а?ь..., xv принято решение о справедливости гипотезы Hj, j = 0,1. Из формул (4.28) можно получить соответствующие неравенства и приближенные оценки для значений рисков а, /3 критерия Вальда. Действительно, для критерия Вальда справедливы неравенства: а) ^(^Ь'-м^) ^ 5, если принята гипотеза #о; б) v^fab•••>ж*') ^ Д если принята гипотеза Н\. Поскольку для условных математических ожиданий справедливы аналогичные неравенства то с учетом (4.28) получаем известные неравенства для точных значений рисков а, /3 критерия Вальда (4-29) Множество точек плоскости (а, /3), координаты которых удовлетворяют неравенствам (4.29), показано на рис. 4.1 штриховкой. *См.: Вальд А.
4.6. Последовательный критерии отношения правдоподобия 181 Из неравенств (4.29) следуют более грубые неравенства . _ 1 В Рис. 4.1 (4.30) s± которые также иногда используют при оценке рисков а, /3. Заметим, что для критерия Валь- да наблюдения прекращают на шаге v = щ на котором впервые происходит выход значения (pn(^ii-"^n) из интервала (Б, А), или, другими словами, „перескок" значения Pn(a?i,...,a?n) через уровень А (снизу вверх) или через уровень В (сверху вниз). Пренебрежем указанным „перескоком", т.е. будем считать, что на шаге прекращения наблюдений выполняется одно из двух приближенных равенств ^(Ж11"-1Х1/) ~ В} если принята гипотеза Hq, ^is(zi,.-m£i/) ~ А9 если принята гипотеза Hi, Тогда из точных равенств (4.28) получим известные приближенные (с точностью до указанного „перескока") равенства Вальва*: /3 1/3 Л. (4.31) a Эти приближенные равенства часто используют на практике для оценки значений рисков а, /3. Поэтому, согласно (4.31), будем считать, что точные значения рисков а, (3 удовлетворяют приближенным равенствам где приближенные значения рисков а*, /3* находятся из равенств В* 1-/3* т—-1 = в, —г- = л- (4-32) 1 - а* а* *См.: Вальд А.
182 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ Таким образом, а ~ А-В' Р ~ А-В ' точка (а*, /3*) в плоскости (а, /?) находится на пересечении прямых линий /3 = В — Ва и /3 = 1 — Аа (см. рис. 4.1). Как следует из рис. 4.1, точные значения рисков а, /3 критерия Вальда (они находятся внутри заштрихованной области) всегда удовлетворяют неравенствам где а*, /3* — указанные выше приближенные значения рисков. Кроме того, неравенства (4.30) с учетом (4.32) могут быть записаны в виде Средний объем испытаний. Рассмотрим также вычисление среднего объема испытаний для критерия Вальда. В соответствии с (4.27) номер шага v прекращения наблюдений может быть представлен в виде дискретной случайной величины: где а = In А > 0, 6 = — In В > 0, Zn — логарифм отношения функций правдоподобия на n-м шаге: (4.33) Введем случайные величины
4.6. Последовательный критерий отношения правдоподобия 183 п— 1,2,... В этом случае, согласно равенствам (4.32)-(4.34), случайная величина Zn представляет собой сумму п независимых одинаково распределенных случайных величин Z(X\), ..., Z(Xn)1 т.е. Zn = Z(Xt) + ... + Z(Xn). (4.35) Обозначим через Мо^ математическое ожидание объема испытаний (номера шага, на котором прекращаются наблюдения), если справедлива гипотеза Но: в = во. В соответствии с (4.35) справедливо равенство M0Zl/ = Mo(Z{X1) + ... + Z{Xl/)), (4.36) где Мо — математическое ожидание при в = во- Для математического ожидания суммы случайного числа независимых одинаково распределенных случайных величин* (4.37) Для левой части равенства (4.36) имеем ), (4.38) где Ро {Hj} — вероятность принятия гипотезы #j, j = 0,1, при условии, что истинной является гипотеза Яо- Таким образом, согласно (4.32)-(4.38) и определению ошибки первого рода, . (4.39) *См.: Вальд Л., а также: Ширяев А.Н.
184 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ Из равенства (4.39), пренебрегая снова указанным выше „перескоком" и используя приближенные равенства (4.31), получаем ^ ^^. (4.40) В результате из (4.37) и (4.40) получаем приближенное значение среднего объема испытаний при в = 0q: где . .. 1 — а а w(a, P) = (l- a) In —— + aln j— Аналогично можно получить приближенное значение среднего объема Mi v испытаний при справедливости гипотезы #i, т.е. при в = в\: С учетом (4.34) формулы для среднего объема испытаний могут быть также представлены в следующем виде: где р(вив0) = Mi Z = Mi In ф%\. (4.44) Формулы (4.41)-(4.43) для среднего объема испытаний являются приближенными с учетом „перескока".
4.6, Последовательный критерий отношения правдоподобия 185 Нижняя граница для среднего объема испытаний. Из равенства (4.39) далее нетрудно получить также нижнюю границу среднего объема испытаний при данных фиксированных значениях рисков а, /3. Учитывая, что функция \nu выпукла вверх [II], и применяя неравенство Иенсена [XVIII] для математического ожидания от выпуклой функции, получаем )-)| i = 0,1. (4.45) Из неравенства (4.45) с учетом (4.39), (4.28) находим 1 — а о. откуда с учетом (4.36), (4.37) получаем неравенство Аналогично можно получить неравенство для среднего объема испытаний при в = 0\: M,O^f. (4.47, Неравенства (4.46), (4.47) определяют нижние границы для среднего объема испытаний при в = в0 и в = в\ при заданных значениях рисков а, /3. Как следует из приближенных равенств (4.41), (4.42), средний объем испытаний для критерия Вальда достигает нижней границы, указанной в (4.46), (4.47), по крайней мере приближенно (с учетом указанного выше „перескока") . Пример 4Л6. Обратимся к биномиальной схеме испытаний и рассмотрим последовательность независимых случайных величин <Ji, <$2, -.., <5щ ■--! (4.48)
186 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ имеющих биномиальное распределение. Пусть 6п — индикатор отказа элемента на п-м шаге (исход п-го испытания), принимающий значения 0 или 1 с вероятностями Р {Sn = 0} = 1 — g и Р{£п = 1} = g, где g — вероятность отказа. Требуется по результатам наблюдений проверить гипотезы где до и gi — заданные критические уровни показателя д, удовлетворяющие условию go < gi- В данном случае параметром является в = д, наблюдаемой на п-м шаге случайной величиной — Хп = <$п, а закон распределения имеет вид p{S;q)' = qs(l — g)1"5, где S принимает два значения 0 и 1. Отношение правдоподобия на п-м шаге испытаний имеет вид <Рп(6\,.--,6п) = - где случайная величина Dn = Si + S2 + ... + Sn есть суммарное число отказов за п шагов. Пусть dn — значение случайной величины Dn. Область продолжения испытаний (4.26) для критерия Вальда задается неравенствами которые после простых преобразований сводятся к неравенствам Схп - С2Ь < dn < Сгп + С2а, (4.49) где a = lnA>0, 6 = -lnfi>0, ln<7i(i-qo) I — gi
4.6. Последовательный критерий отношения правдоподобия 187 Испытания продолжаются, если выполняются оба неравенства (4.49) и прекращаются на том шаге v = n, на котором впервые нарушается хотя бы одно из этих неравенств. При нарушении левого неравенства принимается решение о справедливости гипотезы Яо: q = </o- При нарушении правого неравенства принимается решение о справедливости гипотезы Н\: q = qi. Таким образом, границы области прекращения наблюдений имеют вид прямых линий на плоскости (n, dn) (рис. 4.2), которые определяются уравнениями: а) dn = С\П — СгЪ — граница „области принятия" гипотезы Яо; б) dn — С\п + С20, — граница о „области принятия" гипотезы Н\. Рис# 4.2 В биномиальной схеме испытании случайная величина (4.34) имеет вид Ж = din — + (1 - d)ln 9 откуда, учитывая, что MoS = go, Mi<J= q\, получаем формулы (4.41)-(4.43) для среднего объема испытаний при q = qo и q = q\i (4.50) где Яг Пример 4.17. В эксперименте наблюдают последовательность независимых случайных величин Х\, Х2, (4.51)
188 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ имеющих экспоненциальный закон распределения с параметром А. Требуется на основе наблюдений проверить следующие гипотезы относительно параметра Л: Яо: А = А0, Нх: А = АЬ (4,52) где Ао < Ai. В этом случае отношение правдоподобия на n-м шаге испытаний имеет вид lo(x . p{X1;X1)p{X2;Xl)...p{Xn;X1) _ 9п( ""*' п)~ (X где случайная величина Sn = Х\ + •.. + Хп представляет собой сумму результатов наблюдений за п шагов, a sn — ее реализация. Область продолжения испытаний для критерия Вальда в данном случае задается неравенствами или С\п - С2а <sn<Cin + C26, (4.53) где а = In A, b = — In В, (4.54) \ — Испытания продолжают, если выполняются оба неравенства (4,53), и прекращают при первом нарушении хотя бы одного из этих неравенств. При нарушении правого неравенства в (4.53) принимают решение о справедливости гипотезы #о, а при нарушении левого — решение о справедливо-
4.6. Последовательный критерий отношения правдоподобия 189 сти гипотезы Н\. Границы области прекращения наблюдений, как и в предыдущем примере, также имеют вид прямых линий на плоскости (n, sn) (рис. 4.3), эти линии задаются уравнениями sn = C\n + Сф (граница „области принятия" гипотезы Но) и sn = С\П — С^а (граница „области принятия" гипотезы Hi). Оценим средний объем испытаний. Случайная величина (4.34) в данном случае имеет вид = 1п Рис. 4.3 р{Х;Х0) Ао Учитывая, что Мо-^ = 1/Ао, Ъ/1\Х = 1/Ai, получаем формулы для среднего объема испытаний (4.41)-(4.43) при А = Ао и ^Ь& ^4, (4.55) где —Ар Ао А Приведем далее численный пример, иллюстрирующий выигрыш в среднем объеме испытаний, который дает последовательный критерий Вальда по сравнению с оптимальным критерием Неймана — Пирсона с детерминированным объемом испытаний. Пример 4.18. Пусть в условиях примера 4.14 требуется проверить гипотезы (4.52) относительно параметра интенсивности отказов, где критические уровни равны Aq = 0,1 и Ai = 0,2. Заданные значения рисков первого и второго рода равны а = 0,1 и /3 = 0,1.
190 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ Если номер шага прекращения наблюдений (объем испытаний) определен заранее и является детерминированной величиной: v — п, то наилучший для этого случая критерий Неймана — Пирсона имеет следующий вид: - если sn < С, то принимают гипотезу Hi; - если sn ^ С, то принимают гипотезу Hq. Здесь sn — значение случайной величины Sn = Xi + ... ...+Хп. Риски первого и второго рода для этого критерия равны соответственно следующим вероятностям: Po{Sn < С} и Pi {Sn ^ С}. Тем самым объем испытаний п* = п*(о?,/3), необходимый для того, чтобы обеспечить заданные значения рисков a, /J, определяется как минимальное целое число п, удовлетворяющее двум неравенствам Po{sn(Xn) < С} ^ а, Рх {sn(Xn) > С} ^ 0. Эти неравенства могут быть записаны в виде Ро {2Л05п < 2Л0С} <£ а, Рг {2\YSn > 2\ХС} ^ /3, или, учитывая, что случайная величина 2А5П(ХП) имеет х2-рас- пределение с 2п степенями свободы (см. Д.3.1), в виде Х2(2А0С,2п) ^ а, 1 - X2{1MC,2n) ^ (}, где х2(^?2п) — плотность х2*РаспРеДелени^ с 2п степенями свободы. Отсюда после преобразований получаем, что необходимый объем испытаний п* является минимальным целым числом п, удовлетворяющим неравенству По таблице квантилей х2-р&спределения (см. табл. П.З) находим п* = min {n: Хо,э(2п) < 2Х^,(2п)} = 15.
4.7. Решение типовых примеров 191 Применяя далее формулы (4.55), находим средний объем испытаний при Л = Ло и Л = Ai для последовательного критерия Вальда (при тех же значениях Ло, Ai, о, 0): z^ + aln-JL, 0f91n9-0flln9 с „ г — = :—r-z = 5,7, *£._l_ln*£. ln2-0,5 Таким образом, при А = Ао и А = Ai выигрыш в среднем объеме испытаний, который дает последовательный критерий Вальда по сравнению с детерминированным объемом испытаний п*, равен соответственно п* 15 п* 15 ~5/7~ ' ' М! v ~ 9^2 " ' 4.7. Решение типовых примеров Пример 4.19. Для выборки объема п = 9 построить оптимальный критерий Неймана — Пирсона для проверки двух простых гипотез относительно параметра /i нормального распределения Яо: /х = /1о = 53, Нг: /i = /ix = 54 с заданным уровнем значимости (вероятностью ошибки первого рода) а = 0,1 при известной дисперсии а1 = 16. Для построенного критерия найти вероятность ошибки второго рода /3 и мощность критерия. Решение. В соответствии с результатами примера 4.4 критическое множество задается неравенством п , > С, (4.56)
192 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ где константа С выбирается из условия обеспечения заданного уровня а = 0,1: С = n/i0 + ui-acy/n = 9 • 53 +1,28 • 4 • 3 = 492,4. Для построенного критерия с критическим множеством (4.56) вероятность ошибки второго рода равна ,492,4-9.54 (C-ng,4 ,492,4-9.544 V <jyfn ) V 4-3 / Мощность критерия равна 1 - /3 = 0,24. Значение мощности невелико, что объясняется в данном случае относительно малым объемом выборки п = 9. Пример 4.20. В предыдущей задаче найти минимально необходимый объем выборки п*, позволяющий обеспечить заданные значения вероятностей ошибок а = 0,1, 0 = 0,1. Построить соответствующий оптимальный критерий Неймана — Пирсона в этой ситуации. Решение. В соответствии с результатами примера 4.8 ^.41-а + 1»н)2 _ 16-(1,28+1,28)2 _ (Ы2 " I2 Оптимальный критерий Неймана — Пирсона в этом случае задается с помощью критического множества где константа С определяется из равенства (4.4): С = nVo + иг-а<тл/п* = 570,4. Пример 4.21. Партии волокна испытываются на прочность, при этом предел прочности X распределен по нормальному закону с дисперсией а2 = 9. Партия считается удовлетворительной, если среднее значение предела прочности входящих
4.7, Решение типовых примеров 193 в партию образцов \i — MX ^ 14, и неудовлетворительной, если \i ^ 10. Из каждой партии на испытание ставится п образцов, для которых измеряют значения их прочности х\} ..., хп. Требуется проверить по результатам испытаний две сложные гипотезы Щ: fi ^ 14, H\i \i ^ 10 с заданными максимальными вероятностями ошибок а = 0,1, /3 = 0,05. Для этой ситуации необходимо решить следующие задачи: - найти необходимый объем выборки п*, при котором могут быть обеспечены данные значения а, /?; - построить равномерно наиболее мощный критерий при найденном объеме выборки; - для построенного критерия найти функцию мощности и оперативную характеристику. Решение. Для решения поставленных задач используем результаты 4.3-4.5. Необходимый объем выборки находим по формуле (4.11): Равномерно наиболее мощный критерий совпадает с оптимальным критерием Неймана — Пирсона для двух простых гипотез Hq: /i= 14, Н\: /х= 10. Соответствующее критическое множество задается неравенством (4.16): где С = n*fi0 - ^1_аал/п*, откуда С = 61,4. Функция мощности (вероятность отвергнуть гипотезу Яо) в данном случае имеет вид Оперативная характеристика критерия 5(/i) = 1 — М(/и).
194 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ Пример 4.22. В условиях примера 4.7 найдем минимальный объем выборки, если Яо: р = ро = 0,1, Н\: р = р\ = 0,2, а = 0,01 и /3 = 0,05. Решение. По таблице квантилей нормального распределения (см. табл. П.2) находим щ^а = ио,99 = 2,33, up = uo,o5 = = — иоде = -1,65. Далее, используя (4.12), получаем (0,2-ОДР Пример 4.23. В цехе завода выпускают валы электродвигателей. Из продукции одного станка произвольно выбирают 50 изделий, измеряют их диаметры и вычисляют значение выборочного среднего ж = 42,972 мм. По техническим условиям станок настраивается на номинальный размер 43 мм. Можно ли на основании полученных результатов сделать вывод о том, что станок обеспечивает заданный номинальный размер, или полученные данные свидетельствуют о неудовлетворительной наладке технологического оборудования. Контролируемый признак имеет нормальное распределение, а2 = 0,01 мм2. Решение. Для оценки правильности настройки оборудования необходимо проверить гипотезу Но: /х = /хо = 43мм о математическом ожидании нормально распределенной генеральной совокупности X (<т2 известна) при альтернативной гипотезе Hi: #^43мм, выбор который объясняется тем, что станок можно настроить на размер как выше, так и ниже номинального. Выбираем уровень значимости а = 0,05. Для рассматриваемых гипотез при а = 0,05 критическое множество имеет вид (см. пример 4.13) \Щ ^ 1»Уо, I с I где 1,96 — квантиль Ui_a/2 = ЗД,975 стандартного нормального распределения (см. табл. П.2). Находим выборочное значение
4.7. Решение типовых примеров 195 статистики Z = —х/п: a v 42,972-43 ^ _198 Поскольку полученное значение принадлежит критическому множеству (1,98 > 1,96), то гипотезу Яо отклоняем. Пример 4.24. В условиях примера 4.23 проверим гипотезу Но: /i = /io = 43 мм при альтернативной гипотезе Н\: /i ф 43 мм, если о2 неизвестна. Рассчитанное по результатам выборочное среднее квадратичное отклонение S = 0,1 мм. Решение. Выбираем уровень значимости а = 0,05. По таблице квантилей распределения Стьюдента (см. табл. П.4) находим квантиль £i_a/2 = 2,01 с числом степеней свободы 49. Критическое множество для рассматриваемых гипотез (см. пример 4.13) имеет вид > 2,01. I S Вычисляя выборочное значение статистики получаем Полученное значение не принадлежит критическому множеству, поэтому гипотезу До принимаем. Пример 4.25. Ведутся наблюдения за состоянием технологического процесса. Разладка оборудования приводит к изменению номинального значения контролируемого признака X, имеющего нормальное распределение с дисперсией и2 =; = 0,069мм2. Для проверки стабильности технологического про-
196 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ цесса через каждые три смены изучают выборку объема п = 50. По результатам двух выборок рассчитывают ~х\ = 3,038 мм и ж2 = 2,981 мм. Проверим стабильность технологического процесса. Решение- Для проверки стабильности технологического процесса необходимо проверить гипотезу о равенстве математических ожиданий H\i fii =/i2 (<72 известна). В качестве конкурирующей гипотезы выбираем Hi: fi\ > /i2, так как номинальное значение контролируемого признака уменьшается с течением времени. Выбираем уровень значимости, например а = 0,0027. По таблице квантилей нормального распределения (см. табл. П.2) находим квантиль уровня 1 — а = 0,9973: щ~а = 2,78. Критическое множество имеет вид (см. пример 4.15) Поскольку значение хг-х2 3,038-2,981 = 1,085 не принадлежит критическому множеству, гипотезу #о принимаем, т.е. делаем вывод, что технологический процесс на момент проверки можно считать стабильным. Пример 4.26. Давление в камере измерялось дважды двумя манометрами. По результатам 10 замеров получены следующие данные (в единицах шкалы приборов): х = 1573, у =1671, Sf = 0,72, 5| = 0,75. Выясним, есть ли основание считать, что давление в камере не изменилось, если ошибки измерения распределены по нормальному закону. Решение. Проверяем гипотезу #о: #1 = М2 при альтернативной Hi: /ii ф /i2, предполагая, что дисперсии не известны,
4.7. Решение типовых примеров 197 но одинаковы. Задаем уровень значимости а = 0,01. Для построения критического множества используем статистику (см. пример 4.15) По таблице квантилей распределения Стьюдента (см. табл. П.4) находим квантиль уровня а = 0,995 с числом степеней свободы п + тп —2 = 18: *i_a/2 = *о,995 = 2,88. Рассчитываем выборочное значение статистики Т: 1573-1671 /10-10-18 « -243. 0,147 V 20 Гипотезу Но отвергаем, так как значение —243 принадлежит критическому множеству: | — 243| > 2,88. Пример 4.27. Цех выпускает болты. Из партии болтов взята выборка объема п = 20 и измерена длина каждого болта, по которым рассчитаны выборочное среднее X = 18 мм и выборочная дисперсия S2 = 784мм2. Выясним, можно ли считать, что станок обеспечивает допустимый для данной партии разброс, или же расчетное значение S2 указывает на несоответствие точности изготовления деталей предъявляемым требованиям, согласно которым Oq = 400мм2. Контролируемый признак распределен по нормальному закону. Решение. Для ответа на поставленный вопрос проверим гипотезу о величине дисперсии Hoi <7q = 400 мм2, выбрав в качестве альтернативной гипотезу Н\: а2 > о%. Назначаем уровень значимости а = 0,05. Для того чтобы построить критическое множество, воспользуемся статистикой (n-l)S*(Xn) о*
198 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ (см. Д.3.1), которая имеет распределение х2 с числом степеней свободы п— 1. По таблице квантилей этого распределения (см, табл. IL3) Х2-а(19) = 30,1. Критическое множество имеет вид ^—^— > 30Д. Вычисляем выборочное значение статистики V: (n-l)S» 19-784 <г* 400 ~6i^- Гипотезу Яо отклоняем, так как 37,24 > 30,1. Пример 4*28* До наладки станка была проверена точность изготовления 10 изделий и найдена оценка дисперсии контролируемого признака S\ = 9,6. После наладки измерено еще 15 изделий и получена оценка дисперсии Sf = 5,7. Можно ли считать, что точность изготовления изделий после наладки повысилась? Контролируемый признак имеет нормальное распределение. Решение. Для ответа на поставленный вопрос проверим гипотезу о равенстве дисперсий Щ: а\ = а\ при альтернативной гипотезе #2: о\ > о\. Назначаем уровень значимости а = 0,05. Для построения критического множества используем статистику F = 5j(Xn)/5|(Xn), которая имеет распределение Фишера со степенями свободы v\ — 9 и v<i — 14 (см. Д.3.1). По таблице квантилей распределения Фишера (см. табл. П.5) находим /i_a(9,14) = /о,95(9,14) = 2,65. Критическое множество имеет вид S\(2n)/Sf (#n) > 2,65. Вычисляем значение статистики F: 9,6/5,7= 1,68. Гипотезу #о принимаем, так как 1,68 < 2,65. Пример 4*29* В условиях примера 4.15 найдем границы областей принятия гипотез #о, Н\ и средний объем испытаний (нижнюю границу), если Яо: g = go = 1/3, H\i q = qt = 1/2, а = 0,05, 0 = O,L Решение. Для определения границ областей принятия гипотез Яо и Нг (см. (4.49)) находим В « 0,1/0,95 = 2/19,
Вопросы и задачи 199 А = 0,9/0,05 = 18. Тогда 6 = -In(2/19) = 2,25, a = In 18 = 2,89. Далее получаем Итак, dn = 0,072гс — 2,915 — граница области принятия гипотезы #о, a dn = 0,072n + 3,873 — граница области принятия гипотезы Hi. Наконец, находим средний объем испытаний для двух рассматриваемых гипотез: |!n| + |!n| Вопросы и задачи 4.1. Что такое статистическая гипотеза (гипотеза)? 4.2. Какую статистическую гипотезу называют параметрической, однопараметрической, многопараметрической? 4.3. Какую гипотезу называют основной, альтернативной, простой, сложной? 4.4. Что такое статистический критерий? 4.5. Что такое уровень значимости критерия для проверки статистической гипотезы? 4.6. Какое множество называют критическим для проверки статистических гипотез? 4.7. В чем состоит ошибка первого рода, второго рода? 4.8. Что называют мощностью критерия? 4.9. Какой критерий называют оптимальным (наиболее мощным) при заданном уровне значимости?
200 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ 4.10. Что называют размером критерия? 4.11. Какую функцию называют функцией мощности критерия, оперативной характеристикой критерия? 4.12. Какой критерий называют равномерно наиболее мощным? 4.13. В чем состоит общий метод отношения правдоподобия для сложных параметрических гипотез? 4.14. В чем состоит последовательный критерий отношения правдоподобия (критерий Вальда)? 4Л5. Чему равны средний объем испытаний, нижняя граница среднего объема испытаний для критерия Вальда? 4.16. Генеральная совокупность имеет нормальный закон распределения, а2 = 1. Укажите объем выборки, при котором может быть построен критерий для проверки двух простых гипотез Но: fi = /io — 4,6, Н\\ /j, = /Л\ = 5. Заданы вероятности а = 0,01 — ошибка первого рода и /3 = 0,05 — ошибка второго рода. Указание: используйте решение примера 4.8. Ответ: п* > 99. 4.17. Из продукции автомата, производящего некоторые детали с номинальным значением контролируемого размера /io = 40мм, была взята выборка объема п = 36. Значение выборочного среднего контролируемого размера х = 40,2мм. Есть основание предполагать, что фактические размеры образуют нормальную генеральную совокупность с дисперсией а2 = 1 мм2. Выясните: а) можно ли по результатам проведенного выборочного обследования утверждать, что контролируемый размер не больше номинального (принять а =■ 0,01); б) каково критическое множество в этом случае. Ответ: а) да; б) х > 40,32.
Вопросы и задачи 201 4Л8. В соответствии с техническими условиями среднее время безотказной работы приборов из большой партии должно составлять не менее 1000 ч со средним квадратичным отклонением 100 ч. Значение выборочного среднего времени безотказной работы для случайно отобранных 25 приборов оказалось равным 970 ч. Предположим, что среднее квадратичное времени безотказной работы для приборов в выборке совпадает со средним квадратичным во всей партии, а контролируемая характеристика имеет нормальное распределение. Выясните, можно ли считать, что вся партия приборов не удовлетворяет техническим условиям, если: a) a = 0,1; б) а = 0,01. Ответ: а) да; б) нет. 4*19* Решите предыдущую задачу при условии, что среднее квадратичное отклонение времени безотказной работы, вычисленное по выборке, равно 115 ч. Ответ: а) нет; б) да. 4.20. Утверждается, что шарики, изготовленные станком- автоматом, имеют средний диаметр do = Юмм. Используя односторонний критерий при a = 0,05, проверьте эту гипотезу, если в выборке из п = 16 шариков средний диаметр оказался равным 10,3 мм, считая, что: а) дисперсия <т2 известна и равна <т2=1мм2; б) значение оценки дисперсии, определенное по выборке, составляет 52 = 1,21мм2. Контролируемый размер имеет нормальное распределение. Ответ: а) гипотеза принимается; б) гипотеза принимается. 4.21» Для проверки внутреннего диаметра кольца была взята выборка объема п = 25 и найдены отклонения от размера (погрешность изготовления) 100мм. По результатам измерений подсчитано значение выборочного среднего ж = 31,52 мм и оценка среднего квадратичного отклонения 5 = 6мм. Требуется проверить, существенно ли превышает рассчитанное по выборке среднее значение (31,52 мм) номинальный размер
202 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ (30 мм). В производстве недопустимы большие положительные отклонения. Погрешность изготовления имеет нормальное распределение. Уровень значимости ос = 0,05. Ответ: номинальный размер согласуется с опытными данными. 4*22* Из большой партии резисторов одного типа и номинала случайным образом отобраны 37 шт. Значение выборочного среднего величины сопротивления при этом оказалось равным 9,3 кОм. Используя двусторонний критерий при а = 0,05, проверьте гипотезу о том, что выборка взята из партии с номинальным значением ЮкОм при альтернативной гипотезе, согласно которой номинальное значение не равно ЮкОм, если: а) дисперсия рассматриваемой случайной величины известна и равна4кОм2; б) дисперсия значения сопротивления неизвестна, а значение выборочной дисперсии равно 6,25 кОм. Распределение контролируемого признака нормальное. Ответ: а) гипотеза отклоняется; б) гипотеза принимается. 4*23* Установка имеет среднюю производительность 1000кг вещества в сутки со средним квадратичным отклонением, равным 80кг2. При изменении технологии производительность возрастает до 1100 кг вещества в сутки с тем же средним квадратичным отклонением. Можно ли считать, что новая технология обеспечивает повышение производительности, если: а) а = 0,05; б) а = 0,1? Контролируемый признак имеет нормальное распределение. Ответ: а) да; б) да. 4.24. Ожидается, что при добавлении специальных веществ жесткость воды уменьшается. По опенкам жесткости воды до и после добавления специальных веществ по 40 и 50 пробам соответственно получили средние значения жесткости (в стандартных единицах), равные 4,0 и 3,8. Дисперсия измерений в обоих случаях предполагается равной 0,25. Подтверждают ли
Вопросы и задачи 203 эти результаты ожидаемый эффект? Принять а = 0,05. Контролируемый признак имеет нормальное распределение. Ответ: да. 4,25. Два штурмана определяли пеленг маяка по нескольким замерам, используя различные пеленгаторы. Результаты замеров: х = 70,2° при щ =4 и у = 70,5° при П2 = 9. С помощью двустороннего критерия проверьте при а = 0,05 гипотезу о том, что различие результатов вызвано только случайными ошибками, если средние квадратичные отклонения для обоих пеленгаторов известны и равны <т\ = стъ = 0,5°. Ответ: гипотеза принимается. 4.26» Заводы А и В выпускают приборы одного типа. По выборке из 50 приборов завода А установили среднюю продолжительность работы прибора 1288 ч со средним квадратичным отклонением 80 ч, а также по выборке того же объема с завода В — 1208ч со средним квадратичным отклонением 94ч. На уровне значимости a = 0,05 проверьте гипотезу о том, что средний срок службы приборов с обоих заводов одинаков. Считать, что продолжительность работы одного прибора распределена приближенно по нормальному закону. Ответ: гипотеза отклоняется. 4.27. При обработке втулок на станке-автомате ведутся наблюдения за режимом его работы. Для проверки стабильности работы станка через определенные промежутки времени изучают выборки объема п = 10. По результатам двух выборок (табл. 4.1) проверьте стабильность работы станка. Распределение контролируемого признака предполагается нормальным. Также предполагается, что дисперсии генеральных совокупностей, из которых получены выборки, равны. Уровень значимости a = 0,05. Ответ: гипотезу о стабильности работы станка следует отклонить.
204 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ Таблица 4-1 Номер изделия Уг 1 2,060 2,063 2 2,063 2,060 3 2,068 2,057 4 2,060 2,056 5 2,067 2,059 6 2,063 2,058 7 2,059 2,062 8 2,062 2,059 9 2,062 2,059 10 2,060 2,057 4.28. Точность наладки станка-автомата, производящего некоторые детали, характеризуется дисперсией длины деталей. Если эта величина будет больше 400 мкм2, станок останавливается для наладки. Значение выборочной дисперсии, найденное по 15 случайно отобранным деталям из продукции станка, оказалось равным о2 = 680мкм2. Определите, нужна ли наладка станка, если: а) а = 0,01; б) а = 0,1. Контролируемый признак имеет нормальное распределение. Ответ: а) нет; б) да. 4.29. При изменении определенной процедуры проверки коэффициента трения установлено, что дисперсия результатов измерений этого коэффициента составляет ОД. Значение выборочной дисперсии, вычисленное по результатам 26 измерений коэффициента трения, оказалось равным 0,2. При уровне значимости а = 0,1 проверьте гипотезу о том, что дисперсия результатов измерений коэффициента трения равна 0,1. Предполагается, что контролируемый признак имеет нормальное распределение. Ответ: гипотеза отклоняется. 4.30. На двух токарных автоматах изготавливают детали по одному чертежу. Из продукции первого станка было отобрано щ = 9 деталей, а из продукции второго n<i = 11 деталей. Оценки выборочных дисперсий контрольного размера, определенные по этим выборкам, равны Ъ\ = 5,9 мкм2 и о\ = 23,3 мкм2 соответственно. Проверьте гипотезу о равенстве дисперсий при а = 0,05, если альтернативная гипотеза утверждает следу-
Вопросы и задачи 205 ющее: а) дисперсии не равны; 6) дисперсия размера для второго станка больше, чем для первого. Ответ: а) гипотеза принимается; б) гипотеза отклоняется. 4.31. Давление в камере контролируется по двум манометрам. Для сравнения точности этих приборов одновременно фиксируют их показания. По результатам 10 замеров значения оценок (в единицах шкалы приборов) оказались следующими: х = 1573, у = 1671, Si = 0,72, S2 = 0,15. При a = 0,1 проверьте гипотезу о равенстве дисперсий. Ответ: гипотеза принимается. 4.32. На двух станках А и В производят одну и ту же продукцию, контролируемую по внутреннему диаметру изделия. Из продукции станка А была взята выборка из 16 изделий, а из продукции станка В — выборка из 25 изделий и получены значения жд = 36,5мм, S\ = 1,21мм2, ~хв — 36,8мм, S\ = 1,44 мм2. Проверьте гипотезу о равенстве математических ожиданий контролируемых размеров в продукции обоих станков при двусторонней альтернативной гипотезе, если: а) а = 0,05, б) а = 0,1. Предполагается, что распределение контролируемых размеров нормальное и с\ = о\. Ответ: а) гипотеза принимается; б) гипотеза принимается. 4.33. Сравниваются прочностные характеристики сталей марок А и В. Для этого испытаны на предел прочности 145 образцов марки А и 200 образцов марки В. В результате получили хг = 31,40, S\ = 3,36, х\ = 28,84, 5| = 3,51. Можно ли на уровне значимости a = 0,1 считать, что стали имеют разные прочностные характеристики? Предварительно следует убедиться, что дисперсии равны. Контролируемый признак имеет нормальное распределение. Ответ: да.
206 4. ПРОВЕРКА ГИПОТЕЗ. ПАРАМЕТРИЧЕСКИЕ МОДЕЛИ 4.34. При 50 подбрасываниях монеты „герб" появился 20 раз. Можно ли считать, что процент появления „герба" не равен 50? Принять а = 0,10. Ответ: гипотеза принимается. 4.35. При 120 бросаниях игральной кости „шестерка" выпала 40 раз. Согласуется ли этот результат с утверждением, что кость „правильная"? Ответ: нет. 4.36* В условиях примера 4.15 найдите границы областей принятия гипотез Но, Н\ и средний объем испытаний, если Яо: q = qo = 0,4; H1:q = q1 = 0,5; а = 0,05; /3 = 0,05. Ответ: dn = 0,45п - 8,26; dn = 0,45п + 8,26; Мо v = 127; Мг v = 148. 4.37, В условиях примера 4.16 найдите границы областей принятия гипотез Но, Н\ и средний объем испытаний при Л = Ао = 0,1; Л = Ai = 0,3. Ответ: Sn = 5,49п+ 11,25; Sn = 5,49п - 14,45; Mi v = 6.
5- ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ Статистические методы, изложенные в 2-4, опираются на различные априорные допущения о виде исследуемой статистической модели. Например, метод максимального правдоподобия применяют при известном (с точностью до вектора параметров) законе распределения генеральной совокупности. Основные методы построения доверительных интервалов и проверки статистических гипотез основаны на предположении о нормальном законе распределения генеральной совокупности. Все эти методы предполагают, что результаты наблюдений являются реализациями независимых случайных величин. Оказывается, что многие предположения о виде статистической модели, в том числе все перечисленные выше, можно сформулировать как статистические гипотезы и проверить при помощи статистических критериев на основании статистических данных. Наиболее важные из этих критериев рассмотрены в этой главе. 5.1. Критерии согласия. Простая гипотеза Критериями согласия называют статистические критерии, предназначенные для обнаружения расхождений между гипотетической статистической моделью и реальными данными, которые эта модель призвана описать. Другими словами, они выясняют, насколько предположения о распределении случайных величин соответствуют экспериментальным данным, т.е. не вступает ли принятая статистическая модель в противоречие с имеющимися данными.
208 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ Критерий Колмогорова. Пусть Хп — случайная выборка объема п из генеральной совокупности X. Рассмотрим задачу проверки простой статистической гипотезы Но о том, что функция распределения F{t) случайной величины X совпадает с некоторой известной функцией Fo(t): Яо: F(t) = F0(t)9 teR. (5.1) Предположим, что случайная величина X непрерывна. Проверка основной гипотезы Но против альтернативной гипотезы Нг: F(t) ф F0(t) для некоторых t G К (5.2) основана на статистике D(Xn)7 реализации D(xn) которой определяют по формуле D(fn)=eup|Fn(i)-Fo(*)|, (5.3) t где Fn(t) — .эмпирическая функция распределения, построенная по реализации хп случайной выборки Хп. При заданной вероятности а совершения ошибки первого рода критерий Колмогорова* отклоняет гипотезу Но в пользу Н\ на уровне значимости а, если где Di_a — квантиль уровня 1 - а распределения случайной величины D(Xn) при условии истинности основной гипотезы Hq. Если же то делается вывод о непротиворечивости (согласии) статистических данных гипотезе #о- *А.Н. Колмогоров (1903-1987) — крупнейший советский математик, один из создателей теории вероятностей.
5.1. Критерии согласия. Простая гипотеза 209 Разобраться в сути этого формального определения можно при помощи следующего нестрогого рассуждения. Согласно теореме 1.1, случайная величина F(t;Xn) — Fo(t), где F(t;Xn) — выборочная функция распределения, для любого t в случае истинности основной гипотезы Но стремится к нулю при п —} оо, а в случае истинности альтернативной гипотезы Н\ — к величине F(t) — Fo(t), которая для некоторых значений t может быть отлична от нуля. Поэтому при п —> оо случайная величина D{Xn) стремится к неслучайной величине sup|F(£) — Fo(£)|, ко- t торая в случае истинности основной гипотезы Но равна нулю, а в случае истинности альтернативной гипотезы Н\ является положительной величиной. Следовательно, если для статистических данных, представленных выборкой хпу случайная величина D(Xn) приняла пдостаточно большое" значение, то гипотезу Яр естественно отклонить в пользу гипотезы Н\, а если D(Xn) приняла значение, „близкое к нулюа, то гипотезу Но следует принять. Оказывается, что при истинности основной гипотезы Но распределение случайной величины D(Xn) не зависит от Fo(t) (хотя зависит от объема выборки п), что чрезвычайно важно для вычисления квантилей случайной величины D(Xn), поскольку не нужно составлять отдельные таблицы значений функции распределения статистики D(Xn) для каждой функции Fo(t), а можно обойтись всего лишь одной таблицей. Это свойство вытекает из приводимой без доказательства следующей теоремы*. Теорема 5*1 • Пусть R(t^Xn) — выборочная функция распределения, построенная по случайной выборке Хп объема п из генеральной совокупности с равномерным законом распределения на отрезке [0,1]. Тогда при истинности Но функция распределения случайной величины D(Xn) совпадает с функ- *См.: Ивченко Г.И., Медведев Ю.И.
210 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ цией распределения случайной величины ?n)-*|. # Из теоремы 5.1 следует, что для проверки гипотезы о виде распределения достаточно составить таблицы значений функции распределения статистики D(Xn) только для случайной выборки Хп из генеральной совокупности X с равномерным законом распределения. Для п ^ 100 такие таблицы существуют*. При больших п для вычисления квантилей Di_a уровня 1 — а следует использовать приближенную формулу, которая основана на доказанном А.Н. Колмогоровым предельном соотношении XmrP{yfcD{Xn) <t} = K(t), t > 0, где *(*)= £ (-l)V^. (5.4) Это соотношение справедливо при истинности основной гипотезы Но. Из него следует, что если п достаточно велико, то где величина t\-a определяется уравнением Подробные таблицы значений функции K(t) приведены в литературе**. Как показывает практика, приближением с помощью функции K{t) можно пользоваться уже при п ^ 20. Для вычисления значений D(xn) статистики D(Xn) удобна формула D(xn) = *См.: Большее Л.Н., Смирное Н.В. **См. там же.
5.1. Критерии согласия. Простая гипотеза 211 которую можно также записать в виде Здесь Я(ф i = 1, n, — члены вариационного ряда, построенного по выборке х\7 ..., хп. Пример 5.1. Для выборки х\о объема 10 с злементами -0,29; 1,06; 0,16; -0,12; -1,20; 1,09; -0,91; 1,22; -1,15; 1,29 на уровне значимости а = ОД проверим гипотезу Но о том, что эта выборка является реализацией случайной выборки Хп из генеральной совокупности X, имеющей стандартное нормальное распределение. Это распределение, согласно (5.1), имеет функцию распределения t е~ ~2 ds. —оо В качестве альтернативной возьмем гипотезу (5.2). Вариационный ряд X(i), ..., £(ю) выборки Хю будет иметь вид -1,20; -1,15; -0,91; -0,29; -0,12; 0,16; 1,06; 1,09; 1,22; 1,29. Значения функции распределения Fo(t) в этих точках равны 0,115; 0,125; 0,181; 0,386; 0,452; 0,564; 0,855; 0,862; 0,899; 0,901. Вычисляем значения функции - — F0(x^) при * = 1,10 и п = 10: -0,015; 0,075; 0,119; 0,014; 0,048; 0,036; -0,155; -0,062; 0,001; 0,099,
212 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ и значения Fq(x^) — ^—— при тех же г и п: 0,115; 0,025; -0,019; 0,086; 0,052; 0,064; 0,255; 0,162; 0,089; 0,001. Наибольшим из этих чисел будет 0,255. Значит, D(x^0)) = = 0,255. По таблице квантилей статистики* D(Xn) для п = 10 и а = 0,1 находим Di_a = Д),э = 0,369. Так как D(xio) < Д),э, то оснований отклонить гипотезу Но нет. Критерий и>2. Из равенства (5.3), задающего статистику D(Xn), следует, что критерий Колмогорова „хорошо различает" функции распределения F(t) и Fo(t)} отличающиеся друг от друга достаточно сильно пусть даже на небольшом интервале. Если же число sup|F(£) - Fo(t)\ невелико, но F(i) ф Fo(t) на до- t статочно большом промежутке, то можно показать, что для проверки гипотезы (5.1) при альтернативе (5.2) целесообразно использовать так называемый критерий и>2 (омега-квадрат), использующий статистику где X(t), t = 1,п, — элементы вариационного ряда случайной выборки Х\, ..., Хп. Основная гипотеза (5.1) отклоняется в пользу альтернативной гипотезы (5.2) на уровне значимости а, если и2(хп)>и1_а} где и>\_а — квантиль уровня 1 — а распределения статистики и2(Хп) при условии истинности гипотезы #о. Так же как и для критерия Колмогорова, можно доказать, что распределение статистики и2(Хп) при истинности основной •См.: Большее Л.Н., Смирнов Н.В.
5.1. Критерии согласия. Простая гипотеза 213 гипотезы Но не зависит от Fo. Для малых п существуют таблицы* квантилей статистики v2(Xn). При больших п нужно пользоваться предельным распределением статистики nu>2(Xn), для которого также составлены таблицы. Пример 5.2» Вернемся к задаче, рассмотренной в примере 5.1, но для ее решения используем критерий и2. С помощью формулы (5.6) найдем значение ш2(хю) статистики и2(Хп)} используя значения Fo(x^)} i = 1,10, вычисленные в примере 5.1: V) ^ + + 0,0862 + 0,1052 + 0,0122 + 0,0612 + 0,1492) « 0,0114. По таблицам распределения статистики u2(Xn) для п = 10 находим Так как ш2(хю) < ^о,95> то гипотеза Но на уровне значимости а = 0,05 не отклоняется. Критерии согласия х2* При анализе критериев Колмогорова и ш2 предполагалось, что Хп — случайная выборка объема п из генеральной совокупности непрерывной случайной величины X. Пусть теперь наблюдается дискретная случайная величина X, принимающая г различных значений щ, ..., ur с положительными вероятностями pi, ..., рг: Допустим, что в выборке хп = (a?i, ..., хп) число щ встре- г тилось Пк(хп) раз, к = 1,г. Отметим, что ^2 пь{хп) = п, т.е. *См.: Большее Л.Н., Смирнов Н.В.
214 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ случайные величины п\(Хп), ..., пг(Хп) зависимы. При этих условиях справедлива следующая теорема*. Теорема 5,2 (теорема Пирсона). Распределение случайной величины Е(пк(Хп) - прк)2 fipk при п —> оо слабо сходится к "^-распределению с г — 1 степенями свободы. # Этой теоремой можно воспользоваться для проверки простой гипотезы Но- Pi=Pio, --м Pr=PrO, (5-7) где рю,..., Pro — известные величины, против альтернативной гипотезы Н\: существуют такие к, что рк Ф Рко, к = 17г. (5.8) Если истинной является гипотеза #о, то по теореме 5.2 при п —у оо распределение случайной величины 2 " (5.9) *=i "rKU fc=i Рк0 стремится к распределению х2 с r ~ 1 степенями свободы. Если основная гипотеза Но не является истинной, то в этом случае по закону больших чисел при п —у оо * Доказательство теоремы см.: Крамер Г.
5.1. Критерии согласия. Простая гипотеза 215 Поэтому при п —> оо Следовательно, если р* — рьо ф 0 для некоторых к = 1, г, то статистика х2(-^п) принимает большие значения, чем в случае истинности основной гипотезы Яо- Таким образом, становится естественным следующее определение критерия согласил х2 (хи-квадрат). Этот критерий при больших п на уровне значимости а отклоняет гипотезу Но в пользу альтернативной гипотезы #i, если где Xi_a(r"" 1) — квантиль уровня 1 - а ^-распределения с г-1 степенями свободы, а Х2(^п) — реализация случайной величины (5.9). Если же Х2(*пКХ?_а(г-1ч), то делается вывод о том, что гипотеза Но не противоречит статистическим данным и ее следует принять. В отличие от критериев Колмогорова и и2 критерием \2 ПРИ небольших объемах выборки и пользоваться нельзя. Более того, для удовлетворительной аппроксимации распределения случайной величины х2(Хп) распределением \2 необходимо, чтобы не только п было велико, но и все величины np*, fc= 1,г, также были немалыми. На практике при небольших г необходимо, чтобы выполнялись условия npk ^ 10, к = 1, г, а если г велико (г ^ 20), достаточно, чтобы было прь ^5, к = 1, г. Поскольку теорема Пирсона носит асимптотический характер, то критерий х2 является асимптотически непараметрическим. Критерий х2 можно использовать и тогда, когда случайная величина X непрерывна или дискретна, но принимает счетное множество значений с положительными вероятностями.
216 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ В этом случае множество М возможных значений X разбивают на г непересекающихся подмножеств М*, &=1,г, таким образом, чтобы вероятность р*, & = 1,г, попадания случайной величины X в &-е подмножество М* удовлетворяла условию пр* ^ 5 или пр* ^ 10, к = 1, г. Если X — непрерывная случайная величина, то в качестве М*, к = 1, г, обычно берут множества вида где «i < «2 < ♦ •• < 5Г_!, 5^. 6 К, &= 1,г—1. Определим дискретную случайную величину X', принимающую значение к тогда и только тогда, когда X 6 М*, к = 1, г. В этом случае исходная задача проверки статистических гипотез сводится к проверке основной гипотезы (5.7) при альтернативной гипотезе (5.8), где в случае непрерывности случайной величины X Pko = JdF0{t) = Jpo(t)dt — мк мк вероятность попадания случайной величины X в множество Mk в предположении, что функция распределения случайной величины X есть Fo(t), а плотность — Ро(£)« Если X — дискретная случайная величина, имеющая счетное множество возможных значений *i, z*i,... и Р {X = Zj} = qj > 0, j = 1,2, ♦. •, то вместо проверки гипотезы где <7joi i = 1,2,..., — известные числа, при альтернативной гипотезе Н\: существуют такие j, что qj ф qjo, j = 1,2,...,
5.1. Критерии согласия. Простая гипотеза 217 проверяют гипотезу (5.7) при альтернативной гипотезе (5.8), где вероятности pko, к = 1, г, вычисляют по формулам Рко= Далее для выборки хп находят число п^(хп) ее элементов, принадлежащих множеству М*, к= 1, г. Затем, подставляя хп вместо Хп в формулу (5.9), определяют реализацию Х2(яп) случайной величины х2(^п)- Гипотеза Но отклоняется в пользу гипотезы Н\у если х2(яп) > Xi_a(r~~ 1) и принимается в противном случае. Недостатком использования критерия х2 Для случайных величин, принимающих бесконечное множество значений, является некоторая потеря информации при переходе от X к случайной величине X' с конечным числом значений. Пример 5.3. Среди элементов выборки £юоо Дискретной случайной величины X значение 0 встретилось 343 раза, значение 1 — 372 раза, значение 2 — 201 раз, значение 3 — 68 раз, а значения, большие или равные 4, встретились 16 раз. Проверим на уровне значимости a = 0,05 гипотезу Но о том, что наблюдаемая случайная величина имеет распределение Пуассона с параметром Л = 1, т.е. Предполагал истинность основной гипотезы Но, находим Poi = Р {X = 0} = 0,368, рог = Р {X = 1} = 0,368, = 3}= 0,061, Заменим случайную величину X, принимающую бесконечное число значений, случайной величиной X', принимающей
218 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ только пять различных значений 0, 1, 2, 3 и 4 с положительными вероятностями рю = 0,368, рго = 0,368, рзо = 0,184, р40 = 0,061 и ръо = 0,019 соответственно. По формуле (5.9) для г = 5, п = 1000 получаем 2 -j (343- 0,368 -1000)2 (372- 0,368 -1000)2 Х (Хп>- 0,368 • 1000 + 0,368 -1000 + (201-0,184-1000)2 (68-0,061-1000)2 (16-0,019-1000)2 + 0,184-1000 + 0,061-1000 + 0,019-1000 = 1,6984 + 0,043 +1,5706 + 0,8033 + 0,4737 = 4,58. По таблице квантелей х2-р&спределения (см. табл. П.З) находим Xo,9s(4) ~ 9,49. Так как 4,58 < 9,49, то гипотеза Но принимается. 5.2. Критерии согласия. Сложная гипотеза Критерии Колмогорова и со2 для сложной гипотезы. Задача проверки простой гипотезы о виде закона распределения случайной величины X на практике встречается довольно редко. Гораздо чаще бывает необходимо проверить по случайной выборке Хп из генеральной совокупности X сложную гипотезу о принадлежности функции распределения F(t) случайной величины X заданному параметрическому множеству распределений {F(*;0), в 6 0}, 0 С Rd: Но: F(t) = Fo(t;0), в ев. Кажется естественным сначала каким-то образом построить оценку в(Хп) параметра 0, а затем применить критерии Колмогорова и и2 для проверки гипотезы где в(хп) — значение оценки в(Хп) по данным выборки хп. К сожалению, при таком подходе эти критерии уже не будут
5.2. Критерии согласия. Сложная гипотеза 219 непараметрическими — при гипотезе Но распределение модифицированных статистик D(Xn) и ш2(Хп), где D(xn) = sup|Fn(t) - Fo(t;0(£n))\, t °'<*»> = lib+;Ё ^ 1 = 1 вообще говоря, зависит от Fq и от метода нахождения оценки 0(^n)i нто требует составления большого количества таблиц расп ределен ий. Однако если 0(Хп) — оценки максимального правдоподобия параметра 0, а элементы F(t;0) параметрического множества {F(t;0), 0 Е в} функций распределений получаются при помощи преобразования сдвига и масштаба какого-нибудь одного своего представителя F(t;0o), т.е. то для критериев Колмогорова и и2 достаточно иметь только одну таблицу для каждого семейства. К таким семействам относятся все важные типы распределений, и, в частности, нормальное. Более того, при небольшой модификации статистик D(Xn) и 02(Хп) их распределение при п > 5 практически перестает зависеть* от п. Критерий х2 Для сложной гипотезы. Пусть функция распределения дискретной случайной величины X, принимающей конечное множество значений t*i, ..., мг, зависит от d-мерного вектора параметров 0. Тогда вероятность р* того, что X примет возможное значение Uk, зависит от в, т.е. рь = рк [в), к = 1, г. А так как вероятности р\ (0),..., рг (0) полностью определяют функцию распределения случайной величины •См.: Тюрин Ю.Н., Макаров А.А.
220 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ X, то в рассматриваемом случае основная гипотеза принимает следующий вид: Эту сложную гипотезу можно проверить при помощи модификации критерия х2 Пирсона. Пусть в(хп) — значение оценки в(Хп) максимального правдоподобия для 0, а Пк(хп) — количество элементов выборки а?П1 равных ику к = ТТг, Оценку в{Хп) получают в результате минимизации логарифма функции правдоподобия как (см. (3.2)) решение системы уравнений Можно показать*, что при некоторых предположениях о гладкости функций р*(0), к= 1, г, распределение случайной величины при п —» оо £* пЛ(0(Х„)) слабо сходится к случайной величине, имеющей ^-распределение с г — d — 1 степенями свободы. Если Л* — непрерывная случайная величина с функцией распределения F(£), то, разбивая множество возможных значений X на конечное число непересекающихся подмножеств и переходя к дискретной случайной величине Х\ можно проверить сложную гипотезу Но: *См.: Крамер Г.
5.2. Критерии согласия. Сложная гипотеза 221 Необходимо только помнить, что оценку максимального прав- доподобия в(Хп) следует строить не по наблюдениям Xi, ..., Хп случайной величины X, а по значениям частот ni(xfn)^ ..., Urffin) случайной величины Х\ что, как правило, гораздо труднее. Построение такой оценки для наиболее распространенных параметрических семейств распределений (нормального, экспоненциального, пуассоновского и т.д.) можно найти в специальной литературе*. Двухвыборочная задача» Критерии Смирнова. Пусть Хт = (Х\у ..., Хт) и УЛ = (Yi, ..., Yn) — случайные выборки из генеральных совокупностей X иУ с функциями распределения F(t) и G(t) соответственно. Рассмотрим задачу проверки сложной гипотезы Яо: F(t) = G(t), teR, (5.10) против альтернативной гипотезы Hi: F(t) ф G(t) для некоторых t e R. (5.11) Для непрерывных случайных величин X и Y гипотезу Яо против альтернативной гипотезы Н\ можно проверить, воспользовавшись статистикой О(Л?т,Уп), реализация которой определяется формулой D{Zm,yn) =sup|Fm(t) -Gn(t)l (5.12) где Fm(t) и Gn(t) — эмпирические функции распределения, построенные по реализациям хт и уп случайных выборок Хт и Уп соответственно. Если истинной является основная гипотеза Яо, то, согласно закону больших чисел, для любого t G R TO(t) - Gn(t)) = F(t) - G{t) = 0. •См.: Крамер Г.
222 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ Если же истинной является альтернативная гипотеза Н\, то для любого t € R lim (Fm(*)-Gn(0) = F(t)-G(t)#0. m,n—too Следовательно, значения D(£m,yn), близкие к нулю, свидетельствуют о том, что, по-видимому, верна гипотеза Яо, а большие значения D(sm,уп) указывают на большую правдоподобность гипотезы Н\. На этом факте и основан критерий Смирнова. А именно критерий Смирнова отклоняет Яо в пользу Н\ на уровне значимости а, если выборочное значение D(xmiyn) статистики D(Xm,Yn) удовлетворяет неравенству D(xm,yn) > Di-a, где Di_a — квантиль уровня 1 — а распределения статистики D(XmiYn) при истинности гипотезы Hq. Если то отклонять гипотезу Яо нет оснований. Доказано*, что распределение статистики D(Xm,V^) при истинности Яо не зависит от F(t) и G(t). Для небольших т и п таблицы квантилей функции распределения случайной величины D{XmjYn) при истинности Яо есть в соответствующих справочниках**. Н.В. Смирнов*** показал, что при туп-too (5.13) где функция K(t) определена равенством (5.4). Рассмотрим вариационный ряд (5.14) *См.: Смирное Н.В. **См., например: Большее Л.Н., Смирное Н.В. '••См.: Смирное Н.В.
5.2. Критерии согласия. Сложная гипотеза 223 объединенной случайной выборки Х\, ..., Xm, Yi, ..., Уп. Можно показать, что D(Xm,Yn)= max|Fm(Zw)-Gn(Z(0)|. Значение D(sm,yn) статистики О(Хт,Уп) удобнее вычислять следующим образом. Пусть Г1» Z(i) — одно из наблюдений X; Si= < и (5.15) 10, ^(i) — одно из наблюдений У, где zu\ — значение случайной величины Z(f*j, г = 1, iV. Положим Тогда N D(xm,yn) = mbx{su...,sN]. (5.17) ran Пример 5.4. Пусть X и У — непрерывные случайные величины с функциями распределения F{t) и G(t) соответственно. Даны выборка а?ю с элементами -0,15; 8,60; 5,00; 3,71; 4,29; 7,74; 2,48; 3,25; -1,15; 8,38 и выборка 2/1о с элементами 2,55; 12,07; 0,46; 0,35; 2,69; -0,94; 1,73; 0,73; -0,35; -0,37. Проверим на уровне значимости а = 0,05 гипотезу (5.10) против альтернативной гипотезы (5.11). Выписываем значения объединенного вариационного ряда заданных выборок -1,15; -0,94; -0,37; -0,35; 0,46; 0,73; 1,73; 2,48; 2,55; 2,69; 3,25; 3,71; 4,29; 5,00; 7,74; 8,38; 8,60; 12,07
224 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ и последовательность чисел <5t, г = 1,20, 1; 0; 0; 0; 1; 0; 0; 0; 0; 1; 0; 0; 1; 1; 1; 1; 1; 1; 1; 0. Вычислив по формуле (5Л6) значения величин Sj, j = 1,20, и подставив их в (5.17), определим, что Л(ж10,Ую) = 6. В таблице квантилей распределения статистики* D(Xm,Yn) квантили D\-a = Do,95 нет, но есть квантиль А),9476 = 6. Поэтому гипотезу (5.10) следует отклонить в пользу альтернативной гипотезы (5.11) на уровне значимости а = 0,0524. 5.3. Критерии независимости Критерий Спирмена. Пусть имеется случайная выборка (-Хь Vi), ..., (Хпу Yn) из генеральной совокупности двумерной непрерывной случайной величины (X, Y) с функцией распределения F(t,r), a Fx{t) и Fy(t) — функции распределения случайных величин X и Y соответственно. Если случайные величины X и У имеют нормальные распределения, то для проверки статистической гипотезы об их независимости Яо: F(tfr) = Fjr(*)Fy(r) (5.18) можно использовать процедуру, связанную с вычислениями выборочного коэффициента корреляции (см. формулу (6.12)). Бели же о распределениях непрерывных случайных величин X и Y ничего не известно, то для проверки основной гипотезы (5.18) при альтернативной гипотезе Нг: F(t,r) ф Fx(t)FY(r) для некоторых (*, г) 6 R2 используют ранговый критерий Спирмена, основанный на следующем понятии. Определение 5.1. Рангом Ri(zN) элемента zt числовой последовательности zn = (zi, ..., zn) называют его порядковый номер в вариационном ряду *См.: Большее Л.Н., Смирнов И.В.
5.3. Критерии независимости 225 Согласно определению, Ri(zpj) — это число элементов по- следовательности ;?i, ..., zjv, не больших чем Zi, которое можно записать следующим образом: N где 7](t) — функция Xeeucauda. Ранг любого элемента последовательности zpj — это натуральное число в диапазоне от 1 до iV, причем ранг наименьшего элемента последовательности равен 1, а ранг наибольшего — N. Пример 5.5. Рассмотрим выборку £|=(3,8, 4,7, —2,6,17,3). Ее вариационный ряд имеет вид —2,6; 3,8; 4,7; 17,3. Поэтому Rx(z4) = 2, R2(z4) = 3, R3(z4) = 1, R4(z4) = 4. # Определение 5.2* Рангом элемента Z{ случайной выборки Zn = (Zi, .•., Zpj) называют случайную величину Aj(Zjv)f реализация которой Ri(z]y) есть ранг реализации Z{ случайной величины Z, в вариационном ряду z^ ..., z^y Обозначим через R{ = Ri(Xn) — ранг элемента Х{ случайной выборки Х\ч ..., Хп, а через Si = Si(Yn) — ранг элемента Y{ случайной выборки Y\, ..., Yn. Ранговым коэффициентом корреляции Спирмена назовем случайную величину (5.19) где l t=l
226 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ Статистика (5.19) является выборочным коэффициентом корреляции последовательностей рангов i?i,..., Rn и Si,..., Sn. Согласно определению рангов J?t-, St-, i= 1, n, п4 и можно показать, что p(xn,Yn)=i - „JLnDfr - 5«)2- (5-2°) Без ограничения общности можно считать, что значения пар наблюдений (#t, &), г = 1,п, занумерованы в порядке возрастания их первых элементов, т.е. так, что выполняются неравенства х\ <х2 < ...<zn. В этом случае реализация rt ранга Ri равна г, г = 1, щ и значение р(яп>Уп) статистики p(Xn,Yn) можно вычислить по формуле p(xn,yn) = 1 - _ ^(i - Siy, (5.21) где 5t- — реализация ранга 5t, t = lt n. Известно (см. 6.3), что выборочный коэффициент корреляции приспособлен для обнаружения линейной зависимости между случайными величинами X и Y. Если же между X uY имеется функциональная, но не линейная зависимость, то выборочный коэффициент корреляции может быть равен нулю. Примерно так же обстоит дело и с ранговым коэффициентом (5.19), с тем только (впрочем, немаловажным) различием, что он улавливает любую монотонную зависимость, а не только линейную.
5.3. Критерии независимости 227 Доказательство этого начнем с исследования статистики p(XnjYn) при линейной зависимости У = аХ + 6, a G R, Ь 6 R, между случайными величинами X и Y. Если а > 0, то большим значениям Х{ соответствуют большие значения да, и, наоборот, меньшим значениям ж; — меньшие значения да, г = 1, п. Если пары наблюдений (жг-, да), г = 1, п, занумерованы по возрастанию первых элементов, то будут иметь место неравенства у\ < ... < уп. Поэтому г; = Si для всех г = 1, п, и из (5.21) следует, что p(xnjyn) = 1. Если же а < 0, то большим значениям Х{ соответствуют меньшие значения да, а меньшим значениям Х{ — большие значения да, г = 1,п. В этом случае п = sn_;+i, S{ = rn_;+i, г = Т7п, и р(£п,Уп) = -1. Заметим, что если <р(х) — возрастающая функция, то ранг элемента Х{ в последовательности a?i, ..., хп равен рангу ip{xi) в последовательности <р(х\), ..., <^(жп)- Поэтому если случайные величины X и Y связаны функциональной зависимостью У = Аналогично, если У = (р(Х), где <р(ж) — убывающая функция, тор(£п,уп) = -1. Условие |р(Хп,Уп)| ^ 1 выполняется всегда, так как оно выполняется для выборочного коэффициента корреляции, а p(Xn,Yn) — это выборочный коэффициент корреляции, построенный по последовательностям рангов наблюдений. Рассмотрим теперь другой крайний случай, когда случайные величины X uY независимы, т.е. когда основная гипотеза #о является истинной. В этой ситуации случайный вектор (5i, ..., Sn) принимает с равной вероятностью любое свое возможное значение, являющееся одной из п! перестановок, составленной из чисел 1, 2, ..., п. Следовательно, вероятность того, что статистика p(Xn,Yn) примет любое из своих возможных значений р(£п*$п) ПРИ истинности основной гипотезы (5.18), не зависит от распределений случайных величин 1иУ.
228 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ Можно показать, что при истинности основной гипотезы (5.18) Mp(Xn,Yn) = 0, T>p(Xn,Yn) = —1-г, (5-22) и, следовательно, при этом выборочные значения статистики p(XnfYn) невелики и группируются около нуля. Поэтому (и это кажется достаточно естественным) ранговый критерий Спирмена отклоняет Яо на уровне значимости а, если где />1_а/2 — квантиль уровня 1 —а/2 распределения случайной величины p(Xn,Yn) при истинности основной гипотезы (5.18). При небольших п это распределение табулировано*. Известно, что при п^оои при истинности основной гипотезы (5.18) lim P n—Юо <t}=* / е 2 т.е. квантили случайной величины p(XnjYn) можно приближенно вычислять при помощи таблиц квантилей стандартного нормального распределения. Пример 5.6. В табл. 5.1 представлены п = 10 значений («t-, yi), г= 1,10, непрерывной двумерной случайной величины (X, У). Проверим на уровне значимости а = 0,05 гипотезу Яо о независимости случайных величин X и Y. Таблица 5Л Xi Уг -1,63 0,54 1,11 0,88 1,15 -1,21 -1,93 0,89 0,38 -0,64 -1,08 -0,21 -0,31 0,08 0,60 -0,74 0,12 0,79 0,92 0,14 *См.: Большее Л.ЯМ Смирнов Н.В.
5.3. Критерии независимости 229 Строим последовательность рангов (табл. 5.2). По формуле (5.20) вычисляем реализацию статистики p(Xn,Yn) Р(хп, Уп) = 1 - 1О(1р2_1} ((2-7)2 + (9-92) + (10-1)2 + (1 -10)2 + + (6-3)2 + (3-4)2 + (4-5)2 + (7-2)2 + (5-8)2 + (8-6)2) = = l--|j-(25+ 0 + 81+ 81+ 9 + 1 + 1 + 25 +9 + 2) «-0,4118. Таблица 5.2 Si 2 7 9 9 10 1 1 10 6 3 3 4 4 5 7 2 5 8 8 6 По таблицам распределения статистики p(Xn,Yn) рангового критерия Спирмена* находим квантили А>,952 = 0,6726, ро,97 = 0,7374, ро,983 = 0,80223, (5.23) а квантили Pi_a/2 = Ро,975 нет, так как р(ХЛ,Уп) — дискретная случайная величина. Тем не менее, из значений квантилей (5.23) заключаем, что |р(£п,уп)\ < ро,952 и Но не отклоняется даже на большем уровне значимости. Таблицы сопряженности признаков и критерий \2- Пусть имеется случайная выборка из генеральной совокупности двумерной дискретной случайной величины (X, Y), где случайная величина X может принимать значения щ, ..., иГ} а случайная величина У — значения vi, ..., v8. Определим случайную величину ntj(Xn,l^), реализация riij которой равна количеству элементов выборки (хп,уп) = ((a?i,yi), ..., (яп,уп)), совпадающих с элементом («,-, Vj), г = Т77, j = lTs. *См.: Большее Л.Н., Смирнов Н.В.
230 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ Введем случайные величины п;.(Хп,Уп) и n.j(Xn,Yn), значения щ. и n.j которых определим по формулам гц. = t=l При этом щ. — количество элементов выборки (хП1 уп), в которых встретилось значение щу a n.j — количество элементов выборки (аГп, j/n), в которых встретилось значение Vj. Кроме того, имеют место очевидные равенства В рассматриваемом случае результаты наблюдений удобно оформлять в виде таблицы, называемой таблицей сопряженности признаков (табл. 5.3). Таблица 5.3 X «1 и2 Y Vi пп П2\ пг1 V2 П\2 П22 пг2 П.2 ... ... П>2з ПГ8 п.8 пг. п2. пг. п Пусть далее Дискретные случайные величины X и Y независимы тогда и только тогда, когда
5.3. Критерии независимости 231 Поэтому основную гипотезу о независимости дискретных случайных величин X и У можно представить в следующем виде: Яо: Pij=Pi-p.j, t = T7F, j = Ks. (5.24) При этом, как правило, в качестве альтернативной используют гипотезу Him- Pij ФPiPj Для некоторых г = 1, г, j = 1,в. (5.25) Для проверки основной гипотезы (5.24) при альтернативной гипотезе (5.25) К. Пирсон предложил использовать статистику Х2(^п»Уп)1 называемую статистикой Фишера — Пирсона, реализация Х2(яп, jfo) которой определяется формулой (5.26) Из закона больших чисел следует, что при п -> оо n Pii' n Wm n Поэтому при истинности гипотезы Но и больших объемах выборки (хп,уп) должно выполняться приближенное равенство и, следовательно, значения (5.26) статистики x*(Xn,Yn) должны быть „не слишком велики". „Слишком большие" значения должны свидетельствовать о том, что Но неверна. Ответ на вопрос о том, какие значения нужно считать слишком большими, а какие — нет, дает следующая теорема. Теорема 5-3. Если истинна гипотеза #о, то распределение статистики ^{Xn^Yn) при п —> оо слабо сходится к случайной
232 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ величине, имеющей х2-распределение с числом степеней свободы *= (г- 1)(*- 1): . # В соответствии с теоремой 5.3 критерий независимости X2 отклоняет гипотезу #о на уровне значимости 1 — а, если где х?-а((г— 1)(5~ 1)) — квантиль уровня значимости 1 —а Х2-распределения с числом степеней свободы (г— l)(s— 1). При этом считается*, что критерий х2 можно использовать, если rii.n.j/n ^ 5. Правую часть равенства (5.26) можно преобразовать к форме, более удобной для практического использования: В частном, но очень распространенном случае таблиц сопряженности при г = s = 2 формула (5.26) для вычисления х2(ifn, ifn) имеет еще более простой вид: m|ft) = п{ппп22-щ2п21)> Заметим, что для таблиц сопряженности при г = s = 2, как правило, используют статистику ^(Xn^Yn) с реализациями 7lx fl2^l W2 •См.: Тюрин Ю.Я., Макаров А.А.
5.3. Критерии независимости 233 называемую статистикой Фишера — Пирсона с поправкой Йейтса на непрерывность, распределение которой лучше согласуется с х2-распределением. Пример 5.7. В табл. 5.4 приве- Таблица 5.4 дены результаты 145 наблюдений двумерного дискретного случайного вектора (Л\ У). Проверим на уровне а = 0,05 гипотезу Но о независимости случайных величин X и Г. В рассматриваемом случае г = = 3,5 = 3, т.е. случайные величины X и У принимают по три различных значения. Вычислим по формуле (5.27) значение Х2(яп,Уп) величины х2{Хп,1?п): X 0 1 2 3 45 11 9 65 4 25 11 9 45 Y 5 15 13 7 35 85 35 25 145 252 152 И2 , 132 92 92 3535 6525 4525 72 \_ 5-25 ) 45-35 35-35 65-25 45-25 35- = 145 (о,3665 + 0,1634 + 0,0756 + 0,0532 + + 0,0768 + 0,1380 + 0,0498 + 0,072 + 0,056 - l) = = 145-0,0513 = 7,4385. По таблице квантилей х2-распределения (см. табл. П.З) с числом степеней свободы (г — l)(s — 1) = 4 находим Таким образом, оснований для отклонения гипотезы Но о независимости случайных величин X nY недостаточно.
234 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ 5.4. Решение типовых примеров Пример 5.8. Даны выборка объема т. = 25 0,00; -0,53; 1,47; 0,96; 3,98; 3,22; 0,25; 0,31; -0,64; -1,26; -0,92; -1,36; 0,96; 1,39; -0,81; 1,12; -0,62; -0,66; 1,07; -0,52; 0,48; -1,00; -0,96; -1,43; -1,09 из распределения Коши с плотностью 1 рХ(х) = и выборка объема п = 28 -0,88; 0,41; -0,64; -0,81; -0,09; -0,71; -0,00; 0,49; -0,65; 0,59; 0,17; -0,46; 0,99; -0,24; -0,98; -0,85; -0,09; -0,63; 0,68; 0,02; -0,59; -0,02; -0,45; -0,50; 0,40; 0,29; -0,17; -0,43 из равномерного распределения на отрезке [—1,1] с плотностью ру(х). Проверим при помощи критерия Смирнова статистическую гипотезу о равенстве функций рх и ру • Объединив заданные выборки и построив вариационный ряд, по формуле (5.15) найдем соответствующие этому ряду значения &, г = 1, N, N = 45: 0; 0; 0; 0; 0; 1; 0; 0; 1; 1; 1; 0; 1; 0; 1; 1; 0; 1; 0; 1; 0; 0; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 0; 1; 1; 0; 1; 0; 1; 1; 0; 1; 1; 1; 0; 0; 1; 0; 0; 0; 0; 0; 0. Вычислив по формуле (5.16) значения Sj, j = 1, N, по формуле (5.17) получим D(xn,yn) = 0,473 и Л/^- = 1,718. Так как т и
5.4. Решение типовых примеров 235 п велики, то для проверки гипотезы Щ об однородности воспользуемся асимптотической формулой (5.13), в соответствии с которой 25-28 _ _ _ 1 D(xn,yn)> 1,718 } «0,004. 25 + 28 v "7W ' J Поэтому гипотезу об однородности следует отклонить на уровне значимости а ^ 0,004. Пример 5.9. При 4040 бросаниях монеты Ж.Л.Л. Бюф- фон* получил 2048 выпадений „герба" и 1992 выпадений „решки". Совместимо ли это с гипотезой о том, что вероятность выпадения „герба" при одном бросании равна 1/2? Здесь и = 4040, г = 2, щ (хп) = 2048, п2 (хп) = 1992, рхо = р2о = = 0,5, число степеней свободы г — 1 = 1, и при а = 0,05 находим XJU(1) = 3,841. Проверим гипотезу Но о том, что вероятности р\ и p<i выпадения „герба" и „решки" равны 1/2. На основании (5.9) получаем т2Г?ч (2048-4040-0,5)2 (1992 - 4040 • 0,5)2 Х [Хп) ~ 4040-0,5 + 4040-0,5 ~ Так как 0,776 < 3,841, то статистические данные не противоречат гипотезе Hq. Пример 5.10. В табл. 5.5 приведены данные о распределении цвета волос на голове и бровей у 46542 человек. Проверим на уровне значимости а = 0,05 гипотезу о независимости этих признаков. Здесь п = 46592, г = s = 2, nn = 30472, n12 = 3238, n2i = 3364, 7i22 = 9468, щ. = 33710, п2. = 12832, пл = 33836, п.2 = 12706, число степеней свободы (г — l)(s — 1) = 1. Из (5.28) получаем Х2(а?п,Уп) = 19,288. По таблице квантилей х 'Ж.Л.Л. Бюффон (1707-1788) — французский естествоиспытатель.
236 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ Таблица 5.5 Цвет бровей Светлые Темные Сумма Цвет волос на голове светлые 30472 3364 33836 темные 3238 9468 12706 Сумма 33710 12832 46542 (см. табл. П.З) находим Xo&i1) = 3>84- Так как 19,288 > 3,84, то гипотезу о независимости признаков следует отклонить. Пример 5.11. Бегуны, ранги которых при построении по росту были 1, 2,..., 10, заняли на состязаниях следующие места: 6, 5, 1, 4, 2, 7, 8, 10, 3, 9. Существует ли зависимость между ростом спортсмена и быстротой бега? Проверим основную гипотезу Но о. независимости между ростом и скоростью бега. Полагая в формуле (5.21) п = 10, si = 6, s2 = 5, s3 = 1, s4 = 4, s5 = 2, se = 7, s7 = 8, ss = 10, s9 = 3, «io = 9, находим р(хп,уп) = 0,24. По таблице распределения рангового коэффициента корреляции* для уровня значимости а = 0,05 находим Ро,75 = 0,56. Так как 0,24 < 0,56, то оснований отклонить Но нет. Вопросы и задачи 5.1. Какие критерии называются критериями согласия? 5.2. В чем состоит критерий Колмогорова проверки статистических гипотез? 5.3. Какую статистику используют для проверки гипотез при помощи критерия Колмогорова? *См.: Большее Л.Н., Смирное Н.В.
Вопросы и задачи 237 5.4. В чем состоит критерий J1 проверки гипотез? 5.5. Какую статистику используют для проверки гипотез при помощи критерия о>2? 5.6. Какие гипотезы лучше проверять при помощи критерия Колмогорова, а какие — при помощи критерия о>2? 5.7. Можно ли при помощи критериев Колмогорова и и2 проверять простые гипотезы о математическом ожидании нормального распределения в примерах 4.10, 4.11 и 4.13? 5.8. Как при помощи критерия х2 проверять гипотезу о виде распределения непрерывной случайной величины? 5.9. Можно ли при помощи критериев Колмогорова и и2 проверять сложные гипотезы о виде распределения? 5.10. Что называют рангом элемента последовательности, рангом элемента случайной последовательности? 5.11. Какими свойствами обладает ранговый коэффициент корреляции Спирмена? 5.12. В чем преимущества и недостатки рангового коэффициента корреляции Спирмена перед выборочным коэффициентом корреляции? 5.13. Какую статистику используют для проверки гипотезы о независимости дискретных случайных величин? По какому закону она распределена? 5.14. Что называют таблицей сопряженности признаков? 5.15. Можно ли при помощи рангового критерия и таблиц сопряженности признаков исследовать случайные объекты нечисловой природы? 5.16. Проверьте на уровне значимости a = 0,05 при помощи критерия Колмогорова гипотезу о том, что выборка 2,1; —0,6; 0,2; 3,0; —1,0; 1,3 извлечена из распределения JV(1,1)? Ответ: данные не противоречат гипотезе.
238 5. ПРОВЕРКА НЕПАРАМЕТРИЧЕСКИХ ГИПОТЕЗ 5.17. Решите предыдущую задачу при помощи критерия и2. Ответ: данные не противоречат гипотезе. 5.18. В экспериментах с селекцией гороха Г.И.Мендель* наблюдал частоты появления различных видов семян при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Эти данные и значения теоретических вероятностей по теории наследственности приведены в табл. 5.6. Проверьте на уровне значимости а = 0,1 гипотезу Но о согласовании частотных данных с теоретическими вероятностями. Таблица 5.6 Виды семян Круглые и желтые Морщинистые и желтые Круглые и зеленые Морщинистые и зеленые Частота 315 101 108 32 Вероятность 9/16 3/16 3/16 1/16 Ответ: Гипотеза принимается. 5.19. Решите задачу 4.27, не предполагая нормальность распределения контролируемого признака. 5.20. В таблице 5.7 для каждой из девяти партий сыра приведены его жирность (в процентах) и усредненные (по 80 опрошенным респондентам) результаты опроса вкусовых качеств сыра по шестибальной системе („превосходно" — 6 баллов, „очень хорошо" — 5, „хорошо" — 4, „так себе" — 3, „плохо" — 2, „неприемлемо" — 1). Проверьте по результатам опроса гипотезу о связи жирности сыра и его вкусовых качеств на уровне значимости а — 0,05. Ответ: вкусовые качества сыра улучшаются с увеличением его жирности. * Г.И.Мендель (1822-1884) — монах и австрийский естествоиспытатель.
Вопросы и задачи 239 Таблица 5.7 Партия 1 2 3 4 5 6 7 8 9 Жирность, % 44,4 45,9 41,9 53,3 44,7 44,1 50,7 45,2 60,1 Результат опроса 2,6 3,1 2,5 5,0 3,6 4,0 5,2 2,8 3,8 5.21. Из 300 абитуриентов, поступивших в институт, 97 человек имели оценку 5 в школе и получили оценку 5 на вступительных экзаменах по тому же предмету, причем только 18 человек имели оценку бив школе, и на экзамене. С уровнем значимости 0,1 проверьте гипотезу о независимости оценок 5 в школе и на экзамене. Ответ: гипотеза отклоняется.
6, ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА 6.1. Исходные понятия При решении прикладных задач в различных областях человеческой деятельности, в том числе и в инженерной практике, исследователь нередко сталкивается с необходимостью установления факта существования функциональных или иных зависимостей между переменными величинами, которые могут быть и случайными. Для подтверждения сказанного рассмотрим несколько простейших примеров. Пример 6.1. Пусть У — величина износа (в мм) протектора шины на автомобилях определенного типа после 10000 км пробега, Х\ — величина нагрузки (в кг) на колесо автомобиля, Х2 — тип протектора (используются три типа протекторов). Если установить степень влияния Х\ и X<i на К, то можно дать рекомендации по продлению долговечности шины. Пример 6.2. Пусть Y\ — производительность химической установки (в т/ч), Y<i — процент брака готовой продукции. Технолог предполагает, что на переменные Y\ и Уг влияют в наибольшей степени такие технологические параметры, как: Х\ — влажность сырья (в %)у Хъ — температура в реакторе установки, Хз — содержание примеси (в %). Как установить степень влияния контролируемых переменных Ai, X*i, Хз на переменные Y\ и Уг? Если найти вид зависимости Y\ и Уг от Х\^ Хг, ^з? то можно выбрать оптимальный (т.е. наилучший в определенном смысле) технологический режим (при котором, например, процент брака будет минимальным при заданном уровне производительности).
6.1. Исходные понятия 241 Пример 6*3. Пусть У — успеваемость студентов по некоторой дисциплине (измеряемая, например, средним баллом на экзамене). Деканат проводит обследование студентов данного вуза с целью установления наиболее значимых факторов, влияющих на У. В результате предварительного анализа сделано предположение о том, что этими факторами могут быть: Х\ — время, затрачиваемое студентом на самостоятельную работу, Х2 — количество пропущенных занятий, Х% — величина стипендии. Существует ли взаимосвязь между факторами Х\, Л^, Х^1 В какой степени они оказывают влияние на успеваемость? # Приведенные примеры далеко не полностью отражают возможные постановки задач рассматриваемого типа. Но даже их поверхностный анализ позволяет отметить следующее. 1. Зависимое переменное У может быть случайной величиной, даже если переменные Х\, ..., Хр таковыми не являются, так как значение У определяется не только значениями переменных Xi, ..., Хр, которые исследователь выделил (по его мнению, они являются определяющими), но и многими другими неучтенными факторами, а также ошибками измерений. Это означает, что связь между Xi, •.., Хр и У является не функциональной, а стохастической — изменение переменных Х\,..., Хр влияет на значения переменного У через изменение закона распределения случайной величины У. 2. Некоторые переменные могут иметь количественный характер, а некоторые — качественный (см. пример 6.1). 3. Нас может интересовать либо зависимость переменного У от переменных Х\^ ..., Хр, либо взаимозависимость между несколькими переменными (не обязательно между всеми). Так, в примере 6.3 может существовать взаимозависимость между переменными Х\% Х2 и Хз» Перечисленные особенности приводят к различным постановкам задач статистического исследования зависимостей, ко-
242 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА торые упрощенно можно классифицировать следующим образом: 1) задачи корреляционного анализа — задачи исследования наличия взаимосвязей между отдельными группами переменных; 2) задачи регрессионного анализа — задачи, связанные с установлением аналитических зависимостей между переменным У и одним или несколькими переменными Х\, ..., Xv, которые носят количественный характер; 3) задачи дисперсионного анализа — задачи, в которых переменные Х\, . .., Хр имеют качественный характер, а исследуется и устанавливается степень их влияния на переменное У. Анализу наличия взаимосвязей между отдельными группами переменных и посвящена эта глава. Задачи регрессионного и дисперсионного анализа рассмотрены в последующих главах (см. 7 и 8). Кроме перечисленных типов задач выделяют и многие другие. Так, ковариационный анализ рассматривает одновременно и количественные и качественные переменные Х\, ..., Хр, кон- флюентный анализ* обобщает регрессионный на тот случай, когда переменные Ai, ♦♦., Хр и У измеряют с ошибками, факторный анализ** служит для выделения из множества исследуемых переменных Хь ..., Хр наиболее значимых***. Для удобства дальнейших рассуждений обратимся к так называемой модели „черного ящика" (рис. 6.1) как наиболее общей модели любой реальной системы, ассоциированной с понятием отображения /: X -> У. На вход „черного ящика" поступает входной сигнал — вектор X, который посредством отображения / преобразуется в выходной сигнал — вектор У. При этом, в соответствии со сложившийся терминологией, Х= (Х\, ..., Хр) — вектор входных переменных, или вектор •См.: Айвазян С.А., Енюкое Я.С., Мешалкин Л.Д.У 1985. **См.г Прикладная статистика. Классификация и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюкое, Л.Д. Мешалкин. ***См., например: Айвазян С.А., Енюкое H.C.t Мешалкин Л.Д., 1985.
6.2. Анализ парных связей 243 факторов; Y = (Fi, ..., Ym) — вектор выходных переменных, или вектор откликов; e = Y — f(X), е= (е\, ..., еш) — вектор случайных ошибок, т.е. случайных переменных, отражающих влияние на переменные К, г = 1, го, неучтенных факторов, а также случайных ошибок измерений анализируемых показателей. Рис. ел При проведении корреляционного анализа исследователь должен уметь: а) выбрать показатель стохастической связи анализируемых переменных; б) оценить его значение по имеющимся экспериментальным данным, т.е. найти его точечную и интервальную оценки; в) проверить статистическую гипотезу о том, что значение показателя стохастической связи значимо отличается от нуля. Ниже дано описание методов и моделей, используемых для решения перечисленных задач. 6.2» Анализ парных связей Выбор показателя связи. Для начала рассмотрим задачу выбора показателя стохастической связи между двумя случайными величинами* £ и 7), реализации которых будем обозначать соответственно через х и у. * Использование новых обозначений (£ и х\ вместо X и Y) связано с тем, что £ и I? могут выступать как в роли факторов, так и в роли откликов (или £ может быть фактором, а ?? откликом).
244 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Пример 6.4. Пусть случайный вектор (£,??) имеет нормальный закон распределения с математическим ожиданием fi— (/ii,/i2) и ковариационной матрицей где а\ и а\ — дисперсии случайных величин £ и rj соответственно, ар — коэффициент корреляции между £ и tj. В этом случае условная плотность распределения случайной величины г) при условии, что £ = ж, является плотностью нормального распределения [XVI] с параметрами iinjx (условное математическое ожидание) и о2 *х (условная дисперсия rj) при значении £ = ж, которые связаны с параметрами исходного двумерного распределения следующим образом: ^ (6Л) В рассматриваемом случае линия регрессии является прямой, а условная дисперсия не зависит от х. # Если закон распределения случайного вектора (£,??) не является нормальным, то характер изменения условного математического ожидания ЪЛ(т}\€ = х) = f(x) может быть и нелинейным, причем, чем меньше условная дисперсия В(??|£ = я), тем меньше при различных значениях х рассеяны возможные значения случайной величины т) относительно линии регрессии М(т}\£ = х) =/(я) (рис. 6.2). Функцию /(х) = М(т}\£ = х) называют функцией регрессии, или регрессией.
6.2. Анализ парных связей 245 yi У _ i i * о" "'*^r / Ъу\ f ""' <►* • "■ I * S i i х=И1 x ,y-№ >: ^W-y у X Рис. 6.2 .' M(%|?=x) <5^ х-И1 X X Обозначим M?7 = /w, D7/ = tr^. Отклонение у — /л возможных значений tj от /л складывается из двух слагаемых (см. рис. 6.2): у-м = №)-/*) +(у- (6.3) где f(x) — fj, — отклонение функции регрессии f(x) в точке х от математического ожидания fi\ у — f(x) — отклонение возможного значения т] от значения функции регрессии в точке ж. Покажем, что рассеяние о^ случайной величины г\ относительно ее математического ожидания есть сумма двух слагаемых, а именно: математического ожидания квадрата отклонения г} от ее условного математического ожидания /(£) и математического ожидания квадрата отклонения /(£) от fi. Действительно [XVI], так как M(fo-/(fl)(/(fl -/*))=()■
246 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Докажем последнее равенство для непрерывных случайных величин £ и rj, предполагая, что их совместная плотность распределения р{х,у) в R2 не обращается в нуль: оо оо = f {Пх)-ф^(х)йх f {y- —ОО так как Таким образом, если воспользоваться обозначениями то полученный результат может быть представлен в виде % ti (6.4) Из равенства (6.4) следует, что связь между £ и г\ тем теснее, чем меньше слагаемое а^ или чем больший вклад в дисперсию а* вносит слагаемое о^ порожденное функцией регрессии f(x) =М(??)£ = я. Тем самым мы приходим к понятию общей характеристики степени тесноты связи — корреляционному отношению переменного 7) по переменному £:
6.2. Анализ парных связен 247 Непосредственно из (6.5) следует, что всегда выполняется неравенство <Кг^1, (6.6) причем равенство rjL = 0 означает, что с изменением £ вариация функции регрессии f(x) полностью отсутствует. Другими словами, случайные величины £ и т} являются независимыми. В этом случае линия регрессии есть горизонтальная прямая. Равенство г? = 1 будет иметь место, если a^ = b/l(rj — /(£)) = = 0, т.е. если т\ и £ связаны функциональной зависимостью Аналогично определяется корреляционное отношение r^v переменной £ по т}. Замечание 6Л, Между rv£ и r^v нет какой-либо простой зависимости. Возможны ситуации, в которых один из этих показателей принимает нулевое значение, в то время как другой равен единице. Пусть, например, ?? = f2, a £ принимает следующие значения: —1, 0, 1 с вероятностями 1/3 каждое. В этом случае г^ = 1, r^v = 0 (в силу симметричности параболы относительно оси значений rj и симметричности распределения £). # Итак, решение задачи выбора показателя стохастической связи между двумя случайными величинами £ и г\ для самой общей ситуации, когда закон распределения вектора (£,??) является произвольным, найдено — таким показателем являются корреляционные отношения rV£ и г^. Выясним, какую роль играет такой показатель связи между случайными величинами £ и ??, как коэффициент корреляции р: 0102 где <т\ = у/Щ, <?2 = \/&Vi M((f-M£)(??-M??)) — второй смешанный момент случайного вектора (£,??). Напомним, что случайные величины £ и 7) называют некоррелированными, если р = 0, и коррелированными при р ф 0.
248 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Известно [XVI], что из независимости случайных величин (и?/ следует их некоррелированность, однако обратное утверждение в общем случае неверно. Если случайный вектор (£,т}) имеет нормальный закон распределения, то линия регрессии ц по £ (и £ по ц) является прямой (см. пример 6.4), т.е. коэффициент корреляции р может служить мерой связи между £ и 77. Для нормального закона распределения на основании (6.2) и (6.5) имеем Действительно, из (6.2) получаем, что условная дисперсия 7/ не зависит от значений случайной величины f, и, следовательно, Наконец, учитывая (6.5) и полученный результат, приходим к равенству г2* = р2. Аналогично можно доказать равенство г? = р2. Таким образом, корреляционные отношения совпадают между собой и с абсолютной величиной коэффициента корреляции р. При этом равенство \р\ = 1 означает линейную функциональную зависимость между £ и ?7, а равенство р = О свидетельствует об их линейной независимости. Понятно, что рассмотренными свойствами двумерного нормального закона не могут обладать все двумерные законы распределения или хотя бы их большая часть. Поэтому в общем случае не имеет смысла использование коэффициента корреляции р как меры взаимосвязи случайных величин £ и rj. В общем случае показатели г2^ и р2 связаны неравенствами [XVI] (КрЧг2^!. (6.8)
6.2. Анализ парных связей 249 При этом возможны следующие варианты: а) р2 = О, если f и ч] независимы, но обратное (в общем случае) неверно; б) р2 = r2t = 1 тогда и только тогда, когда имеется строгая линейная функциональная зависимость г\ от £; в) р2 ^ гЪ = 1 тогда и только тогда, когда имеется строгая нелинейная функциональная зависимость rj от £; г) р2 = r2t < 1 тогда и только тогда, когда регрессия tj no f строго линейна, но нет функциональной зависимости; д) р2 <г2*<\ указывает на то, что не существует функциональной зависимости, а некоторая нелинейная кривая регрессии „подходит" лучше, чем „наилучшая" прямая линия. Итак, в качестве показателя стохастической связи между двумя случайными количественными переменными (и?) следует выбрать корреляционное отношение г^ (или г^п), если закон распределения вектора (€,??) вызывает сомнение. Бели же можно с большой степенью уверенности считать закон распределения вектора (£,??) нормальным, то вместо корреляционного отношения следует использовать коэффициент корреляции р. Оценка показателя связи по выборочным данным. После выбора показателя стохастической связи задача корреляционного анализа, как уже отмечалось в 6.1, состоит в нахождении его оценки {точечной и интервальной), а также в проверке статистической гипотезы о значимом отличии его от нуля на основе экспериментальных данных. Пусть в результате эксперимента получены п выборочных значений случайного вектора (£, ?/), которые будем записывать в виде (*,-, у»), г = Т7^. (6.9) При изучении корреляционной зависимости двух случайных величин (£, 7]) по выборке (ж,-, yt), г = 1,п, общую картину их взаимной изменчивости можно получить, изобразив на координатной плоскости все точки. Это изображение называют корреляционным полем.
250 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Уже по виду корреляционного поля можно иногда сделать вывод о наличии и характере связи между случайными величинами (и?/. Так, на рис. 6.3, а выборочные точки (ж,, yi) лежат внутри некоторого эллипса (эллипса рассеяния) с осями, параллельными координатным. Следовательно, с изменением, например, £ величина т) не будет менять своего условного распределения, т.е. f и ?7, по-видимому, некоррелированы. Напротив, на рис. 6.3, б видно, что условное математическое ожидание М(7/|£= х) =/(я) имеет линейный характер изменения, и, значит, следует ожидать, что коэффициент корреляции р близок к единице. На рис. 6.3, в расположение точек (я», од) говорит о наличии нелинейного характера изменения /(ж), и, следовательно, коэффициент корреляции может оказаться близким к нулю, а корреляционное отношение rV£ — близким к единице. У\ ,.—•"": ->., f(x) -•;■■■ а б в Рис. 6.3 Следует отметить, что в том случае, когда среди Х{ есть повторяющиеся с частотой щ значения, выборочные значения представляют в виде 3 = г = 1, m, = п. (6.10) t=i Если выборочные значения сгруппированы по каждой из переменных, т.е. значения Xi разделены на m групп, а значения Pi — на / групп, то выборочные значения представляют в виде (ж* i = 1, m, j = 1, Z, = n, (6.11)
6.3. Анализ коэффициента корреляции 251 или в виде корреляционной таблицы, в каждой клетке которой указывают число п^ попавших в нее выборочных значений, причем сумма всех этих эначении равна п (табл. 6.1). Таблица 6Л Значения Z ... х{ ... Значения г) Ух пи Пц ... ... ... ... Уз 7lij nmj ... ... ... У1 Пц Пц Птп1 6*3. Анализ коэффициента корреляции Точечная оценка показателя р. Пусть экспериментальные данные представлены в форме (6.9). Тогда р — значение точечной оценки коэффициента корреляции р — вычисляют по формуле Р = (6.12) 1=1 Пример 6.5. Вычислим значение р для пары случайных величин (£, 7})у где £ — рост (в см), a tj — масса тела (в кг) наугад выбранного студента-первокурсника. Выборка объема п= 15 представлена в табл. 6.2. Чтобы оценить показатель р связи двух случайных величин, сначала найдем выборочные средние этих величин: 2620 15
252 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Таблица 6.2 Номер наблюдения 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 £ Рост, см Xi 165 171 182 165 183 180 183 166 173 172 174 170 164 168 184 2600 Xi — X -8,3 -2,3 8,7 -8,3 9,7 6,7 9,7 -7,3 -0,3 -1,3 0,7 -3,3 -9,3 -5,3 10,7 Масса ■ К 72,9 48,4 66,3 64,1 62,7 76,0 73,8 50,6 52,3 56,5 66,8 61,6 72,8 52,6 68,6 945 гела, кг Ух-У 9,8 -14,7 3,2 1,0 -0,4 12,9 10,7 -12,5 -10,8 -6,6 3,7 -1,5 9,7 -10,5 5,5 Затем определяем суммы 15 15 , - х)2 = 747,33; ]Г> - у)2 = 1171,4; г=1 t=l 15 -*)(y,-J?) = 293,3. 29?>3 = 0,313. Таким образом, р= . ? . Замечание 6.2. Бели экспериментальные данные представлены в виде (6.10) или (6.11), т.е. сгруппированы по одному или по обоим переменным, то расчетная формула (6.12) для р изменяется соответствующим образом. Например, если выборка представлена в виде (6.10), то значения оценок Дц, а\ и дг
6.3. Анализ коэффициента корреляции 253 вычисляют по формулам - - 1 YV 1 тп г—? 1 V- __ 1 У~т m t=rl Интервальная оценка и проверка значимости. При построении доверительного интервала для коэффициента корреляции и проверки его значимости будем предполагать, что генеральная совокупность имеет двумерный нормальный закон распределения. В этом случае оценка коэффициента корреляции р{Хт»Уп) имеет асимптотически нормальный закон распределения с математическим ожиданием b/Lp(Xn,Yn) «p — - £(р(1 ~ Р2)) и Дисперсией Вр(Хп,Уп) « 1(1 - р2)2. Заметим, что если распределение генеральной совокупности не является нормальным, то приближенное выражение для Dp(Xn,yn) содержит вторые и четвертые моменты генеральной совокупности. Используя общий метод построения доверительного интервала при р2 <С 1, основанный на нормальном законе распределения соответствующей оценки при доверительной вероятности 7= 1 — ot (см. 3.3), можно получить следующее представление для значений нижней и верхней границ интервальной оценки: (6.13) Однако пользоваться оценками (6.13) и (6.14) можно только при больших объемах выборки (не менее* 500). *См»: Кендалл AfM Стюарт А.
254 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА При малых объемах выборки можно рекомендовать построение доверительного интервала для р, которое основано на преобразовании Р. Фишера* z = — In х, или z = arcthp. (6.15) 2 1-р Оказывается, что случайная величина уже для небольших значений п приблизительно распределена по нормальному закону с параметрами ni± + ^_ DZ=-U 2 1-р 2(n-l)' n-3 Это приводит к представлению p = thz, p = thz, (6.16) где 1 1 Р ц1-а/2 Заметим, что равенствами (6.17), (6.18) можно пользоваться и в тех случаях, когда закон распределения генеральной совокупности отличен от нормального. Но в этих случаях ухудшается качество оценивания, т.е. увеличивается длина интервала (г,г), а значит, ухудшается точность оценивания. *См.: Крамер Г.
6.3. Анализ коэффициента корреляции 255 При проверке статистической гипотезы Щ: р = 0 (т.е. гипотезы о том, что нормально распределенные случайные величины независимы) используют статистику ■ Я*иГ.ЬЕ=Д (6Л9) которая имеет распределение Стьюдента с п — 2 степенями свободы*. Если окажется, что " - 2), то гипотезу Яо принимают при уровне значимости а. Пример 6.6. В примере 6.5 найдено значение точечной оценки р = 0,519. Определим значения р и р при у = 0,9 и проверим гипотезу Яо: р = 0 на уровне значимости а = 0,1. Определив по таблице квантилей нормального распределения (см. табл. П.2) значение tti_a/2 = **о,95 = 1>65 и воспользовавшись формулой (6.13), получим 0 902 р и 0,313 + 0,009 - 1,65 • -у=г = 0,322 - 0,384 « -0,062, р w 0,313 + 0,009 +1,65 - ^2 = 0,322 + 0,384 « 0,706. v 15 Равенства (6.16) дают следующий результат: р = thz » -0,162, р = thzw 0,658, который является более надежным. Для того чтобы проверить гипотезу Яо: р = 0, по таблице квантилей распределения Стьюдента (см. табл. П.4) находим *См.: Кендалл М., Стюарт А.
256 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА квантиль to>95(13) = 1,77 и сравниваем со значением = 1,19. Поскольку 1,19 < 1,77, то гипотезу р = О принимаем. 6.4* Анализ корреляционного отношения Точечная оценка показателя г^. Пусть экспериментальные данные представлены в форме (6.10), т.е. сгруппированы по значениям хг случайной величины £. Тогда за значение точечной оценки величины о\ принимают 1=1 Значение точечной оценки дисперсии а^ находим по известной формуле (см. 2Л) Отсюда на основании (6.5) получаем значение точечной оценки показателя г^: (6.20) Напомним, что точечная оценка r(Xn,Yn) определяет степень зависимости случайной величины rj от случайной величины f. Аналогично можно ввести точечную оценку г^ для корреляционного отношения г^. Пусть экспериментальные данные получены в форме (6.9) и не допускают удовлетворительной группировки по оси значений f (так как недостаточно велико п или точки (ztiSfc) слишком „разрежены" на плоскости).
6.4. Анализ корреляционного отношения 257 В этом случае нужно выдвинуть некоторое предположение (статистическую гипотезу) о виде функции регрессии М(?? |£ = х) = /(ж). Проверка таких гипотез будет рассмотрена ниже (см. 7). Допустим, что параметрический вид этой функции задан, т.е. принято предположение о том, что и найдены значения 0» оценок параметров 0,, г— 1,Л (см. 7). Тогда значение точечной оценки а^ для дисперсии а^ находим по формуле ^2 _2 а значение а^ оценки а* можно записать в виде 1 п 2 —^ __ "V "^ ( 91- f(' Ф -• й й \\ (f\ *)Л\ 1=1 Следовательно, согласно (6.5), точечную оценку показателя г^ можно определить равенством \ -=А (6.22) Интервальная оценка и проверка значимости г^. Построение доверительного интервала для показателя г^ основано на том, что статистика* (т- 1)(1 -г^(Хто,Кп)) т- *См.: Кендалл М., Стюарт А.
258 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА приближенно имеет распределение Фишера с числом степеней свободы rj и г2 = п - ш, где в предположении, что при условии £ = х случайная величина 7) имеет нормальный закон распределения с постоянной дисперсией для любого ж. Используя квантили Fa/2(ri,r2) и F1_a/2(riir2) распределения Фишера для a = 1 — 7? гДе 7 — заданная доверительная вероятность, можно записать границы доверительного интервала в следующем виде: , (»-?>**(*»'*> !HzI (6.24) (6.25) п Проверка значимости показателя rV£ (т.е. проверка статистической гипотезы Но: rv% = 0) основана на том*, что статистика С-№/"> (6.26) (1)(1;(ХУ)) имеет распределение Фишера с числом степеней г\ = т — 1 и г2 = п — т, если гипотеза Яо: г^ = 0 верна. Границу критического множества для гипотезы Н$: rV£ =0 на уровне значимости а определяет квантиль /i_a(ri,r2). Величину показателя rV£ следует считать значимо отличающейся *См.: Кендалл М., Стюарт А.
6.4. Анализ корреляционного отношения 259 от нуля, если значение статистики Wo принадлежит критическому множеству, т.е. ее значение больше fi-Q(ri,r2). В противном случае делаем вывод об отсутствии стохастической связи между г) и f. Пример 6.7. Пусть в результате обработки п = 132 экспериментальных точек (zi, у,), i= 1,п, получено выборочное значение корреляционного отношения rv£ = 0,60, причем промежуток, содержащий все выборочные значения случайной величины f, был разбит на т = 12 равных интервалов (см. 1.3). Найдем значения границ доверительного интервала (г, г) для показателя rV£ с уровнем доверия у = 0,9 и проверим значимость этого показателя на уровне значимости а = 0,1. Сначала определим по формуле (6.23) число степеней свободы rj (округляя до целого числа): (12-1 + 132-0.36)2 1 12- 1+2-1320,36 ~ ' По таблице квантилей распределения Фишера с числом степеней свободы rj = 27 и г2 = п - т = 132 - 12 = 120 (см. табл. П.4) находим квантили уровней а/2 = (1 — 7)/2 = 0,05 и 1 — а/2 = = 0,95: /о,о5(27,120) = 1,58; По формулам (6.24), (6.25) находим значения границ доверительного интервала: _ / 120 • 0,36 ТГ_ Г ~ V 132 • 0,64 -1,58 " 132 ~ °'49' / 120 0,36 11 Г V 132 0,64 0,58 132 ~ ' "
260 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Таким образом, с вероятностью у = 0,9 истинное значение показателя rv£ (при точечной оценке г^ = 0,60) заключено в пределах 0,49 < г^ < 0,93. Для проверки значимости г^ (хотя она и так очевидна) найдем квантиль распределения Фишера /i-a(ri,r2) при а = 0,1, П = 11, г2 = 120. Поскольку /0,э(120,11) = 1,58, то /од (11,120) = = 1//о,9(120,11) = 0,63. Значение статистики Wo равно 6,1 > > /0>1 = 0,63, следовательно, гипотеза Но: rv£ = 0 уверенно отклоняется, т.е. между переменными £ и г) имеет место стохастическая связь. 6.5. Анализ множественных связей Перейдем к рассмотрению стохастических связей между совокупностью р+\ случайных величин Хо, Ад, ..., Xpj где переменные Х\, ..., Хр являются входными, а переменное Хо = = Y — выходным. Такое выделение переменного Хо не является обязательным, т.е. все переменные могут быть входными, или выходных переменных может быть несколько, но выделенный случай является, по-видимому, наиболее типичным. Предположим, что случайный вектор (Aq, X\, ..., Хр) имеет нормальный закон распределения, определяемый вектором математических ожиданий /i= (/io, /ii, ...,/ip) и ковариационной матрицей £ = (&ч)- Таким образом, известна корреляционная матрица 1 Рог Ро2 ... Рор\ Рю 1 Pi2 ... Pip I /fi974 ,PPo PPi PP2 ... 1 / где pij является коэффициентом корреляции между случайными величинами Х{ и Xj, i,j = 0, p. Частные коэффициенты корреляции. При рассмотрении трех и более случайных величин Хо, Х\, ..., Хр коэффици-
6.5. Анализ множественных связей 261 енты корреляции любой пары из этих случайных величин могут не дать правильного представления о степени связи между всеми случайными величинами* Это объясняется тем, что на закон распределения вероятностей исследуемой пары случайных величин могут оказывать влияние и другие рассматриваемые случайные величины (см. примеры 6.1-6.3). Это обстоятельство делает необходимым введение показателей стохастической связи между парой случайных величин Xi и Xj (i = 0,р, j = 0,р, гф j) при условии, что значения других случайных величин зафиксированы. В этом случае говорят о статистическом анализе частных связей. Частный коэффициент корреляции — мера линейной стохастической зависимости между двумя случайными величинами из некоторой совокупности случайных величин Хо, ..., Хр, когда исключено влияние остальных, т.е. (для пары i и Xj) где При этом г, j называют первичными индексами, а остальные — вторичными. Коэффициенты о£, /?£, а\.у /?£, к G «/(«,j), находят из условия минимизации следующих функций: ,-4- Е ) ( k€J{ij) Если случайный вектор (Хо, ..., Хр) распределен по нормальному закону, то частный коэффициент корреляции между
262 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА случайными величинами Х{ и Xj вычисляют по формуле* £•• 'J ( где T,{j — алгебраическое дополнение для элемента pij корреляционной матрицы (6.27). Например, при i = 0, j = 1 по формуле (6.29) имеем Р01 ~ РО2Р12 Из формулы (6.29) следует, что для вычисления частных коэффициентов корреляции нужны лишь все коэффициенты корреляции случайных величин Л",-, Xj, гфз* Численные расчеты могут быть упрощены, если использовать рекуррентные соотношения** _ Р0Ц21...}к) \/11 ~ A:) ) Согласно (6.30), любой частный коэффициент корреляции может быть выражен через частные коэффициенты с меньшим на единицу числом вторичных индексов. Замечание 6»3. Практика многомерного статистического анализа показала, что частные коэффициенты корреляции, определенные соотношениями (6.28)-(6.30), — вполне приемлемые характеристики линейной связи и в том случае, когда распределение анализируемых переменных Xq, Ai, ..., Xv отличается от нормального. Статистический анализ частных коэффициентов корреляции. Вычисление значений Pij(j(ij)) точечной оценки частного коэффициента корреляции Pij(j(ij)) проводят по тем же *См.: Крамер Г. **См. там же.
6,5. Анализ множественных связей 263 формулам (6.29), (6.30) путем подстановки вместо коэффициентов корреляции Pij их выборочных значений р^. Исследуя статистические свойства выборочного частного коэффициента корреляции Pij(j(t,j))(^on>--M^pn)> можно воспользоваться тем, что он распределен* точно так же, как и выборочный коэффициент корреляции тех же случайных величин Xij Xjy но с единственной поправкой: объем выборки п надо заменить на п — &, где к — порядок частного коэффициента корреляции (см. (6.30)). Поэтому все формулы для доверительных интервалов и критерии значимости, приведенные в предыдущем пункте, сохраняются и для частных коэффициентов корреляции с учетом замены пнап-fe. Пример 6.8. По итогам работы 37 однотипных прядильных фабрик в течение года были измерены следующие показатели: Xq — Y — среднемесячная характеристика качества пряжи (в баллах), Х\ — среднемесячное количество профилактических наладок автоматической линии, Х% — среднемесячное число обрывов нити. По матрице исходных данных XOt, X\i, X2U г = 1,37, были подсчитаны выборочные коэффициенты корреляции рц по формуле (6.12): р01 = 0,105; ро2 = 0,024; р12 = 0,966. Значения />Oi и />о2 дали основание предполагать, что случайные величины Xo,Xi, i= 1,2, некоррелированные. Гипотезы о равенстве нулю />oi и />о2 были приняты на уровне значимости а = 0Д. Это свидетельствует об отсутствии стохастической связи между Хо (качество ткани) и Х\} Хг, но не согласуется с профессиональными представлениями технологов. Однако расчет значений частных коэффициентов корреляции по формуле (6.29) дает />oi(2)= 0,907 и />02(i)= —0,906, что *См.: Андерсон Т.
264 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА вполне соответствует представлениям специалистов о характере связей между рассмотренными -показателями. Построение доверительных интервалов для истинных значений />oi(2) и Po2(i)> согласно формулам (6.16), с учетом того, что объем выборки п = 37 должен быть уменьшен на 1 (ибо число „мешающих" переменных в данном случае равно к = 1), дает следующие результаты (на уровне доверия у = 0,9): 0,821 < г01(2) < 0,950; -0,950 < г02(1) < -0,819. Пример 6.9, С целью исследования влияния погодных условий {Х\ — весеннее количество осадков, см; X*i — накопленная за весну сумма температур, ° С) на урожайность (в ц/га) кормовых трав Хо в районе с одинаковыми метеорологическими условиями были получены выборочные значения вектора (Хо, A"i, X2) на п = 20 участках. По этим экспериментальным данным (Xoi, Xu,X2i), i= 1,20, были вычислены значения коэффициентов корреляции poi = 0,80; />о2 = —0,40; р\2 = —0,56. Значение /5о2 — —0,40 вызывает вопрос: действительно ли высокая температура X*i отрицательно влияет на урожайность, или здесь сказывается влияние пмешающего" фактора — количества осадков? Вычисление значений частных коэффициентов корреляции по формуле (6-29) дает следующие значения: Poi(2)) = 0,759; po2(i) = 0,097; рЩо) = -0,436. Как видим, если исключить одновременное влияние количества осадков Х\ на Xq (с ростом Х\ урожайность повышается) и на Х2 (с ростом Х\ температура Л^ понижается), то мы уже не обнаружим отрицательной корреляции между температурой Х2 и урожайностью Х$, ибо />o2(i) = 0,097, что не является значимой степенью стохастической связи. Множественный коэффициент корреляции. Для того чтобы результаты, изложенные в 6.4, были частным случаем рассматриваемой общей ситуации, сохраним обозначение i) для
6.5. Анализ множественных связей 265 „выходной" переменной Xq и обозначение £ для „входной" переменной, но теперь £ будет вектором размерности р, т.е. £= (£i, £2* •••> £?>)• Возможные значения переменной г) будем обозначать у, а возможные значения £ — х = (х\у ..,, яр). При решении практических задач, связанных с анализом стохастических связей между многими случайными переменными, чаще других рассматривают ситуацию, в которой поведение какой-то одной (выходной) переменной 7} стараются объяснить поведением совокупности других (входных) переменных £ = (£i, ..., £р). Прежде всего убедимся, что наилучшим прогнозом (аппроксимацией) для неизвестного значения у (в смысле средней квадратичной ошибки) является условное математическое ожидание 7} при условии £ = if, т.е. величина М{г) |£) = х) = /(а?), где х=(хъ ..., хп). Действительно, пусть f(x) — любая функция. Тогда Щч- Ж))2 = Щ(п - ПО) + (/(в - Ж)))2 = Поскольку последнее слагаемое равно нулю (доказательство этого аналогично тому, которое приведено в 6*2), то если /(I) = /(I). Следовательно, при каждом данном значении ( = ги любой функции f(x) ф f(x) имеет место неравенство Таким образом, мы снова (как и в 6Л) пришли к функции регрессии f(x) = M(i;|£ = ж), но уже функции от р переменных x\j .♦., жр, которая наиболее точно (в смысле сред-
266 б. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА ней квадратичной ошибки) воспроизводит значения исследуемого результирующего переменного т] по заданным величинам х = (xi, ..., хр) входных переменных £= (£г, ..., £р). Теперь вернемся к соотношению (6-4), которое связывает дисперсию а* случайной величины 77 с величинами <т? = D /(£) и W* = MD(?7|f). Соотношение (6.4) остается справедливым и в случае вектора входных переменных £ = (£ь ..., £р). Следовательно, так же как и в случае парной зависимости, случайный разброс (вариация) выходного переменного г) складывается из контролируемой нами (посредством х = = (xi, ..., Хр)) вариации функции регрессии /(х) и из неподдающегося нашему контролю случайного разброса значений г/ (при фиксированном х) относительно функции регрессии. Именно этот неконтролируемый разброс определяет меру зависимости переменной т] от переменной £, которая характеризуется величиной <т^. Чем меньше значение <т^, тем точнее прогноз. При ~0\ = 0 случайные величины т) и £ связаны функциональной зависимостью. Эти соображения подводят нас к определению множественного коэффициента корреляции Rv, под которым понимают величину i^=Jl-^|. (6.31) Заметим, что квадрат R* показателя Rv принято называть коэффициентом детерминации. Покажем, что Rv есть коэффициент корреляции между г) и /(£) (тем самым оправдаем его название). Имеем - Мт;)) = - MV)2+ (т,-
6,5, Анализ множественных связей 267 поскольку Далее, Отметим свойства показателя Rn, которые непосредственно вытекают из соотношения (6.31), справедливого и в многомерном случае. 1°. 0<Я^1. 2°. Rv = 0 соответствует о1} = D/(£) = 0. В частности, функция регрессии / не зависит от значений ее аргументов х: f(x) = const. 3°. Rv = 1 соответствует IF* = 0 и означает наличие чисто функциональной связи между i? и (= (&,..., (р): т) = Определение показателя Rn в виде (6.31) и отмеченные свойства 1°-3° справедливы при любом законе распределения вектора {г), ^, ..., £р). Если же предположить, что исходные статистические данные (хцч X2U •••! xpi)i Уи *= 1>л, могут интерпретироваться как выборка объема п из (р + 1)-мерной генеральной совокупности, распределенной по нормальному закону с вектором средних значений р= (fi0, цг, ..., /хр), где /х0 = М?7, М«" = M^t г = 1, р, и ковариационной матрицей Е, то можно отметить дополнительные свойства показателя Rv и правила его вычисления. Прежде всего укажем на то, что в рассматриваемой ситуации (ср. с примером 6.4) условное математическое ожидание 7} при фиксированных значениях & = х\9 ..., £р = хр (т.е. функция регрессии /(ж)) является линейной функцией переменных
268 б. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА zi, ..., жр, а условная дисперсия Т>(г/\£) =х) не зависит от х = (жх,...,Жр) и имеет вид Последнее выражение — полная аналогия формулы (6.2), только роль коэффициента корреляции р играет множественный коэффициент корреляции Rn. Приведем без доказательства* следующие дополнительные свойства показателя Rv в случае совместного нормального закона распределения переменных т) и £ = (£i, ..., £р). 4°. С помощью корреляционной матрицы Р (6,27) показатель Rv можно вычислить по формуле где det Р — определитель матрицы Р, а Роо — алгебраическое дополнение элемента роо = 1- 5°. Показатель R^ можно вычислить, используя частные коэффициенты корреляции следующим образом: я* = 1 - (1 - pIi) П^1" /»оЛ12...;-1))- (6-33) 3=2 6°. Множественный коэффициент корреляции мажорирует любой парный коэффициент корреляции, характеризующий стохастическую связь результирующего показателя т] с остальными, т.е. где Poj(-) — произвольный частный коэффициент корреляции, содержащий нуль среди первичных индексов. * Доказательство см.: Кендалл М., Стюарт А.
6.5. Анализ множественных связей 269 7°. Присоединение каждого нового предсказывающего (входного) переменного не может уменьшить величины Rv (независимо от порядка присоединения). Статистический анализ множественного коэффициента корреляции. Вычисление значений точечной оценки Rv показателя Rv проводится по тем же формулам (6.31)-(6.33) путем подстановки в них вместо значений теоретических характеристик соответствующих значений выборочных характеристик. Например, при использовании формулы (6.32) матрицу Р нужно заменить матрицей Р, в которой все элементы рц заменены на fa, i,j = 0,р, а при использовании формулы (6.33) коэффициент корреляции poi и все частные коэффициенты корреляции Рщ-) нужно заменить значениями Рщ-)- Для проверки гипотезы Но: R^ = 0 будем предполагать, что случайный вектор (£,9) имеет (р+1)-мерный нормальный закон распределения, и воспользуемся тем*, что статистика 1-Я? Г имеет распределение Фишера срип-р-1 степенями свободы, если истинное значение Rv = 0. Гипотеза об отсутствии множественной корреляционной связи между ?/ и £ = (ж*1, ..., £р) отвергается на уровне значимости а, если 1-й* (6.34) В предположении, что г/ при условии £ = х имеет нормальный закон с постоянной дисперсией для любого ж, можно показать**, что значения приближенных доверительных границ Rv *См.: Кендалл М.у Стюарт А. **См.: Айвазян С,А., Енюков И.О., Мешалкин Л.Д., 1985.
270 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА и Rv для показателя RVJ отвечающие доверительной вероятности 7 = 1 — а и выборке объема п, имеют вид (справедливый при условии р ^ 8): \ А (1-4)FO/J(r,,r2) »' (6.36) где Пример 6.10. Вернемся к примерам 6.8 и 6.9. В примере 6.8 найдем значения оценок множественного коэффициента корреляции Rv между показателем качества т) пряжи и совокупностью двух факторов: количеством £i профилактических наладок и числом & обрывов нити. Используя формулу (6.33), в которой вместо истинных значений показателей корреляции использованы значения их выборочных оценок (см. пример 6.3), получаем = 1 - (1 - 0Д052)(1 - 0,9062) = 0,823, откуда R = v/0^823 = 0,907. В примере 6.9 найдем значения оценок показателя Rv множественной корреляции между урожайностью rj кормовых трав и природными факторами: весенним количеством f x осадков и накопленной суммой £2 температур. Используя найденные в примере 6.4 оценки рох = 0,8 и Ро2(г) = 0,097, по той же формуле (6.33) находим (с заменой
6.6. Решение типовых примеров 271 истинных знамений показателей корреляции значениями их оценок) = 1 - (1 - 0,802)(1 - 0,0972) = 0,644, откуда R = y/UfiU = 0,802. Заметим, что формулами (6.35), (6.36) для вычисления границ доверительного интервала воспользоваться нельзя, так как не выполнено условие р ^ 8 (у нас р = 3). 6.6. Решение типовых примеров Пример 6.11. Двумерная случайная величина имеет нормальный закон распределения. Определим доверительный интервал для коэффициента корреляции р с коэффициентом доверия 7 = 0,99, если значение р, найденное по выборке объема п = 300, равно 0,14. Воспользуемся тем, что при больших объемах выборки оценка p(Xn,Yn) распределена почти по нормальному закону с параметрами р—/>(1 — />2)/2п и (1 — р2)2/п (см. 6.3). По таблице квантилей нормального распределения (см. табл. П.2) найдем квантиль W(i+*y)/2 = ^о,995 = 2,575. Имеем Отсюда Заменяя в левой и правой частях неравенств /> на /> и подставляя значение uOf995 = 2,575, для данной выборки получаем границы
272 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА доверительного интервала в виде 0,14(1 -0,142) 1-0Д42 £=0'14+ 600 2575~^Ш~ 0,14(1 -0,142) 1-0Д42 р ~ °'14+ его + 2'575^/Ш~- После вычислений окончательно получаем доверительный интервал (0,13, 0,16). Пример 6.12. Двумерная случайная величина имеет нормальный закон распределения. Построим доверительный интервал для коэффициента корреляции р с коэффициентом доверия 7 = 0,95, если значение p(XniYn), найденное по выборке объема п = 12, равно —0,65. Поскольку объем выборки мал, используем случайную величину 1 l + p(Xn,Yn) Z = — In zi zi—, 2 1-р(Хп,¥пУ которая имеет приближенно нормальный закон распределения с параметрами _1, 1+р , р _ 1 М~21ПГ^ + 2(^ГТ)' а~^- Используя таблицу квантилей нормального распределения (см. табл. П.2), находим квантиль ^(i+-y)/2 = t*o,975== 1,96. Имеем откуда lt_l + p(Xn,Yn) 1,96 ^,1, l + p 2"l-p(XnX) ^Х2и1-рт2(-1) 1, l + p(Xn,Yn) , 1,96
6.6. Решение типовых примеров 273 Учитывая условия задачи, получаем 1 0,35 1,96 1 1 + р р 1 0,35 1,96 1п<1п + <1П + ИЛИ lnfl,3Kln 7 1 — р Решая уравнения находим нижнюю р и верхнюю ~р границы доверительного интервала: />« —0,12, />« -0,88. Таким образом, доверительный интервал для р имеет вид (—0,988, —0,12). Заметим, что границы доверительного интервала можно определить с помощью (6.16). Пример 6.13. В условиях примера 6.11 проверим гипотезу #0: />= 0 на уровне значимости а = 0,01. Бели гипотеза До верна, статистика имеет распределение Стьюдента с п — 2 степенями свободы. Поскольку объем выборки большой, соответствующую квантиль можно найти по таблице квантилей нормального распределения (см. табл. П.2): t*i_a/2 = ^о,995 = 2,575. По данным задачи вычисляем выборочное значение статистики t: л 0,lV300-2 0,14\/298 гв = — — = « 2,44. у/\ -0,0196 0,9804
274 б, ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Поскольку 2,44 < 2,575, то гипотезу Hq: р = 0 принимаем на уровне значимости а = 0,01. Пример 6Л4. По выборке объема п = 28 из двумерной генеральной совокупности, распределенной по нормальному закону, найдено значение оценки р = 0,88 коэффициента корреляции. Проверим гипотезу Но : р ^ 0,90 при альтернативной гипотезе Нг: р < 0,90 на уровне значимости а = 0,01. Для проверки гипотезы #о воспользуемся статистикой (см. (6-15)), для которой имеем С помощью таблицы квантилей нормального распределения (см. табл. П.З) находим квантиль иОуог — 0,504, а затем — границу критической области для Z(Xn,Yn): и°>01 _Ii i + O'9 0>9 0,504 "2° 0,1 +2-27+ 5 = -In 19 + -^- + 0,1008» -In 19 + 0,118. Вычислим выборочное значение Поскольку выборочное значение попало в критическую область (ZB < |ln 19+ 0,118), гипотезу Яо отклоняем. Пример 6Л5. По выборке объема п = 19, заданной в виде таблицы (табл. 6.3), найдем значение оценки корреляционного
6.6. Решение типовых примеров 275 Таблица 6.8 X У X У 0 22,8 5 28,9 0 21,9 6 30,0 0 22,1 6 30,3 1 24,5 6 29,8 2 26,0 7 30,4 2 26,1 8 31,4 3 26,8 8 31,5 3 27,3 9 31,8 4 28,2 1 33,7 4 28,5 отношения и границы соответствующего доверительного интервала с коэффициентом доверия у = 0,8. Вычисляем выборочное среднее У = ^ (22,8 + 21,9 + 22,1 + 24,5 + + 26,0 + 26,1 + 26,8 + 27,3 + 28,2 + 28,5 + 28,9 + 30,0 + + 30,3 + 29,8 + 30,4 + 31,4 + 31,5 + 31,8 + 33,l) « 28,0 и выборочную дисперсию о1 = — (22,82 + 21,92 + 22,12 + 24,52 + 26,02 + 26,12 + 26,82 + + 27,32 + 28,22 + 28,52 + 28,92 + 30,02 + 30,32 + 29,82 + 30,42 + + 31,42 + 31,52 + 31,82 + 33,12) - 282 « 292,99 - 782,32 = 10,67. Чтобы вычислить значение «г?, составим статистический ряд (табл. 6.4). С помощью этого ряда находим а) = ^- (3(22,3 - 28,0)2 + (24,5 - 28,0)2 + 2(26,0 - 28,0)2 + + 2(27,0 - 28,0)2 + 2(28,4 - 28,0)2 + (28,9 - 28,0)2 + + 3(30,0 - 28,0)2 + (30,4 - 28,0)2 + 2(31,5 - 28,0)2 + + (31,8 - 28,0)2 + (33,1 - 28,0)2) и 8,18. Согласно формуле (6.20), Г" ! \/0,77 « 0,9.
276 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Таблица 64 Xi п, Уг 0 3 22,3 1 1 24,5 2 2 26,0 3 2 27,0 4 2 28,4 5 1 28,9 6 3 30,0 7 1 30,4 8 2 31,5 9 1 31,8 10 1 33,1 Чтобы определить границы доверительного интервала, предварительно найдем степени свободы Г1~ (11-1 + 19 0,77)2 (10+19-0,77)2 11-1 + 2190,77 + 10 + 380,77 W и Г2 = n — m = 19 — 11 = 8, а также квантили распределения Фишера Fi-од = *о,9 = 2,46, F0,i = Т7— « 0,41. Далее с помощью формул (см. (6.24), (6.25)) получаем /6^05 «0,2, / (19-и)-о,77 ю До; П"е ~ у 19(1 - 0,77) • 2,46 19 ~ V / (19-11)-0,77 10~ /10, ^ = V 19(1 - 0,77) • 0,41 ~ 19 = V ,90 -10 19 90-10 Итак, 0,2 < г^ < 1. Пример 6Л6* По выборке объема п = 24 (табл. 6.5) найдем значение оценки корреляционного отношения и проверим гипотезу #о: G^i — 0 на уровне значимости а — 0,05. Вычислим выборочное среднее у и выборочную дисперсию ah У=- 14,08, 128,92.
6.6. Решение типовых примеров 277 Таблица 6.5 X У X У 10 5 35 15 10 6 35 18 10 5 40 20 10 6 40 21 10 7 40 18 20 12 40 20 20 13 60 17 20 14 60 19 20 13 60 16 35 17 60 14 35 19 60 16 35 16 Таблица 6.6 Xi щ У, 10 5 5,8 20 4 13 35 5 16,2 40 5 19,4 60 5 16,4 Чтобы найти значение Щ, по результатам выборки составим статистический ряд (табл. 6.6). Далее по формуле получим Щ к, 4,66. Отсюда Для проверки гипотезы Яо: г^ = 0 используем статистику (6.26) которая приближенно имеет распределение Фишера со степенями свободы ri = m — 1 = 5 — 1 = 4 и Г2 = п — m = 24 — 5 = 19. По таблице квантилей распределения Фишера (см. табл. П.4) находим Fx_a = Fo,95 = 2,92. Поскольку значение статистики _ (24-5)-0,16 19- F = —-— — 4094 4 16 U'8 4-0,94 4-94 меньше квантили Fo,95 = 2,92, гипотезу Яо принимаем.
278 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА Пример 6.17. По результатам 12 наблюдений найдены значения оценок коэффициентов корреляции pOi = 0,64, рог = 0,46, Рх2 = —0,07. Найдем значения оценок частных коэффициентов корреляции Poi(2)> Po2(i) и границы доверительного интервала для них с коэффициентом доверия у = 0,9. Значения оценок для частных коэффициентов корреляции находим по формулам (6.29): д РО1-РО2Р12 = 0,64-0,46(^0,07) ^n7fi (2) Р02-Р01Р12 0,46-0,64(-0,07) _^сс "— = —« 0,ОО. -0,072) Для вычисления границ доверительного интервала используем формулы (6.17), (6.18), в которых объем выборки следует понизить на величину к порядка частного коэффициента корреляции (см. 6,5), т.е. в данном случае заменить п на п— 1. По таблице квантилей нормального распределения (см. табл. П.2) находим квантиль Щг+^у2 = wo,95 = 1,65 и решаем уравнения дающие границы доверительного интервала для показателя Poi(2)i и уравнения 1 + р р 1,66 1,65 lnT^ + I = ln± дающие границы доверительного интервала для показателя Po2(iy В результате получаем: (0,38, 0,91) — доверительный интервал для pOi(2)j (0,20, 0,87) — доверительный интервал для Пример 6.18. В условиях примера 6.17 найдем значение оценки коэффициента детерминации R2.
Вопросы и задачи 279 Искомое значение R2 вычисляем по формуле (6.33), используя полученное в примере 6.17 значение />02(1) ^0,66: = 1 - (1 - 0,642)(1 - 0,662)» 1 - 0,33 = 0,67- Вопросы и задачи 6.1. Что такое вектор входных переменных (факторов), вектор выходных переменных (откликов)? 6.2. Перечислите основные задачи статистического исследования зависимостей. 6.3. Что называют корреляционным полем, корреляционной таблицей? 6.4. Запишите преобразование, используемое при построении доверительного интервала для р. 6.5. Какую статистику используют для проверки гипотезы #0:/> = 0? 6.6. Какую статистику используют при построении доверительного интервала для корреляционного отношения? По какому закону она распределена? 6.7. Какую статистику используют для проверки гипотезы о равенстве нулю корреляционного отношения? 6.8. Что называют частным коэффициентом корреляции? Запишите формулу для частных коэффициентов корреляции. 6.9. Что называют множественным коэффициентом корреляции, коэффициентом детерминации? 6.10. Какими свойствами обладает множественный коэффициент корреляции?
280 6. ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА 6.11. Запишите формулу, по которой может быть вычислен множественный коэффициент корреляции в случае нормального закона распределения? 6.12. Покажите, что из (6.32) следует (6,33). 6.13. Двумерная случайная величина имеет нормальный закон распределения. Определите значения границ доверительного интервала для коэффициента корреляции р с коэффициентом доверия 7 = 0,95, если значение р, найденное по выборке объема п = 300, равно -0,2. Ответ: (-0,26, -0,14). 6.14. Двумерная случайная величина имеет нормальный закон распределения. Определите значения границ доверительного интервала для коэффициента корреляции р с коэффициентом доверия 7 = 0,9, если значение /р, найденное по выборке объема п = 28, равно р = —0,36. Ответ: (-0,70, -0,04). 6.15. В условиях предыдущей задачи проверьте гипотезу Яо: р = 0 при уровне значимости а = 0,05 и альтернативной гипотезе Н\\ р < 0. Ответ: гипотеза отклоняется. 6.16. По выборке объема п = 20 (табл. 6.7) найдите значение оценки корреляционного отношения. Таблица 6.7 X У X У 1,0 0,2 3,5 0,7 1,0 0,3 4,0 1Д 1,5 0,3 4,0 1,0 2,0 0,3 4,5 1,2 2,0 0,4 5,0 1,7 2,5 0,4 5,5 2,3 2,5 0,5 5,5 2,2 3,0 0,5 5,5 2,4 3,0 0,5 6,0 2,7 3,5 0,8 6,5 3,3 Ответ: г^ = 0,95. 6.17. По результатам 10 наблюдений, заданным таблицей (табл. 6.8), найдите: а) значения оценок коэффициентов корреляции pbi, /Зо2> Р\т\
Вопросы и задачи 281 б) значения оценок частных коэффициентов корреляции в) значения границ доверительного интервала для />oi(2) и Й02{1) с коэффициентом доверил 0,95; г) значения оценки коэффициента детерминации. Таблица 6.8 У 1 4 -4 4 -6 -5 0 2 4 5 -4 -1 -3 12 4 3 -2 0 -5 14 5 -1 6 1 2 0 2 -2 8 7 О т в е т: а) р12 = -0,98; )5bi = -0,73; й)2 = 0,69; б) a>i(2) = = -0,36; po2{i) = -0,15; в) -0,3 ± 0,57; -0,15 ± 0,64; г) 0,54.
7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА После обнаружения стохастических связей между изучаемыми переменными величинами (см. 6) исследователь приступает к математическому описанию интересующих его зависимостей. Для достижения этой цели ему необходимо решить следующие задачи: 1) подобрать класс функций, в котором целесообразно искать наилучшую (в определенном смысле) аппроксимацию искомой зависимости; 2) найти оценки для неизвестных значений параметров, входящих в уравнение искомой зависимости; 3) установить адекватность полученного уравнения искомой зависимости; 4) выявить наиболее информативные входные переменные (факторы). Совокупность перечисленных задач и составляет предмет исследований регрессионного анализа. 7.1. Исходные предположения Во многих прикладных задачах требуется построить мате- матическую модель, связывающую входные переменные (факторы) Х\, ..., Хр и выходное переменное (отклик) Y. В дальнейших рассуждениях будем предполагать, что Y является случайной величиной при каждом фиксированном наборе x = (a;i, ..., хр) значений переменных X = (Ai, ..., Хр). В этом случае искомая математическая модель может быть представлена в следующем виде: (g), (7.1)
7.1. Исходные предположения 283 где f(x) — скалярная функция, е(х) — случайная ошибка, т.е. случайная составляющая, порожденная либо действием случайных факторов, не включенных в набор Х\, ..., Хр, либо случайными ошибками измерений величины /(я), либо и тем и другим одновременно. Будем считать, что для каждого х математическое ожидание е(х) равно нулю, т.е. отсутствует систематическая погрешность модели. Следовательно для условного математического ожидания у(х) = М(У | X = а?) выходного переменного У при условии, что вектор входных переменных X принял значение а?, согласно (7.1), имеем у(х) = /(а?). Функцию /(ж), описывающую зависимость условного среднего значения у(х) выходного переменного У от заданных фиксированных значений входных переменных Х\, ..., Хр, называют функцией регрессии (или регрессией). Функция регрессии полностью определена, если известен условный закон распределения выходного переменного У при условии, что X = х. Поскольку в реальных ситуациях никогда не располагают такой информацией, то обычно ограничиваются поиском подходящей аппроксимации /а(я) для /(£), основываясь на статистических данных вида (а?1, j/j), i= l,n, где хх = (:Cj, ..., хгЛ. Эти данные есть результат п независимых наблюдений yi, ..., уп случайной величины У при значениях входных переменных х1 = [х\у ..., х^)у х2 = [х\^ ..., ж^), ..., хп = (а?у, ..., Жр), т.е. результат специально организованного эксперимента. Говоря о подходящей аппроксимации функции f(x) — модели регрессии, нужно, во-первых, задать класс допустимых моделей регрессии Т, т.е. класс функций, среди которых будем искать наилучшую аппроксимирующую функцию /а(ж), и, во-вторых, выбрать критерий, по которому будем получать наилучшую аппроксимирующую функцию /а(я) из заданного класса Т.
284 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Чтобы задать критерий, используют функцию р(€/{Х)), где €/{Х) = f(X) — fa(X) — случайная величина, а р(и) — некоторая неотрицательная функция аргумента и, как правило, неубывающая и выпуклая, например р = и2 или р— \и\. Функцию fa (х) считают наилучшей аппроксимирующей функцией из заданного класса Т, если она обеспечивает минимальное значение функционала или Д»(Д) = £ 1=1 где усреднение проводится по всем возможным значениям случайного вектора X в первом равенстве и по всем имеющимся наблюдениям — во втором. В случае функции р{и) = и2 получаемую регрессию называют средней квадратичной, а метод, реализующий минимизацию функционала Ап(/а), принято называть методом наименьших квадратов (МНК). Далее будем рассматривать только этот тип регрессии. Поэтому, говоря о регрессии, будем опускать слова „средняя квадратичная". В дальнейшем будем предполагать, что класс Т допустимых моделей регрессии можно задать некоторым параметрическим семейством функций, т.е. представить в виде «Т7/? = {/а(я;/?)}, /3 £ Rm. Тогда задача отыскания наилучшей аппроксимации для /(а?) сводится к определению таких значений параметров /3, при которых Ап(/о) достигает минимума. Следует отметить, что проблема выбора параметрического семейства функций Т$, являясь ключевой в регрессионном анализе, не имеет, к сожалению, формализованных процедур для своего решения. Иногда выбор определяют на основе экспериментальных данных [хгу 2/i), i= l,n (см. пример 7.1), чаще — из теоретических соображений. Например, если известно, что скорость протекания химической реакции между некоторыми компонентами пропорцио-
7Л. Исходные предположения 285 нальна объему исходного вещества, то объем вещества V{t) в момент t изменяется по экспоненциальному закону V(t) = 0o<rMt-to), t> «о, где 0о, #1 — неизвестные параметры модели, которые нужно оценить наилучшим образом по результатам наблюдений, а to — начальный момент времени. К сожалению, такие случаи редки. Более реальной является ситуация, когда о механизме явления ничего не известно и можно лишь предполагать, что искомая функция f(x) является достаточно гладкой. Тогда аппроксимирующая ее функция /а(х) может быть представлена в виде линейной комбинации некоторого набора линейно независимых базисных функций {Фк(х)}, к = 0,т-1, т.е. в виде m-l где (3 = (/?о /?i ••• /?m-i) — вектор неизвестных параметров; ф={фо фг -.- Фт-i) —вектор базисных функций (известных заранее); т — число неизвестных параметров /?*, в общем случае неизвестная величина, уточняемая в ходе построения модели. Следует заметить, что, согласно (7.2), функция fa(x) = = /а(^;Д) является линейной по параметрам, представленным вектором /3. Поэтому в рассматриваемом случае говорят о модели, линейной по параметрам. Другими словами, исходный класс функций Т, содержащий истинную функцию регрессии /(я), заменяют некоторым классом Тр = {fa(z;J3)}, /?€ Кт, более простых по структуре функций, представимых в виде (7.2), и задача сводится к наилучшей оценке вектора неизвестных параметров Д =
286 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА При такой постановке задачи общая погрешность от аппроксимации результатов наблюдений К = /(*')+£*, г = 1,п, полученных в эксперименте, значениями функции /а(я) G Тр обусловлена рассеянием отклика У относительно истинной регрессии /(£), т.е. величиной 1=1 и систематической погрешностью аппроксимации, связанной с заменой исходного класса функций Т более узким Тр € Т: \ t=l Следовательно, приближение f(x) « fa(x]P) (см. 7.2) нужно понимать в том смысле, что систематической погрешностью Да при замене класса Т на Тр можно пренебречь по сравнению со случайной погрешностью Дс. Именно на сопоставлении этих двух типов погрешностей и основаны правила проверки адекватности модели /а(ж;Д) = /а(£)> где вектор параметров /3 заменен значением вектора оценок /?. Одним из наиболее распространенных аппроксимирующих классов функций Т$ является класс полиномов, в котором в качестве базисных функций выбраны степени переменных
7.1, Исходные предположения 287 Простейшей полиномиальной моделью является модель 1-го порядка, линейная по всем переменным: 7П-1 где #о = 1 — фиктивное переменное, т.е. здесь Фо{х) = 1» Следует подчеркнуть, что представление (7.2) является самым общим видом линейной по параметрам модели и описывает не только полиномиальные модели. Например, в качестве базисных функций фк{х) могут выступать тригонометрические функции sin Ах, cos for, показательные екх и др. Если неизвестная функция регрессии f(x) представлена в виде (7.2), то задача ее поиска сведена тем самым к оценке вектора неизвестных параметров /? = (Д>, -•-> An~i) и последующей проверке качества аппроксимации f(x) & /а(#)> т.е. адекватности модели /<*(#)• Если модель (7.2) окажется неадекватной, то вид аппроксимирующей функции /а(#) нужно уточнять либо увеличением числа т базисных функций, либо заменой самих базисных функций другими, более подходящими. Пример 7Л. Анализируется поведение двумерной случайной величины (X, У), где X — возраст (в годах) наугад выбранного школьника из группы в п = 40 человек, а У — мае- саего тела (в кг). На рис, 7Л исходные статистические данные ixu Уг)> * — 1> п> отмечены крестиками. Поскольку имелась возможность контролировать значения входной переменной X, то это позволило разбить обследованную группу школьников на четыре равные по объему подгруппы с примерно одинаковым возрастом. На рис. 7.1 видно, что в пределах каждой подгруппы рост подвержен неконтролируемому разбросу, т.е. налицо отмеченный выше стохастический характер связи между X и У. Однако расположение точек (#»» У г) на плоскости хОу обнаруживает
288 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Y 80 70 60 50 - - - i 8 X X X X , 10 Рис. X X X X X 1 12 7.1 XXX X X , 14 X X X X 16 X вполне определенную тенденцию, характеризующую увеличение „в среднем" массы тела У при увеличении возраста в рассматриваемый период интенсивного роста (от 12 до 16 лет). Целью проведенного исследования является прогноз роста конкретного школьника по заданному значению его возраста и определение среднего роста у(х) школьников, достигших возраста ж. Для достижения этой цели необходимо математически описать закономерность изменения условных средних значений у(х) = М(У \Х = х) в зависимости от значения х случайного переменного Л\ а также изучить характер случайного разброса массы тела У отдельных школьников возраста х относительно своего среднего значения у(х). Таким образом, возникла необходимость рассмотрения математической модели (7.1), где е(х) — случайное отклонение массы тела У школьников возраста х от среднего значения у(х) = М(У\Х = х). Если М(е\Х = х) = 0 при любых ж, то у(х) = /(ж), и построение искомой зависимости сводится к отысканию функции /(я), описывающей изменение условного среднего значения выходного переменного У при различных значениях X = х входного переменного X. Остается определить, в каком классе Т функций мы будем искать аппроксимацию для /(ж). Для нашего примера по
7.1. Исходные предположения 289 расположению точек (я?,-, 2/,), * = 1, щ можно заключить, что fix) = где /Зо и /?i — неизвестные параметры модели, т.е. Тр = = {/(^Аь/^)} есть класс полиномов первого порядка, к которому принадлежит функция регрессии f(x). Значения оценок Д), /?i параметров /Зо, /?i можно найти с помощью метода наименьших квадратов (см. 7.2) Матричная форма записи линейной регрессионной модели. Результаты эксперимента для исследования связи между откликом У и вектором факторов X = (Хи ..., Хр) удобно представлять в виде матрицы D исходных данных: где хг = (a:j, ..., хгр}, i = 1, п, — различные значения вектора факторов X, для которых проводился эксперимент; гг — число независимых повторных (параллельных) опытов для хг\ N — общее число наблюдений за откликом У; yl = (уц, ..., y;rJ, г = 1, га, — значения отклика У, полученные в эксперименте для значения хг вектора факторов. Заметим, что матрицу р /if1 a?2 ... *•" ... х»\ \гг г2 ... г, ... гп)у образованную двумя первыми строками матрицы D, называют часто планом эксперимента, совокупность возможных значений вектора факторов X называют факторным пространством и обозначают Xv. Если г,- = 1, г = 1, га, то результаты эксперимента представляют собой га точек (х\ у,), г = 1,га, в пространстве Rp+1.
290 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Геометрическая интерпретация матрицы D представлена на рис. 7.2 для р = 2, п = 4, г; = 3, i = 1,4 (крестиками отмечены соответствующие значения отклика У). Для удобства дальнейших рассуждений в соответствии с равенством (7Л) будем считать, что значению хг = (ж\, ..., хгр) вектора факторов Хг = (Х\, ..., Хр) соответствует отклик Y{ и случайная ошибка а = е(хг), т.е. *;■ = /(*■■)+*■ (7.з) При этом в случае модели, линейной по параметрам, согласно (7.2), имеем 7П-1 (7.4) Если на основе системы равенств (7.4), которая содержит в себе всю информацию, полученную в эксперименте, мы сумеем оценить неизвестные параметры /?& (некоторым наилучшим образом), т.е. сумеем найти значения /3k~{lk> то тем самым будет найдена наилучшая (для выбранных базисных функций) модель следующего вида: m-l (7.5) fc=o
7.1. Исходные предположения 291 Эта модель будет наилучшей в классе Тр для выбранного набора базисных функций фг(х), »= 1,т—1. При этом общую погрешность А можно уменьшить лишь за счет уменьшения погрешности аппроксимации Аа, связанной с выбором класса аппроксимирующих функций Тр (если удачно подобрать как сами функции фк{х)у так и их количество т). Таким образом, модель (7.5) требует в общем случае проверки на адекватность (на соответствие результатам эксперимента) и при необходимости уточнения (это рассмотрено ниже, (см. 7.3). Введем в рассмотрение следующие матрицы: - матрицу отклика Y — (У1} ..., Уп) типа n x 1, если повторных опытов не было (т.е. г,- = 1, г = 1,п), или матрицу выборочных средних значений отклика Y типа n х 1 в противном случае, г-й элемент которой есть - матрицу F базисных функций (матрицу наблюдений) типа пхт F = - матрицу (вектор-столбец) ошибок е= (ei, ..., еп) типа и х 1 и вектор-столбец /3 = (/?о, •--, /3m-i) параметров модели. Тогда систему равенств (7.3) можно представить в матричном виде: 0 (7.6)
292 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Уравнение (7.6) называют линейной регрессионной моделью. Подчеркнем, что линейность в этой модели понимается как линейность по параметрам 0о, 0i> --•, An-i> называемым также коэффициентами регрессии. По переменным Х\, ..., Хр модель (7.6) может быть (и, как правило, так и бывает) нелинейной. Возможные ситуации рассмотрены в примере 7.2. Замечание 7.1. При наличии повторных опытов в равенстве (7.6) вместо матрицы У будет стоять матрица У. # Рассмотрим возможные конкретные случаи реализации соотношения (7.2), которые приводят к общей модели (7.6). Пример 7.2. а. Пусть имеется лишь один фактор X (т.е. р= 1), а множество точек (а^> де)>г = 1, и, расположено на плоскости хОу вдоль некоторой прямой (рис. 7.3, а). В этом случае в качестве функции /а(я), аппроксимирующей функцию регрессии f(x) = М(У \х)у естественно взять линейную функцию /30+/3,х *1 *2 *3 а /а(х)=/30+/31х+/32х2 х2 х3 t2 Xg ... в Рис, 7.3
7.1. Исходные предположения 293 аргумента х: fa(x) = Po + /hx, т.е. в качестве базисных функций здесь выбраны фо(х) = 1 и фг(х) = х. Такую регрессию называют простой линейной регрессией. Если множество точек (я,-, у;), г = 1,п, расположено вдоль некоторой кривой (рис, 7.3, б), то в качестве /а(з) естественно попробовать выбрать семейство парабол: т.е. в качестве базисных функций здесь выступают функции фо(х) Е1и фг(х) = х, ф2(х) = я2. Наконец, в случае расположения точек (#,, у,), г = 1, п, показанного на рис. 7.3, в, можно попробовать подобрать функцию /«(#) из семейства экспонент: Ja\x) — Рое В последнем случае функция /а(я) является нелинейной по параметрам /Зо и /^ и не приводит к линейной регрессионной модели (7.5). Однако после некоторого функционального преобразования нелинейную по параметрам функцию /а(я) часто можно привести к функции /а(г), линейной по параметрам. В данном случае после логарифмирования получаем т.е. функция /а(#) =1п/а(ж) уже линейна по параметрам 0о = = 1п/3о и вг = -/?ь б. Пусть имеется два фактора Х\ и Л2 (т.е. р = 2), а множество точек (#% к), i= l,n, где хг = (sj, ж^)» расположены вдоль некоторой плоскости в пространстве трех переменных у, х\ и #2- Тогда набор наилучшей аппроксимации /а(з) можно начинать с линейной по переменным A'i и Х2 функции
294 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА т.е. выбрать в качестве базисных функций фо(х) = 1, фг(х) — х\ и ф2{х) = х2. Если точки (ж;, у,), г = 1, п, расположены в пространстве переменных у, х\у х2 так, что есть основание предполагать наличие у функции f(x) точки экстремума, то естественно искать fa(x) среди полиномов второго порядка, т.е. принять fa И = А) + А*1 + /?2*2 + 03*1*2 + №\ + /?5*2- В этом случае базисными функциями будут фо(х) = 1, = *2 в. В качестве базисных функций могут быть выбраны не только степени переменных х\, ..., жр, но, вообще говоря, любые линейно независимые функции, не содержащие неизвестных параметров. Например, при фо(х) = 1, фг(х) = еХ1+Х2, ф2(х) — smxx получаем линейную по параметрам модель регрессии fa{x) = 7.2. Метод наименьших квадратов Матрицы F и Y в линейной регрессионной модели (7.6) содержат всю информацию, получаемую в результате эксперимента. По этим данным нам нужно оценить вектор неизвест- ных параметров /3 = (/?<>, /?i, •.., An-i) • Для получения оценок, как отмечалось выше, будем использовать метод наименьших квадратов. Предварительно сформулируем предположения, лежащие в его основе. 1. Me,- = 0, г = 1, п, т.е. систематическая погрешность модели отсутствует. 2. M(ea-£j) =0, %Фз, т.е. случайные ошибки некоррелирова- ны (это ограничение можно снять, если матрица ковариаций D(e) вектор-столбца ошибок известна*). *См.: Ивченко Г.И., Медведев Ю.И.
7.2. Метод наименьших квадратов 295 3. Л Si = Mef = <г2, г = 1,п, т.е. в любых точках факторного пространства Хр случайные ошибки имеют одинаковую дисперсию. 4. Значения Xi переменных Xiy г= 1,р, в процессе эксперимента измеряются без ошибок. Отметим, что предположения 2 и 3 можно объединить и представить в следующем виде: где /п — единичная матрица порядка п. Четвертое предположение означает, что, согласно соотношениям (7.3), верны равенства т-1 /ь=о которые в матричной записи имеют вид Подчеркнем, что никаких предположений о законе распределения случайных величин К, г = 1, п, мы пока не делаем. Теорема 7.1 • Пусть М = FTF — невырожденная матрица. Несмещенной эффективной оценкой в классе всех линейных оценок для параметра /? = (/?о /?1 ••• /?m-i) в линейной регрессионной модели (7.6) является оценка метода наименьших квадратов (МНК-оценка), определяемая матричным равенством ^ $ = (FTF)-lFTY. # (7.7) Поясним идею метода наименьших квадратов и происхождение формулы (7.7). Докажем несмещенность и эффективность оценки P(Yn) в классе линейных оценок.
296 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Пусть отклик Y зависит лишь от одного фактора X (р= 1), а искомая функция регрессии М (Y \ х) = f(x) имеет график, изображенный пунктирной линией на рис. 7.4. Функция f(x) нам не известна, известны лишь значения отклика у\, ..., уп, полученные в эксперименте при значениях факторов Х\, ..., хп (на рис. 7.4 точки (я?,-, у,-), % = 1, п, отмечены „крестиками"). У- о уА А 1 : Уг< 1 Г1 ■ 1-^г\^ Г; г2 х3 ... х. | Л*) Уп<\ Рис. 7.4 Неизвестную функцию f(x) на основании характера расположения экспериментальных точек (они визуально расположены вдоль прямой) естественно аппроксимировать линейной функцией /а (х; Д) = /Зо + /?iж. Отклонения 6{ = у,- - (/Зо + /3i^i), г = 1,п, ординат экспериментальных точек (а;,-, у,-) от любой прямой fa(x]/3) = Ро + Piz называют невлзка^п. В общем случае для линейной регрессионной модели (7.6) тп-1 и невязку ^ можно рассматривать как реализацию случайной ошибки б{ = е(х{), г = 1,п. Согласно методу наименьших квадратов, оценку Д(КП) = = 0о(Уп) ••• Дт-1(К|)) вектора параметров Д=(/?о ... An-i)T выбирают так, чтобы сумма квадратов невязок 6г была мини-
7.2, Метод наименьших квадратов 297 мальной, т.е. тп-1 У ^ (}кФк(х*) ) —* ПИП, а=1 t=l Ч или, что то же самое, Д(/3) = 8*6 = (Y - F/3)T(y - F0) = Д(/3) -^ min, где S— (<Ji, ..., in) — вектор невязок. Необходимым условием экстремума функции Д(/3) переменных /?о, /?ь ---, y3m_i (а, следовательно, и условием существования МНК-оценки параметра /?), как известно, является равенство нулю ее частных производных [V], т.е. П 7П—1 Эту систему можно представить, используя матричную запись -2FT(y-F/3) = O, или FTF0=FTY. (7.8) Из геометрических соображений очевидно, что решением системы (7.8) является точка минимума функции Д(/3), в чем можно убедиться непосредственно, воспользовавшись достаточным условием экстремума [V]. Систему линейных алгебраических уравнений (7.8) называют системой нормальных уравнений Гаусса. Она всегда имеет решение (хотя не всегда единственное). Пусть матрица FTF имеет обратную матрицу (F^F)"1 (для этого необходимо и достаточно, чтобы rangF был равен числу столбцов матрицы F). Тогда, умножая обе части равенства (7.8) слева на матрицу (F F)""1, приходим к формуле (7.7), которая дает единственное решение системы (7.8). Если матрица F F не имеет обратной (случай, когда ранг матрицы F меньше числа т ее столбцов), то МНК-оценка параметра /3 существует, но не является единственной*. 'См.: Рао СР.
298 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Несмещенность оценки 0(Yn)> заданной равенством (7.7), и эффективность в классе всех линейных несмещенных оценок непосредственно следуют из исходных предположений для метода наименьших квадратов. Действительно, М 0(Yn) = M((FTF)-iFTy) = = (FTF)-lFTMY = (FTF)-1FFT^^y т.е. fl(Yn) — несмещенная оценка для /?. Докажем ее эффективность. Пусть LY — произвольная линейная несмещенная оценка для /?. Тогда из равенства М (LY) = LMY = LF0= 0 получаем LF = /п и B(LY) = M(LY - LMY)2 = ML(Y-MY)2LT = = LDYL* = Lc2lnl7 = c2Ll7. Наша задача минимизировать диагональные элементы матрицы LL*\ которые с точностью до множителя а2 являются дисперсиями оценок параметров Pk> к = 0, т—1. Для этого рассмотрим равенство LL* = (M-lFT)(M-lFTf + (L - M~lFT)(L - NT^f, в справедливости которого можно убедиться непосредственно, перемножив матрицы в правой его части с учетом равенств LF = /п и М = FTF. Поскольку диагональные элементы матрицы вида ААТ являются неотрицательными, то можно утверждать, что диагональные элементы матрицы LLT будут минимальными, если L = M~lFTy т.е. оценка fi(Yn) является эффективной в классе всех линейных оценок.
7.2. Метод наименьших квадратов 299 Итак, по теореме 7.1 МНК-оценки являются наилучшими в указанном выше смысле в классе линейных оценок. Тем самым равенство (7.5) определяет наилучшую модель регрессии для выбранных базисных функций и значений /?&, к = О, ш-1, найденных по методу наименьших квадратов, которую будем записывать (обозначив fa(x) = у(х)) в виде Случайную величину тп-1 к=0 будем называть оценкой среднего значения отклика У. Согласно (7.9), можно определить оценки Y{ = Y(x*) среднего значения отклика (условного математического ожидания отклика) в каждой точке хг факторного пространства: 7П-1 k=0 При этом, если ввести матрицу Y = (Yi, ..., YnJ оценок среднего значения отклика, то Y = F$(Yn). (7.10) Замечание 7.2. В ряде случаев интерес представляют не сами параметры /?о, /?ь ••-> Рт-i в линейной регрессионной модели (7.6), а их некоторые линейные комбинации, т.е. новый вектор параметров а = (<*о, <*i, ..., a9_i), q ^ m, связанный с вектором /3 = (/Зо, -•-, /?m-i) соотношением 3 = Afty где Л — некоторая матрица типа q х т.
300 Г. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Для вектора а МНК-оценка a(Yn) определяется равенством £ 0 (7Л1) где 0(Yn) — МНК-оценка для Д. # Укажем теперь правило определения ковариационной матрицы Е(Д) МНК-оценки Д(УП) вектора параметров /3. Это правило будет вытекать как частный случай из следующей теоремы. Теорема 7.2* Пусть /3 — го-мерный вектор-столбец линейной регрессионной модели (7.6), А — произвольная матрица типа <jf x го, где 1 ^ q ^ го, а матрица F*F является обратимой (т.е. det(FTF) ф 0). Тогда для вектора а = А0 МНК-оценка a(Yn)y определяемая равенством (7.11), является несмещенной оценкой с матрицей ковариаций £(£) = a2A(FTFrl Лт, (7.12) где а1 — дисперсия отклика. < Согласно (7.7) и (7.6), имеем e. Отсюда для оценки a(Yn) = Af3(Yn) параметра а = Л/3 имеем представление = а + A(FTF)-lFTe, (7.13) из которого вытекает несмещенность оценки d(Yn)j так как, согласно исходным предположениям метода наименьших квад-
7.2. Метод наименьших квадратов 301 ратов, Ме*= 0 и, следовательно, y1FT Me = а. Далее, матрица ковариаций вектора МНК-оценок a(Yn) в силу несмещенности оценки с? имеет вид Используя представление (7.13), преобразуем выражение для Е(а) следующим образом: = A(FTF)-1FTM(eeT)F(FTF)-1AT. (При переходе к правой части мы воспользовались правилом транспонирования произведения матриц (АВ)Т = ВтА* [III] и симметричностью матрицы (FTF)""1.) Если теперь учесть, что, согласно исходным предположениям метода наименьших квадратов, М(ё*тё) = /п^2, то = A(FrF)^1FTIna2F(FtF)'1Ar = что и доказывает представление (7.12), ► Следствие 7.1- Если А = /mi т.е. a = Aft = /3, то Л, (7.14) где С= (FTF)-1 — дисперсионно,* жатрица Фишера. Следствие 7.2* Дисперсия оценки У (ж) среднего значения отклика в произвольной точке х факторного пространства Xv
302 7, ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА определяется по формуле В?(х) = а2фГ(х)Сф{х), (7.15) где фг(х) = (фо(х), ..., фт-г(х)). М Действительно, согласно (7.9) и (7.14), имеем = М(фТ(х)0(Уп) - Формулы (7.14) и (7.15) содержат неизвестный параметр а2 — дисперсию отклика У. Поэтому требуется правило определения оценки параметра а2. Такое правило устанавливает следующая теорема. Однако прежде чем формулировать теорему, отметим, что случайную величину {Y-F0(Yn)), (7.16) где e = Y — F(3(Yn) — случайный вектор, a /3(УП) — МНК-оцен- ка вектора параметров /3 линейной регрессионной модели (7.6), называют остаточной суммой квадратов. Теорема 7.3. Если выполнены исходные предположения метода наименьших квадратов и ранг матрицы базисных функций F типа п х т равен т, то несмещенная оценка для остаточной дисперсии о2 определяется по формуле где P(Yn) — МНК-оценка вектора параметров /3 линейной регрессионной модели (7.6).
7.2. Метод наименьших квадратов 303 4 Из равенства (7.6) и предположений о случайной составляющей модели следует: М((У - F0f(Y - F0)) = 0 t=l Рассмотрим равенства (Y-F0f(Y-F0) = = (У - ^Д(КП))Т(У - F|(yn)) + (F0(Yn) -P)fF0(Yn) - Д) + + (У - F0(Yn)fF0(Yn) - 0) + (F(|(yn) - Д))т(У - | Поскольку /3(Уп) — МНК-оценка вектора параметров /3, то, согласно (7.7), /?(Уп) = (FTF)~lFrY, и, как следствие, имеем (F0(Yn)-P)f(Y-F0(Yn)) = TF(FTF)"1FT = (Р(Уп) - PfiF^Y - FTF(FTF)"1FTy) = 0 и, кроме того, Таким образом, (У - F/3)T(y - F0) - (F(0(Yn) - P)fF0(Yn) - Д) = = (Y-F0{Yn))t{Y-F0{?n)). (7.19)
304 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Воспользовавшись свойствами следа матриц и следствием 7Л, получим = M(tr((FTF)(|(Fn) - 0)0(Уп) - Pf)) = = tr((FTF)М((|(УП) - 0)(0(Yn) - 0 = tr((FTF)E(|(yn))) =tr((FTF)(FTF)-1a2) = = <r2tr/TO = mo3. Таким образом, согласно (7.17)-(7.19), имеем n<r2 - то2 = М (У - F0(Ynf(Y - F0(Yn))), откуда <т2 = -i_M((y-F|(yn))T(y- F0<Yn)). Следовательно, 52=^(у M M является несмещенной оценкой для а2. ► Замечание 7»3. а* Оценка S2 остаточной дисперсии а2 представляет собой отношение остаточной суммы квадратов ? ел отнесенное к числу степеней свободы п — т, где п — количество наблюдений Yn = (Yi, ..м Уп), представленных матрицей отклика Y, a m — число оцениваемых параметров, представленных вектором /3. Таким образом, 52 — доля остаточной суммы квадратов линейной регрессионной модели (7.6), приходящаяся
7.2. Метод наименьших квадратов 305 на одну „степень свободы". Фактически число степеней свободы равно объему случайной выборки за вычетом числа независимых линейных связей, наложенных на выборочные значения. б. Формула (7.17) верна лишь в том случае, если есть основания считать, что выбранная линейная регрессионная модель (7.6) является верной, т.е. МУ= F/3. В противном случае в остаточную сумму квадратов кроме случайных ошибок входят и систематические, а потому она может давать завышенную оценку для а2. в. Полезно обратить внимание на сходство результата (7.17) с несмещенной оценкой S2(Yn) дисперсии случайной величины У по наблюдениям Yn, которая имеет вид ~ t=l Здесь также сумма квадратов отклонений Yi от У делится на число степеней свободы п— 1, так как неизвестный параметр МУ = /л заменен его оценкой У, т.е. на экспериментальные данные наложена одна линейная связь. # При решении реальных задач, связанных с практическим использованием регрессионных моделей, необходимо проверять выполнение исходных предположений для метода наименьших квадратов, т.е. проводить статистический анализ регрессионной модели (см. 7.3). Проиллюстрируем процедуру построения регрессионной модели на частных примерах, имеющих и самостоятельный интерес. Пример 7.3. Рассмотрим случай простой линейной регрес- сищ когда отклик У зависит от одного фактора X (т.е. р — 1) и в качестве приближения искомой функции регрессии выбрана функция
306 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Эту функцию получают из общей модели (7.2) при *фо(х) = 1? ф\{х) = ж, т.е. размерность вектора X равна р= 1, а число параметров т = 2. Роль фактора X могут играть время (иногда часто вместо ж пишут £), температура, доза лечебного препарата и т.д. Задача состоит в изучении связи между откликом У и фактором X на основании выборки (ж*, у,-), г= 1,п, полученной в результате эксперимента (вместо хг далее будем писать ж;, так как х — скаляр). Для конкретности будем считать, что X — это скорость движения автомобиля (в км/ч), а У — тормозной путь (в м) по скользкой дороге до полной его остановки, и по результатам п = 17 замеров X и У получены данные, представленные в табл. 7.1. Таблица 7Л Xi Vi Х{ Vi 28 0,53 58 6,43 29 0,92 64 7,60 32 1,52 65 7,91 35 2,07 73 9,48 40 2,17 75 10,1 44 3,65 80 8,95 45 3,97 83 11,48 51 5,27 93 13,74 53 5,54 Найдем значения оценок параметров /?о и /?i, дисперсии отклика и дисперсии среднего значения отклика, а также дадим прогноз для длины тормозного пути при скорости хо = = 120 км/ч. В рассматриваемом примере матрицы У и F имеют вид Y = У1 <Уп, F = \1 *п) Следовательно, t=l n Vi=i
7.2. Метод наименьших квадратов 307 Далее случайные векторы и их реализации будем обозначать одинаково: из текста всегда ясно, о чем идет речь. Поскольку Xi — различные числа, то матрица М = F*F обратима, причем 1=1 1=1 . 1=1 С помощью присоединенной матрицы находим п п > Е*,? -£«« 1=1 i=l detM » Используя обратную матрицу M~l = (FTF)-1, по формуле (7.7) получаем откуда п п E =1 =1 *=1 \=1 У Из последних двух равенств с помощью простых преобразований получаем Г п 1=1 п (7.20) t=i
308 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Из равенств (7.20) видно, что оценки Po(Yn) и /?i(Yn) связаны линейной зависимостью. Поскольку Qxyjn = Кху является значением оценки ковари- ации Qxy{XnjYn)/n = Kxy(XnjYn) фактора и отклика, a Qx/n = = Э% — значением оценки дисперсии фактора, то для значения Pi оценки параметра @\ справедливо и такое представление: где р — значение оценки коэффициента корреляции р между фактором и откликом. Таким образом, найдена модель простой регрессии где Ро и Р\ определены по формулам (7.20). Для данных из табл. 7.1 имеем п = 17. Далее находим Qx « 6557, Qy w 250,8, Qxy « 1271,5. По формулам (7.20) вычисляем значения оценок /?о и fa: Pi = 1271,5/6557 « 0,194, Д> = 5,95 - 0,194 • 55,76 и -4,87. Следовательно, прогнозируемое значение у при я = xq = 120 равно £(120) = -4,87 + 0,194-120= 18,4. Найдем точность оценок /?o(Ki)j Pi{Yn) и К(ж). Используя формулу (7.14), получаем t=l detM . . где t=i
7.2. Метод наименьших квадратов 309 Таким образом, j=l С* ,--1 v С/ t=l 1 ^(J?n,yn) = соу(Л(?п), A(fn)) = -— 1=1 По формуле (7.15) находим DY(х): BY(x) = -r^. (1«)| П «=1 t=l В точке прогноза ж = жо = 120 и Наконец, по формуле (7.17) находим значение 52 оценки дисперсии отклика: ^2^ 1=1 и заменяем а2 на 52 во всех предыдущих равенствах, где присутствует а2. Считая оценку Y(x) нормально распределенной с матема- тическим ожиданием МУ(ж) = /(ж) и дисперсией БУ(ж), вычисленной по формуле (7.21), можно по правилу „За" указать
310 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА интервал возможных значений для Y в точке х = хо = 120, учитывая, что а « Sy = 0,53: {уЫ - 35У, £(х0) + 35У) = (18,4 - 1,6; 18,4 + 1,6). Доверительный интервал для заданной доверительной вероятности 7 будет построен в 7.3. Пример 7Л (квадратичная регрессия). Исследуется эффективность системы охлаждения двигателя, работающего непрерывно в течение времени to —60 мин. Измерение температуры Т (в °С) работающего двигателя проведено с интервалом 5мин в течение 25 мин. Результаты сведены в таблицу (табл. 7.2). На рис. 7.5 дано графическое представление этих данных. Считая, что зависимость между переменными t (фактор) и Т (отклик) является квадратичной, т.е. T = a + bt + ct2, найдем по методу наименьших квадратов значения оценок параметров о, Ь и с. t т 5 59,3 10 59,8 Таблица 7.2 15 60,1 20 64,9 25 70,2 80 70 60 50 10 15 20 25 t Рис. 7.5 Для удобства вычислений предварительно сделаем линейные преобразования переменных t и Т по формулам х = у=10(Т-60) и вычислим вначале значения МНК-оценки параметров линейной (по параметрам) модели
7.3. Статистический анализ регрессионной модели 311 В данном случае базисные функции такие: фо{х) = 1, Фг{х) = ж, ф2(х) = х2. Будем искать МНК-оценки не по формуле (7.7), а непосредственно решая систему уравнений (7.8), которая в данном случае имеет вид Г5Д>+1002 = 143, I 10ft = 269, 110/3о +34/32 = 427. Решение системы таково: /Зо = 8,4, ft = 26,9, /32 = 10,1. Таким образом, у = 8,4 + 26,9ж + 10,1ж2 и, переходя к исходным переменным t и Т, окончательно получаем fa{t) = 61,86 - 0,67* + 0,04t2. 7.3. Статистический анализ регрессионной модели Статистический анализ модели регрессии (7.9), построенной на основе параметризации искомой функции регрессии f(x) в виде (7.2) и на основе МНК~оценок параметров, состоит из следующих трех этапов: - проверка адекватности модели регрессии; - проверка значимости модели регрессии и ее параметров; - анализ точности результатов, полученных с использованием регрессионной модели. Для проведения статистического анализа требуется дополнить исходные предположения метода наименьших квадратов еще одним. Будем считать, что случайные ошибки et-, г = 1, п, в модели (7.3) не только независимы, но и распределены по нормальному закону: et ~ ЛГ(О, а2), г = 1, п, т.е. случайная соста- вляющая е= (е\, ..., еп) линейной регрессионной модели (7.6) имеет n-мерный нормальный закон распределения с нулевым средним значением и ковариационной матрицей <т2/„.
312 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Это предположение в силу (7.3) эквивалентно тому, что наблюдения Y^ г — 1,п, являются независимыми нормально распределенными случайными величинами, т.е. х%а2), (7.22) где m-l Проверку рассматриваемого предположения проводят на основе статистического анализа случайных величин значения которых представляют собой отклонения наблюдаемых значений yt отклика У от его значений, предсказанных моделью регрессии m-l Таким образом, все сводится к проверке статистической гипотезы о выполнении исходных предположений: случайные величины €{, г = 1, п, являются независимыми и et- ~ ЛГ(0,а2), г = 1, п. Критерии проверки указанных гипотез рассмотрены выше (см. 5). Следует отметить, что, когда каждая случайная величина Si имеет единственную реализацию (нет повторных наблюдений), мы не можем проверить гипотезу о независимости случайных величин е«, г = 1, п. Однако, если у исследователя есть основания считать, что случайные величины £;, г = 1, те, независимы и одинаково распределены, можно ограничиться проверкой гипотезы о том, что €{, г = 1, п — реализация случайной величины €j распределенной по нормальному закону.
7.3. Статистический анализ регрессионной модели 313 Считая, что исходные предположения метода наименьших квадратов выполнены, перейдем к рассмотрению этапов статистического анализа регрессионной модели. Проверка адекватности построенной модели регрессии* Линейную регрессионную модель называют адекватп- ной, если предсказанные по ней значения отклика Y согласуются с результатами наблюдений. В основе процедуры проверки адекватности модели лежат предположения, что случайные ошибки наблюдений е,-, г = 1, п, являются независимыми, нормально распределенными случайными величинами с нулевыми средними значениями и одинаковыми дисперсиями а2. Пусть для каждого или некоторых значений переменного х= («1, ..., хр) имеется несколько (rt, i = l,n) повторных наблюдений отклика У (т.е. исходные данные представлены матрицей D — см. (7Л)). Тогда для проверки адекватности модели можно использовать следующую процедуру. Итак, повторные наблюдения получены при различных значениях ж1, ..., хп переменного ж, причем в точке х = хг про- п изведено г,- наблюдений уцу ..., у,п отклика У, а £г^ = N — объем выборки. Введем обозначение Бели линейная регрессионная модель адекватна, то значения yt- должны быть близки к значениям %\ — у{хх)у г = 1, п. Следовательно, сумму квадратов 1=1 можно рассматривать как меру неадекватности рассматриваемой модели.
314 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Можно показать, что статистики являются независимыми случайными величинами. Статистика Qp(Yn)/<t2 имеет ^-распределение с числом степеней свободы п (г{; — 1), а отношение ( t=l является несмещенной оценкой остаточной дисперсии. Эта статистика не связана с ошибкой в выборе модели. Статистика Qn(yN)fv2 имеет распределение х2 с числом степеней свободы п — т, если гипотеза Щ: МУ = F/3 верна (здесь т — число неизвестных параметров в модели (7.2)). При этом 52Д = = Qn(YN)/(n — m) — несмещенная оценка а2. Следовательно (см. Д.ЗЛ), статистика имеет распределение п Фишера со степенями свободы п — т и ^ (rt- — 1): l Fm £Лй . Q^ l!^l. F(n _ Поэтому проверка гипотезы #о осуществляется стандартным образом по критерию Фишера. Если выборочное значение /в статистики F не превышает критического /кр, т.е. /в ^ /кр = /l-a(^nj^p), то гипотезу Но принимают (точнее, не отклоняют) на уровне значимости а, т.е. модель признается адекватной.
7.3. Статистический анализ регрессионной модели 315 В противном случае модель признается неадекватной и нужно пытаться построить более сложную модель, увеличив, например, число базисных функций или выбрав другие базисные функции. Пример 7.5. Найдем МНК-оценки параметров простой линейной регрессии fa(x) = по данным табл. 7.3 и проверим адекватность модели регрессии на уровне значимости а = 0,05. Таблица 7.3 Xi г,- 1 0,5; 0,1 2 2 0,5; 1,2 2 3 1,2; 1,7 2 2,7 0,9; 2,2 2 4,3 1,1; 1,7; 2,5 3 5,0 2,0; 2,2 2 Имеем £ rt = ЛГ = 13, п = 6, m = 2, 6 п -»■■)=а.»- По формулам (7.20) находим я 9,68 А = 23Д2 = 17,8-0,419-40,3 13 Итак, у(х) = 0,07 + 0,419ж. Далее вычисляем 6 t=i и рассчитываем выборочное значение _ 0,39/(6-2) /в "2,29/(13-6) ~М
316 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА статистики Поскольку критическое значение /кр =/о,9б(4,7) = 4,14 (см. табл. П.5) существенно больше /в, то построенную модель регрессии можно считать адекватной результатам наблюдений. Проверка значимости параметров модели регрессии. Напомним, что регрессионную модель мы выбрали в виде (7.3), т.е. неизвестную функцию регрессии f(x) ищем в виде m-l /•(*) = Х>**(*). (7.23) где некоторые из базисных функций фк(х) могли быть включены в модель регрессии ошибочно, т.е. на самом деле отклик Y от этих Vb(s) не зависит и потому соответствующие коэффициенты (3k должны быть равны нулю. Однако может оказаться, что полученные по формуле (7.7) значения МНК-оценок (3k отличны от нуля, хотя обычно к нулю и близки. Проверка значимости коэффициента (3k означает проверку гипотезы Но: /3jt = 0 против альтернативной статистической гипотезы Н\: ^ф О- Коэффициент (3k считают значимым, если верна гипотеза #х. В общем случае могут возникать более сложные гипотезы, например гипотеза Hq: (3\ = —/?2 = (Зу означающая, что (Зг + /32 = = 0. Такая гипотеза уместна, когда есть подозрение, что действует не каждый из факторов Х\ и Хъ по отдельности, а только их разность, т.е. вместо комбинации fi\X\ + РгХг в модель нужно включить выражение (3(Х\ —Х2)- Статистические гипотезы, которые включают утверждение о линейной комбинации параметров /?j, j = 0, т — 1, называют линейными гипотезами. Они обычно вытекают из знаний экспериментатора или его предположений относительно
7.3. Статистический анализ регрессионной модели 317 возможных моделей. Под проверкой значимости параметров модели регрессии в этом случае понимают проверку всех возможных линейных гипотез. Мы ограничимся здесь проверкой линейных гипотез двух типов: 1) гипотезы Но: /30 = /?! = ... = /?m_i = 0 против альтернативной гипотезы #i, согласно которой РкфО хотя бы для одного номера Л, к = 0, га-1; 2) гипотезы #ofc: Рк = 0 против альтернативной гипотезы Hik* Рк Ф 0? рассматриваемых для некоторого фиксированного номера Ж, к = О, га— 1. Бели гипотеза Яо верна, то модель регрессии называют незначимой, т.е. условное математическое ожидание отклика M(Y)x = у(х) = Ро постоянно и не меняется с изменением х. В противном случае модель регрессии называют значимой. Гипотезы второго типа связаны с анализом конкретного коэффициента /Зь Если гипотеза Щк принимается, то коэффициент @к незначим и может быть удален из модели. Рассмотрим критерий проверки гипотез первого типа. Исходя из предположений о случайных величинах У^-, г = 1, п, сделанных в начале параграфа, можно показать, что статистики Qi(Yn) = (У - Y)*(Y - Y) (остаточная сумма квадратов) и Qf(Yn) = (У — IY)T(Y — /У) являются независимыми случайными величинами. Здесь У — матрица отклика линейной регрессионной модели (7.6), У — матрица МНК-оценок средних значений отклика и У — выборочное среднее отклика. Раскрывая матричное представление статистик Qi{Yn) и Qf(Yn), заключаем, что i=l t=l Статистика Qi(Yn)/a2 имеет х2-распределение с числом степеней свободы п — га, а статистика Qj (Уп)/а2 — х2-Распределение
318 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА с числом степеней свободы т - 1, если Но верна. Тогда статистика Q(V)nmfv т.е. имеет распределение Фишера со степенями свободы т — 1 ип-т. Статистика Qi(Yn)/(n — m) является несмещенной оценкой остаточной дисперсии (см. теорему 7.3), обусловленной как случайными ошибками измерений значений функции регрессии, так и неучтенными в регрессии факторами; статистика Qf(Yn)/(m— 1) — несмещенная оценка дисперсии случайных ошибок при использовании функции регрессии (т.е. дисперсии случайных ошибок измерений значений функции регрессии). Поэтому статистика F может быть использована при проверке рассматриваемой гипотезы. Таким образом, гипотеза #о: fli = • • • = Pm-i = 0 отклоняется на уровне значимости а (а следовательно, регрессия признается значимой), если вычисленное значение статистики F /в > /кр = Л-«(т- l.n-m). (7.24) Замечание 7.4* Полезной характеристикой линейной регрессионной модели является коэффициент детерминации R2 (или квадрат множественного коэффициента корреляции). Оценка Qy Qv коэффициента детерминации показывает, какая доля в сумме квадратов отклонений отклика Y от его среднего значения, т.е. в Qy {Yn) = (Y — /У)Т(У - IY), обусловлена регрессией (т.е. показывает, насколько значимы параметры модели регрессии). Величина R(Yn) является оценкой коэффициента корреляции (мерой линейной связи) между случайными величинами #
7.3. Статистический анализ регрессионной модели 319 Перейдем к проверке линейных гипотез второго типа. Эти гипотезы проверяют после того, как обоснована значимость регрессии. Такая проверка позволяет более детально проанализировать структуру модели регрессии на уровне отдельных коэффициентов. Ясно, что возможна ситуация, когда вектор параметров /3 модели регрессии является значимым, в то время как отдельные коэффициенты модели незначимы (и, следовательно, их надо принять равными нулю). Проверку любой из m гипотез f/ofc? О ^ к ^ тп— 1, против гипотезы Н\к проводят по критерию Стьюдента. Напомним, что МНК-оценка 0k(Yn) параметра /3* линейно зависит от матрицы отклика У. Следовательно, в силу (7.22) эта оценка имеет нормальный закон распределения с математическим ожиданием /3* (ибо оценка fik(Yn) несмещенная) и дисперсией VyCkk (см. следствие 7.1). Здесь Ckk — *-й диагональный элемент дисперсионной матрицы Фишера C=(FTF)~l. Поэтому В то же время С С1 Таким образом, если гипотеза i/ofc« Pk = 0 верна, то m), fc = 0^PL (7.25) Если модуль вычисленного значения tk статистики 7* превысит критический уровень t£p = ti_a/2(n — тп), то гипотезу Hok следует отклонить на уровне значимости а и признать коэффициент Pk значимым. Замечание 7«5, Проверку значимости коэффициента fik модели регрессии (7.23) можно проводить также с помощью
320 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА доверительного интервала J<y(Pk) = (/^(*n)> /M^nJJ» значения границ которого в силу (7.25) имеют вид (см. 3.3) Гипотеза #о*: /?fc = 0 принимается, если интервал с границами (7.26) накрывает нуль, и отклоняется в противном случае. Замечание 7.6. Для простой линейной регрессии (см. пример 7.3) число параметров m = 2, а дисперсионная матрица Фишера имеет вид у1 где соо = п Сц = t=l Поэтому из (7.25) следует, что \ а значения (7.26) границ доверительных интервалов для параметров Ро и pi принимают соответственно вид
7.3. Статистический анализ регрессионной модели 321 Пример 7.6. Результаты j/j, i— 1,п, наблюдений, проведенных над откликом У при значениях Х{ фактора X, представлены в табл. 7.4. Таблица 7.4 Xi я 0 8,98 1 8,82 2 9,09 3 11,94 4 24,63 5 14,06 6 14,00 7 24,93 8 33,22 9 15,7 10 35,92 Рассмотрим в качестве допустимой модели регрессии функцию и найдем МНК-оценки неизвестных параметров модели регрес- -»ч ^ч ^ч сии: /30 = 6,92; (3\ = 2,27; /32 = 0,08. Таким образом, имеем у{х) = 6,92 + 2,27s + 0,08х2. Есть основания предполагать, что (52 = 0. Для проверки гипотезы Но: @2 = 0 (значимости коэффициента fa) против альтернативной гипотезы Н\\ /?2 ф 0 находим значение t2 = 0,20 статистики Т2 (7.25). Воспользовавшись таблицей квантилей распределения Стью- дента (см. табл. П.4), на уровне значимости а = 0,1 находим *кр = *1-а/2(и — т) = *о,95(8) = 2,31. Коэффициент Р2 незначим, так как t2 = 0,20 < *кр = 2,31. Значение оценки коэффициента детерминации Полученный результат указывает на 52 %-ный разброс результатов наблюдений относительно горизонтальной прямой у = = 18,29. Анализ точности результатов, полученных с использованием регрессионной модели- Если модель регрессии прошла проверку на значимость, то ее можно использовать для
322 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА решения различных практических задач. Основными из них являются: - определение значения отклика Y в той части факторного пространства, где эксперимент не проводился, т.е. либо интерполяция, либо экстраполяция (прогнозирование) отклика; - определение экстремальных условий протекания процесса, модель которого построена, т.е. отыскание такой точки х* = (ж}, ..., а:*), в которой у(х) имеет экстремум; эту задачу решают методами математического анализа [V]. В обоих случаях с помощью построенной модели m-l /с=0 требуется оценить точность предсказания в рассматриваемой точке х = Хо либо среднего значения отклика М(У \х) = у (ж), либо ожидаемого значения отклика У = Уо- Для решения первой задачи нужно для величины у(х) построить доверительный интервал J7 с заданным уровнем доверия у* & для решения второй — так называемый прогнозирующий интервал J7, в который случайная величина Y при х = х° попадает с заданной доверительной вероятностью у. При нахождении доверительного интервала J7 важно то, что МНК-оценки /3*(УП) имеют нормальный закон распределения, а следовательно [XVI], оценка Y(x) также распределена по нормальному закону со средним МК(ж) = у(х) и дисперсией (см. (7.15)) Значит, z.
7.3. Статистический анализ регрессионной модели 323 С другой стороны, несмещенная оценка дисперсии отклика <т2, определяемая по формуле (7.17), не зависит от Z и т.е. имеет х2-Распределение с числом степеней свободы те - т. Отсюда следует, что статистика Z/y/V/(n — m) распределена по закону Стьюдента с числом степеней свободы те — m (см. Д.3.1): y/V/(n-m) Sy{ Таким образом, с вероятностью у = 1 — а выполняется неравенство Y(x)-y(x) где ^i_a/2(w ~ m) — квантиль уровня 1 — а/2 распределения Стьюдента с числом степеней свободы те — т. Это равенство дает границы доверительного интервала с уровнем доверия j для среднего значения отклика у(х) в произвольной точке х факторного пространства в виде y(x)±t1_a/2(n - m)Sy(Yn)y/rl>T(x)Cil>(x), (7.27) где, напомним, С = (FTF)~l. В частном случае простой линейной регрессии дисперсию Y(x) вычисляют по формуле 1=1
324 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА и формула (7.27) принимает следующий вид: y(x)±tl_a/2(n-m)Sy{Yn) \ 1 , п (7.28) t=l Из выражения (7.28) видно, что наиболее узким интервал J7 будет в точке х = ж, и по мере удаления ж от ж точность уменьшается (рис, 7.6)- УЬ Для отыскания прогнозирующего интервала J7 с уровнем доверия 7 используют тот факт, что разность между откликом Y и оценкой его среднего значения Y(x) в любой точке х имеет нормальный закон распределения со средним значением М(У - Y(x)) = 0 и дисперсией (в силу независимости У и Y(x)) т.е. к дисперсии Y(x) добавляется дисперсия отклика У. Повторяя предыдущие рассуждения при построении доверительного интервала, вместо (7.27) получаем окончательный результат в виде у(х) ± tx_af2(n - m)Sy{Yn (7.29)
7.4. О выборе допустимой модели регрессии 325 7.4. О выборе допустимой модели регрессии Как уже отмечалось выше, при решении задач регрессионного анализа исследователь в первую очередь сталкивается с необходимостью выбора класса Т допустимых моделей регрессии. Мы не останавливаемся на этой проблеме* и еще раз отметим, что при ее решении, как правило, исследователь исходит из преследуемых целей, собственного опыта, результатов предварительного анализа, имеющегося экспериментального материала и т.д. Если класс Т содержит, например, две допустимые модели регрессии, то возникает проблема выбора наилучшей (в каком- то смысле) допустимой модели регрессии. Обсуждение этой проблемы можно найти в специальной литературе**, а мы ограничимся рассмотрением линейной регрессионной модели (см. (7.6)). При этом будем предполагать, что выполнены основные допущения регрессионного анализа: независимость и нормальное распределение случайных величин е,, г = 1, п (см. (7.4)). Пусть имеем две допустимые модели регрессии 7711 — 1 7712 ~ 1 2_\ РкФк(х) И 2_] Pki>k(£)i (7.30) fc=0 fc=0 где m-i > т\ и объем выборки равен п. Проверим гипотезу против альтернативной гипотезы 7П2— 1 •См.: Кашълп Р.Л., Рао А.Р. •*См. там же.
326 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Для проверки гипотезы #о можно применить статистику r_Qn{Yn)-Qn{Yn) n-m2 Q{Y) тт* где Qn(Yn) и Qn{Yn) — остаточные суммы квадратов соответственно для первой и второй моделей (7.30)- Статистика F имеет распределение Фишера с числом степеней свободы ™>2 — ГП\ ЪП — т\— ТО2. Гипотезу Но следует принять на уровне значимости а (при- mi—1 нять модель £ РкФ(х)), если значение /в статистики F, рас- к=0 считанное по результатам наблюдений, не превышает /кр = Заметим, что при Q\<i > Qn всегда следует выбирать модель mi—1 к=0 Рассмотренный критерий называют критерием отношения остаточных дисперсий. Смысл его прозрачен: усложнение допустимой модели регрессии статистически оправдано, если это приводит к значимому (на уровне значимости а) уменьшению значения оценки остаточной дисперсии. Пример 7*7. Вернемся к примеру 7,6. Результаты наблюдений дают основание утверждать, что допустимыми моделями регрессии являются и k=0 С помощью метода наименьших квадратов находим значения оценок для параметров /3^, fc = 0,1, первой модели регрессии. Для второй модели оценки параметров найдены в примере 7.6. Имеем уг(х) = 6,92 + 2,27s и у2(х) = 6,92 + 2,27s + G,G8s2.
7.5. Решение типовых примеров 327 Коэффициент /?2 во второй модели незначим (см. пример 7.6). Применяя статистику (7.31), проверим гипотезу Щ: /32 = 0 против альтернативной гипотезы Н\: /?2 ф 0. В нашем случае п = 11, т\ — 2,28, гпч — 0,08. Рассчитываем остаточные суммы квадратов Q\\ — 393,84 и Q& = 455,21. Значения оценок остаточных дисперсий соответственно равны 43,76 и 56,90. Поскольку 56,90 > 43,76, то следует выбрать модель уг(х) = 6,91 + 2,28ж. 7.5. Решение типовых примеров Пример 7.8. По заданной выборке (табл. 7.5) найдем оценки параметров простой линейной регрессии у на х: у = Таблица 7.5 Xi Ух 2,7 17,0 4,6 16,2 6,3 13,3 7,8 13,0 9,2 9,7 10,6 9,9 12,0 6,2 13,4 5,8 14,7 5,7 В данном случае фо(х) = 1, tpi(x) = х, матрицы F и У имеют вид /11111 1 1 1 1 \Т V2,7 4,6 6,3 7,8 9,2 10,6 12,0 13,4 14,7 У ' У = (17,0 16,2 13,3 13,0 9,7 9,9 6,2 5,8 5,7)Т. Находим матрицы 9 81,4 \ M-i/ 0,74322 -0,06989\ ) 1,4 865 В результате получаем ,4 \ ,63/' 0,00773)' Следовательно, у(х) = 20,53 - 1,08а;.
328 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Пример 7.9. Функциональная зависимость удельного сопротивления р кристаллического кварца от его температуры Т имеет вид р = 10а/т+ь. Используя опытные данные (табл. 7.6), найдем оценки параметров о и 6. т р 5 335 •101* 4 365 -101& 3 400 •1014 2 445 •1013 2 500 • 10w Таблица 7.6 570 1,5 -10" 670 1010 Для решения задачи нелинейную модель преобразуем в линейную по параметрам. Для этого прологарифмируем левую и правую части: lgp = a/T+b. Обозначим ж = 1000/Ти y = lgp. В результате приходим к задаче нахождения параметров простой линейной регрессии у = аж + 6. Пересчитаем опытные данные в переменных х и у (табл. 7.7). Таблица 7.7 X У 2,985 16,699 2,740 15,602 2,500 14,477 2,247 13,301 2,000 12,301 1,754 11,176 1,493 10,000 Составляем матрицы /1 1 1 1 1 1 1 \Т V2,985 2,740 2,500 2,247 2,000 1,754 1,493/ и У = (16,699 15,602 14,477 13,301 12,301 11,176 10,000)Т. Далее вычисляем матрицы M = F-F=( 7 15,719\ х_( 3,067 -1,302\ V 15,719 37,022/' \ -1,302 0,580/ Наконец, находим вектор-столбец параметров
7.5. Решение типовых примеров 329 Итак, регрессионная модель в переменных хну имеет вид у = 3,306х + 4,480. Следовательно, р= 1q4480/t+31306 Пример 7.1(К В условиях примера 7.8 проверим значимость коэффициента регрессии у на ж на уровне значимости а = 0,1 и найдем значение оценки коэффициента корреляции рху. Проверка значимости коэффициента регрессии в данном случае означает проверку гипотезы #0: /3\ = 0 против альтернативной гипотезы Н\\ j3\ ^0. Воспользуемся статистикой п-т Значения показателей Q/ и Qi найдем по результатам наблюдений. Соответствующие вычисления сведем в таблицу (табл. 7.8), в которой yt = y(st) и у — среднее выборочное, равное 1 9 У = - У" У, = 10,756. Таблица 7.8 ж,- 2,7 4,6 6,3 7,8 9,2 10,6 12,0 13,4 14,7 У. 17,0 16,2 13,3 13,0 9,7 9,9 6,2 5,8 5,7 У. 17,614 15,562 13,726 12,106 10,594 9,082 7,570 6,058 4,654 у.- - т -0,614 0,638 -0,426 0,894 -0,844 0,818 -1,370 -0,258 1,046 (Уг-Уг)2 0,376996 0,405044 0,181476 0,799236 0,712336 0,669124 1,876900 0,066564 1,094116 Уг-У 16,858 4,806 2,970 1,350 -0,162 -1,674 -3,186 -4,698 -6,102 (т-у)2 47,032164 23,097639 8,820900 1,822500 0,026244 2,802276 10,150596 22,071204 37,234404
330 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Из табл. 7.8 получаем 9 9 Qt = £($ - у)2 = 153,0579, Q, = ]T(yt - у)2 = 6Д837 t=i и вычисляем 6,1837 По таблице квантилей распределения Фишера с числом степеней свободы го—1 = 2 — 1 = 1 и п — го = 9 — 2 = 7 (см. табл. П.5) находим /кр = fi-a/2 = /0,95 = 5,59. Из неравенства /в = 172 > > /кр = 5,59 следует, что регрессия значима. Чтобы найти коэффициент корреляции рху> воспользуемся равенством рху — (sgn/?i) Д, где R2 — значение оценки коэффициента детерминации, равный S2-Ql- 153,0579 _ 153,0579 " ~С1у "~ 153,0579 + 6,1837 " 159,2416 J 0,9612. В результате рху « —0,96, Пример 7.11. Считая, что зависимость между х и у имеет вид у = Ро + fax + fox2, найдем значения оценок параметров и проверим значимость модели регрессии на уровне а = 0,1 по выборке, представленной в табл. 7.9. Таблица 7.9 ж,- У. 26 3,94 30 4,60 34 5,67 38 6,93 42 7,73 46 8,25 50 9,56 и По данным выборки запишем матрицы (1111111 26 30 34 38 42 46 50 676 900 1156 1444 1764 2116 2500, У = (3,94 4,60 5,67 6,93 7,73 8,25 9,56)Т.
7.5. Решение типовых примеров 331 Используя матрицу F, находим M = F F = 266 10556 \ 10556 435176 I , 435176 18527600/ 91,926 -4,962 . М-1 = | -4,962 0,271 0,064 -3,534 • 10"3 0,064 -3,534 • 10~3 4,65 • 10~5 Теперь вычисляем вектор-столбец параметров АЛ /-2,6589 \ = M-XFTY == 0,2579 . \-0,0003/ Итак, у(х) = -2,6589 + 0,2579а; - 0,0003ж2. Проверим значимость модели регрессии на уровне а = 0,1. Для этого составим таблицу (табл. 7.10), в которой yi = t/(a;t) и у — выборочное среднее показателя у (среднее значение второго столбца табл. 7.9), равное у = - (з,94 + 4,6 + 5,67 + 6,93 + 7,73 + 8,25 + 9,5б) = 6,67. Таблица 7.10 Xi 26 30 34 38 42 46 50 У< 3,94 4,60 5,67 6,93 7,73 8,25 9,56 Ух 3,8343 4,7958 5,7472 6,6886 7,6201 8,5415 9,453 Ух ~ Ух 0,11 -0,20 -0,08 0,24 0,11 -0,29 0,11 (у,-у,)2 0,0121 0,0400 0,0064 0,0576 0,0121 0,0841 0,0121 Ух-У -2,84 -1,87 -0,92 0,02 0,95 1,87 2,78 (Ух-У)2 8,0656 3,4969 0,8464 0,0004 0,9025 3,4969 7,7284
332 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА По данным составленной таблицы находим 7 7 Q, = Y,(Vi " У)2 = °>2244' Q/ = Y,® " Й2 = 24>5371> 24,5371-4 /в" 2-0,2244 По таблице квантилей распределения Фишера (см. табл. П,5) находим /кР = Л_а/2(™ - l,n - m) = /o,9s(2,4) = 6,94, Из неравенства /в = 218,69 > /кр = 6,94, согласно критерию (7.24), приходим к заключению, что модель значима. Пример 7.12. В условиях примера 7.11 проверим значимость коэффициента /?2, т.е. гипотезу #02: A = 0 при альтернативной гипотезе /?2 ф 0 с уровнем значимости а = 0,1. Для решения поставленной задачи используем статистику Т= 4fn) ~S(4) (см. (7.25)). Ее выборочное значение равно 0,0003-4 |*в| = 0,2244 21504 По таблице квантилей распределения Стьюдента (см. табл. П.4) находим *кр = *1-а/2(4) = *0,95(4) = 2,132. Так как \ЬЪ\ < fKp, гипотезу Н02 принимаем, т.е. коэффициент /?2 не является значимым.
7.5. Решение типовых примеров 333 Пример 7.13. По данным наблюдений (табл. 7Л1) найдем оценки параметров модели регрессии у = /?о + Р\х + /?2^2 и проверим адекватность этой модели на уровне значимости а = = 0,01. Таблица 7.11 Xi Ш Xi Ш 0 22,8 5 28,9 0 21,9 6 30,0 0 22,1 6 30,3 1 24,5 6 29,8 2 26,0 7 30,4 2 26,1 8 31,4 3 26,8 8 31,5 3 27,3 9 31,8 4 28,2 10 33,1 4 28,5 По данным из табл. 7.11 запишем матрицы /22,8^ 21,9 22,1 24,5 26,0 26,1 26,8 27,3 28,2 У= 28,5 28,9 30,0 30,3 29,8 30,4 31,4 31,5 31,8 fl 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 ^1 0 0 0 1 2 2 3 3 4 4 5 6 6 6 7 8 8 9 10 о> 0 0 1 4 4 9 9 16 16 25 36 36 36 49 64 64 81 100)
334 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Найдя матрицы M = F F = 0,253 -0,097 к 7,903 10"3 -0,097 0,063 -6,266 • 10"3 550 \ 3018 , 30274/ 7,903 • 10~3 -6,266 • 10"3 6,84 • 10~4 вычисляем вектор-столбец параметров 22,561' = | 1,668 ,-0,068, Таким образом, £ = 22,561 + 1,668а; - 0,068ж2. Для проверки адекватности найденной модели воспользуемся статистикой F = 5|w(i^v')/5y(lV), которая имеет закон распределения Фишера с числом степеней свободы гп = п — т и п гр = £ (г,- — 1). Для вычисления этой статистики сведем проме- 1=1 жуточные данные в таблицу (табл. 7.12). Таблица 7.12 Xi 0 1 2 3 4 5 6 7 8 9 10 3 1 2 2 2 1 3 1 2 1 1 Ух 22,267 24,500 26,050 27,050 28,350 28,900 30,033 30,400 31,450 31,800 33,100 у.- 22,561 24,161 25,625 26,953 28,145 29,201 30,121 30,905 31,553 32,012 32,441 yi-Vi -0,294 0,339 0,425 0,097 0,205 -0,301 -0,088 -0,505 -0,103 -0,212 0,659 n{Vi ~ У»)2 0,2593 0,1149 0,3612 0,0188 0,0840 0,0906 0,0232 0,2550 0,0212 0,0449 0,4343
7.5. Решение типовых примеров 335 По данным таблицы находим Теперь можно определить выборочное значение статистики: . 753 (11-3) 0,753 f-= 8-1,708 -T^ По таблице квантилей распределения Фишера (см, табл. IL5) находим критическое значение /кр = /0,95(8,8) = 7,50. Поскольку /в = 0,441 < /кр = 7,50, то найденная модель регрессии адекватна результатам наблюдений. Пример 7Л4. В условиях примера 7.5 построим: а) доверительный интервал для среднего значения отклика в точке х = 10; б) прогнозирующий доверительный интервал. Доверительную вероятность выберем у = 0,99, а. Границы доверительного интервала для среднего значения отклика в соответствии с (7,27) равны у(х) =р ti_ Находим значения у(х) и ф(х)тСф(х) в точке х = 10: у(10) = 20,53 - 1,08 ■ 10 = 9,73, цщ( °'74322 -О' = 0,11842. -0,06989 0,00773 / V 10 /
336 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА Далее определяем выборочное значение Syi 1=1 = —!— (о,376996+0,405044+0,181476+0,799236+0,712336 + + 0,669124 +1,876900 + 0,066564 + 1,09411б) = 0,8831. По таблице квантилей распределения Стьюдента (см. табл. П.4) находим квантиль *o,99s(7) = 3,499. В результате получаем доверительный интервал для среднего значения отклика в точке х = 10: (8,60, 10,86). б. Границы прогнозирующего доверительного интервала равны у{х) т ^-( По таблице квантилей распределения Стьюдента определяем £i_(!_7)/2 = *о,995 = 2,576. В результате для границ интервала получаем 9,73 ± 2,576 ^0,8831^/1 +0,11842. После упрощений окончательно находим 2/0,99(2/) = (7,17, 12,29). Вопросы и задачи 7Л. Какую функцию называют функцией регрессии? 7.2. Какие переменные называют входными (факторами), выходными (откликами)? 7.3. Что называют планом эксперимента? 7.4. Какую регрессионную модель называют линейной? 7.5. Сформулируйте исходные предположения метода наименьших квадратов.
Вопросы и задачи 337 7,6* В чем состоит метод наименьших квадратов нахождения параметров линейной регрессионной модели? Запишите формулу для оценок неизвестных параметров. 7.7. Запишите дисперсионную матрицу Фишера. Какой смысл имеют ее элементы? 7.8. В чем состоит анализ регрессионной модели? При каких предположениях его проводят? 7.9. Какую статистику используют для проверки значимости модели регрессии? 7.10. Какую линейную регрессионную модель называют адекватной? Сформулируйте правило проверки адекватности модели. 7.11. Запишите формулу для вычисления несмещенной оценки дисперсии отклика в случае адекватной регрессионной модели. 7Л2. По данным эксперимента (табл. 7.13) с помощью метода наименьших квадратов найдите значения оценок параметров модели у = a + 6 In х. Xi Уг 2,4 5,36 2,7 5,45 3,0 5,52 3,3 5,53 Таблице 3,6 5,57 4,9 5,63 i 7.13 4,2 5,54 Ответ: у = 4,97 + 0,47 in ж. 7.13. Считая, что переменные х и у связаны зависимостью у = (Зое&х, по выборке (1, 10), (2, 5), (3, 3), (4, 1) найдите значения оценок параметров /?о и Д. Указание: используйте результаты примера 7.9. Ответ: у = 22,64<Г°'74а\
338 7. ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА 7.14, Результаты эксперимента представлены таблицей Значение х 1 2 3 4 5 6 Значения 1; 1; 1; 2; 3; 4; 4; 5; 5; 5; 5; 6 2 2; 4- 5; 6 3; 3; 4- .V 6 У 3; 4 5 Полагая, что переменные у и х связаны линейной зависимо- стью, найдите значения оценок параметров. Ответ: £=0,932 + 0,9062. 7.15. Для модели регрессии, построенной в примере 7.3, проверьте ее значимость на уровне значимости а = 0,05 и значимость ее коэффициентов fio и /3\ на уровне значимости а = 0,1. Ответ: модель значима; оба коэффициента значимы. 7.16. Зависимость между переменными х и у имеет вид У = 0о + fax + 02Z2- По данным выборки (0,07, 1,34); (0,31, 1,08); (0,61, 0,94); (0,99, 1,06); (1,29, 1,25); (1,78, 2,01); (2,09, 2,60) выполните следующее: а) найдите значения оценок параметров модели регрессии; б) проверьте значимость модели регрессии на уровне значимости а = 0,05. Ответ: а) у = 1,40 - 1,22# + 0,87а:2; б) модель значима. 7Л7. Зависимость между переменными х и у имеет вид y = Po + fiiZ + P222- Поданным выборки (табл. 7.14) выполните следующее: а) найдите значения оценок параметров модели регрессии; б) проверьте значимость модели регрессии на уровне значимости а = 0,01.
Вопросы и задачи 339 Таблица 7.14 Xi Vi 26 3,94 30 4,60 34 5,67 38 6,93 42 8,25 46 7,73 50 10,55 Ответ: а) у = 0,175 + 0,085ж + 0,002ж2; б) модель не является значимой, 7Л8. Проведены равноточные измерения некоторой величины у через равные интервалы аргумента х (табл. 7.15). Считая, что зависимость между х и у имеет вид у = Po + PiX+faz2) выполните следующее: а) найдите значения оценок параметров модели регрессии; б) проверьте значимость модели на уровне значимости а = = 0,01; в) проверьте значимость коэффициентов /3\ и 02 на уровне значимости а = 0,01. х{ Уг -3 -0,71 -2 -0,01 -1 0,51 0 0,82 Таблице 1 0,88 2 0,81 i 7.15 3 0,49 Ответ: а) у = 0,200ж — 0,102а:2; б) модель значима; в) коэффициенты Pi и 02 значимы. 7.19. В условиях задачи 7.14 проверьте адекватность простой линейной модели. Ответ: модель адекватна. 7.20. В условиях задачи 7.19 постройте: а) доверительный интервал для среднего значения отклика в точке х = Ъ с доверительной вероятностью у = 0,9; б) прогнозирующий интервал с доверительной вероятностью у = 0,9. Ответ: (-0,814, -0,674); (-0,802, -0,686).
8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА 8.1. Исходные понятия Объектами исследования дисперсионного анализа являются стохастические связи между откликом и факторами, когда последние носят не количественный, а качественный характер. Примерами таких факторов могут служить: - способ крепления детали при ее обработке; - режим функционирования прибора; - уровень квалификации оператора; - методика обучения (или лечения) и т.д. Чтобы подчеркнуть качественный характер факторов, будем их обозначать через А, В, С, ..., а отклик при этом — через X. Каждый из факторов имеет несколько уровней, или градаций. Так, например, если X — это степень износа покрышки на колесе автомобиля, а выбранные факторы А и В — это тип дороги и тип рисунка протектора, то различные уровни фактора А — различные типы дорог, различные уровни фактора В — различные рисунки протектора. Пусть наблюдаемый объект обладает таким свойством, которое характеризуется переменным (откликом) X и подвержено влиянию некоторых учитываемых факторов А, В и других, не контролируемых в данном эксперименте факторов. Задача дисперсионного анализа состоит в том, чтобы по результатам наблюдений за этим объектом дать ответ на вопрос: следует ли считать действие факторов А и В существенным (значимым) на фоне остальных (неучтенных) факторов или нет?
8.2. Однофакторныи дисперсионный анализ 341 Формулировка и проверка соответствующих статистических гипотез для ответа на этот вопрос и является содержанием дисперсионного анализа. В зависимости от числа анализируемых факторов различают однофакторныи^ двухфакторный и т.д. дисперсионный анализ. Мы здесь ограничимся рассмотрением одно- факторного и двухфакторного дисперсионного анализа с постоянными (неслучайными) факторами. Подробное изложение предмета можно найти в литературе*. 8.2. Однофакторныи дисперсионный анализ Будем предполагать, что исследователя интересует степень влияния фактора А на отклик X. Для конкретности, пусть X — долговечность покрышки на колесе автомобиля, а фактор А — тип дорожного покрытия, который имеет / уровней (/ — целое число). Пусть /Jo = MX — среднее значение случайной величины X и пусть X{k — значение X в г-м эксперименте, г = 1,п*, соответствующем А:-му уровню фактора Л, к= 1,/. Тогда математическую модель однофакторного дисперсионного анализа можно представить в виде** [линейная модель дисперсионного анализа) г=1,п*, (8.1) где &k — вклад в величину Х^, обусловленный действием фактора А (а* — неслучайная величина); Eik — вклад в X;*, обусловленный действием неучтенных факторов (случайные ошибки эксперимента, т.е. Eik — случайные величины). При п этом £ а* = 0. *См., например: Шеффе Г. **См.: Айвазян СЛ., Енюков И.С^ Мешалкин Л.Д., 1985.
342 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА Относительно случайных величин Eik сделаем те же предположения, что и в регрессионном анализе (см. 7.1, 7.3): - систематическая ошибка отсутствует, т.е. Мг^ = 0 для любых г и А;; - случайные ошибки эксперимента £г* не коррелированы между собой и имеют одинаковую (неизвестную) дисперсию, т.е. - случайные ошибки эксперимента £{k имеют нормальный закон распределения с нулевым средним и неизвестной дисперсией о*2, т.е. Именно последнее допущение и позволит нам проводить проверку статистических гипотез, используя уже известные критерии, основанные на нормальном законе распределения наблюдаемых в эксперименте случайных величин. Разумеется, принятые допущения требуют последующей проверки. Однако на первом этапе исследования они являются вполне естественными. С учетом принятых допущений о случайных ошибках эксперимента и на основании принятой модели (8.1) делаем заключение, что случайные величины Я;* имеют нормальный закон распределения со средним значением МЯ,-* = ^о + а* и дисперсией DXik = а2, к = ТД. Таким образом, действие фактора А проявляется в том, что для каждого его уровня к (к = 1,1) результаты наблюдений над случайной величиной (откликом) X можно рассматривать как случайную выборку X\k, X2k, ••-, ХПкк объема пк из генеральной совокупности Хк, причем каждая случайная величина Я*, к = 1, /, нормально распределена со средним значением М* = /^о + оси и дисперсией а2.
8.2. Однофакторный дисперсионный анализ 343 Отсюда следует, что статистическая гипотеза i/o, предполагающая отсутствие влияния фактора А на отклик X, означает, что /i* = /io + «fc = Mo» или oik — 0, Ar = 1, l. В качестве альтернативной гипотезы Н\ могут выступать различные предположения о значениях величин а* или их некоторых линейных комбинаций — далее этот вопрос рассмотрен подробно. Итак, задача проверки влияния фактора А на отклик X по результатам эксперимента сводится к следующей формализованной постановке, если принята модель наблюдений (8.1) и сформулированные выше предположения о случайных ошибках эксперимента. Пусть Х\, ..., Х\ — независимые случайные величины и Хк ~ N(/ifc,<72), к =1,1. Пусть для каждого к— 1,1 дана случайная выборка X\k, ..., ХПкк из генеральной совокупности случайной величины X*, которую далее мы будем называть к-й случайной выборкой. Требуется по этим данным проверить на заданном уровне значимости а гипотезу Но: /ii = //2 = . -. = Щ = й> (или, что то же самое, Но: <*i = а2 = ... = щ = 0, если fik= fio + a*, /;=!,/). Для нашей интерпретации отклика X (долговечность покрышки) и фактора А (тип дорожного покрытия) каждая случайная величина X*, к= 1,/, характеризует долговечность покрышки на дорогах с А:-м типом покрытия. Отсутствие влияния фактора Л, т.е. выполнение гипотезы Яо, означает, что на дорогах с любым типом покрытия средняя долговечность одна и та же. Если гипотеза i/0 неверна, то тип покрытия (фактор А) влияет на долговечность покрышки. Заметим, что при наличии у фактора А только двух уровней (/ = 2) наша задача сводится к проверке стандартной гипотезы о равенстве двух средних значений нормальных совокупностей (cjy. 4.2). Если фактор А имеет более двух уровней (/ > 2), то для проверки гипотезы о равенстве / средних применяют однофакторный дисперсионный анализ, суть которого состоит в следующем.
344 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА Пусть Xik — *-й элемент fc-й случайной выборки, г к = 1, /, и Xk — выборочное среднее fc-й выборки, т.е. 1 Пк 1 а X — общее выборочное среднее: i «1. ^ 1 где п = ni + . •. + щ — общее число наблюдений. Общая сумма квадратов отклонений наблюдений отклика от общего выборочного среднего X может быть представлена в следующем виде: I пк I I пк J2T,(X* - х>2=Еп*(х* - х>2+ЕЕ(^ - ^*)2- (8-2) fc=l t=l к=1 fc=l t=l Это основное тождество дисперсионного анализа, которое будем записывать кратко так: где Q(Xn) — общая сумма квадратов отклонений отклика от общего среднего; Qa{Xti) — сумма квадратов отклонений, обусловленных отличием выборочных средних Xk по группам (уровням) от общего выборочного среднего X (среднее квадратичное отклонение между группами или между уровнями); Ql(Xn) — сумма квадратов отклонений наблюдений от выборочных средних для каждого уровня (внутри групп). Тождество (8.2) легко проверяется, для чего нужно возвести в квадрат и просуммировать по г и к очевидное равенство xik - Х= (хк - х~) + (хл X
8.2. Однофакторный дисперсионный анализ 345 и учесть, что I nk I nk * - xk)(xk -x) = Y^(xk - x в силу определения выборочных средних Xk и X. Действительно, внутренняя сумма =о. Можно показать*, что если гипотеза Hq: fi\ = \l<i = ... = щ верна, то статистики (2а{Хп)/<г2 и Qi{Xn)/a2 независимы и имеют ^-распределение с числом степеней свободы соответственно 1-1 ип-1, а статистики S\(Xn) = Яа{Хп)/{1 - 1) и Sf(Xn) =Q;(Arn)/(^ —0 являются несмещенными оценками неизвестной дисперсии а2. Оценка S\(Xn) характеризует рассеяние средних значений Хк, а оценка Sf(Xn) — рассеяние выборочных значений Х{к внутри групп, которое обусловлено действием неучтенных факторов. Значительное превышение величины S\(Xn) над значением величины Sf(Xn) можно объяснить различием средних значений тк, к = 1, /, в группах (для различных уровней фактора Л), т.е. существенным влиянием фактора А. Таким образом, если гипотеза Яо: fi\ = fi2 = - • • = Щ верна, то Q(Jt)/(/) S?(Jf) l '' l ' т.е. статистика F имеет распределение Фишера с числом степеней СВОбоДЫ Г>1 = /-1 ИГ| = П-| (СМ. Д.3.1). Статистику F используют для проверки гипотезы Яо: fi\ = = ...=///= /i0. Гипотеза Hq не противоречит результатам *См.: Крамер Г.
346 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА наблюдений, если выборочное значение FB статистики (8.4) меньше ее критического уровня FKp — Fi_a(r,4,n), т,е, если Если же то гипотеза До отклоняется и следует считать, что среди средних значений #i, ..., щ имеются хотя бы два, не равных ДРУГ другу. В случае принятия гипотезы Но в качестве несмещенных оценок параметров //о и а2 можно взять соответственно X и Результаты проверки гипотезы #о принято оформлять в виде так называемой таблицы дисперсионного анализа (табл. 8.1). Таблица 8А Источник изменчивости Между группами (фактор А) Внутри групп (ошибки) Общая сумма квадратов Сумма квадратов (СК) QA(Xn) = =i>fc(xfc-x)2 Qi(Xn) = -ЕЕ(*.*-**)2 Q(Xn) = = EE№fc-^)2 Степени свободы /-1 n-l Средняя сумма квадратов Эа(Хп) = _QA(xn) га S?(X«) = Qi(Xn) п Статистика F FB = SA/S? = Fi-a(rA,rt) Пример 8.1. Три группы операторов ЭВМ обучались по трем различным методикам. После окончания срока обучения
8.2. Однофакторныи дисперсионный анализ 347 был проведен тестовый контроль случайно отобранных операторов из каждой группы. Получены следующие результаты (табл. 8.2). Таблица 8.2 Номер группы А; 1 2 3 Число ошибок, допущенных операторами, Х{к 1, 3, 2, 1, 0, 2, 1 2, 3, 2, 1, 4, -, - Л г. о _ ^1 °1 °1 ) J 1 Сумма пк 10 12 12 Число контролируемых операторов п* 7 5 3 Требуется на уровне значимости а = 0,05 проверить гипотезу об отсутствии влияния различных методик обучения на результаты тестового контроля операторов. Предполагается, что выборки получены из независимых нормально распределенных совокупностей с одной и той же дисперсией. В данном случае фактор А — это тип методики обучения, имеющий / = 3 уровня. Объем наблюдений п = т\\ + т%2 + пз = 15. Проверяется гипотеза Но- №х = //2 = /^3) где /i* — математическое ожидание числа ошибок, допущенных операторами Аг-й группы. Сперва вычисляем суммы I пк i пк k=lt=l Затем, используя (8.2) и (8.3), находим ' Пк 1 1 t2ik - -z?. = 104 - — • 342 и 26,93, п 15 i = £ ^x?fc-^.= 91,08-^-342« 14,02, 1С— 1 Ql = Q-QA = 26,93 - 14,02 = 12,91.
348 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА Теперь вычисляем выборочное значение статистики (8.4): QA/jl-l) 14,02/2 fB-QiHn-l)~ 12,91 ~6'52' Из таблицы квантилей распределения Фишера (см, табл. П.5) для уровня значимости а = 0,05 и степеней свободы гд = 1—1 = = 2, г/ = п - / = 12 находим FKp = Fo,95(2,12) = 3,89. Так как FB — 6,52 > FKpi то гипотеза Hq о равенстве средних отклоняется. Это означает, что исследуемые методики обучения операторов дают значимо различные результаты тестового контроля. 8.3. Понятие линейных контрастов Если гипотеза Но о равенстве средних значений / нормальных генеральных совокупностей отклоняется (т.е. хотя бы в какой-то паре групп средние отличаются друг от друга), то требуется определить, какие именно группы имеют значимое различие средних. Для этой цели используются так называемые линейные контрасты. Линейный контраст L определяется как линейная комбинация (8.5) где ск — постоянные, однозначно определяемые из формулировки проверяемых гипотез, причем с\ +... + с/ = 0. Примерами линейных контрастов являются: /Д1) = fii - fi2; здесь с\ = 1, с2 = — lf <Ъ = 0, а выдвигаемая гипотеза Яр : /^i — /i2 = 0; — 0,5(/ii +/i3) -V>2\ здесь ci—c3 = 0,5, c2 = -1, а выдви- гаемая гипотеза щ }: 0,5(//i + /X3) - /x2 = 0. Таким образом, если гипотеза Яо: fi\ = fa = • ■ • = Щ отклоняется, то с помощью линейного контраста можно выдвинуть вспомогательные нулевые гипотезы относительно различных
8.3. Понятие линейных контрастов 349 линейных комбинаций средних значений /ij, ..., ///, образующих линейный контраст. Любая такая гипотеза имеет вид Н'о\ L = Ci/ii + ... + сцц при некотором заданном наборе постоянных с*, для которых Нетрудно увидеть, что несмещенной оценкой линейного контраста L (при сделанных выше предположениях о случайных ошибках эксперимента Eik) является оценка (8.6) дисперсия которой (с учетом того, что DXk = с2/п* и Xk — независимые случайные величины) равна BL(Xn) = **£;■*■. (8-7) При этом статистика L(Xn) имеет нормальный закон распре- деления со средним L = сфх + ...-|-Q/i/ и дисперсией DL(Xn), т.е. £(Xn)~iV(L,DZ(Xn)), (8.8) Следовательно, L(X)~L), (8.9) т.е. статистика Г имеет стандартное нормальное распределение. Последнее утверждение следует из того, что выборочные средние Xk имеют нормальное распределение, Xk ~ N(/ifc,a2), к = 1, /, а линейная комбинация L = С\Х\ + ... + qX/ нормально распределенных случайных величин также распределена по нормальному закону с параметрами ЪАЬ{Хп) = L и DL(Xn) = = о2с\/п\ +... + cf/fif. Кроме того, статистика Qi(Xn)/a2 име-
350 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА ет у2-распределение с числом степеней свободы г\ = п — 1, т.е. p~*n-n, (8.10, и можно показать, что V и Т — независимые случайные величины. На основании (8.9) и (8.10) приходим к следующему критерию проверки гипотезы Н'о: L = c\fii + ... + сцц — 0. Если гипотеза Щ верна, то статистика t = T/^/V(n — l) имеет распределение Стьюдента с числом степеней свободы п — /, т.е. t=—*=1 l ~5(n-/). (8.11) Si(Xn) Таким образом, гипотезу Но следует отклонить на уровне значимости а (т.е. считать значимым отличие от нуля выбранной линейной комбинации средних МьМг^-^М/)? если выборочное значение tB статистики (8.11) по абсолютной величине превышает tKp = ^1-^/2(1 — I)- Пример 8.2. В условиях примера 8.1 при двусторонних альтернативных гипотезах проверим гипотезы Hq : fi\ = fa, В соответствии с проверяемыми гипотезами //£ , г = ^й, определим линейные контрасты -/13
8.3. Понятие линейных контрастов 351 Предварительно вычислим значения оценок линейных контрастов Lt, г = 1,4, и их дисперсий. Выборочные средние ~х\ = 1,43, х2 = 2,4, хз = 4. Значение оценки дисперсии Значения оценок контрастов и их дисперсий равны: Lx = 1,43 - 2,4 = -0,97, D Lx == 1,08 fi + 7) ~ 0,37; \7 5/ Z2 = 1,43-4= -2,57, DL2 = l,08(| + ^) «0,51; = 2,4-4 = -1,60, ^ ,4)-4=-2,08, Следовательно, выборочные значения \t*\ статистики (8.11) равны: - для гипотезы tf^: |t<1}| = l-^gj = ^ % 1,595; - для гипотезы Я^2): |ti2)| = |-^=J = 4^= «3,598; 1 VDL2' ^51 - для гипотезы tff: |fi3)| = I-£_| = -^ и 2,101; - для гипотезы tf^4): \ti4)\ = 1-^=1 = -?£L -3,002. I v/dl4 ' v5^ Критическое значение JKp = ^0,975(12) = 2,179. Так как \t^\ < < tKp и |^в I < ^кр» то гипотезы Hq и Hq принимаются. Гипотезы Н^2) и HJf] отклоняются, ибо \t^\ > tKp и |ti4)| > tKp. Таким образом, значимо различны средние первой и третьей группы, а также среднее арифметическое средних для первых двух групп и среднее третьей группы.
352 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА 8.4. Двухфакторный дисперсионный анализ Рассмотрим случай влияния двух факторов на отклик X. В этом случае дисперсионный анализ основывается на результатах эксперимента, проводимого на различных уровнях каждого из факторов. Будем предполагать, что взаимосвязь между факторами отсутствует*. Для простоты изложения ограничимся случаем, когда для каждой пары уровней рассматриваемых факторов проводится по одному наблюдению. Через 1а обозначим число уровней фактора А, а через /# — число уровней фактора JB. Тогда общее число наблюдений для всех возможных пар уровней факторов А и В равно п = Ia^b* Математическую модель двухфакторного дисперсионного анализа в этом случае можно представить в виде , г=1,/л, j=lJB, (8.12) где X{j — отклик X на г-м уровне фактора А и j-м уровне фактора В; fi0 = MX; a,, /?j — неслучайные величины, характеризующие вклады в Л^, обусловленные действием соответствующих факторов А и В; S{j — случайная величина, характеризующая вклад в X{jt обусловленный действием неучтенных факторов. Предположения, сделанные в 8,2 относительно случайных величин £fp остаются в силе. При этом Ь/LXij = m0 + Oi{ + fij и ai + ... + оцА = fa +... + PiB = 0, что и означает независимость факторов А и В. Поскольку в модели (8.12) взаимодействие факторов отсутствует, проверка гипотез о влиянии факторов ЛиВна отклик X проводится отдельно для каждого фактора. Рассмотрим *См.: Айвазян С.А., Енюков И.С, Мешалкин Л.Д., 1985.
8.4. Двухфакторный дисперсионный анализ 353 критерии для проверки гипотез о влиянии фактора А (фактора В) на отклик X. Введем обозначения Общая сумма квадратов отклонений X{j от выборочного среднего X может быть представлена в виде i=l i=l i=l 1в Ia Ib +1A £(*.,- - X)2 + ££>* - Х{. - X.j + X)2 1=1 i=l i=l (в этом можно убедиться с помощью рассуждений, аналогичных приведенным в 8.2). Отсюда вытекает равенство Q(Xn) = QA (Xn) + QB(Xn) + Q0(Xn), (8.13) где слагаемое обусловлено отличием выборочных средних Х{. и ХЛ т.е. влиянием фактора А на отклик X; слагаемое обусловлено отличием выборочных средних X.j и X, т.е. влиянием фактора В на отклик X; слагаемое 1а 1в t=i j=i учитывает влияние всех факторов, в том числе и неучтенных.
354 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА Проверка гипотез о влиянии факторов Л и В на отклик X основана на сравнении статистик Qa(Xti) и <2в(Хп) с Qo(Xn). Проверим, например, гипотезу Яо о том, что фактор А не влияет на отклик X, т.е. а,- = 0, t = 1, /д- Если гипотеза if0 верна, то при сделанных выше предположениях относительно £tj, г— 1,/д, J' = 1,/в, статистики Яа(Хп)1<т2 и Qo{Xn)/<r2 независимы и имеют у2-распределение с числом степеней свободы 1д — 1 и (1а — 1)(*В - 1) соответственно, а статистики Qo{Xn) (олл\ 1) (8.14) являются несмещенными оценками дисперсии а2 отклика* X. Отсюда следует (см. Д.3.1), что F = Гипотеза //о не противоречит результатам наблюдений, если выборочное значение /в статистики 8\(Хп)/Sl(Xn) не превосходит /Kp = /i-a('i4-li Сл-1)('в-1)) Для заданного деювнл значимости а. В противном случае, т.е. если /в > /кр? гипотезу Яо отклоняют. Если приходится отвергать гипотезу Яо, то может возникнуть необходимость в проверке одной из гипотез щг\ согласно которой влияние на отклик оказывает г-й уровень фактора Л, т.е. проверяют гипотезу Щ: а\ = ... = <*,_! =a1+i = ... = щА = 0, at^0. *См.: Крамер Г.
8.4. Двухфакторный дисперсионный анализ 355 Пусть i = 1, а 1 1а 1в Тогда сумма квадратов Qa{Xu) может быть представлена в виде 'bn), (8.16) где t=2 Действительно, учитывая равенства * 1а 1в л 1а 'в находим 1=1 Ia _ t 2 Ia t=l
356 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА В полученной сумме преобразуем каждое слагаемое по формуле квадрата суммы. В результате находим Е л ,=1 _ ..лА) ~ X») = »=2 + f (X.{2...lA) -Xx-) f А А t=i Так как в силу определения величин Х{. и t"=2 то Поэтому t"=l
8.5. Решение типовых примеров 357 Собирая теперь все слагаемые, получаем t=2 что равносильно (8.16). Для проверки гипотезы щ' по результатам наблюдений используют статистику F = где Ьа\лп) — 1 _2 ' Эта статистика имеет распределение Фишера с числом степеней свободы 1А - 2 и (f^ - 1)(*в - 1), если гипотеза Н^ верна*. Аналогично строятся критерии для проверки влияния фактора В на отклик X. Порядок проведения двухфакторного анализа представим в виде таблицы (табл. 8.3). 8.5. Решение типовых примеров Пример 8.3. Результаты измерений продолжительности (в секундах) химической реакции при различном содержании катализатора даны в табл. 8.4. Проверим гипотезу Но о том, что время химической реакции не зависит от процентного содержания катализатора на уровне значимости а = 0,01. •См.: Крамер Г.
358 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА Таблица 8.3 Источник менчивости Фактор А Фактор В Ошибки Сумма Сумма квадратов QA(Xn) = =/в£(Х.-х)2 t=l QB(Xn) - -/л£(Х.,-х)2 •=ij=i -Xi.-x-j+Tp Qo(Xn) = Число степеней свободы /в-1 (h-l)x х(/В-1) Ыв -1 Средняя сумма квадратов QA(Xn) U-l QB(Xn) /в-1 Qo(Xn) (U-Wb-1) Статистика 5g(Xn) F_s%(xn) S20(Xn) Таблица 84 Содержание катализатора, % 5 10 15 Номер эксперимента 1 5,9 4,0 8,2 2 6,0 5 1 68 3 7,0 8,0 4 6,5 5 3 7 5 5 5,5 4 5 70 6 7,0 44 72 7 8,1 5 3 79 8 7,5 5,4 8,1 9 6,2 5,6 8,5 10 6,4 5,2 7,8 11 7,1 8,1 12 6,9 Сумма по строкам 80,1 51,0 85,1 В этой задаче фактор А — процентное содержание катализатора, а случайная величина X (отклик) — время химической реакции. Для проверки гипотезы Но: fi\ = № = /^з = /^о о равенстве средних значений //;, г = 1,2,3, времени химической реакции при различных уровнях фактора А (5, 10, 15% содержания
8.5. Решение типовых примеров 359 катализатора) используем статистику (8.4) r_QA(Xn)/(l-l) Qt(Xn)/(n-l)' Находим выборочное значение статистики FB по результатам эксперимента. Используя (8.2) и (8.3), вычисляем величины з nk fc=i t=i = 1465,68 - ^-(216,2)2 = 1465,68 - 1416,44 = 49,24 )2i( fc=l ib=l = ^-80,l2 + ^-512+^--85,l2-1416,44 = = 1453,132 - 1416,44 = 36,692. Теперь определяем разность этих величин Qi = Q-Qa = 49,24 - 36,602 = 12,638 и выборочное значение статистики 36,692/2 18,346 /в ~ 12,638/30 ~ 0,421 -4'5'йв- По таблице квантилей распределения Фишера (см. табл. П.5) находим /кр = /О,9э(2,30) = 3,25. Так как /в = 43,47 >/кр = 3,25, гипотезу Но следует отклонить.
360 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА Пример 8,4. В условиях примера 8.3 проверим гипотезы: а. Чтобы проверить гипотезу щ \ воспользуемся статистикой (8.11) Е*Л *=1 t = В данном случае с\ = 1, с2 = —1, сз = 0 (см. 8.3). Найдем значения выборочных средних ж*, к — 1,2,3: х\ = —^- = 6,675, ж2 = —~- = 5,1, ж3 = —j- = 7,736. Затем определим значение fQi /1^638 Наконец, вычислим выборочное среднее значение статистики 6,675-5,1 1,175 в ~ п Г ~ гГТТо /Х+Х 0,119 По таблице квантилей распределения Стьюдента (см. табл. IL2) находим £кр = £0,995(30) = 3,030. Гипотезу Н^ отвергаем, поскольку |tB| = 9,874 >tKp = 3,030. б. В случае гипотезы щ ' имеем _ 5,1-7,736 2,636
8.5. Решение типовых примеров 361 Так как = 21,258 >*кР = 3,030, г(2) то гипотезу Н^ ' отвергаем. Пример 8.5. В табл. 8.5 приведены опытные данные спектрографического исследования с целью проверки влияния различных фотопленок (фактор А) и электродов (фактор В) на величину X (отклик), характеризующую интенсивность света. Таблица 8.5 Уровни фактора B(j) 1 2 3 4 Уровни 1 4 3 6 7 2 18 19 18 13 фактора А(г) 3 26 25 24 21 4 38 35 28 31 5 44 43 39 38 В данном случае фактор А имеет /л = 5 уровней, фактор В — 1в = 4 уровня, число опытов равно n = IaIb = 20. Проверим на уровне значимости а = 0,01 гипотезы: * — отсутствие влияния фактора А на величину X; — отсутствие влияния фактора В на величину X. Для этого рассчитаем «=1 i=l Значения статистик Л",-, и X.j, вычисленные по формулам ,4 j 5 x-3-lA^xtJ1 приведены соответственно в табл. 8.6 и 8.7.
362 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА г ^. 1 20 2 68 Таблица 8.6 3 96 4 132 5 164 i 1 26 Таблица 2 25 3 23 8.7 4 22 Далее вычисляем ^- х)2 = 4(361 +49 + 81 +289) = 3120, QB = .j - х)2 = 5(4 + 1 + 1 +4) = 50, = 400 + 36 + 4+196 + 400 + 441+25+1 + 100 + 361 + + 324 + 36 + 16 + 225 + 289+121+9 + 49 + 196 = 3229. Таблица 8.8 Источник изменчивости Фактор А Фактор В Ошибки Сумма Сумма квадратов Qa - 3120 Qo-59 Q = 3229 Число степеней свободы /.-1-4 Ib-1-З (1,1-1) X х(/в-1)=12 Ыв-1=19 Средняя сумма квадратов С2 **А 7РП с2 QB 1В-1 52 QO =4,92 Статистика = 158,54 =3,39
Вопросы и задачи 363 Находим разность вычисленных величин: Полученные результаты сведем в таблицу (табл. 8.8). Поскольку /. = 158,7 >/кр =/0,01(4,12) = 5,41, то гипотезу Н* следует отвергнуть. Гипотезу ff<f следует принять, так как /в = 3,39 < /кр = /o,oi (3,12) = 5,92. Вопросы и задачи 8.1. В каком случае дисперсионный анализ называют одно- факторным, двухфакторным? 8.2. Какой вид имеет математическая модель (линейная модель) однофакторного дисперсионного анализа? 8.3. Запишите основное тождество дисперсионного анализа в случае: а) действия одного фактора; б) действия двух факторов. 8.4. Что такое линейный контраст? 8.5. Сформулируйте критерии для проверки статистической гипотезы об одинаковом действии фактора на всех уровнях в случае: а) однофакторного дисперсионного анализа; б) двух- факторного дисперсионного анализа. При каких предположениях относительно случайных ошибок эксперимента применяются эти критерии? 8.6. В табл. 8.9 представлены результаты наблюдений над откликом X на пяти уровнях. Проверьте гипотезу Но о равенстве средних на уровне значимости a = 0,05. Ответ: гипотезу о равенстве средних следует отвергнуть.
364 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА Уровень фактора А 1 2 3 4 5 83 84 86 89 90 85 85 87 90 92 Таблица Результаты наблюдений 85 87 90 86 87 91 86 88 87 88 88 88 88 89 8.9 90 8.7. В трех магазинах, продающих товары одного вида, по данным товарооборота (в условных единицах) за 8 месяцев работы была составлена сводка (табл. 8.10). Проверьте на уровне значимости а = 0,01 гипотезу Но о равенстве средних значений товарооборота для магазинов. Бели гипотеза принимается, найдите несмещенные оценки для среднего, и дисперсии товарооборота для всех трех магазинов. Таблица 8.10 Магазин 1 2 3 Месяц 1 19 20 16 2 23 20 15 3 26 32 18 4 18 27 26 5 20 40 19 6 20 24 17 7 18 22 19 8 35 18 18 Ответ: гипотезу о равенстве средних значений товарооборота следует принять; х = 22,08, Sf = £L = 32,64. 8.8. В условиях задачи 8.6 проверьте гипотезы: а) Щ1': /j,i = = /i2 = 0; б) Я<2):/x4 = /i5 = 0; в) Я^3):/i3 = /i4 = 0. Ответ: а) гипотезу следует принять; б) гипотеза отвергается; в) гипотеза отвергается. 8.9. В табл. 8.11 представлены результаты наблюдений над откликом X на пяти уровнях фактора А и трех уровнях фак-
Вопросы и задачи 365 тора В. На уровне значимости a = 0,05 проверьте гипотезы: a) Hq — фактор А не оказывает влияния на отклик; б) Н§ — фактор В не оказывает влияния на отклик. Уровни фактора В (j) 1 2 3 Таблица Уровни фактора / 1 3 8 6 2 со м » 3 6 7 8 4 6 6 7 8.11 1(0 5 8 3 8 Ответ: а) гипотеза принимается; б) гипотеза принимается.
9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ В предыдущих главах при решении задач математической статистики существенную роль играло предположение о виде (с точностью до параметров) закона распределения наблюдаемой случайной величины X. Методы математической статистики, основанные на этом предположении, называют параметрическими. Примерами параметрических методов являются методы нахождения точечных и интервальных оценок математического ожидания гауссовской (т.е. распределенной по нормальному закону) случайной величины X по данным случайной выборки из ее генеральной совокупности. Однако у параметрических методов имеются существенные недостатки. Во-первых, на практике вид распределения наблюдаемой случайной величины очень часто неизвестен. Во- вторых, экспериментальные данные при сборе и обработке информации почти всегда искажаются, что меняет их вид распределения. Поэтому, применяя параметрические методы в условиях такой априорной стохастической неопределенности, необходимо ясно осознавать, что расхождение между параметрической моделью и реальной ситуацией может привести (и приводит) подчас к сильно искаженным или даже неверным результатам*. Следовательно, возникает необходимость в разработке таких статистических процедур, которые, с одной стороны, в ситуации, наиболее благоприятной для параметрических методов, почти не уступали бы им в эффективности, а с другой *См.: Хъюбер Дж.П.; а также: Робастность в статистике. Подход на основе функций влияния / Хампель Ф. и др.
9.1. Одновыборочная задача о сдвиге 367 стороны, были бы малочувствительны к нарушению предположений, лежащих в основе параметрической модели. Такие методы существуют. Они получили название непараметрических методов, так как не требуют знания закона распределения наблюдаемой случайной величины и используют лишь минимальную априорную информацию типа информации о непрерывности или симметрии функции распределения. За последнее время непараметрические методы появились почти во всех разделах математической статистики. Они оказывают серьезную конкуренцию классическим процедурам, основанным, главным образом, на предположении о нормальном законе распределения наблюдаемых случайных величин. Причина этого в том, что непараметрический подход лишь незначительно уступает параметрическому по эффективности, если есть уверенность в истинности параметрической модели (например, в том, что наблюдаемая случайная величина имеет нормальный закон распределения). В то же время при нарушении исходных предположений о законе распределения непараметрические модели могут быть во много раз эффективнее параметрических. Следует отметить, что непараметрические методы с вычислительной точки зрения более трудоемкие, чем параметрические, а иногда и очень сложные. Это сдерживало их применение, хотя многие из них появились еще в 1930-1940-е годы. Однако после появления компьютеров положение изменилось, и теперь во всех наиболее распространенных пакетах прикладных статистических программ реализованы и непараметрические процедуры. 9.1. Одновыборочная задача о сдвиге Выше (см. 2) рассмотрена задача оценивания математического ожидания случайной величины X ~ N^a2) по данным случайной выборки Х\, ..., Хп из ее генеральной совокупности. Что делать, если предположение X ~ iV(//,6r2) не выполняется?
368 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ Например, в примере 4.26 предполагается, что продолжительность времени работы лампы до отказа распределена по нормальному закону. Между тем „время жизни" различных технических устройств обычно описывается не нормальным, а другими распределениями, и прежде всего экспоненциальным*. Можно привести ряд других примеров, когда возникающие при решении практических задач непрерывные случайные величины не имеют нормального распределения, и, следовательно, методы проверки статистических гипотез о математическом ожидании, изложенные в примерах 4.10-4.14, для них не применимы. Все эти задачи можно описать следующей схемой. Пусть £Ь ..., €п — последовательность независимых одинаково распределенных с нулевым математическим ожиданием ненаблюдаемых случайных величин, которые можно интерпретировать как случайные ошибки наблюдений некоторой неслучайной величины 0. В этом случае простейшая математическая модель наблюдений может быть представлена в виде г =l,n, веК, (9.1) где случайные величины Л^, ..., Хп являются независимыми и имеют один и тот же закон распределения, т.е. их совокупность можно рассматривать как случайную выборку из генеральной совокупности некоторой случайной величины X с математическим ожиданием в (если оно существует). Рассмотрим задачу проверки статистической гипотезы Яо: 0 = 0О (9.2) при одной из альтернативных гипотез Нц 0<0О, Н2:в>в0, Н3: вфв0 (9.3) по данным случайной выборки Х\% ..., Хп, где 60 — некоторое известное значение параметра 0. Предположим, что при различных значениях параметра в функции распределения F{x\6) *См.: Гнеденко В.Б., Беляев ЮЖ., Соловьев А.Д.
9.1. Одновыборочная задана о сдвиге 369 и плотности распределения/? (ж \в) каждого элемента Xi, i= 1, n, случайной выборки отличаются сдвигом на величину в. Тем самым параметр 0, не изменяя формы графиков функций F{x\9) ир(ж;9), определяет их положение на плоскости (рис. 9.1). Как правило, в совпадает с математическим ожиданием случайной величины X,-, а при его отсутствии — с медианой или модой. Поэтому задачу (9.2)-(9.3) называют одновыбороч- пой задачей о сдвиге. Если независимые случайные величины €\, ..., еп распределены по нормальному закону с нулевым математическим ожиданием и неизвестной дисперсией <т2, то, согласно (9.1), случайные величины Х\, ..., Хп также являются независимыми, причем Х{ ~ iV(0,6r2), t = 1, п. Таким образом, закон распределения случайной выборки Х^ ..., Хп известен с точностью до параметров, и метод проверки статистической гипотезы (9.2) будет параметрическим (см. пример 4.14). Предположим теперь, что о плотности распределения вероятностей независимых одинаково распределенных случайных величин £,-, г = 1, п, известно лишь то, что она является четной функцией. Оказывается, что даже в такой общей постановке существуют простые методы проверки статистических гипотез о параметре в и оценивания этого параметра. Остановимся на двух наиболее распространенных из этих методов. Критерий знаков. Обозначим через /Со множество функций распределения непрерывных случайных величин, имеющих единственную медиану, которая расположена в точке 0: За-
370 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ метим, что функция распределения случайной величины X ~ ^ N(0,<72) принадлежит множеству /Со, и поэтому предлагаемый ниже критерий знаков применим и для решения задач, традиционно решаемых параметрическими методами. Предположим, что Х\^ ..., Хп — случайная выборка из генеральной совокупности случайной величины X с функцией распределения F(x;0) = F(x - 0), F € Ко- Рассмотрим задачу проверки статистической гипотезы Но (9.2) при альтернативной гипотезе На одного из видов (9.3). Как и для проверки любой статистической гипотезы (см. 4) гипотезу Но естественно отклонить в пользу альтернативной гипотезы Яд, если в результате случайного эксперимента наблюдается некоторое случайное событие, появление которого „практически невозможно" при истинности Но и вероятность появления которого „достаточно велика", если верна На- Построение статистического критерия проверки Но при альтернативной гипотезе На и заключается в выборе такого события. Одним из событий, появление которого „практически невозможно" при истинности //о, является появление очень большого количества чисел одного знака в последовательности Х\ — 0Oj ••«, Хп — в0, или, что то же самое, в последовательности ^(1)-0о> • » ^(п)-^о, (9.4) где Хщ, ..., Х(п) — вариационный ряд случайной выборки Ai, ..., Хп. Действительно, F(x\6), как и всякая функция распределения, является неубывающей, а из единственности медианы следует, что в окрестности нуля она строго возрастает. Поэтому при в> во zeo} = F(eo,e) = F(eo-e)<^ а при в <в0
9.1. Одновыборочная задана о сдвиге 371 Отметим, что распределение случайных величин Xj, ..., Хп определено функцией F(x;0) и зависит от параметра 0. Во избежание путаницы здесь и в дальнейшем вероятность различных событий, порожденных случайной выборкой Х\1 ..., Хп, будем обозначать символом Р#, где индекс в явно указывает на эту зависимость. Итак, если верна альтернативная гипотеза На, то при На = Н\ большинство чисел последовательности (9.4) должны быть положительными, при На = #2 — отрицательными, а при На = Но количество положительных и отрицательных чисел должно быть приблизительно равным, так как в этом случае Именно это свойство наблюдений и лежит в основе критерия знаков. Определим случайную величину S(r) = £>(*;-г), (9.5) где T)(t) — функция Хевисайда, а т £ R — фиксированный параметр. Случайная величина S(r) принимает свои значения s(r) на множестве целых чисел в диапазоне от 0 до п. Очевидно, что ее закон распределения зависит и от г, и от истинного значения параметра в функции распределения F(x;6) случайной величины X. Можно показать, что распределение случайной величины Xi — г, г = 1, п, зависит только от разности в — т. Поэтому от разности в — т будет зависеть и распределение случайной величины 5(г). Следовательно, если в — истинное значение параметра функции F(a;;0), то закон распределения статистики S{0) не зависит от в. Обозначим символом s^ квантиль уровня у (0 ^ у ^ 1) распределения случайной величины S(0q) при условии, что верна
372 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ гипотеза #0« Другими словами, s^ определяется как решение уравнения ^1. (9-6) Заметим, что случайная величина S(#o) дискретна, поэтому решение s^ уравнения (9.6) для некоторых 7 может не существовать. Статистику S(0o) называют статистикой критерил знаков для задачи (9.2)-(9.3), а сам критерий знаков уровня от определяют следующим образом: гипотеза Но отклоняется в пользу альтернативной гипотезы На (это одна из гипотез (9.3) ) на уровне значимости а, если: а) s(e0) > si-a в случае Нл-Нг; б) s(60) < sa в случае Нд = Н2; в) s(90) < sa/2 или s(90) ^ Si_a/2 в случае НА = #з- Смысл критерия знаков прозрачен. Из (9.5) следует, что значение s(#o) статистики £(0о) — это количество положительных чисел в (9.4). Если s(#o) приблизительно равно п/2, т.е. количество положительных чисел приблизительно равно количеству отрицательных, то разумно принять Но, Если же $(#о) близко к п, т.е. почти все числа положительные, То Hq естественно отклонить в пользу Н\. Малые значения s(#o) говорят о том, что, по-видимому, верна альтернативная гипотеза H<i- И наконец, если статистика S(60) принимает значения, существенно отличающиеся от п/2, Но следует отклонить в пользу Я3. Конечно же, для практического использования критерия необходимо уметь находить квантили sa% т.е. знать распределение статистики S(#o) при истинности статистической гипотезы Яо. Ответ на этот вопрос дает следующая теорема. Теорема 9Д. Пусть Х\, ..., Хп — независимые одинаково распределенные случайные величины с функцией распределения F(x;6) = F(x — 6), F 6 /Со, 9 € R. Тогда случайная величина
9.1. Одновыборочная задача о сдвиге 373 S(6q) имеет биномиальное распределение с параметром ре = = l-F(60-6): = k}=C*Pko(l-pe)n-k, Л = М- (9.7) 4 Так как случайные величины Х\, ..., Хп независимы, то независимы и случайные величины т)(Х\ — в0), • • • 1 »7(-Xn — ^о) к^к функции независимых случайных величин [XVI]. Кроме того, Pe{T)(Xi - в0) = 0} = P${Xi < в0} = Р(во,в) = F(e0 - в), i ~ во) = 1} = 1 - Pe{v{*i ~ во) = 0} = 1 - F(0O - в). Таким образом, S(#o) есть сумма независимых случайных величин, каждая из которых имеет биномиальное распределение с параметром р$ = 1 — F(0O — в). Следовательно, S(0O) имеет биномиальное распределение с тем же параметром ре [XVI]. ► Следствие 9.1. При истинности статистической гипотезы Но случайная величина S(0o) имеет биномиальное распределение с параметром р= 1/2. При этом квантили sa и si_a связаны равенством sa = п - 5!_а + 1, 0 < а < 1, (9.8) где п — объем случайной выборки Х\, ..., Хп из генеральной совокупности X. < При истинности статистической гипотезы Яо имеем в = в0. Поэтому P<,o = l-F(0o-0o) = l-F(O) = l-i = i. Так как С* = C£~fc, к = 07п, то для любого к = О^п 141^
374 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ Таким образом, ft=p%{S(»o) < s«} = 2^ с«2 - 2^ °« 2 ~ fc=o * откуда следует (9.8). ► Итак, при истинности статистической гипотезы Но закон распределения случайной величины S(#o) не зависит от функции распределения F случайной величины X. Поэтому для практического применения критерия знаков нужны только таблицы биномиального распределения. Именно в этом смысле критерий проверки #0, основанный на статистике S(0o)> на~ зывается непараметрическим критерием. Конечно же, при истинности альтернативной гипотезы, например Н\% распределение случайной величины S(#o) зависит и от F, и от в — это вытекает из равенства (9.7). В практических задачах условие одинаковой распределен- ности случайных величин Xi, ..., Хп может нарушаться. Например, если эти величины характеризуют измерения, которые проводились различными приборами и в различных условиях, то случайные величины £, = Хх; — 0, % = 1, п, могут иметь уже различные функции распределения ^(ж), хотя по-прежнему из- за отсутствия систематической ошибки измерения Fi(0) = 1/2, г= 1,п. Пример 9.1. Рассмотрим задачу, которая в математической статистике известна как задача парных наблюдений. Пусть для двумерных случайных векторов (У^, Zi), г = 1,п, верно представление
9.1. Одновыборочная задача о сдвиге 375 где в — скалярный параметр, а €{ — независимые одинаково распределенные случайные величины с нулевым математическим ожиданием и непрерывной функцией распределения F. Независимость случайных величин Yi и Z{, г = 1, п, не предполагается, более того, на практике они, как правило, зависимы. Требуется проверить гипотезу (9.2) против одной из альтернативных гипотез (9.3). Эта задача сводится к одновыборочной задаче о сдвиге с моделью (9.1), в которой Х{ = Zi — Yi, i = I, n. В большинстве приложений Y{ и Zi — характеристики одного и того же объекта, полученные при различных условиях эксперимента. Например, Yi и Z{ — артериальное давление у г-го пациента до и после принятия лекарства соответственно, а предположение о неэффективности (бесполезности) лекарства равносильно гипотезе Яо" 0 = 0. Если Y{ и Z{ — упругость г-го образца стали при традиционном и модифицированном способах закаливания, то гипотеза Но: 0 = 0 равносильна предположению об одинаковых упругих свойствах стали при обоих способах обработки. # Критерий знаков можно применять и при различных законах распределения независимых случайных величин е,-, г = 1, п, так как при истинности статистической гипотезы Яо 1 2~2' и следствие 9.1 остается справедливым. Таблицы биномиального распределения* существуют только для небольших значений п. Если же п велико, то квантили sa статистики S(0o) можно вычислять, основываясь на интегральной теореме Муавра — Лапласа. Из этой теоремы следует, что при больших п закон распределения случайной величины S(0o)-MS(0o) *См.: Большее Л.Н., Смирнов И.В.
376 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ хорошо аппроксимируется стандартным нормальным распределением. Это позволяет приближенно вычислять квантили sa при истинности статистической гипотезы //о, а именно, так как распределение S(#o) биномиально, Поэтому при 0 = 0О имеем MS(0o) = ?*/2, DS(0o) = я/4, и, как следствие, п у/п где иа — квантиль стандартного нормального распределения. Выше (см. 4) отмечалось, что при фиксированном объеме случайной выборки управлять вероятностями от и (3 ошибок первого и второго родов одновременно невозможно — при построении критерия с меньшей ошибкой первого рода растет ошибка второго рода и наоборот. Однако при п -» оо, т.е. когда объем информации о распределении F(x — в) растет, естественным требованием к критерию является безошибочное (в пределе) различение основной и, альтернативной гипотез. Это приводит нас к следующему понятию. Определение 9.1. Статистический критерий проверки гипотез называют состоятельным, если для любой вероятности а ошибки первого рода, вероятность (5 ошибки второго рода при п -» оо стремится к нулю. Таким образом, критерий знаков проверки гипотезы HG против альтернатив (9.3) будет состоятельным, если в случае для любого а, 0 < а < 1, <S!_a}-»l При П^ОС, где sa — квантиль распределения статистики 5(0о) с уровнем значимости а, которая определяется формулой (9.6) при 7 =
9.1. Одновыборочная задача о сдвиге 377 Теорема 9.2*. Критерий знаков для одновыборочной задачи о сдвиге является состоятельным. # Перейдем к построению точечных оценок параметра 0 функции распределения F(x - в). Предположим, что #0 отклонена, т.е. функция распределения случайной величины X имеет вид F(x — 0), где бфбо — неизвестный параметр. Как оценить 0 по данным случайной выборки Хь ..., Хп из генеральной совокупности X? В 1963 г. Ходжес и Леман** предложили общий способ построения точечных и интервальных оценок 0, основанный на критериях проверки гипотез о параметре в. Точечная оценка 0(ХП) параметра 0 строится аналогично оценкам максимального правдоподобия. Введем обозначение L(Xn;0) =5(6), подчеркивая, что S(0) является функцией и параметра 0, и случайной выборки Хп из генеральной совокупности X. Функция Ь(Хп;в) при построении оценки параметра 0 будет играть роль функции правдоподобия. Отметим, .что для конкретной реализации хп случайной выборки Хп функция Ь(хп;в) = s(0) есть функция аргумента в. В качестве оценки параметра в возьмем статистику 0(ХП), значение в которой для любой выборки хп удовлетворяет условию (п;) Так как случайная величина S(0) распределена по биномиальному закону, то для каждого в у функции Ь(Хп\в) существует одно или два наиболее вероятных значения [XVI]. Поэтому в качестве значения оценки параметра в нужно взять такое число 0, при котором функция Ь(хп;в) принимает наиболее вероятное значение. Иэ теоремы 9.1 следует, что если 0 — истинное значение параметра, то случайная величина L(Xn;0) имеет биномиальное распределение с параметром 1/2. Поэтому наиболее вероятное значение L(Xn\6) при четном п равно п/2, а при *См.: Хеттманспергер Т. **См.: Hodges J.L.y Jr and Lehmann E.L.
378 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ нечетном п таких значений сразу два: (п - 1)/2 и (п + 1)/2. Возьмем в качестве значения оценки в параметра в решение уравнения L{xn;0) = п 21 — четное; п — нечетное. Заметим, что (9.9) (9.10) *=i где Хщ, ..., X(n) — вариационный ряд случайной выборки Хп (представление S(6) в виде (9.10) называют считающей формой статистики знаков). Отсюда следует, что для любой реализации хп случайной выборки Хп функция L(aTn;0), рассматриваемая как функция от в при фиксированных a?i, ..., жп, является невозрастающеи кусочно-постоянной ступенчатой функцией с „высотой ступеньки", равной единице. На каждом полуинтервале [ж(ф ^(t+i)) функция Ь[хп\в) постоянна и равна п — г, г = 1,гг— 1, при в < хщ Ь[Хп;в) равна гг, а при в ^ х^ L{Xn;0) равна нулю (рис. 9.2). п п-1 п-г п-г-1 2 1 Х(2) — х (п) Рис. 9.2
9.1. Одновыборочная задача о сдвиге 379 В качестве решения в уравнения (9.9) можно брать любое число в полуинтервале U/n\ i х( п Л ) ПРИ четном пив полуинтервале ж/„_х\, х(п±2_\) — ПРИ нечетном. Обычно в качестве в берут медиану реализации случайной выборки afn, полагая { — нечетное. Построенную таким образом оценку в(Хп) называют оценкой Ходжеса — Лемана параметра 0. Для построения интервальной оценки параметра 0, входящего в одновыборочную задачу о сдвиге с моделью (9.1), воспользуемся известными результатами (см. 3) и статистикой S(0), определенной равенством (9.10). Согласно теореме 9.1, при истинности статистической гипотезы Но: в = 0О закон распределения статистики Ь(Хп;в) = = 5(0) не зависит от параметра 0, и, как следствие (см. 3), при а €(0,1) Р*{*«/2 ^ L(Xn;0) < 5г-а/2} = L(X6) } = 1 - а. Как уже отмечалось, функция F(£n;0) при возрастании в убывает скачками величиной 1 в точках вариационного ряда ..., Х(пу Поэтому для любого z = 0, п — 1 неравенство F(xn;6) < п - г верно тогда и только тогда, когда в ^ Z(t-+1). Аналогично для любого г = 1, п неравенство F(xn;0) ^ г верно тогда и только тогда, когда в < Z(n+1_t-). Следовательно, F(xn\6) < «1_а/2 тогда и только тогда, когда в ^ «(п+1.#1-в/2^ а F(xn;0) ^ 5а/2 тогда и только тогда, когда в < S(n+i_5oi/2). Так
380 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ как (см. следствие 9.1) п+ 1 — sa/2 = $i-a/2> TO нижняя в{Хп) и верхняя в(Хп) границы доверительного интервала уровня значимости а для параметра в могут быть определены по формулам (рис. 9.3) в(Хп) = * или по формулам в{Хп) = Х в{Хп) = в(Хп) = (9.12) (9.13) Цх^в) п n+sl-a/2 2 1 G е Рис. 9.3 Пример 9*2* По выборке хп 5,08; 3,51; 5,78; 4,88; 4,66; 3,94; 4,78; 4,99; 5,33; 5,10; 2,17; 5,32; 4,75; 4,09; 3,98; 3,95; 4,86; 4,89; 5,03; 4,36 объема п = 20 из генеральной совокупности X проверим на уровне значимости а = 0,05 гипотезу Яо: в = 0О = 4 против альтернативной гипотезы Щ: в ф в0. Для этого перейдем к
9.1. Одновыборочная задача о сдвиге 381 вариационному ряду вида (9.4), построенному для заданной выборки: -1,83; -0,49; -0,06; -0,05; -0,02; 0,09; 0,36; 0,66; 0,75; 0,78; 0,86; 0,88; 0,89; 0,99; 1,03; 1,08; 1,10; 1,32; 1,33; 1,78. Гипотезу Но нужно отклонить на уровне значимости а в пользу #3, еСЛИ s(6o) < Sa/2 ИЛИ s(0o) ^ $1-а/2- Выборочное значение статистики S(6o) = S(4) совпадает с количеством положительных чисел в построенном вариационном ряде вида (9.4) и равно 15. В таблице квантилей биномиального распределения для п = 20 и р$0 = р* = 0,5 находим ГР4{5(4)^15} = 0,0207, { (9-14) [Р4{5(4)^ 14} = 0,0577. Отсюда следует, что уравнение Р4{5(4)<57} =0,975 не имеет решений, т.е. квантили $i_a/2 = so,975 У статистики S(4) нет. Тем не менее, согласно (9.14), гипотеза Щ отклоняется в пользу #з на уровне значимости a = 2 ■ 0,0207 = 0,0414 < 0,05. Для оценки неизвестного параметра в из вариационного ряда находим *(10) = 4 + 0,78 = 4,78, х(11) = 4 + 0,86 = 4,86. Согласно (9.11), l' v = ^(4,78 + 4,86) = 4,82.
382 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ Из (9.14) следует, что доверительного интервала для параметра в уровня доверия 1 — 0,05 = 0,95 нет. Поэтому построим доверительный интервал уровня доверия 1 - а = 1 — 0,0414 = = 0,9586. В соответствии с (9.14) ^1-а/2 = ^1-0,0207 = ^0,9793 = 15, п + 1 - «1_а/2 = 20 + 1 - 15 = 6. Поэтому с вероятностью 0,9586 ^(6) ^ 0 < ^(15)- Из вариационного ряда находим = 4 + 0,09 = 4,09, = 4 +1,03 = 5,03. Отсюда следует, что доверительный интервал уровня доверия 0,9586 есть (4,09,5,03). # Критерий знаковых рангов Вилкоксона. Определим подмножество /С* множества /Со, состоящее из всех функций распределения F, соответствующих случайным величинам, плотность которых симметрична относительно нуля, т.е. что равносильно условию Отметим, что функция распределения нормальной случайной величины с нулевым математическим ожиданием принадлежит /Сл. Итак, /С, = {F:Fe /Co, F{t) = 1 - F(-t)}. Рассмотрим случайную выборку Хп = (Х\, ..., Хп). Для произвольного г 6R обозначим через Щ(Хп) случайную вели-
9.1. Одновыборочная задача о сдвиге 383 чину, представляющую собой ранг элемента \Х( — т\ случайной выборки |Xi-т|, ..-, |Х„-г|. (9.16) Определим статистику Т(т) в соответствии с формулой T). (9.17) Заметим, что значения t(r) статистики Т(т) — целые числа, наименьшее из которых равно нулю, а наибольшее — п(п+1)/2. Статистику Т(т) называют статистикой знаковых рангов Вилкоксона. Можно показать, что если в — истинное значение параметра в функции F(a;;0) G /С„ то распределение случайной величины Т(т) зависит от разности в — г, и, следовательно, распределение случайной величины Т(в) не зависит от в. В частности, при истинности нулевой гипотезы Но: в = во распределение Т(0о) не зависит от во- Обозначим символом Г7 квантиль уровня у распределения статистики T(0q) при истинности гипотезы #о, определяемую из условия Рво{Т{во)<Т^}=Ъ 0<7<1. (9.18) Критерий знаковых рангов Вилкоксона для проверки гипотезы Но при альтернативной гипотезе одного из трех возможных видов (9.3) построим следующим образом. Гипотезу Но отклоним в пользу гипотезы Н\: 0 < во на уровне значимости а, 0 < а < 1, если выборочное значение £(#о) статистики Т(во) удовлетворяет неравенству г(в0) > Ti-a. Аналогично гипотезу Но отклоним в пользу гипотезы Н?: 8>6О на уровне значимости а, если t(60) < Та.
384 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ И наконец, Яо отклоним в пользу двусторонней альтернативной гипотезы #з#. О ф во, если или Это правило мотивируется следующими соображениями. Во-первых, Р{Х{ — 0о > 0} > 1/2 в случае в > во, и, во-вторых, чем больше 0, тем больше вероятность Р{Х» — 0о>О},г = 1,гс, Поэтому с ростом в растет вероятность того, что в случайной сумме (9Л7) достаточно большим будет и количество ненулевых слагаемых, и каждое слагаемое. Следовательно, большие выборочные значения t(0o) статистики Т(во) должны свидетельствовать об истинности Н\. Аналогичные доводы можно привести для обоснования отклонения критерием гипотезы Яо в пользу Н% и Яз. Заметим, что в отличие от статистики S(r) критерия знаков статистика Т(т) зависит не только от знака каждой разности Xi — г, но и от ее абсолютной величины, т.е. от расстояния между значениями наблюдения и т. Эта зависимость как раз и определяется рангом Ri(Xn). Оказывается*, что если в — истинное значение параметра функции F(s;0), то распределение статистики Т(в) не зависит не только от 0, но и от F(i) и имеет достаточно простой вид. В частности, при истинности Но, т.е. при 0 = 0О> распределение Т(во) зависит только от п. При истинности Яо и небольших п распределение Т(во) при Яо табулировано. Имеются несложные рекуррентные формулы для вычисления вероятностей** Р${Т(в) = к},к = 0, п(п +1)/2. Если п велико, то для Та существуют приближенные формулы, основанные на аппроксимации распределения статистики Т(в) нормальным распределением. *См.: Хеттманспервер Т. **См. там же.
9.1. Одновыборочная задача о сдвиге 385 Известно*, что для любого t G К при п -> оо где Ь/1еТ(в) и DeT(6) — соответственно математическое ожидание и дисперсия случайной величины Т(0), вычисленные в предположении, что в — истинный параметр функции F{x;$). Для этих величин верны формулы п{п+1)(2п+1). (9.19) Этот факт позволяет для вычисления квантилей Та при больших п пользоваться нормальным приближением (9.20) где ua — квантиль уровня а стандартного нормального распределения. В основе построения точечных и интервальных оценок параметра в при F £ /Cs лежат уже рассмотренные идеи Ходжеса и Лемана. Сначала определим N = п(п+ 1)/2 случайных величин Vi, ..., V}v вида !(* + *,-), *,J = T^, t<j, (9.21) называемых средними Уолша. Оказывается, что статистике Т(0) можно придать форму, схожую со статистикой знаков S(0), а именно**: -в). (9.22) *См.: Хеттманспергер Т. **См. там же.
386 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ Фактически статистика Т(в) — это статистика критерия знаков S(0) вида (9.5), построенная по случайной „выборке" V\,..., V]\[. Точечную и доверительную оценки параметра 0, основанные на статистике Т(0)л получают по формулам (9.9)-(9.13) с заменой в них п на ЛГ, Xk на V^, S(0) на Т(в). В качестве оценки 0(Хп) параметра в используют медиану последовательности * N ~четное; (9.23) 7jv+i\, N — нечетное. V 2 ) Доверительный интервал уровня доверия 1 — 2а, основанный на статистике Т(0), определяется либо неравенствами Vo/a) < ° < V(N+l-Ta/2), (9.24) либо неравенствами V(Tl_/2), (9.25) риационного ряда V^j, ..., l^^j с соответствующими номерами, а Та/2 и Т\_а/2 — квантили уровней а/2 и 1 - а/2 статистики Т(0) при истинном значении б, которые находятся в соответствии с формулой (9.18). Пример 9.3. Имеется выборка наблюдений -1,90; -2,53; -0,53; -1,04; 1,98; 1,22 (9.26) объема п = 6. На уровне значимости a = 0,05 проверим гипотезу Нош. в = 0о> где 0о = —2, против альтернативной гипотезы Н\\ в < во. Для этого перейдем от исходной выборки (9.26) к выборке вида (9.16) с т = —2: 0,10; -0,53; 1,47; 0,96; 3,98; 3,22,
9.1. Одновыборочная задача о сдвиге 387 имеющей вариационный ряд -0,53; 0,10; 0,96; 1,47; 3,22; 3,98. (9.27) В данном случае последовательность рангов имеет вид 2; 1; 4; 3; 6; 5. (9.28) Поэтому, согласно (9.17), t(—2) = 19. По таблицам находим Р_2{Т(-2)^ 18} = 0,078; Р_2{Т(-2) ^ 19} = 0,047; (9.29) 2)^ 20} = 0,031. Видно, что квантили 7о,95 У распределения случайной величины Т(—2) не существует. Тем не менее, как следует из (9.29), Но отклоняется в пользу Н\ даже на более низком уровне значимости a = 0,047. Для нахождения значения в оценки в(Хп) параметра в вычислим N = п(п+ 1)/2 = 21 значений vi, ..., vjv средних Уолша (9.21) наблюдений (9.26). Возрастающая последовательность значений средних Уолша будет иметь вид -2,53; -2,26; -2,00; -1,78; -1,53; -1,52; -1,26; -1,04; -0,78; -0,65; -0,53; -0,39; -0,27; -0,01; 0,09; 0,35; 0,47; 0,73; 1,22; 1,60; 1,98. Так как число N = 21 нечетное,, медиана последовательности средних Уолша равна v/ii±L\ = V(U) = —0,53. Значит, Построим доверительный интервал уровня доверия 1 — a = = 1 - 0,062 = 0,938, где а/2 = 0,031. Из (9.29) находим, что = 20, N +1 - 2i_a/2 = 21 +1 - 20 = 2.
388 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ Поэтому из (9.25) следует, что с вероятностью 0,938 Так как v/2) = —2,26, v/2o) = 1,60, то доверительный интервал для параметра в уровня доверия 0,938 есть (—2,26, 1,60). 9,2. Двухвыборочная задача о сдвиге Пусть Е\, .. •, £т+п — независимые одинаково распределенные ненаблюдаемые случайные величины с функцией распределения F G /Со- Определим наблюдаемые случайные выборки Хт = (Х\, ..., Хт) и Уп = (Уь ..., Yn) следующим образом: где 0Х и ву — неизвестные параметры сдвига. Функция распределения случайной величины X,- равна F(x]0x), i = l,m, a функция распределения случайной величины Yj равна F(ar;0y), j = l,n- Обычно случайную выборку Х\у ..., Хт называют контрольной выборкой (или выборкой из контрольной совокупности), a Yi, ..., Yn — рабочей или экспериментальной выборкой. Например, Ль ..., Хш могут быть измерениями некоторой характеристики изделия, изготовляемого по традиционной технологии, a Yi, ..., Yn — по новой экспериментальной. На практике исследователей обычно интересует неизвестный параметр в = 6у-вх, (9.30) представляющий собой сдвиг в положении, обусловленный переходом на новую технологию. Задачу проверки статистической гипотезы Но: в = во против одной из альтернативных гипотез H\i в < во, Н<£ в > во
9.2. Двухвыборочная задача о сдвиге 389 или #з: бфбо называют двухвыборочной задачей о сдвиге. Таким образом, задачи, рассмотренные в примерах 4.25, 4.26, 9.1 а также задачи 4.32, 4.33 являются частными случаями двухвыборочной задачи о сдвиге. Заметим, что если случайные величины £{ имеют нормальное распределение, то нормально распределены и случайные величины X,-, г = 1, т, У,, j = 1, гс. Поэтому решение двухвыборочной задачи о сдвиге может быть получено при помощи критерия Стьюдента (см. пример 4.14). При решении задач проверки гипотезы Но против одной из альтернативных гипотез #i, #2, #3, а также при построении точечной и интервальной оценок для в применяется та же схема, что и в случае одновыборочной задачи о сдвиге (см. 9*1). Для произвольного гбК обозначим через Rj(Xm,Yn) ранг элемента Yj — т, j = 1, п, в объединенной случайной выборке X \, ♦.., лт, У\ — г, ..., Yn — т и рассмотрим статистику (9.31) называемую статистикой рангов Вилкоксона или ранговой статистикой Вилкоксона. Значения w(r) случайной величины W(t) — целые числа в диапазоне от п(п+ 1)/2 до т + п(п+ 1)/2. Рассуждая так же, как и выше (см. 9.1), убеждаемся в том, что если ву -вх = в, то функция распределения случайной величины W(r) зависит лишь от разности в — г, и, в частности, распределение случайной величины W(0) не зависит от в. Обозначим через W^ — квантиль уровня 7 распределения W{6) при 6у-6х = в, т.е. Pe{W(0) < W7} = 7, 0 < 7 < 1.
390 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ Эмпирическое обоснование двухеыборочного критерия Вилкоксона для проверки основной гипотезы Но против одной из альтернативных гипотез Н\^ Нъ, #з состоит в следующем. Чем больше в в (9.30), тем более вероятно, что значения Уъ •••! Уп случайных величин Yu •••» Yn превысят значения а?1, ..., хш случайных величин Х\, ..., Хт. Следовательно, при больших в ранги Rrj{Xm,Yn), j= 1, щ а вместе с ними и W^flo) при фиксированном в0, имеют тенденцию принимать большие значения. Напротив, при в < во значения случайных величин Vi,...,ynB основном меньше, чем значения случайных величин Х\, ..., ХШ) что приводит к небольшим значениям случайных величин Kj(XmiYn), j = 1, п, а следовательно, и к небольшим значениям w(0o) статистики W(0o)- После этих наводящих соображений определим двухвыбо- рочный критерий Вилкоксона. При проверке гипотезы Но против #i на уровне значимости а при помощи двухвыборочно- го критерия Вилкоксона основную гипотезу Щ нужно принять, если W($O) > Wi-a, и отклонить, если t!7(0O) < И^1_а, где W\-a — квантиль уровня 1 — а распределения W{0o) при истинности основной гипотезы Щ. При проверке Но против альтернативной гипотезы #2 гипотезу Но следует принять, если и отклонить при При проверке Но против альтернативной гипотезы #з гипотезу Но принимают, если Wa/2<w(60)<Wl_a/2, и отклоняют в противном случае.
9.2. Двухвыборочная задача о сдвиге 391 В некоторых справочниках приведены квантили не статистики рангов Вилкоксона (9.31), а квантили статистики Манна — Уитни С/(т), которая определяется следующим образом: r)' (9-32) где 7] — функция Хевисайда, V\, V2, ..., Ушп — последовательность всевозможных разностей вида Yj — X», % = 1, m, j = 1, n, a ^(i)? ^(2)> •••> V(mn) — вариационный ряд „случайной выборки" Можно показать, что статистики W(r) и С/(т) отличаются на неслучайную величину (9.33) Поэтому, во-первых, квантили W*y и £/7 статистик И^(в) и U(0) при 6у — 0Х = 6 связаны равенством ±2! (9-34) а во-вторых, у статистики 1У(т), так же как у статистик S(r) и Т(г), есть считающая форма (9.32). Если тип велики, то можно вычислять квантили W7 по приближенным формулам. Известно*, что если тип стремятся к бесконечности так, что т/(т + п) -* А, 0 < А < 1, то для любого t 6 R. I *См.: Хеттманспергер Т.
392 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ где математическое ожидание M$W(6) и дисперсия H$W(0) статистики W{&) определяются по формулам 2 12 (9.36) Поэтому где иу — квантиль уровня у стандартного нормального распределения . Так же как и при построении точечных оценок в одно- выборочной задаче (см. 9.1), значение в оценки Ходжеса — Лемана 6(Xm,Yn) параметра 0 = 6У — 6Х в двухвыборочной задаче определяется как такое число 0, при котором для выборок Хи •••? #т, У\, •••, Уп достигается максимум значений w{0) статистики W(в) или, что то же самое, значений и(в) статистики U(в). Рассуждения, аналогичные рассуждению при построении оценок Ходжеса — Лемана в одновыборочной зада- че, приводят к тому, что 6{Xm,Yn) — медиана вариационного ряда К(1), Vp), ..., V{mn): 2 (Vl^) + V{2*+i))' ШП~ четное' 0(Xm,Yn)=l 2VUj U+lj/ (9.38) ( — нечетное. При построении интервальной оценки для параметра в в двухвыборочной задаче также сохраняется схема, использовав- шалея в одновыборочной задаче (см. 9.1). Для статистики Манна — Уитни Р*о {Ua/2 < U(0o) < U^a/2} = 1 - а. Из определения U(t) в (9.32) следует, что w(r) является не- возрастающей кусочно-постоянной функцией от г, убывающей
9.2. Двухвыборочная задача о сдвиге 393 скачками в точках v^\, к — 1, тпп, и равной тпп — i на полуинтервале [v(jj, V(t+i))> i = l, mn - 1, где V{ — значение V;, г = 1, тпп. Поэтому доверительный интервал уровня доверия 1 — а определяется либо неравенствами v(UQ/2)<0<V(mn+i-uQ/2), (9.39) либо неравенствами Используя в неравенствах (9.39) и (9.40) квантили статистики Манна — Уитни, которые выражаются через квантили статистики Вилкоксона по формуле (9.34), получим еще два представления доверительного интервала: Пример 9.4. Рассмотрим выборку объема тп = 6 3,9; 4,3; 4,4; 4,6; 4,9; 5,8 из генеральной совокупности X и выборку объема п = 5 7,7; 8,1; 8,3; 8,6; 8,9 из генеральной совокупности Y. Предположим, что функции распределения генеральных совокупностей X и Y отличаются лишь сдвигом на неизвестную величину в G Е. Проверим на уровне значимости a = 0,05 гипотезу Но: в = в0 при во = 3 против альтернативной гипотезы Нч'- в < #0- Объединим обе выборки и построим вариационный ряд объединенной выборки, предварительно вычтя из всех элементов
394 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ второй выборки во = 3: 3,9; 4,3; 4,4; 4,6; 4,7; 4,9; 5,1; 5,3; 5,6; 5,8; 5,9. Из этого вариационного ряда находим последовательность значений рангов R\(Xm,Yn), ..., t^(Xm,Yn) элементов второй выборки в объединенной выборке: 5; 7; 8; 9; И. Затем по формуле (9.31) получаем w(6q) = w(3) = 40, а по таблицам распределения статистики W(3) при га = 6, п = 5 находим 39} = 0,063, 40} = 0,041, (9.43) 41} = 0,026. Таким образом, квантили Wb,95 при га = 6, п = 5 не существует. Из (9.43) видно, что Но отклоняется на уровне значимости а = 0,041 в пользу Н\. Чтобы найти значение в оценки в(ХШ1Уп) Ходжеса — Ле- мана для параметра сдвига 0, рассмотрим вариационный ряд V(ij, Vjr2)f ..., V(mn) для последовательности разностей Yj — X{% который в данном случае имеет вид -2,00; -1,70; -1,60; -1,50; -1,40; -1,30; -1,30; -1,20; -1,20; -1,00; -1,00; -1,00; -0,90; -0,80; -0,80; -0,70; -0,70; -0,70; -0,50; -0,40; -0,40; -0,30; -0,20; -0,10; -0,10; 0,20; 0,20; 0,50; 0,70; 1,10. Так как ran = 6 • 5 = 30, то выборочная медиана вариационного ряда К(1), V(2)i ---I V(mn) есть
9.3. Решение типовых примеров 395 При построении доверительного интервала для в уровня доверия 1 - а = 0,95 нужно найти квантиль Wa/2 или И^_а/2, где а = 0,025. Из (9.43) видно, что нельзя построить доверительный интервал при а/2 = 0,025, но можно при а/2 = 0,026. Так как И^-ссюб = Wb,974 = 41, то из (9.43) получаем п(п+ I) 7ПП+1+ У ^ - Wi-<*/2 = 30+1 + 15-41 = 5, Поэтому используя вариационный ряд V(i), V(2)> находим Отсюда и из (9.42) вытекает, что с вероятностью 0,949 т.е. доверительный интервал параметра в с уровнем доверия 0,949 есть (-1,4,0,2). 9.3. Решение типовых примеров Пример 9.5. Для определения предела текучести некоторой марки стали по просьбе заказчика, которому была необходима сталь с пределом текучести в 30^^, были проведены стандартные испытания п = 25 образцов. Результаты испытаний (в ^^) следующие: 32,00; 30,69; 35,68; 34,41; 41,95; 40,05; 32,63; 32,77; 30,41; 28,84; 29,70; 28,61; 34,39; 35,48; 29,97; 34,80; 30,45; 30,36; 34,66; 30,71; 33,19; 29,49; 29,60; 28,43; 29,29.
396 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ Выясним, удовлетворяет ли данная марка стали требованиям заказчика, и оценим по результатам экспериментов истинный предел ее текучести. Другими словами, проверим по заданной выборке основную гипотезу Но вида (9.2) о том, что во = 30, против альтернативной гипотезы Н$ о том, что во ф 30. Гипотезу Но будем проверять при помощи критерия знаков. Вариационный ряд рассматриваемой выборки имеет вид 28,43; 28,61; 28,84; 29,29; 29,49; 29,60; 29,70; 29,97; 30,36; 30,41; 30,45; 30,69; 30,71; 32,00; 32,63; 32,77; 33,19; 34,39; 34,41; 34,66; 34,80; 35,48; 35,68; 40,05; 41,95. Выборочное значение статистики 5(30), вычисленное в соответствии с формулой (9.5) по заданной выборке, равно 17. По таблице распределения 5(30) для п = 25 находим Рзо{5(30) ^ 17} = 0,0539, Рзо{5(30) ^ 18} = 0,0216. Поэтому гипотеза #0 отклоняется на уровне значимости а < < 0,0539 и принимается на уровне значимости а ^ 0,0539. Неизвестный параметр в оценим медианой вариационного ряда рассматриваемой выборки. Эта медиана равна 30,71. Построим доверительный интервал уровня доверия 1 — а, где а/2 = 0,0216. Так как Si_a/2 = 18, то с вероятностью 1-а= 0,9568 0 < Поскольку X(S) = 29,97, А^18) = 34,39, то с вероятностью 0,9568 29,97 ^ в < 34,39. Пример 9.6. Решим предыдущую задачу (см. пример 9.5) при помощи критерия знаковых рангов Вилкоксона.
9.3. Решение типовых примеров 397 Упорядоченный массив средних Уолша выборки из примера 9.5 состоит из ЛГ = 325 чисел и имеет вид 28,43; 28,52; 28,61; 28,64; 28,72; 28,84; 28,86; 28,95; 28,96; 29,02; 29,05; 29,06; 29,06; 29,11; 29,15; 29,17; 29,20; 29,22; 29,27; 29,29; 29,29; 29,39; 29,39; 29,40; 29,42; 29,44; 29,45; 29,48; 29,49; 29,49; 29,51; 29,53; 29,55; 29,56; 29,57; 29,60; 29,60; 29,60; 29,62; 29,63; 29,64; 29,65; 29,65; 29,66; 29,70; 29,73; 29,76; 29,77; 29,79; 29,82; 29,83; 29,85; 29,87; 29,93; 29,95; 29,97; 29,97; 29,98; 29,99; 30,00; 30,01; 30,03; 30,03; 30,05; 30,07; 30,09; 30,10; 30,15; 30,16; 30,16; 30,19; 30,19; 30,20; 30,21; 30,22; 30,30; 30,33; 30;34; 30,36; 30,38; 30,40; 30,41; 30,42; 30,43; 30,45; 30,52; 30,53; 30,53; 30,55; 30,56: 30,57; 30,58; 30,60; 30,62; 30,64; 30,69; 30,69; 30,70; 30,71; 30,73; 30,75; 30,80; 30,81; 30,81; 30,85; 30,90; 30,96; 30,98; 31,02; 31,03; 31,06; 31,12; 31,13; 31,16; 31,18; 31,19; 31,20; 31,22; 31,23; 31,24; 31,30; 31,34; 31,34; 31,35; 31,37; 31,40; 31,41; 31,42; 31,44; 31,49; 31,50; 31,51; 31,52; 31,54; 31,55; 31,56; 31,58; 31,59; 31,61; 31,61; 31,62; 31,63; 31,64; 31,66; 31,67; 31,70; 31J3; 31,74; 31,75; 31,77; 31,80; 31,82; 31,82; 31,84; 31,85; 31,94; 31,94; 31,95; 31,95; 31,96; 31,97; 32,00; 32,00; 32,01; 32,04; 32,04; 32,05; 32,05; 32,06; 32,08; 32,13; 32,14; 32,15; 32,16; 32,18; 32,18; 32,19; 32,20; 32,25; 32,26; 32,31; 32,31; 32,38; 32,38; 32,38; 32,38; 32,39; 32,40; 32,41; 32,42; 32,43; 32,48; 32,49; 32,51; 32,53; 32,54; 32,54; 32,55; 32,55; 32,56; 32,56; 32,58; 32,59; 32,59; 32,60; 32,60; 32,62; 32,63; 32,64; 32,67; 32,68; 32,69; 32,70; 32,72; 32,74; 32,75; 32,77; 32,82; 32,91; 32,92; 32,94; 32,96; 32,98; 33,02; 33,04; 33,06; 33,08; 33,09; 33,18; 33,19; 33,19; 33,20; 33,20; 33,33; 33,40; 33,51; 33,52; 33,58; 33,59; 33,64; 33,71; 33,72; 33,74; 33,78; 33,79; 33,80; 33,84:, 33,93; 33,99; 34,05; 34,13; 34,15; 34,23; 34,24; 34,33; 34,33; 34,3^ 34,40; 34,41; 34,44; 34,45; 34,53; 34,54; 34,60; 34,60; 34,66; 34,67"; 34,73; 34,77; 34,80; 34,83; 34,87; 34,94; 34,94; 35,01; 35,04; 35,05; 35,07; 35,14; 35,17; 35Д9; 35,21; 35,23; 35,24; 35,25; 35,28; 35,37; 35,38; 35,39; 35,48; 35,58; 35,62; 35,68; 35,72; 35,78; 35,82; 35,96; 36,03; 36,15; 36,18; 36,20; 36,32; 36,33; 36,34; 36,41; 36,62; 36,97; 37,22; 37,23; 37,29; 37,36; 37,36; 37,43; 37,57; 37,77; 37,87; 38,17; 38,18; 38,30; 38,37; 38,71; 38,81; 40,05; 41,00; 41,95. Проверим гипотезу Яо против альтернативной гипотезы Яз на уровне значимости а = 0,05. Значение статистики Т(30),
398 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ совпадающее с числом членов вариационного ряда выборки, превышающих 30, будет равно 265. По формулам (9.19) находим МзоТ(ЗО) = ^-^ = 162,5, БзоТЧЗО) = 25^51 = 1381,25, 4 z4 37,165. Поэтому, согласно (9.20), Та « 162,5 + иа- 37,165. Для а = 0,05 по таблице квантилей стандартного нормального распределения (см. табл. П.2) находим иа/2= 1?96. Поэтому ?о,975 и 235,34. Так как 265 > 235,34, то гипотеза Яо отклоняется. Параметр в оценивается медианой упорядоченного массива средних Уолша, которая есть 163-й элемент массива и равна 32,00. Построим доверительный интервал уровня доверия а = 0,95. Так как Тг_а/2 = Тодо = 235,34, то, согласно формуле (9.25), нижняя и верхняя границы этого интервала есть 90-й и 236-й элементы упорядоченного массива средних Уолша. Поэтому с вероятностью 0,95 30,56 ^в< 33,51. Пример 9.7. Даны выборка 0,00; -0,53; 1,47; 0,96; 3,98; 3,22; 0,25; 0,31; -0,64; -1,26; -0,92; -1,36; 0,96; 1,39; -0,81; 1,12; -0,62; -0,66; 1,07; -0,52; 0,48; -1,00; -0,96; -1,43; -1,09 объема m = 25 из распределения Коши с плотностью
9.3. Решение типовых примеров 399 и выборка -0,88; 0,49; -0,98; -0,02; 0,41; -0,65; -0,85; -0,45; -0,64; 0,59; -0,09; -0,50; -0,81; 0,17; -0,63; 0,40; -0,09; -0,46; 0,68; 0,29; -0,71; 0,99; 0,02; -0,17; -0,00; -0,24; -0,59; -0,43 объема 71 = 28 из равномерного распределения на отрезке [—1,1] с плотностью ру(х)- Проверим при помощи критерия Смирнова гипотезу о равенстве функций рх и ру. Вариационный ряд объединенной выборки имеет вид -1,43; -1,36; -1,26; -1,09; -1,00; -0,98; -0,96; -0,92; -0,88; -0,85; -0,81; -0,81; -0,71; -0,66; -0,65; -0,64; -0,64; -0,63; -0,62; -0,59; -0,53; -0,52; -0,50; -0,46; -0,45; -0,43; -0,24; -0,17; -0,09; -0,09; -0,02; -0,00; 0,00; 0,02; 0,17; 0,25; 0,29; 0,31; 0,40; 0,41; 0,48; 0,49; 0,59; 0,68; 0,96; 0,96; 0,99; 1,07; 1,12; 1,39; 1,47; 3,22; 3,98. Соответствующие им величины £, г = 1, iV, вычисленные по формуле (5.15), таковы: 0; 0; 0; 0; 0; 1; 0; 0; 1; 1; 1; 0; 1; 0; 1; 1; 0; 1; 0; 1; 0; 0; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 0; 1; 1; 0; 1; 0; 1; 1; 0; 1; 1; 1; 0; 0; 1; 0; 0; 0; 0; 0; 0. Поэтому D = 0,473, Так как тип велики, то для проверки гипотезы Щ воспользуемся асимптотической формулой (5.13), в соответствии с которой '25-28 > 1,718} «0,004.
400 Я НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ Поэтому гипотезу Но следует отклонить на уровне значимости а ^ 0,004. Проверим эту же гипотезу с помощью двухвыборочного критерия Вилкоксона. Вычисляя по формулам (9.32) - (9-33) при в0 = 0 реализацию w(0) случайной величины W(0), получим w(0) = 754. Так как тип велики, то для нахождения квантилей распределения статистики рангов Вилкоксона воспользуемся приближенной формулой (9.37), выражающей их через квантили стандартного нормального распределения. Имеем 754-756 — U.UoD. y/BoW(0) у/Ш0 По таблицам квантилей стандартного нормального распределения находим J Поэтому двухвыборочный критерий Вилкоксона гипотезу об однородности не отклоняет. Это произошло из-за того, что медианы обоих распределений совпадают (равны нулю), а не сдвинуты относительно друг друга. Вопросы и задачи 9.1. Какие методы математической статистики называются непараметрическими? 9,2« В чем преимущества и недостатки непараметрических методов по сравнению с классическими? 9.3. Дайте определение одновыборочной задачи о сдвиге. 9.4. В какой ситуации лучше всего применять методы, основанные на статистике критерия знаков?
Вопросы и задачи 401 9.5. В какой ситуации лучше всего применять методы, основанные на статистике критерия знаковых рангов Вилкоксона? 9.6. Таблицы какого распределения достаточно иметь для решения одновыборочной задачи при помощи критерия знаков? 9.7. Какой критерий называется состоятельным? 9.8. Дайте определение ранга элемента числовой последовательности. 9.9. Какая задача называется двухвыборочной задачей о сдвиге? 9.10. Можно ли применять критерии знаков и знаковых рангов Вилкоксона для проверки гипотез о математическом ожидании нормального распределения? 9Л1. Что называется средними Уолша? 9.12. Какие критерии называются критериями согласия? 9.13. Можно ли гипотезу о параметре сдвига в двухвыборочной задаче проверять не ранговым критерием Вилкоксона, а критерием Смирнова? 9.14. Являются ли состоятельными критерии Колмогорова, (J1 и Смирнова? 9.15. В каких случаях в двухвыборочной задаче лучше применять критерий Колмогорова, критерий о;2 и двухвыборочный критерий Вилкоксона? 9.16. Докажите теорему 9.2 о состоятельности критерия знаков. Указание: при помощи центральной предельной теоремы аппроксимировать квантили статистики критерия знаков квантилями нормального распределения. 9.17. Докажите, что определения статистики Т(т) по формулам (9.17) и (9.22) равносильны.
402 9. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ СТАТИСТИКИ 9.18. Найдите математическое ожидание и дисперсию статистики Т(т) знаковых рангов Вилкоксона (см. формулу (9.19)). 9.19. Докажите формулы (9,36). 9.20. Докажите асимптотическую нормальность статистики W(t). 9.21. Для проверки влияния нейтронного облучения на деформируемость меди были проведены эксперименты на растяжение двух партий образцов. В первой необлученной (контрольной) партии из 13 образцов результаты экспериментов при деформации 0,5 оказались следующими: 6,01; 6,23; 5,75; 6,17; 5,97; 6,22; 6,19; 5,94; 6,01; 5,87; 6,23; 5,78; 5,99. Вторая партия из 13 образцов после облучения потоком нейтронов интенсивностью 2 • 1018 нейтрон/см2 при той же деформации 0,5 привела к следующим результатам: 5,75; 5,86; 6,13; 6,18; 5,63; 5,74; 5,97; 5,49; 6,22; 5,79; 6,32; 5,45; 6,03. Изменяется ли прочность меди после облучения? 9.22. Для упрочнения алюминиевых изделий используется операция нагартовки (наклепа), заключающаяся в пластической деформации. Семь образцов алюминия были подвержены 2%-ной нагартовке, а десять образцов — 5%-ной. Прочность (в —^) образцов первой партии составила 17; 18; 16; 19; 15; 20; 14, а второй 21; 22; 20; 23; 19; 24; 18; 21,5; 20,6. Можно ли на основании этих данных сделать вывод об увеличении прочности алюминия при увеличении пластической деформации?
ПРИЛОЖЕНИЕ Таблица ПЛ Функция распределения Ф(х) 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 0,5000 0,5398 0,5793 0,6179 0,6554 0,6915 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,9987 0,9990 0,9993 0,9995 0,9997 0,5040 0,5438 0,5832 0,6217 0,6591 0,6950 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,9987 0,9991 0,9993 0,9995 0,9997 0,5080 0,5478 0,5871 0,6255 0,6628 0,6985 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,9987 0,9991 0,9994 0,9995 0,9997 0,5120 0,5517 0,5910 0,6293 0,6664 0,7019 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,9988 0,9991 0,9994 0,9996 0,9997 0,5160 0,5557 0,5948 0,6331 0,6700 0,7054 0,7389 0,7704 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,9988 0,9992 0,9994 0,9996 0,9997 0,5199 0,5596 0,5987 0,6368 0,6736 0,7088 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,9989 0,9992 0,9994 0,9996 0,9997 0,5239 0,5636 0,6026 0,6406 0,6772 0,7123 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,9989 0,9992 0,9994 0,9996 0,9997 0,5279 0,5675 0,6064 0,6443 0,6808 0,7157 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,9989 0,9992 0,9995 0,9996 0,9997 0,5319 0,5714 0,6103 0,6480 0,6844 0,7190 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,9990 0,9993 0,9995 0,9996 0,9997 0,5359 0,5753 0,6141 0,6517 0,6879 0,7224 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9Q81 0,9986 0,9990 0,9993 0,9995 0,9997 0,9998
Таблица П.2 Квантили нормального распределения р я 0,9 1,282 0,95 1,645 0,975 1,960 0,99 2,326 0,995 2,576 0,999 3,090 0,9995 3,291 Таблица IL3 Квантили распределения х2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 0,005 3,9Е-05 0,010 0,072 0,21 0,41 0,68 0,99 1,34 1,73 2,16 2,60 3,07 3,57 4,07 4,60 5,14 0,01 0,0002 0,02 0,11 0,30 0,55 0,87 1,24 1,65 2,09 2,56 3,05 3,57 4,11 4,66 5,23 5,81 0,025 0,001 0,051 0,22 0,48 0,83 1,24 1,69 2,18 2,70 3,25 3,82 4,40 5,01 5,63 6,26 6,91 0,05 0,004 0,10 0,35 0,71 1,15 1,64 2,17 2,73 3,33 3,94 4,57 5,23 5,89 6,57 7,26 7,96 0,1 0,02 0,21 0,58 1,06 1,61 2,20 2,83 3,49 4,17 4,87 5,58 6,30 7,04 7,79 8,55 9,31 0,2 од 0,45 1,01 1,65 2,34 3,07 3,82 4,59 5,38 6,18 6,99 7,81 8,63 9,47 10,31 11,15 0,3 од 0,71 1,42 2,19 3,00 3,83 4,67 5,53 6,39 7,27 8,15 9,03 9,93 ю;82 11,72 12,62 0,7 1,1 2,41 3,66 4,88 6,06 7,23 8,38 9,52 10,66 11,78 12,90 14,01 15,12 16,22 17,32 18,42 0,8 1,6 3,22 4,64 5,99 7,29 8,56 9,80 11,03 12,24 13,44 14,63 15,81 16,98 18,15 19,31 20,47 0,9 2,7 4,61 6,25 7,78 9,24 10,64 12,02 13,36 14,68 15,99 17,28 18,55 19,81 21,06 22,31 23,54 0,95 3,8 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 26,30 0,975 5,0 7,38 9,35 11,14 12,83 14,45 16,01 17,53 19,02 20,48 21,92 23,34 24,74 26,12 27,49 28,85 0,99 6,6 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,72 26,22 27,69 29,14 30,58 32,00 0,995 7,9 10,60 12,84 14,86 16,75 18,55 20,28 21,95 23,59 25,19 26,76 28,30 29,82 31,32 32,80 34,27 0,999 10,8 13,82 16,27 18,47 20,52 22,46 24,32 26,12 27,88 29,59 31,26 32,91 34,53 36,12 37,70 39,25 I I
405 2 о 6 I о s б'О 0,995 0,99 кО 0,9 о о> о «г кО о о кО с* 0,0 t-i о о 0,005 см ь- 3 СЛ 8 ел kft b- СМ а ei см kft ел со kft со 8 см 1-t S 00 S ь- 41 со kft b- 1—t со CM со 37 81 Я со kft 1-t со 87 kft CM 8 CM CM s 2 CM О 3 Ot со CM 00 g 3 CO со S3 CM CO 8 о CM b- CM § s 1-t CM kft CO kft w s CM f-f 10 1-t СЛ 31 g b- kft So b- я 41 CO 00 CM о CM j: CM b- CM CD 58 CM о at oo oo a> о со 00 2 b- s CO 2 8 00 43 8 о 8 oo kft со 67 CM CO 62 b- H 8 % CO CM 00 1-t 17 kft CM CO 59 8 О g 00 s 00 1-t CM b- CM s CM о go 8 92 CO CO 81 8 о CM з CM о 1-t 00 1-t CO CD s •4- 3 CM 8 о kft г 00 CM CM S3 49 00 CD 1-1 8 8 t—» kft CO о CM CO я CM о CO CM CM о 19 2 17 oS 13, s 1-t о CM о ел 00 1-й 1-й кО s kft g CM 36 8 42 36 о CM 3 kft kft 29 о f-f CM s 19 06 00 kft 85 CO о CM $ о 89 ел см 62 CM kft 93 со g 65 37 3 я 3 8 00 CM 87 О CM s 00 16, 61 CM 1-4 CO 52 1-t CM kft о kft CM ^ kft CD ift kft kft ел *^* О5 CM CD Ot со ел о ТГ ^ Й со ел см kO CD 00 i-t со ^ 00 *-» CO со ^ см kft b- СЛ kft CO b- co со со ess i-t CM ^ CO CO CO kft см ел CM CO CO CM CO CO СЛ см kft b- b- CD HN CO CM CM CM см о ел 00 b- kft 2 CM CM СЛ *-« ^ см i-t ел b- 00 00 Ю CO CO ^r b- i-t 00 kft CO CO ^ kft CM CM CO i-t i-t CM о 3 со CM kft 59 49 CO kft CM § 8 2 kft CO CD CO 00 kO CM CM 19 i-t b- b» s CD s s Й CO 8 СЛ kft lo 2 89 g a, CO о 25 3 2 3 i-i kO CM 3 CM s 8 СЛ 00 CD со я 62 s CM § b- kft со г ел § со К 1-й 3 00 1-^ 3 27 § 47 СМ см ь- kft S Й о {: S СО со со я ел kft R kft kft t—» 00 1-t kft b- CM 47 CD 3 CO kft о i—t kft CO CM s 00 СМ 2 17 8 о CM kft ^r О CD 00 O) 00 00 i-t ^ b- СЛ СЛ H ^ N 73 79 110 со kft ел ел «~< со f—t со о см со kft см i-i ь- со со со ел ^-» b- CO kft г-» О b- CO i-t kft со ел CO CO b- b- i-t О CM 00 kft kft kft 00 kft CM .-♦ Tf b* СЛ СЛ ^ О ^ kft 00 00 r-» CO kft CO i-t ^5S 00 Ю ift 00 ^ kft CO 5 S CO Г- СЛ CO CO kft i-t CD kft со ь- о CO CO kft Of» i-t ел i-t со ел см чр b» b- CM CM Tf b- 140 00 135 S 129 Я 124 g 118 b- co 111 1-» СЛ 106 CO s kft СЛ b* 00 CM CM § я 67, 100 1
406 ПРИЛОЖЕНИЕ Таблица П.4 ] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 200 Квантили 0,75 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,677 0,676 0,9 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,289 1,286 распределения Стьюдента 0,95 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,658 1,653 0,975 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2Д20 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,980 1,972 0,99 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,358 2,345 0,995 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,617 2,601 0,999 318,309 22,327 10,215 7,173 5,893 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,307 3,232 3,160 3,131
407 ее 04 § о I S s a к 3 a s 3 о iH о о кО м о 12| 15 о iH о> оо t- к© — g^SSSSScoSgSSSo CD CD 25jSS2SScoSSoS8 o?5gboobSS??SSSoS gOilftCOCOOl Ol Ol Ol Ol CD ^?2SSS2S°SSgo CD *|33JSSS-S5-5S53 |15-Ш55-й-355 Oi CO Ol Oi CO ^D t** CD kft ^f CO C^ Ol 00 СЪ Ю CO CO CO Ol Ol ОЛ Ol Ol Ol Ol m ^^^ 0*j ^^^ ^^^ ^J^ ^^Э Qp ^^^ ^^^ ^J^ СГ^д ^^r ^^^ Soicoo^^ooScdSScoco Ь-Ofcft^COcOOIOlOlOlOIOlOI oooIcoSSSSSooScdSSSS lOOilO^COCOOIOlOIOIOIOlOl COOikC^COCOCOOlOIOlOlOlOl ^^j ^^5 ^^* P^5 t^* ^« ^^ ^^ч ^^^ ^^0 00 00 r^™ OOlOlOWOblO^WNNHH OioOio^^cocococococococo CO t-« ~4 «-I —4 00b!t3bJcDCDScDS2feSS 8oo^i2S°cdSScdcdS2S 8co£S£{2S8cdScd8S SooSSSSSSSScdScd SSSooSKSSSCggcD SSooSSSSKSSSSS OOiSSoOOOOOOOOOOOt^t^t^ ^^> ^э o^ o^ cy^ o^ oo oo oo oo oo oo oo S8S888S8888S08 HHHHOOOOOClSoift S3S3S3olSlolIS§ cooiSo1o?2232^!3oo O1O1O1O1O1O1OIOIOIO1CNIO1OI сосососоо1о1о1с5о1Й22Ь OIO1OIOIOIOIOIOIOIOIOIO1OI ^Э b*~ U5 CO «-^ Oi t* CD 10 ^J1 CO C1^ ^^ COCOCOCOCOOIOIOIOIOIOIOIOI 3!22b22SSo1?5o4olc5
408 ПРИЛОЖЕНИЕ к S 1 120 о со о о W ся о ея •—1 iH о 00 со Ю Ю Ю Ю ^J< СО 1,57| 1,601 S ,66 ,80 1,85 1,87 1,91 8 СМ см см 8 см -О to to to ^ ^г ssfess 1.26 1,32 1,37 СО СМ г-4 ~ф 00 *-■ СО CD CD to ^ ^ СО СО СО Ю Ю «*< 1,69 1,68 1,67 1,61 1,54 й_$££со 1,84 1,83 1,82 176 171 fcsaes О Oi 00 СО Ь- Oi 00 00 00 Ь- Oi Oi Oi 00 оо CM 1*4 «M 1*4 i-4 ooooS CM CM CM CM «-« со ю ^ Oi ^r CM CM CM CM CM Oi оо со со oo CM CM CM CM 1*4 CM CM CM CM CM см см см см см см см см см см см см см 1,48 s s 1,65 1,68 1721 1,77| s CO 1-4 CM 8 CM 2,75 .53,3 9,49 8,55 5,66 .52,2 2 19,48 1 8,57 5,69 ^b- Oi см ю Oi oo to 3*8 К CM 1*4 CM i-< ^ Oi oo to ^r со со см см см см CM CM CM CM CM CM ^COCOCOCMCMCMCMCMCMCMCMCM ^r со со со см см см OHCOggOb ТГ CO CO CO <N CM CM _oS§S§J2g тг со со со см см см ^}* CO CO CO CM CM CM 2-3__88а5ЙЯ38._ CM 1*4 CM ^-» 0,95 241,9 19,40 8,79 5,96 40,5 9,38 8,81 6,00 38,9 2 9,37 1 8,85 6,04 236,8 2 19,35 1 8,89 6,09 °-со52 CM 1*4 NOHCO CM 1*4 тг со со со со см см SownoSn тг^со со со см см CO ^* t4» ^Э *O О CM CM CM CM CM CM CM CM CM CM CM CM 8335 852 CM CM CM CM CM CM CM CM CM CM CM CM CM CM CM CM CM CM ЭсоЕЗЗсо CM CM CM CM CM CM 1,97 1,93 1,90 1,87 1,84 см оо ю см Oi О Oi Oi Oi 00 СЯ 1*4 1-4 i-4 1-4 СЯ C* 1*4 1*4 i-4 CM CM CM CM 1*4 SSfeoo CM CM CM CM CM CM CM CM CM CM t^ со о oo to CM CM CM «-»«-< CM CM CM CM CM cococmcmS CM CM CM CM CM 55335 ^^COCOCOCOCMCMCMCMCMCMCMCMCMCMCMCM ^J* ^J* CO CO CO CO CM 4,88 4,21 3,79 3,50 3,29 3,14 3,01 <£ ?§ oo £o со см о ^^cococococo C^ CO Oi CD ^* CO CM ю "^ со со со со со CO^lOCMOiOiCOCM^COOOCO CM OiOitD CM 1*4 b- CD 00 Oi ^t-t CM Ю *-« Oi Oi CD CM 1*4 -^ptooi^ Oi Oi OJ CD t-l 1-1 161,5 18,51 10,13 7,71 ^CMCO-tf to ^* ^* со со со со tO ^* 'S* ^' CO СЭ CO Oi tJ* tj< CD CD О 00 ts. ^4 |s. ^p ^$ ^4 Oi tO tO Tf ТГ ^ Tt" CO Ю CO 1- 00 Oi О £ CM CM CM CM CM CM SSooSSS CO CM CM CM CM CM HP35DOWH со со см см см см CM 1*4 --* О О O> со со со со со см §3coSS8 со со со со со со ssssss со со со со po со CM CM CM CM CM ю to to ^ тг CD CO О Ь- Ю CM CM CM CM CM b- ^f *—« 00 CO см см см см см SSooSoo CM CM CM CM CM CD CO ^D Is" *O со со со со со со со со со со 33353 222S-3S
409 ся OOiiftfiNOOrtCl^^CitDWCDOONtD ^^01 co^o^ciсм^t-_co^«-«_ел t>^co_ift ^co_со см t~< сзГсо'оо'сЬ'^^го'со'со^см см" см" см" см" см" см см о со -* lOOCO^^COCOCOCOCMCMCMCMCMCMCM <Cit~kft^CM*-«CiOiCiO ) 00 00 00 00 00 ООЬСГИЛЮ "t-Ti-ii-Ti-Г о ci ^ об со кл <4f со со со со см см см см см см см а слслсл оооо оо SS^SS ^^о тгсм о со oq^ift co^«-« ел oq^t^ со^ "Г7Г7ГГ^7Г7 о оГ^оо"о"Л ^ о" со" о" со" см" см" сч см" л с г ^оо"со"кЛ ^ со" со" со" со" см" см" сч см"смсм см f^k д^ ф^ О) O^ O^ 00 00 fc*^ CO CO а/Г* ^J* ^"^ ^^ ^^ ^"^ ^J* ^fi QO CO ^"^ ^Э 00 t*^ CO CO ^Л CMCMCM*-»^-(t«-(t-l^-l*-(^-(t«-( CiCi^OOCOkn^^fCOCOCOCOCMCMCMCMCMCM C0t-tO^b-CD^C0t-<CM^krt t-^^O^O O^O O^O О 00^b- cm" cm" cm" cm" cm" cm" cm" cm" *-T ,-T ^-T О 00 CO kft CO CM О Ci О CM CO t^; CM" CM" CM" CM" CM" CM" CM" CM" CM" i-4i-4 I? Ci "^ CM «-^^^ см см см см cm"cm"cm"cm"cm"*-Tt«7 c» S сГ^оо"со"in^f^со"со"со"со"со"со"со"см см*см" ■ о • II СМСЧСМСМСМСМСМСМСМСМ1-1 а, сос^ ^ Ci CO « kftCOCMCMHOO СМ" СМ" СМ" СМ" см" СМ" СМ" СМ" СМ" СМ" СМ" \Л СЬ ^" 00" СО" kft'^^f ^ СО" СО" СО" СО" СО" СО" СО" СО" СО" Ci со «-» см см^см см см см см^см^см см см' ) CM ^ kft 00 1-* СО СО О < смсмсмсмсмсмсмсмсмсмсм Cico со со со! см"см"см"см"см"см"csГсм^см см^см см сГ^сГ^кгГкгГ^^^^со^со^со^со^со со^со" ^* СМ СМСМСМСМСМСМСМСМ CM" CM" Ci Ob kft Ci t^ CO ib kft ^ ^ ^ Tf ^ CO CO CO CO CO 00 CO 1-* OOCiCiCiCiCiCiOOb^CD со" со" см" см" см" см" см" см" см см" см" >CiiO )СО ^ ^ 1 ^ ^ ^ ^ ^ ^ t ^ Я сососососососососососо > Ci CO О . СО 1-4 «М оосо^со*оооь см см^см^см^см см^^^ ^ ^ Г Г T ^ Г T T T tjT со" CO *^^ ^Л CO t^^ 00 O^ ^^ {^ <^^ ^^ ^н CMCMCMCMCMCMCMCO^COCM
410 ПРИЛОЖЕНИЕ о ся iH о (0 о о W кО ся о ся кО ся fH о fH о> 00 <0 ся fH S2S§So§cSSSSooS£§5 CMCMCMCMCMCM^iM^.^^1^^^.,- CMCMCMCMCMCMCMCMCMCMCMCMf-4-<«-H cocococmcmcm2222ooSoocd CMCMCMCMCMCMCMCMCMCMCMCMi-l,-liM ?§c§cocMCMSS2232§ioot2 CMCMCMCMCMCMCMCMCMCMCMCM^^^ Й^^ймгогосмсмсмЯсмослоо CMCMCMCMCMCMCMCMCMCMCMCMCM»-«iM CDfeS?S^?^COMrOCOro2§S CMCMCMCMCMCMCMCMCMCMCMCMCMCM«-I KSSSfeSS^S^SS^cM^o CMCMCMCMCMCMCMCMCMCMCMCMCMCMCM CMCMCMCMCMCMCMCMCMCMCMCMCMCMCM OoSooKb2ScDCDCDCD2kft^COCM CMCMCMCMCMCMCMCMCMCMCMCMCMCMCM OiOiOOOOOOb-b-b-b-CDCDCDkft^CO CMCMCMCMCMCMCMCMCMCMCMCMCMCMCM oofeo?Soooooooob?b?t2cDSco COCOCMCMCMCMCMCMCMCMCMCMCMCMCM b-COOiOCMOib-rrCMOOOb-rrcOCM «•Hi-^QOOOiOiOiOiOiOOOOb-CDkft COCOCOCOCOCMCMCMCMCMCMCMCMCMCM SSSSh!22Soooo§n!d cococococococococococococmcmcm ЙЙ§?^сососососмсмсм2ос? со со со со со со со со со со со со со со см SoOOOb2t2b2cDCDCDCDCDS5gcOCM со со со со со со со со со со со со со со со S^^cocococmcmcmcmcmSoSS ^^^^^^тгтг^^^^тгсосо S5IS-55ilISSSS3s O^ ^Э ^*^ ^^ CO *^^ 1Л CO ts^ 00 O^ ^Э ^Э*^Э *^^ f-tCMCMCMCMCMCMCMCMCMCMCO^CDCM 1—1 CD 6313 8 CD s Oi ,22 CD CM 00 CM Oi CD s Г0 CD о CD s CD 0,99 6055 и Я ^CD oo Й CM 2 kft о кЛ 8 4052 8 8 CO 8 CM 8 CM g CD CM 00 kft CM s 26 87 8 kO о 27 99,40 27,23 8 CO CO CO 3 CM CM 67 27 Oi см 8 8 CM 8 b- s § s 98,50 CM CM с 00 CM 46 00 8 34,12 CO CD Ю CO L3,65 CO 1-й 00 Sfebtg? OiCDkft^^ О CD CM CO 00 1—( s CO CM о о CM s So 1—( 14,55 CD CD 1-4 § 98 CM kft 1-H CM in kft ^гоосмС Oit-CDkftTP 1Л О (D (D H кЛ ^ *^ CO 00 Oit-CDiO^ йёгойсл Oit-COkft^ Ob-CDkftkft ^^ eft b" ел со CO b» CD кЛ Ю СЛ CO ^J1 CO b^ CO 00 CD CD k/5 §cmS25 О 00 CD CD кЛ CD ^ н CO 00 О 00 b-CD kO OOOb-CDCD OS со «^ oo о ^ kft 1-й 69 16 g 00 21,20 £Ob-b- CD 1-й b- CM kft к/Э CM CMOi kft CD О Sgi?c5g ^cocoroco 4,08 3,78 3,54 3,34 3,18 Ь 8 S 9 fc тгеогососо kft ^ О «^ к/5 CM СЛ b- kft CO ^ со со со со COoSlft? тг^сососо 52c€cdS ^^COCOCO ScmoScd тг^^сосо -tf^^COCO 4,85 4,54 4,30 4,10 3,94 ^ CO Oi СЛ CO СЛ CD CO i—i О ^^^^^ oSScoS кО^^ТГ^ со Oi ^j1 Tf oo CM 00 CD ^f CM kft^TT^^ cooooS^S kft kft ^ ^ ^ ^ CM CD CD Oi CD CO ° 00 CD kft kft kft Tf Tf Oi CD ^ CM О kftkOkftkftiO 1С CM kft "*♦ CD kft CM Oi b- kft CD CD kft kft kft 0HMOH kft CM Oi b- kft COOOOOOOb-b-CDCDCO 16,26 13,75 12,25 11,26 10,56 kCCDb-OOO 10,04 9,65 9,33 9,07 8,86 S3223
411 120l о со § о w кО см о ся кО iH ся о о> 00 о кО со ся fH CO^J"iOCDOOCMCDOiOf-<b-cOOt^^«-'CMCOCO -К1Л OlNSOOiCDOifl Oi00b-CDkftiftTt"^fC0C0CMCMCMt-«f-i»-(Cit*kO COgJ-Ci^NOHOCON CM См"см"см"сМ CM См"см"см"см"см"см"см"см"ем"см"г-^1-Г1-й" 55 СЛ f-^СЛ"CM"СЛ"Ь^СО"кгГ^ ^ 1-1 ТГ 1-t 1-1 lOWCOWNHiftOWOtOMCitDCOHNTf^O -»-ьО ЩНО^НООнСО О СЛ 00 t^ CD CD Ш Ш г? Ъ CO CO CM CM CM CM О 00 CD CM ^ i-i CD ^ «-» CO t-< ^ 00 со см" см'см" см" см" ся" см" см" см см"см"см"см cm"cm"cm"i-^i-T ^5 СЛ cm" ел" см сл"ь^со"ксГт^ ^ i-< ^r i-» i-« COCMCMTt*CDOi^OO^rOikftCMOOkftCOO«-«TrCD -*-kft t-«bftCO^CMOiCMt* со"со" см"см"см"см" см"см"см" см"см"см"см см"см"см"см" «-Г1-4 J5 ел см"ел" см" сл"ь- со"in *£ ^4 Tj< ^и ^^ HOON^OONSNOO^OS^HOiOM^ -»-kft ^СЛСОСОСООСМЬ- CMi-tOOOOt^t^CDCOkakftkft^^^COCMOOO O^-^ 00 CD Л 1Л ^CD О со"со"со"см"см см"см"см см"см"см"см см"см"см см"см"см"i-^ й ел см" ел" см" ел" ь- со"кгГкл" ^^ ^4 ^ «М «М ООСОЬ*00*-'^СЛСОСЛ<^ОЬ-^«-<ООЮ1^0СО -»-1Л СЛОСОкЛСМОО«-«1Л см t-i о ел а> 00 t> t^ cd со со к« ьл кл ^ ту см «-• Oi Oi ^ т о t^ ^ со ^ t^ t-« со" со" со" см" см" см" см" см" см" см см" см см" см" см" см" см см «-Г ^ Oi см о^ см" оГь^ со" кг^ю^ t^COCDOOO^OOCOOO^OCOcOOt^kOt^OCO Hr-кЛ 00t^OC>kO»-ic0t^ C0CM«-«OO0i0000t*t^b-C0C0CDkftkftC0CMO 00 oft1- н О Ю b- CD 00 CM со" со" со" со" со" см" см" см см" см" см"см" см" см" см см" см" см" см S О см" о^ см" оГь^ со" \п\п ^ i-< ^ СМ »-1 СЯ,-)1-(С0кЛСЛС000с0СЛкД1-<00кЛС0ОСМк«СЛ -»-тГ00тГкО1-»^*-1С0Ь- т ъ сосм ^о осл о оо оо оо i> t^ t-t- m со ^ со ^o <*< ^ oo ел со о ^ со" со" со" со" со" со" со" см" см см"см см" см" см" см" см" см" см см ^ а> соо'со оГь^со со ю *^ ^У СМ «—* b-kftCOt*OCOb-CMt*COOiCDCOOt^^rCOO^ -*-^OiOOOCOOOt-«COCO со т ч? со со см f-< *-« о о а> ел о ел оо оо со т со ^ ^со ^ со о *-• о см со со" со со со" со" со" со" со" со" со" см" см" см" см" см" см" см" см" см" S ел со" о^ со" о^ оо" ь- со" in ^ i-« ^ CM i-« »-» ОСЛСЛ*-«С0^1-<СО*-<^СОСЛСОСОООООСОЬ- fcfl -*-^ Oit>CMkft00f-<CMkft OOCDrtifl^fOMCSNiHHOOOOCiCOtD^ JJ СМ^СОСЛСОСМСОСМ^ОО сосо"со"сосо"со"со"со"со"сосо"сосо"со"со"см"см"см"см" с> Soicoocoooo"^^^ _г «■* ^ см i-« ^ 3,89 3,78 3,68 3,60 3,52 3,46 3,40 3,35 3,30 3,26 3,22 3,18 3,15 3,12 3,09 3,07 2,89 2,72 2,56 241f 199,4 43,88 21,14 13,77 10,39 8,51 7,34 6,54 5,97 ОСЛСЛ*-«сОСО*~<кД*-1СОСМСЛСОСО©Ь-СЛСМСО -*-^ГС0кЛС01^00ОСЛСМ о оо t^ t>- со т т ъ ^г со со см см см см <-н ел оо со ел ^ *-* со ел т со ю со «-• ^г" со" со" со" со" со" со" со со" со" со" со" со" со" со" со" см" см" см" см ел ч£" 1-Гсо~сэ"оо"ь^со"со" ^"^f со"со"со"со"со"со"со"со"со"со"со"со"со"со"со"см"см" смел Tf 1-Гтг о'оо"ь^со"со" w^ 1-Н TJ* CM i-< »-• 4,32 4,20 4,10 4,01 3,94 3,87 3,81 3,76 3,71 3,67 3,63 3,59 3,56 3,53 3,50 3,47 3,29 3,12 2,96 234| 199,3 44,84 21,97 14,51 11,07 9,16 7,95 7,13 6,54 со^^кл*^о^сл^©клсмо0кясоо«~<^1^ -*-со елсо^сосмо^ь- к/Э*ГС0СМ1-<1-чоСЛСЛСЛ0000Ь-*^*^*^к/ЭС0*-» О^СО^СЛ^ЮСО^ОО tjTтг4tjTrf tjTrf ^со"со"со"со"со"со"со"со со"со"со"со" см^л in см"^^сл"оо"ь^со ^н ^СМ i-« «-• 4,89 4,77 4,67 4,58 4,50 4,43 4,37 4,31 4,26 4,22 4,18 4,14 4,11 4,07 4,04 4,02 3,83 3,65 3,48 224f 199,3 46,19 23,15 15,56 12,03 10,05 8,81 7,96 7,34 5,42 5,29 5,18 5,09 5,01 4,94 4,87 4,82 4,76 4,72 4,68 4,64 4,60 4,57 4,54 4,51 4,31 4,13 3,95 216f 199,2 47,47 24,26 16,53 12,92 10,88 9,60 8,72 8,08 6,36 6,23 6,11 6,01 5,93 5,85 5,78 5,72 5,66 5,61 5,57 5,53 5,49 5,45 5,42 5,39 5,18 4,98 4,79 I99f 199,0 49,80 26,28 18,31 14,54 12,40 11,04 10,11 9,43 оосоослооосмкооосм^смоо^осо^-ноокл -*-т клсооосо^гсл*~»со СО 1Л х* CM i-i i-i О СЛ 00 00 t^ t^ СО СО СО Ш СО О 00 СМ ^ щ СО t^ СО СМ СО СО ОО oo"oo"oo"oo"oo"oo"oo"t^ t^ t^ r>. t^ t^ t^ t^ t^ t-"t^ со" 2 ел кл"1-Гсм"оо"со"^со"см" i-»kftCOCMi-4i-li-«i-ti-< к/эсоь-оосло^смсо^клсоь-оослоооо —<смсо^1лсоь-оосло ,М ^и ^ ^ ^-| см СМ СМ СМ СМ СМ СМ СМ СМ СМ СО ^ СО CM i-«
ПРИЛОЖЕНИЕ 120 о о о W кО о ся кО ся iH о 00 о со ся iH ^H<OWSNOCiOi^MCDOiftOiOHSMOODMH ++kft О О CD 00 СО О t^ кЛ СО CM »-« Oi 00 00 t^ CD CD Ю Ю Tf -^ СО СО СО О 00 CD ^^^-^OOi ^ ^ СО" СО" СО" С!ГсСТем" См" CM" СМ" СМ~ CsT CM" CM" CM" CM" CM" CM" CM" СМ~«-Г*-^ fftOiCM^TjTift* Oi «-* ^f см «-^ iCCMt^CD00C0t-»oOCM^b-t-<CDt-(C0CM00kftCM00CDkft ++iftift iftMH ^HOOCD^WNHOOiOONStDCDWW^^^HCiN *-» ^^b- CO CM ti^tj< со"со"со"со"со"со"со"см"см"см"см"см"см см см"см"см"см"см"«-■«-I £2 Oi см ^^cd" ю Oi «-< т* см «-■ kT>C0KCD00^*-<O«-iCMkft00CMt^CMt^C00iCDCMO00b- НМ- kft О Oi О ^ iftCMOit^kft^COCMt-iOOiOOOOt^t^COCDkrtkftkftCOOOO 00 ofufO CD ^ ^^fсо"со"со"со"со"со"со"со"см"см"см"см"см"см"см"см"см"см"см"см"*-* to Oi см кгГ^со" Oi *-< ^h см *-< iCCOb-CDOi^ff-«Of-«CMkftOOCMb-CMb-COOiCDCOOOiOO ++iOiftC0NS CD CO О 00 CD m 4? CO CM *м О Oi Oi 00 00 t^ t^ CD CD CD ^ t-< Oi CD^^^OOCD ^f ^f ^f со"со"со"со"со"po"со"со"см"см"см"см"см"см см"см"см"см"см"^-» й Oi см кгГ^со" Oi *-• rh см i-ч ^*-Hlo^t^CMOiOOOiOCOCDOkftOkft«-'b-^*-<OOb-t> ++1Л00О00Ю S^HOiNCD^rtNNHOOOlOlOOOOSNN^NO ^Г ^ ^t* О 00 тг ^ ^f со" со со со" со" со" со" со" со" со" см см" см" см" см" см" см" см" см"см" йслемююсо" Oi *-< ^" см t-( 4,86 4,53 4,27 4,06 3,88 3,73 3,61 3,50 3,40 3,32 3,24 3,18 3,12 3,06 3,01 2,97 2,93 2,89 2,86 2,82 2,60 2,39 2,19 620J 999,5 126,4 46,10 25,39 17,12 kftCMCDkftb-CMGiOOOiOCOCDOkftOkft^t^^^OOt^b- ++^<^CD«-<CD k/^^^^TjTco"co"co"co"co"co"co"co"co"co"co"cO~CO" 5 Oi CM CD"kO^b^ Oi *-< ^ см *-« ^H^MrtONCDWOOO^bNNMOOWHOOW^^ ++-«^ CO «-< CM Oi CMOiCD^CMf-tOiOOb-CDCDkft^^COCOCMCMCM^-iOib-kft O^TQQ-^^Oi irT^^^^^со"со"rt"co"co"со"со"со"со"со"со"со"со"со"см см"см" И Oi см t^ со"ь- Oi «-• Ч" см t-< CMOiCMOCMb.^COCOkftb-0^rOi^OiiO*-<OO^CSiO*-« ft ++1<NlftNH ^ooocD^cMt-tooioot^t^cDkftkft^^^coco^Oit- g ^oToT001^ 1ГГ1^^^^"^^^СО"СО"СО"СО"СО"СО"СО"СО"СО"С^СО"Р^СО"СМ"СМ Л §OiCM00"*CD00" _г Oi «-< ^f см «-< 5,54 5,20 4,94 4,72 4,54 4,38 4,25 4,14 4,04 3,96 3,88 3,81 3,75 3,69 3,64 3,60 3,56 3,52 3,48 3,45 3,22 3,01 2.81 602t 999,4 129,9 48,47 27,24 18,69 gc3g8feS8?$2gSS88£CgSS8S2S g££§8S Oi «—l ^f CM «-^ 5,86 5,52 5,25 5,03 4,85 4,69 4,56 4,44 4,34 4,26 4,18 4,11 4,05 3,99 3,94 3,89 3,85 3,81 3,77 3,74 3,51 3,29 3,09 592t 999,4 131,6 49,66 28,16 19,46 6,10 5,76 5,48 5,26 5,07 4,91 4,78 4,66 4,56 4,47 4,39 4,32 4,26 4,20 4,15 4,10 4,06 4,02 3,98 3,95 3,71 3,49 3,28 585J 999,3 132,8 50,53 28,83 20,03 6,42 6,07 5,79 5,56 5,37 5,21 5,07 4,96 4,85 4,76 4,68 4,61 4,54 4,49 4,43 4,38 4,34 4,30 4,26 4,23 3,99 3,76 3,55 576t 999,3 134,6 51,71 29,75 20,80 OOCMCOOO^Ot^t^b-OiCMkOOi^Oi^OCDCMt-^CM ++CO*-<^OiCM to & to <d in in in in in in in in *£ *£ <* <<£ *£ <*£ <ф <ф <v *£ n JS Oi со со" «-<«-< Oi «-< m со см t^ t^4 cd cd" cd" cd" cd" cd" in in in in in in in in in in in in <ф *£ ^ Soi^<^co"co" 8,91 8,51 8,19 7,92 7,70 7,51 7,35 7,21 7,09 6,99 6,89 6,81 6,73 6,66 6,60 6,54 6,49 6,44 6,40 6,35 6,07 5,79 5,54 500t 999,0 148,5 37,12 27,00 12,23 11,75 11,37 11,06 10,80 10,58 10,38 10,22 10,07 9,94 9,83 9,73 9,63 9,55 9,48 9,41 9,34 9,28 9,23 9,18 8,83 8,49 8,18 405t 998,5 167,0 74,14 47,18 35,51 HNM^WQJNOOOiOHNW^iflCDbOOOiOOOO «-< CM CO Tf Щ CD
413 to и я 120 о со § о ео ся о tH «н о iH о 00 со ео ея «н 2t222coScoSSco2o C*O>0Qt^<Dinini?ifi?if'*f t—» очо^ооь-со^Лклюгг^^гг О^ СО О^ СЭ ^^ ^^ 1Л 00 £^ ^^ ^Э О^ cocMcocooocMt^cooooco^ e^ooot-cocoirtiDirt^^xr SwSoooSSSSSKS CO 00 СЯ 1*4 СО t4*" С^ 00 1П С4' ^Э 00 coooioot^cocoirtioiftirt^r со" «-Г оГ оо" ь^ ь^ со" со" in in in in 14,08 11,54 9,89 8,75 7,92 7,29 6,80 6,40 6,08 5,81 5,58 5,39 4,33 1,77 0,11 8,96 8,12 7,48 6,98 6,58 6,26 5,98 5,75 5,56 ^frJOOOOt-t-COCOCOirtiO 15,02 12,40 10,70 9,52 8,66 8,00 7,49 7,08 6,74 6,46 6,22 6,02 |||IISK"?Ils SSSSSSoocoSkcSooo ScoSc§coSococ5Sco$ N^WHOOlCiOOOONNN fcoo§£B§£Scoo£3 OOiftCOWHOOODCiOOOO 21,69 18,49 16,39 14,91 13,81 12,97 12,31 11,78 11,34 10,97 10,66 10,39 CM4}<OOOCOCOOO«-4iO«-«t^CO rfrfSSS- gfJSgo COCOCOCOCOcOCOCOCOCO COCOCOCOCOCOCOCOCOCOCOCOC^OICM ^J1 ^ CO CO CO SSoooS ^тг^сосо ТГ^ТГ TPCO SS^coS 5,22 5,08 4,95 4,83 4,73 in in m ^ ^ л^соно со со т in in S^coSo со со со со со eSSSooS b- b- CO CO CO SSSSco 00 00 b- t^ t^ о o^ о a Gi ooo2?§S Obine*i-4CiCOt~t^tDtQinininiTi?<4*if b-OOOOi-^C^CO^iftCOb-OO 3,59 3,52 3,44 3,38 3,32 rfrf««« co.coSJo^ COCOCOCOCOCOCOC^CSICM ooSKcoS CO CO CO CO CO SoSS?oo ^f ^t1 CO CO CO cocoS£3 4,64 4,56 4,48 4,41 4,35 SCSfeg S3IS5- in to in in in Soo8t3co m in in in in SS^cocS CO CO CO CO CO S^coSS 9,34 9,22 9,12 9,02 8,93 со oo ^f i-4 о о oo t- со in ^J4 CO CO CO CO SSSSoS? CO CO CO C^ CM St^^off CO CO CO CO СЯ ^r ^* со со со S22t°.SS 22°coS со со in in -^ 2o2^?2 t— t— со со kO OO OO 00 t- t- co <м со о со C0C0dHr4 со о I я 2 Д о 1—\ a •E Ф s Д Ф о Д % c3 I CO" о ю о Гц ф сЗ д .8 ю о сЗ см' о СО rt 5 5 8 И О»
СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ Учебники и учебные пособия Беляев Ю.К., Чепурин Е.В. Основы математической статистики. М.: Наука, 1979. Боровков А. А. Математическая статистика. Оценка параметров, проверка гипотез. М.: Наука, 1984. Бочаров П.П.у Печинкин А.В. Теория вероятностей. Математическая статистика. М.: Гардарика, 1998. 328 с. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высш. шк., 1972. 477 с. Ивченко Г.И., Медведев Ю.И. Математическая статистика. М.: Высш. шк., 1992. 304 с. Пугачев B.C. Теория вероятностей и математическая статистика. М.: Наука, 1979. 495 с. Смирнов Н.В.у Дунин-Барковский И. В. Курс теории вероятностей и математической статистики для технических приложении. М.: Наука, 1965. 511 с. Элементы математической статистики / О.И. Тескину Н.Е. Козлову Г.М. Цветпкова, Е.М. Пашовкин. М.: Изд-во МГТУ, 1995. 107 с. Задачники Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. М.: Высш. шк., 1975. 334 с. Емельянов Г.В., Скитович В.П. Задачник по теории вероятностей и математической статистике. Л.: Изд-во ЛГУ, 1967. 330 с. Мешалкин Л.Д. Сборник задач по теории вероятностей. М.: Изд-во МГУ, 1963. 143 с. Сборник задач по математике для втузов. Ч. 3. Теория вероятностей и математическая статистика / Под ред. А.В. Ефимова. М.: Наука, 1990. 428 с.
415 Справочная литература и монографии Айвазян С,А.у Енюков И.С.У Мешалкин Л. Д. Прикладная статистика. Исследование зависимостей. М.: Финансы и статистика, 1985. 487 с. Айвазян С.А., Енюков И.С, Мешалкин Л. Д. Прикладная статистика. Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983. 471 с. Андерсон Т. Введение в многомерный статистический анализ / Пер. с англ. М.: Физматгиз, 1963. 500 с. Большее Л.Я., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1983. 416 с. Вальд А. Последовательный анализ. М.: Физматгиз. 1960. 328 с. Гнеденко В.Б.У Беляев Ю.К.У Соловьев А.Д. Математические методы в теории надежности. М., 1965. 524 с. Кашьяп Р.Л., Рао А.Р. Построение динамических стохастических моделей по экспериментальным данным / Пер. с англ. под ред. В. С. Пугачева. М.: Наука, 1983. 384 с. Кендалл Л/., Стюарт А. Статистические выводы и связи / Пер. с англ. под. ред. А.Н. Колмогорова. М.: Наука, 1973. 900 с. Крамер Г. Математические методы статистики / Пер. с англ. под. ред. А.Н. Колмогорова. М.: Мир, 1975. 648 с. Леман Э. Проверка статистических гипотез / Пер. с англ. Ю.В. Прохорова. М.: Наука, 1979. 408 с. Мартынов Г.В. Критерии омега-квадрат. М.: Наука, 1978. 80 с. Прикладная статистика. Классификация и снижение размерности / С.А. Айвазян, В.М. Бухштабер, И.С. Енюков, Л,Д. Мешалкин. М.: Финансы и статистика, 1989. 607 с. Рао СР. Линейные статистические методы и их применения / Пер. с англ. под. ред. Ю.В. Линника. М.: Наука, 1968. 548 с. Робастность в статистике. Подход на основе функций влияния: Пер. с англ. / Ф. Хампелъ, Э. Рончетти, П. Рауссеу, В. Штаэль. М.: Мир, 1989. 512 с. Смирнов Н.В. Оценка расхождения между эмпирическими кривыми распределения в двух независимых выборках. Бюл. Моск. ун-та. Серия А. 1939. Т. 2. С. 973-994. Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. М.: ИНФРА-М, 1998. 528 с.
416 СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ Хеттманспергер Т. Статистические выводы, основанные на рангах / Пер. с англ. М.: Финансы и статистика, 1987. 334 с. Холлендер Л/., Вулф Д. Непараметрические методы статистики / Пер. с англ. М.: Финансы и статистика, 1983. 518 с. Хьюбер Док. 77. Робастность в статистике / Пер. с англ. М.: Мир, 1984. 304 с. Шеффе Г. Дисперсионный анализ / Пер. с англ. М.: Физматгиз, 1963. 626 с. Ширяев А.И. Статистический последовательный анализ. М.: Наука, 1976. 272 с. Hodges J.L., Jr and Lehrnann E.L. Estimates of location based on rank tests // Ann. Math. Stat. 1963. 34. 598-611 p.. Gnedenko B. V., Pavlov I. V., Ushakov LA. Statistical reliability engineering. N.Y.: John Wiley, 1999. 514 p.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Анализ дисперсионный 340 - - двухфакторный 341 - однофакторный 341 - конфлюентный 242 - регрессионный 282 - факторный 242 Бета-распределение 151 Бета-функция неполная 151 Бумага вероятностная 94 Вектор-столбец ошибок 291 Вероятность доверительная 117 Выборка 20 - из контрольной совокупности 388 - контрольная 388 - рабочая 388 - случайная 19 - к-я 343 - экспериментальная 388 Вывод статистический 20 Гамма-зона 130 Гамма-распределение 145 Гамма-функция VI, XI Гипотеза альтернативная 160 - конкурирующая 160 - линейная 316 - многопараметрическая 159 - однопараметрическая 159 - основная 160 - параметрическая 159 Гипотеза статистическая 26 - простая 159 - сложная 159 Гистограмма 35 Граница верхняя 116 - 1-доверительная односторонняя 117 - нижняя 116 - "у-доверительная односторонняя 117 Данные статистические 19 - группированные 30 - экспериментальные 19 Дисперсия выборки 42 - выборочная 41 - исправленная 63 - остаточная 302 Задача анализа дисперсионного 242 - корреляционного 242 - регрессионного 242 - о сдвиге двухвыборочная 389 одновыборочная 369 - парных наблюдений 374 Закон распределения генеральной совокупности 19 Значение выборочное 23 - оценки 26 - среднее выборки 42 - точечной оценки 26
418 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Индекс вторичный 261 - первичный 261 Интеграл, зависящий от параметра VII Интервал доверительный 117 - *у-доверительный 117 Информация априорная 21 Испытания повторные независимые 19 Количество информации по Фишеру 68 Контраст линейный 348 Коэффициент детерминации 266 - доверия 116 - значимый 316 - корреляции выборки 43 - выборочный 42 - множественный 266 - ранговый Спирмена 225 - частный 261 - регрессии 292 Критерий 160 - Валь да 178 - двухвыборочный Вилкоксона 390 - знаков 372 - знаковых рангов Вилкоксона 383 - Колмогорова 208 - независимости \2 232 - непараметрический 374 - асимптотически 215 - оптимальный Неймана — Пирсона 162 - отношения остаточных дисперсий 326 - правдоподобия последовательный 178 Критерий равномерно наиболее мошный 172 - Смирнова 222 - согласия х2 215 - состоятельный 376 - Спирмена ранговый 224 - статистический 160 - факторизации Неймана — Пирсона 78 - эффективности для регулярных моделей 71 - w2 212 .Матрица базисных функций 291 - выборочных средних значений отклика 291 - дисперсионная Фишера 301 - наблюдений 291 - отклика 291 - оценок среднего значения отклика 299 - ошибок 291 Метод выборочный 20 - графический 93 - доверительных множеств 129 - максимального правдоподобия 88 - моментов 85 - наименьших квадратов 284 - непараметрический 367 - параметрический 366 МНК 284 МНК-оценка 295 Множество критическое 160 - параметрическое 21 Модель биномиальная 24 - дисперсионного анализа линейная 341
419 Модель Коши 24 - линейная по параметрам 285 - математическая II - нормальная 24 - параметрическая 21 - пуассоновская 24 - регрессии 283 - допустимая 283 - значимая 317 - незначимая 317 - регрессионная линейная 292 адекватная 313 - регулярная 68 - статистическая 21 - дискретная 21 - непрерывная 21 Момент выборочный корреляционный 42 - начальный fc-ro порядка 41 - центральный к-го порядка 41 - корреляционный выборки 43 - начальный выборки fc-ro порядка 42 - центральный выборки к-го порядка 42 Мощность критерия 161 Наблюдения повторные независимые 19 Невязка 296 Неравенство Рао — Крамера 68 Объем выборки 20 - случайной 19 - испытаний средний 185 Отклик 243 Отклонение среднее квадратичное выборки 42 Отклонение среднее квадратичное выборочное 42 Отношение корреляционное 246 - правдоподобия 162 Оценка 26 - асимптотически несмещенная 56 - эффективная 93 - интервальная 116 - *у- доверительная 116 - линейная 57 - максимального правдоподобия 89 - метода наименьших квадратов 295 - несмещенная 56 - сверхэффективная 105 - смещенная 56 - состоятельная 55 - среднего значения отклика 299 - точечная 26 - Ходжеса — Лемана 379 - эффективная 57 - в классе оценок 56 - по Рао — Крамеру 71 Ошибка второго рода 161 - первого рода 160 - случайная 243 а Переменное входное 242 - выходное 243 План эксперимента 289 Плотность распределения эмпирическая 35 Погрешность систематическая 283 Показатель эффективности по Рао — Крамеру 71 Поле корреляционное 249
420 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Полигон частот 36 Порядок частного коэффициента корреляции 263 Правило яЗаа XVI, 309 Пространство выборочное 20 - линейное арифметическое IV - п-мерное IV - факторное 289 Равенства Валь да 181 Размер критерия 172 Ранг элемента последовательности 224 - случайной выборки 225 Распределение асимптотически нормальное 86 - бета 151 - выборочное 23 - гамма 145 - генеральной совокупности 19 - Коши XVI, 84 - отрицательное биномиальное 143 - Парето 108 - Релея 147 - Стьюдента XVI, Ц9 - Фишера 151 - экспоненциальное 148 - Эрланга 149 - X2 148 Реализация случайной выборки 20 Регрессия XVI, 2SS - линейная простая 293 - средняя квадратичная 284 Риск второго рода 179 - первого рода 179 Ряд вариационный 28 - выборки 28 Ряд вариационный случайной выборки 29 - статистический 30 - интервальный 31 О вертка плотностей распределения XVI Связь стохастическая 241 - частная 261 Система нормальных уравнений 297 - "у-доверительных множеств 129 Совокупность генеральная 19 Среднее выборочное 41 - Уолша385 Статистика 23 - достаточная 75 - знаковых рангов Вилкоксона 383 - критерия знаков 372 - Манна — Уитни 391 - ранговая Вилкоксона 389 - рангов Вилкоксона 389 - Фишера — Пирсона 231 с поправкой Йейтса на непрерывность 233. - центральная 119 Сумма квадратов остаточная 302 А аблица дисперсионного анализа 346 - корреляционная 251 - сопряженности признаков 230 Уравнения Клоппера — Пирсона 133 - правдоподобия 89 Уровень 340 - доверия 117 - значимости критерия 161
Фактор 243 Форма статистики знаков считающая 378 Функции базисные 285 Функция линейная IV — мощности критерия 172 — правдоподобия 78 — распределения выборочная 32 — теоретическая 34 — эмпирическая 33 Характеристика выборочная 23 — критерия оперативная 173 — числовая 40 — генеральная 40 — теоретическая 40 421 Частота 30 - относительная 30 Член вариационного ряда 28 случайной выборки 29 Члены вариационного ряда крайние 29 «Зксперименты повторные независимые 19 Элемент выборки 20 — случайной 19 -у-зона 130 Х2-распределение 148
ОГЛАВЛЕНИЕ Предисловие 5 Основные обозначения 12 1. Основные понятия выборочной теории 18 1.1. Генеральная совокупность. Выборка. Выборочные характеристики 18 1.2. Основные задачи математической статистики .... 25 1.3. Предварительная обработка результатов эксперимента 28 1.4. Решение типовых примеров 44 Вопросы и задачи 50 2. Точечные оценки 54 2.1. Состоятельные, несмещенные и эффективные оценки 54 2.2. Понятие достаточных статистик 75 2.3. Методы получения точечных оценок 85 2.4. Решение типовых примеров 97 Вопросы и задачи 113 3. Интервальные оценки и доверительные интервалы 116 3.1. Понятия интервальной оценки и доверительного интервала 116 3.2. Построение интервальных оценок 118 3.3. Примеры построения интервальных оценок 121 3.4. Метод доверительных множеств 128 3.5. Решение типовых примеров 134 Д.3.1. Необходимые сведения о некоторых распределениях 145 Вопросы и задачи 152 4. Проверка гипотез. Параметрические модели 158 4.1. Основные понятия 158 4.2. Проверка двух простых гипотез 160 4.3. Критерий Неймана — Пирсона 161 4.4. Определение объема выборки 168 4.5. Сложные параметрические гипотезы 171 4.6. Последовательный критерий отношения правдоподобия 178 4.7. Решение типовых примеров 191 Вопросы и задачи 199
423 5. Проверка непараметрических гипотез 207 5.1. Критерии согласия. Простая гипотеза 207 5.2. Критерии согласия. Сложная гипотеза 218 5.3. Критерии независимости 224 5.4. Решение типовых примеров 234 Вопросы и задачи 236 6. Основы корреляционного анализа 240 6.1. Исходные понятия 240 6.2. Анализ парных связей 243 6.3. Анализ коэффициента корреляции 251 6.4. Анализ корреляционного отношения 256 6.5. Анализ множественных связей 260 6.6. Решение типовых примеров 271 Вопросы и задачи 279 7. Основы регрессионного анализа 282 7.1. Исходные предположения 282 7.2. Метод наименьших квадратов 294 7.3. Статистический анализ регрессионной модели .... 311 7.4. О выборе допустимой модели регрессии 325 7.5. Решение типовых примеров 327 Вопросы и задачи 336 8. Основы дисперсионного анализа 340 8.1. Исходные понятия 340 8.2. Однофакторный дисперсионный анализ 341 8.3. Понятие линейных контрастов 348 8.4. Двухфакторный дисперсионный анализ 352 ^ 8.5. Решение типовых примеров 357 Вопросы и задачи 363 9. Непараметрические методы статистики 366 9.1. Одновыборочная задача о сдвиге 367 9.2. Двухвыборочная задача о сдвиге 388 9.3. Решение типовых примеров 395 Вопросы и задачи 400 Приложение 403 Список рекомендуемой литературы 414 Предметный указатель 417
Учебное издание Математика в техническом университете Выпуск XVII Горяинов Владимир Борисович Павлов Игорь Валерианович Цветкова Галина Михаиловна Тескин Олег Иванович МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Редактор Е.В. А&алоьа Художник С.С.Бодчиц Корректор О.В. Калашникова Оригинал-макет подготовлен в Издательстве МГТУ им. Н.Э. Баумана под руководством А.Я. Канатпникова Изд. лиц. №020523 от 25.04.97 Подписано в печать 20.12.2000. Формат 60x88 1/16. Печать офсетная. Бумага офсетная № 1. Усл. печ. л. 26,5. Уч.-изд. л. 24,32. Тираж 3000 экз. Заказ № 7482. Издательство МГТУ им. Н.Э. Баумана. 107005, Москва, 2-я Бауманская, 5. Отпечатано в Производственно-издательском комбинате ВИНИТИ. 140010, г. Люберцы Московской обл., Октябрьский пр-т, 403. Тел. 554-21-86 ISBN 5-7038-1730-7 30