Text
                    ББК 22.172
УДК 519.2
Натан А.А. Горбачев О.Г. ГузС.А.
Математическая статистика. — М.: М3 Пресс, 2005. — 160 с.
Сжато излагаются основные разделы математической стати-
стики. Подбор материала, объем и глубина его изложения со-
ответствуют программе семестрового курса «Математическая
статистика», читаемого авторами студентам факультета
управления и прикладной математики Московского физико-
технического института вслед за курсами по теории вероятно-
стей и основам теории случайных процессов. Для студентов
старших курсов и аспирантов.
ISBN 5-94073-087-6
© М3 Пресс, 2005

ОГЛАВЛЕНИЕ Сокращения и обозначения................................5 Введение................................................7 Глава 1. Основные понятия математической статистики.....9 §1.1. Основные определения........................9 § 1.2. Эмпирическая функция распределения. Порядковые статистики.............................13 § 1.3. Блоки и доли выборки..................... 17 Глава 2. Вероятностные модели принятия решений. Простые классы (гипотезы).............................21 § 2.1. Основные понятия и определения.............21 § 2.2. Критерий Неймана - Пирсона.................27 —. § 2.3. Критерий Байеса (минимума среднего риска)...37 — § 2.4. Минимаксный критерий........................41 § 2.5. Последовательный анализ Вальда.............43 Глава 3. Модели принятия решений при сложных классах (гипотезах).......................59 § 3.1. Сложные гипотезы при случайном параметре....59 § 3.2. Сложные гипотезы при неслучайном параметре..61 3.2.1. Простая и сложная конкурирующие гипотезы; равномерно оптимальное (равномерно наиболее мощное) решающее правило...61 3.2.2. Критерий отношения правдоподобия...........65 Глава 4. Критерии согласия.............................67 § 4.1. Общая постановка задачи....................67 2 § 4.2. Критерий согласия х (метод «хи-квадрат»)...70 § 4.3. Критерий согласия Колмогорова..............77 § 4.4. Задачи о двух выборках.....................79 4.2.1. Критерий Смирнова........................79 4.2.2. Критерий серий...........................80
Глава 5. Точечное параметрическое оценивание.....„„Й.....83 § 5.1. Точечные оценки и их свойства.............83 § 5.2. Методы точечного оценивания неслучайного параметра..........................102 § 5.3. Оценка случайного параметра..............111 Глава 6. Интервальное параметрическое оценивание.....113 § 6.1. Интервальное оценивание параметров нормального распределения.......................114 § 6.2. Интервальное параметрическое оценивание при больших выборках............................121 Глава 7. Непараметрическое оценивание................125 § 7.1. Оценивание функции распределения..;......125 § 7.2. Оценивание функции плотности распределения скалярной случайной величины....................126 § 7.3. Оценивание функции плотности распределения случайного вектора...............................133 Глава 8. Элементы регрессионного анализа. Метод наименьших квадратов (МНК).....................143 § 8.1. Множественная регрессия..................143 § 8.2. Метод наименьших квадратов (МНК).........146 § 8.3. Интервальное оценивание методом наименьших квадратов............................150 Заключение...........................................155 Список литературы....................................156 4
СОКРАЩЕНИЯ И ОБОЗНАЧЕНИЯ С. в. ф. р. ф. п. р. у. ф. п. р. Э.ф.р. м. о. М D с. к. о. к. м. RH x<N\x^ р. п. ф. о. п. ф. п. I %(mx;Rx) - случайная величина; - функция распределения; - функция плотности распределения; - условная функция плотности распределения; - эмпирическая функция распределения; - математическое ожидание; символ м. о.: МХ = тх — математическое ожидание случайной величины Х\ символ дисперсии, DX = D(X) = — дис- персия случайной величины X; среднее квадратическое отклонение, ^х — с. к_о. случайной величины X; корреляционная (ковариационная) матрица; к. м. случайного вектора X; корреляционный момент (ковариация) компо- нент Xj и Xj вектораХ; выборка случайной величины X, реализация выборки случайной величины X; решающее правило, 8( ); функция отношения правдоподббия, Л(у); функция правдоподобия, Z(x^\ v); единичная матрица; нормальное (гауссовское) распределение ска- лярной с. в. Хс м. о. т% и дисперсией ; нормальное (гауссовское) распределение случайного вектора X с вектором м. о. и к. м. ; 5
ф*0 — функция нормального стандартного ?{} распределения (/и = 0, ст2 =1); — вероятность события, указанного в Х-Г скобках; — распределение хи-квадрат с г степенями свободы; St (г) — распределение Стьюдента с г степенями свободы; Х',А’ — знак транспонирования (вектора X', матрицы А'); X, Хе — пространства значений с. в. X, Y, пара- метра v; е — знак принадлежности множеству; знак обладания данным распределением ве- А роятностей (для случайных величин); — равенство по определению (по обозна- чению); D — сходимость по распределению; р п. н. —: > — сходимость по вероятности; — сходимость почти наверное (с вероятно- стью 1); ®е(Х], Л-2) Ф(Уь •••, У«+1) — бета-распределение; — распределение Дирихле; <D n+\) —упорядоченное распределение Дирихле; Г() ЛПР — гамма-функция; — лицо, принимающее решение, пользо- ватель. 6
ВВЕДЕНИЕ Математическая статистика представляет собой научную дис- циплину, изучающую теоретические основы и методы извле- чения и обработки эмпирических данных о массовых явлени- ях, представляемых в виде стохастических моделей, т. е. опи- сываемых вероятностно-статистическими методами. Если теория вероятностей служит для корректного описания реаль- ных явлений в предположении, как правило, заданности рас- пределений вероятностей фигурирующих в моделях случай- ных объектов (событий, величин, процессов), то математиче- ская статистика призвана «оживлять» такие модели оценками этих распределений, получаемых в результате обработки экс- периментальных данных. К задачам математической статистики относят также по- строение и исследование процедур принятия решений в усло- виях «стохастической неопределенности», т. е. когда эта не- определенность может быть описана в терминах вероятност-, ной модели. В первой главе пособия содержатся начальные сведения из математической статистики, используемые и пополняемые в последующих главах. В главах 2 и 3 рассматриваются классические вероятно- стные модели принятия решений о классах наблюдаемых объ- ектов по значениям их признаков (модели классификации или выбора гипотез); при этом предполагается, что распределения признака для каждого класса объектов известны точно или с точностью до типа. Это условие существенно ослаблено, когда распределе- ние признака для некоторой («основной») гипотезы задано, а конкурирующая («альтернативная») гипотеза состоит в пред- положении, что фактическое распределение признака не сов- падает с заданным. Задачи подобного типа отличаются от приведенных выше задач классификации тем, что здесь осу- ществляется не выбор гипотез (из их конечной совокупности), 7
а проверка достоверности одной (основной) гипотезы.: Инст- рументом для решения подобных задач являются критерии согласия, рассматриваемые в четвертой главе. Собственно статистические проблемы возникают, когда фигурирующие в моделях распределения вероятностей априо- ри не заданы, но исследователь обладает обучающими выбор- ками значений случайных величин, позволяющими оценить эти распределения. В этих случаях возникают задачи оцени- вания распределений (главы 5 - 7). В главах 5 и 6 рассмотрены задачи т.н. параметрического оценивания, решаемые в предположении, что типы оценивае- мых распределений известны и задача состоит в оценке неиз- вестных значений их параметров. Следует, однако, иметь в виду, что параметрическое оценивание не всегда приводит к успеху, если априорные предположения о классе распределений не соответствуют реальному положению дел или вообще не могут быть сфор- мулированы. В таких случаях большой интерес представляют мето- ды непараметрического оценивания распределений (гла- ва 7), предъявляющие к априорным сведениям об их свойст- вах гораздо меньшие требования. Успешное применение не- параметрических методов математической статистики во многом зависит от вычислительной эффективности алгорит- мов, реализующих эти методы в задачах многомерного ана- лиза. Этим объясняется то внимание, которое уделяется в этой главе вычислительным аспектам получения оценок. Глава 8 содержит основные сведения о регрессионном анализе, служащем для выявления и оценки вероятностных связей между изучаемыми случайными величинами. Здесь же кратко описан метод наименьших квадратов, представ- ляющий собой основной математический аппарат регресси- онного анализа. 8
ГЛАВА 1 ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ §1.1 . Основные определения Всякая вероятностная, модель реального явления содержит те или иные случайные объекты (случайные события, величины, матрицы, процессы), свойства и характеристики которых (ве- роятности, распределения вероятностей, их моменты и мо- ментные функции) точно априори не заданы и требуют оценки на основании экспериментальных данных. Методы и алгорит- мы такого оценивания, превращающего формальные матема- тические модели ъ рабочий инструмент исследования реаль- ных явлений и процессов, представляют собой главное содер- жание математической статистики. Приведем пример. Пусть решается задача классификации объектов, поступающих на обработку в систему массового об- служивания (см., например, [10]), с целью определения их приоритетов на обработку; классификация осуществляется с использованием признака — случайной величины, зависящей от класса объекта (которым и определяется его приоритет на обработку). Эту процедуру можно формально описать в пред- положении, например, что входной поток объектов — простой пуассоновский процесс, а признак для каждого класса являет- ся случайной величиной с нормальным распределением. Такая модель может служить средством для концептуального иссле- дования процесса обслуживания (условия существования его стационарности, общие методы оптимизации процедуры, кри- терий эффективности признака и т. д.). Однако, чтобы модель можно было бы использовать для решения таких практиче- ских задач, как вычисление оптимальных значений управ- ляющих параметров (параметров правила отбора объектов, интенсивности их отбора и обработки и пр.), необходимо про- вести её доработку, состоящую в проверке априорных пред-
положений о типах распределений входного потока объектов и признака и в оценке параметров этих распределений. Такая «доводка» модели, превращающая её из вероятностной в ве- роятностно-статистическую (стохастическую) модель, требует применения методов математической статистики с использо- ванием экспериментальных данных. Заметим, что при описан- ной операции исходная (вероятностная) модель может под- вергаться существенному изменению (что, однако, не умаляет её значения). Экспериментальные данные, позволяющие получить аде- кватную оценку свойств входящих в модель случайных объек- тов, содержатся в результатах наблюдения состояний иссле- дуемого реального явления; эти наблюдения имеют обычно количественный и многократный характер. Вопросы коррект- ного извлечения информации из эмпирических данных также требуют привлечения методов математической статистики. Далее в роли случайных объектов будут рассматривать- ся, главным образом, случайные величины (с. в.), поскольку в том или ином виде они присутствуют во всех случайных объектах. Рассмотрим процесс формирования эксперимен- тальных данных, используемых для оценки свойств случай- ной величины. Каждое измерение значения некоторой (возможно — векторной) случайной величины X, т. е. получение ее реа- лизации х, мы будем понимать как единичный опыт (наблюдение). Нередко имеется возможность произвести несколько та- ких измерений, т. е. получить N значений с. в. X: x(N} = (х1,...,ху). Естественно рассматривать х^ как реализацию совокуп- ности случайных величин Х^ =(Х],...,Хц), где Х^ — случайная величина, измеряемая в z-ом опыте. Важно под- черкнуть, что при этом в процессе измерений распределе- ние случайной величины X принимается неизменным, т. е. распределения всех случайных величин X. X], Х^ сов- падают. 10
Совокупность Х^ называется выборкой случайной величины X а х^—реализацией выборки . Когда X — скалярная случайная величина, (что чаще всего будет иметь место), Х^ представляет собой случай- ный вектор. Чтобы подчеркнуть векторный характер выбор- ки, иногда будем обозначать ее вектором X = X^N\ Полезно напомнить, как в теории вероятностей определя- ется понятие случайной величины. Пусть < Q, (F, <Р > — вероятностное пространство с множеством исходов Q = {co}, построенной в этом множестве ст-алгеброй Р и с определенной на её элементах вероятностной мерой СР. Случайной величиной называют определенную на множестве Q измеримую функцию X = х(со), (DG Q . Напомним, что понимается под измеримостью функции х(со). Построим в пространстве значений этой функции X борелевскую ст-алгебру СВ, т. е. минимальную ст-алгебру, содержащую все интервалы в X Функция х(<о) измерима, если для каждого борелевского множества В в пространст- ве Х(т. е. для е СВ) его прообраз А в Q принадлежит ст- алгебре Р\ т. е. Л = {со: x(cd)g В}е <F . Поскольку при этом условии множество А обладает опреде- ленной вероятностной мерой Р(А), то ввиду эквивалентности событий {сое А} и {х(со)е В} оказывается определена и ве- роятностная мера множества В: Р(В) = Р(А). Следовательно, измеримость функции х(со) влечет за со- бой измеримость (в смысле обладания вероятностной мерой) всех борелевских множеств в пространстве значений случай- ной величины X = х(со). Приведенные соображения справедливы для скалярных и векторных случайных величин и, в частности, для случайных выборок (при замене пространства Хна и борелевской ст- алгебры <В в пространстве Хна борелевскую ст-алгебру в пространстве X^yV^). 11
Известно, что вероятностная мера для всех множеств из вполне задается функцией распределения, равной (по определению) А Fx(N)(xi,...,xn)=P{Xi <xb..., Xn<xn}. В результате образуется вероятностное пространство вы- борки (вероятностное выборочное пространство) <X{N\<B(N\<PW>. Обычно предполагается, что выборка Х^ отвечает двум условиям: а) ее элементы независимы в совокупности; б) распределения вероятностей всех входящих в выборку случайных величин Х^ одинаковы (не зависят от номера измерения /). Первое условие означает независимость результата каж- дого наблюдения (или их группы) от результатов других на- блюдений, второе — уже отмеченную выше неизменность распределения исследуемой случайной величины в процессе ее измерения. В терминах функций распределений выборки и её компонент приведенные условия выражаются равенствами б) FXl (х) е ... е FXn (X) = FX (Х) = Р{^ < X} . Выборка, удовлетворяющая условиям а) и б), называется простой. Ее вероятностное выборочное пространство пред- ставляет собой прямое произведение N вероятностных про- странств < X, > случайной величины X. Всякая измеримая функция выборки Х^ S = S(X(N}) называется статистикой. Измеримость S гарантирует существование вероятностной меры для каждого события вида {SeB5}, если Bs принадлежит борелевской сг-алгебре
{SeBs}9 если Bs принадлежит борелевской ст-алгебре <BS в пространстве значений 5 ввиду условий: для V5v е ЗВе(В(ЛГ): {SeB4.}<=>{JZ(2V)eB}=>- =>P{SeBs} = P{X(N}e В}. (В — прообраз Вх в пространстве Х^). §1.2 . Эмпирическая функция распределения. Порядковые статистики Пусть X — скалярная случайная величина с функцией рас- пределения Fy(x) и х™ —реализация ее простой выбор- ки X{N). Расположив элементы х^ в порядке их возрас- тания и соответственно перенумеровав их, получим упоря- доченную последовательность чисел (упорядоченную реализацию выборки) х<дг)), в которой X(Z)<X(Z+1) для V/=1,AT-1. Введем ступенчатую функцию к' х^<х-х^+'> k = 0’N~'’ ^(0) = -°°; l[l> X>X(N)’ (1.1) Которая называется эмпирической функцией распределения (э. ф. р.) и может быть иначе записана в виде (1.2) N *=1 где Z^(x) —индикатор события {Хк <х}: (0, Хк > х; 7*<лг’={|. Л-;<х 13
Ясно, что 7^(х) и Fft(x) —случайные величины, причем М Ik(x) = P{Xk < х} = Р{Х < х} = Fx(x)<x>. Из (1.2) и усиленного закона больших чисел следует сходимость эмпирической функцией распределения FN(x) к функции распределения Fx(x) почти наверное (с вероятностью 1): Vx: ^(х)-^->Г%(х), 2V->oo откуда следует, как известно, сходимость Fx (х) к Fx (х) и по вероятности; это свойство эмпирической функции распре- деления позволяет называть её состоятельной оценкой функ- ции распределения (понятие «состоятельности» оценки будет ниже рассмотрено в более широком контексте, см. гл. 5). Полученный результат усиливается теоремой Гливенко о равномерной по х сходимости эмпирической функции распре- деления к функции распределения: И lim sup|P^(x)-FxWI =1>- [W-*00 х Пусть теперь Х^ — множество всех возможных значе- ний, которые может принимать /-й элемент х^ упорядочен- ной реализации выборки х^ =(х(р,...,Х(дг)). Рассмотрим величину X(Z), которая при каждой реализации выборки принимает значение из Хуу Ясно, что Х^у есть функция выборки Х^\ поскольку множеством значений функции яв- ляется Х(/), зависящее от значений элементов Х^^. Убе- димся, что эта функция Измерима, т. е. является статистикой. Это следует из эквивалентности событий {%(/)<х}« U {^71 <х,...,^У/ <х} (1.3) <71.Ji) 14
(объединение справа выполняется по всем наборам (71,..., 7/) из (1,..., X)) и из того факта, что любое борелев- ское множество в Хцу представимо с помощью борелевских множеств вида {Х(,) < *} • Случайная величина Хщ носит название i-ou порядковой статистики выборки . Итак, порядковые статистики Хц),Х^) представ- ляют собой совокупность случайных величин, удовлетворяю- щих неравенству (1.4) Далее в этом разделе мы будем полагать, что случайная величина X имеет абсолютно непрерывное распределение с функцией плотности распределения f% (х). В этом случае, как помнит читатель из курса по теории вероятностей, вероят- ность события {Xt = Xj } при i * j равна нулю и (1.4) можно записать в виде ^(1) < "•< X(N)- Найдем совместное и маргинальные (частные) распре- деления порядковых статистик, используя следующие обозначения. Будем называть вектор порядковых статистик = (Хц),..., Х^х) У вариационным рядом простой выбор- ки Х^^ =(Х],...9ХхУ ; ясно, что введенная ранее упорядо- ченная реализация выборки х^ = (х< j х< д, >) является реализацией вариационного ряда Х^ выборки Х^. Обозначим, далее, F(.j(x],..., хд) и /(.)(хь ..., хд;) функцию распределения и, соответственно, функцию плотно- сти распределения вектора (Х^)' (т. е. совместного распре- деления порядковых статистик), a F^^(xk) и f(k)(xk) — 15
маргинальные функцию распределения и плотность распреде- ления порядковой статистики Х^, к = 1, #. Для N произвольных чисел из X: x\<-<xN и достаточно малых Axj &xN имеем -------— Р {jq < Х(1)< X] + Axj,..., xN < Х{ Ny< xN + ДхА/} = ZkX| ...ДХдг 1 =---------X х Е P{x]<Xj}<x}+^x},...,xN ^XJn<xn+^xn} (71...Jn> (суммирование выполняется по всем перестановкам индек- сов (ji,уд/) из (1,N)). Переходя к пределу и учиты- вая, что выборка Х^ простая, для совместной функции плотности распределения порядковых статистик получим /(.)(х1,...,хл,) = У!П _/>(х,), -со < X] <...<xN < со • <=1 (1.5) Маргинальная функция распределения к-и порядковой статистики Хщ равна Fw(x) = P{X{k)<x}= X C^FHxHl-FHx)]"-' (1.6) i>k (сумма справа есть вероятность правого события в (1.3), т. е. того факта, что значения не менее к элементов выборки Х^^ меньше х). Отсюда для маргинальной функции плотности распре- деления получаем /(Л)(х) = = NCkN~\Ft' (х)[1 - Fx (x)f’* fx М (1.7) (легко проверить, что после дифференцирования (1.6) все чле- ны полученной суммы, кроме первого, сокращаются). 16
§1.3. Блоки и доли выборки Назовем полуинтервал Вг = [^(z-i), ^(/)) блоком выбор- ки, z=l,W + l; Аг(0)=-оо, ^(jv+i)=oo'. Ясно, что положение Z-го блока выборки и его размеры случайны. Вероятность Wi = Р{Хъ Вt} = Fx {X{i}) - Fx {X(i_x}) (1.8) называется z-ой долей выборки; она определяет вероятностную меру блока В, или, иначе говоря, вероятность того, что новое (N +1) -ое измерение с. в. X окажется лежащим в В,. Важно подчеркнуть, что для Vz вероятность И/ сама является слу- чайной величиной, точнее — статистикой, поскольку зависит от выборки и измерима, так как согласно (1.8) выражается измеримыми функциями от случайных величин. Обозначая w, реализацию Н/, имеем 2V+1 У+1 Е = Е w>= 1 • /=1 /=1 Найдем совместное распределение долей выборки, т. е. вектора И7 = (РКу,..., РГдгУ , в случае, когда А" имеет непре- рывную функцию распределения Для этого рассмот- рим случайную величину U = Fx(X), которая, как известно, при непрерывной Fx{-) распределена равномерно на интер- вале (0, 1), т. е. г ( ч [j 1, we (0,1); Л'(") = 1о, «(0,1). (L9) Выборке Х^ соответствует выборка U = uW=(Fx(Xx),...,Fx(XN», а порядковым статистикам Хщ9 — порядковые ста- тистики ..., £/(дг), причем = Fx(X^) (ввиду моно- томности функции распределения Fjc OIL- w
Из (1.5) и (1.9) для совместной плотности распределения порядковых статистик получаем f (и 1, « = /(.)(«Ь....WjV)-|0> u^Su S(j ={и: 0<Wj <...<uN <l}. Из равенств C/(0) = 0 легко получить распределение вектора IF = (W},..)', имея в виду, что якобиан преобразования Н'»И/(С/) равен единице, а область Sjy возможных значений W отвечает, условию N Syy={w\ £ Wj < I, Vw,>0}. z=l Получаем I U, WgE Ojy . Полученные распределения векторов U и JF являются ча- стными случаями распределений Дирихле. Распределением Дирихле ®(У1, ...,У£+1) с параметра- ми У1, • •УАг+1 ^-мерного случайного вектора Y = (Kj,..., )' называют распределение с плотностью /у О') = f<D О) = 2vY1-] vYt-,x --Ук I * * * * * * * * Х х(1-у]ye Sy; 1^0, у £ Sy \ z к SY ={j: I Vj, >0}; Г(у1 + ... + у* + 1 . Г(У1)...Г(у4 + 1 18
здесь Уь---Л^+1 — положительные параметры распределе- ния Дирихле; Г(-) —гамма-функция Г(у) = j e~s ds (у > 0), 0 которая для положительных целых значений аргумента у рав- на Г(у) = (Y “ 1)! и> кроме того, Г(1/2) = Vft . Отметим одно важное свойство распределения Дирихле. Пусть Уе O(yi,YA+1) и Z\ = + ... + 1^ , Z2 = У^+i +--- + У^1+^2 , ~ +1 + ••• + ++^. . Тогда Z = (Z1?Zz )re = <О(у] + ... + УАг Y^+i+’-’ + Y^+A^ ’ •••’ YA1+...+A,41 + --- + Y£+l)i Частным случаем распределения Дирихле случайной ве- личины Y при к = 1 является бета-распределение ®e(Yi, Y2) = ®(Yb Y2)> дяйчкоторого математическое ожидание и дисперсия соответ- ственно равны MY = —^—; Y1+Y2 (1-10) DY=------------Гр---------. (Yl +Y2) (У1 +У2 +1> Для случайного вектора V = (Vy,Р})', получаемого в результате преобразования И=ГЬ Г2 = У1+Г2, yk=Yl+... + Yk, 2* 19
нетрудно получить следующее выражение функции плотности вероятности /r(v) = 4«(v) = I г/у? Г(у^ + 1) vlYrl(v2-n)y2’1-0-v*)n+rl. ve Sy, l[0, veSpr; Sy = {v : 0< Vj < ...< < 1}. Последнее распределение называется порядковым распреде- лением Дирихле и обозначается Ф*(Уь...«у*+|). Легко видеть, что полученные для векторов U и W распределения являются соответственно порядковым и обычным распределениями Дирихле со значениями пара- метров у, =... = yN+i =1. 20
ГЛАВА 2 ВЕРОЯТНОСТНЫЕ МОДЕЛИ ПРИНЯТИЯ РЕШЕНИЙ. ПРОСТЫЕ КЛАССЫ (ГИПОТЕЗЫ) В этой главе рассматриваются математические модели приня- тия решений в условиях неопределенности, когда эта неопре- деленность может быть описана в терминах теории вероятно- стей, т. е. в предположении существования вероятностей и распределений вероятностей фигурирующих в моделях слу- чайных событий и величин. §2.1. Основные понятия и определения Рассмотрим множество О объектов, каждый из которых при- надлежит к одному и только к одному из п классов Hj, i = },n. Обозначая (для каждого /) О,- подмножество всех объектов z-го класса из О, получим разбиение п О=ио,, О/ПО/2=0 ДЛяУ/1,/2: п*»2- »=1 Подчеркнем, что принадлежность каждого объекта к оп- ределенному классу является объективной реальностью: ре- зультат наблюдения не влияет на истинный класс объекта, а позволяет лишь делать выводы о его классе. При этом на- блюдатель в наших моделях лишен возможности точно оп- ределять класс объекта, но пытается делать это (с тем или иным уровнем достоверности) по результату измерения не- которой наблюдаемой (часто — векторной) случайной вели- чины — признака Y, носителями которого каждый объект яв- ляется и который находится в вероятностной связи с класса- ми объектов.
Эта связь выражается условными функциями распределе- ния {F(y\ (в общем случае), условными вероятностя- ми {Р(у\Н;)}”=} (при дискретном распределении признака) или (при непрерывном распределении признака У) условными функциями плотностей распределения {/(у | Нг-)}. В понятия «объект», «класс», «признак» вкладывается х самый широкий смысл: объектом может быть техническая система, её классами — состояния этой системы (исправное или неисправное с классификацией вида неисправности), а признаком — набор наблюдаемых параметров‘Системы. В медико-биологических приложениях эти понятия соответст- венно могут иметь смысл отдельного живого организма, его состояний и результатов физиологических обследований. В экономических приложениях рассматриваемые задачи воз- никают, например, при аудиторском анализе деятельности коммерческих фирм («объекты») с целью определения уров- ня их экономической состоятельности («классы») на основе данных отчетной документации («признаки»). Отнесение объекта к тому или иному классу в условиях описанной неопределенности можно рассматривать как вы- бор одной из гипотез о классе объекта из набора возможных конкурирующих гипотез % = {Я/}”=1 • Поэтому класс объек- та Hi и так же обозначаемая гипотеза обычно употребляют- ся, как синонимы, а рассматриваемые здесь задачи часто на- зываются задачами выбора гипотез. Признак может представлять собой многомерный слу- чайный вектор с разнородными зависимыми компонентами. Помимо этого, возможны случаи, когда измерение признака для каждого объекта осуществляется многократно, т. е. обра- зует выборку его значений. Таким образом, в самом общем случае признак Y пред- ставляет собой выборку векторной случайной величины, т. е. у = yW = (У],..., Удг), где Yj — вектор. На практике, одна- ко, чаще других встречаются случаи, когда признаком Y яв- ляется одноэлементная (N = 1) выборка векторной случай- ной величины (Y = Y) или TV-элементная простая выборка 22
скалярной случайной величины (К = К^). Во всех случаях, когда не требуется дополнительных уточнений, признак будет иметь обозначение Y. Пространство значений признака Y будем обозначать ¥. Ясно, что достоверность решения о классе объекта, при- нимаемого в результате измерения признака, зависит от того, насколько классы объектов различимы в пространстве ¥: ес- ли оно разбивается на непересекающиеся множества п Y = |J так, что каждое из них (%) содержит значения /=1 признака, соответствующие одному и только одному классу объектов Hj из 74 то измерение признака Y позволяет клас- сифицировать объект вполне достоверно. Такие «вырожден- ные» случаи нами рассматриваться не будут. Вместо этого бу- дет постоянно предполагаться, что взаимнооднозначное соот- ветствие между множествами (%) и классами {Hj} при п любом разбиении ¥ = |J , отсутствует, но при этом все 7=1 классы различаются условными распределениями признака, т. е. F(y | Hj) * F(y | Hj ) для V i, j: j (в противном слу- чае признак У не в состоянии различать классы Hj и Hj). ^ХВажным является вопрос о мере информированности наблюдателя о конкретном виде условных распределений признака. Если для класса Hj условное распределение при- знака (в виде, например, F(y \Hj)) точно известно, то такой класс (соответственно — гипотеза Hj) называется простым. Возможны, однако, случаи, когда для класса Hj известно лишь семейство, к которому относится условное распределе- ние признака. Такое положение имеет место, например, ко- гда это распределение имеет определенный известный тип, но конкретно определяется параметром, значение которого не известно. В таких случаях класс (гипотеза) называется сложным. 23
К сложным следует отнести и классы, которые пред- ставлены лишь выборками значений признака (иногда - при самых общих предположениях о свойствах его условного распределения). Примером простых классов являются состояния некото- рой системы, каждое из которых характеризуется точно фик- сированным распределением используемого признака — рас- пределением температуры технического объекта, размера собственного капитала фирмы и т. п. К сложным классам относятся состояния системы, каждому из которых соответствует распределение признака, точно не известное, но принадлежащее некоторому определенному семейству распределений. На практике часто в задаче присутствуют и простые и сложные классы. Так, нормальное (в смысле — номиналь- ное) состояние контролируемой системы (класс Н\) может характеризоваться определенным точно известным распре- делением признака (например, гауссовским: У £%(»?]; ст2) при известных т\ и а2), а возможные «аномальные» со- стояния образуют один сложный класс Я2, для которого Ye %(м2;ст2), где а2 известно, а /и2— фиксированное, но неизвестное значение математическое ожидание призна- ка, отвечающее условию w2 > /И], т. е. конкурирующие ги- потезы о классе объекта определяются условиями: Н\: Ye %(/и;ст2), т = wj, (простой класс) Я2 : Уе %(w; ст 2), т > , (сложный класс) Число сложных классов в задаче может быть, конечно, и больше одного, чему соответствует, например, случай: Н\: Уе %(w;ct2), т = т\, Н2- Уе W(w;ct2), тспц, | Я3: Уе %(ти;ст2), w>wi, I (простой класс) (сложные классы) где W] и ст2 —известны. 24
В самом общем случае набор фигурирующих в задаче гипотез можно представить в виде: Я- F(y\Hi)e<Fi i = Ui. где — заданные множество условных функций распреде- ления, соответствующих классу Я/; одноэлементные мно- жества соответствуют простым классам (гипотезам). В этой главе рассматриваются задачи, в которых фигу- рируют только простые классы (гипотезы); сложные классы рассматриваются в следующей главе. Задача принятия решения состоит в выборе класса Я,- по результату измерения значения у признака У. Правило, по кото- рому осуществляется этот выбор, называется решающим пра- вилом &(у), представляющим собой функцию, отображающую множество ¥ в множество решений О. В простых случаях множество Ф состоит из п элементов d\,..., dn; d = d, озна- чает решение об отнесении наблюдаемого объекта к классу Я/. Однако, как мы увидим, возможны решающие правила, у кото- рых число решений к не совпадает с числом классов п. Представляется естественным представить решающее правило разбиением пространства Yна к непересекающихся областей (по числу решений): п ^=11%’, ^П%-2=0 ДЛяУц,/2: i^i2 (2.1) /=1 и прйнимать решения по схеме ye Yj =>d = dj. Решающие правила, отвечающие такой схеме, носят на- звание нерандомизированных решающих правил, в отличие от рандомизированных решающих правил, которые осуществ- ляются по следующей, более сложной, схеме. Введем так называемую рандомизирующую функцию: q(y) = , Чк(у)У, ^4i(y) * о, (2.2) к = l Для *У> /=1 25
где q^y) — вероятность выбора решения dt при данном значении у признака Y. Теперь, обозначая {d = dj} событие, состоящее в принятии решения dj, получим следующую схе- му принятия решения: Y = y=>P{d = di\y}=qi(y), / = 1Д, в которой случайный выбор решения при Y = у осуществля- ется согласно рандомизирующей, функции, задаваемой иссле- дователем и реализуемой (например) при помощи датчика случайных чисел в ЭВМ. Подчеркнем, что выбор рандомизи- рующей функции здесь никак не связан с истинным классом наблюдаемого объекта. Ясно, что нерандомизированное решающее правило является частным случаем рандомизированного, у которого функции ^/(у) являются (соответственно) индикаторами множеств Т}: Со, у£ %; „ '-W-tl, (23> На первый взгляд применение рандомизированных ре- шающих правил не должно увеличивать достоверность при- нимаемых решений, поскольку, как было указано, используе- мый в них случайный механизм выбора гипотезы не зависит от истинного класса наблюдаемого объекта. Это действитель- но так; однако ниже будет показано, что в некоторых случаях их использование позволяет более успешно распорядиться фигурирующими в задаче ограничениями. Для выбора наилучшего среди множества Дн р п неран- домизированных или множества Др р п рандомизированных решающих правил, (определяемых, соответственно, разбиениями (2.1) или рандомизирующими функциями ^г(у) (2.2)), необходимо определить критерий оптимальности решающего правила, т. е. функционал, содержательно выра- жающий качество решающего правила в смысле решаемой задачи. Различным вариантам задач соответствуют различ- 26
ные критерии, каждый из которых, в свою очередь, опреде- ляет решающее правило, являющееся оптимальным в смысле данного критерия. Разнообразие рассматриваемых ниже про- цедур принятия решений обусловлено различием критериев. Вероятностный характер исследуемых здесь ' задач, проявляющийся в ненулевых вероятностях ошибочных решений, приводит к тому, что каждый, критерий /Стак или иначе связан с величинами этих вероятностей или с математическим ожиданием потерь, ими вызываемых. Прежде чем перейти к формированию конкретных крите- риев для задач принятия решений, введем понятие матрицы штрафов С, каждый элемент Су которой является платой («штрафом») лица, принимающего решение (ЛПР), когда при- нимается решение dj при истинности класса объекта У/,, т. е. при осуществлении события Ау, выражаемого конъюнкцией Матрица С определяет отношение ЛПР к конкретному типу ошибочного решения. Обычно выполняются условия: V i: сц = 0 или Сц < 0. Частный вид матрицы, у которой соответствует тому случаю, когда все ошибочные решения для ЛПР равнозначны. Приведенная схема взыскания штрафа с ЛПР не является, однако, единственно возможной. Иногда штраф может выра- жать плату за проводимые измерения значений признака. §2.2. Критерий Неймана-Пирсона Введем условные вероятности а у -P(dj | ЯД каждая из ко- торых при / j равна вероятности ошибочного принятия ре- шения dj для объекта класса //,, а при i = j — вероятности правильного решения для этого класса. 27
Для рандомизированного решающего правила 5 с ран- домизирующей функцией (f(y) = (^i(y), эту веро- ятность можно выразить многомерным (при векторном при- знаке Y) интегралом Римана-Стилтьеса: а(, = |?у(у)^(у|Я,). (2.5) Напомним, что при абсолютно непрерывном распределении признака Y с плотностью f (у | ) этот интеграл превращается в обычный интеграл Римана с заменой dF(y\ Н^)- /(у| H^dy, а при дискретном распределении признака Y — в сумму или ряд с заменой dF{y\Hi) = P(Y^y\Hi). Для общности изложения (включающего и случаи сме- шанных распределений признака) в дальнейшем использу- ются интегралы Римана - Стилтьеса, которые могут легко интерпретироваться читателем для того или иного типа рас- пределения признака. При нерандомизированном решающем правиле ^у(у), как указывалось, превращается в индикатор области %• (см. выражение (2.3)), и а,у= pFCHH,). Величина п ri(5)= X aiJcij ’ (2-6) 7=1 равная среднему значению штрафа при классификации объ- екта класса , носит название условного среднего риска для класса (гипотезы) Введение величин {r/(8)}7=i позволяет формализовать ряд критериев оптимальности решающего правила, первым из ко- 28
торых мы рассмотрим критерий Неймана-Пирсона 2Снп • Суть этого критерия состоит в ограничении значений ус- ловных рисков для группы п -1 (из п) классов и минимизации при этом условного риска для класса, не входящего в эту группу (например, без потери общности, для класса Нп). Формально этот критерий выглядит следующим образом. Пусть Д(„_ 1) — множество решающих правил, удовлетворяю- щих условиям для V8e A(w-i) г,(8)<А7, / = 1,л-1, (2.7) Тогда оптимальное в смысле критерия Неймана - Пирсона 20 решающее правило Оцп находится из условия 8НП=агё min /Я(5). (2-8) 5еД(и-1) Наиболее часто критерий Неймана-Пирсона использу- ется при п = 2 и для матрицы С вида (2.4). В этом случае ус- ловный риск п(5) = а]2 представляет собой вероятность ошибочного отнесения объекта класса Н\ к классу Hi; она носит название вероятности ошибки первого рода и обозна- чается а. Условный риск = а21 — вероятность непра- вильной классификации объекта второго класса — именует- ся вероятностью ошибки второго рода и обозначается р. В принятых обозначениях критерий Неймана - Пирсона примет вид Д] = {8 : а(8)< а}; (2.9) 8нп = arg min Р(5), 8g A] где 8дп — оптимальное решающее правило, а — ограни- чение на вероятность ошибки первого рода. Иногда в критерии Неймана - Пирсона вместо вероятно- сти Р используют вероятность ср = 1 ~Р , т. е. вероятность пра- вильной классификации объекта класса Hi, называемую 29
мощностью решающего правила (иначе — мощностью кри- терия). В связи с этим, поскольку искомое решающее правило ~0 Одл предписывает максимизировать величину ср, его имену- ют наиболее мощным решающим правилом (критерием). Заметим, что, применяя рандомизированные решающие правила, обычно можно добиться равенства а = а , миними- зируя при этом р. Однако возможны случаи, когда при неко- тором 8 имеют место соотношения а(8) = а<а и р = 0, в силу чего добиваться указанного равенства нет смысла; это относится и к неравенствам в (2.7). Далее, тем не менее, мы будем обычно полагать, что а > а и в (2.9) ограничение на вероятность ошибки первого рода можно (когда это не вызы- вает недоразумений) выражать равенством а (8) = а . Для всего (в общем случае - континуального) множества решающих правил Днрп или Дрр п взаимно однозначное соответствие между величинами а и Р (или <р) отсутствует, что затрудняет выделение из них оптимального решающего правила 8нп их простым перечислением. Решение этой за- дачи оказывается, однако, возможным путем выделения упо- * рядоченного подмножества решающих правил, среди кото- рых находится 8цп» и их направленного перебора. Суть это- го подхода раскрывается в приводимой ниже лемме, доказательство которой опирается на ряд новых понятий. До сих пор мы рассматривали Я(у|Я,), /(у|Я/), Р(у | Я/) при i = 1, п, как функции, определяющие распре- деления вероятностей значений признака Y при каждой фик- сированной гипотезе Я/. Можно, однако, придать им сле- дующий (несколько иной) смысл, который поясним, сначала, для дискретного распределения признака (Р(у | Я/ ))"=1. Пусть у — полученное значение признака. Тогда, сопоставляя значения вероятностей Р(у | Я/) при различных i и при фиксированном у, можно оценить, для какой из гипотез это полученное значение признака «правдоподобнее» (т. е., как нетрудно проверить, вероятнее, если полагать, что до измерения признака априорные вероятности для всех гипо- 30
тез были одинаковы). Понимаемое в этом смысле условное распределе- ние P(y\Hj) называется функцией правдоподобия и обозна- чается Цу ] Hi Y L(y \Hj) = Р(у I Hi), z = 1, n. Если признак Y имеет непрерывное распределение с ус- ловными функциями плотности распределения (/(.у | то функция правдоподобия, как и в дискретном* случае,/Имеет смысл функции, выражающей правдоподобность полученного (фиксированного) значения признака у при варьируемой гипотезе; отличие от дискретного состоит, однако, в том, что при сравнении правдоподобности гипотез используются не условные вероятности {Р(у | Я,)}/^, а функции плотности распределения (/(у | Ht ))/Lj. Сохраняя обозначение для функции правдоподобия и для этого случая, получим L(y\Hi) = f(y\Hi^i = \Ji. Когда признак Y представляет собой простую выборку = (yj,..Удг у , функция правдоподобия имеет вид (в за- висимости от типа распределения) Цу|/7у) = N । /=1 П Лу,1«у) I 7=1 при дискретном К; при непрерывном Y. (2.Ю) Введем теперь для двух гипотез Н\ и Н2 понятие функции отношения правдоподобия Л(у): д Л(^)= Ц^|Я2) । 1 /СИ„2) I .Ну\ Wj) при дискретном распределении Y; при непрерывном распределении Y; (2.11) 31
(полагая Л(^) = оо при f(y | Н\) = 0 или Р(у | Н\) = 0 ). Интуитивный смысл этой функции достаточно ясен: чем больше её значение при полученном значении признака у, тем больше оснований полагать, что наблюдаемый объект относится к классу Н2 > наоборот, малые значения Л(^) в большей степени характерны для класса . Покажем, что функция Л(.у) позволяет выделить упоря- доченную совокупность рандомизированных решающих правил А°, содержащую решающее правило, оптимальное в смысле критерия Неймана - Пирсона (напомним, что в мно- жество А° входят, как частный случай, и нерандомизирован- ные решающие правила). Фундаментальная лемма Неймана - Пирсона. Для каждого фиксированного а оптимальное в смысле критерия Неймана - Пирсона решающее правило 8нп(а) определяется импликациями: уе =>d = dy9 ye ^2 =>d = d2, (2.12) о Г d = d? с вероятностью qE\ ye Yo j f i u I d = d\ с вероятностью 1 - q &; где ^1°= 0>:A(j)< A« }, T2°= {у:Л(у)>Ла}, (2.13) ‘Го0=Ь':ЛОО = Лй}, а и q& однозначно находятся из условий P{Y& Г2° | Я!} < а , Р{Ге r2°U< IЩ} > а, Р{Ке Г2° I Нх} + ?а/>{Ге То° | Нх} = а . Утверждение леммы означает, что оптимальное р. п. ^нп(^) следует находить путем варьирования порогового 32
значения Л функции отношения правдоподобия Л(у). Если при этом для некоторого значения Л = образуются об- ласти значений признака и отвечающие услови- ям (2.13), то для каждого у, принадлежащего одной из этих областей, принимается детерминированное решение со- гласно (2.12). Если при этом первое из приведенных усло- вий имеет вид равенства P{Ye | Н\} = а , то решающее правило имеет вид уе => d = rfj, ye Y20U<r00^d = d2 (в этом случае его рандомизации не требуется). Когда, однако, указанное условие представляет собой строгое неравенство Р{Ге<Г2°1^1}<“. то, рандомизация решающего правила (состоящая, грубо го- воря, в «расщеплении» области %}°) оказывается полезной, поскольку позволяет снизить вероятность ошибки второго ро- да р за счет полного использования ограничения на вероят- ность ошибки первого рода а. Для доказательства леммы сопоставим решающее прави- ло 8° = 8 ид (а) с каким-либо иным рандомизированным ре- шающим правилом 8 = 8(a) с рандомизирующей функцией д(у), отвечающей условию a = a (а в остальном — произ- вольной). Условие a(8°) = a(8) = a представимо в виде Т2 Т0 = P(y)rfF(j|tfJ) + J9(yWF(y|^i)+ Нх) = а «у-О Г1 r2 Г0 3—116 33
Покажем, что при этом условии решающее правило 8 не может быть мощнее решающего правила 8°, т. е. ф(8°)>ф(8), что означает оптимальность 8° в смысле критерия Неймана - Пирсона. Для этого представим раз- ность Дф =ф(8°)-ф(8) в виде Дф = \dF{y\H2) + q^ \dF{y\H2) у® \q(y)dF(y\H2) jq(y)dF(y\H2) (2.14) Tj° r2° T0 Запишем функцию отношения правдоподобия в виде Л(у) = (2.15) dF(y\Hl) который, в зависимости от типа распределения признака Y, следует интерпретировать в смысле (2.11). Теперь (2.14) можно представить в виде Дф = \A(y)dF(y\H}) + qt \A(y)dF(y\H}) r2 Z0 J q(y)A(y) dF(y | H2) J q(y)A(y) dF(y | H2) Yj° Y2° J9(y)AOO<tfV|tf2). Y° zo Далее, используя (2.13) и условие а(8°) = а(8), читатель найдет, что Дф>Лй • (а(8°)-а(8)) = О, т. е. решающее правило 8 оптимально. 34
Важным следствием доказанной леммы является тот факт, что в рассматриваемой задаче при построении опти- мального решающего правила можно оперировать с скаляр- ной случайной величиной Л = Л(У) (вместо признака Y, возможно — многомерного). Это следует из эквивалентно- сти событий {_уе У,0} ~{Л< Л„ }, {ye Г20} ~{Л > Ай}, {уе 'Г0°}~{Л = Лй} и означает, что в рамках критерия Неймана-Пирсона отно- шение правдоподобия Л(У) является статистикой, сохраняющей всю информацию о классифицируемом объекте, содержащуюся в исходном признаке Y Статистики, обладающие таким свойством (в несколько более общем смысле) будут ниже именоваться достаточными (см. гл. 5). В случае непрерывных условных распределений вели- чины Л(>>) (т. е. непрерывности функций распределения f\(k\ Hj))9 условные вероятностные меры области 7g0 равны нулю: Р{Уе < \Hj} = Р{Л(Г) = Ай | Я,} = О и эта область с одинаковым результатом может быть отнесе- на к области или ; в последнем случае оптимальное при а = а в смысле Неймана - Пирсона решающее правило 8цп (а) соответствует условию (взамен (2.13)): Ъ° = {у: ЛСи)<ЛйЬ (2.16) ^ = {у: Л(/)>Лй}, где определяется равенством а= {^1//!)= JJFaCXIHj), Л°2={Х: Х>Лй}. у О дО т2 л2 В этом случае оптимальное решающее правило является нерандомизированным. з* 35
Построение оптимального решающего правила в про- странстве скалярной статистики Л(у) требует, конечно, вы- числения ее условных распределений (X | Я/), что не все- гда является простой задачей. Итак, роль функции отношения правдоподобия Л(у) состоит в выделении из всего множества решающих правил Др.р.п. упорядоченного (по значению порога и величине рандомизирующей вероятности подмножества Д°, сре- ди которых находится решающее правило 8цп(а), оптимальное для заданного а . Ясно, что подмножество Д° не изменится, если вместо функции А(у) использовать её любую строго монотонную функцию (статистику) Т = Т(Л). Пусть, в частности, признак представляет собой одноэлементную выборку случайного век- тора (Y = Y) с нормальными условными распределениями /а। я,)=%(«,-, R/), «=1,2. Тогда в качестве достаточной статистики Т можно использо- вать квадратичную форму Q(Y) в выражении dF(y\H2)_Ac~L,Q^ dF(y\H\) т. е. Т = Q(Y) = Г (Rf1 - Rj1 )К - 2(«i Rf1 - m'2R2l )Г или, в случае R] = R2 = R, r = 2(/M]-m2)'R-1y, т. е. линейную скалярную функцию компонент признака Y. В последнем случае оптимальное решающее правило 8° определяется эквивалентными областями принятия решений Ъ° = {у-A(j)<Aa}~<rl0 = {T: Т<Т«}, ^2={У- ЛОО>Л« {Г: Т>Т«}. 36
Легко видеть, что в пространстве '/области и разде- лены при этом гиперплоскостью, что соответствует решаю- щему правилу, называемому линейным классификатором. В случае Rj # R2 области и разделяются гра- ницей, представляющей собой поверхность второго порядка {квадратичный классификатор). §2.3. Критерий Байеса (минимума среднего риска) Вернемся к случаю п классов ( п > 2) и произвольной матри- цы штрафов С. Предположим дополнительно, что известны априорные вероятности классов (гипотез) Р = {Р(Я/)}”=|, при этом п Z ля,) = 1. /=1 Тогда для каждого решающего правила 8 с рандомизирую- щей вектор-функцией q{y) (сравните с (2.2)) можно опре- делить средний {полный) риск {штраф) (см. (2.5), (2.6)) п п п Я(8) = £ Р(Я,)г,(8)=^ X Р№ IqjMCydFMHi). <=1 /=1 7=1 у (2.17) Если 8 — нерандомизированное решающее правило и 4j(?) — индикаторы множеств Оу в разбиении п rY=\J(Yj, Y71A'//2=0 дляУ/ьу2: /=1 т. е. выполняются импликации (выбор ги- потезы Hi), то п п *(«) = £ L \P{Hi)cijdF{y\Hi). (2.18) /=1 у=1 Теперь решающие правила можно сравнивать по величине среднего риска 7?(8) и в качестве оптимального (8°) выби- 37
рать то из них, при котором эта величина достигает наи- меньшего значения, т. е. 5° = arg min Р(8). 5еД Такой подход к определению оптимального решающего правила носит название критерия минимума среднего риска (Байеса). Решающее правило, оптимальное в смысле этого критерия, будем обозначать 8° =85. В отличие от решающего правила Зцп(а), оптимально- го в смысле критерия Неймана - Пирсона и зависящего от заданного а , решающее правило 8| зависит от распределе- ния априорных вероятностей гипотез P = {P(Hj)}rj=\ (и, ко- нечно, от вида матрицы С, которую здесь принимаем, одна- ко, фиксированной). Обозначим Ф множество всех распреде- лений априорных вероятностей классов (гипотез). Варьируя Р: Ре Ф, получим множество решающих правил, опти- мальных в смысле критерия Байеса. Найдем условия, опре- деляющие 8 £ при фиксированном Р. Введем функции п hj(y) = Y P(Hi)ciJF(y\Hi), (2.19) z=l для каждой из которых И dhj(y) = Y P{Hi)cijdF{y\Hi) Z=1 выражает дифференциальный штраф за отнесение значения признака Y = у или его окрестности в область QQ . Предста- вим (2.17) и (2.18) соответственно в виде п И Я(б)=£ \Qj{y)dhj(y), Я(5)=£ \dhj(y). 7=1 ‘Г 7=1 Справедлива следующая теорема. 38
Теорема2.1. Оптимальное в смысле критерия Байеса решающее правило 8 g при заданном априорном распределе- нии P = отвечает разбиению пространства при- п знака Уна непересекающиеся области ¥ = [J Оу , где У=1 Г? = {у: dhj (у) < dhi {у) для V Ij}, (2.20) для которых принятие решений осуществляется по схеме уе Yj =>d = dj. Нестрогое неравенство в (2.20) следует понимать в том смысле, что значения признака, лежащие на границе смеж- ных областей, можно произвольно относить к соседствую- щим областям: при этом значение среднего риска не изменя- ется (это достаточно очевидное утверждение полезно прове- рить читателю самостоятельно). Доказательство этой теоремы сводится к сравнению зна- чении среднего риска для решающего правила о б и для про- извольного рандомизированного решающего правила 8 (при неизменном Р). Имеет место очевидное неравенство: ~ п п ДЯ = Я(8) - Я(8 £) = £ J [Xqk(y)dhk(y)- dhj(y)] > 0, j=ltyO k=\ так как для V ye Yj } dhj(y) = min dhk(y) и E^(y) = l- k *=1 Теорема доказана. Подчеркнем, что полученное оптимальное решающее пра- вило 8 б является нерандомизированным. 39
Рассмотрим случай п = 2. Из (2.19) и (2.20) следует, что 50 при этом оБ определяется условием *2 ={У- РЩ'П dF(y\H\) +Р(Н2)с22 dF(y\H2)£ <P(Hl)cndF(y\Hi) + P(H2)c2idF(y\H2)} = ={у. Р(Н2 )(с21-с22 )dF(y |Я2) > Р{НХ )(с12-с21 )dF{ у |Я,)}; (2.21) <Г1° = 'Г\'Г2). Ввиду (2.14), (2.20) и (2.21) эти условия могут быть перепи- саны с использованием функции Л(у), т. е. y2° = (У: Л(У) * P(HlXcn-cu) Р(Я2)(с21-с22) Б Yi° = {y. Л(у)<Лъ}. (2.22) Таким образом, для критерия Байеса функцией, опре- деляющей структуру решающего правила, снова является функция отношения правдоподобия, пороговое значение Л g которой непосредственно выражается через априорные вероятности гипотез и матрицу штрафов. Нетрудно убедиться, что класс решающих правил Ацп, оптимальных в смысле критерия Неймана-Пирсона, шире класса решающих правил Д Б, оптимальных в смысле крите- рия Байеса, поскольку второй не содержит рандомизирован- ных решающих правил для случаев Л(у) = ЛБ. Можно, одна- ко, расширить класс Д Б, включив в него и рандомизирован- ные решающие правила, используемые для значений признака У, лежащих на границах областей Yj . Ясно, что такие ре- шающие правила эквивалентны нерандомизированным ре- шающим правилам, для которых отнесение этих значений к той или иной области произвольно. Такой расширенный класс байесовских р. п. Д Б совпадает с классом р. п. Д щ]. 40
Рассмотрим частный случай, когда матрица штрафов имеет вид (2.4). Читатель без труда проверит, что в этом слу- чае (2.20) примет вид Y/ = {у: Р(Яу | у) > Р(Я, | у) для V i * j}, j = . В такой форме решающее правило носит название кри- терия максимума апостериорной вероятности. Заметим, что при этом частном видеоматрицы штрафов значение среднего риска (2.18) совпадает с значением полной вероятности ошибочного решения п п Я(8) = РОш(8) = Е Е 1/’(Я,)^(у|Я,) /=1 ;=1, <г и критерий минимума среднего риска превращается в кри- терий минимума вероятности ошибки, который, следова- тельно, совпадает с критерием максимума апостериорной вероятности. §2.4. Минимаксный критерий Каждое решающее правило Sg оптимально относительно фиксированного априорного распределения гипотез Р = {Р(Я/)}{=!, Ре СР. Нередко, однако, это распределение не известно или может непредсказуемо изменяться, причем соответствующая этому изменению распределения Р опера- тивная перенастройка процедуры принятия решений (коррек- тировка решающего правила) оказывается невозможной. В та- ком случае естественно искать решающее правило, которое гарантировало бы минимальное значение среднего риска R при ciaMOM неблагоприятном распределении Р. Этот подход приводит к минимаксному критерию выбора гипотез и к клас- су минимаксных решающих правил Дмм . В принятых обозначениях минимаксное решающее пра- с 0 вило омм определяется равенством = arg min max Я(8, Р) (2.23) 8 Ре <Р 41
или, ввиду очевидного равенства (сравните с формулой (2.17)) max 7?(8, Р) = max г.(8), Ре <р / равенством 8ММ = arg min max г, (8). 8 / Справедлива следующая теорема. Теорема 2.2. Пусть существует байесовское решаю- щее правило Og, оптимальное относительно некоторого априорного распределения , Р° G <Р , и для которого . г,(8^) = ... = г„(8^) = г. (2.24) Тогда 6 g —минимаксное решающее правило, т.е. 6g = 6^м Действительно, для V 8 справедливы соотношения max rt (3) > £ Р°(Н,) r;- (5) > £ P^H,:) r, (8 g) = max rz (8 °ъ) = r, 1 /=1 i=\ 1 что и соответствует утверждению теоремы. Заметим, что среди нерандомизированных байесовских решающих правил из Ag может не оказаться решающего правила, для которого реализуются равенства (2.24). В этом случае следует искать соответствующее рандомизированное решающее правило из расширенного класса Ag. Оказывает- ся, что всегда найдется решающее правило из А^, для кото- рого выполняются (2.24). п - о ~ Го 1 А Рассмотрим случаи и = 2, С = I I, для которого, очевидно, q(8) = a , г2(8) = р , и 8^м определяется услови- ем a = р . Последнее достигается выбором порогового значения 42
фикции отношения правдоподобия Лмм и рандомизирующей вероятности q, отвечающих условиям Т"2 ={у: Л(у)>Лмм}, % = {у: лоо<лмм}, Г0 = {у: Л(» = ЛММ}, а = P{Yе Г2 | Нх} + qP{Yе Yo I Нх} = = P{Yе Ti | Н2 } + (1 - q)P{Yе % | Н2 } = р . Легко заметить, что построение минимаксного решаю- щего правила в общем случае сложнее, чем байесовского решающего правила при известном Р, поскольку в первом случае требуется поиск порогового значения Лмм функции отношения правдоподобия A(j>) и величины радомизирую- щей вероятности q, в то время как во втором случае пороговое значение ЛБ функции отношения правдоподобия определя- ется заданным Р и рандомизация решающего правила не тре- буется (q = 1). §2.5. Последовательный анализ Вальда Выше нами рассматривались процедуры принятия решений при фиксированном объеме выборки п. На практике, однако, учитывая связанные с измерениями затраты (материальные или временные), желательно применять процедуры, в которых число измерений (т. е. объем выборки, по которой принимает- ся решение) заранее не фиксируется и возрастает лишь по- стольку, поскольку этого требует заданный уровень «качест- ва» принимаемого решения. Такая процедура может быть построена, если в число допустимых решений включить, наряду с выбором тех или иных гипотез, решение о необходимости продолжать испы- тание, т. е. произвести дополнительно новое измерение случайной величины, увеличив, таким образом объем вы- борки на единицу. Обозначим Э~С конечное множество фигурирующих в задаче гипотез и пусть с/, (и) i = 0, к означает выбор гипоте- зы Н, на и-ом шаге, причем 6/9(77) —решение о необходи- 43
мости произвести (п +1 )-е измерение, т. е. выбор «гипотезы» Hq. Обозначим также © = {rf/}f=o множество решений (по- лагая, что оно не зависит от номера шага). Пусть Y — скалярный признак, используемый в процедуре выбора гипотез, у — его реализация, у^ — реализация его выборки , которая принимается простой (что, напомним, означает независимость результатов измерения признака и не- изменность его распределения в процессе принятия решения). Напомним, что рандомизированное статистическое ре- шающее правило Ь(у^) выглядит следующим образом: по значению у^ выбирается вероятностная мера Рранд , опреде- ленная на множестве решений 0, и затем в результате незави- симого эксперимента «разыгрывается» (в соответствии с мерой /ранд.) выбор HjE , которая и является гипотезой, в пользу которой принимается решение. В зависимости от того, принадлежит или нет гипотеза (о проведении следующего измерения) множеству 74 решаю- щее правило будет являться последовательным или правилом с фиксированным числом измерений. В общем случае решающее правило 8(0) тоже определено и задает процедуру выбора ре- шения вообще без проведения измерений. Теперь более подробно рассмотрим важный частный слу- чай последовательного решающего правила, когда множество 7f состоит из трех гипотез Нц , Н\ и Н2 • Кроме того, далее будем считать, что V у^ однозначно (с вероятностью едини- ца) соответствует одна из гипотез, т. е. рассматриваются неран- домизированные решающие правила. Пусть j/00) = (^,..., уп,...) счетная последовательность реализаций признака Y, Q(oo) — множество его значений, у(л) = (у],...,.уЛ) — вектор, состоящий из п первых компо- нент j/00). Определим множества («) = {у(а>) :5(у(я)) = dj;}, J = 0,1, 2, 44
имеющие смысл областей принятия у-го решения точно на п- ом шаге. Другими словами, £2у(и) есть подмножество мно- жества £2(оо), определяемое условием 8(у^) = dj. Очевид- ны следующие соотношения: Оу(/)П^(л) = 0, УД = 1?2, 7# и; 2 n0(«)= U Я,’(«+!)• 7=0 Кроме Qy (и) определим еще множества Q,(W)= Un/О). ' = 1>2; 7=1~ тогда Р{у^е есть вероятность того, что решение б пользу Hj (i = 1, 2 ) будет принято не позднее п-го шага. Оче- видно, что Q/(m)g 0,(77 4-1), г= 1, 2 . В дополнение к выше- сказанному определим событие в= и{Я](и)ио2(")}> И=1 которое означает завершение процедуры за конечное число шагов. Очевидно, что для любого п Р{у{п)е Й1(и)}+Р{/И)б П2(п)}+Р{у("}е QO(«)} = 1- Поскольку (ввиду непрерывности вероятности) выполняется Р(В) = lim P(Qj (п) U О2 (»)) = lim ЛЙ1 («)) + lim P(Q2 («)), W->00 fl—>00 Л->00 то для равенства P(B) = 1, необходимо и достаточно, чтобы lim Р(/й)е Йо(л)) = О И—>оо или, что то же самое, lim Р(ЛГ>и) = О, Л->00 где N — случайная величина, совпадающая с количеством ша- гов последовательной процедуры для принятия решения. 45
Покажем, что для конечности математического ожидания M(N) необходимо и достаточно, чтобы £ P(N>n)<x>. п=\ Действительно, M(N)= f nP(N = п) = f ^P(N = J)= f P(N>n), /7 = 1 /7 = 1 j-П /7 = 1 (2.25) откуда следует, что для конечности математического ожидания Янеобходима и достаточна сходимость ряда £ P(N > и). Перейдем к вопросу об оптимальности процедур после- довательного анализа. Сформируем, прежде всего, критери- альную функцию, служащую для оценки эффективности при- меняемого решающего правила. Пусть N — случайная величина, равная числу измерении (шагов) до принятия окончательного решения (т. е. решения в пользу какой-либо одной из гипотез или Н2\ M(N\ (/ = 1,2) — математическое ожидание числа шагов Я проце- дуры при условии, что верна гипотеза Я,. Обозначим, далее, вероятности ошибок первого и второго рода, вычисленные в предположении, что процедура заверши- лась на и-ом шаге а(и) = P(d2(и) | Нх), ₽(и) = Р(^(л) | Н2). При условии истинности гипотезы естественно оцени- вать эффективность последовательной процедуры принятия ре- шения условным математическим ожиданием потерь X (а(и)с12 + qn)P{N = п | Н}} = ас12 + qM(N | Н}) (2.26) л=0 где q2 — штраф за неверное решение (решение d2 при ис- тинности Н\), q > 0 — стоимость одного наблюдения. Аналогично, при истинной гипотезе Н2 эту роль выполняет величина pc2)+^(2V|/f2). . (2.27) 46
Фигурирующие в (2.26) и (2.27) вероятности аир — ус- редненные по и вероятности ошибок первого и второго рода, определяемые распределениями признака и применяемым решающим правилом. При априорных вероятностях гипотез P(Hj), i = 1,2 средние потери (полный риск) при использовании решающего правила 8 равен /?(7Г, 8) = 7Г (ас12 + qM(N | Нх)) + (1 - 7Г)(Рс21 + qM(N | Н2)), (2.28) где для краткости введено обозначение тг = Р(Н\). Следует заметить, что предлагаемый критерий имеет смысл при конечности математических ожиданий числа измерений до окончания процедуры M(N | Ht), / = 1,2 (этот вопрос подробно рассмотрен ниже). Оптимальным является, естественно, то решающее пра- вило 8в, которое минимизирует R(n, 8): 8в = arg min R(n, 8); 5 (это решающее правило нередко называют байесовским', имеется, однако больше оснований называть его валъдов- ским, по имени основного автора последовательного анализа А. Вальда [4]). Построение решающего правила 8 в основано на сле- дующих интуитивных соображениях. Пусть до и-го шага про- цедура принятия решения не завершена и Р(Н2 — вычисленная на и-ом шаге апостериорная вероятность гипоте- зы Н2 (при и = 0 Р(Н2 = Р(Н2) —априорная веро- ятность). Если эта вероятность достаточно велика, целесооб- разно закончить процедуру, приняв решение d2 в пользу ги- потезы Н2. Наоборот, если эта вероятность достаточно мала (т. е. велика апостериорная вероятность Р(Н\ | )), следу- ет принять решение dy в пользу гипотезы Ну. Если же апо- стериорная вероятность имеет промежуточное значение, целе- сообразно продолжить процедуру, перейдя к п +1 -ому шагу. 47
Эти соображения подсказывают, что оптимальное решающее правило о в следует искать среди решающих правил, пред- ставляющих собой (для каждого п в предположении, что до п- го шага процедура не завершилась) систему условий следующего типа: Р(Н1\У(п))> P2=>d2(n), (2.29) Pl<P(H2\yM)<P2=>d0(n), Ос р\< Р2<\- Эти правила принятия решений вполне определяются конкретными значениями констант р\ и pi (которые здесь пока произвольны). Нетрудно убедиться, что решающее правило приведен- ного типа может быть представлено в эквивалентной фор- ме, содержащей вместо апостериорной вероятности функ- цию отношения правдоподобия. Предположим (здесь и ни- же), что существуют условные плотности распределения признака У— f(y | Я/) (/ = 1, 2 ) и м П/<Л1Я2) Цу П/(л1#1) /=1 — функция отношения правдоподобия для выборки т. е. для и-го шага процедуры. Тогда (2.29) можно записать в виде Л(д/л)) < Л। => d\ (и) , Л(^) >Л2 => ^2 (п) ’ (2.30) Л] < Л(у^)< Л2 ^>dQ(n)9 48
где константы Л] и А 2 связаны с константами р\ и Р2 равенствами Л = пр} Л =—ЯР2 1 (1-7Г)(1-Р1)’ 2 (1-тг)(1-Р2) ’ Покажем, что оптимальное решающее правило 8 в дейст- вительно принадлежит к приведенному типу решающих правил при константах р^ и Р2 (или Л] и Л2), определяемых за- данными параметрами задачи С21 и Я (ПРИ этом следует, однако, заметить, что вычисление указанных констант пред- ставляет собой непростую задачу). Начнем рассмотрение последовательной процедуры с её начала. Обозначим 8] и 82 два решающие правила, которые предписывают принятие решений соответственно d\ или d2 без проведения измерения признака (т. е. при п = 0). Средние значения риска для этих решающих правил составляют Я(л, 8]) = (1 - л)с21, /£(л, §2) - кс12 • Пусть теперь А] — класс решающих правил, предписы- вающих проводить хотя бы одно измерение признака (ре- шающие правила 8] и 82 в А] не входят). Введем в рассмотрение функцию р(л)= inf /£(71,80 (2.31) ЗеД] — нижнюю границу среднего риска по классу решающих правил А]. Важно заметить, что вид функции р(л) вполне определяется значениями величин Q2, Qi и q и, как нетрудно видеть, р(0) = р(1) = q (в этих случаях решение принимается на первом шаге). Покажем также, что функция р(л) вогнутая. Действи- тельно, из (2.28) следует, что V X: О<Х<1иО<ло<7Г]<1 /?(Хл0 + (1 - Х)л j, 8) = Х/?(Х7г0,8) + (1 - Х)/?^, 8), поэтому р(Хтг0 + (1 -Х)л0= inf [Х/?(Х7Г0,8) + (1-Х)/?(л|,8)]> ЗеД] >Х inf /?(7Tq,8) + (1-X) inf /?(7Г1,8)] = Хр(7Г0)4-(1-Х)р(7Г1), 8еД] 8еД] 4—116 49
т. е. р(л) — вогнутая функция и, поскольку она ограничена снизу, то, как нетрудно убедиться, она непрерывна на (0, 1). Графики функций Я(л,8]) = (1-л)с21> Л(л, 82) = лс^ и р = р(л), приведены на рис. 2.1. Из них можно сделать сле- дующие выводы. Пусть л' и л" — корни уравнений (соответственно) лсп = Р(я) и 0 “ л)с21 = POO > (2-32) и л' < л". Тогда в начале последовательной процедуры принятия решения мы должны без измерения признака принять решение d\ или , если, соответственно, л > л* или л < л'; при л' < л < л" принимается решение об изме- рении признака, т. е. осуществляется первый шаг процедуры. Как видно из рис. 2.1, такая ситуация возникает, когда выпол-. няется условие pf_S12—(2.33) \с12+с21/ с12+с21 При выполнении неравенства р |_с12 | > с12 С21 \c12+c21J с12+с21 процедура завершается в самом начале следующим образом: при л < /(с21 + Cf2) = л принимается решение » в ПР°“ тивном случае — решение d]. Условий для принятия решения do о продолжении процедуры в этом случае не возникает и она имеет вырожденный характер. Описанный алгоритм действия по индукции распространя- ется на любой и-й шаг процедуры; при этом графики на рис. 2.1 полностью сохраняют свой вид, изменяется лишь смысл веро- ятности л: теперь она является не априорной (л = Р(Я])), а апостериорной (л = Р(Н^ | у^)), что не отражается на проце- дуре принятия решения. 50
Константы п' , л" связаны с константами р\, р2 в (2.29) и Aj, Л2 в (2.30) очевидными равенствами , ж 1 f А л (1 — 71*) ж л(1-л') Р\ =1-* > Р2 =1-л > Aj =------------— ,Л2=-----------— (234) ,(1-л)л (1-л)л Нетрудно при этом заметить, что Aj<1<A2 (в невырож- денном случае). Описанная последовательная процедура принятия реше- ния на каждом шаге направлена на получение меньшего зна- чения среднего риска и потому (ввиду независимости элемент Рис. 2.1 тов выборки признака) обеспечивает в результате получение его наименьшего финального значения. Это означает, что решающее правило, соответствующее этой процедуре, минимизирует сред- ний риск 7?(л, 8). Описанная последовательная процедура принятия решения на каждом шаге направлена на получение меньшего значения среднего риска и потому (ввиду независимости элементов вы- борки признака) обеспечивает в результате получение его наи- 51
меньшего финального значения. Это означает, что решающее правило, соответствующее этой процедуре, минимизирует сред- ний риск Я(л, 8). Полученные результаты могут быть выражены следую- щей теоремой. Теорема 2.3. Пусть решающее правило 8 в последова- тельной процедуре имеет вид (2.30) при . , Л 1-л' . Л 1-71* Л2 =---------, Л] =---------, 1-л л' 1-л л* где 0 < л' < л" < 1 задаются (2.32). Тогда 8 = 8в = arg min Я(л, 8) (2.35) 8еД где Д — класс всех решающих правил (в том числе 8] и 82). Помимо анализа оптимальности последовательного кри- терия в смысле (2.32), рассмотрим и другой подход к этому вопросу. Примем, что из двух процедур 8' и 8*, используе- мых для принятия одной из двух простых гипотез Я] и Я2, 8' предпочтительнее 8*, если а(8')<а(8*), 0(8') < 0(8*), М& (У | Н}) < М& (Я | Нх), ' (2.36) Л/5ЧЯ|Я2)<М5.(Я|Я2), причем одно из неравенств — строгое. Теорема 2.4. Процедура (решающее правило) (2.30) оп- тимальна в смысле (2.36). Доказательство. Пусть Л] <1<Л2 — заданные числа. Выбираем числа 0<л<1, 0<л'<л*<1 так, чтобы выполня- лось условие (2.34). Кроме того, зададим числа q2, с21, q так, чтобы удовлетворялось условие (2.33). Тогда процедура (2.30) (обозначим ее 8') с выбранными значениями, согласно теоре- ме 2.3, минимизирует критерий (2.35) (см. также (2.28)). Пусть существует процедура 8*, отличная от 8', которая предпочтительнее 8' в смысле (2.36). Но тогда нетрудно убе- диться, что Я(л, 8*)</?(л,8') т. е. 8' — не оптимальна в смысле (2.35). Полученное противоречие доказывает теорему. 52
Заметим, что в приведенном доказательстве мы допусти- ли существование значений С12, С21, q, для которых при за- данном 7г решающее правило 8' оптимально в смысле (2.35); корректность такого допущения имеет достаточно громоздкое доказательство, которое здесь не приводится. Точное определение границ Aj и Л2, соответствующих заданным а и Р, сопряжено, с большими трудностями вычис- лительного характера. Поэтому на практике используются приближенные правила для нахождения Л) и Л2, которые приведены ниже. Обозначим, как и ранее, через мно- жество тех точек е R^n\ для которых процедура закан- чивается нал-ом шаге принятием гипотезы Н2. Тогда «=£ )*<"• = f J < И=1 Q2(”) "=1 n2<«) > <T-£ (237) л2 /7=1 Q2(n) л2 Аналогично, если Q](h) обозначает множество точек R^n\ для которых процедура заканчивается на и-ом шаге приня- тием Ну, то l-a=f \ L{y^\Hx)dy^ J Цу(И)^2) dy^> n=l Q](«) «=1 Q](n) Л(/ ') /Ц/")|Я2)Ф'(")=-^ (2.38) Л1 n=l fi|(n) Л1 При выводе (2.37) и (2.38) мы молчаливо предполагали, что ^P{N = n}=Y |£(/'’>|Я,)ф(л) = 1, » = 1,2, W=1 n=lQ1(n)(ja2(") (2.39) 53
где N— как обычно, случайная величина, равная числу шагов до завершения процедуры. Равенство (2.39) означает, что ве- роятность неограниченного продолжения процедуры равна нулю, т. е. равна нулю вероятность события {Я = оо}. Для доказательства (2.39) обозначим Будем считать, что P{Z = 0} < 1, т. е. />LZ(-r|//2) = 11<1, (2.40) IWi) J или, f(Y | Н]) * /(У | Я2) на множестве ненулевой меры. Обозначим C = lnA2-lnA!, где Aj<1<A2 —пороги последовательной процедуры. Допустим сначала, что выпол- няется соотношение Р{| Z | < С} = р < 1. Введем событие Dj ={lnAj < z\ + ...+ zz < In A2}, где zz = In {/(^z I Я2)//(y, | Я1)} — реализации случайной величины Z; Событие Я,- означает, что процедура не завер- шится на z-ом шаге. Нетрудно убедиться, что событие {N > п} влечет за собой и событие Dn = состоящее в том, что /=1 процедура не завершится до (/- 1)-го шага включительно; от- сюда следует {Я > п} с Dn и P{N > п} < P(Dn). С учетом Aj < 1 < А 2 из In Aj < z\ < In Л*2 следует огра- ничение: | zj I < С = In А 2 - In Aj. Поскольку In A] < Z] + Z2 , zj + Z2 < In A2 , In A2 z2 * Z] >ln Aj, то, вычитая эти неравенства, получим -(1пА2 -1пА])< Z2 < 1пЛ2 - InА], 54
откуда | z2 | < С . Аналогично, | z3 | < С,..., | zn_\ | < С, поэто- му, если через Я, обозначить событие { | Zj | < С}, то из выше- /7-1 Л-1 сказанного следует, что Q с: Q , следовательно /=1 /=1 P{N=n}<P(D„)=P RD, <Р ПЛ,- = М=1 J М=1 7 п-1 = ПЛ1^1^С) = Р"-1 -> 0. (2.41) / = 1 77—>00 Предпоследнее равенство имеет место ввиду независимости случайных величин {zj. По теореме о непрерывности веро- ятности из {7V > 1} о {А > 2} о ... zd {А > л?} о ... следует P{7V = oo}= lim P{N>n} = 0 п-ью т. е. имеет место конечность процедуры с вероятностью 1. Пусть теперь P{|Z|<C} = 1. Тогда нетрудно устано- вить, что для случайной величины, не равной тождественно нулю (P{Z = O}<1 по предположению), существует число г > 0 такое, что Р{ | Zi +... + Zr | < С} = р < 1. Отсюда с уче- том (2.41) получаем P(N >гт)< рт~*. Если выбрать число п > 0 так, чтобы г (т -1) < п < гт, то получим P{N= п} < P{N > г(т -1)} < рт~2 < рп/г~2 < <р~2(р1,г)п -> 0 (2.42) «->00 что и доказывает (2.39). Можно показать, что, кроме того, при выполнении (2.40) имеет место неравенство M(N) < оо . Неравенства (2.37) и (2.38) наводят на мысль об аппрок- симации границ Aj и Л2, соответствующих заданным а и р, величинами 55
(2.43) В силу (2.37), (2.38) вероятности ошибок а' и Р' в этой при- ближенной процедуре (с порогами Л] и Лг2) удовлетворяют неравенствам _₽L<M=_L_ lzt>A'2 = kP 1-а' 1-а а' а Отсюда, с учетом неравенств Р' /(1 - а' ) > Р' и а' /(1 - Р') > а', получаем , а Р а <----, Р < —— . 1-р 1-а Обычно аир имеют порядок до 0,1. Поэтому с большой точ- ностью можно принять, что ошибки обоих типов ограничены сверху заданными аир. Последнее заключение подкрепляет- ся тем фактом, что а' + Р' < а + р (это можно получить, скла- дывая неравенства (2.43)). Единственный серьезный риск, связанный с употреблени- ем приближенных границ, состоит, следовательно, в том, что а' и Р' могут оказаться существенно меньше заданных зна- чений, что приведет к существенному увеличению числа не- обходимых наблюдений. Однако есть причины надеяться, что это увеличение будет умеренным. Действительно, вывод не- равенства (2.37) был основан на замене величины 1 /А(у^) на величину 1 /Л 2 в области . Для того, чтобы выпол- нялось неравенство а«(1~Р)/Л2, необходимо, чтобы в об- ласти О2(и) имело место неравенство Л(у^)»Л2, что маловероятно, поскольку Л(^л-1))^Л2 (именно поэтому и потребовалось и-ое измерение уп\ Таким образом, для одновременного выполнения обоих неравенств: Л(/”))»Л2, Л(^("_,))<Л2 необходимо, чтобы М^1^2) Цу„ I Я1) Если классы различимы не «очень хорошо» (что и представ- ляет практический интерес), то это означает, что неравенство (2.44) не имеет места; во всяком случае, оно выполняется с (2.44) 56
малой вероятностью. Следовательно, A(j/Z7))»A2 и наряду с (2.37) имеет место приближенное равенство а«^-. (2.45) л2 Аналогично, наряду с (2.38) мы можем получить 1-а«А. Л1 Таким образом, а' «а и £' «р , что подтверждает практиче- скую важность предложенного способа выбора порогов в по- следовательной процедуре. Выше нами было принято, что решение о продолжении измерений принимается, если выполняется неравенство Aj < Л(/'7)) < Л 2 • Все рассуждения, однако, сохраняются и в тех случаях, когда это условие заменяется неравенствами: Л1<Л(оу^'7^)< Л2, или A]<A(j/"))<A2, или Л1<Л(/'7))<Л2. Все эти процедуры эквивалентны, когда отношение правдопо- добия имеет непрерывное распределение. В случае дискретного распределения отношения прав- доподобия целесообразна рандомизация решающих правил с целью приближения получаемых вероятностей ошибок к заданным. Получим некоторые полезные соотношения для характе- ристик последовательной процедуры. Прежде всего установим, что имеет место тождество Вальда, которое (в прежних обо- значениях) выражает математическое ожидание суммы случай- ного числа N независимых случайных величин Zz равенством M(Z} +... + ZN I Ht) = M(N\Hi )M(Z I Hi), /=1,2. (2.46) Введем случайные величины W\, ..., где [ 1, если решение не принято до и-го шага; п [ 0, иначе. 57
Очевидно, что Wn зависит только от Z\,...,Zn_\ и, следовательно, не зависит от Zn . Нетрудно убедиться в том, что оо Z1+...+ZJV = S fF„Z„, Л7 = 1 M(Z}+... + ZN\Hi) = £ M(WnZn I Hi)=M(Z IHf )* rt = ] X f M(W„ I Hi) = M(Z I Hi) £ P(Wn = 11 Hi) = 77 = 1 77 = 1 = M(Z P(N > n\H,,) = M(Z\Hi) M(N\Hi) 77=1 (cm. (2.25)), что и доказывает (2.46). Найдем теперь приближенные оценки математического ожидания числа шагов в последовательной процедуре до при- нятия окончательного решения. Величина Z\ +... + Zn в по- следовательной процедуре может быть аппроксимирована вели- чиной 1пЛ2, когда Н\ отвергается, и InAj, когда принимается (см. пояснения к (2.45)), поэтому M(Zl+...+ZN\ Hl) = M(Zi+...+ZN\di )P(dx I Hl) + + A/(Z1+... + Z^2№|/71)« « Р(4/1|Я1) In A, + P(4/2I^1) In Л2 = (1 -a)ln A] +a In Л2, где P(dj | Hi) — вероятность того, что решение принято в поль- зу Hj при истинности гипотезы Н]. Отсюда, ввиду (2.46), М(N | Hi) = (1~а)'пЛ1+а|пЛ2 (2.47) ИЗД) При истинности гипотезы Н} аналогично получим Л/(#|Я2) = (1-Р)1пЛ2+Р1пЛ! (2.48) W(Z|//2) 58
ГЛАВА 3 МОДЕЛИ ПРИНЯТИЯ РЕШЕНИЙ ПРИ СЛОЖНЫХ КЛАССАХ (ГИПОТЕЗАХ) Во всех моделях принятия решений, рассмотренных в гл. 2, каждому классу (гипотезе) Hj соответствовало вполне опре- деленное распределение признака У, заданное в общем случае функцией распределения Fy (у \Hj). Нередко, однако, тому или иному классу (или каждому из п классов) соответствует семейство распределений с известным типом при неизвестном значении параметра распределения v из множества возмож- ных его значений 0; (параметр v может быть скалярным или векторным). Такие классы в гл. 2 были названы сложными. Следует различать два типа сложных гипотез: 1) сложные гипотезы, для которых параметр v сам является случайной ве- личиной с известным распределением; в этом случае, как бу- дет показано ниже, сложная гипотеза сводится к простой; 2) сложные гипотезы, для которых v является неизвестной, но не случайной величиной. В этом случае возможны два пути ре- шения задачи выбора гипотез: а) поиск решающего правила, учитывающего неопределенность значения параметра; б) ис- пользование выборок признака (если они имеются) для полу- чения оценки параметра (методами, рассмотренными в гл. 5); далее полученная оценка используется для превращения сложной гипотезы в простую. §3.1. Сложные гипотезы при случайном параметре Пусть классу (гипотезе) Hj соответствует условное распреде- ление Fy(y\Hj;Vj) признака Y, зависящее от неизвестного случайного параметра V,- с известной функцией распределе- ния G/(v). В этом случае вероятности cx^(v/) (сравните с
(2.5)), входящие в той или иной форме в рассмотренные выше критерии, оказываются зависящими от значения vz . Так, для рандомизированного решающего правила (2.5) примет вид aij(V/) = J qj{у} dF(y \Hj-Vj), т. е. вероятность оказывается случайной величиной — функ- цией случайного параметра vz с известным распределением. Это обстоятельство требует уточнения формулировок рас- смотренных критериев. Так, в случае критерия Неймана - Пирсона (§2.2) условия (2.7), (2.8), выражающие теперь соотношения между значе- ниями случайных величин n(8.vi)= £ cii/(v,)c(7 7=1 (сравните с (2.6)), следует заменить аналогичными соотноше- ниями для их средних (по vz) значений (в предположении, конечно, их существования): r1(5) = A/r,-(8,v,)= £ CyMaytyi) (3.1) 7=1 где A/aJ?(v,)= J a,7(vz) JG,(vz). Сравнивая (3.1) с (2.6), нетрудно убедится, что все рассужде- ния, связанные с построением оптимальных решающих правил для критериев Неймана - Пирсона, Байеса, минимаксного и по- следовательного критериев, сохраняются, если фигурирующие в них условные функции распределения Fy (у | Hj) рассматри- вать как усредненные по v,: FY(y\Hi)=\FY(y\Hi-,vi)dGi(vi). Таким образом, при случайном параметре v, с известным распределением сложная гипотеза Hj сводится к простой ги- потезе, если встречающиеся в критериях вероятности и риски рассматривать как средние по параметру vz. 60
§3.2. Сложные гипотезы при неслучайном параметре Ниже рассматриваются случаи двух гипотез (из которых хотя бы одна — сложная) при различных априорных пред- положениях. 3.2.1. Простая и сложная конкурирующие гипотезы; рав- номерно оптимальное (равномерно наиболее мощное) решающее правило. Пусть решается задача выбора одной из двух конкурирующих гипотез, из которых Н[ («основная») — простая с условной функцией распределения признака Fy (у | Н\; Vj) при известном значении параметра vj, а Н2 («альтернативная») — сложная с условной функцией распре- деления признака Fy(y| с неизвестным (точно) зна- чением скалярного параметра , v 2 е 0 2 (ПРИ совпадающем типе распределений Fy (у | ; V]) и Fy(y | Zf2 > v2)- Такая модель принятия решения типична, например, для задачи мониторинга некоторого регулярного процесса (основная гипотеза) с целью обнаружения его аномального поведения (альтернативная гипотеза). Допустим, далее, что ищется оптимальное в смысле критерия Неймана - Пирсона решающее правило при усло- вии а = а, ср—>max (0->min). Возникает вопрос, нельзя ли найти единое решающее правило, которое было бы оп- тимальным для всех пар значений vj и V2, т. е. равномерно (по V2) оптимальным (наиболее мощным) решающим пра- видом (5рНМ). Легко привести простые примеры, когда такое решающее правило не существует. Пусть, например, v2 может принимать одно из двух значений v'2 и v'2 (62 = {v2»v2 } )» а 5? и 82 — оптимальные решающие правила, минимизирующие 0 при а = а и, соответственно, при V2 = v'2 и V2 = v'2 . Если имеют место неравенства p(v'2,6?)<P(v'2.5°2), P(v2-8?) > P(v2,52), (3.2) 61
С О с О то ни О] , ни 0 2 не являются решающим правилом, одновре- менно оптимальным и для v2=v'2, и для V2=V2, т. е. 8р н.м. отсутствует. Читатель может, например, рассмотреть самостоятельно конкретную реализацию такого случая для двух гипотез: Нх\ Ге%(^,а2), Wi=O; #2 : Ке%(^2,а2), 1^2 Iе (0,1] (значение а2 известно). Подобная ситуация, к сожалению, типична. Однако при определенных условиях, рассмотренных ниже, 8р н м существует, т. е. 38J.H.M.: a(v2>8p.H.M.)-a для Vv2e02 идля V8*8pHM , v2 (v2e 02) P(v2,SpHM )<P(v2,S) (или, иначе, <p(v2,5pHM )><p(v2,8)). Напомним, что первое из приведенных соотношений (для а) имеет вид неравенства лишь в тех случаях, когда увеличение а до заданного значения а не имеет смысла, так как не сопровождается снижением р (достигающего нуля уже при а < a ). Определим условие, при котором существует 8р Н М , для скалярного признака Y. Пусть для фиксированных Vj и v2 функция отношения правдоподобия А(у) (см. 2.11) — строго монотонная (например, возрастающая) функция. Тогда для каждого фиксированного а решающему правилу, оптималь- ному для данных V] и V2, соответствует разбиение простран- ства признака Y = Tj U , при котором** Г>=(^,оо). (3.3) * Здесь для простоты предполагается, что оптимальное решающее прави- ло принадлежит классу нерандомизированных решающих правил, что соответствует строгой монотонности функции Му). 62
Варьируя а , получим множество разбиений вида (3.3), сре- ди которых содержится и оптимальное для а = а , отве- чающее условию v. = P{Y>yz\H}} = P{Y^\Hx} (3.4) Если указанный характер функции отношения правдоподобия сохраняется для данного V| и всех значений 63, то мно- жество разбиений (3.3) и условие (3.4) оказываются независя- щими от значения V2, т. е. пороговому значению признака у — соответствует разбиение (3.3), выражающее 8р Н М . В качестве иллюстрации читателю полезно рассмотреть самостоятельно задачу выбора гипотез для случая : Ке %(т\, а2), т\ = Vj = 0; #2 : N(w2>0,2) > т1 = v2 е (0, °0) (значение ст2 известно). При векторном признаке Y определение общего условия инвариантности (относительно V2) множества разбиений Y = Y®(a)UY2° (а) (каждое из которых оптимально для фиксированного значе- ния а) сформулировать не удается. Однако, как показано ниже, при определенных свойствах условных распределе- ний признака оказывается возможным свести векторный случай к скалярному и воспользоваться приведенными вы- ше соображениями. Предположим, что условные распределения признака Fy (>’ \ Нj, уj) — одного типа и отличаются только значения- ми параметра vz, и существует скалярная статистика Т = T(Y), такая, что условные функции правдоподобия (см. 2.10) с пара- метрами Vj и у 2 могут быть представлены в виде Цу \Hi) = Цу \Н,; v,) = g(t, Vi) 5(У) (3.5) где Г—значение статистики Тпри Y = у. Известно (мы рассмотрим этот вопрос подробнее в гл. 5), что (3.5) выражает необходимое и достаточное условие Эос- 63
таточности статистики Т относительно параметра vz ; это означает, что при фиксированном Т = t распределение при- знака Y перестает зависеть от значения параметра v,: F{y\f,vi-,Hi) = F{y\t-Hi). При выполнении (3.5) функция отношения правдоподо- бия оказывается зависящей от скалярного случайного аргу- мента Т (играющего роль нового скалярного признака): ^|//2) = g(r,v2) = L{y\Hx) g{T,v\) Если эта зависимость имеет строго монотонный (например, возрастающий) характер, сохраняющийся для всех V2G02, то, согласно рассмотренному выше случаю скалярного при- знака, существует 8рнм , отвечающее разбиению (в про- странстве Т значений Т) T = Ti°UT^, Т£={Г t>ta}, Р{ТеТ^\Н1} = а , или ( в пространстве Y) Г=Г,0иГ20, ^={у. t(y)>iH}, Р{ГеУ20|Я1} = а. (3.6) При строго монотонно убывающей функции (г) вид раз- биения изменяется очевидным образом. В результате можно сформулировать следующую теорему. Теорема 3.1. Пусть в задаче выбора по векторному при- знаку Y одной из двух гипотез Н\ — простая (v = Vj) и Н2 — сложная (v = V2 € 0 ) гипотезы и выполняются условия'. а) условные распределения признака Y для обеих гипотез однотипны и обладают достаточной (относительно пара- метра v) статистикой T(Y); б) отношение правдоподобия Л.(у) = A.-p(t) — строго монотонная функция t (возрастающая или убывающая для VV2G0). Тогда существует равномерно оптимальное в смысле критерия Неймана - Пирсона (равномерно наиболее мощное) решающее правило. 64
К классу распределений скалярного признака, обладаю- щих приведённым свойством, относятся, в частности, распре- деления, принадлежащие экспоненциальному семейству, т. е. такие, для которых функция правдоподобия имеет вид [ 2V I LC/'V) | Hi; v) = A(y(N)) exp ) + c(v) I, *1 /=1 I где y^ — простая выборка объёма N скалярного признака Y. К таким распределениям относятся, например, нормальное распределение, распределения Бернулли и Пуассона. 3.2.2. Критерий отношения правдоподобия. Рассмотрим теперь подход к решению задачи выбора одной из двух слож- ных гипотез, основанный на более общих свойствах распреде- лений признака и который можно рассматривать как обобще- ние критерия Неймана - Пирсона. Пусть конкурируют две сложные гипотезы Н\ и Н2 ° классе наблюдаемого объекта, для которых существуют не- прерывные однотипные условные функции плотности распре- деления признака Y, различающиеся значениями параметра v, которые неизвестны и принадлежат непересекающимся мно- жествам 0) и 02,0) U02 = 0, т. е. . Ye f(y\H}) = ve0j; H2t Ye f(y\H2) = f(y,v), v = 02=0\01. Рассмотрим статистику, значения которой равны sup /(y;v) л/ ч ve02 Л(у) =-----------. sup/(y;v) VG0 Числитель этой величины выражает наибольшую (по ve ©2) ве- роятность реализации значения признака Y в малой окрестности его значения у, знаменатель имеет тот же смысл при варьирова- нии v во всем множестве 0 его значений. Чем больше Л(у), тем 5—116 65
больше оснований считать v принадлежащим 0 2; т. е. принять справедливой гипотезу Н2 (заметим, что 0< Л(^)< 1). Поэтому естественно предложить решающее правило, основанное на разбиении Y по пороговому значению Л(у), т. е. полагая (в классе нерандомизированных ре- шающих правил) *2={у- A(J)>A}, Р{ГеГ2|Я1} = а. Хотя такой подход, именуемый критерием отношения прав- доподобия, не гарантирует получения равномерно оптималь- ного решающего правила (которое может не существовать), в некоторых случаях он дает неплохие результаты. Задачи принятия решений, рассмотренные в гл. 2 и 3, представляют собой процедуры выбора одной из конкури- рующих гипотез, заданных (точно или с точностью до типа) распределениями наблюдаемого признака. К подобным зада- чам примыкают (по практическим приложениям) задачи, в ко- торых некоторой основной гипотезе (простой или сложной) противопоставляется все множество гипотез с иным распреде- лением признака. Такие задачи, представляющие собой задачи проверки гипотез, рассматриваются в следующей главе. 66
ГЛАВА 4 КРИТЕРИИ СОГЛАСИЯ §4.1 . Общая постановка задачи Типичная задача, приводящая к рассматриваемым ниже мето- дам статистики, состоит в следующем. Пусть наблюдаются объекты, каждый из которых может принадлежать классу Hq «обычных» («фоновых») объектов или к классу «аномальных» объектов, не принадлежащих Hq . Для классификации объектов используется признак У, который для объектов класса Hq имеет известное (точно или с точностью до типа) распределение F(y | Hq), в то время как о распределении этого признака для объектов, не входящих в этот класс, известно лишь, что оно отличается от F(.y|//o). Задача состоит в проверке гипотезы #0 : Fy(y) = F(y\H();v), vg9, по значению признака Y = у. В зависимости от условий для её решения может быть применен один из методов, име- нуемых критериями согласия. Прежде чем излагать некото- рые (наиболее популярные) из них, сформулируем ряд об- щих положений. Пусть признак Y — дискретная случайная величина (ска- ляр, вектор, выборка), условное распределение которой для объектов класса Hq задано вероятностями её возможных зна- чений р{у1 | Hq) = P(Y = у/ | Hq) , / = 1, 2,... Если для на- блюдаемого объекта Y = у, то решение о принадлежности его к классу Hq (т. е. о положительном результате проверки ги- потезы Hq ) естественно принимать в зависимости от значе- ния вероятности р(у | Hq) = P(Y = у \ Hq) — чем оно выше, 5*
тем больше оснований принять гипотезу Hq . Это простое со- ображение приводит к образованию критической области 7^, определяемой условием 7^ ={у: р(у)<р}‘9 при уе Т^р ги- потеза Hq отвергается. Выбор р определяется допустимым значением а вероят- ности а ошибочно отвергнуть гипотезу Hq , когда она верна: а = Р(Ге<Гкр|Я0) = 2>(у|Яо)*а (4-1) Эта вероятность, называемая уровнем значимости крите- рия, задается исследователем, исходя из конкретных условий задачи (обычно она не превышает значения 0,1). В тех случа- ях, когда заданное значение р не может быть найдено из точ- ного равенства (4.1), применяется описанный выше способ рандомизации решающих правил. Следует подчеркнуть, что такой подход к проверке гипотезы Hq имеет существенно односторонний характер: при УеТ'кр гипотеза Hq решительно отвергается, в то время как при у<£ Т^р делается лишь вывод, что экспериментальные данные (значение признака у) не противоречат гипотезе Hq . Такая осторожность в последнем случае объясняется широтой класса альтернативных распределений признака. Взаимнооднозначное преобразование признака Z = Z(X) с соответствующим преобразованием’ критической области Гкр -> %кр не вносит изменений в суть критерия: в область Zjqj включаются значения с наименьшими вероятностями p(Z | Hq ). Если, однако, преобразование К —> Z не взаимно- однозначно (что может иметь место при свертывании вектор- ного признака в скалярный), то такое соответствие между критическими областями 7^ и ZKp может быть нарушено, 68
что следует учитывать при построении критериев согласия, основанных на такого вида преобразованиях признака (ниже мы столкнемся с такой ситуацией). Если признак Y для гипотезы Hq имеет абсолютно не- прерывное распределение с функцией плотности распределе- ния f(y | Hq ), то критическая область 7^ должна формиро- ваться как множество значений признака Y с малыми значе- ниями этой функции: 'Гкр={у: f(y\H0)<f}, где f определяется равенством а= J f(y\Ho)dy<a , г|ф если а задано. Такой способ формирования 7^ обусловлен предпо- ложением, что на практике плотность /(у|//д) выражает вероятность попадания скалярного признака Y в малый интервал 5^ = [у-0,5Ду, у + 0,5Ду], когда Ау — величина, постоянная для всей шкалы измерения признака. Аналогично предполагается постоянство размера интервала 8 у и в случае векторного признака. Непосредственная реализация критерия проверки гипоте- зы Hq с использованием распределения признака Y затрудне- на тем, что признак обычно имеет векторный характер, пред- ставляя собой, например, простую выборку Y^ нередко не- малого объема N. Этим и объясняется разработка многочисленных методов, направленных на упрощение этой процедуры путем свертывания исходных многомерных дану ных в скалярную величину, имеющую (возможно, в асимпто- тике) некоторое стандартное распределение. 69
§4.2 . Критерий согласия %2 (метод «хи-квадрат») Пусть Y — скалярный признак и = (Fj,..., YN) простая выборка, реализация которой у^ = (ур ..., ) является ре- зультатом эксперимента и используется для выбора одной из двух гипотез: - Яо: FY(y) = F(y\HQ), (4.2) где F(y | Hq) — предполагаемая точно заданная (гипотети- ческая) функция распределения для «фоновых» объектов, Гу (у) — истинная функция распределения признака Y для наблюдаемого объекта. Разобьем всю область возможных значений признака Y на к непересекающихся интервалов (разрядов) {Az }/=i и сфор- мируем статистику (4.3) где pj — вычисляемая по функции распределения F(y | Hq ) вероятность попадания признака Y в Д, при истинности Hq : Pi = P{Ye Д, |Я0}= А/ rij — число элементов выборки у^\ лежащих в Д, . Не- трудно убедиться, что случайный вектор п = (п\,..., У име- ет полиномиальное распределение Р(л;у) = ———-р"1 (v)...рпкк (v); V«( >0, X ni = N "1!-nk- z=l с вектором математического ожидания Мп = ,-.-9Npk)f 9 в силу чего (4.3) представляет собой взвешенную сумму квадратов отклонения компонент вектора п от их средних значений, соответствующих гипотезе Hq , т. е. в некотором 70
смысле меру несоответствия результатов наблюдений, сгруппированных по разрядам А,-, гипотетическому рас- пределению F(y\Hu). Покажем справедливость следующей теоремы. Теорема 4.1 (Пирсон}. При N ->оо статистика (4.3) сходится по распределению к случайной величине Z, имею- щей распределение х2 с (fc.-l) степенями свободы: 2 D 2 2 где ХЛ-1 —распределение, обладающее плотностью е~:!2=(к-У)12 fz (г) = <! Т хк-\ [ 2 J 1[ О, . z>0; z<0. (4.4) Доказательство. Применяя центральную предельную теорему для векторной случайной величины [3] к вектору п = («1,..., п^ )' , получим, что нормированный вектор п = п - Л/л п- Np р={р\,...,рк)' сходится по распределению к ^-мерному нормальному век- тору U = (C/j,..Uк У с нулевым вектором математического ожидания MU = 0 и корреляционной матрицей: ( Р10-Р1) Ru= -Р2Р1 ~Р\Р2 Р2О-Р2) ~Р\Рк ~Р1Рк \.~РкР\ ~РкР2 ••• PkQ-Pk) легко проверить, что этот вектор вырожденный: к /=1 Перейдем к невырожденному вектору U = (C/j,..., )', для которого вектор математического ожидания MU*'H корре- 71
ляционная матрица R^* получаются отбрасыванием в MU последней компоненты, а в — последнего столбца и по- следней строки. Непосредственно видно, что ( 1 1 1 1 А —+— — — Pl Рк Рк Рк 111 1 R-1 _ 4- ... t/* ” рк р2 Рк Рк 1 1 11 --- --- ... --4--- I Рк Рк Рк-\ Рк ) (действительно, R^R^*=I). Поэтому для квадратичной формы Q в плотности распределения вектора U* f(u I Hq )=--------------------17Гехр^ 7(н*>'Ru* “ I= (2л)'* 1,/2(detR I 2 и J = Ae~QI2 (4.5) получим . i * £-1 ( \ i A ~ i k-\ Q = (u =£ — + —|m2 +—Xuiuj = u /=1 V Pk Pi ) Pk /=1 fc-1 it2 1 f*-l ? *-1 и2 и? к = Z X». = Z -L+-S-=Z /=1 Pi Pk V/=l ) /=1 Pi Pk i=\ Pi Но квадратичная форма в (4.5), как известно, имеет распреде- 2 ление х с числом степеней свободы, равным размерности вектора и , т. е. к -1. Поэтому, из сходимости м = — следует справедливость утверждения теоремы Пирсона, т. е. ? к /=1 (и,.)2 D к uj ---- X-----------еХл-1 Pi Н-ж i=\ Pi (4.6) 72
(последний результат следует из непрерывности входящих в (4.6) функций от аргументов п и и). Полученный вывод означает, что при больших У (прак- тически — при N>50 и 77/ > 5 ) статистика (4.3), вычис- ленная при условии, что измеренные значения признака Y Рис. 4.1 соответствуют гипотетическому распределению F(y | Hq ), имеет распределение, мало отличающееся от распределения , не зависящего от распределения признака F(y | Hq ); на рис. 4.1 показаны функции плотности этого распределения при / = £ -1 = 1, 2 иЗ. Дальнейшая схема применения полученного результата заключается в выборе критической области Х^ значений статистики XN при заданном уровне значимости а , определяемой условием ^>Csr} = {Z: Z>c5}, (4.7) 73
э где Zg%£_j, а константа определяется.из следующего соотношения f f 2 (x)dx = l-F 2 (Са) = “ М-1 М-1 са 2 (здесь F 2 ( ) —функция распределения ). ^Л-1 Итак, решающее правило проверки истинности гипотезы Hq о соответствии опытных данных (реализации выборки )№) гипотетическому распределению F(y|/?o) в рамках критерия согласия %2 с уровнем значимости а имеет стандартный вид Ху (У^)£ %кр ^0 — принятие гипотезы Hq ; Ху (У^ )е => <6 — отрицание гипотезы Hq . Описанный выбор критической области Х^р (её одно- сторонний вид) обосновывается включением в нее больших значений статистики Ху, выражающей, как было сказано, меру отклонения выборки от гипотезы Hq . С другой стороны, исходя из приведенных выше общих соображений о построе- нии критической области, казалось бы естественным вклю- 2 чить в неё и область малых значений статистики Ху с малы- ми значениями плотности распределения /2 (*) (такие х*-1 области появляются при £ = Z + 1>4, (см. рис. 4.1)). В этом случае критическая область (решающее правило) имела бы (вместо (4.7)) двусторонний характер вида {Z>q}U{Z>c2}}- Детальный анализ, однако, показывает, что применение здесь такого двустороннего решающего правила некорректно, поскольку переход от признака к статистике х'у не 74
взаимно однозначен, вследствие чего малым значениям статистики соответствуют значения с высокой плотностью распределения. Корректное обоснование выбора односторонней критиче- ской области согласно (4.7) заключается в том факте, что рас- пределение статистики в случае, когда гипотеза Hq не верна (т. е. Fy(y)* F(y\ Hq) , сравните с (4.2)) имеет плот- ность f 2 (x|#i), сдвинутую вправо относительно плотно- ‘ XN сти распределения f 2 (х|Яо)> независимо от конкретного A.v распределения Fy(y). Это обстоятельство, которое имеет строгое доказательст- во, интуитивно объяснимо: большему отклонению истинного распределения признака Y от гипотетического должны соот- 2 ветствовать, как правило, большие значения статистики Хдг, смысл которой отражает отклонение вектора и от его ожидае- мого значения (при гипотезе Hq ). Подробнее о выборе критической области в критерии со- гласил х см. [2]. Представляет интерес асимптотическое поведение ста- тистики Х%/ при N ->оо в случае, когда справедлива гипо- теза Н\ (см. (4.2)). В связи с этим определим в общем смыс- ле свойство состоятельности критерия согласия. Пусть критерий согласия основан на применении статистики 5у (в 2 нашем случае Sy = Х^) и 5^ — критическая область её значений. Критерий считается состоятельным, если выпол- няется условие: V а : /’{5д,е 5кр | Я)} —> 1, (4.8) N —>оо которое означает, что при каждом значении уровня значимо- сти а с ростом N вероятность отвергнуть гипотезу Hq , когда она неверна, стремится к единице. 75
Доказательство состоятельности критерия х2 мы опуска- ем (см., например; [6]). Подчеркнем, однако, что состоятель- ность критерия х2 следует понимать в смысле выполнения (4.8) при условии, что истинное распределение признака К от- личается от гипотетического F(y | Яд) настолько, что выпол- няется условие 3/: P{Yt Д/|Я0}*ЛГеД/|Я0} = Л- 2 Критерий х применим для признака с любым типом распределения, в том числе и для векторного признака (в этом случае разряды А, — многомерные интервалы). Привлекательное свойство критерия х2 состоит и в том, что он применим и тогда, когда гипотетическое распределение F(y | Hq; v) априори дано с точностью до его типа при неиз- вестном значении параметра v (скалярного или-векторного), т. е. когда гипотеза Hq — сложная. В этом случае статистика 2 Xявляется функцией неизвестного параметра v: X2n = X2n(v)=X (4.9) ,=1 Npj(y) что не позволяет использовать её непосредственно для про- верки истинности гипотетического распределения признака (которое теперь не вполне конкретизировано). Однако эмпирическая информация, сосредоточенная в выборке признака )№, может быть использована для полу- чения оценки v неизвестного параметра v, которая затем под- 2 ставляется в (4.9); в результате статистика XN принимает вид Г2 Г2Л*Л V ~ = А д, (V) = ---хг ------- 1=1 NPi(y) и её значение вполне определяется реализацией выборки признака Y. 76
Оценка v, зависит, однако, от метода её получения. В ча- стности, она может быть найдена в результате применения метода наибольшего правдоподобия (см. гл. 5) к распределе- нию вектора п = (wj,..., )', которое относится к классу по- линомиальных распределений: P(n;v) = ——-—Vh,->0, Xni = N «1 !•••«*! z=l Суть этого метода состоит в том, что в качестве оценки параметра v принимается то его значение (или те значения его компонент, когда он векторный), которое доставляет макси- мум вероятности Р(м; v). При этом оценка 5-мерного параметра h=(vj,..., v^)', приводит к тому, что компоненты вектора п оказываются свя- занными 5 однородными линейными уравнениями, что приво- дит к таким же связям и между компонентами вектора и, фи- гурирующего в рассмотренном выше асимптотическом пред- ставлении статистики Х^. Можно показать (см., например, [8]), что при этом асимптотическое распределение статистики Хм также относится к классу распределений х * но с уменьшенным на 5 числом степеней свободы, т. е. ^(v)-^~>xk-ieF2 (х). Л^->ОО *k-s-\ §4.3. Критерий согласия Колмогорова Этот критерий основан на статистике К, выражающей ве- личину отклонения. гипотетической функции распределения F(у | Hq ) скалярного признака Y от эмпирической функции распределения F^(y) (1.1), построенной по полученной про- стой выборке значений признака Y. Чтобы использовать эту статистику, следует выяснить, каким распределением она обладает, если выборка по- лучена при истинности гипотезы Hq , т. е. при распределении 77
признака Р(у\Н$). Далее, зная распределение статистики для гипотезы Hq (в виде, например, функции распреде- ления (k\ Hq), можно судить, насколько полученное опьггное значение соответствует или не соответствует гипотезе Hq . Опишем этот метод, именуемый критерием согласия Колмогорова, подробнее. Введем обозначения DN=sup\F(y\H0)-FN(y)\, KN = y[NDN. У Справедлива следующая теорема. Теорема 4.2 (Колмогоров). Для непрерывной гипоте- тической функции распределения F(v\Hq) статистика при истинности гипотезы Hq имеет распределение, не зависящее от этого распределения, и при N —> оо сходится по распределению к случайной величине К, имеющей стан- дартное распределение F^(k)z оо 2 2 К* -^Ке FK(k)= £ {-\)5е~и s (4.10) >00 5 =-СО Распределение F%(k) табулировано/ При достаточно больших N (практически — при N > 20) критическая область ТСкр ПРИ заданном а определяется равенствами: ЗСкр(а) = {*: k>k«}, Р{Ке Ккр^)\Н0} = Р{к>кЕ} = а. Объяснение тому, что в ТСкр(^) не включаются значения к, соответствующие малым значениям плотности распределения 2 fk (к I Hq ) = Fk (к I Hq ), здесь то же, что и для критерия х • Заметим, что критерий согласия Колмогорова использу- ется в случае, когда гипотетическое распределение F(y|/7o) известно точно, т. е. гипотеза Hq — простая. Можно показать, что критерий согласия Колмогорова со- стоятелен (см. [2]). 78
§4.4. Задачи о двух выборках Нередко практический интерес представляют критерии согла- сия, предназначенные для проверки соответствия полученной выборки значений случайной величины некоторому неизвест- ному распределению, представленному также выборкой зна- чений случайной величины. Сформулируем задачу о двух выборках в более общем виде. Пусть =(У1,...,УЛг1 ) и О2 = (У,..., y”N1 ) — про- стые выборки значений случайных величин Г и Г с неиз- вестными функциями распределения F\ (у) и F2 (у). Не зада- ваясь нахождением функционального вида этих распределе- ний, поставим задачу проверки гипотезы об их совпадении: Яо : Fx(y) = F2{y)- (4.11) ЯГ Fx(y)*F2(y). Практически и здесь задача может заключаться в выясне- нии того, можно ли считать вновь полученные эксперимен- тальные данные соответствующими «фоновому» распределе- нию, представленному ранее полученной выборкой значений признака (гипотеза Hq ), или эти данные являются аномаль- ными (гипотеза ). Задачи такого содержания, называемые задачами о двух выборках, решаются с привлечением ряда критериев, два из которых рассмотрены ниже. 4.4.1. Критерий Смирнова. Итак, пусть О\ = (У,..., Уу ) и О2 = (Я’ • ••' Ум2 ) — реализации простых выборок значений скалярных случайных величин Г и Г , имеющих неизвестные функции распределения Fi(^) и F2(у). Задача состоит в по- строении критерия для выбора гипотез согласно схеме (4.11) при условии непрерывности этих функций распределения. 79
Используя выборки Of и б?2 ’ построим, соответственно, эмпирические функции распределения (у) и Fy2 (у) и обозначим DN{ N2 = SUP । FNi O') “ FN\ O') I •• у Оказывается, что при Fj(y) = F2(y) случайная величина _ | ,Ч|М2 •'"J 7-7; сходится по распределению к случайной величине К с функ- цией распределения, указанной в (4.10),если AS У1~>оо, jV2 °0, —--»р, 0 < р < ОО . Проверка гипотезы Hq по критерию Смирнова осуществля- ется так же, как и для критерия Колмогорова. Можно также показать, что при указанных условиях >к^\Н1} = } (здесь Hf — гипотеза о неравенстве функций распределения, соответствующих выборкам и б?2 X таким образом крите- рий Смирнова состоятелен. 4.4.2. Критерий серий. Среди критериев, предназначенных для решения задачи о двух выборках, упомянем критерий се- рий, суть которого состоит в следующем. Пусть снова Oj = (Уь y'N}) и О2 = (Я......Ух2 ) — реализации простых выборок скалярных случайных величин Y' и Yn . Образуем из этих выборок реализацию объединен- ного вариационного ряда Л) -(Л1) ,У(2) ’' ‘^(Л'|+W2) ' ’ У(7-1) ~У(П Верхний индекс (равен 1 или 2) указывает, к какой из исход- ных выборок (Of или (?2) относится элемент . 80
u - W+W?) Назовем серией элементов ряда 1 z последова- тельность следующих друг за другом элементов с одинаковым верхним индексом при условии, что примыкающие к крайним ~ (Ni+N?) элементам этой последовательности элементы из 1 2 имеют иной верхний индекс. Примерами серий являются по- следовательности , 54,55 в ряду (1) (2) (2) (1) (1) (1) (1) (2) (2) (1) Л1)’ Л2)’ Лз) ’ У(4)’У(5У.У(6)’У(7У Л8) ’ Л9); Л10) s2 S3 54 55 Очевидно, что число серий U в вариационном ряду +^2), будучи случайной величиной, характеризует собой степень «перемешанное™» исходных выборок: чем больше значение U = и, тем больше оснований считать, что они име- ют одно и то же распределение, т. е. 7*] (;/) = 7*2 (у), т. е. спра- ведлива нулевая гипотеза Но. Для простых выборок О\ и О2 при истинности гипотезы Hq можно получить точное распределение случайной вели- чины U, исходя из следующих рассуждений. Обозначим N = N\ + TV 2 • Число вариантов расположения элементов выборок О\ и О2 в объединенном вариационном (M+AS) W /-^1 ряде 1 = равно CN1 , причем при истинности гипотезы Hq естественно полагать их равновероятными. Обозначим j длину серии, т. е. число содержащихся в ней эле- ментов, и r^j — число серий длины у, образованных элемен- тами из Oj, r2j — то же для элементов из О2. Ясно, что XJr\j=N\’ XJr2j=N2- j j Числа q = £ - 2Z r2j равны числу серий, образован- J J ных соответственно элементами из О] и О2. Эти числа не мо- гут различаться более, чем на единицу. б-це 81
Можно показать [12], что общее число серий U = q + Г2 при истинности гипотезы Hq имеет распределение I — натуральное число. Исследование асимптотических свойств этого распреде- ления, основанное на использовании формулы Стирлинга, по- казывает справедливость следующей теоремы. Теорема 4.3. При истинности гипотезы Hq и вы- полнении условий N\ —> оо , 00 > —“ Р > 0<р<ОО имеет место сходимость и 2NXN2 U° =---------'У.1.1^2.-уе %(0,1). 2^1 W V(^l + ^2)3 Схема использования этого критерия для проверки гипо- тезы Hq очевидна. В заключение заметим, что при непрерывности функций распределения и /*2(у) и дополнительных (достаточно широких) налагаемых на эти функции условиях, критерий се- рий состоятелен. 82
ГЛАВА 5 ТОЧЕЧНОЕ ПАРАМЕТРИЧЕСКОЕ ОЦЕНИВАНИЕ В этой и следующей главах рассматриваются задачи получе- ния оценок параметров распределений вероятностей, фигури- рующих в той или иной вероятностной модели, по реализаци- ям выборок соответствующих случайных величин, получае- мых эмпирическим путем. Процедуры такого оценивания называют иногда «обучением» вероятностных моделей, а ис- пользуемые выборки — обучающими. Эти выборки (точнее — их реализации) служат исходным «сырьем», превращающим вероятностные модели в рабочий инструмент для исследова- ния описываемых ими реальных явлений. §5.1. Точечные оценки и их свойства Рассмотрим постановку и методы решения задач следующего содержания. Пусть распределение случайной величины X из- вестно с точностью до типа, т. е. априори известен вид функ- ции распределения Fx{x\ v), зависящей, однако, от неизвест- ного скалярного или векторного неслучайного параметра v (например, от скаляра X в показательном распределении Fx (х; X) = 1 - е“^А , вектора (т, ст2 ) — в нормальном распределении %(тл;сг2) ит. д.). Задача обучения состоит в оценке неизвестного (но ос- тающегося в процессе оценивания неизменным) параметра v по реализации простой выборки Х^ случайной ве- личины X: т. е. в нахождении статистики Т = T(Xi,X2,---,Xn)9 кото- рая могла бы быть использована в качестве оценки неизвест- ного параметра v, удовлетворяя некоторым требованиям, вы- 6*
ражающим приемлемость такой оценки. Для каждой реализа- ции выборки х™ значение t = статистики Т пред- ставляется точкой в пространстве 8 возможных значений v; поэтому Г(X], Х2, • • •, ) называется точечной оценкой параметра v. Для любого параметра v можно рассматривать ряд стати- стик, претендующих на роль его точечной оценки. Так, на- пример, в качестве точечной оценки параметра, совпадающего с математическим ожиданием случайной величины X, можно рассматривать следующие статистики: 1 N 1 ’ т2 =т(^(1) + ^(2У))’ тз =^(W+l)/2 N /=1 2 (здесь Хц) — i-я порядковая статистика выборки X^N\ ^(У+1)/2 — срединный элемент — медиана — вариационно- го ряда в предположении, что N— нечетно). Статистика от выборки объема N, рассматриваемая как оценка параметра v, в общем случае будет обозначаться или Т (для оценок конкретных параметров будут использо- ваться и иные обозначения). Заметим, что во всех специально не оговоренных случаях неизвестный параметр v полагается неслучайной величиной, в то время как его оценка Tn=T(X(N)) является случайной величиной. Выбор той или иной статистики в качестве оценки пара- метра v производится с учетом удовлетворения ею следующих требований. Состоятельность оценки. Естественным требованием к точечной оценке параметра v является ее сходимость по вероятности с ростом объема выборки N к оцениваемому па- раметру, т. е. выполнение условия (для скалярного v): дляХ/оО lim Р{| Ту - v | < s} = 1 У->00 или, короче, Ткг —??₽•-.» v . У->оо Оценка, удовлетворяющая этому требованию, называется состоятельной. 84
Заметим, что термин «состоятельная оценка величины а» применяется в общем случае к любой статистике Zу, сходя- щейся по вероятности к а при N -> оо. Состоятельность используемой оценки гарантирует воз- можность сколь угодно точного (в вероятностном смысле) оценивания неизвестного параметра, если объем обучающей выборки достаточно велик. Состоятельность оценки TN векторного параметра v оз- начает, что каждая компонента вектора Гу является состоя- тельной оценкой соответствующей компоненты вектора v. Несмещенность оценки. Поскольку на практике прихо- дится использовать оценку при фиксированном N, целесооб- разно позаботиться, чтобы ошибка оценивания не содержала систематической составляющей, т. е. чтобы оценка в среднем была равна оцениваемому параметру. Это требование для ска- лярного параметра v выражается в равенстве математического ожидания оценки значению оцениваемого параметра: V N: A/Ty=v. Оценка, удовлетворяющая этому требованию, называется не- смещенной. Ясно, конечно, что значение математического ожидания Л/Гу должно здесь вычисляться при том фиксиро- ванном значении v, при котором формируется реализация вы- борки , т. е. = J Г(х1,Х2,...,ху) JF(x1,x2, ...,ху; v). Наряду со строго несмещенными оценками можно рас- сматривать асимптотически несмещенные оценки, для кото- рых выполняется равенство Л/Гy=v + Z?y, (5.1) где йу -> 0 при N —> оо . Пусть дисперсия О(Тц) оценки Гу для V vg 0 сущест- вует и удовлетворяет условию lim £(Гу) = 0. (5.2) Л->00 Тогда нетрудно убедиться, что из несмещенности или асим- птотической несмещенности оценки следует ее состоятель- 85
ность. Действительно, пусть справедливы (5.1) и (5.2). Выбе- рем произвольно е > 0, 8 > 0. Неравенство Чебышева дает P{\v + bN -Tn\<e/2}>\-^^-, 3N0; Vy>AT0 2 4 Отсюда V N > Уо P{| v-TN\< е} > 1-5 , т. е. TN —^2-»v \ TV-^оо и 7дг — состоятельная оценка параметра v. Все сказанное без труда переносится и на случай вектор- ного параметра, если под несмещенностью (асимптотической несмещенностью) оценки векторного параметра понимать удовлетворение этому условию всеми компонентами оценки. Параметры распределения случайных величин обычно совпадают или связаны простой зависимостью с их числовы- ми характеристиками (т. е. с их моментами — математиче- ским ожиданием, дисперсией, корреляционной матрицей и т. д.). В связи с этим задачи параметрического оценивания совпадают, как правило, с задачами оценивания числовых ха- рактеристик. Рассмотрим несколько примеров. Пример 1. Пусть X — случайная величина с распределе- нием Бернулли с параметром р\ Р{Х = х} = рх (1- р^~х, х = О, 1. Примем в качестве оценки р статистику 1 N TN=PN=~X^i- ^,=1 Несмещенность очевидна: 1 N M(pN) = ~TlMXi = p. N /=1 Дисперсия рдг равна D(pN) = -^-XDXi=^-^- и D(pN) -► О, дг2 Z=1 N У-»оо откуда следует состоятельность оценки pN . 86
Пример 2. Рассмотрим две часто встречающиеся в при- ложениях статистики - 1 Л' X = — У X; И , 1 N _ „ V)2. 7V-1Z=1 Первая из них носит название выборочного среднего и обычно используется как оценка математического ожидания случай- ной величины X, а вторая, именуемая выборочной дисперсией — как оценка её дисперсии (заметим, что для нормального распределения здесь имеет место совпадение параметров рас- пределения и числовых характеристик). Пусть X '— случайная величина с конечной дисперсией — — DX DX. Тогда М(Х) = МХ и DX =------->0 при У->оо,чтооз- начает несмещенность и состоятельность X как оценки MX. j Далее, легко проверить, что М(S ) = DX и W-l J где = М(Х4) — четвертый начальный момент случайной величины X. Если он существует и конечен, то D(52)-»0 2 при N —> оо, т. е. 5 — несмещенная состоятельная оценка дисперсии DX. Эффективность и оптимальность оценок. Состоятель- ность и несмещенность оценки параметра не исключает, ко- нечно, ошибки оценивания, которая вызвана и зависит от дис- персии оценки: согласно неравенству Чебышева при фиксиро- ванном N и любом 8 > 0 вероятность отклонения несмещенной оценки Ту от истинного значения скалярного параметра v более, чем на 8, тем больше, чем больше диспер- сия оценки DT^. При некотором обобщении понятия диспер- сии оценки (что далее и делается) такое положение имеет ме- сто и для векторного параметра. Рассмотрим две несмещенные оценки Т\ и скаляр- ного параметра v (опуская индекс N, указывающий на объ- 87
ем используемых выборок, который принимается равным для обеих оценок). Оценка 1\ считается эффективнее оценки ?2 (Tj >- ?2), если дляУуеб D7\ < DT^ и 3ve0: Пусть теперь оцениваемый параметр — вектор, v = v. Обозначим Г| и Т2 две конкурирующие несмещенные оцен- ки этого параметра у, полагая, что он может иметь любое воз- можное значение из 0. Сравнение дисперсионных свойств оценок 1\ и Т2 будем теперь проводить, сравнивая значения дисперсий проекций этих векторных оценок на всевозможные направления, задаваемые единичными векторами . е в пространстве 0, т. е. дисперсий Р1е=Л/((е'Г1)2), D2e=M((e'T2)2). Обозначим Е множество всех единичных векторов е в пространстве 0. Тогда, если выполняются условия дляУуе0,ееЕ D^e<D2e и 3ve0,eeE: D^<D2e, (5.3) то оценка 1\ эффективнее оценки Т2 (7] >- Т2). ° 2 Заметим, что М(е Г) = eRTe, где — корреляционная матрица вектора Т. Условия (5.3) означают, в частности, что значения дис- персий всех компонент оценки Т2 не превышают значений дисперсии соответствующих компонент Т2 . Из приведенного определения сравнительной эффектив- ности двух оценок легко заметить, что их упорядочение по эффективности не всегда возможно, поскольку значения фи- гурирующих в этих определениях дисперсий зависят от зна- чений оцениваемого параметра. Рассмотрим подробнее вопрос о существовании наиболее эффективных несмещенных оценок. Пусть Т множество несмещенных оценок параметра v и существует оценка Т$ е Т такая, что выполняется условие: для V 7] е Т, Уб 0, ее Е D$e < D\e 88
где DOe = М((е' То)2), Т)\е = М((е' Т\)2). Тогда оценка Го называется оптимальной. Докажем справедливость следующего утверждения. Теорема 5.1. Если оптимальная оценка Tq параметра у существует, то она единственна. Уточним, что единственность понимается здесь в том смысле, что две оптимальные оценки равны друг другу с ве- роятностью 1. Допустим обратное и пусть Tj и Т2 — две оптимальные оценки параметра V. Образуем третью статистику Т3=(7\ + Т2)/2. Ясно, что из Т| е Т и Г2 е Т следует Т3 е Т. Корреляцион- ная матрица статистики Т3 равна Ry3 =Л/(7з 7з) = -(К7’1 +Rt"2 +Rt,]7’2 + R’r]r2 где R^ и Ry2 —корреляционные матрицы оценок Ту и Т2, о о a Rj’7’2 = Af (Г] Ц) - Далее получаем е R у3 е = — (ef R е + е* R у2 е + 2er Ryj 72 £) (поскольку Ry1y2e = erRy1y2e). Из оптимальности Т\ и Т2 следует, что А V ее Е e'Ry1e = e'Ry2e = Z\?, откуда, ввиду erRy3e = —(De +erRy1y2e)>De, получаем /Rriy2e>Z)e. Для набора всех несовпадающих единичных векторов вида e = (q,...,er) (здесь г — размерность параметра v), 89
каждый из которых имеет по одной отличной от нуля (т. е. равной единице) компоненте, получим г неравенств М(Ту T2i) = RTuT2. > Dt = M(Tlt )2 = M(T2i)2 . _ i = \,r, (5.4) о о где TVl, Г2/ — z-e компоненты векторов Г] и Т2, ^TuT2l — их корреляционный момент, Dj — их дисперсии: D,=wL)2=W2/)2- С другой стороны, имеет место неравенство Коши- Буняковского: | M(TU T2i) I < М(Ти)2М(Т21)2 = Di, (5.5) вследствие чего М(ТцТ2^ = Di9 i = TTr, (5.6) что выполняется лишь в том случае, если (с вероятностью 1) TXi=aiT2i+bi, (5.7) (это легко проверить, вспомнив, как получается неравенство (5.5)). Из несмещенности оценок 7} и Т2 получим МГц = сцМТ21 + bi = а/V/ + bj = vz, где vz — z-я компонента параметра v, или fe, =v,- (1-Л,). Но в силу равенства (5.7) верно соотношение a2D, = Djf от- куда aj = 1, bi = 0 и Ту = T2i, i = 1, г , т. е. Т\ = Т2 с вероят- ностью 1 (легко проверить, что второе решение az=-l, bj = 2vz противоречит (5.6)). Теорема доказана. При выполнении определенных условий, налагаемых на распределение случайной величины X, существует нижняя грань дисперсии DT несмещенной оценки Т скалярного пара- метра v или обобщенной дисперсии оценки векторного пара- метра v в принятом выше смысле. 90
Это следует из соотношения, называемого неравенством Рао-Крамера, доказательство которого для векторного пара- метра проведем в предположении о непрерывном распределе- нии случайной величины X с плотностью /x(x»v) (доказа- тельство для дискретного случая осуществляется аналогично с заменой интегралов суммами или рядами). Обозначим, как обычно, простую выборку случайной величины Х9 L = L(x(7V);v) = n fx(xi’v) Z=1 — функцию правдоподобия для Х^ = х^\ 0 — пространство значений параметра V, <Т — множество несмещенных оценок Т параметра у, Е — множество всех единичных векторов е в пространстве 0. Справедлива сле- дующая теорема. Теорема 5.2 (неравенство Рао - Крамера). Пусть вы- полнены условия: а) выборочное пространство (множество значе- ний выборки , для которого Р{Х^ G Х^} = 1) не за- висит от значения оцениваемого параметра v; б) для VVj, r = T(x^)eT допускается дифференци- рование по компонентам параметра vnod знаком интегралов: 8vj X(N) X(N) dvJ dvj X(N) = J L(XW-,v)dxW, X(N) 8vj 91
это условие будем называть условием регулярности функции правдоподобия Z(x^;v) (которую для краткости будем ниже обозначать Z); в)матрица J-M д In L д In L dvi dvj ? — неособенная. Тогда для V Те Тб имеет место неравенство, именуемое нера- венством Рао - Крамера: Vve0,eeE: e,RTe>e,3 Хе. (5.8) Доказательство. Введем случайный вектор (din L g In Л Л 5v] ’ ’ dvr J ’ для которого, в силу тождества по v (LdxWS\, X(N) верно: Maint= , 'Ldxm,0 dvi AN) dvi X(N) т. e. MK = 0. Для корреляционной матрицы вектора К по- лучим выражение = J = Af Э In Л а 1гг А < 5v<- dvJ , Образуем вектор Z = J XK-(T-v) с математиче- ским ожиданием MZ = УЛМК М(Т - v) = о и с корреляционной матрицей RZ=MZZ = J’1+Rr-J-,Bi-B2J_]=-J’,+Rr. (5.9) 92
Здесь для вычисления матриц Bj и В2, равных, соответственно, использованы равенства X(N) dvi dv> X(N) Svi = 5 =6°’ ,J 11, > = j ; из которых следует, что эти матрицы — единичные, В силу неотрицательной определенности корреляционной матрицы Rz получаем V ее Е е' Rze = -e'J~1e + e' R^e^O , откуда и следует (5.8). Если v — скаляр, то левая часть (5.8) оказывается равной дисперсии оценки и неравенство примет вид DT = DT >---------5---— (5.10) Л/((5 In L/Sv)2) (далее дисперсия статистики Т будет изображаться DT или в зависимости от удобства записи). Вернемся к случаю векторного параметра. Пусть функция правдоподобия £(x^\v) дополнительно к указанным выше условиям допускает повторное дифференцирование под зна- ком интеграла: >>2 -2 г Vv,,v, —£-------- (£*<«. Г '7 dvi8vj X(N) X(N) dVjSVj 93
Тогда возможны следующие тождественные преобразования: 2 Г L^-dxW = dvjdvj ,3N} ov, (3N} dvj Л Л ( f Ld"'La'r‘Ldx'r,',0. X(N) dVjdvj x(N} 8v, dvj или M d In L d In L dvj dvj т. e. матрица J в (5.8) представима в виде J = -M (7 \ azinz dv;dv; I 1 J J а в случае скалярного параметра v (5.10) принимает вид DT >---------Ц-----=-------------5. (5.11) M(d2\nL/dv2) MW(a2ln/¥(x;v)/9v2) Интересны случаи, когда (5.8) и (5.10) превращаются в равенства. Если (5.8) выполняется в виде равенств для всех векторов е из Е, т. е. Уиб9,ееЕ: e'Rre = e'J-1e, (5.12) -Д . то Dp. =Dj=Jji , где Dp. — дисперсия z-ой компоненты оценки Т, — f-ьш диагональный элемент матрицы J-1; при этом, следовательно, дисперсии оценок компонент век- торного параметра v достигают минимума. Для скалярного параметра это соответствует оценке Т, обладающей дисперси- ей, равной нижней ее границе. Несмещенные оценки, удовлетворяющие (5.12), называ- ются эффективными. Ясно, что эффективная оценка одно- временно оптимальна и, соответственно, единственна. Из это- 94
го, однако, не следует непременная эффективность оптималь- ных оценок, поскольку эффективные оценки не всегда суще- ствуют (что, впрочем, относится и к оптимальным оценкам). Для скалярного параметра v (5.12) представимо (с уче- том (5.10)) в виде Af((T-v)2)M С другой стороны, ввиду очевидного тождества А- |(Г-у)ЛЛ<л'>=- рЛ''> + J L(T-v)^-^dx(N} =0 (вытекающего из несмещенности T как оценки v) получим Л/Г(Г-у)^Р = 1, dv J т. е. неравенство Коши - Буняковского превращается в ра- венство: М (Г-v)^-^ = Л/((Г-У)2)Л/ V d v J V ч2 dlnL j 3v 1 = 1, что имеет место лишь в том случае, если ^ = i(v)(r-v), dv т. е. если функция правдоподобия может быть представлена в виде Z(x(2V);H) = ^(x(2V))exp{ J к(у)(Т-v) dv }, (5.13) где функции А(х^) и к(у), зависящие, соответственно, только от выборки х^ и от значения параметра v, опреде- ляются содержанием решаемой задачи, конкретно — типом распределения случайной величины X. 95
Равенство (5.13) является, следовательно, необходимым и достаточным условием эффективности оценки Т скалярного параметра v. Следует заметить, что при векторном параметре v от- дельные его компоненты могут иметь эффективные оценки при отсутствии таковых для других его компонент. Так, на- пример, в случае нормального распределения Хе с неизвестным векторным параметром v - (m\<s ) выбороч- ное среднее - 1 N x-^xi N ,=i является эффективной оценкой математического ожидания, в то время как эффективная оценка дисперсии а2 отсутствует. Оценка 7} компоненты параметра V/ называется асим- птотически эффективной при выполнении условия (сравни- те с (5.12)): a2 in л | ) 1 Sv2 /71 Л/—>°о J и или для скалярного параметра = -DTM dv J В случае нормального распределения (при неизвестном у = (ти;сг2)) асимптотически эффективной оценкой диспер- сии а2 является выборочная дисперсия, т. е. статистика э 1 N _ ~ /V-1 /=1 Достаточные статистики и оценки параметров рас- пределений. Важным свойством, которым может обладать статистика, используемая как оценка параметра распределе- ния, является её достаточность относительно оцениваемого параметра. Рассмотрим это свойство подробнее. 96
Прежде всего заметим, что оценка параметра распределе- ния v с помощью выборки имеет смысл лишь в том случае, если распределение зависит от значения v (лишь в этом случае, собственно, и можно считать v парамет- ром распределения Xи, следовательно, Х^). Пусть существует статистика Т -Т{Х\,.... Х^), такая, что при фиксированном Т = t распределение Х^перестает зависеть от v, т. е. F(x(N)\t;v) = F(xW\t) или L(x(/V);v) = L(x(yV)|/). (5.14) Тогда можно утверждать, что в t содержится вся информация о v как о параметре распределения X. Статистика Г, удовле- творяющая (5.14), называется достаточной относительно па- раметра V. Справедлива следующая теорема. Теорема 5.3 (критерий факторизации). Необходимым и достаточным условием достаточности статистики Т от- носительно параметра v является представимость функ- ции правдоподобия £(x^;v) в виде £(x(/V);v) = g(v,r)r(x(;V)), (5.15) где g(y,t) непосредственно не зависит от х^\ а г(х^^) непосредственно не зависит от v. Покажем, что это действительно так в случае дискретного распределения X. Имеет место равенство P(x(N} I г V) = p<x( V)’f;v> = ’ P(r;v) P(z;v) (здесь P(x(N\t; v) = P(x{N}; v), поскольку t = t(x{N))). Вме- сте с тем P(x(yv) |/;v) = £ P(x(yv);v) (S = (x(yV) :T(x(N)) = t). S 7—116 97
Но Р(х^\ v) = L{x^N\ v) — функция правдоподобия для дискретного случая. Если она удовлетворяет (5.15), то | v) = = Р(Х<« I ,) g(r;v)X г(х(У)) Z г(х(У)) 5 S (достаточность условия (5.15)). Необходимость (5.15) следует из записи (5.14) в виде £(Х(ЛГ); v) = р(х^); v) = Р(Г; v)P(x t) = g(v, t) r(x^). Доказательство критерия факторизации для непрерывно- го случая несколько сложнее и здесь не приводится. Интересно сопоставить свойства эффективности и доста- точности оценок. Мы видели, что эффективность оценки (в случае скалярного параметра) имеет место, когда функция правдоподобия представима в виде (5.13), что является част- ным случаем (5.15). Следовательно, эффективная оценка все- гда достаточна. Обратное утверждать нельзя: существуют достаточные, но не эффективные оценки параметров. До сих пор, говоря об оптимальной оценке, мы имели в виду оценку параметра распределения v. Нередко, однако, по- лезно применить понятие оптимальной оценки к оценке ка- кой-либо заданной функции от параметра {параметрической функции) т = t(v) . Такое распространение понятия оптималь- ности оценки легко вытекает из приведенных ранее определе- ний с заменой параметра v величиной т. Роль достаточных (относительно параметра v) статистик в теории параметрического оценивания раскрывает следую- щее утверждение. Теорема 5.4 (Блекуэлла-Рао-Колмогорова). Пусть задана параметрическая функция т = t(v) и существует её оптимальная оценка 7g = Т${Х^). Тогда эта оценка явля- ется функцией от достаточной {относительно параметра v) статистики Т = Т{Х^) {иначе говоря, Tq зависит от Х^ только через Т{Х^)). 98
Доказательство. Пусть U(X^) — произвольная несме- щенная оценка параметрической функции т = t(v) . Рассмот- рим функцию Я(Г) = M(U | Т = Г; v) = J L/(x(jV)) Z(x(jV) | Г; v) dx(N). X Функция H(t) не зависит от v, так как L(x^ 11\ v) не зави- сит от v ввиду достаточности Т(Х^). Далее, H(t) является несмещенной оценкой т = t(v) . Действительно, если G(t,v) — функция распределения ста- тистики Г, то М(Я(Г(Х)))) = = f/7(r)JG(r;v)= f J[/(x(jV))Mx(Af)|r;v)Jx(y) pG(/;v) = т т lx ' = Jg(x(V)) f L(x(N}\t;v)dG(t;v) |d5c(jV) = x It ' = f U(x{N} )L{x(N) ; v) dx{N} =MU = t(v) . Теперь покажем, что DH(T(x(N]))<DU(x{N)) Vv. (5.16) Действительно DU(x{N} ) = M(U(x(N}) - Я(Г) + H(T) - r(v))2 = = A/(G(x(V)) - H(T))2 + DH(T) > DH(T), M[(U{x(N))-H{T)\H{T) -r(v))]=Af [(G(xW )-Я(Т))Я(Г)]= = f J (G(x(W)) - H{t))H{t)L{x{N} 11) dx(N} |rfG(r) = = jG(x(7V))L(x(y)|r)<Zx(jV) dG(t)~ -f#2(/) |£(х(ЛГ)|Г)</х(Л° dG(t)=MH2(T)-MH2(T) = O. 7* 99
Заметим, что равенство в (5.16) возможно лишь при условии U(T) = Н(Т). Таким образом, для любой несмещенной оценки с помо- щью достаточной статистики можно построить оценку с меньшей (или в некоторых случаях с равной) дисперсией. Итак, оптимальную оценку надо искать среди функций от достаточной статистики. Доказательство закончено. Отметим одно достаточно очевидное следствие из теоре- мы Блекуэлла - Рао - Колмогорова. Следствие. Пусть Т — достаточная статистика относительно параметра — класс измеримых функций Н(Т), V— класс всех несмещенных оценок U(X^) па- раметрической функции t = t(v). Если существует какая либо несмещенная оценка U(X^)g 'Ll, то существует и несмещенная оценка вида Н(Т), принадлежащая классу №. Другими словами, если класс % не содержит несмещенных оценок функции т = t(v) , то класс 1) всех несмещенных оце- нок этой функции пуст. Доказательство. Если U(X^) — несмещенная оценка t = t(v), V), то из теоремы Блекуэлла-Рао - Колмогорова следует, что оценка Н(Т) = M(U | Т) (при- надлежащая классу %) тоже несмещенная, что и требова- лось доказать. Внимательный читатель заметит, что если существует эффективная оценка, то теорема 5.4 сводится к уже известно- му результату (эффективная оценка есть функция от доста- точной статистики). Для поиска оптимальных оценок введем следующее оп- ределение. Определение. Достаточная статистика Т(Х^) называ- ется полной, если для любой функции ф(Т(Аг^^)) из того, что А/[ф(Т(Аг(ЛГЬ)] = 0 VveO, следует ф(г) = 0 почти на- верное на всем множестве значений статистики t = Т(Х^). 100
Роль полных достаточных статистик вытекает из сле- дующей теоремы. Теорема 5.5. Если существует полная достаточная статистика, то всякая функция от неё является оптималь- ной оценкой своего математического ожидания. Доказательство. Пусть Т(Х^) — полная достаточная статистика и Н(Т) — измеримая функция от Т. Обозначим МН(Т) = т(у) и покажем, что Н(Т) — единственная функция от Т, удовлетворяющая этому равенству при любом v. Действительно, пусть U(T) — любая иная статистика, такая, что MU(Т) = t(v) . Но из равенства M[H(T)-U(T)] = Q V v в силу полноты статистики Т получаем Н(Т) = U(T) (п. н.). Из теоремы 5.4 следует, что оптимальную оценку пара- метрической функции t(v) надо искать в классе функций, за- висящих от Т. Но Н(Т) — единственная функция, несмещен- но оценивающая t(v) ; следовательно, она и является искомой оптимальной оценкой параметрической функции t(v) . В качестве примера рассмотрим равномерное на [0,0] распределение. Нетрудно показать, что Т = Х^у (N-ая по- рядковая статистика выборки Х^) достаточна относительно параметра 0, при этом (см. (1.7)) 0' Если Nf <p(z)/7V"1 dt Mp(7’) = —5----------= 0, V0>O, 0 то, дифференцируя no 0 тождество 0 j V0>o, 0 101
получим <р(0) 0 Л 1 г 0 , V 0 > 0, откуда ср (0) = 0, V 0 > О, т. е. Т = — полная достаточная статистика. Далее N J tN dt МТ = —5—-----= —, qn 2V + 1 т. е. (W + l)7"/N — несмещенная оптимальная оценка для 0. Читателю будет полезно найти дисперсию этой оценки. Заме- тим, что из приведенного примера следует, что полная доста- точная статистика не обязательно является несмещенной и иногда нуждается в коррекции. §5.2. Методы точечного оценивания неслучайного параметра Перейдем к методам получения точечных оценок параметров распределений случайных величин. Эти методы основаны обычно на определенных эвристических предпосылках, при- емлемость которых проверяется затем на основе анализа свойств получаемых оценок. Метод моментов. Этот метод основан на существовании обычно простой функциональной зависимости между пара- метрами распределения случайной величины её моментами, что позволяет выражать оценки параметров распределений оценками их моментов. Пусть существует конечный начальный момент у-го по- рядка случайной величины X Vj=M(Xi)=\*jdFx(x). Напомним, что существование момента Цу влечет за собой существование всех начальных моментов более низкого по- рядка (Зцу =>3|1у_|). Читатель также легко убедится, что при существовании конечного начального момента Ц2у со“ 102
стоятельной несмещенной оценкой момента Цу служит вы- борочным начальный момент j-го порядка 1 N вычисляемый по простой выборке с. в. X Пусть распределение случайной величины X имеет из- вестный аналитический вид с (неизвестным) векторным пара- метром v = (v],...,vr) и с конечным моментом Ц2г- Тогда, составляя систему уравнений М/ = Hy(vb...,vr), 7 = 1, г (5.17) можно попытаться разрешить её относительно {vr- • Пусть между {v/jf-j и существует взаимно од- нозначное и взаимно непрерывное соответствие; тогда, раз- решая (5.17) относительно компонент vz, получим в качест- ве их оценок V/ =v/(p1,...,jlr) / = 1,г; причем vz() — непрерывные функции. Известно, что в этом случае при ~ вер. ; И/ v >нр j = ^r имеет место сходимость >V, =V,(gi,.1 = А->оо т. е. оценка Т = v параметра v при сделанных предположени- ях состоятельна. Получаемые этим методом моментов оцен- ки параметра часто обладают асимптотической несмещенно- стью, причем введением соответствующих поправок (коррек- тирующих множителей) можно добиться их несмещенности. Эффективность и асимптотическая эффективность оценок, получаемых этим методом, не гарантируется даже в тех слу- чаях, когда оценки, отвечающие этим требованиям, в принци- пе существуют. Тем не менее, метод моментов часто исполь- зуется ввиду простоты его реализации. ЮЗ
Метод ч2. В этом методе используется уже знакомая читателю (см. (4.3)) статистика = t {ni'Npi)2 , (5.18) /=1 KPi которая, как было показано в гл. 4, при N -> оо сходится по распределению к случайной величине с распределением х2-1 с к -1 числом степеней свободы. Вероятности р,- в (5.18) зависят от неизвестного пара- метра v = (vi,..., vr): Pi = Pi(Vl,...,Vr) и, следовательно, ^=x|(vb...,vr). 2 г Метод х сводится к подбору таких значений {v, }i=।, при ко- торых JQy, как мера несоответствия выборки Х^ теоретиче- скому распределению F(x; и), достигает минимума, т. е. Т = v = arg min , v в частности, когда функциональный вид распределения X позволяет это сделать, оценка {vr-}/=i находится из систе- мы уравнений: Получив {v/}/=], можно проверить гипотезу об истинности распределения F(x;v) с помощью описанного выше крите- рия согласия х2 • Метод х2 в большом числе случаев дает состоятельные несмещенные и асимптотически эффективные оценки. Однако ему свойственны аналитические трудности. Метод наибольшего правдоподобия (МНП). Метод наибольшего правдоподобия занимает центральное место сре- ди методов параметрического оценивания. 104
Идея МНП состоит в том, что в качестве оценки неизвест- ного параметра v распределения случайной величины X выби- рается то его значение Удг (называемое МНП-ог/енком), кото- рое для полученного значения выборки Х^^ = х^ соответ- ствует наибольшему значению функции правдоподобия Z(x^\v). При дискретном распределении случайной величины X это означает выбор в качестве оценки параметра v того его значения, при котором полученное значение х^ выборки наиболее вероятно; если случайная величина X распределена абсолютно непрерывно, то оценкой параметра служит его значение, при котором наибольшей величины дос- тигает плотность распределения выборки (при Х^ = х^ ). Итак = vN = arg max L(x(;v); v). v Такой подход к оценке неизвестного параметра распределе- ния носит, в определенном смысле, эвристический харак- тер. Тем не менее, как будет показано ниже, он дает хоро- шие результаты. Поиск глобального максимума Z,(x^;v) не всегда прост. Однако во многих случаях он сводится к решению сис- темы уравнений: 5vz ИЛИ glnZ:.(x< );v? = 0, / = (5.19) Sv,- Перейдем к изучению свойств МНП-оценок. Покажем справедливость следующих утверждений (ограничившись при этом случаем скалярного параметра; распространение результата на случай векторного параметра не связано с принципиальными трудностями). 105
Утверждение I. Если существует эффективная оцен- ка Vy параметра v, то МНП-оценка этого параметра v существует и равна v . Итак, пусть выполняются условия существования нижней границы дисперсии оценки v и — эффективная оценка, для которой, следовательно, д In L , z 4Z~o \ zf —— = k(y)(vvN-v). (5.20) OV С другой стороны, v у есть корень уравнения — = 0, (5.21) причем по смыслу рассматриваемого метода нас интересуют лишь корни этого уравнения, зависящие от выборки х^. Поэтому =vy есть единственный корень (5.21). Не- трудно убедиться, что v у доставляет максимум Цх^; v): 521п£ .a*(v) . ---r- = (v/v-v)—-----fc(v), Sv2 5v но .2 A = -k(y) < 0 ’ a2in£ dv2 = -М 51n£ dv М = -*(v/v)<0> отсюда a2ln£ < Sv2 т. e. v# —точка максимума. Утверждение 2. Если Т — статистика, достаточная относительно параметра v, то МНП-оценка v^ есть функция от Т. Для доказательства этого утверждения используем кри- терий факторизации L(x^n\ v) = g(v,r)r(x^jV)), 106
из которого для реализаций оценки vy и статистики Т получаем следующее выражение: vд/ = arg max L(x^N>; v) = arg max g(v, t) = v|/(r), V V t. e. vN = . Докажем теперь следующую теорему о состоятельности, асимптотической нормальности и асимптотической эффек- тивности МНП-оценок. Теорема 5.6. Пусть плотность распределения fx (х; v) случайной величины Xдля Vve 0 удовлетворяет условиям: а) существуют производные dln/^(jr;v) 521п/^(л;у) d3ln/^(*;v) 5v ’ av2 ’ av3 б) допустимо двукратное дифференцирование под зна- ком интеграла в выражениях JZy(x;v)^= J 7—ЛгО;v) ; dv J dv —7 ff —/y(x;v)<fr; av2 av2 A dinZx(*;v) dv < oo d3 1п/х(*;у) av3 MH(x) = C<«> <H(x), (здесь vq — истинное значение параметра v, а величина С не зависит от v)\ г) уравнение (5.19) имеет единственное решение. При этих условиях МНП-оценка состоятельна, асим- птотически нормальна и асимптотически эффективна. Для доказательства этих утверждений сделаем несколько замечаний. Легко видеть, что условия а) и 6) распросграняют- 107
(1^} N ся на функцию правдоподобия L(x' ,v) = П fx(xbvV За- (=1 метим, также, что первое соотношение в условии в) (ввиду ус- ловия 5)) можно записать в виде d2ln/x(x;v) 61п/г(х;у) dv = -к2 >-00. м = -м Sv2 (сравните с (5.11)). Пусть х, — значение i- го элемента выборки Обо- значим vo истинное значение v и представим 91n/^(x;v)/9v разложением Тейлора относительно точки vg : dlnZx(xt;v) _(dln/yCxpV) dv dv f 2 8 In/xCxpV) (v-v0) ----------— Ло Sv +^(v-y0)2 ( i A d ln/x(xt;v) d v3 * k /V =Vg+Т|/(v-Vg ) A + /V0 Ho ( a \ u 1 d31П/Л(х;у) dv3 , поэтому d\nfx(xt\v) dv dlnZx(*pv) dv \ ( 2 z 4 5 ln/%(x ;v) + (v-v0) ------------- >v0 I dv A + >v0 +^(у-у0)20),Я(х,), где | cdz| < 1. Переходя к функции правдоподобия L(x^; v), запишем следующее дифференциальное уравнение 1£]!LL = Bo+(v-vo)B1 + 1(v-vo)2coB2, ' (5.22) N dv 2 108
где Во, Bj, Б2 и со можно выразить следующим образом: <ain./>(x,;v) 1 ! Sv I v /v0 1 N N /=1 ( 2 A 1 Д s In/x^v) £i = ~L ------9---- M dv2 J, 1 N B2=~Y H(Xi), H i=\ Ho (din fv(x ;v) 'l M ----jx \ , =0, I 5v ) |co|<l. и, 3 силу закона больших чисел в форме Хинчина, при N -> оо получим Bq —Вер- ->0 , В] —В-- >-к2 , В2 —вер >С < ОО . Из (5.22) непосредственно видно, что знак производ- ной в левой части этого равенства вблизи точки v=v0 при достаточно большом N определяется знаком второго слагаемого правой части равенства. Действительно, пусть величина 8 = v-v0>0 положи- тельная и ограниченная сверху: |8|< —-------. 2(1 + С) (5.23) Рассмотрим события ло={|£о1<82}, л2 = {в2<2С} и зададим произвольное в > 0. Справедливо неравенство Р(Л0Л J2) = 1 - Р( Ло Л2) > 1 - Р(Л0) - Р(Ау) - р(а2). Из обнаруженной выше сходимости Bq, By, и В2 следует 3Nq-.VN>Nq P(Aq)<z/3, Р(Л1)<в/3, Р(72)<в/3 и Р( Aq Ау А2) > 1 - в , т. е. с вероятностью, превышающей 1 - в , одновременно выполняются условия: Bq 4--8^<d52 <б2(1 + С), 8В! <-—<0, 2 109
или |82?i| >-Ък~/2. В силу ограничения (5.23) 5<к2/(2+2С), поэтому 3lnL/3v<0. Пусть теперь величина v-v0=8<0 от- рицательная (при сохранении неравенства (5.23)). С вероятностью, превышающей 1-е выполняется неравенство ЬВу>-Ьк /2>0, и,поскольку -8>£2/(2+2С),то Bq 4- — 8 2<о/?2 и 2 2 8^ > <32(1 + С), т. е. 31nL/5v>0. Значит, в силу непрерывности SlnZ/Sv (су- ществования 5 2 In £ / 5 v 2) свероятностью, превышающей 1 -8, единственный корень уравнения (5.19), т. е. МНП-оценка vц , отличается от v0 не более, чем на 8, причем е и |81 могут быть сколь угодно малыми, если N достаточно велико; иначе го- воря при P{|vyv-v0|<8}>l-e , т.е. vN—вер- >vQ, это и означает состоятельность МНП-оценки v N параметра v. Далее, поскольку есть решение уравнения ^ = 0. dv то Во Vyv - V0 =----—-------------• -В] — (Vдг -vo)coB2 2 Числитель Bq представляет собой сумму By N одинаково распределенных независимых случайных величин. Из цен- тральной предельной теоремы следует sn-msn _ nb0 Jn b0 d >Vr_ %(0;]); 7^7 Лр k отсюда Bo— У->00 Справедлива лемма: если WN при N ->оо D вер t/дг—%(ти;ст ), >а, а>0 (а — неслучайная ве- личина), то >%(ти/а;сг2/а2). N-»oo 110
вер. _ вер. Поэтому, ВВИДУ В1 , (v n-Vq)oB2/2->0, получим (уд,-у0) ———>^6 5V N—>оо ИЛИ Уд, —>ve %| VO; —Ц- I, (5.24) Д'-*00 V Nkz ) что означает асимптотическую нормальность МНП-оценки v дг параметра v. Кроме того, из (5.24) непосредственно вид- но, что при N -> оо ~ 1 1 £>Уд, -> у =------------у, МГ M(8\nL/dvy т. е. Уд/ — асимптотически эффективная оценка v (сравни- те с (5.11)). Отметим еще одну особенность МНП-оценки — так на- зываемое свойство инвариантности. Пусть s = cp(v) — вза- имно однозначная функция оцениваемого параметра v и при у = удг £(x^A^;v) имеет глобальный максимум, т. е. Уд/ — МНП-оценка v. Тогда V v* Уд/ L(x(N\ у)< Z(x^h Уд/). Подставляя в £(x^^;v) v = (p-,(s), получим Ls(x^,s). Ясно, что Vs*<p(vy) Ls(x(N\s)<Ls(x(N\sn), т. е. ?дг =ф(Уд/) — МНП-оценка s. Таким образом, при ука- занных выше условиях МНП-оценка функции параметра рас- пределения равна функции от МНП-оценки этого параметра. §5.3. Оценка случайного параметра До сих пор предполагалось, что оцениваемый параметр рас- пределения является неизвестной неслучайной величиной. Возможны, однако, модели, в которых параметр распределе- ния сам является (возможно, векторной) случайной величиной 111
(обозначим, её &), принимая значения из 0 при известной функции распределения G(v) = P{&<v}. Предполагается, однако, что в процессе получения реализации выборки х(Л значение v фиксировано и может варьироваться согласно G(y) лишь при переходе от выборки к выборке (иначе вы- борки перестали бы быть простыми). В качестве оценки параметра & в этом случае обычно используют его апостериорное математическое ожидание: TN = М($\х(1'г>)= \vdG(v\x{N}), где dG(y\x(N}) = £(x('V) |v)rfG(v) J £(х(ЛГ) \v)dG(y)' £(x^V) |v) —условная функция правдоподобия, [ g(y)dv, dG(v) = '{ Р(У), для непрерывного распределения v с плотностью g(v); для дискретного распределения у. Преимущество такой оценки заключается в том, что средний квадрат модуля отклонения от нее истинного значения пара- метра v достигает наименьшего значения по сравнению с дру- гими оценками (для каждого и, следовательно, в сред- нем по выборке). Действительно, пусть yN=y(x^) произвольная оцен- ка параметра ц не совпадающая с оценкой Тц = Гдг(х^) на множестве значений х^) ненулевой меры. Проверив соотношения =М [(J - ГЛ + TN - v-N )'(& - TN + TN - vN) I x(N}) = = M[(^-^)'(<9-^)|x</V)] + 2(rA/-?)'M[(J-^)|x('V)]+ + (TN - v)'{TN -v) > M[(.9- TN )'(J - )| x(N} ], (5.25) читатель убедится в справедливости сказанного. 112
ГЛАВА 6 ИНТЕРВАЛЬНОЕ ПАРАМЕТРИЧЕСКОЕ ОЦЕНИВАНИЕ До сих пор мы стремились оценивать неизвестный параметр v числом или вектором, т. е. точкой в пространстве 0 его значе- ний. При этом оценка неслучайного параметра представляла собой случайную величину (вектор). Однако более информативным иногда является оценива- ние параметра случайным интервалом его значений Ду, в ко- тором параметр оказывается лежащим с заданной вероятно- стью у (или с вероятностью, не меньшей у). Такой интервал называется доверительным, а вероятность у — доверительной вероятностью', Ду и у связаны соотношениями Р{уеДу} = у или Р{уеДу}>у. (6.1) Оценивание параметра с помощью доверительного интервала называется интервальным параметрическим оцениванием. Задача интервального параметрического оценивания мо- жет решаться как для случая скалярного, так и векторного па- раметра. Здесь мы ограничимся первым из них, полагая, что параметр v — скалярная неслучайная величина. Простейший способ интервального оценивания основан на использовании неравенства Чебышева. Пусть Гу несме- щенная оценка параметра v, тогда Гу., P{|-7>-v|<6}>1----- Е (дисперсия предполагается существующей и известной). 8—116
Обозначая Ду=[Т\г-8, Т\г+8], получаем второе соот- ношение из (6.1). В ряде случаев могут быть предложены бо- лее точные интервальные оценки, методы поиска которых бу- дут рассмотрены ниже. Примем прежние обозначения: X — исследуемая случай- ная величина, Х^ — её простая выборка, — реализа- ция выборки. Обычный подход к решению задач интерваль- ного оценивания состоит в нахождении статистики £ v), распределение которой не зависит от v и ко- торая при фиксированном является строго монотон- ной функцией v. Если удается найти распределение то интервальное оценивание v сводится к вычислению нижней и верхней границ отрезка [£>,£>] и, соответственно, Ду = [v, v], удовлетворяющих равенству P{^<l} = P{v<v<v} = y (6.2) (здесь предполагается, что £=£(x^;v) — монотонно воз- растающая функция v; если£ = £(х^\ v) — монотонно убы- вает, то v и v меняются местами). Неоднозначность выбора , £, и, следовательно, v, v, удовлетворяющих (6.2), устраняется минимизацией длины до- верительного интервала Ду, что соответствует максимальной локализации оцениваемого параметра при фиксированной до- верительной вероятности у. §6.1. Интервальное оценивание параметров нормального распределения Пусть Хе %(тл;ст2) и задача состоит в интервальном оценивании параметров т и и (когда неизвестен один из них или оба). Для этого необходимо рассмотреть ряд используемых с этой целью статистик. 114
а) Статистика U = U(x^). Для уже известного нам выборочного среднего - 1 N Н /=1 имеем Хе N(m; ст2/?/). Далее получим A Y - т I— и= —~ylNeW(0-,\). ст (6.3) б) Статистика IV = ^Г(х(^). Нетрудно убедиться, что статистика а 1 N 7 W= — ^{Xi-m)2 (6.4) ст 2 /=1 распределена по закону %2 с N степенями свободы (We %2(/V)), т. е. имеет плотностью распределения f 2 (•) Хдг (см. (4.4)). Это следует из того, что правая часть (6.4) есть сумма квадратов независимых случайных величин Yi =(Xj -т)/ъ, каждая из которых имеет стандартное нор- мальное распределение Yj е %(0; 1). в) Статистика R = R(x^). Эта статистика определя- ется равенством А 1 У _ R= — Z (Xt-X)2. (6.5) ст2 »=1 Найдем её распределение. Нетрудно проверить равенство * , 2 (* г 1ГN vN . -, = Z Y, Zry +- £1/ = £У,2-ЛТ2 /=1 JV|j=i J N{i=i ) (=1 - 1 y где Yt=(Xi-m)ln, %(0;l), У = — %(0;l/^. X <=1 8* 115
Преобразуем вектор Y = (У],..., Уд/)', используя ортого- нальную матрицу вида fi/Vw... 1/77П ••• b2N . в= *21 J>N1 bNN J Получим Z = В У 6 %(0; 1) и N N n!=iz,2. /=1 f=1 1 У /------- Кроме того, Z| = —j= £ Yt=4N Y или VW /=1 R=X Y^-NY2 = ^Z/, i=\ i=2 где Zj независимы и имеют нормальное стандартное распре- деление. Поэтому R имеет распределение х2 с ЛГ-1 степе- нью свободы: Ле x2(W“l)- г) Статистика G = G(x^N^). Покажем независимость статистик X и R, Для этого рассмотрим вектор V = (X -X,..Хдг -X X), который, будучи линейным пре- образованием нормального вектора Х^\ имеет нормальное распределение. С другой стороны, Xt-X и X для любого i независимы. Действительно, для их корреляционного момен- та получим R(Xj-X)X = М[(Х-ХКХ -т)] = Некоррелированность нормально распределенных слу- чайных величин X и Xj-X означает их независимость, а 116
_ /V-l _ поскольку X^-X = - £ (Х^-Х), то тем самым доказыва- /=1 ется независимость X и вектора (Xj-X,.... XN-X) (по- скольку для нормального распределения системы случайных величин их попарная независимость влечет за собой их неза- висимость в совокупности). Полученный результат приводит к независимости статистик X и R (как функций от незави- симых случайных величин). Используем этот факт для образования статистики U {X-m)^N (X-m)jN U = , = . г • . =---. ---. (о.о) r zt Л* V У -1 д/ _ 1 (S2 — выборочная дисперсия случайной величины Л). Известно [6], что случайная величина Т = y/ Jz/n , гд$ Ye %(0;1), Zex2(«), Y и Z независимы, имеет распреде- ление Стьюдента с п степенями свободы, обладающее плотностью /£и)(0 = \(и+1)/2 п -co<t<co. (6.7) Следовательно, статистика G имеет распределение Стьюдента сУ-1 степенями свободы: Ge St(2V-l). Перейдем к задачам интервального оценивания парамет- ров m и с>2 нормального распределения. Оценка m при известном у 2. Используем статистику U (см. (6.3)). Она отвечает общим требованиям к статистике, ис- пользуемой для интервального оценивания: ее зависимость от m монотонна, а распределение не зависит от значения т. Вы- берем числа tq и U2 из условия Р{щ <U<u2}=y, (6.8) 117
где у — заданная доверительная вероятность. Перепишем (6.8) с учетом определения (6.3) следующим образом: Г X - т г-; | Р1щ --------< «2 г = У» откуда Очевидно, что выбор щ и «2 в (6-8) неоднозначен. Естест- венно наложить на этот выбор дополнительное условие, со- стоящее в минимизации размера доверительного интервала Ду =[тИ1, т- е. величины т2 ~ т\ - (м2 “ М1) ’ V N Распределение статистики U симметрично относитель- но нуля, поэтому условия U2 -W] =min и (6.8) выполняют- ся, если W] = -«2 = -й и 1 “ 2 -= Ге"“ /2<Уи = Ф*(й)-Ф*(-й) = 2Ф*(м)-1 = у, л/2я т. е. й = arg Ф ((1 + у)/2). Напомним, что Ф*(г) = -Д=г f e~x2,1dx V27T Joo — функция стандартного нормального распределения. Теперь и точно определено и X - <т< X - = Р {шт < т < ту } = у , [ y/N JN J 2аи 2a _♦( 1 + y ) ",2’т|='77=77а18ф Полученные равенства позволяют находить доверительный интервал (Ду) при заданной доверительной вероятности (у) или, наоборот, доверительную вероятность при заданном раз- мере доверительного интервала. 118
Подчеркнем на рассматриваемой задаче специфику интервального оценивания неизвестного (неслучайного) параметра: мы ищем случайный интервал, который с задан- ной вероятностью «накрывает» оцениваемый параметр. Слу- чайность интервала в рассмотренной задаче состоит в случай- ном расположении его на числовой оси, определяемом значе- нием статистики X. В задачах, рассматриваемых ниже, случайным может быть и размер доверительного интервала. 2 Оценка у при известном т. Для решения этой задачи подходящей статистикой, как нетрудно видеть, является W (см. выражение (6.4)). Выберем числа vq и ^2 из условия P{wi < IV < и^} = w2 f I N _ _ 1 У _ fl = J £2 —£Qf,-w)2<cr2<— X(xi~mf\ = y „1 Ц^г ,=i wj /=1 |J (6.9) Обозначая Ду=[ст2, ст2]’ПОЛУЧИМ 'l N lAXf-m)1, 2 2 CT2-CT1 = J______1 ’”1 w2 № (6.10) Из (6.9) и (6.10) следует, что, при заданной вероятности у на- до, строго говоря, выбирать и>] и W2 так> чт°бы одновремен- но с (6.9) выполнялось условие —-----— = min. (6.11) Поиск таких W] и , однако, затруднителен и обычно вме- сто (6.11) на wj и W2 налагается условие 00 J/v2 (w)rfw= J f 2 (w)dw. (6.12) 0 Z* w2 Z* Такой выбор wj и W2 приводит к доверительному интервалу Ду, размер которого близок к минимальному при больших N 119
2 (это объясняется сходимостью распределения % к нормаль- ному и в связи с этим его «симметризацией»). Вычисление интегралов (6.9) и (6.12) выполняется с помощью таблиц и компьютера. Оценка т при неизвестном у2. Для этого случая ис- пользуем статистику G (см. (6.6), (6.7)). Далее действуем стандартно. Выбираем gj и g2 из условия ' g2 /v n P{gl<G<g2} = / /^’l)(g)rfg = Y, gi которое записывается в виде В силу одномодальности и симметричности распределения Стьюдента относительно нулевого математического ожида- ния, получаем, что Ду =[gj, g2 ] имеет минимальный размер при gl = -g2 = -g , откуда J (g) dg = p[x - g < m < X + g ^3 -g l| dN VA4 = P{m\ < w < w2} = у ; (6.13) где =~m2 =-g—j^, у/ N m2-m}= 2g , g находится из (6.13) с помощью таблицы распределения Стьюдента с N -1 степенями свободы. 120
2 Оценка у при неизвестном т. Здесь используем ста- тистику R (см. (6.5)). Получаем [ 1 N _ „ „ . N _ „|1 Р -Z (Х,-Х)2<<т2<-I (Xt-X)2> = Y, 1['2 '=1 Г1 /=1 lj где Г] и т*2 определяется условиями П z f/(,A'-,)(r)c/r = ]/2y-,)(r)rfr, О X (здесь снова условие минимизации размера интервала Ду выполняется приближенно). §6.2. Интервальное параметрическое оценивание при больших выборках Задачи интервального оценивания параметров решались на- ми в предположении нормальности распределения случай- ной величины X. Более общие результаты могут быть полу- чены для больших выборок, когда допустимо использование центральной предельной теоремы. Пусть £(а.^Л^;у) — функция правдоподобия, v — оце- ниваемый скалярный параметр. Составим статистику Hn=Hn(X{N}',v) = dlnL dlnL М--- dv----------dv N z <Zln/(X,.;v) rfln/U^v) dv dv Л/ 2. ------ d v 121
Предположим, что функция правдоподобия удовлетворя- ет условиям регулярности, рассмотренным в §5.1, приводя- щим к равенствам М rfln£ ) 0, I dv I = -м <721п£ dv2 у M([d In Lid v] )<oo). Тогда выраже- (предполагается, что ниедля Ядг можно преобразовать к следующему виду: rfln/(X,;v) dv где КГ f 2 A Д d2\nf(Xt.v) m------------------ /=1 dv I rfv2 J rfln/(Xpv) dv ky[N к2 =-M d2\nfx(x,v) dv2 = const. HN^ , = 1 м dv , N z / = 1 Следовательно — нормированная сумма независимых одинаково распределенных случайных величин; применяя к ней центральную предельную теорему, получим HN -2-+Не %(0;1). N—>00 Когда для каждого фиксированного значения выборки x(N^ величина — монотонная (например, монотонно возрас- тающая) функция v, имеют место соотношения y = P{h<HN <A}*P{A<#<A} = P{v<v<V}, которые позволяют осуществлять приближенное интерваль- ное оценивание параметра v. 122
Пример. Рассмотрим процедуру интервального оценива- ния параметра а распределения Пуассона Хе<Ро(а); Р(Х = х) = р(х) = — е~а (х = 0,1, 2,...) х! при большой выборке Х^ - (Х\, Х2, •••, Х^). Функция правдоподобия для этого случая имеет вид L(x^;a) = e-Na 1 * — У N ,ti Выразив логарифм от функции правдоподобия N N \ а) = -Na+ £ х, In a - £ In xz! /=1 /=1 и дважды продифференцировав последнее выражение по па- раметру а, получим d\nL 1 Л N- . —^ = -N + -Y,Xi= — {X-a), da a /-j а d2lnL 1 Д —Г=~~^Х‘‘ da а /=1 Вычислим математическое ожидание от производных JlnZ N - М----= — (MX - а) = О da а (так как MX, = а), с/2 In A 1 /Л -М--------- da2 a2 U=1 Следовательно, - -а^х~а\ П7 Na = -^М Ех,- э а 123
Доверительный интервал = [ар с^] для заданного у нахо- дим, полагая у = Р{/7<Я<й} = Ф*(й)-Ф*(-й) = 2Ф*(й)-1, Г 1 + У л = argФ I I, из условий [X(X-ai) = h, [Х(х-а2) = -ь, N «I V «2 т. е. из решения квадратного уравнения —2 (Х-а)2= —. N 124
ГЛАВА 7 НЕПАРАМЕТРИЧЕСКОЕ ОЦЕНИВАНИЕ В этой главе рассматриваются методы оценивания распре- делений случайных величин в тех случаях, когда тип этих распределений априори неизвестен. При этом к классу рас- пределений могут предъявляться лишь самые общие требо- вания: одномерность случайной величины, непрерывность функции распределения, существование функции плотно- сти распределения и т. п. (эти требования специально ого- вариваются). §7.1. Оценивание функции распределения В § 1.2 было показано, что состоятельной оценкой функции распределения скалярной случайной величины служит эмпи- рическая функция распределения (1.1). Эта оценка является несмещенной и эффективной. Действительно, оценка функции распределения Fy(x) случайной величины X с использованием эмпирической функции распределения Fy(x) полученной по простой выборке представляет собой, по существу, оценку па- раметра р в биномиальном распределении числа событий А = {Х < х} в ^опытах при р = Р{X < х} = F% (х) . С другой стороны, по построению, эта функция для каждого х равна где — число элементов выборки Х^ меньших х, т. е. представляет собой частоту события А. Нетрудно убедиться (читатель может это сделать само- стоятельно), что WA = Fy (х) является несмещенной и эф- фективной оценкой р = Fy (х).
В практических задачах эмпирическая функции распре- деления в качестве оценки функции распределения использу- ется сравнительно редко. Так, для дискретной случайной ве- личины X оценкой её распределения обычно служат оценки вероятностей её значений рх = Р{Х = х^}, g X, т. е. частоты событий {X = х^} где — число опытов (из 7V), в которых случайная вели- чина X приняла значение х^. Эти оценки также являются состоятельными, несмещенными и эффективными. Такой подход к оцениванию распределения дискретной случайной величины применяется и тогда, когда она является случай- ным вектором. При абсолютно непрерывном распределении случайных величин используются оценки функций плотности распреде- ления, методы получения которых рассмотрены ниже. §7.2. Оценивание функции плотности распределения скалярной случайной величины. Гистограмма В этом параграфе рассматривается задача оценивания суще- ствующей , но неизвестной функции плотности распределе- ния fx (х) скалярной случайной величины X, Представлен- ной реализацией х^> её простой выборки Оценивание функции fx (х) может иметь двоякий характер: оценивание её «в целом», т. е. получение графика, выражающего её общий вид, или локальное оценивание, преследующее цель оценки этой функции в некоторой фик- сированной точке х. Первый подход необходим в тех случаях, когда полу- чаемые оценки функции плотности распределения служат, например, для построения решающих правил в задачах вы- бора или проверки статистических гипотез, второй — в зада- 126
чах принятия решений в схемах уже построенных решающих правил (например, при вычислении оценки значения функ- ции отношения правдоподобия в фиксированной точке). Оценка функции плотности распределения «в целом» (именуемая эмпирической функцией плотности распределе- ния или гистограммой) строится следующим образом. Обозначим L «размах варьирования», т. е. интервал числовой оси, содержащий все множество значений случайной величины X и являющийся конечным (считаем, что практически событие Х<£ L имеет нулевую вероятность). Иначе говоря, предполагается, что [x(lh где хц) и Х(дг) —крайние точки реализации вариационного ряда выборки Х^, Разобьем интервал L на к непересекающихся отрезков (разрядов, «карманов») {A, , каждый длиной //: к к , и А/=А, Z/z=|Z|. /=1 /=1 Положим, как это обычно делается, что все разряды имеют одинаковую длину, т. е. | А,| = Z, =1. Построим ступенчатую функцию (гистограмму) /у (*)» принимающую в каждом разряде А, постоянное значение: ~ V. для VxgA,- fN(x) = -± (7.1) Nl где Nj — число элементов , лежащих в А,. Пусть функция плотности распределения конечна и не- прерывна. Обозначая И7; частоту события JfeA,, вероят- ность которого равна Pi = РНе Дt} = J fx (х) dx = lfx (x*) 127
(х/ е АД для математического ожидания и дисперсии значения гистограммы при хе А, получим выражения: ~ (w • А * Л/(/л'(х)) = Л/М-|=/(х,). < / ) / ч (72) D(Zv(x)) =4^1= MzElL < A. max fx (x) -+ 0 I ) ft]1 Nl N-*<x> и, следовательно, fN (x) Bep' > fx (x*). ,V->oo Таким образом, для хе А, /д(х) является несмещенной и состоятельной оценкой значения /у(х*) Для некоторого х* е А,. Гистограмму /д'(х) можно сделать асимптотически несмещенной состоятельной оценкой функции плотности рас- пределения fx (х) для всех х. Для этого следует при N -> ао устремлять все I к нулю, т. е. выполнять условие: к -» ао . Для сохранения при этом условия (7.2), гарантирующего состоя- тельность /дг(х) как оценки, необходимо, однако, потребо- вать, чтобы для V/ при N -+ оо выполнялось предельное со- отношение Nlj . Перейдем теперь к локальному оцениванию функции плотности распределения, при котором ставится задача ее оценки по выборке х^ для некоторого фиксированного зна- чения х. Начнем с простого подхода к решению этой задачи. Пусть А/7=[х-Л, х + Л), где h — некоторое положи- тельное число. Исходя из определения функции плотности распределения как производной функции распределения, ес- тественно её оценку выразить через эмпирическую функцию распределения FN (х) в виде A (X) = [Fn (х+ h) - Fn (х- Л)]« J- A h). (7.3) 128
Как и при построении гистограммы, для асимптотической не- смещенности оценки (7.3) необходимо выполнять требование: h = h(N) -> О при условии N -> оо , Nh(N) -> оо . Рассмотрим, вопрос локального оценивания функции плотности распределения с более общих позиций. Для удобства анализа придадим (7.3) иную форму: 1 (x+h x-h f| 1 x+h Zv« = - \dFN{t}~ \dFN(tt = - \dFN(t) = Zfl «Л Zft V It 4 —00 — 00 у Х — П 4? (7’4) L h 'J где Ф) = (г’ |Z|~1; (7.5) Il 0, |z|>l. Полученную оценку можно представить в виде ~ 1 к (Y-ХЛ /y(x) = 4z4—-L . (7.6) Nh /=] \ h -) При задании £(z) в виде (7.5) сумма в последнем равенстве равна числу элементов выборки X^N\ лежащих в отрезке Д^. Можно, однако, выбрать иной вид функции k(z) (при со- блюдении ряда указанных ниже условий). Эта функция в об- щем случае выражает взвешенную относительную частоту по- падания с. в. X в отрезок Л/, и носит название весовой функции в описываемом ниже методе локальной оценки функции плот- ности распределения (называемом методом Парзена). Итак, задача сводится к определению свойств функции k(z) и числа h в (7.6), исходя из требований к оценке функции плотности распределения. Некоторые ограничения на вид функций k(z) можно наложить сразу, пользуясь тем, что по очевидным соображениям £(z) должна обладать всеми свой- ствами плотности вероятности: fc(z)>0, jk(z)dz = l. (7.7) — ОО 9—116 129
Другие ограничения на k(z) будут вытекать из требований на свойства оценки /у(х). Потребуем сначала, чтобы эта оценка была асимптотиче- ски несмещенной, т. е. чтобы для V х выполнялось условие lim Л/(/у(х)) = /х(х). .V~>OO Это равенство оказывается справедливым при непрерывности функции fx (х) (что здесь предполагается) и если k(z) удов- летворяет условиям (7.7), а также следующим ограничениям: sup k(z) < оо, (7.8) - 00<Z<00 lim zk(z) = 09 (7.9) И->ао при этом h(N) — последовательность положительных вели- чин, такая, что lim Л(У) = О. (7.10) ДГ—>00 Докажем это утверждение. В силу того, что исходная выборка простая, имеем м(/ы (х))=i f л/Ц 1!= N z=i h /J |_Л h yj 4-00 = J -00 Л(Ю*{л(ЛГ) Yx^dt‘ Модуль разности у(х)) -/г(х) можно представить в виде IWHx))V%(x)l = +°0 1 ( , \ f [/%(*-0-/%(*)]—— к\ \dt Л Х h(N) [h(N) J Выберем 8 > 0 и разобьем область интегрирования в по- следнем равенстве на две: {t: 111 < 8} и {t: 111 >8} Тогда |M(7v(x))-/x(x)| < max |/x(*-')-AM I x f 1 J ' • I ______________________ |,|i8 {h(V) t . It , —------------k\-- \dt + ,6 t h(N) 1 ( t A + f ——k \d> 130
Оценим каждый из интегралов, входящих в последнее вы- ражение. Первый интеграл: И<з 1 h(N) к\—-— |Л= fk(z)dz 4-ао < J/r(z)dz = l, —00 Третий интеграл: J М>5 1 h(N) fk(z)dz —> О, |z|>8/A(tf) jV->0° Второй интеграл: /у(х-0 t ,( t V —------------------ ldt = t h(N) \h(N) ) fx(x-h(N)z) = J —-----------------zk(z) dz < z|>5/Л(^) - , ,, u f fx{x-h(N)-.) sup (z«(z)} j —-------------dz< \z\>Mh(N) \z\>Mh(N) : h(N) r iv u —— sup {zk(z)} 6 |z|>5/A(W) | • f/x(x-A(y)z)JZ< |z|>5/AGV) < 5 sup {zk(z)j |z|>8//r(JV) Следовательно, \M(JN(x))-fx(x)\ < max \ fx(x-t)~fy(x)| + |r|<8 + -^-— sup {zfc(z)} + /x(x) \k(z)dz. 5 |z|>8/h(N) \z\>8/h(N) Таким образом, для V e , за счет выбора 8 и N > Nq(e), при выполнении условий (7.8) - (7.10), правая часть последнего неравенства может быть сделана меньше £. А это и означает г 131
асимптотическую несмещенность /у(х) во всех точках не- прерывности функции fx (х), т. е. для V х, если она не- прерывна. ~ Получим теперь условия состоятельности оценки /дг(х). Для этого вычислим сначала дисперсию /дг (х). D(Mx)) = ± N Л/f— [h2 I Л JJ Поскольку 1- 1 lim — Лг->эо N = lim 1(Л/7л,(х))2=0 N->°o 2V И 1 fl ( lim —M —fc2 ------- = lim jV—>°o 2V \ Л )j -fl Nh1 -oo 1 °r ? /rW °r ? = lim — \k2(z) fx(x-hz)dz = lim -7— \k2(z)dz (здесь использовано условие (7.10)), то Jim D(fN(x))= lim $k2(z)dz. N -»oo N ->qo N h _q0 Заметим, что из (7.7) и (7.8) следует ограниченность ] k2(z)dz. — ОО Тогда для состоятельности оценки /дг(х) достаточно потре- бовать выполнения еще одного ограничения на последова- тельность h(N): lim Nh(N) = n, (7.11) V->00 при выполнении которого дисперсия оценки плотности рас- пределения стремится к нулю. 132
Таким образом, условия (7.7)-(7.11) обеспечивают асимптотическую несмещенность и состоятельность оценки (7.6). Следует отметить, что хотя функция £((х-Х/)/&(.№)) при N -> оо стремится к 8-функции, этот процесс должен осуществляться не слишком быстро. А именно так, чтобы число элементов выборки «взвешиваемых» функцией Ц(х-Х,-)//!(.№)), с ростом N неограниченно возрастало (это вытекает из условия (7.11)). В связи с этим, оценка f^(x)B каждой точке х оказывается равной нормированной сумме не- зависимых случайных величин, число которых неограниченно растет с ростом N. Поэтому при определенных условиях, в со- ответствии с центральной предельной теоремой, оценка /дг(х) оказывается асимптотически нормальной. §7.3. Оценка функции плотности распределения случайного вектора Во многих практически важных случаях необходимо произво- дить оценивание плотностей многомерных распределений. Изложенный выше метод Парзена допускает обобщение на п - мерный случай и при этом сравнительно нетрудно получить обобщение условий (7.7)-(7.И). Однако количество вычис- лительных операций и объем информации, которую необхо- димо хранить во время их выполнения, в многомерном случае резко возрастают. Поэтому, даже с применением ЭВМ, прак- тическое получение многомерных оценок, являющихся пря- мым обобщением одномерных, в принципе возможное, стано- вится фактически трудновыполнимым. Это обстоятельство часто заставляет отказаться от построения оценки всей мно- гомерной плотности распределения и пытаться получить ло- кальные оценки значений этой функции в точке х по имею- щейся выборке x(N) N значений вектораХ. Существует несколько методов получения таких оце- нок. Здесь будет рассмотрен так называемый метод «к бли- жайших соседей ». 133
Этот метод сравнительно прост с вычислительной точки зрения и особенно удобен, когда нет необходимости строить оценки плотностей распределений целиком, а достаточно сравнивать их значения в отдельных точках (как это имеет ме- сто, например, в задачах классификации объектов по вектор- ному случайному признаку, см. гл. 2 и 3). Итак, пусть теперь X — и-мерный случайный вектор с неизвестной непрерывной плотностью распределения fx (х)» — выборка значений этого вектора, х* — зна- чение X, для которого оценивается плотность Бу- дем считать, что /%(х*)>0. Обозначим через г, евклидово (2V) * расстояние z-ro элемента хк 7 от точки х , т. е. Jn ♦ о Щ,-*,)2, <7Л2> /=1 (здесь Ху и х* — j-e компоненты соответственно вектора х,- из х^ и вектора х*). Многомерная плотность распределения в точке х опре- делена как (7.13) г—>0 где Sr — шар радиуса г с центром в точке х ,Vr — объем это- го шара. Выберем радиус шара r = r(N) таким, что, с одной стороны, г (7V) -> 0 при 7V -> оо , а с другой — позволяет полу- чить простую оценку вероятности Р{Хе Sr}. Для этого при- мем г (N) = (tV), где (7V) — расстояние точки х* до £-ой ближайшей точки из х^\ Другими словами, это означает, что (N) — Л>ое по величине значение г, для элементов выборки r^N\ образованной из выборки согласно (7.12). 134
Тогда Р{Хе Sr/( } есть, очевидно, сумма первых Одолей выборки r^N\ Используя свойства долей выборки (см. § 1.4), можно видеть, что Uk = Р(Хе Srk )е «е(г, N - г +1). (7.14) (®е (•, •) — бета-распределение). Среднее значение случайной величины Uk равно k/(N +1). Поэтому естественно предложить в качестве оцен- ~ ф ки /дг(х ) значения функции плотности распределения fx (х) в точке х* величину fN (х*) =------- (# + 1)^ (здесь и далее Vk = Vrk ). Покажем, что эта оценка является состоятельной, т. е. сходится по вероятности к fx (х*) при N -> оо , если выпол- няются следующие условия: lim k(N) = оо ; #->00 lim ^>=0. У->00 N Вначале установим, что (7.15) В соответствии с (7.13), для этого необходимо доказать схо- димость '•»(«) -^->о У->00 при выполнении указанных условий для fc(N). Очевидно, что для любого е > О справедливо неравен- ство rk (N) < е, если имеет место событие 1^> к, где — 135
число точек выборки x^N\ лежащее внутри шара £е с ра- диусом е ис центром в точке х*. Обозначая через p = P{XeS£}= jfxMdx>0, St можно записать 2V . . P{rk(N)<t} = P{Le >к}= £ CJNpJ(l~p)N'J j=k Далее, воспользовавшись предельной теоремой для биноми- ального распределения, в силу свойств функции k(N) имеем lim P{rk(N)<e} = lim 1-ф* k(N)-Kp Al = 1. J что и доказывает (7.15). Но (7.15) можно переписать в сле- дующем виде: к к к вер. #->00 В соответствии со свойствами сходимости последователь- ности случайных величин по вероятности, для состоятель- ности Лу(х) необходимо и достаточно, чтобы имела место сходимость к N-tv Последнее установить нетрудно, поскольку ввиду (7.14), математическое ожидание и дисперсия Uк равны, соответ- ственно: к # + 1 ’ мик = k(N-k + \) . DUk =-----;-----> (# + 1)2(# + 2) и требуемый результат сразу следует из неравенств Чебышева. Таким образом, состоятельность оценки /дг (х) доказана. 136
Обратим внимание на то, что в рассматриваемом методе оценки плотности распределения при фиксированных N и к размер «разряда» (объем шара ) есть случайная величина и зависит от случайного расположения элементов выборки. Там, где элементы выборки расположены «плотнее», ра- диус шара Sfc «автоматически» сокращается и наоборот. Это обстоятельство благоприятно отражается на качестве оцени- вания плотности распределения. В то же время следует иметь в виду, что при относительно небольших W обеспечить ма- лость можно только при малых значениях к. Тем са- мым точность оценки будет невысокой. Этот недостаток, серьезный с точки зрения решения задачи оценивания плотно- сти распределения, не является существенным, когда оцени- вание является вспомогательной задачей и полученные оценки используются для целей классификации. Рассмотрим этот вопрос подробнее. Пусть и — две выборки значений случайного вектора (признака), при- надлежащих, соответственно, классам Н\ и Н2, т. е. имею- щих распределения fx(x\H\) и fx (xI ^2) • Зафиксируем к и найдем оценки к i = 1, 2 где 7^ — значения для первой и второй выборки, объе- мы которых для простоты принимаем равными: N\ = = . Тогда получаем оценку функции отношения правдоподобия 7 ^Лу(х|Н2) Vk} которая может использоваться для принятия решения в рам- ках рассмотренных выше статистических критериев Нейма- на - Пирсона и Байеса. Это решающее правило является относительно простым и не требует знания плотностей вероятности «в целом». Вычис- 137
лительные трудности этого алгоритма связаны только с нахо- 41 ждением расстояний от х до 2N элементов выборок. Следу- ет, однако, заметить, что если N велико, то необходимость вы- числения расстояний до всех элементов выборок при высокой размерности признака существенно снижает вычислительную эффективность такого алгоритма. Ниже будет описана моди- фикация метода «к ближайших соседей», позволяющая суще- ственно повысить его эффективность. Остановимся кратко на методе классификации, близком к рассмотренному выше при к = 1, именуемом правилом «бли- жайшего соседа». Пусть — помеченная обучающая выборка значений с. в. X, соответствующих гипотезам Н\ (N\ элементов) и (N2 элементов), причем значения чисел N] и N2 отражают априорные вероятности Р{Н\) и Р(Нг), Nj /(N\ + N2) ~ Р(Н}). То, что эта выборка является поме- ченной означает, что для каждого её элемента известен соот- ветствующий ему класс (гипотеза) Я,. Решение о классе, к которому принадлежит наблюдаемый объект с значением признака X = х, принимается теперь по классу, к которому относится ближайший к х элемент выбор- ки х(^1+л^) Оценим эффективность этого метода. Пусть принято решение о том, что наблюдаемый объект принадлежит к классу Я,, так как этому классу соответствует ближайший к х элемент выборки X]. Если истинный класс объекта Я,, то при Я у * Я/ возникает ошибка, условная ве- роятность которой (при фиксированных х и jq ) равна е(х, ;q) =Р{Я, *Hj \х,х}} = Р(Н}\ ;q )Р(Я21 х) + + P(H2\xi)P(H}\x) Будем считать, что N велико и поэтому х и Xj располо- жены близко друг к другу. В этом случае можно пользоваться приближенным равенством Р(Я/|х1)«Р(Я/|х). 138
Тогда условная вероятность ошибки примет следующий вид: е(х) = 2Р(Н}| х)Р(Н2\х) = 2Р(Нх\ х)(1 -Р(Н}| х)) = = 2Р(Я2|х)(1-Р(Я2|х)), то есть с(х) является функцией только х. Сравним е(х) с вероятностью ошибки критерия макси- * мума апостериорной вероятности е (х) при данном х. Очевидно, что е*(х)=тт[Р(Я1|х),Р(Я21^)]=тп[Р(Я1|х),1-Р(Я1|х)]. Сравнивая е(х) и е*(х) можно получить е(х) = 2с*(х)[1-с*(х)]. Полная вероятность ошибки принятия решения £ есть матема- тическое ожидание е(х), поэтому £ = Ме(х) = 2М[е* (х)(1 - е* (х))] = = 2с*(1—в*) — 2£>(е‘) < 2е*(1 - е*), * * где £ = Me (х). Следовательно, полная (безусловная) вероятность ошиб- ки при использовании правила ближайшего соседа в качестве решающего правила меньше, чем удвоенная вероятность ошибки критерия максимума апостериорной вероятности в предположении, что N является достаточно большим (для вы- полнения приближенного равенства Р(Я,| х) = Р(Я/| X])). Нижнюю границу полной вероятности ошибки при ис- пользовании этого решающего правила можно получить сле- дующим образом: £ = Л/{е*(х) + е*(х)[1-2е*(х)]} = 2£* + + Л/{е*(х)[1-2е*(х)]}>£*, Последнее неравенство справедливо, поскольку выполняет- ся очевидное условие 0,5>е (х)>0. Таким образом, веро- 139
ятность ошибки ограничена снизу вероятностью ошибки критерия максимума апостериорной вероятности. Причем е = е*, когда е*(х) = 0 или е*(х) = 0,5 почти всюду (что, впрочем, очевидно). Учитывая, что правило ближайшего соседа не требует ка- кой-либо информации о распределении с. в. X, его можно счи- тать весьма удобным для задач предварительного анализа. Несмотря на внешнюю простоту правила «к ближайших соседей», его практическая реализация ведет к весьма боль- шим временным затратам, когда требуется классифициро- вать выборку большого объема, а элементы выборки являют- ся векторами. Этот недостаток алгоритма обусловлен тем об- стоятельством, что традиционное представление точки многомерного пространства в виде вектора слабо связано с задачей идентификации положения этой точки. Поэтому при повышении размерности задачи резко возрастает сложность вычислений. Поясним сказанное на примере одно — и дву- мерного пространства. В случае одномерного пространства положение точки на действительной оси полностью задается одним числом. От- метим важную особенность такого представления: если старший разряд (цифра) числа известен, то следующий, младший, лишь уточняет уже имеющуюся информацию, т.е. положение точки на прямой. Это свойство связано с позици- онностью записи действительного числа. Следовательно, цифры (разряды) числа в позиционной записи могут служить естественной основой для организации поэтапных процедур его обработки — от старших разрядов к младшим. Таким об- разом, возможно построение алгоритмов, которые последо- вательно, шаг за шагом, анализируют поразрядно значение скалярного признака до тех пор, пока не будет принято ре- шение. При этом анализ полного представления величины этого признака вовсе необязателен. Очевидно, что в двумерном пространстве любое пред- ставление точки в виде вектора свойством позиционности (как оно здесь понимается) не обладает. В то же время для задания положения точки на плоскости существуют иерархические представления, обладающие этим свойством. Для этого, как и 140
в одномерном случае, нужно уметь с помощью одного числа задавать положение точки в двумерном пространстве. Сделать это можно, например, следующим образом (для простоты счи- тается, что точка может принадлежать некоему квадрату на плоскости). Все допустимое множество разбивается на равные квадраты (разбиение первого уровня), каждому квадрату при- сваивается свой номер. Затем каждый из квадратов в свою очередь разбивается на равные квадраты, которые также пере- нумеровываются (разбиение второго уровня). И так далее, до любого уровня разбиения, т. е. до любой степени точности ло- кализации точки на плоскости. Любому квадрату можно поставить в соответствие число (его номер), которое полностью определяет его положение в пространстве: первая цифра этого числа есть номер квадрата первого уровня разбиения, которому принадлежит искомый квадрат, вторая цифра — номер квадрата второго уровня раз- биения, содержащего искомый квадрат и т. д. Количество цифр в этом числе определяет размер квадрата, т. е. уровень разбиения. Теперь положение точки в пространстве можно за- давать номером квадрата, которому она принадлежит, причем, как и в одномерном случае, каждая следующая цифра — но- мер лишь уточняет положение точки в пространстве. В таком подходе замечательно то, что его можно распро- странить на пространство любой размерности. Для этого надо разбить пространство на части (называемые далее квантами) и задать их способ нумерации. При этом положение точки в пространстве будет задаваться одним числом (независимо от размерности пространства) — номером кванта, которому при- надлежит искомая точка. Такое описание положения точки в пространстве будем называть ее позиционной координатой. Перейдем теперь непосредственно к описанию моди- фицированного метода «к ближайших соседей», учитываю- щего особенности позиционного представления многомер- ной информации. Пусть, как и раньше, точка х классифици- руется по выборке Вначале анализируется квант первого уровня разбиения, которому принадлежит эта точка. Если в этом кванте не менее к точек принадлежит распределе- 141
нию Hj, а точек из распределения Hj (j^i) меньше к , то принимается решение о принадлежности искомой точки рас- пределению . Если это требование не выполняется, то пе- реходим к анализу кванта следующего уровня и проверяем то же условие. Эта процедура продолжается до тех пор, пока не будет принято то или иное решение. Вообще говоря, возмо- жен и отказ от принятия решения о принадлежности точки х чему или иному распределению, когда при уменьшении раз- мера кванта число лежащих в нем элементов выборки недостаточно для принятия решения. В этой ситуации можно поступить, например, следующим образом: рассмотреть со- держимое кванта предыдущего уровня (т. е. вернуться на шаг «назад») и принять решение в пользу того распределения, то- чек которого в данном кванте больше. Следует также отметить, что описываемый модифициро- ванный метод «к ближайших соседей» отличается от класси- ческого и тем, что теперь анализируемая точка не является центром кванта. Позиционное представление координат под- разумевает разбиение пространства на кванты, которые, есте- ственно, никак не связаны с расположением точек выборки. Поэтому возможна ситуация, когда точка, отнесенная тради- ционным методом к одному распределению, предложенным алгоритмом будет отнесена к другому. В то же время, этот не- достаток во многом компенсируется тем обстоятельством, что в предлагаемом методе анализ областей идет в «обратном» порядке. Вследствие этого решение принадлежности к тому или иному распределению может приниматься на квантах бо- лее высокого уровня. Статистические эксперименты показы- вают, что число неправильно классифицированных точек для рассмотренных примеров относительно невелико. 142
ГЛАВА 8 ЭЛЕМЕНТЫ РЕГРЕССИОННОГО АНАЛИЗА. МЕТОД НАИМЕНЬШИХ КВАДРАТОВ Важный раздел математической статистики образуют моде- ли, описывающие связи между изучаемыми случайными величинами. В этой главе приведены основные сведения о регрессионном анализе, широко используемом для построе- ния таких моделей и исследования статистических зависи- мостей. Здесь же приводятся сведения об основном аппара- те, применяемом для решения такой задачи — о методе наименьших квадратов (который, впрочем, имеет более широкое применение). §8.1. Множественная регрессия Пусть Z — «-мерный случайный вектор с функцией распреде- ления Fz(z), Z(l), Z(2) —его непересекающиеся подвек- торы размерности п\ и «2 (^1 + п2 = п): 1^(2) J (без умаления общности здесь и далее будем полагать, что подвектор Z(l) содержит первые «j компонент Лектора Z, Z(2) —остальные «2 его компонент). Напомним, что функцией множественной регрессии век- тора Z(l) на вектор Z(2) называется условное математиче- ское ожидание вектора Z(l), рассматриваемое как функция значений вектора Z(2) = z(2): V(z(2» = A/(Z(1) | z(2)) = j z(l) </F(z(l) | z(2)) (здесь F(z(l) | z(2)) — условная относительно z(2) функция распределения вектора Z(l)).
Эта функция хорошо выражает зависимость Z(l) от z(2) в среднем, так как при каждом фиксированном z(2) средний квадрат отклонения вектора Z(l) от iu(z(2)) имеет наимень- шее значение на множестве всех функций ф(г(2)): для V ф(z(2)) * iu(z(2)) М(| Z(l) - iu(z(2)) |2| z(2)) < M(|Z(1) - q>(z(2)) |2| 2(2)) (этот факт легко устанавливается по аналогии с (5.23) в § 5.3). Пусть теперь Zg N(nr9 R). Тогда Z(1)g %(m(l); R(l)), Z(2)g %(m(2);R(2)), где m(f) и R(z) получаются из т, R отбором элементов, относящихся к компонентам Z(l) и Z(2) Известно [1], что в этом случае ш(г(2)) = m(l) + R(12)R-1 (2)(z(2) - m(2)), (8.1) где матрица R(12) легко находится из блочного представле- ния матрицы R: (её элементами являются корреляционные моменты компо- нент Zz(l) и Zy(2) векторов Z(l) и Z(2)) 7 = 1, И] ’ j = п\ +1, «j + «2 • На практике наиболее часто встречаются задачи, в кото- рых Z(1) = X — скалярная случайная величина. Будем в дальнейшем рассматривать именно этот случай, обозначая Z(2) = Z и полагая щ = 1, Для нормального рас- пределения вектора (У, Z')' функция регрессии У на Z — ска- лярная функция, имеющая линейную форму: vg(z) = M(Y | z) = x'z*, z* = (1, z У. (8.3) Здесь x = (xq , xj,..., x„_] У — вектор коэффициентов, опреде- ляемых параметрами распределения вектора (У, Z')' • 144
Задача обычно состоит в том, чтобы по эксперименталь- но полученной реализации выборки (ур Zi), (удг, Zjy) N пар значений Y и Z* найти зависимость (8.3), т. е. неиз- вестное значение вектора х. Модель такой задачи при опре- деленных условиях можно привести к следующему виду: Y = M(Y | z) + Е = Ах+ Е , (8.4) где Y = (У],...,Уу)' — полученный в результате N наблю- дений вектор (выборка) значений случайной величины У; А = (а у) — матрица, элемент ау которой равен значению j-ой компоненты вектора z = (1, zp гп_^У в /-ом изме- рении (i = 1, N, j = 1, л, n<N),E — центрированный слу- чайный вектор, описывающий отклонение случайной вели- чины У от её условного математического ожидания (функ- ции регрессии) M(Y | z). Далее мы будем называть вектор У вектором измерений, а вектор Е вектором ошибки. Если Y = (У1,..., Удг У — простая выборка, то её компоненты независимы в совокупности и обладают одинаковой (неизвестной) дисперсией ст2, т. е. Eg %(0;ct2I), I — единичная матрица. Ниже мы коснемся случаев, когда выборка Y не является простой. Если основании для гипотезы о нормальности распреде- ления вектора (У, 2*)' нет, функция регрессии не представи- ма, вообще говоря, линейной формой (8.3). Однако, выбирая подходящую аппроксимацию функции регрессии с помощью базисных функций {£y(z)}y=i, можно приближенно (с точно- стью аппроксимации) использовать модель (8.4), если поло- жить а у Xj —j-и коэффициент аппроксимации п W|z)«Sx^y(z). /=1 10—116 145
§8.2. Метод наименьших квадратов (МНК) Итак, задача оценки функции регрессии сведена нами к оценке неслучайного вектора х в (8.4) по измеренному зна- чению вектора Y при неизвестном центрированном векторе ошибки Е. Следует заметить, что эта модель-имеет широкое приме- нение и в других приложениях. Далее предполагается, что Y представляет собой простую выборку, что означает независимость и, следовательно, некор- релированность, а также одинаковое распределение компо- нент вектора У, что распространяется и на вектор Е; в этом случае для корреляционных матриц векторов Е и Y получаем R£=Rr=CT2I (8.5) (здесь и далее предполагается, что эти матрицы неособенные). Если Y не представляет собой простую выборку, то (8.5), вообще говоря, не выполняется. Пусть = Ry = R где R — недиагональная корреляционная матрица с не- равными диагональными элементами. Известно [1], что всякая корреляционная матрица случайного вектора может быть преобразована в диагональную матрицу с равными диагональными (например, единичными) элементами в результате подходящего преобразования самого вектора. Действительно, для каждой корреляционной матрицы, в том числе для R, существует ортогональная матрица F такая, что FRF = D, где D---диагональная матрица, D = {dy). Образуем матрицу F = D-1/2F', где D 1/2 = (<7J1/2), и используем её для перехода от (8.4) к модели U = FF = FAx + FE или U = Ах + Е , R^ = R[/ =FRF = D-1/2 ГRFD-1/2 = I 146
т. е. в результате получена модель, соответствующая (8.5) при ст = 1. Следует, однако, заметить, что описанный способ уп- рощения модели дается не бесплатно, поскольку требует зна- ния корреляционной матрицы (оценок её элементов). Ниже мы будем придерживаться случаев, соответствующих (8.5) при неизвестном значении ст2 . Предположим, далее, что А — матрица ранга п, т. е. det А'А * О (отказ от этого условия 1ребует привлечения теории обобщён- ных матриц и здесь не рассматривается). Пусть у — полученное значение вектора Y. Идея МНК состоит в минимизации квадратичной формы S(*) = (.V-A*)'(j-Ax), т. е. в использовании в качестве оценки вектора х вектора х, удовлетворяющего условию х = arg min Q(x). (8.6) х Из равенства А*=Е xiai > 1=1 где aj — z-ый вектор-столбец матрицы А, следует, что Ах — N-мерный вектор, лежащий в и-мерном линейном подпро- странстве Sn пространства SN с базисом (aj, ...,ял). МНК основан, следовательно, на выборе в качестве оцен- ки вектора х вектора х, которому соответствует вектор Ах, также лежащий в Sn и имеющий минимальное (по модулю) отклонение от значения у вектора У, т. е. представляющий со- бой проекцию вектора у (лежащего в пространстве 5у) на пространство Sn . Представим условие (8.6) системой уравнений о я Л п ___ — Q(x) = ~—X (У1-±аух})2=0, к = \,п. охк dxfc /=) j=\ 10* 147
Продифференцировав суммы, последние равенства можно записать в следующем виде: Z ЧкУ, ~ Е S aikaij*j =о> ,=1 7=1 ,=1 или, в матричной форме, А'у -А'Ах= 0. Обозначим А'А = С, тогда получим х = С-1 А'у. (8.7) Выражение (8.7) представляет собой систему так называемых нормальных уравнений метода наименьших квадратов. Здесь следует сделать следующее уточнение. Вектор у в (8.7) представляет собой реализацию случайного вектора из- мерений У, в силу чего вектор х является реализацией оценки вектора х. Поэтому корректная запись собственно оценки X вектора х имеет вид X = С"1 A' Y. Рассмотрим свойства МНК-оценок. Прежде всего устано- вим, что X — несмещенная оценка вектора х: Л/Х = С~,А'Л/У = С~1А'Ах = х. Пусть Ее %(0;ст21). Тогда X является эффективной оценкой вектора х Действительно, в этом случае Ye %(Ах;ст21) и х представляет собой оцениваемый век- торный параметр распределения Y. Оценивание х производит- ся по единственному измерению у и L(y; х) = к exp 5--!у (у - Ах)'(у - Ах)|» I 2ст J (8.8) In L =----- (у - Ах)'(у - Ах) + In к . 2<у 148
Найдем матрицу J, входящую в (8.8). Нетрудно прове- рить, что J = -Af ' a2 in £ dx, dx; 1 Д А'А С _ 2 akiakj ~ 2 ” 2 ’ ст2 *=1 ст2 ст2 С другой стороны, корреляционная матрица оценки X рав- на Rj = ст С А АС = ст С = J , что означает превра- щение (5.8) в равенство, т. е. эффективность оценки X . При рассматриваемых условиях оценка х, полученная методом наименьших квадратов, совпадает с оценкой метода наибольшего правдоподобия, поскольку вектор X, миними- зирующий квадратичную форму в (8.8), одновременно макси- мизирует функцию правдоподобия Цу; х). В более общем случае, когда R£ = ( 2 „ \ of ... О <0 -Оу > МНК-оценка х совпадает с МНП-оценкой при условии, что минимизируется не Q(x), а квадратичная форма П 1 п <?(*)=Ё — (л - Ё aijxj )2 > '=1 У=1 т. е. взвешенная сумма квадратов отклонений компонент век- торов у и Ах («веса» слагаемых тем больше, чем выше точ- ность измерения соответствующей компоненты Y, т. е. чем меньше дисперсия а, ). В отличие от метода наибольшего правдоподобия, для применения метода, наименьших квадратов не требуется зна- ние типа распределения вектора измерения К При этом спра- ведлива следующая теорема. 149
Теорема 8.1 (Гаусса-Маркова). Среди класса X не- смещённых линейных оценок вектора х, связанного с векто- ром измерений Y соотношением (8.4), метод наименьших квадратов доставляет оценку X , все компоненты которой имеют дисперсии, не большие, чем дисперсии соответст- вующих компонент любой другой оценки Хе X, т. е. V f: D(XZ)<D(XZ), i = T~n (8.9) Доказательство. Выше было получено = с2С"1. Пусть теперь X = Н Y — любая оценка из X, тогда MX = HMY = HAx, т. е. НА=1. (8.10) Далее, для корреляционной матрицы R % получим R*=M XX' = ст2 НН' =о2 [С"1 + (Н - С-1 А')(Н - С’1 А')'] (последнее тождество справедливо ввиду (8.10)). Итак, + J, где J — матрица с неотрицатель- ными диагональными элементами. Отсюда сразу следует (8.9). §8.3. Интервальное оценивание методом наимень- ших квадратов Рассмотрим вектор невязки V = Y - АХ , который, как следует из сказанного выше, равен разности между вектором измерений Y и его проекцией на пространство Sn. В результате очевидных формальных преобразований получим Г = Y-AX = (1-АС-1 А')Г = (I-AC-1A')(Ах+Е) = (I- G)£ , G = АС -1А'. 150
Предположим, что Е е %(0; ст21); тогда корреляционная матрица вектора V равна Rr =q2(I-G)(I-G)'=ct2(I-G) (поскольку G симметрична и идемпотентна: GG' = G ). Найдём ранг Rjz. С одной стороны, rang G < min (rang A, rang С-1, rang А') = п, с другой — rang G А = rang А = п и rang G А < min (rang G, rang A), т. e. rang G > n, в силу чего rang G = n. Поскольку G симметрична, существует ортогональная матрица F, удовлетворяющая следующему условию: FGF=D= ^...0 Л ••• > Но D — идемпотентная матрица, так как D2=F'GFF'GF = F'G2F = F'GF=D. 2 Это значит, что для всех / = rf,, т. е. rfz- = 0 или 1. Поскольку rang D = rang G, то диагональ матрицы D содержит п единиц и (N - и) нулей; поэтому rang Rjz = rang (I- G) = rang F (I- G )F = rang (I- D) = N- n. Введем вектор W: E = FW. Получим, учитывая идемпо- тентность G, N-n FT = FF'F(I-G)FFF = FF'(I-D)FF = £ w? , /=1 где }Vj g %(0; a2); поэтому ГТ 1 V 2 2 = -y 2 wi CTZ /=1 151
Покажем теперь, что V и X — независимые случайные век- торы. Этот факт следует из следующей леммы. Лемма. Пусть и $2 = Для независимости и S2 необходимо и достаточно вы- полнение условия BjR^B^ =0. Доказательство. Введем матрицу о о R$l$2 = ^(*^1 *^2 ) = ®1 RZ®2 ’ состоящую из корреляционных моментов компонент векто- ров и S2 : R5152 =(RsuS2jy Образуем вектор S = $2 J \в2 Z. Имеем R -( S'S2 [R'^2 R51$2 rs2 и равенство является необходимым и достаточным для независимости 5*] и S2 . Лемма доказана. В нашем случае К = (1-АС-1А’)У, Х = С-,А'Г; вместе с тем (I-АС-1 А')АС-1 = АС-1 - АС-1 = 0, откуда следует независимость V и X. Из полученного результата следует независимость V V! с и JQ, а также W 1 ° <4<с )н 152
где (С 1 )z/ — /-й диагональный элемент матрицы С 1. По- скольку е %(0; 1), получаем (сравните с (6.7)) (Л,- «,) st(N-n), что позволяет осуществлять интервальное оценивание компо- нент векторах, используя соотношение P(-t<Ti <t) = кг(с b,-/ N-п (8.11) Подчеркнем тот факт, что формулы точечного и интер- вального оценивания векторах (8.7) и (8.11) не содержат в яв- 7 ном виде ст , т. е. их использование не требует знания диспер- сии ошибки. Более того, нетрудно показать, что при рассматри- ваемой постановке задачи (оставаясь при гипотезе о нормальном распределении вектора ошибок Е) можно найти оценку ст дисперсии ошибки ст и оценку R % корреляцией-1 ной матрицы R% оценки X. Для этого используем метод наибольшего правдоподобия: ЦЛ q2 ) = ~ 2"V/2 еХр S-------Т “ АХ)’ “ Ах) (ст ) I 2ст 0=2=1 ГК ~2 Полученная оценка ст смещена: Л/ст 2 = —-—ст2, jV- и 153
поэтому вместо неё следует взять' скорректированную несме- щённую оценку s2=—— rr. TV — и Далее: R ~ = а2С-1, откуда Л R* =ст2С-1 (в силу свойства инвариантности МНП-оценки). В заключение заметим, что нередко условия экспери- мента таковы, что матрица А в (8.4) не только известна, но и может видоизменяться по воле экспериментатора. Тогда воз- никает задача такого её подбора, при котором несмещённая оценка векторах имеет наименьшую дисперсию. Эта задача, однако, относится к проблеме планирования эксперимента и здесь не рассматривается. 154
ЗАКЛЮЧЕНИЕ Содержащиеся в данном пособии основные сведения о мето- дах математической статистики, хотя и могут рассматриваться как наиболее существенные, далеко не исчерпывают все мно- гообразие научного инструментария, разрабатываемого этой научной дисциплиной в интересах решения задач обработки больших массивов данных, развития методов и средств управ- ления и принятия решений и прогнозирования случайных процессов в широком спектре приложений. Этот недостаток пособия, вызванный его ограниченным объемом, частично компенсируется издаваемыми в'МФТИ методическими посо- биями по отдельным темам читаемого курса, а также курсами по выбору, посвященными прикладным задачам математиче- ской статистики. 155