Text
                    ВПКУЗНЕЦОВ
ИНТЕРВАЛЬНЫЕ
СШГИСТИЧЕСКИЕ
МОДЕЛИ
Москва
«Радио и связь»
1991


УДК 621.391 Кузнецов В. П. Интервальные статистические модели. — М.: Радио и связь, 1991. —352 с: ил. ISBN 5-256-00726-2. На базе новой аксиоматики развивается аппарат размытых математических моделей случайных явлений. Эти модели охватывают множественные, интервальные, нечеткие, и вообще любые неполные я отрывочные статистические описания характеристик явления, подходя к распределениям вероятностей как пределу изобилия данных. Сфера действия моделей простирается от неустойчивых, уникальных явлений до статистически устойчивых к повторам. В этих широких пределах освещаются и интерпретируются понятия интервальной вероятности и среднего, анализируются причинные связи, случайные преобразования, отношения зависимости и независимости, исследуются предельные законы, описываются случайные процессы и прочее другое. Применительно к новым моделям вводятся критерии и разрабатываются универсальные методы синтеза оптимальных решающих правил (оценок, различения гипотез). Реализующие их устройства просты по структуре и способны эффективно работать в изменяющихся окружающих условиях, основанием для чего служит выбор надежных моделей. Доверие к моделям завоевывается вовлечением в них небольшого числа исходных вероятностей и средних, представленных в интервальном виде, отражающем нестабильность реальных явлений и дефицит исходных данных о нем. Рассматривается совместный синтез надежных моделей и решающих правил. Для научных работников в области связи и управления; может быть полезна всем, кто интересуется математическими методами описания случайных явлений и задачами принятия решений при неопределенности. Табл. 1. Ил. 37. Библиогр. 25 назв. Рецензент: проф., докт. техн. наук Ф. П. ТАРАСЕНКО Редакция литературы по радиотехнике и электросвязи „2303020000-040 К 96-90 046(01)-91 ISBN 5-256-00726-2 © Кузнецов В. П., 1991
Памяти матери Кузнецовой Екатерины Ивановны посвящается ВВЕДЕНИЕ Теория вероятностей есть не что иное, как математический язык описания случайных явлений. Привычка, навык к этому языку мешают задуматься над существованием других, быть может более удобных форм и описаний, «не входящих в словарь общеупотребительного языка, <но делающих простыми ситуации, столь трудные в современном «произношении». Разработка нового математического языка шире общепризнанного и его использование составляет суть предлагаемой книги. Символьный язык — средство описания и способ общения, но в то же время это инструмент, с помощью которого можно что:то исследовать, создавать, обрабатывать, конструировать, а для вероятностно-статистических методов — получать решающие правила, алгоритмы, оценки. Последние реализуются работающими устройствами. Критерием жизненности, приемлемости нового символьного аппарата служит его надежность, адекватность, способность делать то, чего ранее не было, обрабатывать то, что не обрабатывалось, упрощать то, что было сложным. Именно эта цель преследовалась при введении интервальных моделей и старательно претворялась при разработке методов. Базу книги закладывают интервальные вероятностно-статистические категории, дающие универсальный способ описания как имеющихся знаний, так и их отсутствия, т. е. незнания; под эти категории подводится аксиоматика. Получается новая теория, непривычная, наверно, с первого взгляда, но охватывающая огромное разнообразие явлений как устойчивых, определяемых вероятностями, так и неустойчивых, невероятностных, с небольшим числом неполно исследованных закономерностей, наконец и вовсе с неизвестными свойствами. Покажем, что зерно интервального подхода уже скрыто лежит в недрах современных вероятностных построений, задача — взрастить его (первая часть книги) и «собрать урожай» (вторая часть). Пример 1. Пусть модель случайной величины с исходами на числовой прямой 26 описывается плотностью распределения вероятностей. Интегрирование по ней дает вероятности Р(А) отрезков А&ЯВ л их объединений (сумм) вплоть до счетных, составляющих набор s$ измеримых событий. В st не могут войти все события, как бы не размельчалось оно до борелевских и далее ле- беговских множеств [1]. Всегда останутся так называемые неизмеримые события B&st, для которых вероятности уже будут интервальные Р(В), Р(В), оп- 3
ределенные как внутренняя и внешняя меры формулами: Р(5)= sup Р(А), A: Bz>A<=j& Р(В)= inf P(A). Точно так же и с математическими ожиданиями (сред- А: ВсАе^ " яими статистическими) от случайных величин — функций g{x), х^.ЯВ. Они оказываются точными Mg на классе SB si- измеримых .(интегрируемых) функций и станут интервальными, определенными формулами Mf= sup Mg, Mf=* = inf Mg для остальных, неизмеримых f, которых, в общем, великое мно- жество. Пример позволяет раскрыть следующую конструкцию современных вероятностных построений. На ядре s&, представляющем набор событий пространства исходов SB, первичными заданы точные вероятности, образующие распределение вероятностей. Стремятся закладывать в зФ как можно большее число событий, чтобы при продолжении вероятностей, а оно осуществляется интегрированием по вероятностному распределению, получались точные математические ожидания (средние) Mg у всех обозримых случайных величин. Последние определяются как измеримые функции g(x), x^S6 (обычно кусочно-непрерывные с возможными скачками первого рода) на исходах явления. Но вопреки стараниями сделать точными вероятности и средние для абсолютно всех событий <и функций f (x) не удается (кроме явлений с конечным и счетным числом исходов), так как все равно остаются называемые неизмеримыми события и функции, их много и из-за них при продолжении возникают интервальные вероятности и интервальные средние Mf, Mf. Это первое. А второе, что интервалы Af/, Mf определены формально на всех V/, а точные значения Mg есть частный случай интервальных при Mg=Mg и их часть. Можно возразить, зачем затрагивать практически бессмысленные неизмеримые функции? Ответ тот, что сужение ядра j#, вынуждаемое физической невозможностью измерять, да и вообще знать много вероятностей, существенно расширяет класс неизмеримых функций, делая средние неточными. А если допустить, что в ядре «я£ вообще событий может быть мало, да еще первичные вероятности на «я£ неточные, т. е. интервальные, то всюду как вероятности, так и средние станут интервальными. Проиллюстрируем их на примере семейства вероятностных распределений. Пример 2. Пусть задано параметрическое семейство распределений вероятностей Ре, 9е6. Тогда средние всех измеримых функций будут интервальными, определенными как нижняя и верхняя грани М g=inf Mfg, "Mg = sup Мй g. ~.^ eee °^ бее ° Подстановка на место g(x) индикаторных функций событий А (равных 1, если аргумент х принадлежит Л, и 0, если не принадлежит) ведет к интервальным вероятностям Р(А), Р(А) как составной части средних. 4
В связи со вторым примером «напрашивается другой резонный вопрос: а разве семейства распределений вероятностей не служат уже универсальной формой отражения любых неточных знаний о явлении? Так вот, оказыовается, что интервально-статистическии подход дает более удобную форму для этих целей, в которую вписываются, как частный случай, и распределения вероятностей, и их семейства со всем богатством возможностей, а также многое- многое другое. Интервальная модель на пространстве исходов ЭВ определяется формально совокупностью интервалов средних Mf, Mf, V/, связанных между собой аксиомами. Далее функции f(x), х^9В называются признаками. Любую нашу модель можно задавать по стандартной схеме рис. В.1. Ядро модели формируется набором ^ признаков g^S, именуемых первичными, и указанием границ средних на них. Вероятности рассматриваются как составная часть средних. С 9 средние продолжаются на V/, образуя собой модель. Отличительными для новой теории являются четыре ключевые момента. 1. Лишение вероятностей привилегий для задания модели и уравнивание в правах с более емким понятием среднего статистического числовых признаков1. Это означает отказ от распределений вероятностей как необходимой части модели и от алгебры событий как обязательной атрибутики ядра. Это раскрепощает ядро $ и саму модель. 2. Почему обязательно вероятности и средние должны быть точными? Это всегда идеальный случай. Реальный подход .— считать их интервальными — мгновенно «развязывает руки». В самом деле, отрезок [0, 1] в качестве вероятности некоторого события означает полное отсутствие знания этой вероятности. И здесь не надо, что самое замечательное, задумываться о существовании точной вероятности, обязанной абсолютной статистической устойчивости явления. Пусть имеет место неустойчивость, характерная для многих приложений! Если неустойчивость не полная, а частичная, то приходим к интервальным вероятностям внутри i[0, 1]. Наконец, если концы интервалов смыкаются, то получаются точные вероятности. Все сказанное переносится на средние, только областью их значений будут уже интервалы на всей оси чисел. Ядро модели Интервальная модель I Hafiop $ признахоо* I Продолжение flepouv/fb/t средние \ у Формула ддо истощенности Рис. В.1. Структура интервальных моделей 1 Попытка такого рода делалась в [2], но свелась лишь к другой расстановке акцентов в прежнем вероятностном языке. Все лризяаки V/ мнтердальнь/е средние 5
3. Необычайная гибкость ядра 9 по форме и числу злементов и вольность задания на нем средних как в виде точных значений, так и интервальных или только одной из границ. Это «размораживает» структуру модели, позволяя в рамках единой конструкции с одной стороны универсально, а с другой (манипулируя составом 9) — крайне экономно вкладывать в модель лишь имеющиеся знания о явлении с поправками на их точность и с прицелом на простоту. 4. Средние с первичного ядра 9 продолжаются на все признаки V/ с помощью алгоритмических формул двойственности. Если изображать модель как тело, то формулы двойственности работают с его оболочкой, обходя множественное представление в виде семейств точек (распределений вероятностей, требующих громоздких формул интегрирования), «запрягая» в статистические проблемы дуальный подход. Универсальность интервально-статистических моделей обеспечивается возможностью заключать в ядро почти любые по объему и форме знания о явлении. Взять процесс: если нет никаких данных о нем, то ядро пустое, а модель голая. Если стало известно среднее процесса, то это соответствует определенным признакам модели, формирующим грани ее тела. Если дополнительно дана средняя мощность, то это дополняет ядро еще одним признаком, дает ему еще одну грань. Если сюда добавить знания о вероятностях превышений, то состав ядра усложняется, модель усечется новыми гранями, сделается более точной; а если к тому же пополнить сведениями о корреляциях, то тем более, и т. д. Пределом знаний будет точка, т. е. вероятностная модель (число граней которой равно числу элементарных исходов). Возникает естественная, иерархия от простого к сложному, как в живой природе при ее сотворении и эволюции. Сначала нет ничего, нет никаких зна- * ний, и это соответствует самой простой модели. Любые сведения, какой бы размытый вид они ни обретали, формируют уже готовую худо-бедно работающую модель. По мере накопления сведений модель (Совершенствуется, усложняется. Наконец, если имеются точные данные о вероятностях событий, то получается вероятностная модель. Связь моделей иллюстрируется рис. В.2, где.стрелки указывают уровни совершенствования и усложнения моделей. Черные стрелки относятся к классическим моделям, где путь к приложениям повел от распределений вероятностей к их семействам все более сложного вида. Белые стрелки — к интервальным моделям, иерархическая система которых располагается вдоль дороги, тянущейся от нуля знаний к бесконечности ... навстречу классическому движению. Двум гносеологически противоположным направлениям движения свойственны разные проблемы. В классическом подходе основная проблема — априорное незнание, неопределенность, вынуждающая усложнять модель переходом к семейству с целью облегчить «воз» из огромного числа вероятностей, нагружающий б
Ннтердальуые ^^ модели ^^ Классические модели Рис. В.2. Иерархия моделей современную модель. В нашем подходе «воз» заполняет постепенно: модели будут тем сложнее и точнее, чем больше знаний, и проблемы состоят в экономном их представлении, заключении в ядро, а если требуют упрощения, то отбрасывании «всего несущественного, второстепенного. Итак, в отличие от теории вероятностей, освещающей поточечную структуру моделей, исключающую иерархию по знаниям, мы будем мыслить модель ее внешними атрибутами, оболочкой. Знания вкладываем в грани, формируемые первичными средними, по их числу и составу модели усложняются, образуя иерархию. Иерархия интервальных моделей переносится на получаемые из них оптимальные решающие правила. При малом числе исходных данных правила будут иметь плохие качественные характеристики, но зато устойчивы к внешним аномалиям, нестабильно- стям. При накоплении знаний о явлении качество повышается, правила, «в общем, усложняются, становятся более избирательными к ситуации, так как настраиваются на одну или несколько из них. Здесь вроде бы качественным привилегиями обладают классические вероятностные модели, и только ими, казалось бы, надо пользоваться. Но увы, это самообман, так как необходимого для таких моделей багажа знаний почти всегда нет, а их весьма «вольный выбор» (тяготеющий >к нормальному распределению в силу его относительной простоты) носит декларативный характер. Адекватные модели не должны вовлекать никаких других, кроме имеющихся проверенных знаний, всегда конечных, для надеж- 7
ности представленных в интервальной (размытой) доверительной форме. Это как «раз та часть интервальных моделей, которая располагается на рис. В.2 слева от вертикальной линии. От них правилам будет передана ло наследству «надежность и простота. Упорядоченность интервальных моделей по числу и составу данных позволяет помечтать о сводной библиотеке правил, в которой исследователь по имеющимся реальным данным о явлении смог бы отыскать модель и соответствующее ей оптимальное правило и по тому, устраивает его качество или нет, уже решал бы, .нужно ли уточнять имеющиеся или собирать дополнительные сведения (экспериментом, более скурпулезным анализом физической структуры явления и т. д.), тем самым усложняя модель. Помыслы о библиотеке ограничиваются, увы, пока результатами этой монографии, а их желается много больше, для чего потребуются усилия всех, ikto заинтересуется нашим подходом. Почва подготовлена, и методы теории, алгоритмические по своей сути, допускают привлечение ЭВМ. История этой теории такова. Ее источником стала неудовлетворенность, развившаяся у автора от попыток использования для инженерно-исследовательских задач сначала инвариантных и юепараметрических методов >[3—10], затем робастных [11—13] (.[12] содержит обзор, включающий некоторые работы автора), и вытекающее отсюда естественное желание искать что-то новое. «Забуксовал», так и не раскрывшись в полной мере, шшентный подход; причину мы видим в ^близости его (см. «рис. В.2) к предлагаемым здесь неклассическим интервально-статистическим методам. Не очень вписалась в классические методы и потому не получила должного распространения также теория субъективных вероятностей ([14]. В отход вообще от вероятностей двинулась теория нечетких множеств Заде {15, 18]. Где-то стороной развивался интервальный анализ /[16]. Не обрела заслуженную автономию теория обобщенных чебышевских неравенств i[17]. На подготовленной этими исследованиями почве родилась идея, послужившая стержнем монографии: так выбрать фундамент, чтобы с единой платформы охватить все перечисленные нами направления с целью не только увидеть их в новом свете, но и значительно расширить возможности для приложений (распространение новой идеологии на интеграл можно найти в [19]). Чтение настоящей книги, наверно, потребует от читателя большого терпения из-за отсутствия 'классических аналогов. Помощь могут оказать заключения, (раскрывающие 'краткое содержание глав, связывающие их идейной канвой. Книга писалась на кафедре вычислительной математики МЭИС. Рассчитана на инженеров-исследователей, аспирантов и студентов с соответствующей теоретической подготовкой. Автор считает приятным долгом выразить глубокое признание всем тем, jkto так или иначе способствовал становлению данной теории и выходу в свет книги. Ввиду новизны материала не исключаются огрехи, вину за /которые автор берет на себя. 8 i
Часть первая. Интервальные модели Глава 1. ОПИСАНИЕ СЛУЧАЙНЫХ ЯВЛЕНИИ 1.1. ИНТЕРВАЛЬНЫЕ ВЕРОЯТНОСТИ И СРЕДНИЕ Пространство исходов: Мы живем в мире случайностей, в окружении непредвиденных действий и непредсказуемых до конца фактов. Корни случайностей разнообразны, они берут начало и от физических эффектов типа дробового шума, и от невозможности абсолютного предугадания течения процесса или поведения живого организма (в частности, индивида), и от нашего незнания (или нежелания знать) результата предстоящего (прошедшего) эксперимента и т. д. И как следствие, оказывается, что что-то может произойти, а может и нет, случиться или не случиться, быть или не быть. Эта неясность охватывается категорией случайности. Наша цель — ее описать. Формально под случайным явлением понимается совокупность взаимно исключающих друг друга исходов, называемых элементарными, один из которых обязан произойти, но неизвестно какой. Например, если бросается монета один раз, результатом будет герб Г <орел) или решка Р; если два раза, то элементарных исходов будет либо три {два герба ГГ, две решки РР и разной значимости), либо четыре (при разной значимости учитывается порядок следования ГР или РГ), как мы этого захотим. При бросании точки на числовую прямую 31 результатом будет число (случайная величина), а для случайного процесса, пусть шума, — реализация x(t) как функция времени /. Совокупность всех элементарных исходов формально есть некоторое абстрактное множество Я?, называемое пространством элементарных исходов, тогда как любой из элементарных исходов — это точка х этого пространства, т. е. леей?. Вообще подмножество #?, обозначаемое заглавной буквой A<ziSB, называется случайным событием; оно произойдет, если выпадет любой входящий в него элементарный исход х< Замечания. 1. Данное нами определение совпадает с классическим в плане введения пространства элементарных исходов 36, но не связывает случайность с вероятностями, и в этом смысле шире. 2. Может показаться, что введением пространства S3 и привязкой к нему мы как-то сузили класс охватываемых случайностей. На самом деле, пространство S6 есть элемент создаваемой нами математической модели, находится в наших руках и его можно делать сколь хотим широким, включая мыслимые и даже немыслимые исходы, если только это представляется удобным. Например (как это часто предлагают студенты), при бросании 9
монеты можно дополнительно включить исход, что монета встанет на ребро или что выигрыш в игре будет равен бесконечности: ооей?. Можно вообще говорить о пространстве всего того, что может быть и не быть, но вряд ли это придаст описания^ экономность. 3. Элементарные исходы — не есть обязательно физическая реальность, так как появляться могут, например, нечеткие события (о которых пойдет речь чуть ниже). И тем не менее явление в нашем определении будет случайным, если хоть какое-то пространство SB с абстрактными элементами удается с ним связать, что, как правило, возможно. 4. Детерминированные явления есть частный подкласс случайных, когда пространство элементарных исходов содержит всего один элемент. Признаки явления. Любые измерения в своей сути есть перевод качественных показателей в количественные с представлением в числовой форме. Таким образом, в виде числа или набора чисел удобно характеризовать результаты случайного явления, отвлекаясь от конкретного содержания элементарных исходов и событий (которые в описательном смысле могут быть весьма сложными). Для этого достаточно иметь число f(x) вместо каждого элементарного исхода х, т. е. поставить в соответствие x-*f(x)t x^SP. Числовая функция f(x) на пространстве элементарных исходов называется количественным признаком, или просто признаком -случайного явления; обозначается сокращенно /; строго го- f воря, это отображение <% в числовую прямую 3l\ 3B-+91* Примеры признаков: / — число гербов при двух бросаниях монеты /(РР)=0, /(РГ)=/(ГР) = 1, /(ГГ)=2. Еще пример — случайный выигрыш в азартной игре, исходами которой могут быть довольно сложные комбинации условий, а / — число денег. Разнообразных признаков сколь угодно много: столько, сколько возможно придумать различных функций f{x). Признаки f вместе с $Р играют фундаментальную роль для всего дальнейшего изложения, потому что с их помощью можно описать очень многое, если не сказать все. В частности, любые события, предикаты, высказывания, связанные с явлением. В самом деле, элементарный исход Х\ тождественно описывается дельта-признаком **i (*)> равным 1 при x=Xi и 0 при хфх\\ а подмножество AczSP (событие А) — признаком в виде индикаторной функции, обозначаемой А(х) и равной 1 при хеЛ и 0 лри х^А. Будем называть А(х) индикаторным признаком события Л; два разных значения 1 или 0 этого признака указывают, принадлежит ли это х к А или нет, и только (рис. 1.1). Более общим является понятие нечеткого события с не столь категоричным заявлением о принадлежности к нему. Функцию q(x), заключенную между 0 и 1: 0^q{x)^l, x^8£, будем называть признаком нечеткого события. Так как своего описания на языке случайного явления нечеткое событие может и не иметь, то Ю
Дельта- Признак Нечеткое Индикаторный признак событие признак ffXf(x) yffx) a(x) AM ziffin: *i / —*—' о? Рис. 1.1. Признаки, события , q(x), заключенную между 0 и 1: 0^q(x)^\9 х^Вв, будем называть просто нечетким событием. Значение q(x) = l говорит, что х достоверно входит в событие q, значение q(x)=0 — не входит, a q{x) = l/2 равносильно балансу уверенности и сомнения: входит или не входит. Другие промежуточные между 0 и 1 значения q(x) отдают предпочтение либо уверенности, что входит (при <7(л;)>1/2), либо сомнению. Итак, каждое событие отождествляется с эквивалентным признаком, а всем событиям соответствует подкласс признаков — это все функции со значениями от 0 до 1. Интересно и важно то, что логике высказываний, по правилам которой из одних событий логически образуются другие, соответствуют вполне определенные арифметические действия между признаками: «не q»<=>\—Qix)\ «qi и q2»^^qiix)q2(x); «qx или <72>>^-min{l, q{(x) + q$(x)}. Признаками описываются не только события, но и многие другие характеристики случайного явления, например, мощность, эффективное значение и т. д. Любое преобразование признаков: сложение, умножение и т. д. — ведет к новому признаку. Таким образом, всевозможные признаки вместе с привычными действиями между ними как действительными функциями переменной х дают универсальный аппарат описания всего того, что связано так или иначе с результатами случайного явления или может быть получено из них с помощью логических, арифметических и аналитических действий. Если g{x)^zf(x), Vx^$&y то будем говорить, что признак g мажорирует признак / и писать \g^f. Это означает, что какой бы исход не случился, признак g примет значение, не меньшее признака f. He о любых двух выбранных признаках можно вынести такое суждение, что соответствует частичной их упорядоченности. Средние значения признаков. Выделим отдельный признак f и рассмотрим, какие сведения могут иметься о нем априори (полагая, что явление еще не произошло или результат его не известен). Первое — это область возможных значений, определяемая видом f(x). Областью значений может быть дискретный набор чисел, например для индикаторных признаков А(х) это 0 или 1. Это может быть отрезок числовой прямой [mih/, maxf] от минимального тт/(л;) до максимального max f(x) значения f. Для X X 11
общности, учитывая, что минимум и максимум не всегда достигаются, заменяем их «а инфимум и супремум: [inf/, sup/]. Второе — это данные о среднестатистических свойствах признака /. А именно, ожидаемое в среднем его значение Mf (здесь М от слова MEAN — средний), называемое точным средним приз- нака f. Как оно получается? Самое простое — на основании симметрии эксперимента. Например, игроки, скажем, в «орел —решку» хорошо понимают, что при равных ставках шансы на выигрыш и проигрыш одинаковы, т. е. в среднем они будут иметь ноль. В далекой древности бросали астрагалы — кости конечностей животных —и для обеспечения «равных шансов» каждый раз партнеры менялись местами. Точные сведения могут находиться изучением внутренних механизмов явления, его природы, как это делается в статистической физике. Возможна оценка среднего по результатам предварительного опроса, проведением наблюдений, искусственно созданного обучающего эксперимента, /испытаний. Если испытания независимы и проводятся в одинаковых условиях, то среднее будет пределом среднего арифметического наблюдаемых значений признака при неограниченном увеличении числа испытаний. Наконец, просто по опыту, под которым понимается совокупность прямых и косвенных сведений о явлении, можно примерно знать, что ожидается в среднем. В самом деле, каждый из нас догадывается, сколько в среднем он потратит времени на дорогу к месту работы или в другое место, каков средний ожидаемый доход от намечаемого дела или расход от туристической поездки и т. д. Частным случаем такого точного среднего, когда f(x)=A(x) — индикаторный признак события Л, является вероятность, обозначаемая Р{А)=МА{х) (Р от слова PROBABILITY). Вероятность — это среднее ожидаемое число появлений А при независимых повторных испытаниях, деленное на число испытаний. Ключевым во всех предыдущих рассуждениях является то„ что в строгом смысле точные средние (и вероятности) — это параметры статистически устойчивого явления и достигаются они усреднением при неограниченном повторении того же самого явления в независимых и устойчивых условиях. Так как организовать устойчивое повторение подчас затруднительно, а неограниченное число раз просто невозможно, то часто подразумевается мыслимый или умозрительный повтор. Но чтобы «проиграть» явление сколько-то раз, проделав это ib уме или с помощью ЭВМ, нужно более или менее точно знать физическую модель явления, его природу. Так, и в случае симметричной монеты, ее .не обязательно подбрасывать, поскольку итак ясно, что в среднем число орлов должно равняться числу решек. Это классический пример для определения точного среднего. Но практика не всегда вторит теории, а действительное — желаемому. Реальные явления часто таковы, что их внутренние ме- 12
хаюизмы до конца не поддаются исследованиям, опыты уникальны, «их повторы неустойчивы, а предварительные наблюдения ограничены. В результате точное среднее остается как идеальное понятие, достигаемое в пределе, (применение которого сопровождается многими «вот если бы» или «пусть...». Интервальные средние и вероятности. Генеральная ваша мысль такова, что не только неустойчивость явлений, но и любая неабсолютность статистических знаний (недостаточность, неточность, ограниченность), свойственная почти всем реальным задачам, естественно вынуждает переход к интервальным понятиям. Расширим понятие среднего, отказавшись от его определения как числа. Интервальным средним признака f называется отрезок ,[Л1/, Mf] с границами Mf — нижним средним и Mf — верхним средним. В частном случае равенства Mf=Mf=Mf интервальное среднее переходит в точное и обозначается без черточек. Другой частный случай, когда границы интервального среднего совпадают с минимальным и максимальным значениями функции: Mf=inif9 Mf=sup f. Это означает, что о среднем ожидаемом значении признака f ничего неизвестно. Оно любое в промежутке значений /. Здесь уже не важно, устойчиво или неустойчиво явление, можно ли организовать 'повторы или нет: ничто есть ничто. Таким образом, интер1вальное среднее [Mf, Mf] дает широкий охват описания среднестатистических свойств признаков от полного незнания до точного знания среднего. Интерпретировать его можно по-разному. И как диапазон возможных значений существующего (но неизвестного) точного значения Mf в статистически устойчивом эксперименте и как (введение защитного допуска на Mf от неустойчивости явления. И вообще, как более общее понятие, чем точное среднее, когда последнее в силу упомянутых ранее обстоятельств не определяется. Важно то, что в отличие от точного интервальное среднее всегда существует хотя бы потому, что всегда, имеется возможность перехода к крайнему случаю полного названия этого среднего. При f(x)=A(x) интервальное среднее превращается ©^интервальную вероятность [Р{А), Р(А)]\ Р(А)=МА, Р\А)*=МА. На простейших примерах проиллюстрируем некоторые ее интерпретации. Пример 1.1. Пусть имеется астрагал (кость конечности животного) с четырьмя состояниями при бросании. Понятно, что точные вероятности всех этих состояний существуют. Но чтобы найти их, требуется бесконечно долгий эксперимент. По ограниченному эксперименту можно оценить вероятности лишь приближенно в виде некоторых доверительных интервалов значений/ Это и будут интервальные вероятности. Пример 1.2. Имеются два одинаковых с виду кубика с нанесенными на гранях от 1 до 6 очков. Для симметричного кубика вероятность выпадения одной грани, скажем шестерки, равна 1/6. У другого же кубика центр тяжести 13
смещен в сторону, противоположную шестерке (в средние века по вполне понятной хитрости в кубики заливали куски металла), и вероятность выпадения шести очков стала больше 1/6: рв>1/6. Неизвестно, какой из кубиков и в какой |последовательности подставляется в игре. Тогда вероятность шестерки будет интервальная [1/6, ре]. При увеличении повторов эксперимента относительная частота шестерок в разных сериях может сходиться к любому числу из этого интервала. Здесь неустойчивость вызвана вмешательством человеческого фактора в виде совершенно неизвестной стратегии подстановок. При известных стратегиях интервал сужается вплоть до точных значений (когда берется кубик одного типа). Пример 1.3. Пусть монета не бросается, а одна или другая ее сторона показывается некоторым субъектом. Это будет демонстрацией статистической неустойчивости в своей природе человеческого фактора даже при полнейшем желании делать показ независимо а равновозможно. Бели здесь и можно описать среднестатистический результат, то лишь интервальной вероятностью (зависящей от психических особенностей субъекта). Математическая модель явления. Математическая модель — это единообразная удобная для разработчиков «символьная форма описания результатов явления совместно с присущими им закономерностями. Предыдущими рассуждениями мы подошли к ее пониманию. Имеется пространство $в элементарных исходов, а на нем определено неисчислимое множество числовых признаков, одни из которых мажорируют другие, мажорируются третьими или их линейными комбинациями и т. д. Для всех абсолютно ограниченных признаков /, класс которых обозначим #~<ю= = {/ : sup|/(x) | <эо}, существуют интервальные средние Mf, Mf х — внутри промежутка значений /. Но этого может оказаться еще мало. Модели станут более универсальными, если избирательно допускать существование средних на некоторых неограниченных признаках. Для ряда признаков это естественно: так, если признак / не ограничен снизу, но ограничен сверху sup/ = #<oo числом Н, то верхнее среднее _Mf не может быть больше Н, поэтому существует. Итак, имеем Mf <оо на классе &~d={f: sup/<oo} всех ограниченных сверху функций. Аналогично, нижние средние Mf существуют на классе (—#~0) (получается из #~0 переменной знака функций) всех ограниченных снизу функций. Нужды практики при их строгом оформлении требуют в целом ряде задач существования средних на более широких классах неограниченных признаков. Назовем класс 2Г признаков, на котором определены Mf<оо, областью существования верхних средних. Мы увидим далее, что перемена знака у признаков приведет к классу (—&~), на котором будут существовать нижние средние: Mf, /e—#\ а на их пересечении будут и те, и другие, т. е. интервальные средние. Не исключается iF=#~o, но это будет самый узкий возможный класс. 14
Если это более широкий класс, то У должен удовлетворять трем свойствам: CI. g<=Sr, /<g=^e=iF; С2. f<=ff~, с, Ь+е=#, Ь+^0=Я>+/+се=#~; СЗ. /, gezff~=>f+gs=&-. (Очевидно, для &~0 все они выполняются.) Из перечисленных свойств следует: 1) се#~, где с есть признак, принимающий постоянное значение с (получается из С2 при &+=0); 2) &~zd&~0 k (из С1 и 1); 3) fi^&~, i=l, ..., k=>c+ 2 b+ifi^(F9 где плюс означает неотрицательность чисел &+г^0. Последнее свойство называется полулинейностью, а класс SF со свойствами CI, C2, СЗ — полулинейным. Математическая модель явления включает в себя: а) пространство $в элементарных событий, б) полулинейный класс ST признаков (если он шире *Fp), в) средние на нем; а все вместе это {Se, &*, М, Щ или {36, М, М) при #~=#~0. Перейдем к основной части модели: требованиям кМ и М. Аксиоматика. Средние Mf, Mf разных признаков должны находиться в определенной взаимной пропорции (устанавливаемой, например, из примера 1 или 2 введения). При принятом нами подходе, в котором средние являются самостоятельными составляющими модели, отношения между средними должны постулироваться. Среди отношений нужно выделить основополагающие, называемые аксиомами, тогда другие становятся вытекающими из аксиом свойствами. Важно, сколько задать аксиом. Если аксиоматически связать средние сразу слишком жесткими отношениями, то это сузит классы возможных моделей. Лучше создать как можно более свободную конструкцию, имея в виду, что усиление всегда достижимо внедрением дополнительных свойств внутрь конкретной модели или класса моделей. Таким образом, аксиом должно быть по возможности меньше, но чтобы остаться ,в рамках физической интерпретируемости |Модели (иначе возникнет новая теория). Аксиомы средних. Для V/, g^&~: Al. g>f=>Mg^Mf; А2. M(b+f+c)=b+Mf+c; Vft+^0, c<=&\ A3. M(f+g)^Mf+Mg; A4. Щ—/)=— Mf. Здесь стрелка =ф* заменяет слово «следует», а плюс в верхнем индексе указывает на неотрицательность числа. Обсудим аксиомы. А1 — аксиома сохранения порядка: если признак g мажорирует /, то верхнее среднее у него не меньше, чем у /. Иначе и не может быть, так как значения g всегда будут меньше /. А2 — аксиома переноса: умножение признака / на неотрицательное число и прибавление к нему любого постоянного 15
числа приводит к таким же операциям над Mf. Это понятно, ибо так преобразуется каждое значение признака. A3 — аксиома пол у аддитивности: верхнее среднее от суммы признаков не больше суммы их верхних средних. В самом деле, для суммы одинаковых признаков /+/ на основании А2 при с = 0, Ь+=2 будет справедливо равенство: M(f+f)=Mf+ +Mf. Это как раз случай «синфазного» сложения, когда положительная часть складывается с такой же положительной, отрицательная — с отрицательной. В общем, сложение разных признаков не будет синфазным, что и «ведет к уменьшению M(f+g) по сравнению с Mf+Mg. А4 — аксиома обращения: однозначно связывает нижние средние с верхними, для чего у признака меняется рнак. Следует из того, что для любого интервала [mf m] при деремене знака границы меняются местами: t[—m, —т]. По этой аксиоме, коль .скоро Mf определены на iF, то Щ будут определены на г—;У. Конечно же, дело «вкуса», какие из равносильных свойств средних брать в качестве аксиом, поэтому сделанный выбор не нуждается в обсуждении. Определение интервальной модели средних, основные свойства. Интервальной моделью средних^ (сокращенно, ИМ) называется совокупность верхних средних Mf на заданной области их существования /eiF (удовлетворяющей свойствам CI, С2, СЗ) и нижних средних Mf, /е—#~, согласованных между собой в том смысле, что удовлетворяются аксиомы А1 сохранения порядка, А2 переноса, A3 полуаддитивности и А4 обращения. Интервальная модель средних обозначается Ж или <ЛМ*">. Непосредственно из аксиом выводятся такие свойства (полагаем признаки из соответствующих областей существования): 1. M(ft+/-f с) =b+Mf+c (следует из А2 переменной знака и А4); 2. Для любых констант Мс = с (из А2 и 1 при Ь+=0); 3. M(f+g)^Mf+Mig (из A3 и А4); _ к к _ 4. M^fi^ZYiMfi — верхняя полуаддитивность (из A3 по индукции); 5. M^ifi^^Mfi — нижняя полуаддитивность (из 3 по индукции) ; 6. Mf^Mf (A3 и \4=>0=MQ = M(f—f)^Mf—Mf); 7. f^g=>Mf^Mg (из Al переменной знака функции и А4); 8. inf/^Af/, M/^sup/-(H3 7, Al и 2, так как inf /^if^supf); 9. |AJ|/=max{|M/|, iM/IXMl/l (так как ±f^\f\=>Mf^ ^Л?|/|, —Af/^Aij7|, здесь \М\ — новое обозначение, называемое максимальным по модулю средним); 10. A^(f+g)^Mf+Mg ^M(f+g) —псевдоаддитивность (из 3 и А4 М[=Щ (f+g)Zng]^M_(f+g)—Mg; из A3 и А4 Mg=M[(g+ +f)-f]^M(g+f)-Mf)', 16
11. Mg точное =>M(f+g)=Mf+Mg; M(if+g)=Mf+Mg (.из A3, 3 и 10); k k 12. MS fi— 2 Щг — конечная аддитивность точных средних t=\ i=\ Mfu t=l, ..., k\ 13. Непрерывность средних по отношению к равномерной при /z-^oo сходимости функций: sup | fn (x) —f (x) | -*0=>Mfn^Mf9 Mfn-+Mf x __ _J (так как \Mfn—Mf\ и \Mfn—Mf\ не превышают sup\fn—f\)- Итак, из аксиом получены такие естественные свойства, что нижнее среднее Mf не больше верхнего 6 и не меньше нижней грани функции 8. Для Mf также справедлив закон переноса 1. Свойства 3, 4, 5, 10 — подмена -свойства аддитивности 12, справедливого для точных средних. Формально определив ИМ, мы пока не указали конкретно, что представляет собой область существования 2F верхних средних и насколько она может быть шире iF0. Ограничились только ее свойствами полулинейности CI, С2, СЗ. Конкретизация ST будет произведена после того, как мы познакомимся с универсальным способом задания ИМ, к которому и обратимся. 1.2. ПРОДОЛЖЕНИЕ ПЕРВИЧНЫХ СРЕДНИХ Вступление. Утилитарные достоинства той или иной теории, тех или иных моделей и методов определяются по трем основным направлениям: 1) универсальность — нацеленность на работу с широким классом объектов или явлений; 2) удобство и гибкость аппарата, податливость к упрощениям, грубым прикидкам; 3) простота и естественность перевода «языка явлений» на язык адекватных им моделей и физическая интерпретируемость параметров модели. Во многом направления перекликаются между собой, но скорее это три похожих зайца, бегущих в разные стороны. Задержим взгляд на последнем. У модели должны быть выделены приоритетные, первичные параметры, связывающие ее с явлением, варьируя число и значения которых, можно достичь адекватности модели, подобно прибору, подкручивая ручки которого добиваются настройки. Мы покажем, что любой набор признаков с заданными для них средними (точными или размытыми, «в виде интервала или одной границы) может играть роль первичных параметров ИМ. Этим результатом убиваются все три зайца: универсальность достигается за счет разнообразия выбора первичных признаков, а гибкость и интерпретируемость — выбором их числа и варьируемости границ интервальных средних, • смысл которых нам уже известен. 17
Первичные признаки и средние. Пусть 9* — набор первичных признаков. Неважно, какой он, конечный или бесконечный, со-» стоит из ограниченных признаков или нет — это вопрос приложений. Каждый из этих признаков g^9* есть функция g(x) переменной х9 пробегающей множество SB элементарных исходов, поэтому они называются также первичными функциями. Для каждого первичного признака g^&* заданы интервальные первичные средние Mg, Mg или одно из этих значений. Волнистая черта подчеркивает «е столько то, что это первичные средние, сколько то, что они могут быть в общем не согласованы между собой в смысле выполнения аксиоматических свойств Al, А2, A3 и А4. Необязательность контроля согласованности дает определенную вольность, упрощающую процедуру задания первичных средних, а значит, и самих моделей. Для g может быть известно Mg и (или) Mg, поэтому выделим из набора &* два доднабора: верхний ^в, на котором определены Mg, и нижний SH с Mg. На их пересечении ^в(1^« заданы и те, и другие, т. е. первичные интервалы Mg, Mg средних. Нижний первичный поднабор &н моментально обращается в верхний. Для этого, опираясь на А4, определим М(—g) =—Mgy и, таким образом, вместо ,g с заданным нижним средним Mg имеем функцию с противоположным знаком gv=—g с заданным на ней уже верхним средним, равным Mg\ =—Mg. Подвергая указанному обращению все g^&H, исходный набор ^* переводим в эквивалентный верхний первичный набор &=&B\J(—^н). Теперь заданным считается Mg, g^$. Такое приведение, подчас неудобное с позиций естественной интерпретируемости параметров модели, оказывается тем не менее весьма удобным для унификации и упрощения записи формул. Несмотря на отсутствие требования согласованности, первичные верхние средние Mg, g^S, нельзя задавать совсем произвольно, так как это может привести к противоречию (скажем, g(x)^0, aMg<0). Первичные средние Mg, g^&, называются непротиворечивыми, если при любом конечном выборе g%^S, чисел с+г^О и сг таком, что c + ^lc+igi(x)'^0, имеет место c+^c+iMgi^zO. Признаки в левой части первого неравенства назовем вторичными. Обозначим 3?+&= {g(x) =c + 31c+igi(x), gi^&} — класс всех возможных вторичных признаков, т. е. конечных линейных комбинаций первичных функций gi с неотрицательными при них коэффициентами c+i и произвольным свободным членом с. Назовем: i?+# полулинейной оболочкой 9 (или полулинейной комбинацией признаков 9) и, пользуясь аксиомой А2, формально перенесем на нее первичные средние Mg = M(c+2cfgi) = c+ 2 cfMgi, gZEX+}. (1.1> 18 ,
Теперь требование непротиворечивости формулируется следующим образом: т. е. для вторичных признаков g, принимающих только неотрицательные значения, верхнее среднее (заданное, преобразованное из нижнего или перенесенное с 9 на &+%) не должно быть отрицательным. Необходимость непротиворечивости не требует пояснений. Ниже на примерах будет .показано, во что оно выливается. Переходим к основному результату. Обозначим &*$ = {/: f^ ^:g^3?+9} — класс признаков, таких, что .каждый »из них мажорируется хотя бы одним вторичным. Таким образом, имеем /еЗГ ^, если в j?+^ существует хотя бы один признак g9 такой, что f^g. Очевидно, что в 2Г& входят все ограниченные сверху признаки (мажорируются, постоянными cgS7"1^), поэтому Уо<^^^9 причем &~о=&~&, если все g^S ограничены. Назовем 2Г^ классом 9-мажорируемых признаков. Теорема продолжения и согласования средних. Теорема -1.1. Если первичные средние Mgu gi^S, непротиворечивы, то по формуле Л1/= inf Mg9 "f€Ef9; Al/= _ДГ( —/), /£=-*>. g.f(x)<g(x)<=&+& (1.2) они продолжаются, делаясь согласованными, на все &-мажорируе- мые признаки f^&~& , образуя ИМ Ж с областью существования верхних средних 2Г=2Г%. Иначе, также (1.2) записываем: Mf = M{Mg:f(x)^g(x)e^X+ >}. Доказательство. Аксиомы А1 и А2 очевидны из (1.2), аксиома А4 выполняется по определению. Остается проверить аксиому A3. Так как /i (x) ^ <^W^^, f2(x)^g*^x)^&+&^fi(x)+f2(x)^g*(x)+g**(x)=g(x)€=&+& и Mg*+Mg**=Mg, то ^(/i + /2) = inf{%:/i + /2<^^+^}< < inf {[Mg* + Mg**\ :Д <g*^#+^> h <g**e=<£+ 9} = Mft + Af/„ что и требовалось доказать. Согласно (1.2) для нахождения Mf из первичных составляются вторичные признаки g(x)^=c + ^c+igi(x) так, чтобы они мажорировали /(*), т. е. g(x)^f(x). Каждый из этих g(x) будет иметь в общем свое значение Mg> определяемое (1.1). Берется «наилучшее» среди них, т. е. то, которое минимально. В (1.2) заложен следующий принцип конструктивной математики: получать лишь результаты, к которым можно сколь угодно 19
приблизиться за конечное число операций. Именно поэтому вторичные признаки набираются как конечные суммы первичных. Действие этого принципа раскрывается вытекающим до (1.2) следствием. _ Следствие. Каждому f, верхнее среднее Mf которого конечно, и заданному е>0 всегда можно указать такую мажорирующую конечную линейную комбинацию g(x)=c+^c+igi(x)^f(x) первичных признаков (т. е. вторичный признак), что Ж/ + 8>с+ £ ^Mgt = Mg. Поскольку g^f=>Mg^Mf, для следствия веряо \Mg—Л3/|^е. При уменьшении е понадобится вовлекать_в g большее число первичных признаков для (приближения ik Mf, количество операций возрастает. Отношения между определенными нами множествами признаков иллюстрируются рис. 1.2. Здесь каждая из верхних полусфер включает в себя все нижние. Согласно теореме 1.1 средние с первичного набора 9 продолжаются на линейные комбинации 9?+& первичных признаков (вторичные признаки) и уже через них распространяются на класс 2Г% признаков, мажорируемых вторичными. Это и будет областью существования верхних средних; ядром ее является класс iF0 всех ограниченных сверху признаков: tFoczSFg.B 2Г& войдут и .неограниченные признаки, если неограниченные имеются среди первичных, а иначе, &~&=&~о. Согласованные первичные средние. Замечательно то, что (1.2) не только дает верхние средние Mf для V/eiF<^ (в частности, Mf, Mf для VfeiFoo), но и попутно, подстановкой gi^Sl как части /, уточненные и согласованные между собой Mgi. Так как gi мажорирует сам себя как первичный признак, то согласно (1.2) ffigi^zMgi, gi^S, Если получается Mgi = Mgu то первичное значение Mgi само по себе уже согласовано с другими средними и обозначается Mgi. Если же Mg{>Mgi, то найдутся вторичные признаки, мажорирующие gi, уточняющие Mgi, а само Mgi будет несогласованным и без ущерба может быть изъято из первичного набора. Таким образом, могут влиять, на вид ИМ только согласованные первичные средние, да и то, как будет видно дальше. Рис. 1.2. Этапы продолжения средних 20
не обязательно все. Их минимальное число называется размерностью ИМ. Интервальная (Модель, .первичными для которой являются Mg, g^SS, обозначается <Aft^>, а если все несогласованные первичные еризиаки исключены из набора, то <М^'>> 3'cz9. ' Расширение первичного набора включением в него средних Mf, найденных по (1.2), не меняет ИМ, поэтому получаем одно» и то же, если 'брать^ за первичный щабор $?, 9' или все iF= =&*&:J[=<;MS?y=(M&'y = (M&~). Заметим при этом одну особенность, что_несогласованные первичные признаки gu для которых Mgi>Mgit обязательно должны быть мажорируемы хотя бы одним из вторичных признаков^&З4"^, который и даст на основе (1.2) уточненное значение Mgu Таким образом, 3?**&г = =&+9 и #>'=#>. _ Из сказанного также следует, что первичные средние Mgir gi^§> являются согласованными в том и только том случае, если справедливо: gi(x)^g(x)^2?+9=>Mgi^:Mg для всех gi^'ff и g<^%+&, удовлетворяющих первому неравенству. Тогда Mgi = =Mgu Vgi<=9. Признаки случайных величин. В качестве примера рассмотрим тот случай, когда 86=91 — числовая прямая. Такое явление имеет числовые исходы и называется случайной величиной (сокращенно св.). Признаками / св. могут быть любые числовые функции f(X) на 91 (далее числовые исходы Х^9£ обозначаются заглавными буквами). Случайная величина называется дискретной, если возможные ее значения составляют конечное или счетное множество Q точек. Удобно считать для таких с в. пространством исходов всю прямую 91, а тот факт, что QaM, отразить добавлением первичной вероятности P(Q) = 1 (напомним, что Р(А) =МА (х)), согласно которой Q есть достоверное событие. Так как P(Q)^P(Q) = 1, то можно написать P(Q) = 1. Некоторые характерные признаки с в. упорядочены в табл. 1.L Дадим два примера расчета их средних по теореме 1.1. Пример 1.4. Пусть известно, что среднее св. равно /л; записываем MX— = m (т. е. М(±Х=±ш). Оно согласовано и продолжается на основании свойства 12 на вторичные признаки f(X)=c+CiX: M(c+CiX)=c+CiMX. Область существования $Г составляют функции, мажорируемые прямыми c+ciX Так как с*—2сХ^—X2, то — Х2(=&~ и М(—X2y=min(—2cm+c2)=—m2, т. е. MX2=m\ с — Функция X2 не мажорируется прямыми, поэтому AlX2 = oo и X^fF. Для любых индикаторных признаков Л(х) событий невозможно подыскать мажорирующую прямую c+CiAr, кроме с=0, Ci=l, поэтому Р^(А) = О, Р(Л)==1. Отсюда вывод, что первичное среднее, будучи в единственном числе, нетривиальных данных о событиях не несет. Пример 1.5. Пусть первичным для с. в. X является верхнее среднеквад- ратическое (мощность св.) МХ2=Б, что порождает ИМ размерности 1. 06- 21
Таблица 1.1 -Характеристика случайной величины Формальное обозначение Признаки Q — множество значений св. P{Q) = l 'Г^Г-1 Среднее св. точно равно т лежит в интервале m, m МХ — т МХ = т> МХ = т Среднеквадр этическое св. не меньше Ь и не большее ЛГХ2 = 6, МХ* = Ь S^U Вероятность, попадания в отрезок А лежит в заданных пределах Р(А), Р(А) Вероятность «выброса» за уровень h не больше рн P(X>h) = ph Среднее модуля св. лежит в указанных пределах М\Х\, М\Х\ \Х\ Средние гармонические признаков M_cosuX, McosuX MsinuX, MsinuX Вероятность попадания в отрезок А больше, чем в отрезок В (§ 1.4) М[В(х) — А(х)]^0 -,□= =□1 В 22
/ i *гму I {а1<х^аг} о »- a,\ н*-а-9-)г(Ы ласть существования верхних средних &'& составляют все признаки f(X),"мажорируемые параболами вида с+С2+Х2, т. е. те /, для которых ton f(X)/X2<.oo. При ai>0, |Х|->оо подбирая, как это видно из рис. 1.3, соответствующим образом мажорирующую параболу: с=0, c+2=ar2, {al<X<a2}<X2/a2if находим: Р(а1<:Х<а2)<МХ21а21^Б1а21 |(при 02=оо имеем аналог неравенства Чебыше- Рис {3 Расчет вероятностей па ва). Равенство будет, когда правая часть мощности меньше 1, т. е. при ai>]/5 (при аг<0 заменяется ах на а2), иначе вероятность Р тривиальна и равна 1. Таким образом, знание 5 делает нетривиальными верхние вероятности отрезков, удаленных от начала оси по крайней мере на расстояние, превышающее \f В. Найдем при тех же исходных данных MX. Мажорируя прямую X параболой: X^ic+c+гХ2, VX, что эквивалентно 4сос+2^1, и минимизируя при последнем ограничении (замененном на равенство) среднее параболы М(с+с+2Х2) = = с-\-с+25, находим ее коэффициенты с+2— 1/(2 J/ £), с=1/4с+2= VЪ\% подстановкой которых получаем MX=\f 5. Аналогичен путь нахождения М(Х±т)2> для чего (Х±т)2 мажорируется параболой с+с+2Х2, откуда вытекает требование на ее коэффициенты: с>с+2т2/(с+2—1), минимизируя при этом ограничении среднее параболы, получаем коэффициенты с+2=1 +|т|"^&, с= = (}/Т+|т|)|т|, откуда М(Х±т)2 = (\т\ + У В)2. Пусть теперь к среднеквадр этическим в качестве первичных добавляется нулевое среднее МХ=0 (что эквивалентно М(±Х)=0). Тогда ИМ сужается, ее размерность становится равной 3. Вторичными будут уже любые направленные вверх параболы со средними на них М[с-\-с+2(Х—d)2] = с+с+25+ + с+2с2и где использовалось свойство 11 § 1.1. В частности, отсюда М(Х±т)2 = =МХ2+т2=Б+т2. Будем искать вероятности событий, а именно отрезков. Среди парабол, мажорирующих индикаторный признак отрезка: {ai^X^.a2}^c-\-c+2(X—Ct)2, а это будет при с^О, Ci^fli, c+c+2(ai—ct)2^l, нужно найти такую подбором коэффициентов с, си c+2t у которой минимально верхнее среднее. Несложными вычислениями находим: с=0, Ci=— 5!au c+2=(at+£/ai)-2, где считалось ai>0 (при а2<0 нужно at заменить на а2), в результате вероятность равна минимальному среднему параболы: P(ai^X^ia2) = (l + a2l/5)-i. Вероятность нетривиальна при любом tfiX) (или а2<0). Нижнюю вероятность отрезка рассчитаем, «вписав» параболу (нанесена штриховой линией на рис. 1.3), с которой переносится на событие среднее Я(а13 = 1 ;x<a2)>i — м[; Ab + ja. + a,)2 (a2_ai)2 • аг+а2 )'(-!_У_ Правая часть больше 0 при —aia2>5 (отсюда ai<0 и a2:>Q), и тогда получаем нижнюю вероятность (иначе, она 0). Итак, знание нулевого среднего, 23
уточняя верхние вероятности отрезков, отстоящих на |ai| от начала оси, делает нетривиальными нижние вероятности достаточно широких отрезков, включающих начало оси. Отметим, что дополнительное знание МХ2=Ь вероятностей не меняет. Признаки случайных процессов. Случайный процесс Xt есть нумерованная индексом t (называемым временем) последовательность с. в. Значениями t могут быть отрезок [О, Т] временной оси М9 вся ось, некоторые дискретные точки-отсчеты t\, h, ..., tn — на этой оси (тогда процесс становится вектором). Это сейчас яеважно. Обозначим Т — множество этих значений. Пространство исходов SS будут всевозможные реализации хи ieT как функции времени U Чтобы описать процесс, нужно описать каждую св. Xt в отдельности своими признаками, как это было проделано, а также связь между Xt и Xt- при различных t и tf'eT. Признаки этой связи, .в частности, составляют произведения XtXf, а их средние MXtXt'=bt,t', MXtXt-=bt,t' будут нижней и верхней корреляционными функциями. В более общем случае — это корреляции после лреобразования каждой св. одной и той же функцией F (так называемые безынерционные преобразования), тогда первичными параметрами процесса будут MF(Xt)F(Xt)f MP(Xt)F(Xt'). Так, если F(X) = {X>h} — индикаторная функция превышений уровня Л, то это будет корреляция превышений (при h=0 корреляция полярностей). Отличными от указанных являются признаки в виде интегра- 1 — Т лов, такие как jjF(Xt)dt. В частности, —М §X2tdt будет верхней т ^ о вредней интегральной мощностью процесса на отрезке Т=([0, Т]. Таким образом, признаки и их средние являются универсальной формой описания любых явлений. Сложность описания диктуется не столько пространством <% исходов, сколько размерностью интервальной модели, определяемой числом первичных средних. Голая модель. Пусть первичным для ИМ является единственный факт: событие В является достоверным, и более ничего. Это соответствует первичной вероятности Р(В) = 1 (или же Р(Б) = 1, что то же самое). Такая модель называется В-индикаторной и обозначается Эв- Ее описывают средние Mf (x)= sup f(x), а об- ласть существования составляет класс всех признаков, ограниченных сверху при х^В. Если B=i2?, то модель называется голой и обозначается 3(. Она описывается средними M/=sup/, и ей соответствует полное отсутствие данных о явлении, а область существования составляет класс &~0 всех ограниченных сверху признаков. Модифицированная формула продолжения. Замена первичных: признаков gi^S и их средних Mgi (приведенных к верхним) на g'i(x) =c+igi(x) +'с и на Mg'i = c+iMgi + c, очевидно, носит эквива- 24
лентный характер. Центрируем первичные признаки, заменив g* о о на gi(x)=gi(x)—Mgu и тогда fflgi=0. Центрированный .набор о о признаков обозначим 9 и М8>=0 — все нулевые первичные значения. Для этого набора (1.2) преобразуется: M/ = inf{[c+ 2 ctM°g]: с+2 ctgi(x)>f(x)) = = inf (c:c>/(*)- 2 cfgi(x)} = =inf sup [/ (x) -Zcf'gt (x)]. (1.3) 4 * о О Очевидно, любой вторичный признак вида g{x)=^ic+igi(x) о центрирован, т. е. его первичное верхнее среднее Mg=0 и, наоборот, любой центрированный признак представляется в указанном виде. Поэтому смысл формулы (1.3) состоит в отыскании такого из вторичных центрированных признаков, который наименьшим образом отклоняется вверх от функции f(x)t т. е. (Наилучшей, что ли, верхней аппроксимации функции f(x) центрированными вторичными признаками. Вычисления по (1.3) поясним примером. Пример 1.6. Пусть случайная величина (т. е. 96=91) задана одним первичным значением Л?е""^х'=ц. Требуется найти P(0^X^d). Задача по (1.3) сводится к нахождению величины P(0<X^cf)— minmaxi[{0<X<d}— с4- х —c+(e~!xl-ii)]=minmax{l—c+(e~d—i|i), с+р) (для наглядности советуем на- с+ рисовать графики функций). Пусть e~d<ji, тогда минимум достигается при равенстве обеих частей под знаком максимума, откуда c+=ed, P(0^X^d)=ed\x. При e~d^[i минимум достигается при с+=0, и тогда искомая вероятность равнд I. Дополнения. I. В область существования & полагались входящими признаки с Mf=—оо. Интервальную модель можно полагать заданной на всех признаках f, назначая для тех f, для которых Mf не существует, среднее равным бесконечности: Л5/=оо; аналогично Л1/=—оо для /, у которых нет нижнего среднего. Аксиомы ИМ в этом случае в общем удовлетворяются, если считать 0-оо=0 и учесть, что класс всех функций не замкнут относительно операции сложения, так как если /(*о)=о°, g(xo) =—оо при некотором Хо, то совершенно неясно, чему будет равно f(x0)+g(xo) = oo—оо. Целесообразно аксиому A3 считать выполненной только для тех признаков, для которых сложение определено. 2. Если первичными являются как нижние средние Mgt ge#H, так и верхние Mg', g'^&B> то вторичными признаками будут всевозможные конечные линейные комбинации вида g(x) = c+ S cfg\(x)— 2 <ltgi(x), ^e^B, gi€E&n, 35
с произвольным коэффициентом с и неотрицательными с+< и d+t. Формула яродолжения (1.2) тогда примет вид Mf = ini {[с+ 2 4Щ - 2 4 M8i] : С+ 2 4g((x)- - 2 4*/to>/(*)}. ^ (1.3) записывается в виде Ж/= inf suP[/w~ 2 ^(^w-Afft)+ 2 4(&(*)-м&)], ч*ч x ТДе gi<=$n, g'iG^B. 3. Полагая #=#н11^в, всегда можно сделать так, чтобы на § были заданы интервалы средних Mg, Mg, g^3. Для этого незаданные средние заменяются ла соответствующие экстремальные значения функции g. Тогда вторичными будут всевозможные конечные линейные комбинации — линейная оболочка #, обозначаемая ^^ = {g(x)=c^-Jicigi(*)}, где gi<=$', а с и с{ произвольны. «Формула продолжения средних запишется в виде M/=inf{[c + 2 Meigi]:c+ 2*itt(*)>/W}. Ж/ = inf sup [f (x) — 2 (ct gi (x) - Mcj gt)\, ct x где A!cigi = CfA!gi>npH Ci>0 и Magi=CiMgi при с*<0. 4. В формуле продолжения класс &+& по свойству 13 вполне может быть заменен на его замыкание [3?+&] относительно равномерной сходимости. В этот класс кроме конечных полулинейных комбинаций функций из & входят их равномерно сходящиеся пределы. Сказанное имеет, конечно же, нетривиальный смысл лишь тогда, когда набор & бесконечный, иначе 3?+& и его замыка- дие совпадают. 5. Формулы продолжения аналогичны формулам двойственности, используемым в теории обобщенных чебышевских неравенств [17]. Только работают -они здесь в другой аксиоматике. 6. То что вторичные признаки являются конечными суммами первичных, .а не бесконечными, — это принципиальное в нашей теории «нежелание» добавлять «лишних» аксиом, ибо не доказуемо, что сумма бесконечного (счетного) -числа нулей, рассматриваемая в целом, а не как предел, есть ноль. 7. Каждый признак f(x) сам по себе есть св., поэтому ИМ <Л1^"> можно ^рассматривать как совокупность согласованных средних значений всевозможных с. в., определенных на пространстве 8В. Набор признаков gx, т^Т, в совокупности дает случайный вектор, если Т дискретно, или процесс, если непрерывно. 8. Тот факт, что ИМ определяется -средними Mf необозримого множества ЯГ признаков, не является помехой применения. Возможность вычисления Щ по (1.2) отнюдь не означает, что для каждой / эти вычисления должны быть проделаны. Совсем наоборот, как далее будет видно, нет нужды в прикладных задачах выходить за рамки вторичных признаков. 9. Введение любых свойств непрерывности средних, не следующих прямо яз аксиоматики, выделяет подкласс моделей из общего их ансамбля, равно как другие дополнительные свойства. .26
10. Начальные моменты. Задают с.в., если первичными для нее являются средние степенных функций: MX', MX', /е/, где J — набор целочисленных неотрицательных индексов. Средние MX' называются нижними моментами /-го порядка, a MX' — верхними. Первый момент MX, MX называется нижним и верхним средним самой св., a MX2, MX2 нижней и верхней мощностью. Абсолютными начальными моментами называются моменты модуля с. в. Л1|Лф, Л!|А'р', />0. Очевидно, при целых четных неотрицательных j это есть просто начальные моменты. В общем, / может не быть целым. Для абсолютных моментов, если они согласованы, должны выполняться неравенства: при r>s^0 (M\x\r)l/r>(M\x\syt\ (м\х\гУ'г^(м\х\*у/* (доказывается по аналогии с [1], стр. 169). 1.3. ОТНОШЕНИЯ МЕЖДУ ИНТЕРВАЛЬНЫМИ МОДЕЛЯМИ Здесь интервальные модели геометрически изображаются как некоторые выпуклые «тела» -с характерным внешним контурным описанием, отношениями включения и операциями объединения и пересечения. Причем, так как ИМ полностью определяется своими средними, через них только и будем вводить ниже формальные отношения и операции между ИМ. Геометрическая иллюстрация ИМ. Пусть возможных элементарных исходов конечное число: $&={хи ..., хг}7 и введем вектор вероятностей P=(pi, ..., рг). Так как 2Pi=l, то размерность Р на 1 меньше числа исходов г. Множество всех Р обозначим J={P:A>0, 2A=ll Это есть подмножество г-мерного эвклидова пространства &1Г. На рис. 1.4 при г=3 этим семейством является треугольник. Для каждого фиксированного Р^У среднее значение признака f(x), он же вектор f=(f(xi), ..., f(xr))f равно скалярному произведению /на Р: Mpf=2f(xi)Pi. 1=1 Пусть Ло — семейство векторов, JCoczSf. Тогда средние не будут уже точными, а для каждого / будут определяться своими границами Mf= inf MPft Mf= sup MPf. pt Рис. 1.4. Геометрия ИМ 27
Убедимся в том, что так определенные нижние и верхние средние удовлетворяют аксиомам ИМ: M:g(Xi)>f(Xi)^Mpg^Mpf9 VP=*Alg>M/. A2:M(b+f + c)= sup b+Mpf + c = b+"Mf+c. PeJo A3:M(f + g)= sup (Mpf + Mpg)^. sup M\>f+ sup MPg = A4:-Aff=- inf Mpf= sup AfP(-/) = M(-f). — Ре=Л£0 Pe=JK0 Средние не изменятся, если семейство Жо заменить на его выпуклую оболочку — «тело» векторов Р. Это и будет ИМ Ж. Таким образом, любое выпуклое "«тело» Ж векторов вероятностей (Образует ИМ на дискретном пространстве ЯВ. И наоборот, любой ИМ соответствует выпуклое «тело» Я?. Как оно получается? С каждым средним Mf связывается полупространство векторов Р, удовлетворяющее условию Mpf^Mf, т. е. окаймленное с одной стороны гиперплоскостью Р_: MPf=Mf. Вид / дает направление гиперплоскости, а значение Mf — ее положение. Модель как совокупность Mfy /eiF, есть пересечение соответствующих разным Mf полупространств, образующих выпуклое тело Ж. Сами -значения средних Щ дают положения касающихся Ж гиперплоскостей. Первичные средние fflgi, t=l, ..., k, определяют исходные первичные гиперплоскости Р: Mpgi=Mgi9 задающие внешний вид Ж. Если их число конечно, то ИМ будет многогранником Жъ. (как это видно из рис. 1.4), грани которого составляют согласованные значения Mg$=Mgi. Несогласованные же, такие как Mg^ проходят вне Ж и никакого влияния не оказывают. Есть гиперплоскости Р: Mpg=Mgy .которые проходят через вершины многогранника Ж, но не совпадают ни с одной из его граней, Kaii MgQ. Хотя они и согласованы, но их исключение также не повлияет на вид Ж, и в этом смысле они избыточны. Удаление всех избыточных элементов из первичного набора наглядно представляется лишь при конечном числе первичных признаков, и может читать непреодолимым при бесконечном. Сказанное относится не только к дискретным, но и к произвольным SB. Число элементов безызбыточного первичного набора составляет размерность ИМ. Интервальные модели бывают конечной и «бесконечной размерностей. В первом случае — это число граней многогранника Ж, за исключением тривиальных, совпадающих с гранями 2f. Размерность ИМ характеризует тот минимальный объем данных, который нужен для ее задания. Конечно же, для практического применения целесообразными являются именно /наборы из 28
конечного числа данных. Интервальные модели бесконечной размерности — это выпуклые тела, контуры которых задаются бесконечным числом касательных гиперплоскостей. Обсуждение. Теперь следует остановиться, чтобы обсудить смысл принятого подхода. Что лучше, описывать ИМ «телом» Ж как множеством «векторов Р вероятностей, своего рода «атои^оз» модели, или только внешними контурами, т. е. Mg, g^&? Если 26 состоит из небольшого числа элементов, то, по-видимому, и так, и так, принципиального различия нет. Но если число элементов 2$ растет, то также растет и размерность Р, все мельче становится атомы модели. Описание Р несоразмерно усложняется при переходе к бесконечному числу неходов, в частности, к непрерывному пространству 8В> например числовой прямой (и еще более — к процессам Xt). Тодда «атомы» и вовсе исчезают: становятся недосягаемыми. Для зада/ния Р приходится прибегать ко всевозможным ухищрениям, обсуждаемым <в следующем параграфе. В то же время контурное описание, т. е. описание первичными параметрами, от «атомов» Р никак не зависит, да и определяется, минуя Р. Здесь все зависит от числа граней (размерности ИМ) и их положения (вида gi^S), но отнюдь не от 'Пространства SB. Почти как в геометрии: неважно, чем начинено тело, какой оно материи, а важно лишь внешнее его строение и пропорции. иерархия моделей. Для двух ИМ Ж\ и Жг на й?, если M\f^~ z^Mzf, Vf, то будем говорить, что Ж\ включается в Ж2 и писать JI\<=iJC<l- В указанном неравенстве, если f не ограничена сверху и Mf для нее не существует, то формально считаем его бесконечным. Необходимым условием включения Жх^Ж^ является то, что область существования (F\ средних M\f должна быть не уже области 5^2 существования M2f: ^гэ^г. Включение иллюстрируется рис. 1.5 как включение «тела» Ж\ в Жг- Будем говорить также, что Ж\ более узкая, чем Jf2, а Ж2 — более широкая. Добавление первичных параметров отсекает новые грани у «фигуры» Ж и приводит_к ее сужению. К сужению приводит и уточнение средних: для Mf — это уменьшение, а для Mf — увеличение, поэтому включение Ж\^иЖ2 соответствует тому, что в * <Ж\ вложено больше данных или же они более точные. В результате Ж\ более «подробная, чем Ж%. Самой широкой среди всех является голая модель (на рис. 1.4 — это множество 3 всех векторов вероятностей), определяемая средними Alf=sup/, /е#"о, на всех ограниченных сверху признаках и обозначаемая 2f. Она получается, если никаких данных — «одежд», отличающих одну ИМ от другой, нет, они отсутствуют: $^=0, т. «е. о явлении ничего неизвестно — своего рода «черный ящик» с абсолютно загадочной структурой, выход которого х наблюдается. Для & интервал средних Mf, Mf каждого ограниченного признака f^tFoo совпадает с диапазоном inff, sup / его возможных значений. 29
Итак, самой неточной среди всех, включающей все остальные, и самой примитивной по способу задания и своей структуре является голая ИМ: 9^>Ж, УЖ. Мы говорим, что какое-то х из SB произойдет, не зная никаких закономерностей. По мере накопления данных ИМ сужается. А существуют ли самые узкие ИМ? Для дискретного пространства 9S — да, это векторы Р вероятностей. А в общем, ответ отрицательный, о чем говорилось в обсуждении выше. Потребность логической замкнутости иерархического класса всех моделей приводит к необходимости введения пустой модели 0. Это обозначение неправильного задания ИМ, когда первичные значения Mg (противоречивы, в результате границы среднего, формально найденные по формуле продолжения (1.2), будут не только «перепутаны»: нижняя больше верхней, но и убегают в бесконечности: М/ = оо, Mf=—оо. Этими средними на V/ и считаем олре- деленную 0 — единственную ИМ, своей несогласованностью выходящую из ансамбля всех остальных. Так как для любой ИМ Щ^—оо, М/^оо, то 0CZJT, УЖ. Пусть Q —_набор признаков. Назовем Q-расширением Ж такую модель <М^>, у которой первичными являются соответствующие Ж значения Mq, q^Q (они, очевидно, согласованы). Расширение иллюстрируется рис. 1.5. Это способ упрощения Ж за счет включения ее в многогранник со сторонами Mq, q^Cf — новыми первичными данными — и пренебрежения всеми остальными знаниями о Ж. Конечно, чтобы не потерять при расширении слишком много, нужно специально выбирать направления граней (вид q), и целая проблема, какие грани экономно будет ввести, какие оставить и сколько их. Набор Q признаков называется определяющим для_ модели Ж, если ее ^-расширение совпадает с самой моделью: (М(2}=Ж. Определяющие — это те признаки, которые в своей совокупности полностью обеспечивают ИМ всем необходимым. Ясно, что определяющим для ИМ всегда является набор & первичных приз- Рис. 1.5. Расширение ИМ беско- Рис. 1.6. Пересечение и объединение ИМ нечной размерности до ИМ с четырьмя первичными значениями 30
наков (или безызбыточный вариант этого набора), а тем более любой включающий & класс признаков, например вторичных. Пересечение ИМ. Пусть Л\ « Л2 — две ИМ на одном и том же (произвольном) пространстве 95 и каждая из них полностью определяется своими согласованными средними M\f, f^&~\ и Щ, fe#~2, на областях &~\ и &~2 соответственно. Пересечением Л\ и Лъ_называется ИМ Л=Л\/\Л2> определяемая средними М}=тт{М\$, M2f}> V/^#~iU#Y Здесь волнистая черта означает, .что Mf9 во-первых, могут оказаться несогласованными между собой, так как не выполняется аксиома A3 полуаддитивности, и тогда должны подвергнуться согласованию. Это видно из рис. 1.6, где uiTpjxoBofl линией ^означены касательные, соответствующие средним Mi/, M2f и Mf, Mf<Mf= min{Mi/, Mrf}. А во-вторых, Mf продолжаются по формуле (1.3) на класс 3?+(!F\\}&~2) 'признаков, составленных из полулинейных комбинаций iFi ©месте с &~2- Пересечение означает, что верными являются данные, содержащиеся как в Л\9 так и в Л2, и из них берутся наиболее точные. В результате сужаются как интервальные средние, так и ИМ: Л\/\Л<2аЛ\у Л\1\Л2аЛ2 (см. рис. 1.6). Первичными средними (гранями) пересечения будут первичные средние (грани) Л\ и Л2 и никакие другие, поэтому пересечение (М${у\(М2$2у= C$f(^iU^2)> равносильно сложению двух первичных наборов между собой в единый ^iU^2 с сохранением первичных значений, из которых некоторые оказываются несогласованными и не влияют на вид 'пересечения. Областью существования пересечения будет 3?+(&~&1[)!Г&2). Операция пересечения распространяется на произвольное число ^в = <^о^г0>» вев: М= A^^M/==infMJ, V/c=£+(Ufe)- вее вев в Используем этот факт. Пример 1.7. Представление ИМ пересечением. Любую ИМ <№%} можно представить в виде пересечения <Ш>= Л <Щ) g<^& моделей (Mg> размерности 1, определенные каждая одним первичным значением Mg признака g, заменяющего индекс 0. Тогда &rg=grQ составляют признаки, мажорируемые g, a 2^ (11^"*)=^ ~~ их полулинейные комбинации. Объединение ИМ. Пусть ^е = <'М#"в>> 9^® — семейство ИМ на #?, индексированных параметров 6, пробегающим множество в. Определим их объединение (обозначается V) следующим образом: JL= У£Q&Mf= sup Mef, V/eflfe- 31
Здесь средние Mf9 полученные максимизацией Mef по 6, согласованы, что легко проверяется и что иллюстрируется рис. 1.6, где объединение обведено штриховкой и соответствует «выпуклой оболочке тел Ж\ и Жъ. Как видно из рис. 1.6, при объединении рождаются новые грани (первичные признаки), обозначенные штриховыми линиями, не совпадающими с гранями Ж\ и Мъ изображенными сплошными. При этом грани объединения не будут выходить за рамки линейной оболочки граней составляющих, т. е., если быть более строгими, при M\ = (JA$\) и Мъ=<М$<1> первичные признаки объединения будут располагаться в классе Операция объединения JLxSjMi — символическое отражение фразы: («Верна (правильно отражает явление) модель Ж\ или J#2». Это сомнение, неуверенность, ведущая к расширению ИМ. Пример 1.8. Представление ИМ объединением «вершин». Пусть пространство исходов SB дискретно. Каждой ИМ конечной размерности можно указать вершины Р* — векторы вероятностей. На рис. 1.6 для Л^ — это Pi, P2, Рз, Р4 и Jti является их оболочкой. При объединении двух ИМ вершины будут выбираться из вершин Jti и Jt2- Никакие другие появиться не могут. Для ИМ любой размерности, когда Jti = VPie есть оболочка некоторого в семейства векторов Р1е, задающих тело Jd (или только, его контуры), и аналогично ,#2=N/1*20» в^РН0 -^iV-^^V PieN/1*2 0» т- е- производится объединение Ф ее этих семейств в одно. Причем достаточно ограничиться теми элементами семейств, которые при объединении оказываются крайними (не входят © выпуклые оболочки других). Свойства операций. 1. Идемпотентность: Ж/\Ж=Ж, Ж\/Ж=Ж. 2. Коммутативность: Ж\1\Ж2—ЖъГ\ Жи Ж\\/Ж2— Ж^МЖ\. 3. Ассоциативность: (Ж\/\Ж2)/\Лъ= Ж\/\(Ж2/\Жъ), (ЖхУЖ2) \Л^з= Жх V (ЖгМЖъ). 4. Ж/\3(=ЖУ ЖУ&=У. 5. ЛГД0=0, Ж\/0\=Ж. Эти свойства доказываются элементарно и распространяются на любое число операций. Очевидно также, что Ж\С1Ж2=^^1/\ Ж2 = Ж\9 Ж\\/Ж,2=:Ж2* Отсюда 'получается сразу же такое известное в алгебре свойство. 6. Закон ноглощения: [Ж\/\Ж2)\/*£\ =Жи (Ж\\/Ж2)/\ Ж\=Ж\ (так как Ж\/\Ж2<=Жи Ж\\/Ж2^>Л\)- Это есть замена привычного для булевских алгебр свойства дистрибутивности, которое для наших операций не выполняется. Причина в том, что объединение V ИМ «е обычное множественное, всем привычное, а выпуклое, так как в результате должны образоваться снова ИМ, которые по своей «природе выпуклы. И, как следствие, невозможность определить дополнение к ИМ (или противоположную ИМ), так как к выпуклому телу .дополнение не будет выпуклым. 32 !
Дополнения. 1. Для дискретных пространств SB формула (1.2) вытекает из формулы двойственности линейного программирования, когда по ограничениям г г ^ г находится максимум линейных форм Mf=max 2 f*Pi- р £=i 2. Операции над моделями могут быть определены, если ИМ заданы на разных пространствах исходов: JCi—на SB и а Жъ — на SB г- Тогда составляется их объединение SB^SB^SB^ и Л^ дополняется первичным значением Pi(#?i) = l, а Жг — значением V%(SB?) = \. В результате ЛГ4 и ЛГ2 сводятся к одному SB со всеми вытекающими отсюда возможностями. 3. Если говорится, что явление с исходами SB описывается семейством моделей J(q, GeB, то это фактически означает, что моделью является объединение \/J[q. в 4. Содержащееся в примере 1.8 представление ИМ как объединение вершин не является универсальным в силу невозможности для произвольных пространств SB отделения «атомов» Р модели. 1.4. ИНТЕРВАЛЬНЫЕ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ Свойства интервальных вероятностей. Исторически сложилось, что в основу описания случайных явлений были положены вероятности, чем мы обязаны наглядности игровых примеров (монета, карты, кость), давших теории вероятностей начальный толчок и подпитывающих ее на протяжении развития. Эта же наглядность, а в дальнейшем отработанность и стройность теории привела и к фактическому игнорированию других подходов1. Наши интервальные модели .в своем определении базируются на интервальных средних, а вероятностям — нижней Р(А) и верхней Р(А) отведена роль частного случая, когда признаками являются индикаторные функции А(х) событий: Р(А) =МА(х)з Р(А)=МА(х), Acz8?. Для любой ИМ'вероятности Р{А), Р(А) определены для У А (так как Л (х) е#~оо). Свойства вероятностей непосредственно вытекают из согласованности средних (см. § 1.1). Обозначая знаком плюс А + В и символом сумма 2Л* объединение непересекающихся событий (в отличие от общего обозначения объединения [}), имеем: 1. PJS6) =р($Р)=р\$е) = 1 — пространство SP является всегда достоверным событием (доказывается М1=Р(<Э?) = 1). 2. Обращение вероятностей: Р(А) = 1—Р(АС), где Ас — дополнение к событию А (так как МА(х) = \—М(1^-А(х)). 1 В [2] в основу теории положены точные средние, но они наделяются столь жесткими свойствами, что это полностью свело получаемые в результате модели к вероятностным, , 2—13 33
3. Верхняя полу аддитивность: АВ=0=>Р(А+В)*^Р(А) + +Р(В) (так как М[А(х)+В(х)]^МА(х)+МВ(х)). 4. Нижняя полу аддитивность: АВ=0=>Р(А + В)^Р(А) + +Р(В) (так как ЩА(х)+В{х)]^МА{х)+МВ(х)). Вероятности, удовлетворяющие этим свойствам, называются согласованными. Смысл слова «согласованность» в том, что если бы какое-нибудь свойство не выполнялось, то хотя бы одна какая-то граница вероятности могла бы быть уточнена за счет других, т. е. Р^(А) увеличена или Р(А) уменьшена. Из свойств согласованности вероятностей непосредственно вытекают следующие свойства: 5. Р'(0)=О — вероятность пустого события нуль. 6. Р(А)^Р(А) — «нижняя вероятность всегда не больше верхней. 7. AB = 0=>P(A+B)^PJA)+P{B)^P(A + B) (частный случай соответствующего свойства средних, который может быть доказан и на основе 1—4). 8. Для конечного числа попарно непересекающихся событий к k __ Я(Е^4г)^2^Иг) (следует по индукции из 3). 9. Для конечного или счетного числа попарно непересекающихся событий P(^Ai)^J^P(Ai)u Для конечного числа А{ это свойство непосредственно следует из 4, а для счетного — из 1 предельным переходом в правой части при &->юо. Свойство 8 развивает 3 и называется конечной верхней полу- аддитивностью .вероятностей. Свойство же 9 продолжает. 4 не только на конечные, но и на счетные суммы и называется нижней счетной полуаддитивностью. Это более сильное свойство, поэтому нижняя вероятность по природе «более непрерывна», чем верхняя. Для верхней же свойство счетной верхней полуаддитивности верно лишь при дополнительном условии, составляющем левую часть следующего утверждения: 10. ЫР( 2Л*) = 0=^Р(5 ЛЛ<2Р(Л?.). Для доказательства надо перейти <к лределу при &->оо © неравенстве р(хАг+2Аг)>2Р(Ад + р(2Аг\ Пусть Вп, монотонно возрастая при /г->оо, сходятся к В. Это записывается Вп\В и означает, что Bn<zzBn+u V#, и для каждой 34.
точки х^В с ростом п найдется такое Вп, которое все же х накроет. И тем не менее даже столь жестких требований сходимости событий недостаточно, чтобы гарантировать сходимость их вероятностей, что провозглашается следующим тезисом, 11. Вероятности в общем не являются непрерывными по отношению к монотонной сходимости событий. Это негативное свойство означает, что, имея Р(В«) и Р(Вп) и зная, что Вп\В, тем не менее можно Р(В) и Р(В) брать отличными от пределов lim Р(Вп) и lim Р(Вп)> «не нарушив три этом свойства согласован- п-»со — гс-»оо ности (вероятностей. Покажем это на стримере. Пример 1.9. Пусть Вп\В, ВпфВ и первичными являются P(5n)=Pi, P(B)=p2>Pi. Тогда lim P(Bn)= р4<р2. Здесь согласованность вероятностей п-*оо не мешает задать р2 отличным от р4. Если же дополнить указанный набор еще одной первичной нижней вероятностью Р(5)=р, 0<р^р2, то так как ни в одно из Вп событие В не вкладывается,' то Р(Вп) =0,. и следовательно, lim P(Bn)=0, тогда как Р(В)=р>0. Продолжение первичных вероятностей. Интервальным распределением вероятностей (сокращенно ИРВ) называется ИМ, первичными для которой являются вероятности (точ!ные или интерг вальные) набора событий. Первичными признаками ИРВ являются индикаторные функции А(х) событий А первичного набора s£, и на них заданы вероятности £ виде точных значений Р(Л), интервалов Р(А), Р{А) или одной из границ, чаще верхней. Если нет нижней, то всегда можно положить ее равной. 0, а не заданную Р(А) считать равной 1. Это ничего не изменит,, кроме того, что на всех событиях из si> будут определены интервальные первичные вероятности, позволяя обозначение <Р(*я£), Р{$£>)}. Если же все первичные вероятности приведены к верхним, ИРВ обозначается <Р(^)>. Рассмотрим, как продолжить вероятности, перенеся R& на средние любых признаков. Поскольку первичными признаками ИРВ являются события из зФ, то вторичными будут всевозможные их конечные линейные комбинации: &$&= {g(x) =c+2lCiAi(x)> Ai^£0>}f (вторичные, они же .^-измеримые, функции), где с и С{ — произвольные коэффициенты, и первичные значения переносятся на вторичные признаки по (1.1): Ug-c+ZUcMx), где МсгАгЛС^ ПрИ С^ \с;Р(Аг) при с*<0. Это первый шаг, хотя и не однозначный, так как одно g может по-разному записываться через Л* (тогда берется минимальное из Mg среди всевозможных записей). Следующий шаг состоит в .продолжении этих средних с их согласованием по (1.2) на любые ограниченные функции f(x). Но 2* 38
это будет возможно только, если первичные вероятности непротиворечивы: g^0=^Mg^0f Vgej?\5#. Тогда формула Ж/- inf Mg, VfEEfo дает согласованные значения средних на любых ограниченных сверху признаках. Класс #~0 последних ^-мажорируем и потому будет естественной областью продолжения верхних средних всех ИРВ: ST^!Fq. В частности, будут определены верхние вероятности Р(В) (и через них нижние то 'свойству 2) щля всех событий VBczSP, другое дело, что они могут оказаться для многих событий тривиальными, т. е. равными 1. Желание распространить средние на неограниченные признаки (такие как х> xk, tgx и т. д.) по подобию математических ожиданий дает оправдание третьему шагу, к которому и перейдем. Предельное продолжение средних. Действуем строго по аналогии с интегрированием, помня, что интегрирование по вероятностной мере .ведет к математическим ожиданиям. В теории интегрирования: а) первичными даются меры множеств, б) их значения присваиваются интегралам от индикаторных функций, в) далее эти интегралы распространяются по аддитивности на интегралы от всех простых функций (сумм индикаторов), г) затем продолжаются на интегралы от измеримых ограниченных функций, д) последние, наконец, переносятся на неограниченные. Последний шаг применительно к ИМ и составляет предмет нашего рассмотрения. Усечем неограниченную функцию / снизу уровнем —#i и сверху уровнем #2, обозначив -#х, /(*)<-#!, /(*),- -Нг^!(х)^Н29 Н2 f(x)>H2. Функции f~Hi>H*(x) ограничены и поэтому средние для них всегда определены. Положим для неограниченной функции Щ = lim ton Щ{-Н*'И*К (1.4) Собственно, так интуитивно и донимается всегда неограниченная функция как предел ее усеченного варианта при устремлении к бесконечности уровней усечения; естественно, в этом ключе следует лонимать и средние. Важно, что сначала Я2 устремляется к оо, так как в силу монотонности это дает наибольшее значение правой части, а затем уже Н\. Для пределов (1.4) выполняются все аксиомы. Из них А1—A3 доказываются с помощью неравенств: 1) f:>g,=^/(-//i-//*,;>g(-//t'//*). ' 2) 6+ f<-я*- я*> + с = (&+ / + <?)<-*+"i+« ь+Ъ+с). 36 /<-"*> "»>(*) =
в которых нужно взять М и перейти к пределам, сначала #г->~оо, а затем Н\-*оо. Аксиома А4 будет верна ,по определению. Причем, так как (— /) (-яь*1> =—/<-*«. я«>, то Mf= lim lim Mf (-я.. ВД. Ht-*oo Ht-ьоо В дальнейшем будем в основном иметь дело с верхними средними, оставляя нижнее «за кулисами» формулы обращения (аксиомы А4). Для заданной Ж обозначим iF«> класс всех признаков, для которых существует и не равен оо предел (1.4): #"*«> = = {/: Д?/<оо}, назовем этот класс предельной областью существования верхних средних ИРВ, а соответствующую совокупности средних <AliFoo> модель — предельной ЛГ«>. Смысл продолжения (1.4) очень естествен: неограниченные признаки мыслятся как имеющие некоторый потолок, который безмерно высоко расположен (точно также понимается нами космическая бескрайность). И в обозримом диапазоне (—Ни #г) вычисляется среднее, при увеличении Яг- все более приближающее предельное значение. Этой же точки зрения можно было придерживаться для любых ИМ, считая все неограниченные признаки; входящие в &~, имеющими некоторый общий потолок, столь недосягаемо высокий, что его в наших действиях просто удобна не замечать, оперируя «нижними» частями признаков. При такой интерпретации предельная ИМ ЛГ» «уравнивается в правах» с построенной по первичным признакам согласно формуле продолжения. Замечания. 1. Переход к пределу в (1.4) математически .подразумевает непрерывность правой части при #ь #2-мх>, а это есть дополни- тельное свойство средних, ниоткуда из доказанного нами ранее не следующее. Если не принимать этого свойства, то можно было бы брать Mf отличным от предела правой части (1.4), поэтому с формальных позиций предельная модель Jf» есть форма сужения заданной JliDjtoo по правилу, соответствующему (1.4). 2. Принцип предельного расширения области существования применим и к общему классу ИМ (М&у. Сначала средние с <§ распространяются по формуле продолжения (1.2) «а мажорируемую набором ^ область &~&> в частности, на абсолютно ограниченные признаки ^оосг^"^ (если все gGE& ограничены, то iF^ = =ЗГ0). Затем предельным переходом ,(1.4) распространяются с ^оо на #~«>. Линейная оболочка 3?+ (!F&[)&~оо) и станет расширенной областью существования средних, переход к которой эквивалентен сужению .модели <Л?^> к предельной форме (М&Уоо. Иллюстрация ИРВ. Наглядно для дискретных пространств SB ИРВ представляются многогранниками векторов Р вероятностей, грани которых параллельны осям P(Xi)=0, как это видно из рис. 1.7, где треугольник ^, соответствующий голой ИМ, срисован с рис. 1.4. Здесь трапеция Л2 определяется всего двумя первичными вероятностями: Р2(х\)— левая ее грань и РгС^г)— верхняя, т. е. имеет порядок 2, тогда как М\ имеет шесть пергаич- 37
ных граней, следовательно, шестого порядка. Пересечение двух ИРВ — снова ИРВ Mxf\ 1\Мъ и первичными будут вероятности, полученные сложением воедино между собой первичных вероятностей Ж\ и Л?2, часть которых при согласовании окажется избыточной, так как проходят вне граней M\/\JC2, как, например, Я^лсг) >(х3П Р(хг)-0 Р(х,)Ч ИЛИ рг(Х1) на рис> п Рис. 1.7. Операция над ИРВ Объединение двух ИРВ, обведенное на рис. 1.7 штриховкой, формирует новые контурные грани, которые не /параллельны сторонам Э\ т. е. уже не соответствуют вероятностям, что переводит в |рамки более общих конструкций ИМ. Таким образом, класс всех ИРВ не замкнут относительно операции объединения. Голое ИРВ, соответствующее полному отсутствию нетривиальных первичных .вероятностей, есть то же самое, что голая ИМ. Перейдем к рассмотрению некоторых частных случаев ИРВ. Конечно-аддитивные ИРВ. Интервальная модель, для которой первичной является система непересекающихся событий, называется конечно-аддитивным интервальным распределением вероятностей (короче, 2-ИРВ). Обозначим j#2 = {Аи Л2, ...}, AiAj= = 0, 1Ф\ — набор попарно непересекающихся событий и пусть заданы P(Aj), P(Aj), /=1, 2* ... Хотя не требуется, чтобы объединение Aj охватывало все пространство <3?, но удобно это считать, дополнив при необходимости исходный набор остаточным событием Ло=(2А/)с (если оно не пустое) и придав ему в качестве первичного тривиальный вероятностный интервал Р(Ло)=0; Р(Л0) = 1. Тогда s4>z становится дроблением пространства 8В на непересекающиеся события, что далее и предполагается. Непротиворечивость первичных вероятностей эквивалентна выполнению неравенств: 0<Р(Л,ХР(Л,), Р(#?) =2Р(Л,Х1, P{^y)=Tt^(Aj)^l. Последнее условие требуется только, если дробление st>% конечно. В случае счетного дробления в нем нет k надобности, так как несмотря на расширение 2Л,- при увеличе- 1 нии k всегда будет оставаться место для остаточного события Ло> для которого полагаем Р(Л0) = 1, отсюда Р(й?)^1, где тильдой обозначена формально перенесенная с первичных вероятность #?. Вторичными признаками будут всевозможные конечные линейные комбинации g(x)=c + %CjAj(x), образующие линейный класс ЗРзЬъ функций. В ;него, в частности, входят так называемые вторичные события Aj — это те, которые набираются как объе- 38
динения Ay. Ajh=J^AJ9 где Jk—/конечный набор индексов. Для /€=Jft них P(AJb)=IlP(Aj)i P(AJk)=^P{A5) —это перенесенные по аддитивности первичные вероятности (отсюда название: аддитивные ИРВ). Уже говорилось о различии свойств 8 — верхней и 9 — нижней вероятностей. Это различие отражается и на перенесенных вероятностях, где также «лучшими» свойствами обладает нижняя вероятность. Проявляется это в том, что P(Aj) могут быть по аддитивности распространены на суммы счетных множеств индексов / и это не повлияет на ИРВ. В самом деле, Aj при конечных поднаборах Дет/ образуют внутренность, «фундамент» для Л/, так что AjkczAj и P(AJk)^P(Aj), Yk, доэтому в качестве P(Aj) можно взять максимальное значение левой части последнего неравенства, .получаемое переходом к пределу /&|/, что ведет к формуле счетного суммирования: P{Aj)*=2±P(Aj)t где / счетно. В частности, если число событий в наборе ^s счетно, то дополнение Jck к конечному /& будет счетным множеством индексов и P(AcJh)= 2-JW Формула счетного суммирования не распространяется на верхние вероятности, поскольку на счетном / для события Aj уже невозможно создать мажорирующую его «крышу» из конечного числа первичных событий. Теорема 1.2. Если первичные интервальные вероятности заданы на дроблении «я£2 пространства SB на непересекающиеся события, то выражением P(Ajk)=min{P(Ajh)t i-P(AcJk)} (1.5) они продолжаются, делаясь согласованными, на все вторичные события. Продолжение на все вторичные признаки осуществляет- ся формулами M(2cjAj)^min[c+ 2 (с,-с)РЩ- 2 (с-с,)ВД,)], (1.6) С Cj>C Cj<C ~ причем минимум достигается при с=с*, удовлетворяющем уравнению 2 P(Aj)+ 2 Р(А,)+ 2 [xP(Aj) + (l-x)P(A3)] = \ Cj>C* Cj<C* Cf=C* ~ при однозначно существующем выборе O^x^l. Доказательство вынесено в конец параграфа в дополнение 2. Поясним формулу (1.5). Вероятность P(Aj) получается, с одной стороны, как сумма верхних вероятностей первичных событий, составляющих AJk, а с другой — данные об этой вероят- 39
ности черпаются из оценки нижней вероятности противоположного события Acjk. Берется то из двух значений, которое более тонное,-т. е. меньшее до зеличяяе. Из формулы (1.6) среднее для_ всего класса 2?s4>z вторичных признаков получается сдвигом: Mic+^CjA^^c+M^CjAj). Понятно также, что (1.5) выводится из (1.6), и отсюда же сумма по P{Aj) в конце правой части (1.6) допускается счетной. Формула (1.6) становится нагляднее, если записать ее в виде M(2cjAj)~ 2 с,Р(А,) + с?Р*+ 2 CjP(A}), Cj>C* Cj<C* ~ где P*=l- 2P(Aj)- 2 P(Aj). Тогда М ( 2 ^ ЛД= max 2 с,Р>. Cj>C* Cj<C*~ Р Максимум ищется по векторам Р вероятностей с компонентами Pj&[P(Aj), P(Aj)] и достигается на векторе Р*, компоненты P*j которого принимают минимально возможные значения P*j = = P(Aj) при малых Cj, т. е. Cj<c*y максимальные P*j=P(Aj) при Cj>c*, где с* подбирается таким, чтобы Р* был вектором вероятностей, а именно %Р*$=1. Этой цели служит и выбор Р* — компоненты векотра Р индекса i, соответствующего равенству Ci = c** Дальнейшее продолжение средних теперь уже на все ограниченные сверху признаки, которые в совокупности своей и составят естественную область существования средних для 2-ИРВ, производится по известной формуле Ж/= inf Mg, fEEf0. Счетно-аддитивные ИР В. Мы сознательно долго воздерживались от (безоговорочного распространения P(Aj), Aj= 2 А,, на счетные / по свойству суммируемости рядов, ибо этот шаг сразу вывел бы нас из привычных рамок принятой аксиоматики. Этот шаг — компетенция первичного набора, к чему мы теперь и обратимся. Пусть st>z = {Au Л2, ...} — счетный набор непересекающихся событий, образующих разбиение й?. Мы видели, что если первичными являются значения P{Aj)t P(Aj), то нижние без ущерба переходят по аддитивности на P(Aj) для любых, в том числе счетных /, а верхние P(AJk) — только для конечных Д, образуя костяк расчетов вероятностей (по (1.5)) для 2-ИРВ. Будем теперь считать, что первичными являются не только А$ (а отсюда и Ajk), но и всевозможные счетные объединения Aj> в совокупности образующие систему s6a событий, причем первичные вероятности задаются сразу счетно-аддитивными в том смысле, что P(Aj)= 2Р.(Л,), P(Aj)= 2 Р(Л,), V/, конечных и счет- пых / (ниже, в дополнении 3 показывается, что это требование 40 i
вовсе не является обязательным: первичной может быть «$£<* а вероятности на ней заданы не счетно-аддитивными). Интервальное распределение вероятностей, первичной для которого является система st>a счетных сумм непересекающихся событий, а первичные вероятности (нижняя и верхняя) счетно- аддитивны, называется счетно-аддитивным (короче, а-ИРВ) и обозначается <Р(ЛСТ), Р(ЛСТ)>. При одних и тех же интервалах Р(А>), P(Aj)9 /=1, 2, ..., за счет расширения первичного .набора счетно-аддитивные ИРВ оказываются более узкими, чем 2-ИРВ: <Р(Лв), PW)c(PMz), Рш>- Более того, а-ИРВ, в общем, не относятся к классу 2-ИРВ, потому что s4>a содержат счетные суммы событий, тогда как 2-ИРВ задаются отдельными экземплярами событий и их вероятностями. Таким образом, свойство счетной аддитивности эквивалентно фактическому расширению первичного набора событий и наложению дополнительных требований на первичные вероятности. Для счетно-аддитивных ИРВ формула (1.5) согласования вероятностей на £t>G (они все будут теперь уже первичными) верна без каких-либо оговорок для всех Aj^s&o- Равно как и формула (1.6) становится справедливой для вторичных признаков, каково выми являются теперь уже любые счетные суммы ^CjAj событий Aj из s£G. Для сравнения прямого и счетно-аддитивного ИРВ приведем пример. Пример 1.10. Пусть #? = {0, 1, 2, ...} — натуральный ряд чисел и заданы оо первичные вероятности Ро, /*о, Ри Ри •• так, что 2^i^l- Получается 2-ИРВ (собственно, для произвольных пространств 9В и дробления s^^={Ai, Аг, ...} мы придем к такому же ИРВ, если отобразим Аг+U У^0» *> •••)• Для конеч-4 ного множества Д точек вероятности согласуются по (1.5). Рассмотрим счетное событие j4 = {0, 2, 4, ...}, состоящее из четных чисел, и Ас — из нечетных. Тогда для 2-ИРВ Р(А)= 2р2/, р(лс)=2 p2W, /=0~ ~ /==0 ~ откуда получаются согласованные значения Р(Л)=Р(Л), Р(А) — \—Р(АС). Отметим, что Pj не участвуют в определении верхней вероятности счетных событий А по отсутствию конечных накрывающих А систем первичных событий. Для счетно-аддитивного ИРВ дополнительным условием непротиворечивос- оо ти будет 2^i^l- При конечных Д вероятности те же. Для введенного выше ' 1 41
А имеем: P(A) = 2 P*u ^Ис)= S ^2i+t, н согласованными будут уже другие /---о /=>о значения Р_(Л)=тах{Р(Л), 1—Р(ЛС)}; Р(Л)=тт{Р(Л), 1—Р(ЛС)}, что соответствует более точным вероятностям. Это увеличение точности достигается за счет того, что первичными исходными считаются не только натуральные числа, но и их всевозможные счетные суммы. При точных первичных вероятностях P]=Pj=Pj, /=0, 1, ..., таких, что «о 2Pj=l (условие непротиворечивости), как нетрудно видеть, вероятность лю- е бого события А будет точной: Р(А)=Р(А)=Р(А) как для конечно, так и для счетно-аддитивных ИРВ, т. е. оба типа ИРВ совпадут между собой и вероятность любого счетного подмножества будет точной, равной сумме вероятностей. Это есть закон счетной аддитивности точных вероятностей, верный для дискретных (конечных или счетных) дроблений «я£2 произвольного простраи? ства #?. Обобщения. Здесь будет рассмотрен случай, когда зФъ не является дискретным, т. е. конечным или счетным. Удобно для наглядности воображать в качестве $в числовую прямую 91, Система s& подмножеств называется кольцом и обозначается Ж, если она замкнута по отношению к операциям пересечения и симметричной разности (Д): Л, В^Ж=^АВ^Ж9 ААВ=АВС[) [)АСВ^Ж. А если к тому же она замкнута по отношению к счетным объединениям, то называется о-кольцом и обозначается Жа* На числовой прямой 91 кольцо множеств образуется всевозможными конечными объединениями (суммами) непересекающихся отрезков, это будет кольцо отрезков Жц (подробнее см. {[20]). Мерой на кольце Ж называется неотрицательная конечно- аддитивная функция множеств, а на Жа »— счетно-аддитивная» Заметим, что суммы A/ft= 2 А} (непересекающихся Л;- в преды- /cs/fc дущем изложении образовывали кольцо (а дополненные счетными суммами — о-кольцо) и P(Aj), P(Aj) — меры на нем (причем P(Aj) без ущерба продолжаются до счетно-аддитивной меры). Вернемся к общему случаю и будем считать, что первичные вероятности преподносятся двумя мерами Р(А) и Р{А), А^ЖУ на кольце Ж. Конечно-аддитивная мера формирует S-ИРВ, а счетно-аддитивная на а-кольце — соответственно а-ИРВ. Например, на 91 определены вероятности Р{а, 6), Pi[a, b) любых отрезков и мы их переносим по аддитивности на суммы отрезков. При этом вероятности Р могут быть или оказаться больше 1, что не вносит затруднений, так как откорректируется при согласовании. В общем, Р(А), задаваемые как первичные вероятности на мелких множествах, оказываются уже не вероятностями, а мерами на широких множествах. Требование непротиворечивости задания первичных мер состоит в следующем: 42
I а) О^Р(Л)^Р(Л), V^GJif; б) Р(Л)<1, УА*=Ж\ в) Р(Я?)>1. Последнее условие имеет смысл, когда SB входит в систему первичных событий. Иначе оно не нужно, так как по аксиоме А1 все равно будет Р(8?) = 1. Формула продолжения и согласования вероятностей тождественна (1.5). Для произвольных событий она запишется: P(5) = min/ inf Р(Л), 1- sup P(A)\. Отметим, что если верхние вероятности не заданы, т. е. можно считать Р(А) = 1, УА^Ж, то Р(А)=Р(А), Р(А) = 1—Р(ЛС), ЛеЖ Тогда нижняя вероятность аддитивна на суммах: P{2iAi)=2iP(Ai)f а верхняя — в общем, нет. Признак f(x) называется Ж-измеримым, если он представляется как равномерно сходящийся предел конечных линейных комбинаций событий из Ж. Строго говоря, класс всех Ж -измеримых признаков составляется замыканием класса 3?Ж относительно равномерной сходимости. Слово «измеримый /> означает, что, умея измерять меры событий А^Ж, можно сколь угодно точно вычислить за конечное число шагов интеграл от f. Если /g^J?, т. е. / есть конечная линейная комбинация событий из Ж, то Mf находится по (1.6). При 86=91 для измеримых относительно кольца отрезков / 1(это все непрерывные функции х и с разрывами первого рода) суммы »в (1.6) превращаются в интегралы: Mf = minlc + $(f(x)-c)+dP-$(c-f(x))+dPh (1.7) с ** где плюс означает, что берется неотрицательная часть функции. Для ,2-ИРВ (первичным является кольцо Жъ отрезков) здесь интеграл понимается в смысле Римана — Стилтьеса, а для 0-ИРВ — в смысле Лебега — Стилтьеса и для последнего класс признаков расширяется до измеримых по Лебегу. Точные распределения вероятностей. Пусть на произвольной системе si- первиадых событий даются точные вероятности: Р(А) =Р(А) =Р(А), A^s&. Их согласованность эквивалентна непротиворечивости и состоит в том, что: 1) Л, Ве^, AczB=>- =^Р(А)^Р(В); 2) если A^<s4> — попарно ^непересекающиеся события и их сумма также входит в систему s&> то выполняется закон аддитивных вероятностей: XA^U^P(ZAs) = XP(Aj). Вероятность суммы непересекающихся A^si> будет всегда точной, если сумма конечна (что сразу следует из. свойств 8, 9), поэтому требование конечной аддитивности точных вероятностей 43
обязательно уже при их задании и равносильно их непротиворечивости. Но не требование счетной аддитивности, тем не менее которое должно выполняться, когда по заданию заведомо извест- оо но, что 2<4je^, т. е. что счетная сумма имеет точную вероятность. Общие свойства точных вероятностей непосредственно вытекают из свойств интервальных вероятностей (см. начало настоящего параграфа). Продолжим начатую там нумерацию свойств, считая Ai^jt. 12. Р(Я?) = 1, Р(0)=О. 13. Р(Л) = 1—Р(АС). 14./>||Л£]=|Р(Л). 15. Шпр/s Л£) = 0=^р( 2 лЛ=* 2Р(Аг). Обозначим *я£* — набор событий, на котором при продолжении с si- вероятности остаются точными. Очевидно, st>*Z}s&. Из свойств 12 и 13 следует, что $в> 0сиФ* и что Ле^*=^Лсе^*. Свойство 14 означает замкнутость ^* относительно конечных сложений непересекающихся событий. Чем шире si> в смысле количества событий и замкнутости операций, тем богаче будет зФ*> откуда могут появиться дополнительные свойства точных вероятностей. Перейдем к случаю, когда исходный набор st> замкнут относительно пересечений и разности, т. е. образует собой кольцо множеств *9&=\Ж (можно и полукольцо, скажем, все отрезки числовой прямой). Тогда согласно свойствам 12, 13, 14 набор «5#* событий, на которые продолжаются точные вероятности, образует алгебру множеств (алгебра есть кольцо с включенным в него 26\ т. е. замкнутое относительно дополнений). Конечно-аддитивными распределениями вероятностей (обозначаются fPz) называются ИРВ, заданные первичными тачными вероятностями «а алгебре (полукольце, кольце) событий. Это частный случай 2-ИРВ, когда первичные интервалы вероятностей превращаются в точные значения. Для этого случая, подставляя P(Ai)=P(Ai)f Л<&5*., имеем по свойству 9: Р[ 2 Ai) = %piAi)> т. е. точные исходные вероятности переходят по аддитивности в нижние вероятности счетных сумм. А вот верхние вероятности — оо в общем, нет. За исключением случая, когда остатки 2 Ai сумм могут быть покрыты событиями Bk, вероятности которых при £-*оо делаются сколь угодно малыми. Тогда действует свойство 15. В целях иллюстрации ниже приводится пример 1.11. Свойство счетной аддитивности, механически перенесенное на любые счетные суммы, эквивалентно расширению первичного на- 44 I
бора до сигма-алгебры si>Gy включающей еместе с событиями любые их счетные суммы и дополнения к ним, и заданию на st>a счетно-аддитивного распределения вероятностей &а (частный случай а-ИРВ): Л|еЛ0=*1М|&Ло. pi J лЛ= XPoiAi) (первичной может быть «я£а, а вероятности «а ней точные, но не счетно-аддитивные, как это показывается в дополнении 2). Для &о выполняется свойство монотонной сходимости: Вп\В=$~Ра{Вп)-+Ра[В)9 в определенном смысле эквивалентное счетной аддитивности [19] точных «вероятностей. Средние от .^-измеримых признаков будут точными, получаемыми согласно (1.7) интегрированием Mf=Jf(x)dPf причем для &^ это будут интегралы Римана-Стилтьеса, а для {Ра — Ле- бега-Стилтьеса (тогда класс / с точными средними расширяется до измеримых по Лебегу). Продолжение средних на неограниченные признаки производится согл'асно (1.4): Mf = ton lim Mf(-я" Hl), Mf = lim lim А*/(""я" Hl). //f->oo Ht-*-oo Ht-*oo Ht-*oo При этом все усеченные признаки /(-я* но должны быть измеримыми. Очевидно, среднее будет точным Mf\=Mf, если пределы справа не зависят от порядка устремления #i и Н2 к бесконечности — это будет интеграл от неограниченной функции. Для точных средних справедливо свойство M2*fi=%Mfi, согласно которому символ М можно проносить за знаки конечных сумм. Это общее свойство. А в каких свойствах ^2 будет отличаться от &*а? Ответ на поставленный вопрос дается примером. Пример 1.11. Равномерное распределение (мера-длина). Пусть на #?=[0; 1) первичными являются вероятности Р[а, b) = b—а, 0<а<й^1, равные длинам отрезков. При продолжении они определяют 2-ИРВ ^2 с точными вероятностями на алгебре отрезков бФ^ (куда входят суммы конечного числа отрезков и дополнения к ним). Точными нулевыми будут вероятности отдельных точек Р(**)=0 (получается при a-*b=Xi) и их конечных наборов: k к к ^(1Мр«)=2^(*0=0» поэтому считается {jXi^jt^. Для счетного числа точек 1 1 1 все зависит от их расположения в смысле приемлемости свойства 15. Например, событие Л = {1, 1/2, 1/3, 1/4, ...} будет иметь нулевую вероятность, так как остаток {1/£, 1/(£+1), ...} покрывается отрезком [0; \/k) вероятности lfkt которая при увеличении k делается сколь угодно малой. А счетное событие О» (множество (Дирихле), состоящее из всех рациональных точек отрезка [0, 1), нельзя аналогичным образом нокрыть, поэтому его вероятность вовсе неизвестна: £х(Я») = 0; ?2(D.)=i. Результат сводится к фразе: <умея измерять сколь угодно точно длины отрез- 45
ков, нельзя никакими средствами замерить длину множества всех рациональных чисел»; практический смысл ее очевиден. Счетно-аддитивное распределение &а при тех же начальных данных отрицает выделенный нами тезис. Оно имеет те же вероятности отрезков и их конечных сумм. Отличие в абсолютизации закона счетной аддитивности вероятностей. Так, для упомянутого множества Дирихле . ^a(Doo)= 2 PU)= 20 = 0. В нашем случае &0 совпадает с мерой Лебега на отрезке [0; 1). Очевидно, &0с21р2 и первичными для &0 фактически являются всевозможные конечные и счетные суммы отрезков и дополнений к ним, образующих борелевскую сигма- алгебру s4>a. А точной эта мера после продолжения оказывается на несколько более широкой системе событий — так называемых лебеговых множествах, которые отличаются от борелевских лишь нулевыми событиями. Средние Mf есть соответственно интегралы Римана (для ^2) и Лебега (для &а) на ютрезке [0; 1) от интегрируемой функции f(x). Рассмотрим промежуточный случай между ^2 и ^а. Пусть &ъ дополняется еще одной первичной вероятностью Р(/)«) = 1/2 и обозначим полученное распределение ^р. Имеем ^р=^2Л<Рфоо) = 1/2> и &ac&Qcz&2' что являет пример, когда точными имеются вероятности отдельных исходов x^9t, их счетной суммы Doo, а в то же время закон счетной аддитивности не выполняется: 1/2=Рфоо)> 2 Р(*)=0. Иллюстрация необязательности счетной аддитив- xe-Dn ности. i Интервальные функции распределения. Пусть й?=5? — числовая прямая, и первичными являются вложенные друг в друга неограниченные слева полуинтервалы (—оо, у), y^ty, где °Ц — произвольное подмножество St. Первичные вероятности P(-°o9y) = F(y)9 P(-.oo, y) = F(y), ye=f, как функции переменной у называется нижней и верхней первичными функциями распределения, а задаваемое ими в результате продолжения ИРВ называется интервальной функцией распределения. Условие непротиворечивости первичных вероятностей выливается в требование • 0<-F(*)<F(y)<l, Vx<</, x; WB% состоящее в том, что нижняя функция распределения нигде слева от1 у не должна возвышаться над верхней Р{у) (что будет обязательно выполнено, если, как это обычно делается, задавать F(y) и F(y) неубывающим и нижнюю не больше верхней: £(У)<Р(У), У у). 46
Согласование первичных вероятностей и продолжение их на любые полуинтервалы (—оо, х), x^SZ, проводится по формуле F(x)= sup F(y)9 F(*)= inf F(y). (1.8) Вероятности полуинтервалов продолжаются на вероятности одиночных отрезков: Р (У, г) = [F (z) - F ((/)]+; Р [у, z) = F (z) - F (у), где плюс указывает на неотрицательную часть функции. Распространение этих формул на конечные суммы непересекающихся отрезков производится согласно выражениям: р(ъ\УигЛ=ЪПУг> *i); в которых полагается yi^Z\^y2^z2^ ... z^yk^Zk. При точных функциях распределения F(x)=F(x)=F(x)9 Yx, (для этого таковыми они должны быть заданы) вероятности отрезков будут точными, равными приращениям: Р[у, г)=< = /г(г)—F(y)y как и для их конечных сумм, а продолжение на признаки будет соответствовать интегрированию по Риману — Стилтьесу: Mg= j g(x)dF(x). Подобие ИР В. Начнем с частных случаев. Пусть на произвольном SB задан расширяющийся набор событий s4>^ = {Ay, y^Q/cz&l}, AyCzAy при у<у'. И пусть первичными являются вероятности этих событий F(y) =Р(АУ), F(y)=P(Ay). Тогда совершенно есте- ственно отобразить $в-*-°Ц так, чтобы А1Г^(—оо, у), ,и получить интервальную функцию распределения. Таким образом, HPB<P(,s#t), Р(^ж)> по своей структуре и свойствам оказывается подобной интервальной функции распределения. Аналогично, если задано 2-ИРВ (P(s&z), P(j#z)> на произвольном SB, то, отобразив элементы разбиений Aj в точки у$ числовой прямой, получим подобное ИРВ на подмножестве °\f = = {Уи Уъ —} числовой прямой. Если-это окажется удобным, то можно считать #,-=/, и тогда QJ — натуральный ряд чисел. Основу подобия составляет взаимно-однозначное соответствие первичного набора множеств одного пространства, т. е. SB и другого — °Ц с сохранением множественных операций объединения i и пересечения |(что называется гомеоморфизмом алгебр ,[20]). /^ Очевидно, любое отображение y=Sx пространства SB и °Ц обеспечивает указанное соответствие. Интервальное распределение вероятностей <Р^(^)> на QJ называется подобным ИРВ<Р*(л#)> на SB, если существует отобра- А1
жение 5 пространства SB на Of, при котором события Ле^ переходят в события B = SA^<8 с сохранением первичных вероятностей. Конечно же, из *я£ желательно изъять _все события с несогласованными значениями Р(А), тогда РХ(А) =py(SA)9 A^st, Ве=ЗВ. Смысл подобия состоит в упрощении структуры пространства SB редукцией его в пространство °у как можно меньшей размерности. В то же время и согласование вероятностей, и их продолжение в обоих пространствах одинаково. Семейства распределений. Пусть ^в, 8ев —семейство точных распределений вероятностей на SB. Неизвестно, какое из 3*$ дает правильное описание явления, но какое-то из них это обязательно делает. Сказанное эквивалентно объединению ^е, что ведет к ИМ: Следовательно, любые семейства распределений вероятностей (аддитивных или счетно-аддитивных) дают ИМ, определяемую средними М g s= inf Me g, Mg = sup Me gt — еее ee=e где g — признаки, для которых средние по всем &$ являются точными. Результат объединения, подчеркнем, есть в общем ИМ (а не ИРВ), за некоторым исключением, когда ^е является точками «тела» (можно, крайними) ИРВ. Например 2-ИРВ <'P(«s#2), P(j^s)> можно представить себе .как объединение конечно-аддитивных распределений tPz таких, для которых P(Aj) являются неизвестными и /подчиняются условиям: P(Aj)^P(Aj)^:P(Aj), A^s4>z, (собственно, исходя из такого представления, в дополнении 2 доказываются формулы ,(1.5) и (1.6)). Интервальную функцию распределения также можно мыслить себе как совокупность точных функций распределения, что позволяет выводить выражения для средних по формуле: Mg= sup_J- g(x)dF(x). Например, для признака g(x), имеющего в точке хт единственный глобальный максимум и не имеющего никаких локальных, получается: хт °° — Mg = g (xm) [F (xj -F_(xJ] + J g (x) dF(x) + J g (x) dF (x), —oo *„ m так как максимум достигается на F(x)f равной _F(x) при х<хт, имеющей в точке хт скачок до F{x) и равной F{x) при х>хт. 48
Относительные вероятности и средние. Истина постигается в сравнении. Это философское изречение применимо и к случайным явлениям. Подчас исходными данными являются сравнительные сведения о вероятностях и средних. Это суждения типа: «Событие А более вероятно, чем событие В», записываемое кратко «РА^РВ»; или такое: «Признак / в среднем принимает большее значение, чем g>, записываемое «M/^Afg>. Эти данные называются относительными (субъективными [14]) вероятностями и средними и характерны для экспертных оценок. Покажем, как они формально представляются в виде семейств распределений вероятностей и как преобразуются в средние значения соответствующих признаков. Представим на миг, что вероятности событий Ли В точные (что само собой подразумевает статистическую устойчивость явления) и соответствуют какому-либо точному распределению вероятностей & такому, что Р(А)^Р(В). Для него по свойствам средних М#>(А—В)^М^А~М#>В = Р(А)— Р(В)=0. Фраза «РЛ^РЯ» соответствует семейству всех таких распределений: Jt=\J&, и по правилам вычисления средних для семейств имеем М(А—В) = =inf Af^> (Л—В)=0. Результат >в терминах верхних средних за- & - пишется М(В—Л)=0 и может .рассматриваться как соответствующее фразе <<РА^РВу> первичное среднее (см. табл. 1.1). Из «РА^РВъ продолжением первичного среднего вытекает Р(В)<^Р(А)^Р(В)9 Р{В)^Р(А) (так как МВ—МА^0 = =М(В—А)^МВ—МА и 0=М(В—А)^МВ—МА) и интерпретируется как тот факт, что интервальная вероятность события Л, перекрываясь, в общем, с интервальной вероятностью В, смещена в сторону больших значений. Разным фразам о старшинстве вероятностей соответствуют первичные средние вида М(В(х)—А(х))=Оу которые при разных А и В согласуются по правилам средних и продолжаются на любые признаки. Интересно, что и здесь будут верны правила логического вывода: «РЛ^РВ» и «РВ^РСу>=^«РА^РСу> (так как М(С—В + В— А)^М(С—В)+М(В—Л)^0). Перейдем к средним. Совершенно аналогично показывается, что 'предложение «Mf^Mg» в устойчивых условиях эквивалентно M(f—g)=0. Условием согласования этого предложения со средними от признаков / и g являются: Mg^Mf^Mg, Mg^.Mf. Замечание. Соотношение Mf^Mg, при котором интервалы средних не перекрываются между собой, отражает более жесткое предложение: «/ в среднем больше g в любых (неустойчивых) условиях», когда точные средние Mf и Mg не существуют и допускаются лишь в интервальном понимании. Дополнения. 1. Аксиоматизация ИРВ. Интервальные распределения вероятностей сами по себе могут быть определены как наборы интерваль- 49
ных вероятностей Р(А)9 Р(А)9 YAa8B9 связанных между собой аксиомами [21J: 1) Р(Я?)-/>(#),« 1; 2) Р{А+В)^Р(А)+Р(В), ЛВ=0; 3) £(Л+В)>Р(Л) + +Р/В), ЛВ=0; 4) _Р(Л) = 1—Р(Лс) (возможны я другие варианты эквивалентного выбора аксиом). Согласованные в смысле этих аксиом вероятности могут быть результатом продолжения первичных вероятностей, а дальнейшее продолжение вероятностей на средние признаков / по правилам ИМ приводит в итоге к интервальным средним Mf, Mf. Этот путь традиционно вторит современному вероятностному подходу, где средние для измеримых f называются обычно математическими ожиданиями как результат математического расчета Mf по точным распределениям вероятностей ^ст. Аксиоматизация теории на базе вероятностей приводит к незамкнутой конструкции, поскольку очерчивает класс моделей только интервальными распределениями вероятностей, образующими все вместе лишь весьма узкий класс, ИМ. 2. Доказательство теоремы 1.2. Докажем формулу (1.5). Событие A j мажорируется либо самим собой, т. е. суммой gi(x) = 2 А,(х), тогда Mgi=*P(Aj)t либо признаком g2(x) = l— %Aj(x)t тогда Mg2=l—P(Acj). Ми- нимальное (наиболее точное) из fflgi и Mg2 и даст вероятность P(Aj) согласно (1.5). Легко убедиться, что никакой из других вторичных признаков, мажорирующих Aj(x), не приведет к более точному значению этой вероятности. Для доказательства (1.6) нужно представить <P(«s#s), P(«s#s)> как семейство .я^-точных распределений & таких, что P(Aj)^P(Aj)^P(Aj), и убедиться, что максимум по & при этих ограничениях М 2 cfAj (х) = max 2 сjP (Aj) = 2 cj P* (Aj) достигается на распределении вероятностей } IP(Aj) при cj>c*, хР(Л/) + (1 — k)P(Aj) при cj = c*, P(Aj) при с/<с*, где с* и к выбираются так, чтобы выполнялась нормировка 2P*C4j) = l, причем этот выбор однозначен. Распределение &* принимает максимальные значения P(Aj) в той части SB, где функция g(x)=%CjAj(x) велика, т. е. С}>с*г а для соблюдения нормировки вероятностей вынужденно оставляются самые минимальные значения Р(А$) тем Aj, на которых g(x) мала, т. е. с,<с*. 3. Примеры конечно- и счетно-аддитивных распределений. Пусть SB — произвольное пространство, состоящее из несчетного числа точек х% и пусть вероятность каждой точки задана нулевой: Р(х)=0, Vx^SB. Это и будут первичные вероятности. Нулевые их значения передаются по аддитивности конечным суммам точек, составляющим здесь класс невозможных событий. Соответственно достоверными событиями, имеющими единичную» нижнюю вероятность, будут противоположные события, т. е. SB без любого конечного числа точек. Остальные события будут иметь тривиальные интервальные вероятности '[0; 1]. Подчеркнем, что описанная модель — это не голое 50
ИРВ: как-никак данные о нулевых вероятностях точек все же присутствуют, что ведет к 2-ИРВ. Счетно-аддитивное распределение получится, если $в несчетно и нулевые оо вероятности Р (11*0= 0 исходно придаются любым конечным или счетным на- 1 борам точек. Здесь уже интервальные вероятности [0; 1] будут иметь только такие несчетные множества точек, что и дополнение к ним несчетно. Первичными для полученного а-ИРВ являются счетные наборы точек и дополнения к ним, образующие вместе сигма-алгебру s&a, на которой вероятности счетно- аддитивны. На бФ0 будут заданы неаддитивные вероятности, если исходными иметь к оо ^(U*0=0, P(U*i) = l/2 (вместо 1/2 может быть любая вероятность). Тогда 11 исходное счетное множество точек будет иметь интервальную вероятность [0; 1/2]. Вернемся снова к началу примера и зададим для каждой точки х интервальную вероятность 0^P(jt)^;P(*)^:l. Условие непротиворечивости сводится к тому, чтобы любые суммы нижних вероятностей не превышали единицу: 2Р(*г)^1, а это фактически означает, что P(Xi) могут быть заданы не равными нулю лишь на дискретном множестве точек, причем так, что их сумма не больше 1. На Р(х) никаких ограничений не накладывается. В результате: Р(В) = 2 P(xt), F(B} = min I 2?М. l|. ~~ xt<=B ~ I 1 J причем последнее равенство действует, если В={хи ••♦, хь), а если В не является конечным, то Р(В) = \—PJBC). 4. Гибридные распределения вероятностей. Они получаются добавлением к распределениям вероятностей не существующих для них средних (математических ожиданий). Поясним на примерах. Пусть дано распределение Коши ^с вероятностями отрезков Рс(а, &) =—(arctgb—arctga). Для него не существует ни математического ожидания, ни дисперсии, т. е. х, хЪфЗГао. Присвоим извне недостающие значения MX, MX2, сделав это в согласии с вероятностями, т. е. не меняя их в пересечении РсЛШХу^МХ2}. Это будет уже гибридная модель, не входящая в класс ИРВ, причем точные значения MX, MX2 здесь .могут заменяться на интервальные. Другой пример, пусть ^л — равномерное распределение вероятностей на отрезке [0, 1]. Вероятнбсти подотрезков равны их длинам, а математические ожидания — интегралам. Не существует математических ожиданий от неинте- грируемых по отрезку [ф, 1] функций, скажем fk(x) = ~— k , k^l. Заполнят—0,5) няя «пустоты» любыми согласованными между собой значениями Mfk, приходим к гибридным моделям: Л<М/л>Л^л. к ': " * Собственно, идея гибридных моделей близка к счетно-аддитивным распределениям вероятностей», av /также- к предельным формам моделей. В первом случае вероятностные интервалы для счетных сумм событий заменялись точными значениями согласно формуле счетной аддитивности (как видно из 51
предыдущего анализа, этого не обязательно делать именно таким образом), а во втором перенос средних на неограниченные признаки («пустоты», не вошедшие в P'g) производится по формуле интегрирования. Во всех этих случаях сужение ИМ ие вызывало изменения исходных вероятностей. 1.5. ПРЕДСТАВЛЕНИЯ МОДЕЛЕЙ Предисловие. Один итог, который уместно подвести, это то, что семейства моделей, а по сути их объединения, дают новые модели. Сказанное есть способ задания моделей совокупностями удобных, простых моделей (не обязательно семействами точных раооределений вероятностей). Тюода тело модели наглядно представляется как выпуклая оболочка простейших ее частей, атомов; но может быть и не совсем простейших, а укрупненных по структуре, зато простых по описанию. Ясно, что представлений такого рода необычайно много, основные из них здесь рассматриваются. Способы представлений делятся на универсальные и специальные. К универсальным относятся рассматриваемые здесь сечения тела ИМ параллельными гиперплоскостями, совокупности которых, как увидим, полностью определяются моделью и определяют ее. Сечения могут браться выборочно (задающие сечения), а также сами по себе могут описываться своими подсечениями. К специальным способам относятся задания с помощью семейств, образованных сдвигами некоторой простой (стандартной) ИМ, введением неизвестного параметра в функциональное преобразование некоторого стандартного ««шума» — процесса не столь уж сложной конфигурации, наконец заданием плотности (для нас она формальна) или семейств плотностей. Сечения модели, ^-простой называется ИМ <Af^>, определенная на первичном наборе 9 точными значениями Mg9 g^Sy первичных средних. Очевидно, <М^>= Д (Mg}9 .и результат бу- дет непустым только в случае непротиворечивости набора Mg„ g^S9 состоящего в следующем: 2*1&(*)>0=*2*|Л**1><>Р Vch gi<=5- i i М**§-сечением ИМ М называется пересечение: Лм*&=Л/К, /\(М*$у. Таким образом, Лмт& — это ИМ, полученная прибавлением к средним Ж набора точных первичных средних Ni*gy g^S. Совокупность jW*#={Af*g-:ge^} есть набор числовых характеристик секущей ИМ; звездочки означают, что это вносимые извне (по желанию меняемые) величины. Если У есть область существования для верхних средних Л+ то областью существования для М*^-сечения Лмт& будет J?(#TI^), состоящая из всевозможных признаков вида f+^cagu /е#~, gi^&. Область существования сечения шире, чем у исходной 32
ИМ, если 9[){Гф{Г, т. е. в & включаются признаки, не входящие в ЗГ. В случае одного секущего признака «получается М *#-сечение J[M*g. Это сечение будет, очевидно, пустым, если M*g<.Mg или M*g>Mg. Геометрически секущую ИМ <Af*g> (при 'конечном числе элементов пространства ЯП) можно представить себе как гиперплоскость в пространстве векторов вероятное- Рис , 8 Сечения модели тей. Для случая S6 = {хи *2, #з} сечение Мм*й изображено на рис. 1.8 сплошной, линией,. Рассмотрим, как нужно искать средние, соответствующие се* чениям. Пусть JLMmg=JC/\(M*gy. Первичными средними для Лм. g будут Mhy h^&~ и M*g9 поэтому AW= inf (Mh + cM*g)f h(x)+cg(x)>f(x), h<=£& где нижняя грань ищется по се52 и по AeiF. При заданном с нижняя грань по h достигается, когда h=f—eg, в результате Ми.ш f = min [M(f - eg) + cM*g]. (1.9) с Замечание. Если g не принадлежит области существования обеих границ Uf, т. е. g^#TI(—^")» то Для любого признака /е#Т|(—&) справедлива MMmgf=Mf (так как M(f—cg)=oo при сфО). Аналогичным образом, если 9k={gu ...» gk} есть конечный набор признаков, то М M^J = min\M (f- | cigi)+ | ctM.gX (1.10) Для произвольного набора 9 на основании равенств JtM &=> «.* Л <■*•*> = •* Л < А <«•**»= Л <-*Л<л«»*Л- в Л мМ*&ъ имеем: где инфимум берется по всевозможным конечным поднаборам &ъ. шризнаков из 9. Свойства сечений. Сечение обладает привычными свойствами ИМ. Помимо этого верны следующие свойства: м <&^~л. 2. Мм д*=:М »при Л1фй? = 1, в противном случае Лм^ = 0.
3- (ММ*91)м*92 = ММ*(91[)92)> т- е- Л^* 52-сечение ЛМф9г есть то же самое, что и М# ( } г [} $2) -сечение Л t т. е. Л Д 4. Если МЛ, Л&2# определяет модель <Л?5#>, то Л1*^-сечение будет определяться средними №26\}MJ§y т. е. (№36} м ^= = <.лШиМ*2?>. 5. Л= /\Лв=>Лм^= /\(Ле)м g—пересечения перестановоч- в в ны с сечениями. 6. Границы Mf^^f аддитивны относительно прибавления ко- . нечных линейных комбинаций -признаков из $ -Мщ &(f+ Xci§i)== Доказательство этих свойств элементарно. Из свойства 6 следует, что сечение будет одним и тем же для всех ИМ, получаемых «сдвигом» всех первичных признаков на Hcigi, gi^9f и соответствующим сдвигом их средних на 2с*М*#*. Теорема о представлении ИМ. Теорема 1.3. Любая ИМ JC представляется как объединение ее MJS-сечений: Л= V .*Af.y. (1-11) М*9 где % есть любой взятый набор признаков, а объединение производится по значениям M*g в интервалах Mg^M^g^Mg, g^S. Доказательство теоремы вынесено в дополнение 1 в конец параграфа. Замечание. В объединении (1.11) вполне можно допустить M*g пробегающими значения от —оо до оо, так как при M«g<Mg или M*g>Mg сечение пусто: Лмт& = 0. Если в качестве 9 взять лроизвольный набор 3S событий, то из теоремы следует, что каждая ИМ может быть представлена объединением ИМ с точными на наборе 3& вероятностями событий: л= v РЯ^Р^^РЯ _ МР*& ' Рис. 1.9. Представление сечениями 54 модели где Р*$={Р*(В), В*=Щ— обозначение совокупности вероятностей, причем _РЯ — нижних и Р& — верхних вероятностей. Геометрическое толкование теоремы о представлении видно из рис. 1.8 и 1.9: М описывается последовательностью параллельных отрезков, полученных пересечением прямых <Af*g> с телом моде-
ли М. Это при одной g. Если их несколько, то сечение сечений будет давать все более мелкие элементы (вплоть до атомов модели, а для дискретных пространств — векторов вероятностей, и тогда Ж представляется как семейство атомарных моделей — векторов вероятностей). Сказанное формулируется в виде следствия. Следствие 1. <Ш>= V <MJ3F). Здесь <Af*^> — простые модели, определенные точными значениями M*g, g&S. Таким образом, модели с первичными средними Mg, g^Sy представляются как семейства моделей с точными значениями M*g> g^&, такими, что M*g^Mg. Следствие 1, очевидно, останется в силе, если вместо & взять любой включающий & набор признаков. А также любой набор признаков и событий, из которого линейными преобразованиями (или их замыканиями) может быть получен каждый признак из 2?. В частности, если это система событий, то имеем утверждение» Следствие 2. Если все признаки набора 2? измеримы относительно системы s& множеств (т. е. представляются как конечные линейные 'комбинации индикаторов событий £ф или их замыкания относительно равномерной сходимости), то (Л?})= V {Р*Л)- Согласно этому следствию ИМ представляется как семейство точных на s4> распределений вероятностей. Если si> есть алгебра или кольцо событий, то это будут конечно-аддитивные распределения вероятностей. А интересно, что будет, если si> »— сигма- алгебра, т. е. алгебра, замкнутая относительно счетных объединений? Тогда все равно ИМ представляется как семейство лоточных распределений вероятностей, но это будут опять же в основном конечно-аддитивные распределения (!). Можно сделать вывод, что счетно-аддитивные распределения: сами по себе являются слишком редким исключением в «семье» распределений вероятностей, чтобы ими можно было описать многие ИМ (в частности, конечной размеряости). Причем «расширение системы s4> с целью дробления ею пространства SB на все более мелкие части, а отсюда логический переход к борелев- ским сигма-алгебрам, и к более мелким лебеговским, хотя и несколько увеличивает описательные возможности счетно-аддитивных распределений, в принципиальной своей основе вывода не меняет. Изюмина, скрытая в следствиях 1 и 2, состоит в том, что неустойчивые в статистическом смысле явления описываются в виде семейств точных моделей, соответствующих устойчивым явлениям, в частности, с помощью семейств точных распределений вероятностей. Неустойчивость статистическая взаимно «перекачи- 55
вается» в неустойчивость информационную, в наше незнание точных законов, неизвестность выбора. На первый взгляд, парадоксальный вывод, но на самом деле вполне естественный, так как в обоих случаях при независимых «повторах в пределе будем получать разные средние арифметические, а это же и средние в интервальном их понимании. Определение ИМ задающими сечениями. Только что говорилось о том, что можно мыслить себе ИМ в виде объединения или семейства более мелких ее частей — моделей. Но ведь это есть л способ _задания Ж, если ее исходно определять не через свои средние Mf, а как объединение более простых по описанию задающих ее моделей Ж*е'-Ж<=\/Ж*е. Простых в том смысле, что для них легко находятся средние Mef. Тогда Mf=supM*0/. Это в один из способов непрямого задания ИМ, различные аспекты которого здесь и обсуждаются. Сначала рассмотрим тот случай, когда Ж*е являются М*&- точными, а роль многомерного шараметра 0 выполняет сам набор средних M*g, g^§. Запишем •*- V -*\м>9)- <1Л2> Справа символ М*2? сознательно заключен в круглые скобки, чтобы указать на тот факт, что для Ж\м*&) средние от признаков g^S являются точными, равными значению соответствующего параметра: M{M*&)g=M*g, так и на то, что в отличие от (1.11) «параметры» не обязаны пробегать все значения из [Mg9 ^g]> *g^&, a Ж\м*&) в свою очередь не обязательно должны быть ЛК^-сечениями модели Ж. Как это хорошо видно из рис. 1.9, где Ж=Жц\/Ж\ \JJI2 может быть задана сечениями лишь ее частей Ж\ и Мъ и здесь, если даже сечения Жо задавать пустыми, то все равно Ж=Ж\\/Жь т. е. выпуклая оболочка Ж\ и Ж% (или сечений) определит Ж. В формуле (1.12) Ж*м*&) будем называть задающими модель сечениями. Рассмотрим пример. Пример 1.12. Пусть #?={*i, x2, х3) — три элементарных исхода и Ж интерпретируется как выпуклое семейство векторов вероятностей Р. Насколько видно из рис. 1.9, описание Ж первичными средними, эквивалентное описанию контура Ж касательными линиями (которых бесконечно много), является неудобным. В то же время каждое ее P*(xi)-сечение JCP^X \ есть довольно простая по структуре ИМ, задаваемая точной вероятностью P*(*i) я пределами изменения Р*(х2): Р_р*{Хх) (xz)^P*(x*)^Pр*(Хх)(х*)> зависящими, в общем, от P*(xi). Сечения Жp*(Xl) будут задающими для Ж= V «&р*(Х )» НУЖ" «о указать лишь пределы изменения параметра P*(xi) либо в диапазоне от ^P(*i) до P(xi), соответствующем Ж, либо в более узких двух диапазонах 56
[P(xi), p'] и [p"t P(xi)]3 соответствующих отдельно Jti и Лг, обозначенным на рнс. 1.9. Вернемся к формуле (1.12). Пусть модели м\м*&) описываются помимо значений M*g, g^S, (разных для разных моделей) все одними и теми же верхними иервич-ньши средними ЛЗЛ, Ае<9#: Тогда их объединение по изменениям M*g, g^&, ограниченным сверху числами Mg9 g^$, определит ИМ Ж, первичными для которой будут те же самые МЖУ и плюс к этому, М9, что формально записывается: Л= V {(МЖ)Л<М* у))- (МЖ) А(М ;). M*g^Mg, ge=& Поясним сказанное. Пусть &=g и изобразим на рис. 1.10 М*#-сечение как плоский многогранник Ж*(м*ё) на гиперплоскости точного значения M*g. Если его грани Mhj не меняются при ЛР#-«сдвигах», то они сохраняются и для фигуры Ж, полученной в результате параллельного перемещения этого /плоского многогранника при изменении M*g от Mg до Mg. Плюс к этому две грани будут соответствовать «крайним» значениям M*g=Mg и M*g=Mg. Кстати, расположенные <на них многогранники полностью описывают Ж: Ж=Ж*(мё)\/'Ж\~ . Подобная редукция описания возможна при любом наборе ^. Несколько более общий случай по сравнению с предыдущим будет иметь место, если (при прежних остальных условиях) №(M*&)h зависят от M*gu gi^Sy и линейно меняются при их изменениях: М(м^)Н = тк+ 2ct(h)M*gif hZEM, где коэффициенты d(h) зависят от h. На рис. 1.10 это будет выглядеть как изменение направления движения при смещений плоского многогранника, что вызовет и изменение итогового по- положения праней Жу соответствующих признакам h сече- Mq fig ний, а значит, н самих А, кото- ^—- тч^ рые переходят в А—2й(А)Х / n^ / ' Xgi со значениями M\h— / * |Т / -2ci(h)gi]=mh, к^Ж. Эти _/- Mh? первичные средние вместе с \ ^ J \- Mg, Mg, g<^$, и определят Ж. \s \>"fo Рассмотрим пример такого представления. рИС( \ \q Формирование граней модели 87
Пример 1ЛЗ. Пусть на Я задающие сечения Л*щ*х\ ПРИ каждом фиксированном М*Х заданы средними М* ^МтХ^Х2=т2'\-М*Х. Здесь в принятых выше обозначениях g(x)=x, h(x)=x2. Тогда объединения сечений по параметру М*Х, меняющемуся в пределах MX^M*X^MXt образует ИМ с первич- лыми средними: М(Х2—Х)=\т2, MX, MX. Мы рассмотрели тот случай, когда первичные средние М*&- сечений зависят от М*&. Другой способ — сделать зависящим от М*& сам вид первичных признаков км*& задающих сечений. Пример 1.14. Задание случайной величины средним и дисперсией. Дисперсия есть мощность центрированной к точно нулевому «среднему св. в2=М(Х—MX)2. В общем случае нельзя определить дисперсию. Можно сделать это только при допущении о точных MX, т. е. для М*Х<.ечет ний Л*(м*Х) "модели, задавая для них М*\м*Х) (х~М*Х)2==<52(м*Х)' Объединение сечений по М*Х и даст модель случайной величины, заданной пределами MX, MX изменения среднего й (при каждом М*Х) верхней дисперсией ^(М+Х)- Преобразуя в каждом сечении выражение для дисперсий с учетом того, что М*Х является точным, имеем: g2(m*X)~&*(M*X) W—^*^)2~^*(М*Х)^—(М*Х)2, или ^*(А1*х)^2==ог2(Л1*Х)—Ш*Х)2. Отсюда следует, что первичный признак h(x) — (x—М*Х)2 для М*Я-сечений эквивалентным образом заменяется на х2 с первичным значением о2щ*Х)—(М*Х)2, зависящим от М*Х нелинейно. Данная методика может быть продолжена на задание ИМ интервальными центральными моментами и куммулянтами. Представление через стандартную ИМ. Вернемся к общему представлению: М=\]МъУ частными случаями которого являются как запись ИМ в виде выпуклой оболочки простых распределений (вершин), так и в виде объединения сечений. Хорошо бы, чтобы все задающие JCq «имели одинаковую, достаточно простую структуру. Остановимся ща том случае, когда все Mq получаются несложным образом из одной Л0, называемой стандартной. Для этого наводится зависящее от Э соответствие между признаками f*-+fe так,_чтобы их средние для стандартной и задающей ИМ совпали: Mof=Mefe, при этом не нарушив согласованности. Тогда для нахождения Меф достаточно выявить соответствующий ,ср признак f j (при заданном в) и взять от него среднее Mof. Рассмотрим более строго допрос, каким в этой схеме должно быть соответствие между признаками, как они связываются между собой? Пусть стандартная Мъ определяется своими средними Mof, f^&~, и зададим Jte значениями MQf = M0(LQf)9 (1.13) где Le — оператор, отображающий область #~е существования *Жв в область <#~о существования Jt0: &~q —+ЯГь бев. 58
Утверждение 1.4. Средние в формуле (LIS) будут согласованными, если оператор Le обладает следующими двумя свойствами: а) линейностью Le(f 1/1 + ^2+^) = CiLefi + C2Lef2 + c; б) сохранением порядка fi^/2=^Le/i^Le/2. Нужно доказать, что для границ, выраженных (1.13), выполняются аксиомы ИМ (см. стр. 15). Очевидны А1 и А4. Далее, b^0=>Me(bf+c)i= = MoLe(bf+c)=Mo(bLef+c) = 6AIoL0f+c=£AI0/+c, и доказана А2. Наконец, A3 следует из соотношений Me(f+g)=MoLQ(f+g)^ M0LQf+MoLQg= MQf+M^ что и доказывает утверждение. Из свойств линейности и сохранения порядка оператора Le следует, что если первичным набором стандартной ИМ Ло= = (Мо§у является 2?, то первичными наборами для JCq будут &e={gQ: Lege=g, g^&) со средними Mege=M0g9 где Lege=g* Функциональные представления. Рассмотрим один частный случай предыдущего представления. Для этого обратимся к записи х в /виде отображения лс=Ув£, где Ve — известный оператор, зависящий от неизвестного параметра в, принимающего значения из множества в. Такие записи обычны -в задачах обнаружения и выделения сигналов, в которых шум £ (вектор или процесс) действует .в канале связи, описываемом оператором Ve, где 0 — неиз-. вестный одномерный или многомерный параметр канала (или параметры сигнала и шума), а х — получаемые в результате векторные или в виде процесса наблюдения. Задана ИМ «шума» Л[0Ъ, играющая роль стандартной. Требуется составить ИМ Мх наблюдений. Если оператор Ve при каждом 8 отображает «реализации» \ в «реализации» х взаимно-однозначным образом, тогда Le, заданный так: Lef(x) =f(Ve£), будет_удовлетворять посылам утверждения 1.4. Равенства Mxef(x) =M%f(Vei) согласно (1.13) породят серию ИМ J£ex, объединение .которых по Э даст модель Л* наблюдений, определяемую средними Mf(x) = supMxef(x) = supMf(VQt). е е Пример 1.15. В задачах радиолокация и связи смесь сигнала wtj где / есть время, с шумом £* часто записывается в виде: Xt=§Wt+%t, в котором 0^0 — неизвестная амплитуда сигнала. Пусть шум £* описывается ИМ JTo. Тогда модель Жв наблюдений Х% при каждом заданном 9 определяется следующими значениями: MQf(Xt)^Mof(Xt—Qwt), а модель Ж, равная объединению Жв по 9, — значениями Mf=supMof(Xt—Qwt). Они и дадут модель JC, Здесь, если *^о=<Л?о^> имеет первичным набором множество # функционалов, то первичными признаками JTe будут g^g{Xt—Bwt) с теми же первичными средними, что и заданы на &: $Qg(Xt—Qwt)=M0g. Плотность. Рассматривается способ выразить одну ИМ через другую, стандартную, с помощью функции р(х) переменной х. Сначала рассмотрим наиболее простой случай, когда SB=&, и на первичном кольце Жя всех отрезков задано конечно-адди- 59
тивное распределение &\ точными вероятностями Р\\[х9 у)> jc<y^&. Плотность вероятностей по отношению к другому такому же ^-точному распределению ^0 с вероятностями Pd[x9 у) .задается формулой р(х) = ш£±1±и». у\х Р0[х, у) Плотность определена, если этот предел существует для всех jc9 кроме, может быть, множества точек ^-вероятности 0 (здесь i?o может вполне быть заменено на любую ^-точную меру, но удобней всего для этих целей мера длины, определенная как Р0[а9 Ь)=Ъ—а). Смысл плотности вероятностей шрозрачен сквозь призму аналогии с плотностью массы физического вещества, только слово «масса» заменяется на «меру» или вероятность. Точно такую же -аналогию имеет плотность, когда J2?=i#n (т. е. рассматривается случайный вектор). Тогда р(х) есть предел отношения вероятностей непосредственных окрестностей точки х9 в которых место отрезков занимают п-мер»ные брусы при неустанном уменьшении сторон бруоов. Если плотность р(х) существует, то среднее по распределению &\ будет M1g=$g(x)p(x)dP0(x) = M0gp для всех интегрируемых по Риману — Стилтьесу функций g(x)9 которые и образуют класс &Жъ вторичных признаков. Для лкь *бых же признаков / среднее Mf определяется как верхняя грань Mg для всех g^fy g^&Jtfo, откуда и следует формула MJ==M0fr, /реГ, (1.14) хде &* —область .существования средних для &Q. Из (1.14), если взять /в качестве f(x) индикатсчрную функцию отрезка ,[х, у) (бруса) и устремить у\х9 очевидно, будет следовать исходное определение плотности. Возьмем (1.14) за основу формального определения плотности одной ИМ Ж\ (не обязательно точной) ino отношению к другой ЛСъ. Считаем, что Л0 имеет областью существования верхних средних класс ЯГ функций, а М\ — класс 2Г\ = {///?: /e#~}U#~o> _где &~о — все ограниченные сверху функции (добавление их к J@~x нужно тогда, когда р=оо в некоторой области, так как в лей ///? = 0). Чтобы формула (1.14) задавала согласованные средние на лризнаках из дГ\9 необходимо и достаточно, выполнения двух условий: а) функция р(х) неотрицательна: р(лс)^0; б) среднее от функции р(х) точное и равно 1: M0p = W0p= 1. <60
Функция р(х), одределенная уравнением (1.14), называется формальной плотностью М\ по Jto и обозначается р(х) = =М\[Жо' Формальная плотность, если она существует, определена почти однозначно в том смысле, что если р\ и р2 — два варианта плотности, то событие, на котором они не равны друг другу, является ,Мо-нулевым: Ро(р\Фр2) = 0. В самом деле, пусть N={x : pi<p2}. Тогда из неравенств Mo(pi—p2)JV<0 и Mo(pi—p2)N'^MopiN—Mop2N=0 следует Af0(pi—P2)N=Q, откуда Fq(N)=0. Поменяв pi и р2 местами, находим P0(N')=0, где N'={x :pi>p2}. Объединяя N и N', получаем Po(AW)=0, что и доказывает утверждение. Событие iV0, рулевое _для М, обязано быть нулевым для Jti:Po(No)=0=>Pi{No)>=MoNop = 0. При этом р{х) на N0 может в принципе быть любым, даже принимать значение + оо (так как 0-оо=0). Более того, нулевым обязано быть событие на котором р(х)=оо. Если р есть формальная плотность Ж\ по Мо и р>0, то \/р будет формальной плотностью Мо по Ми р « Лх1 Jt0 > 0 =»■ 1/р= qMJMx. Доказательство следует из равенства М\ (f/p) =Mo{fplp) =fflof, и если р=оо при x^N, то отношение pip в этой области можно считать любым от 0 до ,оо. Теорема 1.5. Пусть первичными для <А?о#о> являются признаки набора 9о и М0р(х) = 1. Тогда первичными признаками для (М\&\)9 формальная плотность которой по отношению к <Л1о*?о> существует и равна р(х), будут ii = {gi(x)-gi(x)-g(x)/P(x)> g(x)^ *e>U{±l/P(*)> €0 средними на них: Mx(glp) = Mog, gZE)0; Л^1/р)=-^(-1/^ = 1. В самом деле, так как без ущерба р(х) можно считать первичным признаком для <AIoGo> со значением Мор=1, то M1f = 'M0fp=ini{[c + c0M0p+ S cfM0gi]: с+с0р + 2 cfgip*fp} = = inl{[cM1(\Jp) + c0 + 2 cfMogi]: c/p + Co + 2 cfgt/p^f}. Эта формула доказывает утверждение теоремы. Таким образом, смысл формальной плотности М\ ло отношению Jto состоит в пересчете вида первичных признаков g%-*~gilp, р-*1/р, при одинаковых первичных средних, что может рассматриваться как взаимно-однозначное соответствие первичных признаков моделей. При этом достаточно рассматривать только те из них, первичные средние которых являются согласованными. Рассмотрим следствия теоремы. Следствие 1. Область существования &~\ верхних средних ЯМ Ми формальная плотность которой по отношению к <Мо^0> 61
равна р(х), составляет множество признаков, мажорируемых конечными линейными комбинациями вида c+^c+igjp, gi^&o. Признаки из 2Г\ представимы в виде /=2с+г£г/р+/о, где gi^&o, a /о — ограниченный сверху признак. Следствие 2. р = Мг/Л0 = Ж{/М'0 =>р=(Лг/\ М[)/(М0 Д Л'0). Можно сделать вывод, что для существования формальной плотности p=J[\fJ[o необходимо, чтобы Жо имела более богатый первичный набор, чем Ж\. Частное &/р приводит к потере данных о признаках набора 9 по крайней мере в той области, где р(х)=0. Отсюда размерность модели Ж\ должна быть никак не выше размерности Ж0. При р(х)>0, Ух, размерности должны быть одинаковыми, а первичные наборы в известном смысле эквивалентными. Рассмотрим примеры определения формальной плотности для ИМ, не являющейся точным распределением вероятностей. Пример 1.15. Пусть Jto — моментная ИМ, определенная начальными моментами ЩХ1, /=1, ..., к, верхними и потому неточными, кроме одного, МоХ2=МоХ2=М0Х2, с обязательно точным значением. Функция р(х)=х2 будет формальной плотностью *2=*#i/Jfo для такой Ж и первичными средними которой являются Afi(l/X2) = l, Adfi(l/X) =Л?0Х, МхХ=МьХ3, ... ..., MiXh-2=MQXk. Областью существования fFi будет множество признаков к " вида с+2с+Д*-2+/о, /о^^"о. В этом примере, так как р(*)>0 при хфЪ г функция 1/р(*) = 1/*2 будет формальной плотностью Jto по отношению к Ли если исключить из числовой прямой, на которой они заданы, точку 0. Отметим, что плотность одного ИРВ относительно другого может существовать лишь для точных распределений, так как требование Мор = М\(1/ру=1 исключает какие-либо отклонения. Дополнения. 1. Доказательство теоремы о представлении. Докажем сначала теорему для сечения Ж одномерным параметром Mg. На основании определения операции объединения достаточно доказать равенство ma*_ MMgf = Mf. Mg^Mg^Mg Обозначим левую часть Mf. Подставляя в нее формулу (1.9), получаем: Mf = max min Ш (/ — eg) + cMg] = max min W (c, Mg). Mg^Mg^Mg * S Функция W(c, Mg) линейна (и следовательно, вогнута) по Mg и выпукла по параметру с, так как для 0^7^*: Wto + O-Y)*. Mg) = M[yf-yclg+(l-y)f + (l-y)c2g] + + [yci+(l—y)c*]Mg<V^(f — c1g) + yc1Mg + + (l-y)M(f-c2g) + (l-y)c2Mg = yW(c1, Mg) + (l-y)W(c2, Mg). 62
Поэтому, используя известную теорему о минимаксе [22], без изменения результата максимум и минимум можно менять местами. Получаем Af/ = min max IF (с, Mg) = min [M(/ — eg) + max {cMg, cMg}], с Mg с и это равно Mft поскольку минимум достигается при с=0 (в самом деле, при £>0: M(jf—cg)+max{cMg, cMg} =MQ—cg)+cMg p*Mf—cMg+cMg=Mf и тоже самоё неравенство справедливо при с<0). Теорема доказана для случая, когда & состоит всего из одного признака. По индукции теорема распространяется на случай, когда ^=^л есть конечный набор. Наконец, для произвольного набора #, если обозначить Mf= supMM«/ =sup inf MM<& Л то нужно доказать равенство Mf=Mf. Признаку / такому, что |Mjf|<oo (откуда 1^м<^/|<°°). и фиксированному «>0 всегда найдутся такие k' и конечный набор &к,, что Отсюда В то же время Жм<&с:Ж, откуда получается \/Жм<£<иЖ и Mf^Mf. Окончательно, для любого признака f из области существования средних &" имеем \Щ—Mf\^e, и утверждение теоремы следует из произвольности е. Доказательство закончено. 2. Пример пересчета по формуле (1.13). Пусть y=VQ{x) есть V8 взаимно-однозначное отображение 96 в 96: S6-+96. Тогда оператор L^(x) = =/(V0(jc)), очевидно, будет обладать требуемыми свойствами а) и б) утверждения 1.4. В линейных пространствах 96 (например, если 96=91п) такого типа операторами являются преобразования сдвига LQf(x)=f(x—bexo)t bQ^&, где элемент Хо характеризует направление сдвига. Подставляя в (1.13), получаем &о1(х)=М(4(х—Ьехо). Здесь Ж§ выводится из Ж о сдвигом всех х^.96 на величину bQXo. 1.6. УСЛОВНЫЕ ИНТЕРВАЛЬНЫЕ МОДЕЛИ Постановка проблемы. Интервальные модели дают описания явлений, еще не происшедших. Допустим, что такое безусловное описание Ж составлено в виде совокупности согласованных средних Mf, f^&~. А (потом ©друг дополнительно стало известно, что произошло событие В. Оно частично, но не полностью отражает результат явления, если только не является элементарным событием. Тогда после В неопределенность останется, а явление бу^ Дет описываться новой моделью Ж в, называемой условной при 63
случившемся В. Условной модели соответствуют свои средние Наличие достоверно происшедшего события В для условной модели соответствует вероятности МвВ(х)=Рв{В) =1. Но не только это. Производится пересчет абсолютно всех средних Mf в Msf, своего рода преобразование одних в другие, и как их часть — вероятностей Р(А) в Рв{А). Вопрос, как? Если событие В имеет точные вероятности Р(АВ) и Р(В), то пересчет в условные хорошо известен и производится элементарно делением РВ(А) = Р(АВ)/Р(В). А если неточные? Если неточной является только вероятность вычислителе, то для расчета Рв(А) нужно подставить вместо нее Р(АВ)9 что соответствует супремуму отношения по Р(АВ). По такому же принципу рассчитываются средние любых признаков. Но как определить условные средние и вероятности, когда в знаменателе вероятность Р(В) является интервальной ^Р(В), Р(В)? Основная трудность здесь в том, что если брать супремум правой части, то Р(АВ) и Р(В) оказываются связанными: нельзя положить одновременно Р(В)=Р(В) и Р(АВ)—Р(АВ) (равно, как абсурдно желание, заполняя «вероятностной массой» до краев «отсек» АВ, обеспечить при этом минимальное суммарное заполнение обоих отсеков АВ и АСВ, составляющих В). Определение условной интервальной модели. Начнем с рассуждений, которые и приведут нас к определению. Пусть Жр^(В) есть Р* (В) -сечение Jt. Вероятность события В для Мр^в) является точной, равной Р*(В), и пусть Р*(В)>0. Тогда соответствующие сечениям ЖР#(В)условные ИМ Жр^в),в получаются сужением области существования к признакам f(x)B(x), f^&~, где ST — область существования Mf, и нормировкой всех средних на число 1/Р*(В), что дает MpmiBhBf = MfB/Pm(B)t f(=f. Очевидно, определенные так средние удовлетворяют аксиомам ИМ. Любая ИМ согласно теореме 1.3 о представлении записывается как объединение ее Р* (В) -сечений. Для каждого из сечений по указанной формуле находится условная ИМ, а их объединение и даст искомую условную ИМ. Условной при случившемся событии В называется ИМ Мв на 8В, определяемая из М средними: А«в/- max _ [Мр{в)ГВ/Рш(В)]9 f<=f, (МБ) Р(В)^Р,(В)^Р{В) где MP.(B)ifB есть средние для Р(Б)-сечений Лр.(В)=ЛЛ<^*(5)> от признаков f(x)B{x). 64 I
Средние по формуле (1.15) называются условными. Без труда пррзеряется, что они удовлетворяют аксиомам ИМ. Областью существования верхних средних условной ИМ будет класс признаков, совпадающих с функциями &* на событии Б, и произвольных (возможно, принимающих значения ±оо) вне этого события. Этот класс обозначаем £ГВ. Нижние средние условной ИМ определяются по обычной формуле Мв!=—Мв(—/). Если Р(В)=0, то правая часть (1.15) при максимуме, когда Р*(В) =0,~понимается как предел Р*(Б)->0. Так же понимается эта формула, если событие В является нулевым, т. е. Р(В)=0. Тогда М , fB P*(B)max(fB) MBf= Hm мрлв)Г* д lim x = maxfBt РЛВ)-+0 P*(B) Р*(Я)-И> Р*(В) х где при любых f (и неограниченных также) функция fB считается равной нулю в области Вс. Отсюда следует, что если событие В является невозможным (в частности, 5 = 0), то условная ИМ Ж в будет Б-индикаторной Лгв=«Згв,_а именно определяемой на $8 единственным первичным средним Рв(Вс)=0. Подстановка в (1.15) формулы (1.9) § 1.5 для средних сечения раскрывает выражение для условных средних: min [M (f — с) В + сР* (В)] MBf = max _ -£ — . (1.16) Р{В)^Р*(В)^Р{В) У* \а) Дадим примеры расчета по этой формуле. Пример 1.16. Расчет условных вероятностей ИР В. Пусть f в (1.1*6) есть А(х). Тогда минимум по с в квадратных скобках выражения (1.16) будет достигаться либо при с=0, либо при с=1, в результате чего ju^(B)4B=min{P(i4£), Р*(В)—Р(АСВ)}. Подстановкой данной формулы ^ (1.15) находятся верхние условные вероятности: Рв(А)=Рв(АВ)=МвАВ = _ Р(АВ) max f Р(АВ) Р(АСВ) ) mini —- , 1—• — —f CPU» I P*(B) P*(B) i р (В)^р,(В)^р (В) I Р* (в) Р* (в) i Р (АВ) +£ (Ас В) ' где использован тот факт, что максимум достигается при равенстве членов под знаком минимума. Пример 1.17. Пусть Ж на 01 определена двумя первичными средними М\Х\, ЩХ\ и пусть В=[а, Ь], 0<а<Ь. Без труда находятся Р(В)=0 Р(В) = =min{l, М\Х\/а). При заданном Р*(В) для сечения имеем MPAB)fB= ' inf [с + 4М\Х\-4М\Х\+С8Р*(В)]. с+(с 1 -с2 ) I *\ + *шВ(х)*Нх) Например, для события D=[dit d2]<=B по этой формуле получаем MPAB)D = min{M\X\/c1, P*(B)}9 Mpm(B)D = 0, 3—13 65
откуда, если ВфВ и ИФ0, находим Мв£>=0 и MBD = PB(D) = max min {-^r-. l)=min|-^-, l)=l. *W pmiB) \dtP*(B) j \ d^B) j Таким образом, границы для всех условных вероятностей событий в данном примере тривиальны. В случае f(*) = M имеем: Л15|Л:| = min_ М\Х\/Р*(В) = М\Х\/Р(В) = =-i^J о<р,(В)<р(Б) min{M\X\/a, 1} МВ\Х\= тах_ ТЙ\Х\/Р*(В) = оо, и, в частности, при М\Х\>а получаем Мв\Х\=аМ\Х\1М\Х\. Для другого события Bi=-[—а, а] при тех же первичных средних имеем P(Bi) = [l—М\Х\/а]+, Я(jBi) = 1, и если это событие произошло, то условные вероятности уже не будут, как выше, тривиальными, так как, например, для события Z>i= [—d, d\, d<a: PBi (Dx) = [1 --Af |X|/<f]+/jl - M| A'|/a]+, PBt (DJ = 1. Без труда находятся средние от функции \Х\: MBi \Х\ =М\Х\, MBi\X\ = 1/[1/Л*|Х| -1/а]+. Расчет условных моделей через вершины. Здесь рассматривается частный случай, но он позволяет нарисовать ясную наглядную картину условных моделей. Пусть пространство #? = {лсь ..., хг} конечно и Ж есть ИМ на нем. Обозначим Ре= (Pe(*i), ..., Ре{хг)) — все векторы вероятностей, являющиеся вершинами (крайними точками) Ж, так что Ж=\/Р&. Соответствующие каждому Ре вероятности Р0(В) = = 2 Pe(Xi) являются точными, потому объединение перегруппи- руется как запись Ж через Р (В) -сечения, если каждое сечение представить набором вершин — векторов Ре с одинаковыми Ре{В)=Р(В). Условная ИМ Жв, полученная из Ж, если стало известно, что событие В произошло, есть выпуклая оболочка (объединение) преобразованных к условным вершин, полученных делением компонент Ре на Ре {В) с обнулением компонент Ре(*г), Для которых ХгфВ: мв= v Р$/Ре(В), Q: ре (В)>0 где Рве есть вектор с компонентами Ре (*0 = |ft .д а объединение производится по тем вершинам, относительно которых вероятность В является ненулевой. Геометрически получение условной ИМ выглядит следующим образом. Сначала каждая вершина Ре редуцируется к вектору т !
Рве обнулением всех компонент Pe(Xi)9 для которых ХгфВ. Эту редукцию можно интерпретировать как проекцию векторов Ре в соответствующее подпространство St в пространства 9Р. Далее из начала координат в направлении векторов Рве проводятся лучи hPBe> Я^О, до пересечения с гиперплоскостью 2 P(xt) = l поддев пространства 5?гв. Пересечение достигается при A,=J/Pe(fi), и точки (пересечения Рве/Ре(В) дадут векторы условных вероятностей. Иллюстрация оказанного для 9£\= {хи х2, х$) и В={хих2} приведена на рис. 1.11. Условной ИМ Ж в здесь соответствует отрезок [Pib, Рзв]* Заметим, что число вершин Ж в меньше, чем у Ж: точка Р2 является вершиной Ж, но Р2в не есть вершина Жв- Мы показали, что условные ИМ записываются через вершины, если такую запись допускают безусловные. Если же Ж определена своими первичными средними Mg9 g^99 то теоретически можно найти условную ИМ Жв, сводя Ж к ее вершинам. Для этого щужно проделать следующую последовательность действий: первичные средние Л?^->согласованные грани Jf-^вершины Ж-*- -^вершины условной ИМ-м1ервичные средние Жв- Этот путь весьма долог, поскольку каждая из операций достаточно трудоемка. Но дело даже не в этом, а в том, что для бесконечных пространств SB понятие вершины как вектора вероятностей «не имеет смысла, что существенно ограничивает универсальность такой процедуры. Некоторые свойства условных интервальных моделей. Для условных ИМ *#в событие В является достоверным Рв(Ву=\, а Вс — нулевым Рв (Вс) = 0. С учетом этого условные ИМ обладают всеми свойствами ИМ, заданной она %&. Рассмотрим, как будет меняться условная ИМ, если сужать или расширять событие В. Очевидно, в крайних случаях, когда событие В достоверно, т. е. Р(Б) = 1, условная ИМ совпадает с исходной Жв=Ж, а если событие В является невозможным, т. е. Р(Б)=0, то условная ИМ будет Б-индикаторной: Жв=Ув> Оказывается, последнее равенство имеет место не обязательно только для невозможных событий. Свойство 1. Если каждая из первичных функций g^S _ безусловной модели Ж=(МЗ?У принимает на В постоянные значения, то условная к ней Жв будет В-индика- торной: Жв=Ув. В ^амом деле, в этом случае Mp*(B)fB=P*(B)maxfB и свойство непосредственно следует из определения условной ' и*/ ' Р Р ь ИМ. " Свойство 2. Условная рИс. 1.11. Геометрическая иллюстрация ИМ, соответствующая голой мо- условных моделей . &* t>7
дели 3fy будет В-индикаторной 2fB, каковым бы условие В ни было. Свойство 3. Условная к объединению Ж=Ж\УЖ2 модель равна объединению условных ИМ: Жв=Ж\в\/Ж2в. Свойство 4. Ж\<^Ж2=>Ж\в<^Ж2в — при переходе к условным сохраняется операция включения. Свойство 3 распространяется на объединение произвольного числа моделей. Собственно, это свойство и было положено в основу определения условных моделей, когда от объединения сечений был сделан шаг к объединению условных к ним моделей. Свойство 4 есть прямое -следствие 3, так как Ж\аЖ2-^*Ж\\/ УЖ2=Ж2. Для иллюстрации восстановим наглядную картину, нарисованную на рис. 1.11. Считая SB дискретным, представим себе Ж как выпуклое тело в пространство векторов вероятностей, и поместим точечный источник в начало координат. Тело Ж при освещении его источником' бросает тень на гиперплоскость S P(x)i=P(B) = 1. Эта тень и даст условную ИМ. На основании такого представления получают наглядную интерпретацию свойств 3 и 4. Тень от выпуклого объединения тел будет равна объединению их теней, что иллюстрирует свойство 3. Но вот тень от пересечения тел не будет равна пересечению их теней. Два тела могут не пересекаться, но при освещении точечным источником бросать одинаковую тень на гиперплоскость. Отсюда — следующие два предложения. Свойство 5. Пересечению ИМ не будет, в общем, соответствовать пересечение условных ИМ. Свойство 6. Двум различным безусловным ИМ может соответствовать одна и та же условная. Например, пусть В(х) есть единственный первичный признак как для модели Ли так и Для Л2, заданных своими точными вероятностями Pi (В), Р2(В)ФРХ(В). Тогда Л\ и Ж2 не пересекаются между собой, но им соответствует одна и та же В-ин- дикаторная условная ИМ 2(в- О восстановлении безусловной модели по условным. Здесь будет обсуждаться вопрос о возможности восстановления Ж по набору соответствующих ей условных Жв., где ^л={Ви ...» Въ) есть дробление пространства SB на непересекающиеся события и #?=2В*. Пусть сначала вероятности событий В{ считаются точными для Ж: Р[Вг)=Р(В{)=Р{Вг), t=l, ..., k. Тогда Mp(Bi)fBi= =MfBi и на основании этого устанавливается справедливость неравенства Mf< 2WBi= I>P(Bi)MBif- Правая часть есть усреднение условных средних MbJ по точному распределению вероятностей P(Bi) событий Ви Равенство левой и правой частей (соответствующее известной формуле полной ве- 68 Ч;
роятности) достигается только тогда, когда верхнее среднее М аддитивно на событиях fi<: M2lfBi = 2iMfBi. Перейдем теперь к более общему случаю, когда вероятности Р(В{) не являются точными. . Запишем ^Р(Вг)МВ{Ь=* =M[^Bi(x)MBif]y и заменим символ точного среднего на верхнее по Л. Это даст значения Ж/=ЛГ[2В,АЦЯ, fe=ft определяющие новую ИМ, обозначаемую Л. Таким образом, имеет место включение Л^Л. А если Л=(М&} и все функции набора $ ^-измеримы (т. е. являются конечными линейными комбинациями В{(х) или их замыканиями), то Л=Л. ' Выделенный курсивом тезис станет понятным, если отметить, что для вычисления Mf нужно знать как Мв.Д т. е. условные модели Мвр так и средние всевозможных линейных комбинаций Вс M^ciBu что (если взять первичным класс 9?Яъ этих комбинаций) составит ^^и-'расширение Л.' Если по условию второго предложения тезиса все g^S являются ^-измеримыми, то ^cS'lj и <2^2-расширение совпадает с исходной ИМ Л, дри этом условные ИМ вырождаются Лв(=2(в1 в Бг-индикаторные. Таким образом, сфера действия тезиса о восстановлении сводится к (вырожденным условным моделям Лв1 =&вг В общем же случае при переходе к условным моделям происходит утеря данных об Л, так что восстановить можно будет не ее, а только более широкую (и следовательно, менее точную) модель Л. Это ограничивает область приложения условных моделей в основном точными распределениями вероятностей. Абстрактно-условные модели. В предыдущем изложении считалось, что произошло некоторое событие В и исследовалась условная модель Лв. Совершенно формально пока мы заменим индикаторный В(х) на произвольный признак q(x) и будем по тем же формулам определять условную ИМ Лч. Формула (1.15) позволяет это сделать. Как говорилось в начале § 1.1, q(x) при Q^q(x)^Z\ может трактоваться как признак нечеткого события q, и тогда Лд будет условной ИМ, если такое событие произошло. Пусть q(x) есть функция на SS такая, что Mq>0. Абстрактно- условной, соответствующей тому, что q произошло, называется модель Jtq, определяемая средними Я,/- тах_ *"«™ . (1.17) В числителе правой части (1.17) стоят средние М*<7-сечения Л. Очевидно такое свойство: Л-е+а=*Лд — умножение q{x) на неотрицательный коэффициент с+ не меняет абстрактно-условной ИМ. 69
Пусть р(х) есть плотность Ж по отношению к Ж°: р=Ж/Ж°- Тогда соответствующая Ж абстрактно-условная модель Жа при случившемся q(x) будет равна абстрактно-условной модели Ж°ЯР. при случившемся q(x)p(x): р = Л/Л°9 flAq>0=>Mq = M°qp. В самом деле по определению плотности Mf=M°fp. Записывая (1.17) в развернутой форме, подставим формулу для M*q- сечения .и шосле .несложных преобразований «получаем min [M (/ — с) q + cM* q] Mqf= max_ — = min [M° (f — с) qp + сМ* qp] _e = max _ — — = M*qp /, M°qp^M,qp^M°qp M ЯР что и требовалось. Из доказанного утверждения вытекает. Если р(х) есть плот- ность Ж по отношению к Ж0, то условная модель Ж в, соответствующая случившемуся событию BczSg, равна абстрактно-условной Ж°вр при случившемся B(x)p(x)=q(x): р = Л/ М° =>- Мв =Л°Вр, ВспЗС. При В=й? просто получается Ж=Ж°Р. Оба последних тезиса, любопытных в математическом аспекте* ищут .наглядной интерпретации. Таким образом, вводимое в настоящем параграфе понятие условной модели без труда распространяется на нечеткие события. Дадим иллюстрацию. Формула условной вероятности {рай ее а) для нечетких событий. Пусть для ИРВ требуется рассчитать вероятность Л, если В случилось не достоверно, а с некоторым сомнением, произошло ли оно вообще. Имеем вместо В признак q=yB+l(l—у)Вс {нечеткое событие), где у есть коэффициент, интерпретируемый как вероятность того, что В произошло. Расчеты по формуле (1.17) дают после ряда вычислений следующее выражение, пригодное при 1/2^7^1» Для вероятности А при свершившемся q: рГ (Л) ^ (1 - У) ~Р(А) + (2у - 1) Р(АВ) qK ' О - У) + (2Y - 1) [Р (АВ) + Р (АСВ)] ' Как видно, при 7=1 результат тот же, что и в примере 1.16, а при 7=1/2 условной вероятностью станет априорная вероятность (безусловная) Pq(A)=P(A) события А. Это и понятно, так как значение у=\12 эквивалентно #=1/2, что в свою очередь заменимо на <7—1 (поскольку умножение q на константу не меняет абстрактно-условной вероятности) и ведет к достоверному событию В=<%* Формула для условной вероятности при O^y^I/2 7°
(соответствующей тому, что с преобладающей верой произошло даже Вс, а не В) получается из приведенной заменой В на Вс и у — на 1—у, а для нижней условной вероятности — переменой нижних вероятностей с верхними ;и наоборот. 1.7. ЗАКЛЮЧЕНИЕ Рассматриваются случайные явления, в описании которых прямо или косвенно может быть указано множество взаимно исключающих друг друга элементарных исходов, образующих пространство элементарных .событий. Функции на этом пространстве называются признаками. Средние статистические значения признаков есть пределы средних арифметических результатов независимых повторов явления в одинаковых условиях и могут быть точными (для устойчивых явлений) и интервальными (для неустойчивых, неопределенных). Средние в интервальном понимании существуют в очень широкой области признаков, куда входят обязательно все ограниченные. Интервальная модель есть совокупность нижних и верхних средних в области их существования, связанных между собой аксиомами § 1.1. Аксиомы согласуют средние между собой. Любая ИМ (§ 1.2) формируется первичным набором # признаков, элементы которого предопределят тип модели, и непротиворечивым (корректным) заданием на & первичных средних, конкретизирующих ее вид. Ключевой является теорема 1.1, согласно которой средние с первичных признаков однозначно продолжаются с согласованием на все признаки, мажорируемые первичными, образуя область существования ИМ. Если среди первичных признаков имеются неограниченные, то они породят неограниченные признаки в области существования. Дополнительное расширение области существования может производиться предельным переходом (1.4) от усеченных сверху и снизу функций подобно тому, как понимается интеграл от неограниченных функций. Интервальные модели отличаются друг от друга разными наборами первичных признаков и разными первичными средними, а в итоге — разными значениями средних в области их существования. По включениям этих значений можно судить, какая из ИМ более широкая, а какая менее (§ 1.3). Чем шире ИМ, тем меньше полезных данных о явлении в ней содержатся. Самой широкой среди всех является голая ИМ, соответствующая абсолютному отсутствию данных (или полнейшей неустойчивости явления). Расширение ИМ служит рабочим инструментом ее упрощений. Через средние в § 1.3 определяются операции пересечения ИМ как добавление данных к уже имеющимся и объединения как рассеяние данных, рост неопределенности. Геометрически ИМ есть многогранники, в которых первичные признаки и их средние определяют соответственно направления граней и их положения. Пересечение многогранников есть их общая часть, поэтому будет снова многогранником, а объединение полагается расширить до его выпуклой оболочки, чтобы получилась ИМ. Частным случаем ИМ, когда первичными взяты вероятности событий, являются интервальные распределения вероятностей, описанные в § 1.4. Первичный набор событий ИРВ произволен как по количеству, так и топологии. Если это полукольцо (например, отрезки числовой прямой) и на нем заданы точные вероятности, то они однозначно продолжаются, оставаясь точными, на 71
алгебру событий (суммы отрезков), а их согласованность равносильна аддитивности, что ведет к конечно-аддитивным распределениям вероятностей. Расширение первичного набора до счетной алгебры и задание вероятностей сознательно счетно-аддитивными ведет к сужению распределений вероятностей до счетно-аддитивных. Обобщением указанных типов распределений вероятностей являются конечно- и счетно-аддитивные ИРВ, у которых при той же первичной системе событий вероятности' заданы интервальными. Еще „одним типом ИРВ является интервальная функция распределения вероятностей, первичной для которой является набор вкладывающихся событий; представима как семейство точных функций распределения, причем непрерывные из них есть конечно-аддитивные распределения вероятностей, а разрывные соответствуют их группам.. Любое семейство распределений вероятностей (конечно-аддитивных или счетно) суть некоторая ИМ. С другой стороны, любая ИМ с интервальными средними представима как объединение ее простых составляющих с точными средними (теорема 1.3 § 1.5). В частности, это может быть семейство конечно- аддитивных распределений вероятностей. Но не счетно-аддитивных как слишком специальных, чтобы стать универсальным «строительным материалом» для всех ИМ (исключая дискретные пространства элементарных событий). Иная ИМ может приобрести наглядность, а подчас и физическую осмысленность правильным подбором ее представления через некоторые стандартные модели. Это может быть сделано удачным выбором вида соответствующего функционального преобразования. Еще один специальный способ состоит в записи средних, одной ИМ через другую (стандартную) с помощью формальной плотности, понимаемой шире классической плотности вероятностей (§ 1.5). При наличии достоверно ' свершившегося события ИМ трансформируется в условную пересчетом ее средних (§ 1.6). Формула (1.15) пересчета весьма сложна (кроме случая точных вероятностей). Она приложила к нечетким: событиям. Переход к условным моделям сопровождается обычно расширением. Вернуться от условных к исходной модели, ничего не потеряв, можно лишь в редких исключениях, поэтому условные модели не занимают сколь-либо значительного места в интервальных методах. Глава 2. СОВМЕСТНЫЙ АНАЛИЗ 2.1. ДЕТЕРМИНИРОВАННЫЕ ПРЕОБРАЗОВАНИЯ ИСХОДОВ Отображения. Определив интервальные модели и их свойства, пойдем дальше. Посмотрим, как они видоизменяются в смысле деформации признаков и их средних при преобразованиях прост- ранства й?. Для этого классифицируем сначала сами преобразования. Преобразование s пространства SB в °Ц есть математическая запись реальных отношений между исхода- 72
ми на SB и на ^. Если y=sx — функция, однозначно отображающая каждый исход д:ей?'в исход */e<V, то преобразование называется детерминированным. Указав, как детерминированное * s преобразует исходы, рассмотрим, как при этом преобразуются признаки, но не все, а пока только их частный класс — события. Здесь нет трудностей: AczSB преобразуется в B={y:y=sx, x^A} — это множество значений, которые принимает y=sxy когда х пробегает значения из А. Пишем формально B = sA и будем называть В образом события А. Каждое событие А на SB имеет свой образ В на ^. Свойства образов. Образ объединения двух и более событий из SB равен соответственно объединению их образов на Щ: s(Al[]A2)=sAl{)sA2. Образом пустого множества будет пустое множество: s0 = 0. Образом SB будет, в общем, часть ^, тогда говорим, что s есть отображение ЗВвнутрь, или в °Ц. Если же образом SB является все °Ц (это нетрудно сделать, исключив из Щ те элементы, которые не входят в область значений sjc), то s есть отображение SB на Q/, что ниже и считается. Включению событий соответствует включение их образов: /liC^2=^S24ic:sy42. To же верно для дополнения (если s есть отображение SB на <У): sAc=(sA)c. И чего нельзя сказать для пересечения: два непересекающихся события, скажем хх и д:2, могут отображаться в одно, как это видно из рис. 2.1. Обозначим все элементы х, отображающиеся в точку у, через Ay=s~iy={x: sx=y) и назовем прообразом или изображением точки у. Изображением s_15 события В^У будет объединение изображений точек, входящих в В: Ав= U Ау= {x.sxczB}. Непе- У&В ресекающимея В\ и В2 соответствуют непересекающиеся изображения s-1Bi и s_1B2, а алгебраическим операциям над ними — такие же операции над их изображениями. Множества s~ly<z:SB в результате не пересекаются и s можно рассматривать как взаимно-однозначное соответствие точек у пространства °у и подмножеств Ау пространства SB: Ау++у, или соответствие [}АУ++В, у&в приводящее к идентичности (изоморфизму) двух алгебр событий: . Рис. 2.1. Преобразования и отображения 73
алгебры s4> на <8?, порожденной событиями Ау, и алгебры всех событий на ^, обозначаемой 2^. Эти алгебры <&+-*2аУ изоморфны в том смысле, что алгебраические отношения ,и действия над «множествами одной из них зеркально отображаются на отношения и такие же действия над другой. Обобщим понятие преобразования, шодводя его \к .изоморфизму двух произвольных алгебр событий. Для этого будем понимать S (обозначается в отличие от преобразования заглавной буквой) как отображение, при котором каждая * точка л; переходит, в общем/ в подмножество Sx=Bx пространства <у, причем: а) для различных Х\Фх2 множества Sx^=Bx и Sx2=B2> в которые отображаются эти точки, либо совпадают между собой, либо не пересекаются; б) S$&=\JSx=<y- Равенство Sx=Bx понимается как неясность, сомнение, куда из множества Вх попадет точка ху и в этом смысле S расплывчатое Отображение S любые события из SS переводит в события из Щ\ SA = (J Sx, и обратно: S~lB={x:Sxc:B}. В нашем широком понимании для любого S обратное S-1 всегда определено. При повторных прямом и обратном отображениях S-1^ события, в общем, смазываются, становятся шире Л, кроме некоторых »из событий, представляющих наибольший интерес, так как именно они полностью характеризуют S. Это класс ^s всех тех событий на 8В (и его образ J?s на °У), которое при прямом и затем обратном отображении «остаются четко на месте»: As = {А: S~l SA = A}J-»3?S = {В: В = SS"1 В}. Характерна однозначная связь: A++SA=fB9 S~1B=A*-+B, индуцирующая две изоморфные алгебры s&s++9$sr где 3&s есть образ sPs* Атомами алгебр являются Bx=Sx, xg^, для 3SS и Лж= =S_1Sa: для <s&s- Если переобозначить их BZt Аи объединив совпадающие между собой Вх (и Ах) под одним индексом z, то S можно интерпретировать как взаимно-однозначное соответствие AZ^BZ. Итак, любое отображение S индуцирует изоморфные алгебры s&s и 38s и полностью определяется ими. В то же время любому изоморфизму можно подыскать соответствующее отображение S, понимая его как отображение событий из SB (атомов Az) в события из °у (атомы Bz). Алгебры $t>s и Jfs охватывают те события, которые остаются четкими при преобразованиях. Через них могут быть определены образы (и изображения) всех остальных событий по формулам: . 5Л= П SA'\ 5-1В = Г\ S"1 В'. Л'=>Л B'zdB Преобразования признаков. Мы рассмотрели, как отображениями преобразуются события. Теперь обратимся к преобразова- 74
яию признаков; установим, как одни из них при отображении переходят в другие. Числовая функция f(x), измеримая относительно индуцированной отображением S алгебры ^s событий, называется S-nped- ставимым признаком. Если понимать функцию f широко как отображение событий А в подмножества f (A) = (f (х): х^А} числовой прямой, то для S-представимых признаков /(i4)s=sf(S-1Si4), УЛ, что эквивалентно может быть взято за их определение; эти признаки принимают постоянные значения на «атомах» Аъ алгебры .s^s. Класс всех Б-представимых признаков обозначим ST$. В него, очевидно, входят .все 'индикаторные функции событий 45#s. Класс !Fs линеен и замкнут относительно любых арифметических действий, т. е. .преобразование F(/i, /2,...) признаков из этого класса приводит >к признакам из него же (можно допускать бесконечные значения признаков). Каждый S-представимый признак имеет четко свой образ <p(r/)=/(S_1y) (или ф(В) =f (S_1B)), который является в свою очередь ^s-измеримой функцией, или же, что то же самое, 5_1-пред- ставимым признаком ф(Я)^ф(55_1В). Класс всех таких признаков обозначим Ф8-1. Класс &~s и его образ Ф8—i взаимно-однозначно связываются между собой: ^s^-KDs-i , сохраняя упорядоченность функций: /^Ь^^ф^фг, где /\«-*ф1, /г^фг; и идентичность арифметичес- . ких действий: F(fif /2, ...)ч~^Р(фь ф2, ...)• Например, образом линейной комбинации c+%Cifi(x), fi&fFs, будет линейная комбинация Образов C + ^Ci<pi(y)9 фгеФ8-1, /Г*=^фг. Заметим, что если ,y=sx есть детерминированные преобразование, то Ф8-1 — это вообще любые функции переменной у, а &*s — это множество функций вида Hx)=4>(sx)- Все S-преДставимые признаки и их образы дадут те, грубо • говоря, ««направления», по которым будет производиться расчет средних ИМ при отображениях S, Расчет средних. Пусть на 9В _задана ИМ Жх с областью &* существования верхних средних Mf> /е#~, и S есть отображение 36 на ^. Требуется рассчитать соответствующую ИМ J(v на °^г которую записываем J[y=SJlx. Какие данные о средних Мф на *У будут иметься? Что при этом теряется? Для S-представимых цризнаков / ровно ничего: МФ = М/, ф^/e^sfl^, (2.1) и средние однозначно переносятся на их образы. Это очевидно, так как ц(у) полностью повторяют значения f(xy=q>(Sx). Первичными для преобразованной ИМ J[y=SJ(x будут сред- ние (2.1). Они согласованы на 3Ss в силу их согласованности на «s#s и изоморфизма этих алгебр. Последовательность этапов для определения Лу следующая: 75
1) сначала об Жх оставляются только сведения о средних под- с класса Э-иредставимых признаков iFs, что соответствует ^-расширению Жх\ 2) средние с STs переносятся на их образы по формуле (2.1), • образуя первичные значения для Жу\ 3) наконец, первичные значения продолжаются на произвольные признаки. Из сказанного ^ледует, что будь на $в задана Жх, или ее iFs-раоширение <M*#"s>, итоговая ЖУ=ЪЖХ будет одной и той же. Средние только S-представимых-признаков участвуют в расчете Жу\ остальные же «смазываются», теряют свои собственные средние и переходят в «подчинение» к набору M3TS = = {^s:/seJs}. Потерь, очевидно, не будет в том случае, если MP's опреде-, ляют однозначно модель Жх, т. е. ее первичные признаки g^S все S-представимы: ^c=#~s. Тогда ^-расширение Жх совпадет с Жх, а первичными для Ж* будут образы g^S с теми же, как у Жх, средними, так что между первичными признаками и средними Жх и Жу устанавливается тождественная связь.' Расчет, средних 'производится уже не в три этапа, как выше указывалось, а в два, так как здесь iFs можно заменить на 9 и .первый этап вырождается. Пример 2.1. Пусть $В=Ж — числовая ось, и пусть у=х2 — преобразование. Тогда ®/=Я+ — полуось и средние Мф(У) (для удобства случайные величины обозначаются заглавными буквами), определяющие Jtv, выражаются через средние JL* по формуле (2.1): M<p(Y)=Mq>(X2). Например, MY— =МХ2, MY2=MX*, M cos Y=M cos X2 и т. д. Правые части рассчитываются на основании первичных данных о Ж*. Потерь при преобразовании не будет, если только первичные признаки Жх записываются сами через х2. Скажем, Жх определена значениями MX2, MX**. Тогда Жу будет определена первичными значениями MY=MX2 и MY2 = MXt, а все остальные Л1ф(У), например, McosY, рассчитываются по ним или непосредственно переносятся как средние изображений М<р(Х2), например McosX2. Пример 2.2. Детерминированные преобразования случайного процесса. Пусть Xt — процесс, определенный своими средними Mf{Xt}, где f{Xt} — функционалы от Xt, и пусть S — его преобразование в* Yt = SXt. Это может быть нелинейное преобразование Yt = v(Xt)t например возведение в квадрат Yt = X2t\ ограничение; линейное преобразование; их комбинации, например Yt = §v(Xx) htxdt — нелинейность v с последующим фильтром. Собственно, вид преобразования не принципиален для расчета My{Yt}, который крайне прост: эти средние в точности совпадают со средними M(p{SXt} от f{Xt}=y{SXt} — S-представимых функционалов: М<р{У*} = =Mq>{SXt}. Так, при преобразовании типа «нелинейность — фильтр», введенного чуть выше, имеем: MYt = M$v(XJhftXdT, ЛЙ^ = ЛЩ0(Хт)А,гТ<*т]2; " М JV, dt = AfJ/o (Xx) htA dtdx, 76
и т. д. По ним ведется расчет соответствующих средних от остальных признаков процесса Yt как по первичным значениям согласно теореме продолжения. Подобие моделей. Речь пойдет об отображениях, которые не приводят к потере данных относительно модели. Совершенно ясно, что потерь не должно быть, если S взаимно однозначно отображает SB на ^, так как обратным отображением S-1 всегда можно успеть вернуться назад (к исходному пространству и исходной модели, какой бы она ни была. Вопрос становится не таким тривиальным, если S является редукцией пространства, переводящей SB в пространство <у меньшей размерности. Отображение S называется преобразованием подобия (или просто подобием) для Жх, если J[x=S~iSJ[x9 т. е., отображая пространство SB с помощью S в <у, а затем обратно с помощью S-1, приходим к той же самой отнюдь не более широкой модели. При этом S-1 будет также преобразованием подобия для J[v\= =SJCX, так как SS"1jr^=jr^. Модели Jtx и Лу, связанные между собой подобиями, называются подобными и обозначаются JLX~MV. Отображение, S будет подобием для Jtx = (MxS}, если S-nped- ставимы все первичные признаки: g{x)=^g(Sx)9 Yg^&. При этом Лх преобразуется в подобную^ ей Лу = (МхУ>У, определенную первичными средними: My^g=Mxg, и y¥^={^g:g^9}. Данное утверждение есть повторение рассуждений конца предыдущего раздела: Наоборот, если S — подобие для Л*=(МХ3?У, то, оставляя вместо 9 поднабор $?s всех S-представимых первичных признаков ^s<=^, мы не изменим исходную модель: Мх — <Мх<Зъ>- Тогда класс ££**&% вторичных признаков будет S-представим и взаимно однозначно с сохранением отношений порядка и' значений средних будет отображаться в класс «2?+xFs, ^V% = {t|>* :g^9s}, вторичных признаков подобной J(v = SJ(xf a &+&s и ^+XFS, в свою очередь, будут подклассами &~s и соответственно Ф5-1 всех представимых функций, достаточными для расчетов модели Жу по Jlx при преобразовании S. Отсюда, если Мх и JCV подобны, то классы Т% и G>s-i (как и ЗВ^ъ, ЗВ+Чъ) взаимно однозначно отображаются друг в друга с зеркальностью арифметических действий, сохранением порядка и средних: /^ф, Мх/=М*>ф, fe#~s, Ф^Ф5-1 • Отношение подобия моделей рефлексивно: МХ~МХ, симметрично: МхозМу=>Лу ~МХ и транзитивно: Мх~Лу, ЛусоЛ2=^ =>ЛхсоЛ2. Подобные модели имеют одинаковые размерности, строго соответствующие друг другу грани и изображаются одинаковыми геометрическими телами (но в разных пространствах). Пример 2.3. Пусть «а разбиении 9В на непересекающиеся события: #? = = ^i+i42+ ... +Аь, задано интервальное распределение вероятностей ИРВ границами вероятностей р* = Р(Лг), pi=P(Ai)- Эта модель . подобна ИРВ на ^-точечном пространстве Щъ={Уи •-, У и} с теми же вероятностями 77
s P(yi)^pit P(yi)=i>i- Отображением, наводящим подобие, будет Ai-+yit а об- ратным к нему будет изоморфизм у% ->Л<. Класс #"s образуют функции вида c+EMiW, a <Ds_i — вида c+Sc»6y f (#). Подобие сохраняют алгебраические действия над моделями: е в в в 2.2. СЛУЧАЙНЫЕ ПРЕОБРАЗОВАНИЯ Переходные модели. В предыдущем параграфе рассмотрены отображения SB в °Ц и их более общие формы — изоморфизмы, при которых каждая точка х с достоверностью 1 переходит в множество BxaQf, причем Вх при разных х совпадают между собой или не пересекаются. Рассмотрим общий случай, когда х в принципе может перейти в любую точку у^Ц> а знания об этом среднестатистические. Такие преобразования называются случайными: SB-^QJ. Для случайных преобразований Q каждой точке х указывается некоторая ИМ Jtyx на ^, называемая переходной из SB на °У и определяемая своими средними значениями МУх<р(у). Способы ее задания точно такие же, как любой ИМ, а именно, первичными средними Мух^у \|зеТ, где г|) — первичные признаки на °у, средние которых, да и вид их самих, в общем, зависят от х. В частном случае, когда Жух есть интервальное распределение вероятностей, то первичными признаками будут события на QJ и переходная ИМ будет полностью определяться верхними переходными вероятностями q(x9 В) = РЦ(В)У Ва% указывающими, с какой наибольшей вероятностью точка х перейдет в событие В при преобразовании Q. Очевидно, q(x, B)\= = 1—РУХ(ВС)9 т. е. нижние переходные вероятности сразу вычисляются по верхним. Преобразования моделей. Пусть теперь заданы Мх на SB и переходная модель Л^хна *У> описывающая случайное преобразование Q из SB на ^. Тогда соответствующая им Jtv на °У будет определяться средними: 7Лу<р(у) = Мх(Мух<р(у)). (2.2) Здесь МУху(у) есть средние по переходной модели Жух, а как _ функции х — это в свою очередь признаки на SB, средние которых по Жху обозначаемые Мх, и дадут согласованные значения Муу, определяющие Mv. Результат преобразования записывается: J[y = QJ[x. 7S
Если STX ' и &~vx есть соответственно области существования средних для Мх и Мух, то для Жу эту область составляют такие функции <р (у) ^&~ух, «то Мухц) (у) ^&~х. Сюда, конечно же, входят любые ограниченные функции. Рассмотрим на примере последовательность вычислений по формуле '(2.2). Пример 2.5. Пусть как *#*=<AIxg> задана единственным первичным средним M*g, так и переходная модель Жух=Шух$У — одним средним MvxTt>(y)=h(x). Тогда согласно формуле (2.2) для признака <р(у) имеем Myy = MxMyxq=: min _ [c + cfMxg], где Л1^ф= min [d + d+Wfr)]. Среднее №ф будет определено, если определено МЗД и мажорируемо линейными комбинациями c+c+ig(x). Причем для любых <р переходное среднее A!vx<p как функция переменной х будет пропорционально Н(х). Тогда и от Ж* требуется только знания Mxh(x), т. е. fi(x) — его расширения. Этот факт не распространяется на несколько первичных значений AItfjci|jj=#j(#), так как тогда Mvxq> не будут, в общем, линейными комбинациями Hj(x). Объясним, почему так. Пусть первичных признаков переходной модели не один, а два, скажем ypi и ф2 с соответствующими им верхними средними Ri(x) и й2(*), тогда Щу= min [d + d+hlW + d+Ftix)] . d+d+<bt (y)+d+q>2(y)>4>{y) и правая часть не будет выражаться в виде линейной комбинации hi(x) и й2(*), так как значения коэффициентов d и d+j, при которых достигается минимум, могут зависеть от х. В примере был введен тот случай, когда Мух<р при любых <р образуют весьма ограниченный класс 2ГХ* признаков, причем ето всегда замыкание \&+Зв\ полулинейной оболочки 3?+'№ некоторого набора Ж ^Гогда для расчета MV=QMX и от Жх потребуется только знания Mxf, /eiF*^ а ^**-расширение Жх не приведет к изменению Ж*: Qe^=Q<M*#~**>. Остановимся «а этом и рассмотрим для начала самый крайний случай. Пусть переходные ИМ одни и те же, независимо от х: Jfyx=J[o- Тогда ЛР^ф будут константами, не зависящими от х, и класс 2ГХ* вырождается в постоянную с. Получается, что о Мх вообще ничего не надо знать, чтобы рассчитать Жу:Жу\— =Ж0. Это тот случай, когда данные о статистических свойствах на ^ не меняются, если становится известным «вход» х. Рассмотрим другой случай. Пусть переходная модель Жух одна и та же на непересекающихся событиях Aj разбиения *s^s = = {i4i, ..., Ak} пространства $5. Достаточно, чтобы первичные средние, определяющие переходные ИМ, были постоянны на А$, и тогда Мухц) будут постоянными при x^Aj, т. е. .^-измеримыми, — что и даст «ласе ^**. Модель Жх без ущерба для Жу — 79
*=QJ[X может быть расширена до ИМ, первичными которой являются средние M^CiAi(x) всех ^-измеримых функций (но никак не до ИРВ с первич1ными событиями из *$£2 или их объединениями). Детерминированные преобразования есть частный случай случайных, когда (переходные модели Лух=<Р(Вх) = 1> являются голыми на взаимно непересекающиеся ВХУ т. е. достоверно х-+Вх. Эти преобразования относятся к предыдущему типу, что будет видно, если для некоторого Вг обозначить Az={x:x-+Bz}9 и тогда AZ*-**BZ. Свойства преобразований модели. Рассмотрим, какими свойствами обладает операция преобразования своего рода статистического пересчета моделей: J[u=QJ(x. Пусть на Я? данных нет — голая ,ИМ 3х. Тогда J£y=QJx будет определяться средними: . ^ф^) = 8ирЛЙф(у) х и результат записывается: QJ*= V Лух. ' Значит, преобразование голой ИМ эквивалентно объединению переходных ИМ по входу х, рассматриваемому как параметр. Зафиксируем этот результат, дав «ему расширенную формулировку: объединение ИМ Ле по параметру 8^0 может эквивалентно рассматриваться как результат случайного . преобразования множества в, априорных данных о котором нет, в пространство исходов, a J[q — как переходная модель этого преобразования. Отсутствие априорных данных о х даст самую широкую модель на .выходе, поэтому <в общем случае QJ[xczQ3^x. А что, если переходная Жух при всех х является голой, т. е. никаких данных о преобразовании нет? Тогда преобразование любой Мх ведет едино к голой модели, не несущей никаких статистических данных относительно исходов на °у: Данный факт следует из формулы (2.2): МУ<р(у) =Mxsuv<p(y) = = supq)(*/). Рассмотрим теперь, как транформируются отношения включения и операции объединения, пересечения моделей на #? после случайных преобразований Q. 1. Отношение включения сохраняется при преобразованиях: Мх с= Л\ =>QMXX a Q М%. 2. Преобразование объединения моделей на 86 равно объединению их преобразовний: Q(S/jKi) = \JQMi V V 80
В частности, если Jtx=\f.^v представляется как объединение V вершин, то преобразование Мх — как объединение преобразованных вершин: V 3. Преобразование пересечения моделей включается в пересе-. чение их преобразований: Q{f\Mxv)^f\QM*. V V Причина тому, что в последней ,части стоит включение, а не равенство, состоит в ослаблении порядка между признаками при случайных преобразованиях. В частности (когда v — лндекс, обозначающий номер первичного лризнака), получаем Q<A?^>-Q Л <Л?**><= Л Q(M*g). 4. Справедливо включение (VQe)-*'=>VQe-*x. в е где Q = VQe — преобразование, соответствующее объединению в переходных ИМ: Лух=:\/^ух,в- _ в_ _ _ _ __ В ,самом деле, Mv<p = Mxs\xpMyx, ecp^sup M*Mvx, еф=вирЛ1%р. в в в Дадим на примере геометрическую иллюстрацию сказанного. Пример 2.6. Пусть троеточие Я? —{*i, *2, #з} случайным преобразованием Q отображается на себя. Переходная модель Ж*х при каждом значении xi представляется как выпуклое множество Q* векторов вероятностей qT=» = (?(**, yi), Я(*и У*), Я(*и Уз)), так что ^X/<p=maxqTq>, где функция ф есть вектор. Множества Q*, как представлено на рис. 2.2,а, — это результат преобразований индикаторных моделей <Р(х*) = 1>, t=l, 2, 3, являющихся а) 6) Рис. 2.2. Образы моделей при случайных преобразованиях 6—13 81
вершинами 9'. Преобразование вероятностей P=(P(*i), P{x2), ^(*з)) ведет к семейству векторов: QP = J ?У : РУ (yj) = 2 Р <xi) q (*,, у,), qc=Q*j . Как это видно из рис. 2.2,6, QJt* составляется из преобразованных векторов вероятностей, лежащих в вершинах Jtx, и «загнанных» внутрь преобразования Q&* голой ИМ. Суть третьего свойства раскрывается включением: (QP2V VQPs) Л (QlWQPt) =э(ЗРз. Индикаторные преобразования, интервальная арифметика. Рассмотрим особый класс Л* и J[vXm Пусть Мх задана единственным дредложением: «событие А из $в достоверно». Это даст индикаторную модель: J[X=(PX(A) —1>, определяемую согласованными средними Mxf {x)= sup f(x)=f (Л), V/e#~0- Пусть случай- ный оператор осуществляет достоверно перевод каждой точки х в событие Вх на ^, что описывается индикаторными переходными моделями Л[ух=<Р*> (Вх) = 1 >, определяемыми средними: Муяф(у) =<р(Вх), Уфе^о (здесь не требуется, как для детерминированных изоморфных отображений, чтобы Вх взаимно не пересекались). Тогда согласно (2.2) Му ф (у) = sup (sup ф (у)) - ф ( U Вх)9 т. е. результирующая * Жу будет также 5-индикаторной с событием В= U Вх:Лу=<Ру(В) = 1\ Таким образом, при индикаторных преобразованиях индикаторные модели переходят сами в себя, оставаясь в рамках этого очень простого класса. А ,по^ сути дела, производятся прямые преобразования одних событий в другие. В частных случаях, когда й?={^=52 — числовая ось, А и Вх — интервалы на ней, а переходные операторы отражают простейшие арифметические действия, получаем правила преобразования интервалов — интервальную арифметику. Сложение. .Пусть JCX индикаторная на отрезке А=\[а, Ь] модель, а переходной оператор прибавляет к числу х отрезок [с, d], т. е. Jtyx — индикаторные модели на отрезках Вх = =х+[с, d] = [x+c> x+d]. Тогда индикаторным для JCy будет отрезок B=[a, b] + [c, d]=i[a+c, b+-d], что и дает нам правило интервального сложения. Вычитание. Аналогично предыдущему [а, Ь] — [ct d] = ='[а—d, b—c]. При сложении и вычитании ширина результирующего отрезка равна сумме составляющих. Умножение. Модель JLX та же, а переходный оператор умножает каждое число х на отрезок, что ведет к отрезкам, равным Вх=х[с, d] = [xc, xd] при х^О и Bx=\[xd, рс] при х<0. Объединяя Вх по х^[а, Ь], получаем результат умножения отрезков в 82
виде одного отрезка В=<[а, Ь]Ж[с, d] = [min{ac, ad, be, bd), max{ac, ad, be, bd}], задающего индикаторную модель Jly. Деление. Модель JCX та же, а оператор осуществляет деление: при х^О имеем (\—,— 1 при c<d<0, Вх = х/[с, d] = { (-00, —j(j[-j> «Л при c<0<d, '[f'f] при 0<C<d, а при лг<0 в правой части равенств переставляются d с с, Объединение по x^[af b] дает результат «интервального деления: [а, Ч/[с. d]=,p. *1Х[Ш, 1/с], 0*1*41, 1(—00, max {а/с, b/d}] IJ [min{a/d,b/c}, 00), с < 0 <d. В первом случае 0^'[с, d] результат выражается через интервальное умножение, а во втором получается в виде объединения отрезков, и тогда при делении результат уже не будет одним отрезком, а дробится на два полуотрезка. Как при сложении, так и при вычитании отрезок расширяется. Это ясно, так.как размытые преобразования могут внести только дополнительную неопределенность, поэтому операции интервального сложения и вычитания не являются взаимно обратимыми, например {а, Ь]+1[с, d] — [с, d]=\[a+c—d, b+d—с] (кроме c=d), равно, как операций умножения и деления. Повторные действия приводят к дальнейшему расширению результирующих отрезков, причем при дроблении отрезка, вызванного операцией деления, последующие действия мужно совершать с каждой частью в отдельности, объединяя их потом между собой. Простые преобразования. При рассмотрении в предыдущем параграфе детерминированных отображений S основой нахождения J[v=SJtx служила взаимно-однозначная связь между классами S и S-1 представимых признаков: ^5ч->Ф8-1 , один класс «на 36, другой —на <у, ,и средние переносились с iFs на Ф8-1, определяя J(y. Покажем, что аналогичная связь существует и для некоторого типа случайных преобразований (обобщающих изоморфизмы). Определим их. Пусть Ф — набор признаков на <у. Назовем Ф-простым такое случайное преобразование из 36 на <у, переходная модель Jtvx которого задается точными на Ф средними: МУх*р=МУхх$=М?ху, УсреФ; они же первичные, так что Jtyx = (MvxOy. Ввиду того, что точные средние распространяются на линейную оболочку, оставаясь на ней точными, Ф-простые и ^Ф-прос- тые преобразования суть одно и то же, поэтому сразу удобно считать Ф линейным подклассом признаков на <у. 83
При Ф-простых преобразованиях признаку <реФ на Of ста-. вится в соответствие признак /ф на <Э? вида называемый изображением ф, так что ф->-/ф. Средние у признаков <реФ и их изображений ^ф одни и те же: My<p(y) = MxMyx<p(y) = MxU(x). (2.3) Обозначим линейный класс fo = {U(x), ф^Ф} И назовем его изображением Ф. Таким образом, Ф-простое преобразование Q порождает отображение Ф->^ф признаков на °tf в их изображения на й?. Наоборот, каждому признаку /е#~ф будет соответствовать подмножество Ф/ признаков среФ, таких, что {их изображение :есть ,/: /->Ф/ = {ф:феФ, Ml<f(y) = f(x)}. Множество Ф/ называется нечетким образом признака f относительно Q. Каждому признаку / из &~Ф соответствует свой рбраз, и объединение всех образов дает Ф. Сказанное иллюстрируется рис. 2.3. Если ф1^5ф2, то /ф1 =М^ф1^М^зсф2=/(Р2. Следовательно, соот-' ношение упорядоченности между признаками феФ влекут за собой такие же отношения между 'изображениями. Для образов это не всегда .верно:' может быть /1^/2, /ь /г^#~Ф, но отнюдь не Ф^Ф2 для ф1^Ф/1, ф2еФ/2. Вывод тот, что отношения больше- меньше внутри Ф беднее, чем внутри #~ф, и следовательно, случайные преобразования, даже простые, нарушают порядок между признаками. Рассмотрим, каким получается J[y=QJ[x при простых преобразованиях. Во-первых, если Жх является ^-точной моделью (Mxg=Mxg, g<=&) и ^е#~Ф, то Му будет Ф^= U Ф/-точной. Пусть теперь ЖХ = (МХ&} не является точной и задана на первичном наборе $ признаков, и пусть ^сг^Ф. Так как &~Ф есть, линейный класс, то ^^сг^ф. Какой здесь будет JCy = QJCx? Согласно формуле (2.3) МУу на признаках из Ф получаются перенесением средних с изображений этих признаков, т. е. с признаков из класса #~Ф. Дальнейшее продолжение, на произвольные признаки на (У будет следовать из формулы (2.2) Wh(y)='Mx[ inf Myxy] = Mx[ inf /ф(*)], где инфимум берется ло ф^Ф. Видно, что в общем случае Wh(y)^ inf MXU= inf Ж*Ф. При строгом неравенстве класс Ф _не будет пе£вичным для Му> а именно, верно включение JJ^c:<AWD>, где <М^Ф> есть Ф-рас- 84
ширение J[v. Тождественное Признаки на X Признаки на У же равенство будет иметь место тогда, когда инфимум проносится за символ Мх. Это как раз тот случай, когда МУх1г^&~ф при всех Л, для которых левая часть определена. Отсюда следует: Если случайнее преобразование Q; а) задано точны- изображения Образы ми на классе Ф переходными моделями Лух = (МУхФУ, Рис. 2.3. Образы и изображения б) если МухК Vh^tFy, оказываются изображениями среФ, то Jty = QMx будет полностью определяться средними (2.3) на классе Ф признаков. Рассмотрим пример, когда условия этого утверждения выполняются. Пример 2.7. Преобразование задано переходной плотностью. * Пусть Вв=&п, <y=0tm — векторные пространства, и пусть преобразование Q &п-+&™- задается точной переходной плотностью вероятностей рх(у) на 0lm при каждом заданном векторе х^.91п. Если это плотность по мере-длине, то класс Ф — это всевозможные интегрируемые функции ф(#) и их изображениями , будут М*>= I 4>(y)Px(y)dy, фе=Ф. уе=&т Каким же будет класс ЗГф изображений? Чтобы ответить на этот вопрос, в плотности Рх(у) «окрестим» у как параметр со значениями из ^ и взглянем на переходную плотность как на набор функций переменной *, индексированный параметром у, для чего переобозначим ее: q(x, y)=px(y). Если интеграл интерпретировать как линейную комбинацию функции q(x, у) с весами <р(*/)„ то будет видно, что класс &~ф есть замыкание линейной оболочки 2й<7(*, */*). Этот класс линеен. Его размерность определяется числом линейно-независимых функций q(x, у г), т. е. размерностью их базиса. Он может быть невелик, если q(x, у) при всевозможных у^?Ц принимает как функция х лишь некоторые конкретные очертания. При расчете J[y можно отбросить все знания о Жх, оставив лишь ЛГ/ф (лг),. /фе#"ф, так как только они дадут средние Mvq>(y) для любых интегрируе- - мых <р. Дополнения. 1. Связь между преобразованиями. Класс индикаторных преобразований шире класса изоморфных отображений § 2.1, в которых тоже х-*-Вх, но Вх должны либо совпадать, либо не пересекаться между собой. Индикаторные преобразования х-+Вх, хотя Ж* для них определяются точными первичными средними М*ХВХ=\, не входят в класс простых преобра- 85
зований. Действительно, последние задаются точными значениями* MVgfp(y), <реФ, в которых первичные признаки <р(у) переходных моделей не зависят от х (зависят лишь сами первичные значения), а Вх соответствует индикаторному признаку Вх(у), зависящему от х. Изоморфизмы § 2.1 есть частный случай простых преобразований, когда первичными переходной модели являются индикаторы q>(y)=Bj(y), где Bj есть элементы разбиения У, а их вероятности Mvxy(y)=Pvx(B5) равны 1, если х-*В), иначе — 0. 2. Случайное подобие. Дадим обобщение понятия подобия, показав, что подобными могут быть модели, связанные простыми случайными преобразованиями, наделенными свойствами подобных отображений § 2.1. Модели Жх и Жу называются подобными между собой, что пишется Жх**Жу, если, во-первых, Жу=($Жх для некоторого преобразования Q (в общем, случайного) из 9В на ^, и во-вторых, для Q существует «возвратное» (не всегда обратное) преобразование Q- из У на 9в (также, в общем, случайное) такое, что Жх=§-Жу, т. е. возвращающее к исходной модели на 36, Можно доказать, что случайное преобразование Q будет преобразованием подобия, если выполняются три условия: a) Q задано точными на классе Ф переходными моделями Жух=(МухФУ; б) признаки из Ф взаимно-однозначно £ сохранением порядка связываются <р-«-^ф с их изображениями f^Af^cp, /ф^^Ф (наводя изоморфизм Ф и ЗГф); в) класс ЗГФ является определяющим для Ж* (а Ф — определяющим для Жу). Рассмотрим пример, когда условия утверждения выполняются. , Пусть каждый первичный признак g модели Ж* допускает разложение H-i ^ fe-И £(*)- 2£«7*(*) по базису qu ..., Як+и такому, что: а) <7г(*)>6; б) 2<7*(*) = 1; 1 1 в) £(*)>0^=>gi>0, t = l, ..., 6+1. Тогда преобразование Q из S6 на Щ= — {Уи ...,£fc+i}» задаваемые вероятностями перехода Рх(Ух) = Я%(х), является подобием для Ж* и ведет к подобной ей Жу, определенной средними Сказанное иллюстрируется рис. 2.4. \ (f,(x) qz(x) q3(x), qK4(x) Xt XZ x3 Xlf X5 Я a) Рис. 2.4. Случайное подобие: а) базис; б) вид первичных признаков Ж* £6
2.3. НЕЧЕТКИЕ СОБЫТИЯ И РАЗМЫТЫЕ ВЕРОЯТНОСТИ Наблюдения и их изображения. Наблюдения есть результаты явления, фиксируемого через канал, измерительные устройства, органы чувств и пр. Удобно представлять себе два пространства: S6 — исходов явления, называемое предметным (иногда, универсальным [18]) пространством, и <у — пространство для описания результатов наблюдений (в виде чисел, суждений, словесных высказываний и т. д.) как событий В на ^/. Пространства 36 и О/ связываются между собой .случайным оператором, описываемым переходной моделью Лух. Через призму этого оператора, по сутиг мы и .следим со стороны °Ц за тем, что происходит на й?. Каждое наблюдение ВаО/ будет иметь в предметном пространстве ЯГ свое интервальное изображение: lg(x.ty9q(x9tyl=[Pi(B)9 Pyx(B)h Ba<%- это есть границы вероятности появления события В -при исходех лей?, вычисленные относительно переходной модели Мух. Размытость кривой изабражения как функции переменной х характеризует нечеткость наблюдения В. Изображения разных событий Bid®/ есть составная часть средних переходной модели и потому обязаны согласовываться между собой. Отсюда логическим связям на °Ц между событиями ставятся в соответствие отношения на 95 между изображениями: \q(x, BJz^qix, В2); о о D « (!<*• b + BJ^gix, BJ + gix, B2), Z. ttxr>2=f<0 & \ _ _ [q(x, Вг + В^^Ч(х9Bx) + q(xy B8); (qix, B1)=\—^{xy B2), \~q(x9 В1) = 1—с[(х9 S2); ' ~ 4. Все <V и пустое 0 есть наблюдения с тривиальными (тождественная единица и ноль) .изображениями: q(x, 99-1, q(x, 0)-O. Для определения изображений Рх(В), РХ(В) всех Bcz<y достаточно задать переходные вероятности на первичных событиях Bt^3S в виде Px(Bi), Px(Bi), B^ffl, и затем перенести на любые события по известной формуле продолжения и согласования: РХ(В)= inf [c+S(cfP«(fii)-(-c,)+'P«(B|))l, Px(B) = l-Px(B% 87 з. вх=в$&
где c+*=Ci при с^О и c+j=0 при Сг<0. Это и приведет к согласованным изображениям любых Ва<у. Наблюдения как события на °Ц разделяются на первичные В%у для которых исходно известны изображения q(xf Bi)=Px(Bi)i д(х, Bi)=Px(Bi) и все остальные, BczQ/, которые логически следуют (логика отношений суждений и используется, по существу, з неравенстве под знаком инфимума при нахождении РХ(В)). Из наблюдений В с помощью «предположительных высказываний» формируются нечеткие суждения, согласно которым с вероятностями yit i£= 1, 2, ..., производится случайный выбор одного из нескольких Biczty. Иначе говоря, по смыслу неясно, какое из наблюдений В\ имело место и <у* есть степень уверенности (вероятность) того, что произошло именно Бг-. Изображением такого суждения на предметном пространстве будет \^y%q {х, В*), HyiQ(x, Bi)]. Так, если В является правильным с вероятностью р я ложным (противоположным В, т. е. Вс) с вероятностью 1—р, то изображением на SB будет [Р1(х, B) + (l-p)(l-^q(xt Б)), w(x, B) + (l-p)(l-1(x9 В))]. . Каждое суждение, четкое в виде события В или нечеткое, объективно определяется своим изображением. Два суждения, имеющие одинаковые изображения, будут тождественными, так как они описывают одну и ту же ситуацию, только по-разному. Вообще любая пара границ [q(x), q{x)]9 0^qix)^iq(x) ^1, на предметном пространстве SB есть нечеткое событие. Разумеется, это не обязательно изображения каких-нибудь наблюдений. Изображения как первичных наблюдений, да и всех остальных наблюдений, так и суждений составляют лишь частный класс нечетких событий. Таким обр'азом, нечетких событий обычно существует значительно больше, чем наблюдений. Логика нечетких «событий и действия между ними определяются через отношения и действия между границами по аналогии.с отношениями 1—4 между изображениями. Размытые вероятности и средние. Само по себе утверждение, что среднее Mf принимает такое-то конкретное значение, есть форма представления нашего знания о среднем, так сказать, наблюдения за ним. При точном среднем^ имеем четкое наблюдение за ним. Интервальное среднее [Mf, Mf] есть одна из форм нечеткого наблюдения за средним или же размытых знаний. Правильнее — это изображение наших знаний, имеющихся данных о среднем на предметном пространстве его значений — числовой оси. При интервальном среднем изображение индикаторное, как это демонстрируется на рис. 2.5. Но ведь существуют и нами изучены другие, более общие формы изображений, в виде неких очертаний, они и будут здесь применены к средним, в этом наша цель. Прежде нужно сделать одну оговорку. По своей внутренней сути средние, как и вероятности, выпуклы в том смысле, что 88
Рис. 2.5. Размытые вероятности и средние Вероятности I Средние Е(А) Р(А) области их значений — выпуклые множества. Нельзя иметь интервальное среднее в виде_ объединения двух непересекающихся отрезков [Mf, Mf], [Mf, Mf], Mf<Mf, он обязательно сольется в один: \[Mf, Mf]. Это накладывает вполне конкретный отпечаток на общий вид кривых изображений средних, вводимых следующим определением. Функция qMf{r) на числовой прямой г^91 называется изображением среднего Mf, или размытым средним признака /, если она: 1) неотрицательна и не больше 1:0^.qMf(f)^l\ 2) равна 0 вне диапазона [inf/, sup/] возможных значений Mf; 3) унимодальна (не (имеет локальных максимумов); 4) полунепрерывна снизу; 5) хотя бы при одном г принимает значение 1. Виды размытых средних изображены на рис. 2.5. При /=Л это будут размытые вероятности. Нам понадобится понятие горизонтального среза от размытого среднего на высоте 7» 0^-у^ 1; это интервал, внутри которого . изображение среднего больше или равно у: [М{у) f, М{у) /] _ {г: Чщ (г) >у}. Указанные условия, ограничивающие вид размытых средних, по существу, требуют, чтобы срезом при любом О^у^ 1 был интервал и только он. Этот интервал и создает тот фундамент, который связывает размытые средние с интервальными и далее с интервальными моделями. Величина 7 есть степень доверия, или своего рода предпочтения, отводимого данному интервалу. Любое размытое среднее эквивалентно определяется зависимостью от у, пробегающей значения от 0 до 1, соответствующих срезам интервалов {M(y)f9 M(V)f], сужающихся при увеличении, у. Допускаются -бесконечные значения границ этих интервалов. Перейдем к .понятию размытой модели средних. Представим на миг, что размытые средние qMf(r) приданы всем_ признакам V/, ограниченным и неограниченным. Срезы [M^f, M(V)f] на одной высоте у есть интервальные средние. Если они согласованы V/, то определяют интервальную модель Л(У).с областью существования ^(v)={/^(v)f<°°}- При y> пробегающем значения от О 89
до 1, образуется сужающаяся последовательность моделей: 1 J[(y)CzJ[(r)9 y^y', которые, как бы лежащие друг на друге на 1 разных уровнях 7» создают своего рода пирамиду, т. е. размытую 1 модель. 1 Размытой моделью называется сужающаяся при увеличении 1 у от 0 до 1 последовательность J^ не вырождающихся в пустую 1 (при y=1) интервальных моделей. Определяется она совокупно- I стью 9м/(/'), V/, размытых средних, согласованных между собой \ в каждом срезе. < Исходя из указанной интерпретации размытой модели выте- ■ кает и основной способ ее задания: сначала задаются размытые 1 средние cJMg(r) на наборе ga& первичных признаков. Берутся : Y-срезы M(y)g, Mwg, которые как первичные средние дадут при \ увеличении у сужающиеся модели JC{y) = <Af(v)^, №(У)&}. При у=\ 1 ' первичные средние должны быть непротиворечивыми, чтобы са- I мый верхний срез был не пустым: М(\)ф0 (тогда тем более они 1 будут непротиворечивыми при всех 0^<у^1). По Jt^ находятся | интервалы M(V)f, M^ для Vf, они и дадут Y-срезы, определяю- 1 щие размытые средние qMf(r), V/. Нетрудно убедиться в том, что I для них выполняются все требуемые условия 1)—5), /входящие 1 в определение размытых средних. Как частный случай, получа- I ются размытые вероятности qp(B)(r)f YBf особенность которых в 1 том, что они располагаются, как это видно из рис. 2.5, на интер- 1 вале 0—1 значений г. 1 В процессе продолжения средних на все признаки параллель- I яо происходит согласование первичных значений qMg(r)\ полу- I чающиеся в результате новые кривые qMg(r), в общем, делаются 1 более узкими: qMg(r)^(jMg(r)7 и следовательно, более точными. 1 В качестве небольшого отступления разграничим уровни опи- | саний. Первый уровень занимает градация событий на элемен- I тарные ^е^, сложные Acz$gy далее, определяемые точными | изображениями q(x, В), наконец, интервальными {q{x9 В), \ ij(x, В)]. Следующий уровень составляют статистические описа- j вия: это точное среднее Mf, интервальное \[Mf, Mf]> размытое | ЧмАг). ~~ I Наконец, можно было бы говорить еще о более высшем уров- | яе, а именно, расплывчатости самих описаний, вводя вместо I qMf{r) интервал qMf{r), qMf(r) и далее, обобщая его до некото- 1 рой кривой принадлежности. Вопрос только^ в том, оправдано ли I будет такое усложнение. Для ответа рассмотрим крайний случай, I когда имеет место полное незнание среднего, что эквивалентно I интервалам голой модели \[Mf, M/]=i[inf/, sup/], и оно же экви- 1 валентно тривиальным изображениям вида qMf(r)=zO, cJMf(r) = l. l А так как последнее, несомненно, менее удобная форма, переход ] к метаописаниям (описаниям описаний) и еще дальше вряд ли ] имеет какой-либо содержательный смысл. ] SO 1
Размытые действия. Интервальная арифметика § 2.2 пригодна для расчета ошибок при вычислениях, вызванных округлением чисел. Но в некоторых задачах возникает необходимость и даже имеется возможность указыэать положения неизвестных чисел не в виде (Интервалов, т. е. категорически: да — значит, принадлежит интервалу, нет — не принадлежит, а более плавно в виде кривых предпочтений, отводимых тем или иным числовым значениям (называемым также кривыми принадлежности {15]). И с ними нужно производить действия арифметики или анализа. Обозначим а(г) — размытое изображение числа; это есть функция на 52, удовлетворяющая свойствам размытых средних (иллюстрированных рис- 2.5). Изображение а (г) нужно интерпретировать как набор интервалов А(у) = {г:а(г)^у}, получаемых горизонтальными у-срезами а (г), причем каждый срез определяет интервальное число в виде индикаторной его модели 1(?)=<Р(Л(у))='1>, а все вместе при O^y^l — размытую модель числа в том плане, как это говорилось в предыдущем разделе. Любые действия над числами рассчитываются по правилам интервальной арифметики (т. е. по правилам преобразований индикаторных моделей) для каждого у-среза отдельно и объединяются затем по у в изображение результата. В «более детальном изложении, если о,(г) есть изображения чисел, то Aj(y) будут фигурами, зеркально к uj(r) расположенными относительно главной диагонали, т. е. это те же самые а^(г)у но основаниями положенные на ось ординат. При каждом у значениями Aj(y) будут .интервалы, поэтому преобразование f(a\(r)9 ..., aj(r)) рассчитывается по правилам таких же действий над интервальными числами, итогом которых станут интервалы F(y), Os^Y^f; и их осталось переложить основаниями с оси ординат на ось абсцисс, получая размытый результат f(r). Мы имеем, таким образом, модельную интерпретацию размытых чисел и арифметических действий, за подробностями которых отсылаем к обзорной книге '[18]. К указанной в ней теории ведет и следующий шаг. Он состоит в определении размытых функций как отображений z-+az(r)y а интервалов от них »— как интегралов от границ интервальных функций Az(y) (у-срезов), дающих интервальный результат с переводом затем его к изображению. Хотя и пришли к известному результату, но указанная нами аргументация, по-видимому, полезна в развитие концепции нечетких описаний и действий, потому что вовлекает для этих целей содержащийся в настоящей книге общий аппарат и делает концепцию нечеткости математически строгой с точки зрения этого аппарата. 2.4. СОВМЕСТНЫЕ ИНТЕРВАЛЬНЫЕ МОДЕЛИ L Совместные и частные интервальные модели. Рассматриваются совместные модели, описывающие результаты двух произвольных случайных явлений с исходами 8S и Q/. п
Пусть $&Х°У — прямое произведение двух пространств исходов, «каждый элемент которого есть пара (*, у), х^<%, У^Щ- Модель Жху на этом произведении называется совместной. Она определяется согласованными средними M*uf(Xi у), Yf^£Fxy, где ср-ху — область существования верхних средних (включающая, по крайней мере, все ограниченные сверху функции двух переменных). А задается — первичными, средними Mg(x, y)t g^9, и тогда Jtxy = (M$y. Признаки f(x, у) двух переменных .называются совместными, а отдельно каждой переменной f{x), хр(у) — частными; частные образуют подклассы &~х и соответственно fFy совместных fF*y. _ Средние на подклассах частных признаков Mf{x), f(x)^!Fxt -Мф(#), <$^&~у, очевидно, согласованы и определяют частные модели Jlx и Му. Итак, частные модели получаются как часть средних совместной. Следующая теорема дозволяет находить первичные средние частных моделей по совместной. Теорема 2.1. О первичных признаках частных моделей. Пусть Mxy=(Mi§y — совместная модель и Mg{x, y)> g^§, суть ее первичные средние. Тогда соответствующая ей частная Жх на SB будет определяться своими признаками вида inf%c+igi(x7 у) с первичными средними на них,'равными: у i Л1* [inf 2 с+£*(*> У)]= ZcfMgtix, y)t &GS, . у i i при всевозможном выборе неотрицательных коэффициентов с+и /=1, ..., &<оо. В самом деле, на основании общей формулы продолжения, центрируя призраки, имеем: Мху f (х) = inf [с + 2 4 Мц] = '+2 ctSi(x,y)^f{x) = inf {c:c+S cflgiix, y)-Mgi]>f(x)}, С, С"т" I причем в условии на с, c+i неравенство должно соблюдаться при всех у^°У, что равносильно подстановке в его левую часть функции c + inf [2 cf{gi(x, y)-Mgi)]=c + hc(x), c = (Cl,..., ck). Функцию hc(x) можно рассматривать как первичный признак для Лх с лулевым первичным средним. Для линейной комбинации таких признаков %d+ihc.(x) имеется мажорирующий признак Лс« (х), с*=2^+*с*> с нулевым средним, поэтому Mxf(x)= inf {c:c+ 2 d+h, (*)>/(*)}= = inf {c:c+hc,(x)>f(x)}, cth c c* откуда и следует доказательство теоремы. 92
Таким образом, первичными для частной ИМ будут нижние грани inlg(x, у), g^S?+% (минимум берется по исключаемой у переменной) вторичных признаков совместной модели с сохранением средних. К примеру, если JP#=<Afg> определяется всего одним первичным средним Mg(x, у), то первичным для Лх будет M[mig(x, y)]=Mg. Если первичных средних два JCxy=*(Mg\>/\ у /\(№g2>, то для частной ИМ первичные средние выглядят так: Mhc(x) = M inf ^(x, y)+c+g2(x9 y)] = Mgx + c+Mg2. У Их уже не два, а много ло причине произвольности с+. В общем, даже при конечном наборе первичных средних Mgt(x, у), i= = 1, ..., &, задающих Лху9 лет гарантии, что частная Мх будет определяться конечным числом первичных значений, кроме ряда исключений, 6 которых и пойдет сейчас речь. Пример 2.8. Пусть #?={*!,..., хк}> У—{уи •••» yi] и на произведении этих пространств заданы первичные вероятности, называемые совместными: o<Pta, yj)< 1. 2 2?(**. yj)>i- i J Эти вероятности согласованы и задают JC**. Первичными для частной Ж* «будут вероятности P(*i)=min{l, %Р(хи #»)}. Любые же другие признаки, согласно теореме 2.1 имеющие вид К М = inf 2 2 $ бх. (х) бу. (у) = 2 _£+ вЯ| (*), где c+i=min с+ц вследствие неравенства Mhc (Jt)=22c+ij£(*i, у3)^* ^У%с+гР(хи Уз)=Т£+^Р(хи yj)^2£+.i^(*«) поглощаются вероятностями P(Xi). В случае точных вероятностей Р(хи Уз)> образующих совместное распределение: 22^(*ь Уз) — 1» частное распределение также будет точным-, равным сумме P(Xi)—^lP(xu Уз)* что элементарно доказывается. / Следствие. Частные признаки gi(x), имея согласованные средние и будучи первичными для совместной Лху, остаются точно такими же с теми же средними для частной Лх. В самом деле, при нахождении по теореме 2.1 первичных признаков для Лх те из признаков gi^S совместной Лху> которые зависят только от переменной х9 выносятся за знак инфимума inf [Zdjrgt (x) + 2 cf gj (*, у)] = 2 df gt (x) + inf 2 c+gj (xt y)9 У i j i У i откуда видно, что сами эти g%(x) (а не их линейные комбинации) будут первичными для Лх. Очевидно, согласованность их средних от Лху передается к Лх. Пример 2.9. Задание совместной модели частными первичными признаками. Здесь будет рассмотрен случай, когда первичные 93
v 0 g(x, У)=\х признаки g^& совместной модели Ж** разделяются на зависящие только or переменной х либо только от переменной у: \h(x), h^&6% lip (у), \|>e=Y, так что &=3@\f¥. И пусть их средние Mh(x), Mty(y) являются согласованными. Они же будут первичными для частных моделей- (согласно теореме 2.1),. причем, как нетрудно установить, на них распространяется свойство аддитивности средних: М*У [f (х) + Ф (у)] = Mf(x) + My (у). Разделение первичных признаков на функции только от х и только от у эквивалентно заданию отдельно JC*=<JA2f6} и Жу=(МЧ?У при полном отсутствии данных о причинной связи (зависимости) между исходами явлений *е#? и #е<у. Совместная модель равна пересечению <$Ш>Л<^*ЧГ> частных, но заданных каждая уже «a S6}Х<У наборами признаков только одной переменной. Отношения между совместными и частными моделям и. 1. Для голой совместной ИМ частная модель будет голой: Это ясно, поскольку, если 'ничего «е известно об <3?Х^, то также не будет никаких данных от SB. 2. При переходе от совместных моделей к частным сохраняется иерархия в смысле отношений включения: Лху<цМх2у =>М?аЛх2 так как Ж? f (x) =~Mxyf{x) <Mf /(х) = W2f (x)). Возникает вопрос, сохраняются ли алгебраические операции объединения и пересечения моделей? Для операции объединения — сохраняются: 3. Лху = \]Л%У=>ЛХ = \]Л% (так как Жх/(х) = Ж^/(д:) = 8ирЛ1ву/(^) = 8ирМ§/(А:)). е в А операция пересечения, © общем, не сохраняется: 4. Лху = /\ЛхуФ=>Лх = /\Ж1 В самом деле, при Л[хуе=(&&вУ первичным для их пересечения будет «абор &=\/&е со средними Mg(х9у) = infMeg{х, у), g^&- е Теперь согласно теореме 2.1 первичными для Мх будут Ж" [inf 2 ctgi(x9 y)]= 2 ctMxygi(x, */) = = 2cf infMQgi(x, y)^ini[%c}MQgi(x9 y)], 8 8 94
где квадратные скобки и есть первичные средние моделей J[xq, а инфимум соответствует их пересечению. Представление совместных моделей случайными преобразованиями. В начале настоящей главы изучались преобразования Я?-*-^. Это некоторые операторы, преобразующие «вход» х в «выход» у. Там нас больше интересовали, во-первых, способы описания самих преобразований: детерминированных y = sx (см. §2.1) и случайных (см. § 2.2), задаваемых переходными моделями Мух, а во-вторых, расчет «выходной» модели Му по виду преобразования и «входной» Жх. Здесь нас интересует другой вопрос: как с помощью случайных преобразований (и особого их случая — детерминированных) можно задавать совместные интервальные модели Жху на 8?Х<У? Пусть имеется модель Жх входа, т. е. известным путем определены согласованные Mxf(x)9 f^&~x. И пусть имеется случайное преобразование из SB на ^, задаваемое переходными Жух, У_х^$&, т. е. при каждом х определены переходные средние Муху(у)9 <р(у)^&~ух> где класс STyx при каждом х может быть, в общем, разным. Произведением Jtx на Мух назовем совместную модель на Жху, обозначаемую: лху=мхмух, которая определяется средними: 'Mxyf(^y)^WWxf(xty). (2.4) Правая часть (2.4) есть последовательное вычисление на первом шаге при каждом х<=$б переходных средних Myxf(x, у) по Мух от f(x9 у) как функций переменной у, а поскольку переходные средние будут функциями х, т. е. признаками на й?, то на втором шаге уже от них берется среднее Мх. Область существования^^ 'произведения моделей составляют признаки f(x, у), при каждом х принадлежащие &~ух, причем только та их часть, для которой Myxf^&~x. Это, по крайней мере, все ограниченные функции двух переменных. Формула (2.4) для нижнего среднего (нужно заменить f на —/) записывается Mxyf=MxMyxf. Прокомментируем понятие произведения. По сути дела, если интерпретировать как ЛуХу так и Жх в виде семейств точных моделей (с точными средними), то \И на первом шаге, состоящем в вычислении переходных средних M?xf, Myxf, и на втором, когда по ним окончательно находятся Mf, Щ, рассматриваются каждый раз наихудшие возможные варианты внутри семейств, причем раздельно для Мху и JL* и раздельно для нижнего и верхнего среднего. Это то, какие данные имелись бы о среднем Mf в наименее благоприятном случае при наличии данных (в интервальном виде или в виде семейств) о модели входа и о случайном преобразовании. . 95
Ниже нам понадобятся следующие достаточно очевидные свойства проноса функции переменной х за. знак среднего Мух переходной модели: Mx'c+(k)f(x9 y) = Mx[c+(x)Myxf(x9 y)]9 Mxy[d(x) + f(x, y)] = Mx[d(x) + Myf(x, у)], где с+(х) — произвольная неотрицательная функция, a d(x) — любая функция переменной х (не выводящая из класса 2Гху). Восстановление сомножителей разложимой модели. Совместная модель Жху, записываемая в виде произведения ЖхЖух, называется разложимой. Покажем, как по совместной разложимой восстанавливаются модели-сомножители. Относительно первого из них Жх пр_облем не возникает: это есть частная модель, средние которой Mxf (х) составляют часть средних Mxyf(x, у) совместной модели. Проблема восстановления второго сомножителя Жух несколько сложнее. Для этого нужно «выделить «характерные» для переходных моделей Жух классы признаков f (x, у), средние Mxyf на которых ее и определят. Характерность их должна проявляться в том, что при разных х это совершенно разные, непересекающиеся классы, «остро откликающиеся» на изменения х. Отсюда догадка, что. это должны быть дельта-образные по х функции. Как и ранее, будем обозначать 6Xt (лс)_индикаторную функцию элементарного события Х\^8в. Символ Мху для краткости замет няем на Ж. Введем функцию f(x, y)=6Xl (х)-у(у), где «р^&~ху. Согласно (2.4) М 6Xl (х) Ф (у) - МХМУ 8Xl (х) Ф (у) = W ЬХх (х) Мух Ф (у) = \РЫЩ<Р{У)* М*г<Р(У)>0> t^(*i)M^(y), ^l9(t/)<0, где P(xi), Р{х\) — границы вероятностей элементарного события х\. Пусть_Р(лг1)>0 и M6Xt (x)q>(y)^0. Из второго неравенства следует ЛРХ1ф(у)^0, в результате чего ^Ф(У) = М\!Г' ПРИ МЬ*Л*)Ч{У)>Ъ- . (2.5) Эта формула и определяет средние переходной Жух для тех X\^l$B, для которых Р(х\)>0. Здесь требование M6Xl (х)ц>(у)^0 не является излишне обременительным. Действительно, если это неравенство не выполняется и ф(#) ограничена, то оно будет выполнено для функции фс(у) = ф(#) +с при с^—inly(y) в силу того, что фс(^)^0. Определяя Мух^с(у) по (2.5), тем самым находим MyXi<p(y)==MyXt[<p(y) + c]-c, с>-тГф. Таким образом, достаточно, чтобы (2.5) выполнялось для неотрицательных ограниченных функций ф(#), так как для неограни- 96
ченных оно получается предельным переходом от их усечений. Это своего рода формула продолжения границ. Итак, имеем. Если Жху разложима, причем частная Жх такова, что Р{х\)>0 для всех Х\^$б, то формула (2.5) позволяет восстановить переходные ИМ по совместной. При этом переходные и условные ИМ (при случившихся х) совпадают между собой. Последняя часть следует из дополнения 1 к параграфу и смысл ее в том, что переходную модель можно восстановить, определяя условные согласно § 1.6 при истекших элементарных событиях Х\^<Ив. Разложимость совместной модели. А всякую ли совместную модель Жху можно разложить на произведение частной и переходной (условной), т. е. интерпретировать связь между исходами x^lSB и у^РЦ действием случайного оператора? Увы, далеко нет! И тогда подстановка условных моделей в (2^) приведет к расширенной по сравнению с Жху модели: MxMyxf{x> y)^ >Щ(х,у). Пусть задана /совместная модель Ж***. Каким свойствам должны удовлетворять ее согласованные средние, чтобы она была разложима? Для решения этого вопроса поступаем так, как если бы Жху была разложима, т. е. вычисляем переходные средние по (2.5), заменив <р(у) на f(x, у): MxyJ(x,y)= M6*tofb-») при M8XJ>0, Р(х1)>0. Р \Х1) А далее смотрим, получится ли при подстановке этого выражения в правую часть (2.4) значение Mf(x, у), и если это так для всех f^Wxyf то это дает совершенно веские основания считать, что Ж** разложима. Теорема 2^2. О разложимости совместных моделей. Если Р(х)>0, Yx^SP, то для разложимости совместной модели Ж^ на произведение ЖхЖух необходимо и достаточно выполнения при всех Xi^SP и любых неотрицательных /+(#, у) из grxy тождества-. -jfiXl\M6Xtb)f+(x9y) L Р(хг) = М/+(*, у), где MXi есть среднее по частной Жх. При этом переходная модель совпадает с условной. Доказательство вынесено в дополнение 2 к параграфу. Прокомментируем требование ненулевых верхних вероятностей ^(а')>0 теоремы. В большинстве реальных задач число данных о явлении конечно, что соответствует моделям Жху конечной размерности. Для них (если сразу исключить невозможные исходы) обязательно верхние вероятности отдельных исходов ненулевые. Нулевые же вероятности Р(х)=0 есть предельный случай ори неограниченном увеличении точности модели. Исходя из 4-13 97
этого должна интерпретироваться теорема 2.2 и ее основное тождество. Посылки теоремы 2.2 весьма серьезны и труднопроверяемы. Отметим одно простое свойство, необходимое для разложимости совместной модели. Оно состоит в том, что для всех <p(y)^!Fxy и с должно быть справедливо равенство М6хЛ*)19(У)-с] = ШбХ1 (х) ф (у) - сР (хх) при > О, [Мб*, (х)<р(у)-сР (л^) при<О, где условие >0 и <0 относится к значению среднего слева. Рассматриваемое свойство разложимых моделей выводится точно так же, как это сделано при с=0 при выводе (2.5). Оно иллюстрируется рис. 2.6, где представлен график значений среднего 'как функции параметра сдвига с. В области положительных значений среднего, а конкретнее, при с таких, что MyXlq>(y)^c9 это есть линейная ^функция с. Так же, как при отрицательных, соответствующих Муху(у)<с. Между ними функция терпит излом. Рассуждение останется верным, если ф(у) заменить на f(x,y). Тогда 6Xl (x) [f(x, у)—с] есть, по сути, вертикальный дельта-вырез функции f(x, у)—с по координате х=х\, а рассматриваемое нами свойство на срезе — как линейность оператора М к параметру сдвига с, преломленная согласно рис. 2.6 при пересечении оси. Первичные средние разложимых интервальных моделей. Пусть Jtxy=MxJLyx есть разложимая совместная модель и пусть „#*=<Af<3^>, J?yx=(fflyxxP} заданы верхними первичными значениями Mxh(x), h^2fe\ Myxty(x, у), -фе1?, где h(x) — частные признаки, а г|> {х, у) — первичиые признаки на у при заданных х9 называемые переходными. Здесь изучается связь между первичными средними совместной модели и моделями-сомножителями. Теоре'ма 2.3. Интервальная модель в виде произведения Мху = (МхЖУ(Мухл¥у) определяется центрированными признаками $={h(x)-Mh, hZEM}{} О О О все с нулевыми первичными средними: Mg=0, Yg^S?, причем Рис. 2.6. Свойство раз» ложимости модели .98 Мл 1
согласованным средним МУх^—МУх^ соответствуют согласован- о о о ные значения Mg=Mg, g=c+(x)[ty—Л^хф]. Прежде чем доказать .теорему, дадим ее толкование. Обозна- о о чим h(x)=h(x)—Mh9 if (я, у)=^(х, у)—Мух$ — центрированные, о о т. е. приведенные к нулевым верхним средним Мк=Му^=09 первичные признаки как частной, так и переходной модели. Очевидно, <Л?*а0> = <Л1*30>, <МуххР>=<Мухл¥>. Тогда теорема утверждает, что центрированными (с нулевыми средними) первичюыми приз- о о наками произведения останутся частные h(x)^2fe признаки, до- о о полненные совместными вида яр (я, у)с+(х)9 г|эе\Р, равными центрированным переходным признакам, умноженным на произвольные неотрицательные функции с+(х) переменной х. Для доказательства выпишем общее выражение среднего Mf(x, у) разложимой модели через центрированные первичные значения сомножителей, реализующее согласно (2.4) двухшаговую процедуру вычисления: Mf(x, y) = MxM%f(x, y) = = MxC(x)=:ini {d:d+ 2 dfhj(x)>C(x)}, где C{x)=ini{c(x) :c(x)+^c+j(x)^j(xt y)^f(x, у)}. Сводя вместе два ограничения: одно на выбор d, а другое — на выбор с(х), запишем их. вместе, тогда окажется в наших руках заменить С(х) на с(х), сведя вычисление сред- о него к нахождению Mf(x, y)=ini{d: d+%d+jhj(x)^c(x), c(*)+2c+i(*)X Xi|)j(*> y)^f(x> У))- в силУ произвольности с(х) первое ограничение вполне может быть заменено равенством, подставляя из которого с(х) во второе огра- о о ничеиие, получаем d+'Zd+jhj(*)+2с+Н*)Ф(*» y)^f(x, у), что соответствует утверждаемым теоремой признакам, определяющим модель. Замечание. В теореме 2.3 центрированные признаки о c+(x)ty(x, у) не при всех с+(х) будут обязательно согласованными и не все обязательно нужно считать первичными. Например, любая функция с+\(х) есть первичный признак совместной модели, а форма b+c+i(x)+c дает хотя внешне другой, но фактически тот же самый признак. Сказанное относится и. к О о c+j(x)tyj(x9 у)9 b+c+}(x)tyj(x9 y)9 поэтому коэффициенты с+(#) можно каким:либо образом нормировать, например, полагая их V принимающими значения от 0 до 1. Из теоремы 2.3 следует, что за счет произвольности коэффициентов с+(х) как функций переменной х произведение моделей будет определяться значительно большим числом первичных значений, иметь большую размерность, нежели составляющие модели вместе взятые. В частности, размерность произведения ИМ несравненно выше размерностей сомножителей и может,, в принципе, быть бесконечной.. . - - 4* 99
Пример 2.10. Пусть _Р(Л^), P(Ai), A^^lSB — две первичные вероятности, определяющие Jtx, и пусть Px(Bx)t P*(Bi), Bicz^, — также две вероятности, задающие переходную ИМ размерности два Лух. Нетрудно видеть, что и Жх, о и Jtvx есть ИРВ. Первичными признаками g произведения JCxJLvx, центрированными к нулевым средним, будут Ах(х)—Р(А{)У —Ai(x)+P{Ai), c+(x)[Bi(y)—Px(Bi)]t c+(x)[—Bl(y)+Px(Bi)] и для каждого из них Mg=0. Будем считать 0^с+(*)^:1. Как видим, хотя сомножителями являются ИРВ, их произведение есть ИМ на #?Х^ с увеличенным числом центрированных первичных признаков, к которым, в частности, относятся МА (х) [В, (у) - Рх (В,)] = 0, МА (х) [ - Вг (у) + Р* Фг)\ = 0 при любом событии Аадб. Чем шире пространство #?, т. е. чем больше элементарных исходов оно содержит, тем богаче делается состав набора первичных признаков, большей становится размерность совместной ИМ. Минимальной будет размерность при двух исходах $& = {хи хг). Тогда j4i=#i и первичных средних совместной ИМ всего шесть: четыре указаны выше двумя равенствами с подстановкой туда A(x)—bXt(x) и А(х)=дх (*), и две исходные jP(#i) и P(Xi). При этом JPx(Bi) и Px(Bi)t в общем, могут быть разными при x=Xi и *=*2. При возрастании числа элементарных исходов пространства 2& размерность произведения неограниченно увеличивается, несмотря на то, что размерности сомножителей остаются равными двум. Теорема 2.3 дает ответ на вопрос, какими групповыми свойствами должны обладать первичные признаки совместной ИМ для ее разложимости. Из этой теоремы вытекает. Следствие. Необходимым и достаточным условием разложимости Жху является представимость ее центрированного набора первичных признаков в виде (2.6). Но трудности как раз состоят в представлении набора первичных признаков в виде (2.6). Очевидно, набор 9 должен быть достаточно богат. Одной из необходимых предпосылок разложимости является то, что наряду с первичным признаком g набору 9 должно принадлежать произведение c+(x)[g(x, у)—Мод], Vc+(x)^0, где при Р(х{)>0: MvXlg=Mg{x, у)ЬХх(х)1Р(хх) согласно (2.5). Однако если Жху не разложима, то всегда можно подыскать более широкую разложимую модель: ЖхЛух= Лху*=>Лху. В худшем случае это будет голая совместная модель Уху9 которая всегда разложима: Уху=УхУух> что легко проверяется. Так как пересечение двух разложимых моделей не будет, в общем, разложимой моделью, то нельзя говорить о минимальной содержащей Лху разложимой модели. Выбор разложимого расширения оказывается неоднозначным. Вообще, напрашивается вывод, что раз разложимыми являются совместные модели очень ограниченного класса, то произведение не есть единый способ представления, а всего лишь удобный прием задания моделей совместных явлений, отражающий физическую природу перехода одного в другое. 10Q ,
Замечания. 1. Сказанное вступает в диссонанс с общеизвестными свойствами точных распределений вероятностей, всегда разложимых, поскольку для них определены точные условные (они же переходные) распределения вероятностей. Так, для точных вероятностей Р(хи у%) на дискретных пространствах SB и Of условное распределение получается по хорошо известной формуле Px.(yj)^P(xit ys)lP(x%), в знаменателе которой стоит частное распределение (то же и для плотностей вероятностей на непрерывных пространствах). Внутри этого (узкого) класса моделей переход к условным (апостериорным) распределениям прост и универсален. 2. Описания моделей семействами распределений вероятностей расширяет возможности -как самих распределений, так и их разложений, но и здесь имеется барьер в виде громоздкости такого типа описаний. В самом деле, в описаниях ИМ будут обязательно присутствовать фразы типа: «Все те распределения вероятностей, для которых Mg^[Mg, Mg]y g^§, или же для которых P(B)^[P(B)f P(B)]9 В^3$, ...», и слово «все» во многом делает неконмретным, неконструктивным поэлементный соста© модели. В частных случаях облегчение достигается сокращением семейств до обозримых размеров, но возможности такого упрощения охватывают, «в основном, узкий класс моделей в виде параметрических семейств распределений вероятностей. Подчиненные произведения. Предыдущими двумя замечаниями подготовлена почва для более широкого использования произве-. дений моделей в совокупности с множественным их описанием как объединений семейств. Пусть совместная модель задана в следующем виде: Лху=\/Мху=\/МхвЛ», е в где правая часть называется подчиненным параметру 0 произведением моделей. Здесь заведомо семейство Мхуь, 0е0, выбирается из разложимого класса. Подчиненное произведение есть сокращенная запись следующего представления средних: Aff(*. y) = sup'MxMlxf(x> у). е Замечание. Произведение моделей МхЛух, если каждая есть объединение: J(*\= \/J£xe, Лух=\/Луъ,х, может рассматри- е о ваться как двойное объединение \J\f Мх%Жу ъ х> в котором 9 и О в в пробегают свои значения (возможно, из одного и того же множества ©) несвязанно друг с другом. В этом состоит отличие от подчиненного произведения, для которого в='& и, следовательно, параметры вид сомножителей в значениях синхронны друг другу. 101
Введение подчиняющего, параметра 9 обретает наглядность и даже естественность, если он имеет физическую интерпретацию как параметр связи средних частной и переходных моделей, как параметр влияния на оба явления SB и ^ какого-либо одного постороннего фактора, описываемого неизвестным значением В. Например, пусть 9В описывает количество перегноя в почве, а ^ — урожайность, скажем, травы. Эти два фактора будут зависеть от погодных условий, например от количества осадков. Это количество и может служить подчиняющим параметром 6. Избавиться от влияния подчиняющего параметра можно, переходя к более широкой модели на основании следующего включения: е ее Точно так же расширением можно избавиться От влияния х \ в переходной модели произведения ЛхЛух, заменив Лух объединением по х. К чему мы таким образом придем, видно из еле- j дующего заголовка. Свободные произведения. Пусть SB и °Ц дают исходы двух j различных явлений и на Й?Х^ задана совместная Лху. Относи- з тельно нее вводится определение. Явление °Ц называется свободным от SB, если совместная Л** \ разлагается йа произведение Лху = МхМ\ M/(x, y)=~M*Wf(x, у), V/Ef, (2.7> в котором переходная Лух=Лу не зависит от х. Такое произведение моделей называется свободным. Частными для ЛхЛу, очевидно, будут Мх и Лу. _ j При 3/ свободном от SB совместное среднее Мху обладает I свойствами: j Mf+(x)q*(y)-Mf+(x)M9+{y); Mlg(x) + f+(x)v(y)] = M[g(x) + f+(x)M<p(y)]; Л*[/(*) + Ф(»)] = А«/(*) + А*Ф(У)- Свобода Q/ от SB имеет тот смысл, что, зная исход х явления 1 на SB, ничего нового нельзя сказать относительно статистической | модели на исходах последующего за ним явления °у. Тем не ме-1 нее из самой структуры формулы (2.7) следует, что каждый! исход х может влиять на процедуру выбора исходов явления Of j в рамках Лу. Чем шире Л*, тем большая степень такого влия- ] ния может иметь место. При точных Лу на дискретных °у сво- j бода, как нетрудно видеть, эквивалентна независимости в клас-1 сическом понимании. 1 Таким образом, понятие свободы обретает свой смысл лищь| для «еточных моделей, т. е. если есть выбор, неопределенность. I 102 1
Рассмотрим, как будут «звучать фразы о свободе» в ракурсе первичных признаков. Из теоремы 2.3 и ее следствия имеем. Утверждение 2.4. Для того чтобы явление на °у было свободным от SB, необходимо и достаточно, чтобы набор первичных признаков совместной Жху мог быть приведен к виду i={h(x)-Mht h£EM}(){c+(x)№(y)-m], tpeY, Vc+(*)>0}, о со все с нулевыми средними: Mg=0, g^S. Тогда Mxy={M°z) = (Mx Ж) (Му V). Понятие свободы не симметрично. А именно, произведение ЖхЖу есть не тоже самое, что ЖуЖх. Например, (пусть JP=<Mft>, Л[у = (М$У — две частные ^юдел^, определенные каждая одним своим первичным средним Mh и Мф. Тогда первичными признаками свободного произведения ЖхЖу, приведенными к нулевым верхним средним, будут а перевернутого произведения ЖуЖх — будут уже другие признаки 52 = {d+(t/)[A(A:)-Ar/i], Vrf* ДО >0}и<Ш-***>• Первая модель соответствует свободе Of от SB, а вторая — SB от <V. Разницу между ними поясним примером. Пример 2.11. Пусть #?={jti, x2}, V={yu Уг}, при этом Ж* определяется первичной вероятностью P(xi), а «а <%/ ИМ голая J[v<=2fv. Тогда для произведения Jtx3fy, относительно которого <У свободен от S6, первичный признак будет всего один 6^ (х) и для конкретного произведения признаков имеем Мх Му [dXi (х) - a] 6yi (у) = max [8Xi (x) - a) 6gt (у) = 1 - а. х, у При вычислениях здесь, как видно, первичная вероятность P(xi) не участвовала. Для произведения 2f*Jtx с переставленными сомножителями уже SB будет свободен от^, а первичными будут[Л+6у (y)+d&vt {y)][8xt(x)—P(xi)]t поэтому MvM*[6Xi(x)— P(Xi)]6yt(y)=Mv6yi (y)Mx[6Xi (x)—P(xi)]=0. Это отличается от предыдущего при a=P(xi). Таким образом, свобода °у от SB не тождественна свободе ЗВ от °у. Хотя у свободных произведений обоих видов одинаковыми будут средние на признаках вида f+(x)q>+(y): Мх Му /+ (х) ф+ (у) = Му Мх f+ (x) <р+ (у)9 но, в общем, они будут разными на совместных признаках ИХ>У)- Если эксперимент °Ц связать с поведением человека, то вкладываемый в слово «свобода» °Ц («житейский» смысл подобен фразам: «как хочет, так и поступает», «что волен, то и делает», как это видно из следующего примера. Пример 2.12. Рассмотрим такую реальную ситуацию. Пусть лервый раз монета подбрасывается так, что вероятность исхода равна 1/2, образуя экспе- 103
римент SB с двумя исходами. Другой раз монета не подбрасывается, а показывается так или иначе некоторым лицом. Показ производится осмысленным образом, поэтому вероятность герба может быть любой от 0 до 1, в результате J[v=&v. Ясно, что эксперимент q/ свободен от SB, так что можно записать Jtw^Jtx&v. Тем не менее свобода здесь не означает независимости: решение относительно того, какую монету показать, может созреть на основании результата подбрасывания. Свобода лишь означает, что о намерениях лица, показывающего монету, ничего не известно: они могут быть любыми. Если поменять в этом примере последовательность действий: сначала производить эксперимент <У (показ монеты), а затем SB (случайное подбрасывание), то получим совершенно другое произведение 2fvJlx, относительно которого SB не только свободен от ^, но и более того, не зависит от О/ в том смысле, который будет дан в следующем параграфе. Любой совместной модели, разложимой на произведение МхЛух> всегда можно подыскать минимальную более широкую JCxy*, относительно которой ^ был бы (свободен от #?. Для этого надо взять объединение переходных ИМ Му* = \/ Мух и образо- V* вать шроизведение Mxy*=JCxJly*. Наконец, для голой совместной модели «имеет место равенство 2fxy=ЭхЭу'= Зу2/Х> так что <у всегда будет свободен от SS ,и наоборот. Дополнения. 1. Теорема. Если Р(#)>0, Ух^ЗВ, то для разложения совместной JC*v на произведение Ж*Ж*х необходимо и достаточно выполнения тоджества M^xf(xt y) = Mf(x, у), \fj<=Pxy, где Мх есть условные средние при заданных х^ЯВ. Докажем это. Достаточность очевидна из равенства (2.4). Для доказательства необходимости требуется доказать, что условные средние Мх совпадают с переходными Mvx, определенными формулой (2.5), т. е. требуется доказать равенство max _ = ———-—, (*) £ (*1)<Ж*,)^(*1) p(xd P(xi) _ где P(*i)>0 и М$х <р^0. В левой части стоит условное среднее Мх<р, расписанное по формуле (1.15), и МР{Х ) есть среднее по сечению Ж**/\(Р (х\)\ согласно формуле (1.9) равное ^Ж*,) 6.ф = тт{Ж[ф(«/)-с]6. (х) + сР(х1)}. (**> 17 1 с г На основании записи (2.4) и свойств средних переходной ИМ имеет место равенство М[у(у) -с] 8Xi (х) =1йхМУ[<р(у) -с] 8Xt (x) = = 'Р(х1)Щ1 [ф (у) - с] = Р(хг) Щ% ф (у) - cT(Xl) = = М 8Xi (х) Ф (у) - с Р fob (***> при с < М ЬХх (х) Ф (у)/Р(хх), 104
где последнее неравенство гарантирует М[у(у)—с]бх (*)^0, Mvx[q>(y)—с]^0. Подстановка равенства (Н<>И>И) в (Н<>И) Дает МР (Xl) bXl W Ф (У) = _ min _ W6X ф - сР (Xl) + cP (Xl)] = c*M6Xlv/P(xt) = ¥бХ1ф[Р(*1)/Яг(*1)Ь Отсюда очевидно становится (Н<), что и требовалось. 2. Доказательство теоремы 2.2. Необходимость следует из формулы (2.5), которая не изменится, если заменить в ней у (у) на f(x, у). Для доказательства достаточности нужно формально определить переходные средние для f+(x, у) по указанной перед теоремой модификации формулы (2.5) и продолжить по свойству переноса на все ограниченные функции и далее устремлением уровней усечений к бесконечности — на неограниченные из ЗГ*», Последняя часть теоремы 2.2 о совпадении переходной модели с условной вытекает из теоремы дополнения 1. 3. Как это видно из рис. 2.6, при P(xi)>0 границы переходной Мух ф(#) являются решениями относительно т уравнения Ж[фДО--т]вХ1(*) = 0. Если же P(Xi)>-0, но не исключается P(#i)=0, тогда Щх Ф (У) = inf {с: М[ц> (у) - с] bXi (х) < 0}. Наконец, учитывая, что М[у(у)—с]дх (х) в области положительных ее значений есть прямая по с, находим M\ ф как пересечение этой прямой (определяемой ее значениями при любых двух с^ и сг) с осью, так что для Vc2>ci —„ сх + М (<р — с2) <5 — с2 М (ф — сх) 6 Му ф = Т — ZZ • А1(ф-с1)вХ1-А1(ф-с1)в,1 4. При Р(х)>0, Ух, для разложения совместной модели на произведение необходимым является выполнение следующего тождества: М [/(*. у)- - ' J с+(х)в0, Vc+W. В самом деле, используя формулу, предшествующую теореме 2.2, имеем дТ [/ — Mf dx/F(x)] с+ (х) = ЛГ* Л?£ (/ —Лх /) с+ (х) = = ~М* с+ (*) [Myxf—~Myx /]s0. 2.5. НЕЗАВИСИМОСТЬ Определение независимости. Независимость — это отсутствие как и незнание взаимных связей исходов разных явлений, отраженное в определенных свойствах совместных моделей. Мы дадим формальное определение независимости как свойств средних, а обсуждать его адекватность нашим представлениям будем в процессе изложения. Замечательно то, что вводимое нами по- 105
нятие независимости действует и для неустойчивых в статистическом смысле явлений. Два явления, одно с исходами S6 и другое — °у называются независимыми (или сокращенно, SB и ^ — независимы), если интервальное среднее произведений частных (разделенных по де- ременным) признаков равно произведениям интервальных средних, т. е. верна формула интервальной мультипликативности средних: Щ(х)<р(У) = Щ(х)М<р(у), Vf(x), <p(y)ZEfxy. (2.8) Здесь произведение средних справа раскрывается согласно правилам интервальной арифметики (§ 2.2), а именно: ШЩ =тах{М/ЛТф, MfAUp, ЩЩ9 ЩЩ)- (2.9) — это максимальное число, которое _может быть получено умножением <шсел двух интервалов Mff Mf и My, My, причем допускаются бесконечные значения (если / принадлежит, а —f не принадлежит области существования &~ху). Аналогично нижнее среднее Mf(x)<y(y) будет равно минимуму в правой части (2.9), обозначаемому MfMy. При некоторых положениях интервалов на числовой оси произведения средних упрощаются (аргументы для краткости опускаются и ниже .всюду / — признак на <3?, ф — на <У): М/>0, М ф > 0 =»- MfMy = MfMy, Mf>0, My > 0 =^ M fMy = MfMy, Af/>0, Мф<0^Щ?ф = М/Мф, Л1/>0, Л?ф < 0 =»- MfMy= M fMy. Так, для неотрицательных функций f+ и_ф+ всегда имеет место самый первый случай и Mf+\*+=Mf+My+, Mf+y+=Mf+Mq)+. В частности, для событий AczSB, Ва<у, подставляя их индикаторные функции А{х), В (у) в (2.9), получаем Р(А, B)=P(A)PJB)t Р(А, В)=Р(А)Р{В). Подчеркнем, что сами по себе эти пропорции между вероятностями не могут служить определением независимости (кроме случая точных вероятностей на дискретных пространствах), так как события — это всего лишь узкий подкласс из огромного разнообразия признаков. А независимость — емкое понятие, охватывающее ©се вместе признаки. Если 3f*v — голая^ совместная ИМ на <3?Х^, то для всех признаков: Mf=inlf, M/=sup/, и здесь нетрудно убедиться в следующем: М/ф==1пГ/ф = MfMy, М/ф = sup/ф = М/Мф, 106 ,
где инфимум и супремум берутся па переменным х и у. Таким образом, если никаких статистических данных об исходах SB и QJ нет, то явления независимы. На первый взгляд несколько странный, «но совершенно естественный, как выяснится дальше, вывод, вытекающий из общего правила: чем меньше мы знаем о явлении, чем более размытыми являются средние, тем меньше ценности несет в себе понятие независимости. Если Mf и Л1ф являются точными, то интервалы средних превращаются в точки, а интервальное произведение (2.8) в обычное: Mf(p=MfMq). Свойства независимости. Выведем свойства, позволяющие с разных сторон взглянуть на понятие независимости. Свойство равноправия. Явления SB и °Ц равноправны по отношению к независимости: если SB не зависит от ^, то и вЦ не будет зависеть от SB. Свойство мультипликативности на сечениях. Если SB и <у независимы, то для Mf, Му-сечения Мщму совместной модели М** среднее произведения /чр частных признаков является точным и равняется произведению средних: MMf,Mq>f<p = MfMy. В самом деле, согласно формуле (1.10) для сечений имеем 'Eiif, Л1ф/Ф= ro,in ДО(/ф —<?i/ — c2^) + C!Mf + c2Mq>]. Перегруппируем выражение в квадратных скобках, записав его [ Л? (/ - ег) (ф - с2) - (Mf - cj (M Ф - с2) + Af/Мф] = = [М(/ — Сх)Л1(ф — с2) — (Mf — сг) (Л*Ф - с2)] + Mf Мф, где использовано (2.8) и общая черта раскрывается согласно (2.9). Нетрудно теперь убедиться, что минимум квадратных скобок последнего выражения по с и c2 равен 0. Смысл доказанного свойства в том, что если бы мы вдруг узнали точно средние Mfy Мф и добавили бы их ,в модель Л*у независимых SB и ^/9 то получили бы привычное свойство независимых явлений: среднее произведения /чр равно произведению средних. Свойство неизменности условных моделей. Для независимых SB и ^ условная модель М^а на °Ц при условии, что случилось событие Аа@В> не зависит от А и равна част- ной: ЛА=Л\ ЧАаЗС. Здесь Жуа — частная к условной совместной модели Мхуа- В самом деле, так же как для предыдущего свойства (полагая С2=0) доказывается для Р_(А)=МА(х) -сечения совместной модели равенство &р(А)А{х)у(у)=Р(А)Му(у) и далее нужно применить формулу (1.15) для условного среднего, убеждаясь в МА<р(у)жМу(у). 107
Таким образом, если $6 и °у независимы, то какие бы наблюдения ни велись за 86 (в виде свершившихся конкретных х или нечетких событий) о частной модели на °У, все /равно ничего нового не будет известно. Аналогично будет, если пространства %8 и °У переставить местами (в силу свойства равноправия). Замечание. Само по себе свойство неизменности условных моделей Жуа (как их одинаковость по АаЯ?) выполняется и для случая, когда <У свободен от SB, т. е. Жху=ЖхЖу, поэтому нельзя положить это свойство в основу эквивалентного определения независимости. Следующим является свойство аддитивности. Среднее суммы разделенных по переменным частных признаков равно сумме средних: M[f{x) + ф({/)]'=Mf(x) +M<p(у). В самом деле, так как прибавление постоянных равенства не меняет, то„ считая М/>0, Мр>0 и используя дважды (2.8), получаем Ж/ЛТф + Ж/+ЛГф+1 = A?tf+ 1)(ф+ 1) = откуда Л1/+Л1'ф^Л1(/+ф), а так как обратное неравенство есть свойство средних, то это доказывает равенство. Характеризационным для независимости, как выяснится из дальнейшего, является свойство взаимной нековари- ирован'ности частных признаков: если $В и °Ц независимы, то нулевыми всегда будут верхние средние следующих произведений частных признаков f(x), ф(у)^дГх*: М (f - Mf) ((р-Щ) = М (f -Mf) (<р- Щ) = = М(^-/)(ф-Жф) = М(^-/)(ф-Мф) = 0, V/, ф. (2.10) Равенства (2.10) проверяются непосредственным использованием (2.8). Например, М (/ — Mf) (ф — М ф) = М (f — Mf) M (ф — Мф) = = шах{(ЛГ/ — Mf)(My — Мф), (Mf — Mf)(My — л5Гф), (Mf — Mf)(My — Мф), (Mf— Ж/)(Л£ф—Л1ф)} = 0. Замечание. В левых частях равенств (2.10) участвуют произведения в известном смысле центрированных признаков. Средние этих произведений называются ковариациями f и ф. Их четыре, поэтому (2.10) есть обобщение известного для точных средних свойства равенства нулю ковариации независимых случайных ©еличин: М(f—М/)|(ф—Му) =0. Независимое произведение. В тождестве (2.8), составляющем свойство независимости, справа стоит произведение средних, определяемых по частным моделям JCX и Jty. Однако это отнюдь не означает, что частные модели Мх и Жу полностью должны определять совместную Жху. Нет, они обязаны согласно (2.8) 108
\ определять только часть \ее средних, а именно, на произведениях разделенных по переменным признаков. Ничто при этом не мешает еще знать средние Mg(x, у) на неразделяемых признаках более точно, чем это можно было бы сделать продолжением разделенных. Текущий раздел посвящается тому случаю, когда совместная модель Жху однозначно определяется частными моделями независимых 86 и °ЦУ что даст наиболее широкую совместную модель независимых $в и <у при фиксированных частных. Ее можно интерпретировать как отсутствие каких-либо «посторонних» взаимных средних: исследуются отдельно S&, Щ9 и при условии, что они независимы, ставится вопрос, какая совместная модель получится? Определим ее. Совместная модель Жху, первичными для которой являются -средние (2.8) всевозможных произведений частных (разделенных по переменным) признаков, называется независимым произведением Жх и Жу, и обозначается Лху=МххЛуу Mxyg(x, y) = {MxxMy)g{x, у), g(x9 y)EEfxy. Пусть частные модели заданы своими первичными средними: ЖХ=(МХЖ}, Жу = (Муу¥}, где Ж — набор частных признаков h(x) на SB, a W — признаков г|э (у) на у. Процедура вычисления совместных средних Mg для независимого произведения (МХЖ}Х Х(МуУ¥У разбивается на три этапа. Первый — это продолжение первичных средних на все частные признаки, мажорируемые конечными линейными комбинациями первичных, что дает Mxf(x), $(х)^3?+Ж, и МУу(у), ф(у)_е5?+Чг. Второй — это вычисление по формуле (2.8) средних М/ф их (Произведений с учетом формулы обращения Mxf=—Mx(—f) (если —\ф9?+Ж, то считается Mxf=—оо). -Средние М/ср будут конечными при ±{^2?+Ж и ±фе5?+Чг. Наконец, третий шаг — это по набору _из всех М/ф, первичному для совместной модели, вычисление Mg(x, у) уже для любых g по формуле Mg (х, у) = inf [с + 2^+ЩТВД. c+ZCifiWy.iy^gix, у) Вытекающий из указанной многошаговой процедуры вывод состоит в том, что размерность модели, т. е. минимальное число определяющих ее первичных признаков, для независимого произведения ЖхХЖу определяется не столько сомножителями, сколько размерами пространств S6 и <у. Если число элементов этих пространств бесконечно, то независимо от размерностей Жх и Жу размерность их независимого произведения будет, в общем, бесконечной (за некоторым исключением, например, ЭхХЗу). Пример 2.13. Пусть AczSe и Bay есть два события и Р(Л), Р(В) — вероятности, являющиеся первичными для своих частных моделей размернос- 109
/ / ти 1 соответственно Л***<Р{А)) и ЛГ»=<Р(£)>. Покажем, что независимое произведение ЛХХЛ* будет иметь, в общем, бесконечную размерность (исключаем случаи, когда Р(А) или Р(В) равны 0 или 1, и когда пространства дискретны). Для ограниченных f и ф (составляющих области существования частных моделей), вводя обозначения J(A)=supf(x), f(A)—inlf(x) и такие же для <p(£),jp<(£), имеем Mf=l7(A)-T(Ac)]+P(A)+T(A% МФ = [ф(£)-ф(Вс)]+Р(£) + + Ф(В°) и Mf=—M(—f), то же Мф. В частности, при J(A)^*J{A*), ф(£)>ф(Вс): Mf=l(A), Мф = ф(£), М/ф = тах{ЛГ/ЛГф, ф(£)Л*/> ДЛ)МФ, Ж)Ф(Я)}. При^Л)>£(Л) и ф(В)>^р(В) эти первичные средние совместной модели, как можно убедиться, не поглощают друг друга. Число их бесконечно. Здесь мы видим, что предположение независимости 2В и °Ц дает дополнительную пищу относительно средних произведения /ф любых ограниченных признаков /(*)» ф(у), а не только складываемых из индикаторных признаков событий Л, В и их дополнений, т. е. принимающих на них постоянные значения. Как указывалось в начале раздела, нужно отличать независимость как свойство совместных моделей, от независимого произведения частных моделей как конкретного вида совместной модели. Для последнего справедливы дополнительные свойства. Свойства независимого произведения: 1. Равноправие: ЛхХЛу= Л^ХМ*. 2. Сохранение порядка: М\аМ\, Лух^Л%^ЛхххЛ\^Л\хМ\. 3. Дистрибутивность относительно объединения: (Vлх)х(у m$ = \jулххлъ. V W V W В самом деле, первое свойство следует из определения независимости. Второе — из очевидного соотношения: Afi/<^2/> Mxf>M%f, Л?;ф<лГ2ф, Мх ф ^ М2 ф => Мг f Мг ф < Af2 / М2 ф. Наконец, третье свойство расписывается в виде элементарного равенства тах{тахЛ1р/тахЛТи,ф, maxMDfminMwyt V W V W minMD / max Mw ф, min Мv f min Mw} = max Mv f Mw ф. V W V W Vt W Если в третьем свойстве в качестве v и w взять средние Mf(x), Mq>(y) и использовать представление частных моделей в виде объединения сечений, то получим мх <жу=( v J£.f) х (V ^yMj =VV '-*M.t x мум^. Mmf Л1,ф M*fMm<p ПО
А так как ^лглХ^лг,ф=\(^*Х^)мл.л1*ф> т0 отсюда вывод: независимость сохраняется "при переходе к (M*f (х), М*ф (у)) -сечениям модели, и наоборот, из независимости в сечениях (по разделенным признакам) следует независимость SB и °Ц. 4. Независимые произведения эквивалентным образом задаются свойством (2.10) нековариированности частных признаков. Доказательство содержится в дополнении 1. Итак, некова- риированность (2.10) не только есть следствие независимости, но и сама, если нековариированными являются любые пары /(#)> у (у) признаков, служит характеризацией независимого произведения, полностью его определяя. Независимые произведения на дискретных пространствах исходов. Для дискретных явлений здесь будет дана интерпретация введенной нами независимости с позиций, представлений моделей в виде семейства распределений вероятностей. Пусть $&={хи *2,...} и <У={уи У2,—} дискретны и независимы. Если вероятности элементарных исходов являются точными, то понятие независимости исходов SB и <*Ц превращается с тождественное равенство совместной вероятности (также точной) произведению частных: Pixit уз)ш*Р(хдР(у5), V*. и где P(Xi)=^P(xu Уз), Р(Уз)=ЦР(Х{ Уз). Это хорошо известно, и мы им не раз уже пользовались, в векторном виде записывая: р*2/= p«xPv. А если вероятности не точные, а интервальные? Тогда соответствующие модели Л*у изображаются выпуклыми семействами векторов совместных вероятностей Р*у9 или, что более экономично, крайними точками, а еще лучше не всеми, а только являющимися вершинами P*ve модели: Лху = \/Рхуе> где Э — ин- е деке множества этих вершин, своего рода общий для SB и QJ фактор. Принято считать, что независимость SB и °у будет достигнута, когда на произведения разбиваются если не все векторы РхуаЛхУ, то хотя бы вершины P*ve, т. е. Лху = \/Р*еХР% Но это е не так, и вот пример, показывающий, к какому заблуждению это может привести! Пример 2.14. Пусть SB^QJ и вероятности Р^в, где фактор «в принимает значения 0Ь <62, .., таковы, что Р0,(**, yi)=$ij (0 прик^/ и 1 при i—j)9 т. е. при заданном 0* с вероятностью 1 появляется исход Х\ и обязательно тот же самый исход у%=Х\ на °$/. Для каждого Р*1^,, как нетрудно видеть, 26 и О/ независимы: Руу^, — Рх^1 ХРуе- » потому что детерминированные исходы формально независимы. Объединение J[*v=\/Pxq XPyQ соответствует совместен ному явлению, в котором с неизвестной вероятностью выбирается какой-то исход Xi^SB и затем детерминированно — совпадающий с ним исход у%=Х\ \\\
на Щ. Несомненно, раз у всегда совпадает с/х, о независимости исходов ие может быть и речи. Что-то похожее на приведенный яример будет иметь место, если немного отклониться от точно /нулевой и единичной частных вероятностей, так как и тогда представляется возможность по исходу х более или менее точно предсказать фактор в, а через него уже исход у. Таким образом, причина дефицита независимости для модели в виде объединения \/РхвХРув кроется в на- е личии общего для х и у подчиняющего их свойства фактора 0. Для независимости нужно развязать факторы в соответствии со следующим утверждением. На дискретных SB и °Ц совместная Жху образует независимое произведение тогда и только тогда, когда она представляется в виде объединения произведений точных векторов вероятностей Лху=,\/у^хК (2.11) V W с индексами v и w, несвязанно друг от друга пробегающими свои множества V и W значений. Условиями утверждения гарантируется Жху=ЖхХЖуу где Жх=\/Рхь, Jty=\/Pyw, а совместные средние вычисляются из выражения: ~Mg(x, У) = sup sup SSgto, yj)Pv(*i)Pw(yj)> VgEEf^ Необходимость следует из указанного представления частных моделей в виде семейств и свойства дистрибутивности независимого умножения относительно объединений; а для доказательства достаточности нужно подставить в выражение Mg(x, у) произведение g(x, y)=sf(x)^(y) и убедиться в справедливости тождества (2.11). Формула (2.14) может быть взята за эквивалентное определение независимого произведения, но только для дискретных пространств SB и ^. Ее невозможно распространить на непрерывные 'пространства в связи с отсутствием там подобных векторам вероятностей атомов модели. Представление (2.11) полезно потому, что (придает некоторую наглядность доказательствам указанных выше свойств независимых произведений, как это демонстрируется в дополнении 2 к параграфу. А теперь — наглядный пример к данному разделу. Пример 2.15. Если независимо два раза подбрасывается одна и та же гнутая монета, то имеем два независимых эксперимента с одинаковыми вероятностями герба Р(Г1)-=Р(Г2)=/? при обоих подбрасываниях. Из-за неизвестности р: р^р^р, имеем совместную интервальную модель в виде объединения JC*v*= V РхХРу, где вероятности Р=(р, 1— р) одинаковы на Я8 и °У, Это есть стационарный эксперимент. Здесь вероятности существуют (хотя не известны) я подчинены друг другу, что так или иначе связывает исходы между собой, потому независимости, как мы ее определили, нет. 112
Другой случай, когда каждый раз совершенно неизвестно, какая монета, гнутая или нет, подбрасывается. Это уже неустойчивый эксперимент с совершенно независимыми исходами в нашем определении, а также и понимании независимого произведения, так как по результату первого подбрасывания уже совершенно ничего нового не скажешь о втором и л? = V V _ pfxp|, J^Pi^P P^Pt^P где Pf = (/?!, 1— Pl)t Р| = (р2, 1— р2). j?=min (/?, 1/2}9 p=max{p, Vi>. Геометрическая иллюстрация независимости. Для случая двухточечных экспериментов 2Б = {хи х2}9 ®/={уи У2} совместная модель описывается семействами векторов вероятностей Р = ={(Р(хи У\)> Р(хи У2), Р(х2, у\)) в трехмерном пространстве (компонента Р{х2, у2) опущена, так как дополняет до 1 сумму остальных). Обратимся к рис. 2.7, где поверхность я есть множество векторов Р^Р*ХР1/ независимого произведения, т. е. с Р(хи Уз)=Р(Хг)Р(Уз). Через эти равенства по границам интервальных вероятностей £(х\), Р{х\) и Р(у\), Р(у\) (первая пара задает Лх, вторая — Лу) определяются четыре точки P^j, i9 j= = 1, 2, <на я; они и будут четырьмя вершинами тетраэдра независимого произведения ЛхХЛу. Тетраэдр эквивалентно представляется: 1) объединением вершин Рц, 2) как фигура с четырьмя располагающимися на я ребрами, соответствующими границам вероятностей, 3) как множество, окаймленное гранями, соответствующими четырем уравнениям: М [8Xl (х) - Р (х,)] [8У1 (У) - Р (Уд) = 0; М [8Xl (х) - Р (х,)) [8У1 (У) - Р_(У1)] = 0; М [P(xJ - 8Xl (х)] [бУ1 (У) - ЩУг)} = 0; (2.12) М1РЫ-6* (*)] [в* (!/)-РЫ1 = 0. Это есть уравнения (2.10) для f(x) =fiXl (x), q>(y) =6Vl (у). Так как при £&={хи х2} любая функция f(x) линейным образом приводится к 6х(х) (например, при /(*2)>f(*i), 63Cl(jc)=f(jc) — —f(xi))Kf(x2)—/(*i))> то отсюда следует: система (2.12) нулевых средних, соответствующая нековариированности элементарных исходов, дает необходимые и достаточные условия независимости двухточечных экспериментов $&={х\у х2} и °У={уи У$- Условия нековариированности (2.12) достаточны для независимости, но не для независимого произведения. В самом деле, если на рис. 2.7 введением дополнительного первичного значения, скажем р(хи */i) «отрезать» угол тетраэдра, не исказив первичных граней, то хотя равенства (2.12) выполняются, но независимого произведения уже не будет. Сделаем выводы. Первый: любые «урезания» тетраэдра независимого произведения Лху на рис. 2.7, при которых остаются 113
♦ P(*z,yt) Рис. 2.7. Модель независимого произведения ?(*.&). хотя бы какие-нибудь части каждой из его граней, сохраняют независимость 36 и °ЦУ но нарушают независимое произведение. Таким «урезанием» можно учитывать дополнительные свойства экспериментов. Например, их стационарность как результат одинаковости условий проистекания (см. первую часть примера 2.15), которая в самом общем случае отражается дополнительными ограничивающими модель равенствами M[f(x)—/({/)] =0, V/'e^ (об этом пойдет речь ,в следующих двух главах). Второй: независимость есть некоторая пропорциональность размеров и особенность положения тела совместной модели по отношению к координатным осям, а независимое произведение — вместе с этим полагает и минимальное число граней модели. Третий: любую совместную модель Jtxy можно расширить до такой, при которой %} и °Ц становятся независимыми, или же расширить до содержащего ее независимого произведения: ЛхУа аМ*ххЛ*у. Отметим, что справа М*х и JL*V оказываются, в общем, шире частных JL* и Jty для Мху, и расширение не однозначно. И, наконец, четвертый: наличие общего для SB и °у подчиняющего параметра 6 угрожает потерей независимости и соответствует модели Х/Р^еХР^е, все вершины которой лежат на поверхности я (рис. 2.7). Нековариированность случайных величин. Следствием независимости было выполнение для всех частных, разделенных по переменным признаков f(x) и <р(у) равенств (2.10), определяющих нековариированность / и <р. Изучим это понятие подробнее, считая / и ф произвольными совместными признаками, для чего в 114
(2.10) подставляются: /=/i(а:, у)> ф=Ы*, У) — на 86Y,Qj это «случайные величины. Случайные величины ft и ft нешварииро- ванны, если их ковариации, определяемые левыми частями равенств (2.10), равны 0. Нековариированность — это свойство совместной модели. Для него верно следующее. 1. Понятие нековариированности равноправно относительно случайных величин. 2. Если ft и ft нековариированы, то такими же останутся вторичные поэлементные признаки /,i=Aift + Ci и !/2=Ь^2+С29 Vbi, Ьъ Си с2^&, (обозначаем их множества через j?ft и i?ft). 3. Признаки ft и ft будут нековариированными, если и только если выполняется любое из следующих двух условий: Условие А М ft-«W.-*W-o 1 у, w Условие Б при Vd ^ M /2. М1'2 '2' таких, что Mft>0; **(/; -*/» /; - о прявсех /; H?k пи,; е ^' v1 '!''2 таких, что Mf2 > 0. 4. Для голой совместной ИМ любые ограниченные признаки попарно нековариированы. 5. При точных средних Mf\ и Mf2 понятие нековариированности трансформируется: в равенство Af(ft—Afft) (ft—Mft)=0, a если к тому же jWft=0 или Afft=0, то совпадает с понятием некоррелированности: Afftft=0. Классы Ж и Ч? признаков называются нековариированными, если любой признак Ае<5# нековариирован с любым ifeY. Из свойства 2 совершенно ясно, что нековариированными будут и любые h'<=gh с ^'&24|). Независимость, свобода, нековариированность. Пусть 36 и ^ — два явления. Если считать частные модели J[x=(Mx2e), Jfy^^MyW} заданными их согласованными средними на первичных признаках h(x)^34f9 ty{y)^W, то каждое из составляющих заголовок понятий соответствует определенной статистической связи как между первичными h(x) и ty(y), так и между произвольными всеми остальными признаками вида f(x) и ср(у). Эта связь плюс частные модели вместе формируют совместную модель. Систематизируя изложенные выше результаты, укажем, какие в итоге совместные модели получаются и какими наборами первичных средних они определяются. U5
j Независимость % и Щ: М*»=ЖхХМу, МпГ(х)1р(у) = мЩ9 V/, Ф. Свобода у от Я?: Мх£=МхМу, Л*Св/(*, y)=M*{Mvf(xy у))г М^и{Мс+(д:)[г|)(у)--Мг|)], i|)^^}. Нековариированность Ж и Ч*": ЛР^нк, ; Мн„ (Л - МЛ) (г|) - ~Щ) = Л?нк (Л - Ш) (ф - М if) = Отсюда видно, что «при одних и тех же частных моделях для независимого произведения количество первичных признаков существенно богаче, чем для свободного и чем при нековарииро* ванности, а так как средние на всех те же самые, то Равенство будет лишь при точных векторах вероятностей в дискретных пространствах. Что касается понятий свободы и нековариированности, }то они, в общем, не сравнимы по включению между собой, так как JtCB и JtnK задаются разными первичными признаками. В определенных классах моделей такая связь все же обнаруживается, как в следующем примере точных (на алгебрах) распределений вероятностей, важном также для осмысливания статуса принятого в современной литературе понятия независимости, которое в нашей терминологии оказывается ничем иным, как нековариирован- ностью алгебр. Пример 2.16. Алгебры «я£*о на #»о и SB на QJ называются нековарииро- ванными относительно точной на их произведении совместной модели Ж**= =&>хХ&у, если Р(АВ)=Р(А)Р(В) для любых ЛеЛ и В<=&у0. Совместную модель, для которой эти вероятности являются первичными, обозначим Жщ. Для нее нековариированными будут любые интегрируемые (по &* и &у) частные признаки h(x) и ty(y): Nighty=MhM^t к которым относятся любые измеримые ограниченные функции, и этн значения можно считать первичными (что не меняет ЖпК). Для произведений неизмеримых признаков f(x)q>(y) продолжением с точных средних значений измеримых признаков Mhty=MhMty находим: Мнн / (х) ф (У) = inf 2 Mht (x) Л% (у), где инфимум берется по всем измеримым hi и ф*. Пусть теперь при тех же частных 9х и &v9 определенных точными на своих алгебрах вероятностями, явления считаются независимыми. Тогда для Жт=&хХ&у имеем для неизмеримых признаков 116
Разлагая /=/+—-/"", ф=ф_К:-ф- и считая {^0}&я£х0, {ф>О}е^«0, получив MHKf ф = Ж /+ Ж ф+ — МГЩ+ — AI/+- Мф- + Ж /- Жф-, Мнз/Ф = max {(Ж/+ — М_Г) (Му+—М ф~), (Ж/+ — М/~)х X (Л1ф+—Ж ф~), (М/+—Жр) (Жф+ — Мф~), (М/+ — Ж/~) (Л!ф+ — Жф~)} . Нетрудно видеть, что MH3{<P^.MHKf(p. Это неравенство справедливо для произ-- ведений любых частных ограниченных признаков f{x), ф(у). Равенство будет в том случае, если оба признака неотрицательны (в том числе, для событий) v где равенства справедливы отдельно для верхних и для нижних средних. Таким образом, и при точных вероятностях независимость в иашем определении является более строгим понятием, чем нековариированность алгебр. Рассмотрим при тех же частных &х и &v понятие свободы °у от 8В. Обозначим Jtc*=&x&v. Для произведений измеримых (суммируемых) частных- признаков имеем те же точные средние, что при нековариированности и независимости: McJi(x)^(y)=Mh(x)M^(y). При неизмеримых функциях и тою же условии {/^0}&s#*o, {ф^0}е^»0 получим Жсв / Ф =Ж/+ (Жф+ — М_ф~) — Щ~ (М ф+ — Жф~) = = Ж/+ Жф+ — Ж/+ ЩГ — Af/" Щ>+ +МГ Мф+. Сравнение с предыдущими формулами ведет к неравенствам Мнз /ф<^св/ф< Мнк / ф • Так что в данном примере Жиз^Жс^аЖик- Таким образом, при нековариирс ванных алгебрах и точных вероятностях на ннх категория свободы занимает промежуточное положение между независимостью и нековариированностью. Дополнения. 1. Теорема. Для того чтобы модель Ж*у представляла собой независимое произведение, необходимо и достаточно, чтобы первичными для нее были совместные произведения всевозможных частных нековарииро* ванных между собой признаков f(x) и у (у). Необходимость эквивалентна свойству (2.10). Достаточность. Обозначим Л' ИМ с первичным набором (2.10) в заданными частными Жх и Жу. Покажем, что Ж'=ЖХХЖ*. Согласно формуле. (1.3) Ж'/ ф = inf sup [/ (х) ф (у) — 2 с+ &(х, у)Ь cf х>* о где gi(x, у) есть всевозможные первичные признаки вида (/-Л1/)(ф-Жф), (/-Ж/)(Ф-Л*ф), (Ж/-/)(Ф-Жф), (Л^-/)(Ф-МФ). Так как этот набор есть часть набора (2.8), то Жг^ЖхХЖу и потому М7ф^ а^М/Мф. Осталось доказать противоположное неравенство. Возьмем два част' ных признака f(x) и у (у) с конечными f=inf /, f=sup/ и то же ф, ф. Нор- 117
мируем их, положив /<>=(/—/Mf—f), фо=(ф—ф)/(ф—ф). Обозначаем Ж" — ИМ размерности четыре, определяемую нековариированными /о и фо, т. е. первичными средними (2.10) с подставленными f=/0 и <р=ф0. Так как Ж"=>Ж\ то Ж' /Ф <Ж"/ф = inf max [/ ф — с+ (f<> — Mf0) (Фо -Жф0) - с^ *•* """ ~ 4 (/о - Ж/0) (ф0 - Мро) + cf (/о - М/0) (Фо - Мф0) + + 4(/о-^/о)(Фо-Л?Фо)]. Нетрудно убедиться в том, что в правой части этого неравенства максимум по х и у квадратных скобок будет достигаться при тех х* и y*t при которых / и ф (/о и фо) принимают экстремальные значения. Пусть jfo, Фо максимальны (и равны 1) при *=**i, y=y*i и минимальны (равны 0) при *=**2, у=у*2. Заменяя SB и У на двухточечные пространства #?*={**4, **2}, <У*={у*иУ*2) при тех же границах М*Що=гМ}0, M**f0=Mfo, №*фо=Л*Фо, Л^*фо=.Мфо, мы не изменим M"fy=Mx*v*fy. А для двухточечных пространств согласно следующему за (2.12) выделенному курсивом утверждению имеем M^v*f<p=Мx*fMv*y= =М/Мф, поэтому ЛГ/ф<Л1/Л1ф, что и требовалось доказать. 2. Пример использования представления (2.11) в случае дискретных пространств SB и <у для доказательства свойств аддитивности и яековариированности частных признаков /(*), ф(#): Ж (f + ф) = sup sup (Mv f + Mwq>) = sup Afp / + sup Mw ф = Mf + Жф; Ж(/ — М/) (ф — Жф) = sup sup (Mv f — Mf) (Mw ф —Ж ф) = — v w = (Mf — Щ) (Жф—Жф) = о. 3. Пример соотношения понятий независимости и свободы. Вернемся к примеру 2.12. Сначала подбрасывается симметричная монета (эксперимент 8В)У затем «некто», зная результат подбрасывания, показывает одну из сторон своей монеты, делая это, как он хочет (эксперимент <У). Игра идет на деньги, причем «некто» ничего с этого не получает. Если «некто» нейтрален, т. е. он может и не учитывать результат первого бросания, то эксперименты SB и ^ будут независимыми. Если же о намерениях этого «некто» ничего не известно, то эксперимент °Ц свободен от SB. Например, -«некто» может захотеть обеспечить выигрыш одному из игроков или же вы- равнять выигрыши. Обозначим А ■— выпадение первого герба и В — показ второго. По условию задачи Р(Л)=Р(Л) = 1/2, а так как «некто» может избрать любую стратегию, например, показывая только гербы или только решки, то Р(В)=0, Р(В) = 1. Для свободного произведения первичными совместной ИМ Сбудут Р_(Л)=Р(Л) = 1/2 (средние M(c+iA + c+Ac) (В—р(£)=0 избыточны, так как В—Р(В)=В—1^0), а для независимого произведения — Ж (1/2 — Л);В = Ж(1/2 — А)& = Щ1/2 — Л)В = М(1/2 — Л)Вс = 0. Равенства ведут к точным значениям средних Af(1/2—А)В=М(1/2—Л)Вс=0 «ли равенствам Р(АВ)=Р{АВС), Р(АВС)=Р(АСВС), которые вместе с первич- «ыми Р(Л£)+Р(ЛВС) = 1/2=Р(ЛС£)+Р(ЛС£С) определяют все включенные в J18
независимое произведение векторы вероятностей. Отметим, что данный экспе^ римент отличается от двухкратного независимого подбрасывания монеты, при котором все четыре компоненты вектора вероятностей равны 1/4. 2.6. ЗАКЛЮЧЕНИЕ В § 2.1 изучается воздействие преобразований пространств исходов одного» в другое на вид интервальной модели. Всем известны формулы преобразований- плотностей и насколько сложными они становятся для нелинейных и инерционных преобразований (достаточно вспомнить расчеты системы фильтр-ограни^ читель-фильтр). Для интервальных моделей принципы расчета гораздо проще и универсальнее. Среди огромного разнообразия признаков всегда найдутся* согласованные с преобразованием, называемые представимыми признаками, которые, во-первых, совершенно элементарно преобразуются сами, и во-вторых,, для них производится непосредственный перенос средних со входа на выход, определяя, таким образом, первичные данные выходной модели. Нужно толька рассчитать средние представимых признаков иа входе. Процедура расчета упростится, если первичные признаки на входе* все' представимы и согласованы, тогда действиями будет прямой перенос средних со входа на выход, а модели оказываются подобными. Подобие означает схожесть структур и отсутствие невозвратимого ущерба при преобразовании. В частности, подобны между собой все плотности распределений вероятностей, так как- переходят одна © другую при преобразованиях случайных величин. Случайные преобразования § 2.2 как математическая запись расплывчатых,, неопределенных действий даются интервальными моделями выходного явления при каждом значении входа и называются переходными моделями. Случайность преобразований добавляет неопределенности на выходе, приводя к расслоению признаков и расширению средних. Их частный случай ведет к интервальным действиям арифметики, заложенным в интервальном анализе. Случайное преобразование наглядно сравнивается с взволнованным аквариумом полупрозрачной неоднородной жидкости, сквозь которую мы смотрим» из комнаты на улицу. Предметы становятся искаженными, нечеткими, трудно^ различимыми. Уже видим не дерево и машину, а их смутные случайные очертания, по которым рисуются усредненные изображения. Это и будут нечеткие наблюдения § 2.3 как результат расплывчатых случайных * преобразований,, где вход составляет недоступная нам некоторая предметная область (улица), а выход — наблюдения, связываемые в суждения о том, что происходит. Кстати, в человеческом языке слова и фразы также имеют предметный смысл и относятся к предметной области по принципу: мы так привыкли понимать, т. е. среднестатистически. В этом ракурсе человек являет собой разновидность случайного преобразования входа (о чем мы говорим) в выход (что мы говорим). На интервальные средние можно смотреть как на преобразования чисел в интервалы, т. е. как своеобразный итог «видения» точных средних (если таковые существуют) через призму ограниченного эксперимента, вынуждающего прибегать к осторожным оценкам в виде интервалов. Если посмотреть 1 Именно случайных с заложенными в них статистическим закономерностями в отличие от теории нечетких множеств Заде [15]. 119
чуть пристальнее, то это уже будут не интервалы, а их расплывчатые аналоги, дающие размытые изображения средних. Определенные для всех признаков, они составляют размытую модель (как пример размытых преобразований в конце § 2.3 строится размытая арифметика). Этим сделан четвертый шаг на пути от детерминизма к случайности в их следующей цепи: 1) детерминированные явления, 2) случайные явления, заданные распределениями вероятностей, 3) заданные интервальными моделями, 4) заданные размытыми моделями. Дальше дороги, вроде бы, не видно. Не только преобразования способны отразить совместное поведение двух случайных явлений. Более широко и полно это делают совместные модели § 2.4, которые задаются первичными средними совместных признаков обоих явлений и продолжаются на все остальные. Средние частных признаков вместе •образуют частные модели со своей структурой первичных данных (теорема 2.1). Не всякие модели, увы, могут рассматриваться как результаты каких-нибудь преобразований, а лишь подкласс моделей, названных разложимыми. Разложимые модели записываются как произведения частных моделей на переходные. Особый случай, когда переходные модели от входа не зависят, ведет к понятию свободы выхода от входа, как будто кто-то своевольно распоряжается выходом в рамках модели, зная вход, учитывать который или нет — его дело. Независимость есть неведение ничего дополнительного об одном явлении, если стал известен результат другого, и наоборот. Свойство симметричное. Независимость как объективная и субъективная реальность охватывает явления целиком со всеми их признаками и через средние признаков определяется в § 2.5. Широта этого понятия оказывается зависящей от данных о явлениях. Если даны точные значения вероятностей (средних), то независимость сводится к свойству мультипликативности, а для интервальных значений — к интервальному аналогу этого свойства. А если совсем не известны, то... независимость имеет место всегда ! Разве это не следует из смысла понятия? И интересен отсюда следующий вывод, что независимость может достигаться расширением совместной модели (по сути, забыванием связей). Чтобы вывод не показался чересчур странным, напомним, что модель — это всего лишь зеркало явления, отражатель его сторон-свойств в своих образах и на своем языке, поэтому и независимость проявляется в определенной заорганизо- ванности совместной модели, особенностях ее структуры, которых можно достичь расширением модели. Сказанное относится к понятиям некоррелированности и нековариирован- ности в их интервальных определениях. Это более слабые свойства по сравнению с независимостью, т. е. соответствуют более широкой совместной модели. Связь между ними разбирается в последнем разделе главы. Нужно сказать, что классическое определение независимости как мультипликативности точных вероятностей на алгебрах событий есть в наших терминах всего лишь яековариированность алгебр, а это несколько слабее истинной независимости. 120
Глава 3, СЛУЧАЙНЫЕ ВЕЛИЧИНЫ, ПОСЛЕДОВАТЕЛЬНОСТИ, СУММЫ 3.1. СЛУЧАЙНЫЕ ВЕЛИЧИНЫ, ПОСЛЕДОВАТЕЛЬНОСТИ Определения. Случайной величиной (с. в.) называется случайное явление, пространством элементарных исходов которого является числовая прямая 91 или ее часть. Случайные величины обозначаются заглавными буквами X, Yr а соответствующие им совместные и частные модели — обычным образом:. JtXYy JCX, MY. Оператор Ж без индексов означает ззя- тие верхнего среднего от следующих за ним с. в. (или их преоб- разований) по совместной их модели. Арифметические действия между св., например X+Y, X/Y и т. д., означают соответствующие преобразования (сложение, деление и т. д.) на прямом произведении пространств их значений, т. е. 9tX9l-^9t, а отношения X<Y или Хщ[а, Ь] есть соответствующие события на этом произведении. Вероятности событий есть средние от индикаторных функций, например P(X<Y)r P(a^X^.b)9 или просто Р[а, Ь], Р(а, Ь) в зависимости от характера замкнутости отрезка. В принципе, определение св. не исключает бесконечных ее значений Jf=oo (или —оо). Случайная величина называется ограниченной, если можно указать Я такое, что Р(\Х\>Н)=0. Случайная величина называется дискретной, если на прямой можно выделить конечное или счетное множество 3?о={аи «2,...} чисел, образующих достовер- k ное событие: P(JfeS?o)= lim P(U#i) = 1. Оно и будет МНОЖеСТ- ^оо 1 вом значений с. в. X Случайная величина называется непрерывной в точке а, если вероятность любого отрезка, содержащего точку а, стремится к О при устремлении длины этого отрезка к 0, т. е. если независимо от порядка устремления ei и ег к 0 имеет место равенство lim P[a — ev а + г2] = 0. elf e2>|,0 Случайная величина непрерывна в бесконечно удаленных точках ±оо, если Р(Х= ±оо) =0. Случайная величина непрерывная & каждой точке, включая бесконечные ±оо, называется непрерывной. Задание св. X производится обычным образом первичными средними Mg(X)9 g^&, которые продолжаются далее на любые функции, мажорируемые линейными комбинациями первичных и составляющими область существования !Fx={f: Mf<oo}. Минимальное число определяющих X элементов 9 создаст размерность модели. 121
Границы MX, MX, если они существуют (т. е. ±х^&~х), называются верхним и нижним средними значениями самой с. в. X; MX2, MX2 — среднеквадрэтическими значениями, или нижней и 'верхней мощностью с. в. X. Разберем различные отношения между_с. в. Включение JCx=>JtY эквивалентно Mf(X)^Mf(Y), Vft=&~x, и fFxcz&'Y; включение означает, что первично среднестатистических данных в X заложено меньше, чем в У, или просто они менее точные. Для краткости иногда записываем X^Y и говорим, что с. в. X шире (в среднестатистическом смысле), чем У, или же X включает У. Самой широкой среди всех является голая св. (она же голый дараметр), о которой нет никаких данных. Это выход «черного ящика» полностью неизвестной структуры. Иногда выгодно так считать в целях упрощения, даже если кое-какие данные об X имеются. Включение нужно отличать от неравенства X^Y, означающего, что X всегда будет принимать значение, не меньшее У: P(X^zY) = \. Неравенство, в частности, будет иметь место для двух признаков X=fv(£), У=|Ы£) одной и той же g, если один из них мажорирует другой: fi^f2=>X^Y. Из X^Y следует Mf{Y)^Mf(X), но только для монотонно неубывающих функций f (в отличие от включения). Для полноты картины укажем еще на отношение X больше У в вероятностном смысле как тождественное неравенство: P(X>x)^P(Y>x), Yx^&, означающее, что вероятности превышений любых уровней х для св. X больше, чем для У. Это самое слабое отношение упорядоченности св. среди введенных нами, называемое в литературе так: X стохастически больше У. Еще понадобится далее понятие симметрии. Случайная величина X называется симметричной, если среднее любой нечетной функции есть точный ноль: Mf(X)=0 при /(—х) =—f(x), f^{Fx. В частности, если X симметрична, то MsinuX=0, Yu^&t, MX2h+1 = 0 для тех k, для которых x2k+i^&~x. Детерминированные преобразования. Резюмируем применительно к св. результаты § 2.1, где изучались детерминированные преобразования явлений. Пусть X задана своими средними Mf(X), f^{Fx. Преобразование Y=s(X) одной св. в другую (а при sg^1 св. У будет одним из признаков с. в. X) ведет к модели J(Y, средние которой, как это следует из записи: Л1ф(У) =My{s(X)), составляют часть средних модели Jtx. А именно, из всего многообразия 2ГХ выбираются только средние s-представимых признаков: \{х) — = Ф ($(*)). Их согласованность между собой очевидна и iFr= = {<р : ц>$^ЗГх) — область существования JLY. Если X задается набором *§ первичных признаков, то после ее преобразования в У этот набор, в общем, распадается на все €p{y)^&~Y — все они потенциально будут первичными для J[Y, что равносильно росту размерности JtY по сравнению с Жх. 122
Кроме одного случая, когда все признаки набора 9 s-представи- мы, т. е. g(x)=q>g(s(x))9 Yg^S, и тогда признаки i|)g(#), g^& будут первичными для J(Y, размерности Мх и JtY будут одинаковы, а X и У будут подобными между собой (s(x) —'преобразование подобия). В этом случае по средним s-представимых признаков Жх восстанавливаются остальные. Преобразование s будет ограниченным, если область s$& значений s(x) — ограниченное множество на 52. К ним относятся; гармонические преобразования su(x) =cos (шс) и sin (иле) (где и—> индекс признака) с областью значений s^?=i[—1, 1], индикаторные s(x)=A(x) со значениями 0 и 1 и т. д. Многие нужные преобразования не являются ограниченными. Наиболее распространенными из них считаются: тождественное преобразование х, для которого sSS=St\ квадратическое лс2, s^=i2+; логарифмическое 1плс, х^3£+, s<3?=$5; показательное expx, s^?=52+; гиперболическое l/x, s$P=&. В последнем случае в точке х=0 преобразование не определено, и если эта точка не является первичным событием для X, то ее полезно исключить из исходов этой св., что не приведет к видоизменению модели X, но зато позволит математически строго пользоваться этим преобразованием. Нормальная случайная величина. Нормальная с. в. занимает особое положение, обязанное предельным теоремам. Мы рассмотрим ее с наших общих концепций, дав различную интерпретацию, а связанные с ней предельные теоремы будут рассмотрены через параграф уже после введения донятий сходимости. Нормальной со средним т и дисперсией о2 называется с. в. Yr определенная продолжением ((посредством (интегрирования и (1.4)) нормальной плотности вероятностей (по отношению к мере-длине); р (х) = yJLq ехр [ - (х - т)2/(2о2)]. (3.1) Первичным для нормальной с. в. является следующий набор вероятностей отрезков: />(«, 6) _ф(»^_ф (£=«), а<Ь, (3.2) 1 2 где Ф(г) = —zrfexP(—x2/2)dx.— функция Лапласа (она табули- руется в учебниках и задачниках по теории вероятностей). Вероятности отрезков получаются интегрированием плотности в пределах от а до Ь, тогда как плотность получается из вероятностей как пределы их отношений к длинам отрезков при устремлении последних к 0. Соответствующая нормальной св. модель обозначается Л'т,о. о Если свести ее к нулевому среднему и единичной дисперсии У>= =.(У—т)/а, то получим стандартную нормальную с. в,, соответствующую Jfo,\. Достаточно ее и рассматривать, так как любая о другая к ней приводится согласно формуле Y=m+oY. 123
Область STjr существования точных средних для Jf^\ составляют все интегрируемые- с весом ехр(—у2/2) функции, для них Mf<Y) = -±r Ъ(У)ыр(-У2/2)с1у, где интеграл понимается в смысле Римана. В частности, для гармонических средних Mcoswy = exp(~w2/2), М sin uY = О, Vw, (3.3) а для моментов А1(У)2*+1=0, M(Y)2k==(2k)\/(k\2k), k =1,2,... (3.4) Теорема 3.1 хар актер из ации нормальной св. Эквивалентными являются следующие способы задания JCq,\\ 1°. плотностью. (3.1) при /п=0, а=1; 2°. первичными вероятностями (3.2) интервалов', 3°. гармоническими средними (3.3), принятыми за первичные и о дополненными первичными вероятностями Р(|У|>#), заданными достаточно произвольно, но в рамках следующего требования не- противоречивости: 1—2Ф(Я)^Р(|У|>Я) ->0; 4°. моментами (3.4), взятыми в качестве первичного набора. Действительно, первичным для ЛРол можно было бы считать любой плотный в множестве ЗГj\r интегрируемых с весом <ехр(—у2/2) функций класс, или его базис. Такими являются индикаторы интервалов в 2°, степенные функции в 4° и гармонические в 3°. Необходимость введения дополнительных первичных вероятностей в 3° вызвана тем, что гармонические функции образуют базис лишь при ограниченной области значений аргумента. Случайная величина, описываемая в виде следующего семейства нормальных моделей: называется нормальной с интервальными средним /n, m и диспер- о О хией а2, а2. Объединение эквивалентно записи Y=oY+m, где У — стандартная нормальная св., свободная от m и a, a m и а принимают произвольные значения в отведенных им интервалах, что ведет к средним Л1/ = тах_М/(оУ + т), V/Gf^. При беско«ечных значениях т=—оо, т=оо обозначаем ЛР^- и называем нормальной при неизвестном т и интервальном о. Для 124
нее, как это находится из последней формулы, имеем Р(а, &) = 2Ф(^У Р_(а, Ь) = 0. Теми же будут вероятности, если о не известна, тогда обозначаем Jf^ а если к тому же и <*_ не известна, т. е. а=0, то нормальная с. в. вырождается в голую. Случайные последовательности. Способы описания с. в. непосредственно переносятся на случайные векторы Х=(Х\, ..., Хп), составленные из последовательности с. в. Не столь по форме, сколь по содержанию описания ори этом усложняются. Нас будут интересовать здесь разные упрощения: такие способы, которые позволили бы по частным моделям Жх% св. Х{ составить совместную Жх. Для этого-то и нужны понятия независимости, свободы, нековариированности предыдущей главы. Последовательность Хи Х2, ..., Хп называется последовательностью независимых с. в., если она полностью определена первичными средними вида ЯПМ*|НПЛ*МХ,)= max hMwWt), (3.5) 1 1 AiC*)=Al или М 1 где справа стоит максимум по всевозможным сочетаниям произведений Mfi(Xi) и Mfi(Xi), причем все сомножители должны быть конечны (т. е. +/<еУ;[|), чтобы правая часть была конечной. Это есть закон интервальной мультипликативности средних, положенный в основу независимости и независимого произведения 'С. IB. Для последовательности независимых с. в. справедливы следующие соотношения: 1 1 2. Mhft(Xd=UMft(x*)> Mflft(Xi)=hMft(Xi)- ii ii з. Жп(Х,~мх,)п(Х,-мх,) = 1 Н-1 ( 0, если k нечетно, --.In ] JKMXi — MXi), если k четно. М П(Х|-А**|) П (Xt-MXt) = 1 М-1 /О, если k четно, ~ | _ jj (MXt — MXt), если k нечетно. 125
4. Независимость сохраняется при преобразованиях Yx=fi(Xi)r У2 ==1/2(^2), ..., Yn=fn(Xn). 5. Независимыми будут функции от любых непересекающихся поднаборов последовательности Yi=fi{Xu ..., Xk), ^2 =/2(^+1,... » ..Лп). ? 6 При 1Ф\ \ М (Xt - MXt) (Xj - MXj) = M(Xt - MX,) (Xj - ATX,) = = M(Xf-MX0(X/~MXj) = ^(Xf-MX0(X~MX;) = O. (3.6) Последовательность, удовлетворяющая свойству 6, называется нековариированной. Последовательность называется некоррелированной, если MXiXj = 0, 1Ф\% При нулевых средних MXi = 0 понятия некова- риированности и некоррелированности совпадают. Отметим, что* если Xi=\m + li и £* некоррелированы и имеют нулевые средние M£; = 0, то при неизвестном параметре т св. Х{ не будут неко- вариированными, а будут подчиненно (при каждом заданном т) нековариированными. Последовательность называется свободной, если она определена произведением частных ЖХ1МХ* ...Мхп, что соответствует следующему порядку вычислений средних: Mf(Xu ..., Хп) = = Mx>(Mx>(...(Mxnf(Xu ..., *»))...)). Для свободных последовательностей каждое последующее значение X* представляется как случайное преобразование предыдущих Хь Х2, ..., Хг-ь причем структура этого преобразования не известна, а известна лишь частная Jlxu Для свободных последовательностей остаются справедливыми свойства 1 и 2. Свойство свободы теряется при перестановках последовательности, в отличие от свойств независимости и нековариированнос- ти. Подчеркнем еще раз, что все указанные нами способы задания последовательности объединены тем, что требуют лишь знания частных ИМ элементов X* с указанием характера взаимодействия Х\. Еще одним способом будет, когда это взаимодействие не указано, а заданы лишь частные Жхх (см. пример 2.9). Тогда средние разделенных по переменным признаков Mg(Xi), g^Su первичные для отдельных св., образуют первичный набор совместной модели (отсюда следует соответствующий формуле продолжения способ вычисления совместных средних). На суммах разделенных признаков выполняется свойство 1 аддитивности. При одинаковых частных моделях независимость X* приводит к наиболее узкой среди остальных совместной модели, а последний случай полностью неизвестных связей между X* — к самой широкой. Однородность и стационарность последовательности. Последо^ вательность называется однородной, если ее совместная ИЛ^ не меняется при циклических сдвигах элементов, т. е. для однород-1 ной последовательности вектора Х= (Xi,..., Хп) и S&X= (Х&,..., Хп\ 126
X\f X2y «., Xn-i), отличающиеся циклической перестановкой эле- ментов, имеют одинаковые совместные ИМ: Жх =J?SkX. Тем бо* лее одинаковыми должны быть частные модели МХх= ... =Jtxn. Однородность эквивалентна равенству средних при сдвигах: Mf(X) = Mf(SkX)t \ff^f. Однородной будет независимая последовательность, элементы которой заданы одинаковыми частными ИМ. Или нековарииро- ванная, если только определяющие ее равенства (3.6) являются первичными средними совместной ИМ. Свободная последовательность даже при совпадении частных моделей не может быть однородной, так как свойство свободы не является равноправным к перестановкам. Однородность отражает внешнюю симметрию статистических данных к циклическим сдвигам, наделяя ею ИМ. Более тонким является понятие стационарности. Признак /(X) называется стационарным к циклическим сдвигам Sk последовательности X, если M[/(X)-/(SftX)] = 0, VS*. Последовательность X называется стационарной, если стационарны любые признаки feGT' * из области существования средних. Важно, что в определении стационарности М — точное среднее. Следствия стационарности последовательности. 1. Для всех частных признаков из области существования M\[f(Xi)—f(Xj)]=0, Yi7 j (очевидно, так как частные признаки принадлежат !FX). 2. Из стационарности следует однородность. В самом деле Mf(SkXy=Ml[f(SkX)—f(X)+f(X)]=M[f(SkX) — —f(X)]+Mf(X)=Mf(X). 3. Если бы среднее Mf(X) какого-то признака стало бы вдруг точно известным, то таким же оно оказалось бы при любых циклических сдвигах последовательности: MMnx)f(SkX)=Mf(X), где слева — среднее по сечению модели. Стационарность последовательности как род статистической ее устойчивости .(отсюда и точные М) вкладывается во внутреннюю симметрию ИМ и проявляется в .абсолютной взаимной подчиненности средних (следствие 3). Стационарность обязана на практике неизменности во времени условий генерации элементов Xi. При стационарности даже голые частные модели не делают совместную голой. Например, пусть последовательность независима, т. е. определяется равенствами (3.5), и стационарна. С классических позиций имеем независимую однаково распределенную выборку с неизвестными распределениями вероятностей элементов. Это отнюдь не голая модель, так как стационарность есть уже весьма существенные знания. Мы увидим в последней главе, как стационарность облегчает оценку средних частных признаков по длинному ряду наблюдений. Обобщения. 1. Если стационарными являются не все признаки, а только набора £?, то последовательность называется Q- стационарной. Стационарными будем называть и соответствую- 127
щие .признакам q^Q параметры Mq (это не средние модели, а направления их сечения). Так можно говорить о стационарности среднего MX (соответствует стационарному признаку X), средне- квадрэтического МХ\ набора вероятностей и т. д. 2. Обобщением будет определение стационарности не к сдвигам, а к какой-то другой труппе операторов S^, например группе всех перестановок. Оба обобщения относятся и к однородности. 3. Свойство стационарности модели эквивалентно в некотором смысле свойству главной диагонали: сечение ее по одной координате определит точно такие же значения всех других. Зависимые последовательности. Выше уже обсуждалась возможность задания последовательности частными моделями ее элементов. На том же принципе базируется задание последовательности упрощенными совместными моделями (например, только соседних элементов), 'Отражающими .их связь между собой. Так, задавая корреляции соседних элементов MXiXi+\ = b, MXiXi+\ = 6f i=l, 2, ..., получаем, если больше ничего не известно, модель однородной последовательности, для которой корреляции и будут ее первичными значениями. А ©общем, заданными могут быть средние Mf(Xi9 AVh, «•• Xi+k) функций не одного и двух, а любого числа элементов, характеризуя тем самым зависимость не только соседних элементов, но и через один, через два и т. д. элементов. Определенные упрощения дает здесь допущение об однородности, позволяющее средние для какого-либо одного фрагмента последовательности сразу переносить на любые их циклические сдвиги. Для задания зависимых последовательностей одна из упрощающих возможностей состоит в выражении ее через более простую, в частности, независимую последовательность g. Это будет функциональным представлением вида X=v(g), одной из форм которой является рекуррентное представление любого из двух видов: х*->ъ (5i. Ei-x Ei), Xt~wt (£„ xt_!,..., xx), где Vi и Wi — детерминированные преобразования. Второе представление является частью первого, что будет ясно, если последовательно выразить из Jfi = i>i'(£i) значение £i = yi-1(Xi), подставить его в X2=v2{l29 h)> из которого снова выразить £2 через Х2 и Х\ и т. д. Рекуррентное представление: Х,-»,^,,*,-!,..., Х,_»), 1=1,2,..., где %i независимы, называется k-связным марковским. Односвяз- ное марковское представление Xi = Wi(£i, Xi-\) есть способ отражения инерционности значений (последовательности и может порождаться как самой физической природой, так и диктоваться удобством, экономностью, подчас привычностью. При интервальных моделях li марковское представление (впрочем как и другие) делается универсальным: оно достижимо расширением ИМ 128
%i как средством добиться адекватности выбранногот нами описания ЛГмарк реальному Jf, понимая под адекватностью включение! «лЯмарк—Э*ЛГ. 3.2. СХОДИМОСТИ Неравенства для случайных величин. Пусть X и У — две случайные величины. Неважно, как они связываются между собой; например, это могут быть два признака X=fi(Q, Y=f2{l) некоторой одной св. |, или же совершенно разные св. последовательности. Справедливы следующие аналоги классических неравенств: 1) Гельдера. При(Г>1 и l/r+l/s=l: MXY ^(М\Х\Г)1,Г (M\Y\SY/S9 MXY^(M\X\r)l/r (M\Y\ )1/s. 2) Минковского. Приг^1: (M\X + Y\r)l/r ^(M\X\y/r + (M\Y\r)l/rf а при 0<г<1 M\X+Y\r < M\X\r + ~M\Y\r9 M\X + Y\r < M\X\r+ M\Y\r. 3) Шварца — Буняковского: (Л4|Х + У|2)1/2 < (MX2)l/2+(MY*)1'2. 4) Маркова. При г>0, а>0: Р (\Х\> а) < М\X\r/ar, P (\Х\> а) < М\Х\'/аГ. 5) Чебышева: Р (|Х|> а) ^МХ2/а\ Р (|Х|> а)< ЛЛХ2/а2. 6) Иенсена. Если ф(л;) выпукла и имеет производную, то МЦ (X) > г|) (¥Х), Л« tp (X) > i|) (MX). 7) Элементарные неравенства ¥|Х + УГ<сгМ|ХГ + сгМ|Г|', М\Х + У\г^сгЩХ\г + сгЖ\У\г, где сг=1 при г^1 и cr=2r"i при г^1. При точных средних эти неравенства переходят в классические Доказательство неравенств. 1. Первая формула следует из элементарного неравенства ab^\a\r/r+\to]*/s, если заменить в нем сначала а на Х/(М]Х\Г)^Г9 а Ъ — на У/=У/(Л!|У,|в)1/в и взять верхнее среднее от обеих частей, используя свойство пол у аддитивности. Вторая формула получается в отличие от первой заменой а на X'=XJ(М\Х\Т)1*Г, после чего используется 5—'13 129
неравенство: Af(|-У'|r +1У|•)^А11-У' 1гЧ-М|У|•- Случаи Я|Х|'«0, Л!|У|«=0 исключаются, так как при этом неравенства становятся тривиальными. 2. Первое из неравенств Минковского доказывается по классической схеме [20, с. 50] из неравенства Гельдера, а вторые два являются следствиями элементарного неравенства: |a+^|r^ |a|r+ \b\r, O^/^l, при а = Х, b^Y. 3. Есть частный случай первого неравенства Минковского при г=2. 4. Следует из того, что индикаторы полуотрезков (—оо, —а], [а, оо) суть два единичных уступа, простирающиеся от точек —а и а в противоположные стороны, меньшие функции |*|г/аг. 5. Есть частный случай неравенства Маркова при г=2. 6. Доказательство стандартно [20]. 7. Следует из неравенства \a+b\r^.cr\a\r + cr\b\r. Сходимость моделей. Здесь рассматривается сходимость частных ИМ Jtxn последовательности Хп щи_п-+оо к частной ИМ Мх св. X, в смысле сходимости средних Mf(Xn) к Mf(X). Обозначим: Эгхп и STX — области существования для Мхп и JCX. Последовательность с. в. Хп называется: а) ИМ-сходящейся к X в направлении классу Ж признаков, что обозначается МЖ(Хп)-^МЖ(Х)9 если \imMh(Xn) =Mh(X), л->оо VAe50; б) ИМ-сходящейся к X: \\тМхг*=Лх, если <Fxn=&~x и ИМ- сходимость имеет место в направлении всех признаков из 8ГХ\ в) ИМ-сходящейся в X: WmJ(xnczJ(xf если limMf(Xn)^ ?| ^Щ{Х), Yfez$~x. Если пределы средних не «существуют, то в определениях они || заменяются на lim=limsup. Теорема 3.2. Для ИМ-сходимости Хп в X достаточно ИМ- сходимости в направлении набора (3Х первичных признаков св. А: Щ (Хп) -> Mg (X), Vg e Gx =>- lim Лхп с Мх. Доказательство. Пусть /е«#~х. Согласно следствию теоремы 1.1 каждому заданному е>0 можно указать такую конечную линейную комбинацию g^c+'Zc+igu что gB(x)^f(x) nMgB—Mf^*l29rAeMge=c+,2c+iMgu g«e£x. В силу сходимости первичных значений будут сходиться Mge(Xn)-^Mge(X), откуда можно указать такое ле, что \&g6(Xn) —fflge(X)\^&/2 при /г>/ге. В результате объединения двух неравенств и ge&*f имеем Mf(Xn)^Mge(Xn)^ <\Mge(Xn)--ttgB(X)\+ttge(X)^Mf+s при /г>/ге. Отсюда WmMf(XnX ^Mf+e. Произвольность в доказывает требуемое неравенство определения в). При №&~х результат тривиален, что и требовалось доказать. Следствие. Если Мхп'^>Лхдля всех п, то для ИМ-сходимости Хп к X ( т. е. \\mJCxn=J£x) достаточно ИМ-сходимости в направлении набора %х первичных признаков с. е. X. Случайная величина X называется дескриптивной, если существует последовательность X(k), k=l, 2, ..., случайных величин, описываемых конечным числом k первичных значений, при k-^oo ИМ-сходящаяся к X. Дескриптивность эквивалентна существовало
«ию последовательности S?x(h) = {gu .., gh) наборов, таких что lim<Al^x(k)>=jr*, где (М$х{к)У есть ^-^-расширение Мх (полу- чаемое, если первичными оставить Mgi=Mgi(X)9 gi^&(k))- Дескриптивность — это возможность аппроксимировать модель с. в. X сколь угодно точно конечным числом данных о ней в виде набора средних ее признаков или первичных средних, это гарантия того, что при увеличении k для любого признака / (из области существования &~х) среднее аппроксимирующей модели конечного порядка k будет сходиться к аппроксимируемому: limMf(X{k))=Mf(X), YfezP-*. В частности, дескриптивной будет св., определенная точными первичными вероятностями отрезков Р(х, лг+Ллс), если плотность р(х) существует и ограничена. Для такой св. $&) образуют деления ограниченного отрезка .[—Я, Я] на k частей с устремлением длины каждого деления к 0, а Я— к со. Последовательность Хп называется дескриптивной, если существуют конечные наборы &&), такие что равномерно по п: lim <Ш**> = <МЗгХ»>. Теорема 3.3. Если последовательность Х\, Хъ... и св. X дескриптивны, то для ИМ-сходимости Хп к X достаточно ИМ- « сходимости в направлении объединения наборов первичных средних св. Хп, п=1, 2, ..., и X. Доказательство. В силу дескриптнвности, каждой fe^"x и заданному е>0 можно указать такое ke и такую gE,k^&+&(k), что ge,k(x)^f(x) и Мёг, k(X)—Mf(X)^e, Mge, k(Xn)—Mf(Xn)<* при Vk>kz. Отсюда \Щ(Хп)— -Mf(X)\^\Mf(Xn)-Mge,k(Xn)\ + \Mge,h(Xn)- MgB,k(X)\ + \Mge,k(X) - —Mf(X) J<2e+ \MgB, h(Xn)—MgE, u(X)\. Поднаборы &ik) всегда можно считать подмножествами объединения $ = \}$хп первичных наборов. Сходимость п средних на ^(Л) будет вызывать сходимость на ^+^(л>, поэтому последнее слагаемое правой части неравенства стремится при /г-^оо к 0. Произвольность 8 доказывает сходимость lim Mf (Xn) = Mf (X), что и требовалось. Условия теоремы 3.3 будут выполнены, если выполняется любое из следующих условий: а) Хп заданы ограниченными плотностями рп(х), ненулевыми лишь на конечном отрезке и сходящимися к плотности р(х) св. X; б) Хп определены интервальными плотностями Рп(х), рп(х) (определяющими вероятности отрезков Р(х, у), Р(х, у), х^.у)9 сходящимися соответственно к р(х), р(х)\ в) Хп определены функциями распределения J^n(z) = = P_(Xn<z), Fn(z)=P{Xn<z), сходящимися к F^(z)=_P(X<z)9 F(z)=P(X<z). Сходимость случайных величин и сходимость их моделей. Будем говорить, что Хп сходится к X в среднеквадратическом (скв- 2 сходится) и писать Хп-+Х9 если \imR{Xn—Х)2=0. Смысл скв-схо- 5* Ш
димости в том, что при увеличении п значения элементов последовательности Хп все ближе повторяют значения св. Х9 в пределе равняясь им. Скв-сходимость: 1) определена относительно совместных ИМ J[xnx, 2) требует, чтобы признаки (хп—х)* принадлежали областям существования средних совместных ИМ (в этом недостаток скв-сходимости), откуда следует х2п^1Ухп9 х2^ ^&~х\ 3) вынуждает определенную сходимость частных ЛГАп к Жх (ИМ-сходимость). Заострим внимание на последнем факте. Обозначим Э6т — класс непрерывных в точке т функций, таких, для которых sup f(x)/x2<oo, (3.7) т. е. имеющих скорость роста при увеличении |л;| не быстрее х2. Пусть Ж={\Жт—(класс непрерывных на всей 91 функций со свой- ствами (3.7). Теорема 3.4. Из скв-сходимости Хп к X следует ИМ-сходимость на классе Ж признаков: Xn^X^Mf(Xn)-»Mf(X),4fe±M. Смысл теоремы совершенно прозрачен и без формального доказательства (достаточно громоздкого). Если значения Хп приближаются к X, то сто непрерывности и f{Xn) будут приближаться к f{X), что вынуждает сходимость средних. Если X принимает значения лишь в ограниченной области й, то достаточно непрерывности f лишь в Qt поэтому сходимость средних сохраняется на расширенном классе Ж&= П Жт. В исключительном случае, когда Q = m — число, имеем следующее утверждение. Теорема 3.5. Сходимость в среднеквадратическом к постоян- 2 ному числу Хп-^гп эквивалентна ИМ-сходимости Хп к Х=т в направлении класса Жт. Таким образом, скв-сходимость к постоянному числу является более слабой формой по сравнению с ИМ-сходимостью (на всей ЗГХ)> так как гарантирует сходимость средних лишь на подклассе Жт<^ЗГх. Интересно отметить, что скв-сходимость к постоянному числу эквивалентна сходимости средних всего на трех (входящих в Жт) признаках и равносильна ИМ-сходимости на <#£w: Хп -t т & { ЖХ1 -> т2, МХп -* т, МХп -*т}& (Mf (Xn) -»Mf (m), Vf e Жт). Сходимость среднего арифметического, закон больших чисел. В теории вероятностей и развиваемой нами интервальной теории моделей случайных явлений этот закон носит ключевой характер. 132
По своему внутреннему содержанию среднее согласно объяснению § 1.1 есть физическая величина, достижимая как предел среднеарифметического результатов наблюдений за признаком f в серии независимых одинаковых повторений. Для устойчивых явлений пределом будет число Mf, причем сколько бы раз мы ни возвращались к новой серии испытаний — одно и то же. А для неустойчивых — это будут в каждой серии разные числа, но располагающиеся на некотором одном и том же отрезке [Щ, Mf], тем более широком, чем глубже «поражены» нестабильностью внутренние законы генерации явления. Теперь задача состоит в проверке, подтверждает ли сама построенная нами теория тот изначальный смысл, который вкладывался в ее конструкцию? Это и будет основным критерием состоятельности теории (если относить к следующим критериям доступность теории, интерпретируемость параметров и простоту применений). Все данные для указанной проверки уже имеются: определена независимость и, как форма ее проявления, — неко- вариирова'нность, введены понятия сходимости. Приступим к исследованию среднего арифметического. Пусть Xi9 i=l, 2, ..., — последовательность св. Ее элементы можно понимать как результаты наблюдений за самой св. или же за некоторым признаком X=f(l) случайного явления g. Ъу- дем сначала считать, что средние MXi=wii точно известны и М(Х{—mi) (Xj—irij)=0 при гФ\ — это есть следствие независимости (см. замечание к (2.10)), названное нами нековариирован- ностью с. в. Она эквивалентна (при точных средних) некоррелиро- о ванности центрированных св. Xi=Xi—МХ{, отражаемой равен- о о о о о ствами: MXjXj=MXjXj=0, 1Ф\. Для таких Х\ верны неравенства: 1(2х,)Ч2Ми(2^>Еж], (3'8) Доказываются они элементарно следующим образом: Ж (2Xf)2 = Af2 2 Xt Xj^2 2MXtXj= 2M(Xf)2. Теорема 3.6. Устойчивый вариант закона больших чисел. Пусть Х^ t'=l, 2,..., — последовательность некова- риированных се. с точными средними Ш{=МХь такими, что су- 1 п ществует и конечен предел m^lim — 2 Щ* и ограниченными дисперсиями М(Х{—т^2=^а2^^. Тогда при п-+оо среднее ариф- 1 л 2 метическое'Бп**— 2 Хг этих св.: (I) будет скв-сходиться Sn-*nt к постоянному числу т; (II) ИМ-сходиться к числу m в направлении класса Звт непрерывных в точке m признаков, имеющих скорость роста не быстрее х2 (условие (37)). 133
о Доказательство. Обозначим Xi = Xi—mi — центрированные с.в. Для них M(Xi)2^o2t MXiXj=0, i¥=j, откуда М J I П \2 __ / 1 П о \2 <-7" 2 2^^xi=-4- 2м(**)2<— л2 { j. л2 п 2 и Sn-*m. Из последнего согласно теореме 3.5 следует сходимость в направлении Эёт, что доказывает вторую часть. Замечания. 1. В условиях теоремы 3.6 ограниченность дисперсий может быть заменена ограниченностью MX2i^bf t=l, 2, .., (так как М(Х{—тг)2^мХ2{). п 2. Если iWSn = S'miM при л-^-оо не сходится ни к какому числу, то на основании неравенства Mf (Sn) = Mf (Sn-MSn + MSn) <sup Mf (Sn + MSn) MSn о с учетом вытекающей из теоремы 3.6 сходимости 5п->0 доказывается неравенство limM/(Sn)< sup_f(m), (3.9) где m = \\mMSn, m=limMSn, справедливое для всех /, непрерывных на концах отрезка [—\т^ in]. Самый наглядный и самый распространенный вариант закона больших чисел получается, когда все гп{ = т, i=l, 2, ..., т. е. одинаковы. Тогда, очевидно, MSn = m и среднее арифметическое $п будет указанным в теореме 3.6 образом сходиться к этому /п„ Поэтому даже если т было первоначально неизвестно, в пределе, взяв среднее арифметическое наблюдений Xiy получим его точное значение. Это и есть классический закон больших чисел, а правильнее, многих чисел, неоднократно подтвержденный экспериментально, в частности, сериями подбрасывания монеты. Пусть теперь среднее т = МХ\ есть стационарный неизвестный параметр, описываемый частной ИМ Жш, т. е. т по i одно и та же, но не известно какое, а совместная ИМ равна ЛХт=ЛтХ ХЛхт. Относительно переходной Лхт при каждом т св. Xi считаются нековариированными и MmXi = m, t=l, 2, ... Тогда Sn будет скв-сходиться к с. в. т, определенной ИМ Лт. Согласна теореме 3.4 отсюда будет следовать сходимость Mf(Sn)^^Mmf(m)> 134
В частности, пусть Jtm — индикаторная на отрезке [т, т] ИМ, т. е. известно лишь, что m^m^im и Лх= V ЛГ*>л. "Тогда Sn будет скв-сходиться к с. в. т с индикаторной на [/п, т\ ИМ, откуда будет следовать ИМ-сходимость Mf(Sn)->- sup р{тп) в направлении класса Жт — признаков, определенного следующими двумя условиями: 1) для каждого признака .из этого класса выполняется (3.7), 2) каждый признак непрерывен на границах отрезка \[т, т] и в точке достижения им максимума. Здесь ИМ- сходимость является следствием сходимости значений. Закон больших чисел для неустойчивых последовательностей. Откажемся в предыдущих рассуждениях от предположения, что MXi являются либо точными, либо это неизвестный стационарный параметр. Будем считать, что при каждом i с. в. Х{ независимы и их среднее может быть любым внутри интервала [МХи MXi], и в этом смысле Х{ статистически неустойчивы. Тогда Sn не будет скв-сходиться ни к какой св. Можно говорить лишь об ИМ-схо- димости, т. е. сходимости М8п. Теорема_3.7. Пусть Хи 4=1, 2, ..., независимы и забаны МХи МХ{ и МХ2^Ь. Тогда при я->оо среднее арифметическое этих с. в. Sn ИМ-сходится в направлении Жт — признаков к индикаторной на [т, т] ИМ, где /7i = lim— J MXi9 m = lim~— J MXt. ~ n i ~ n i Доказательство. Нужно показать, что Mf(Sn)-+- max f(m). Пред- ставляя JCxi = V _ J^ > записываем МХ^МХ^МХ( * jex= V _ V _ •••(ur&1xjffcix...) = V JfJx, MX^MX^MXi МХ2^МХ2^МХ* MX где MX= (MXU ..., MXn) — вектор средних. Пусть признак ]^.9ё — и пусть Хтах есть точка его максимума внутри [т, т]. Тогда Mf(Sn)=supMMXf(Sn). MX 1 1 Взяв в качестве MX такую последовательность, что — ^МХ^Хтах, получим п 1 согласно теореме 3.6 Ммх f(Sn)-+f(Xmax)> откуда lim Mf (Sn) > f (xmax) = max_ f (™) • Осталось доказать противоположное неравенство. Для любого -e>0:M/(5n)<M/(Sn){m-8<5n<m + 8} + ^Mf(Sn){Sn<m-e} + Mf(Sn){Sn>m + e}. 135
Покажем, что при л->оо последние два слагаемые стремятся к 0. Имеем Mf (Sn) {Sn < т — 8} = sup 1ЙМХ f (Sn) {Sn < m — e). MX Так как для каждого Л!Х среднее арифметическое его компонент удовлетворяет неравенству m^limMSn^AfSn^limAfS n^/ft» то, применяя неравенство (3.9), получаем lim 1ЙМХ f (Sn) {Sn < т--е} < sup__/{m) {m<m — s} = 0, откуда Mf(Sn){Sn<rn_—*}-*0- Аналогично Mf{Sn){Sn>m+e}->0. В результате HmIf(Sn)<limiW/(Sn){m-8<5n<m + 6}< max_ /(m). n-+oo n-»0 ^_ e^m<m+e В силу произвольности e>0 и непрерывности f(x) в точках m и т имеем lim Mf(Sn)^ max_/(im), что и требовалось доказать. Замечание. Независимость в формулировке теоремы 3.7 может быть заменена на нековариированность Xi для каждого сечения JCmx совместной 1М0дели вектором средних MX. Смысл _теоремы 3.7 наиболее легко раскрывается, когда все MXi=\mt MXi = m9 t=l, 2, ..., одинаковы, в частности, когда выборка однородна, т. е. средние элементов могут «прыгать» неконтролируемым образом внутри одного и того же отрезка {(in, т]. Точно так же будет «прыгать» и среднее MSn. Причем сами по себе значения Sn могут отклоняться за отрезок [ту m\, но в пределе при п-^оо эти отклонения становятся все менее и менее возможными. С платформы эксперимента серия неограниченных повторений опыта ведет в пределе к некоторому числу m=limSn. Так вот, если в устойчивом случае согласно теореме 3.6 это должно «быть в любой серии одно и то же число, то в неустойчивом мы каждый раз будем получать новые числа, и теорема 3.7 утверждает, что они должны лежать в отрезке [т9 in]. Это и будет наиболее точный их диапазон при крайне неточных данных, когда о выборке известно лишь, что ее среднестатистическая мощность ограничена: MX2i^.b, и даны диапазоны средних MXif MXi. Дополнения. 1. Сходимость среднего арифметического в сечениях. Пусть Х{ независимы и имеют ограниченную среднюю мощность: MX2i^b, i=l, 2, ... Тогда при п-м» их среднее арифметическое Sn=2^*/>* для каждого заданного m=MSn (т. е. в каждом своем m=MSn-ce4enuu) скв- сходится к т. Утверждение следует непосредственно из закона больших чисел 3.6, примененного к m-сечениям. Утверждается, что если бы средние <т\ элементов стали точно известны, то к их предельному среднему арифметическому т=* — lim-—'^rrii скв-сходилось бы 5П. П-+оо П 1 136
2. Разновидности сходя мосте й. Последовательность Хп> при п-»-оо, называется сходящейся (по своим значениям) к с. в. X: г а) в среднем (Хп-*~Х), если Л1|Х—Хп|г->0, где г>0; в б) по вероятности (Хп-*-Х), если Р(\Х—Хп\ >$>)->$, V«>0; пв п в) почти всюду (Хп-+Х), если Р((]{\Х—Хп\>*})-+0, Ve>0. 1 Верны утверждения, близкие по своей сути и по способу доказательства к классическим [1]: 1) Хп-^Х^Хп^Х^Хп^Х. 2) Хп-^Х^Хп-^Х, У/r'^r. в г 3) Хп равномерно ограничены (ЭЛ: P(Xn>h)=0, Vn) и Хп-+Х=>Хпг+Х. 4) Бели Хп сходится (г, в., пв) к X и Хп равномерно ограничены, то МХп-+МХ, МХп-+МХ. 5) При условии конечности моментов M\Xn\r<h, M\X\r<h верно: Хп-^Х =* Хп -^Х, \fr'<r=> Хп ~^Х ^ МХП—»Ш, МХп-+МХ. 6) Если f(x) абсолютно непрерывна, то сходимость Хп-+Х в., г или, пв. влечет точно такую же сходимость f(Xn)->f(X), причем если f(x) ограничена, то Mf(Xn)-+Mf(X), Mf(Xn)-+Mf(X). 7) Пусть моменты Л1|Х|Г и Л!|ХП|Г, V/i, конечны. Тогда из сходимости в среднем будет следовать сходимость моментов: Хп^Х^М\Хп\* -~Ш\Х\Г , М\Хп\г—+М\Х\Г . 3.3. ДОПРЕДЕЛЬНАЯ И ПРЕДЕЛЬНАЯ ПРОБЛЕМЫ Аппроксимация модели суммы независимых с. в. Рассмотрим сумму 2^г (для краткости пределы суммирования, где они не обязательны, будем опускать). Слагаемые считаются независимыми и по праву независимого произведения совместная ИМ вектора Х= (Хи •••> %п) полностью определяется частными: Мх=* =•*#*• X ... ХЛГхп. Первичными для совместной модели J(x будут всевозможные произведения частных признаков Ugi(Xi) с перенесением на «их средних по закону интервальной мультипликативности (3.5). Расчет модели суммы производится по формуле продолжения Ж/(2*|)-М{2ШЙ^№Т2 П ft,(*i)>f (2*,)}. / i I i где нижняя грань ищется выбором gij(xt) из области существования &~ixi частных моделей. Вычисления по этой формуле весьма громоздки. Исключение составляют те признаки /, которые при подстановке в них на место аргумента суммы 2** сами разлагаются на суммы произведений 2ngij(xi)> тогда среднее на произведениях находится по 137
свойству мультипликативности, а для средних сумм приближенные значения получаются по свойству полуаддитивности. Рассмотрим примеры конкретных /, их разложений и средних от сумм. Линейный признак: / (х) - *; / ( 2 xt) = 2 *,; Ж 2 Xt - 2 ~М Х%. Здесь считается xGJtJi, Vt, а равенство в правой части (вместо полу аддитивности) имеет место на основании свойства аддитивности средних сумм независимых с. в. Квадратичный признак: /.(*)-*■; f (2*0- 2 4+22 xtxi; ЛТ(2 Х,)2<2МХ?+2 %МХгМХ;у &i где неравенство обязано свойству полуаддитивности и считается х, x2^.&~ixu Yi, (ниже это молча предполагается). Правая часть полученного .неравенства и является оценкой верхнего среднего квадрата суммы. Несколько более точную оценку можно получить, если взять МХ*=(МХ\, ..., МХп) -сечение модели; тогда для верхнего среднего в силу того, что в сечениях случайные величины Х{ оста* ются независимыми, верно равенство Мл*х(2Х,)2= 2Мл*хХ!+2 2MXtMX,. Теперь если взять максимум правой части по MXi^\[MXi, MX{]9 1=1, ..., п, то с учетом того, что МмхХ21^МХ2г и максимум достигается при МХи равном MXj или ЯХи получим окончательную оценку в виде правой части неравенства М(2 Х,)2< 2ЯХ? + max _ 2 M{i)Xt Л«</> X,. Л*(0=Л!илиЛ! Подобное выражение верно и для нижнего среднего, только в этом случае неравенство меняет знак, верхнее среднее заме- , няется на нижнее, а максимум па минимум. Такой же путь возможен для оценки нижних и верхних средних М(2^г)*У -Щ2^г)г степенных признаков порядка г>2, называемых начальными моментами, а также_для оценки средних их линейных комбинаций — полиномов: M(a\^Xi+ ... +flk'(2^i)fc)» так как они тоже разлагаются на суммы произведений Х{. Оценки в виде правых частей неравенств для средних значений степенных функций (отсюда и полиномов) образуют набор,, аппроксимирующий сверху модель суммы, т. е. позволяющий сформировать расширенную модель суммы, пользуясь лишь знаниями моментов слагаемых. Одно из достоинств именно такого расширения заключается в непосредственной физической интерпретируемости характеристик, на которых оно основывается: первый момент есть среднее с. в., второй —* средняя статистическая 138
мощность и т. д. А другое важное достоинство обязано тому, что согласно первой теореме Вейерштрасса [23, стр. 39] любую непрерывную (и кусочно-непрерывную) функцию на ограниченном отрезке можно сколь угодно точно в равномерной метрике аппроксимировать полиномами, что делает класс степенных признаков весьма распространенным. Степенные признаки xk9 &=1,2,..., образуют первый универсальный класс признаков. Некоторое стеснение при работе в этом классе вызывает необходимость полагать, что xki^&~ixi, Vt, где k — порядок старшего момента. А так как xk — неограниченная функция и она не обязана принадлежать области существования модели, то становится вынужденной формальная фраза: («Пусть существуют моменты &-го порядка случайных величин Х{». Голословность этой фразы оправдывается, возможно, тем, что для практики преобладающее большинство св. являются ограниченными и моменты существуют. В дополнение к степенным и полиномиальным признакам укажем еще на экспоненциальные признаки как возможное направление для аппроксимации моделей суммы: f9(ux) = exp(ux), Л[ехр(2 иХ,)«ПЛ! exp^X,), Ж ехр(2 иХ() = = П М ехр (и Xt)f где в последних формулах использовано свойство мультипликативности верхнего и нижнего средних на произведениях частных неотрицательных признаков независимых с. в. Незначительность в применениях экспоненциальных признаков обусловлена не столько их неограниченностью, хотя и это тоже ©лияет, сколько неудобством разложения произвольных функций в ряды по ним, взятым |В качестве базиса. Гармоническая аппроксимация. Второй универсальный класс признаков для расчета средних сумм образуется набором гармонических функций fs(ux) =sinux, fc{ux)=cosux, где и «— параметр, —оо<ы<оо — своего рода индекс гармоники. Гармоники ограничены и формируют плотный класс в том смысле, что (согласно второй теореме Вейерштрасса .[23, с. 41]) их линейными комбинациями могут быть сколь угодно приближены любые ограниченные непрерывные на конечном отрезке функции (аппроксимацию дает разложение Фурье). Гармонические функции при подстановке на место аргумента сумм разлагаются на суммы произведений, что позволяет произвести подсчет их средних, которым сейчас и займемся. _ Назовем |М|/==max{|M/|, |M/|} — абсолютным средним признака f. Обозначим vt (и) = М cos и Хи %i (и) = М sin и Хи xt (и)«М cos и Xi9 Xt (и) = М sin иХг 139
|vf|(w) = min_ |V, (u)\ и назовем гармоническими^средними св. Х{. Введем абсолютные гармонические средние: \ vt \ (и) = | М | cos uXiy Л* (и) = | М | sin wX*, V, (tf) ПРИ V, (U) > О, О при Vi (ы)<0<v"f (ы), — Vf (И) ПрИ Vj (И) <0, очевидно, являющиеся неотрицательными и | v» | (0) = | v* | (0) = 1, Лг(0)=0. По существу, [v<l(u) есть минимальное по М^М^М абсолютное среднее косинуса \МcosuXi\ св. Хи \vi\(u) — ее максимальное по модулю значение, а Л*(ы) = |А*| {и) — то же для синуса М sin иХ{. Теорема 3.8. Основные неравенства для гармонических средних сумм. Пусть Хи ..., Хп независимы. Тогда для всех и и ф: (I) \M\cos(u 2 Xf + q>] <^i» = - П Vw*(u) + A*i(u) . А для тех и, для которых minvi(w)>0, а также Фя(«0- S arctg(A,(tt)/v,(tt))<n/2f справедливы следующие три неравенства: (II) А« cos и 2 *;< П М«); 1 1 (III) M_ cos a 2 xt > П "К^« («) + Л* (") cos ф2 (и); 1 1 (IV) \М\ sin а 2 *;<Л2 (") sin Г 2 arctg (Л, («)/v, (и))] . Доказательство. Используем при каждом фиксированном и^М представление (М&х) = V...V(AIVliXi^fOx...X<AIVjif К^пп) = Л^.* ^ где (Ну. А. ^f*) есть v^Mcosm-Y*, A,i=Af sin ыХ^-сечения (M&f i) , a v= '=(vi, ..., vw), Я=(А,ь ..., ЯЛ). Обозначая (Re — действительную часть комплексного числа, a Im — мнимую, используя равенство со8(м2*г + ф)я « Л j(w*#+<p) —Relle г , где у — комплексная единица, с учетом того, что .правая его 1 часть есть сумма произведений cos*/** и sin их и а потому при точных v» и К* 14U
среднее MVt ^ будет точным и проносится за знак суммы и произведений, получаем М cos (и 2 Xt + ф J = max Re U(Vi (и) + /Я« (и)) eJ ф== V 1 / v.X ! = тахП/ vf(«) + Xj(ii) X cos 2 arctg(Kt (u)lvt (и)) + q> . (3.10) v.X ! [ 1 J Так как косинус меньше 1, то неравенства (I) теоремы отсюда становятся очевидными. Докажем остальные. Выделим какое-нибудь одно значение индекса i=k и преобразуем фрагмент правой части (3.10), зависящий от k (опустив для краткости аргумент и и положив ф=0) У vft + *lcos f Ф* + arct2 (Wv*)] = v* cos Фь + ** sin ФЛ» где фь обозначена сумма в аргументе косинуса (3.10) без £-го слагаемого. le- перь видно, что при |фл|^я/2 максимум достигается при Vi=Vi и А,*=0 (это будет еще яснее, если максимизировать не по каждому Ки а по всему вектору X), а минимум — при Vi=v_i и А4—|Я{|, что доказывает (II) и (III). Неравенство (IV) следует из соотношений IV v? + *■? sin (ф* + arctg h/Ш = I h cos Ф* + vt sin ф* | < < |A*| cos^-| +visin |фг|, что и требовалось. Теорема позволяет по гармоническим средним слагаемых получать оценки гармонических средних сумм, эти оценки даются правыми частями неравенств (I)—(IV). Перейдем к одному ее упрощенному случаю. Допредельная проблема, однородный случай. Рассмотрим однородную последовательность. Для нее по определению гармонические средние для каждой из с. в. Xi будут одни и те же при t=l, ..., п.: М_cos и Xt = v(u)> M cos и Xt = v (w), \M\ sin и Xt = A (и). Любая последовательность может быть сделана таковой, если расширить ее модель, доводя интервалы гармонических средних объединением до самого широкого: v(и) = minMcosиХ\\ v(и) = = max M cos uXu и то же самое для синуса, и оставляя их в ка- i честве первичных. Из теоремы 3.8 вытекает: Утверждение 3.9. Для сумм однородной последователь- ности независимых с. в. Хи ..., Хп при всех и и у верно неравен- ство (I) |7ЙГ| cos (и 2 Х( + ф) < (v2 (и) + А2 (а))»/2, 141
а при A(u)lv(u)^tg{nl2n) справедливы уточненные неравенства (II) М cos U % хЛ < v« (и); (HI) Mcos (и 2 ** ) > (v2 (") + Л2 (и))"/2 cos (narctg ^Л ; (IV) |Ж| sin (и 2 X, ) < (v2 (u) + A2 (u))*l* sin Uarctg^^ . Суть допредельной проблемы применительно к гармоническим признакам заключается в упрощении, унификации лравых частей введенных только что неравенств при достаточно большом числе п слагаемых. Наша цель — проследить, как по мере роста п и увеличения данных о слагаемых сужаются в направлении гармонических, а затем и степенных признаков модели сумм. Для практики, это ответ на вопрос, что общего и что конкретного можно сказать о модели суммы, скажем, пяти, десяти, ста независимых св., если имеются какие-то данные о слагаемых и вариант прямого расчета модели суммы исключается из-за излишней трудоемкости. Вернемся к правым частям неравенств утверждения 3.9. Во- первых, упрощения в них возможны для биномов, записываемых (для простоты аргументы у v(u) и Л(ы) далее опускаются): (va + Л2)"/2 = £1 —(1—v2 — Л2)]"/2, где v равняется соответственно верхнему либо нижнему значениям. При тех условиях, когда малы 1—v2 (напомним, что |v| ^1) и Л, т. е. в результате мало ^(v, Л) = 1—v2—Л2 (причем i^O), бином травой части аппроксимируется экспонентой [1-F(v, Л)1""-ехр { - FJ^> -в„ (^-°)} при |f (v,A)K «fc<*—'-fh('-^)-'+f(*) + f(r/+- (получается, если подставить y=Fn/29 взять логарифм и разложить в ряд Маклорена). Поправка Ьп(у) возрастает при увеличении у>0 (равна оо при у = п/2) и убывает лри росте /г. И во-вторых, при малых 1—v2 и Л2 упрощаются аргументы при косинусе и синусе в (III) — (IV). А именно, так как arctgjesg; ^х при х>0 и косинус на первой четверти периода убывает при увеличении аргумента, а синус — возрастает, то имеем: Утверждение 3.10. Для сумм однородной последовательности независимых с. в. Х\, ••> Хп при всех и и <р верно неравенство: (Г) № cos (« | Xi +Ф) <ехр { - Р-Щ±Л _бп {1ЬЛ^ , 142
а при и, таких, что nA(u)/v(u)^:nJ29 справедливы уточненные неравенства: (11°) ««*(„ | X,) <ехр {- Jl^L_e> (JL=21=L)j ; <Ш°) М cos (и 2 хЛ >ехр {- f <г,А)* - (IV0) |М| sin (и 2 X* ) <ехр ( - F ^Л)" - _e.(^^'))sin(,4). Здесь F(v, Л) = 1—v2—Л2. Неравенства имеют содержательный смысл, когда F настолько мало, что Fn/2 — небольшая величина. Чтобы проследить зависимость средних значений, даваемых правыми частями неравенств (1°) — (IV°), от п удобно нормировать сумму ^XilYп. В новой сумме при росте п диапазон случайного разброса каждого слагаемого Xin = Xi/ ]Лг стягивается к 0, отсюда к нулю устремляется А(П)(и) = \М\sinuXin, так как аргумент синуса и сам синус становятся «ничтожно .малыми, а к единице устремляется jv(n)(w) =M_cos uX\n (тем более,, V(n)(#)), так как косинус в пределах малых изменений аргумента будет близок к 1. Отсюда F(n) = 1—v2<n)—Л2(П> уменьшается, причем при определенных условиях пропорционально п, и тогда произведение F(n)n будет стабилизировано по я. Соответственно стабилизируются и правые части неравенств утверждения 3.10, дающие допредельные оценки гармонических средних для сумм (см. дополнение 1), Допредельная проблема была бы не полной, если не рассматривать степенные признаки и связанные с ними оценки и упрощения. Это можно сделать лишь для определенного типа слагаемых сумм. А именно, для симметричных Xi с ограниченными моментами (определение см. в начале § 3.1), а более широко, считая нулевыми все нечетные моменты вплоть до порядка 2k:MXi2r-i = 0, r=l, ..., k. Тогда моменты нечетных порядков суммы вплоть до 2k—1 будут нулевыми: M(XXi/yrn)2r~i = 0J так как при разложении (2JW t^n)2r~i на слагаемые в каждом из них будет обязательно присутствовать хотя бы одна св. Xi в нечетной степени, среднее которой — ноль. Для четных моментов сумм симметричных св. прямое разложение на слагаемые с 'последующим взятием среднего и испбль- 143
зованием свойств полуаддитивности и независимости ведет к неравенству М (% Xt/V7iy^±\nt2k + n(n- -1)+ 2 й2(й_яй2; СК/2! + я (я-1) (л- / -2)++?j>«-i-»w» (2(fe_/_y^1(2/)l3,+-+«(«- -1) -..(»-*+ »)+^-Цг]. (зло где vji2j=AlXi2''. Противоположное неравенство с заменой верхних моментов на нижние од верно для нижних средних Af (S^VV^)2*. В частности, при Л=1 в силу независимости Х2*, а как следствие, аддитивности средних от суммы, имеет место равенство: М ( 2 Х,//я V - с2, Л1 ( 2 Xf/|/n J" - оа, (3.12) где а2 = jT2 = AM?, о2-ц2 = МХ2 . Вместе с (3.12) правые части (3.11) и есть допредельные оценки моментов сумм симметричных св. Самым замечательным в (3.11) является то, что значимым при увеличении п становится лишь последнее слагаемое. Этот факт занимает ключевое положение в предельной проблеме, к предварительному освещению которой для однородных последовательностей и переходим, оставив на § 3.4 развитие допредельной /и предельной проблем на суммы общего вида. Введение в предельную проблему. Суть ее составляют те предельные при п-^оо упрощения, которые получаются с точными значениями или с приближенными в виде правых частей неравенств для средних значений ключевых признаков нормированных сумм. Предельные теоремы, во-первых, дают ответ на вопрос, для каких конкретно признаков и при каких условиях средние допускают нетривиальные приближения. И во-вторых, указывают на предельные при я-^оо значения приближений, формирующие расширенную предельную модель сумм. Наша конечная цель — проследить, как по мере накопления и уточнения данных о слагаемых (сужения их моделей) сужается предельная модель нормированной суммы и, в конечном счете, сходится к нормальной. Сходимость к нормальному закону прослеживается в двух универсальных направлениях: на классе степенных признаков и >на классе гармонических согласно теореме 3.1 характеризации нормальной св. Для степенных признаков сходимость означает сходимость моментов к нормальным значениям MY2k-i=0, MY2k=<j2k(2k)\/ 144
f(k\2k) (см. 3.4)), что в случае симметричных св. Xi вытекает непосредственно из (3.11) и .(3.12) и приводит к следующему: Утверждение 3.11. Пусть последовательность Xi независима, однородна, ограничена (существуют все моменты), симметрична (средние MXi и моменты нечетных порядков все равны 0) и пусть МХ\=хР, MX2i=v2. Тогда при &=1, 2, ..., справедливы такие соотношения для моментов нормированных сумм: / п r—\2k - 2°. lim М [2 XtlV* ) <°2k (2 &)!/(£! 2*); Л-+0О \ 1 / 3°. lim М ( 2 Xi/Vn Уk > a2k (2 ft) !/(* ! 2*). П-Юо — \ 1 / — В самом деле, в выражении (3.11) все слагаемые, кроме последнего, исчезают при увеличении /г, а последнее и дает правую часть неравенства 2°. Для нижнего среднего неравенство (3.11) заменяется на противоположное, откуда следует 3°. Правые части неравенств утверждения 3.11 в качестве первичных определяют предельную ИМ, сужающуюся по мере уточнения интервала^2, а2 дисперсий к нормальной модели. Следствие. Если в условиях утверждения 3.11 дисперсия является точной ^=ia2=a2, то имеет место ИМ-сходимость суммы к нормальной с. в. Замечание. Чем старше порядок k, тем, в общем-то, медленнее имеет место сходимость моментов к их нормальным значениям. Сказанное верно хотя бы потому, что при этом в правой части (3.11) будет большее число слагаемых помимо последнего, неисчезающего. В направлении гармонических признаков согласно теоремам 3.1, 3.8 и формуле (3.3) нормальной считается_сходимость к нулю синусоидальных средних сумм Мsm^u^XilVri) (для симметричных слагаемых они точно равны нулю) и к ехр(—о2и2[2) — коси- нусоидальных _ М cos (u^Xi/y^n) при контроле условия, что lim Pi^Xil Yn>H) ->0. Последнее условие всегда выполняется для независимой последовательности с нулевыми средними MXi = 0 и ограниченной дисперсии MX2i^.<j2 слагаемых, так как из аналога неравенства Чебышева (§ 3.2) с учетом равенства (3.12) получается: Р ( 2 Xt/Vn>Н) < о2/#2 -> 0. //-»оо При условиях следствия совершенно резонно полагать, что гармонические средние также должны сходиться к нормальным их 145
значениям. В самом деле, равенство нулю синусоидальных средних следует из «симметрии слагаемых. А сходимость к нормальным значениям косинусоидальных средних будет следствием предельных теорем для сумм общего вида, о которых будет говориться о последующих разделах. Таким образом, имеются два направления доказательства предельных законов нормальной сходимости: степенное и гармоническое. В предверии нормального закона, когда либо п конечно (допредельный случай), либо условия на слагаемые недостаточны для нормальной сходимости, оба направления не подменяют, а дополняют друг друга; каждое из них дает свои грани допредельной модели, каждое по-своему характеризует приближение к нормальной с. в. Нами сформулирован простейший вариант предельного закона, демонстрирующий основную 'идею, генеральную мысль. При этом требования к слагаемым предъявлялись очень жесткие: все имеют нулевые средние и нулевые нечетные моменты, а также точные одинаковые дисперсии, что само собой подразумевает стационарность этих параметров и необходимую для этого статистическую устойчивость выборки, а в конечном счете — абсолютное знание. Допустим хоть на миг, что последовательность «чуть-чуть» статистически неустойчива. Это вынуждает рассматривать вместо точных средних интервальные MXit MXi. Причем как бы ни были они близки к нулю, скажем, \МХи МХ{]=>[—е, +е], е>0, т. е. сколь бы малым мы не взяли е, все равно границы интервала средних нормированной суммы, равные М ( 2 Xtl\[K) = - VTe, M ( 2 Хг/УТГ) =+Упг, при п-^оо будут неограниченно «разбегаться» в разные стороны, делая бессмысленной, нормальную сходимость. Это есть демонстрация крайней критичности классических предельных результатов к вариациям условий. Мы избежим упомянутой критичности, если не будем исключать сходимости законов сумм к другим, более широким, чем нормальная, моделям. Это и будет предельная проблема в ее расширенном понимании. В следующем параграфе мы и начнем постепенное продвижение по ней шаг за шагом от самых слабых допущений на слагаемые, имея в виду неустойчивость и неоднородность последовательности, к более сильным, приходя в конечном счете к классическим условиям, при которых имеет место нормальная сходимость. Дополнение. Допредельная теорема для однородной последовательности. Пусть Хи ..., Хп, п^З, независимы, имеют нулевые cped- ние MXi=0 и конечную дисперсию MXzi = e2. Тогда их нормированная сумма sn = 2^t/Vn включается в св. Y (в смысле JLsn^n/f[Y), задаваемую первичными средними МУ=0, MY2=~o2 и 146
f (T2tt2 . fo2«2 \) McosuY = ex$ I — —— — 6n ^—2~J[ с* а2 w2 cos — 1 __ a2 w2/(2/i) при м таких, что в правой части равенства аргумент косинуса меньше л/2, а с*=0,3184. Доказательство. Во-первых, в силу нулевых средних слагаемых таким же будет Afsn=0, а вследствие (3.12) A5s2«=o2. Они дают средние стеленных признаков нормированной суммы в направлении линейной и квадратичной функций. Для гармонических «направлений» неравенства (3.13) и (3,14) следующего раздела ведут к таким двум неравенствам: F(v, Л) = 1—у*—Л2^ ^\—v^^a2u2lnt пМх^с^иЩ\^2и2/(2п)] — и их подстановка в (ИГ) утверждения 3.10 доказывает теорему. 3.4. ПРЕДЕЛЬНЫЕ МОДЕЛИ СУММ ОБЩЕГО ВИДА Центральные допредельные неравенства. Рассмотрим суммы общего вида S^in, понимая Хгл, t=l, ..., п, как последовательности серий независимых с. в. Видоизменим неравенства утверждения 3.10 применительно к сумме общего вида, как и ранее обозначая ^(v, Л) = 1—vz—Л2, Vin=M\cosuXiny | vtn | = | M | cos uXin, Am = | M | sin uXint переменную и для краткости опуская, где можно. Теорема 3.12. Допредельные неравенства для гармонических средних. Пусть Х{П, *"— 1, ..., п, — последовательность независимых с. е.. Тогда для всех ср и и верно неравенство I. (Af | cos (a J Xin + <pW exp {—T ? F(fi**l' Ain)}> V(p'w; а при min vin (u) > 0 и 4%. (u) =* yj —— ^ — верны неравенства II. Afcos(a 2 Xin\ <exp {- Д (l-vln)J ; III. Mcos (u J Xin\ >exp J—L J F(lin> Ain)[- ln(1^)]}cos^(,), где Fn = max F (vlnt Ain) ; W n IV. |ЛГ| sin (u 2 *m) < ;exp J —1- 2 / (vm. Aln)J sin Г 2 Ain/vin\ 147
Доказательство. Следует из неравенства (I) теоремы 3.9, если про»» п изведение П (^гп+Л2^)1/2, которое в нашем случае будет стоять в правой t=l части этого неравенства, заменить на ехр{~-2 ln[l-F(|7ml. Л*п)]| и воспользоваться неравенством ln(\+z)^z. Также вытекают II из (II) утверждения 3.9, а IV — из (IV); в последнем случае арктангенс заменяется на аргумент, так как arctg|*| ^i|*|, a sin if при |1р|^я/2 есть неубывающая функция аргумента. Наконец, III получается из (III) с помощью предыдущего неравенства для арктангенса и следующего нетрудно проверяемого неравенства: 1п(1—г)>г "* ~ при 0<z<e, Ve>0, 8 с учетом того, что косинус на первом полупериоде есть убывающая функция аргумента. Доказательство закончено. ' Первая ослабленная предельная теорема. Разные предположения относительно слагаемых Х\п приводят к оценкам в виде неравенств для их гармонических или степенных средних и к «срабатыванию» тех или иных допредельных неравенств предыдущего раздела, правые части которых при устремлении /г->оо и дадут предельный закон нормированных сумм. Теорема 3.13. Пусть Х{П, *=1, ..., п, независимы в каждой серии и выполняются три условия А°. Игл шах МХ%п = 0; Б°. lim j MXfn=o2; В0, lim 2 \M\Xin = m. Тогда при п-*оо их сумма 2^гп ИМ-сходится в с. в. g, определенную первичными средними: |M|g==m,Mg2 = т2+о\ М cos и g = ехр (- и2 о212) cos Ys (и), где Ч?х(и) = \и\т + с*и2а;29 с* = 0,3184, а переменная и пробегает значения, заключенные неравенством Ч?я(и)^п/2. Доказательство. Степенные средние |М\g и М%г получаются легко из соответствующих допредельных неравенств, доказанных выше. Обратимся к косинусоидальному направлению, отправляясь от основополагающей теоремы 3.12. Из неравенства cosy^*\—y2/2, согласно которому косинусоида ма- 148
жорирует располагающуюся под ней параболу, подстановкой у=иХщ и взя^ тием среднего получаем 1ы = M;cos (uXin) ^\-и* MX2in/2. (3.13> Из него следует: F(vin, Ain) = l— v2in—A2in<l—^2in<u2MX2in и t'n<, < и2 max MX2in. — — — i Из другого неравенства |sin#—y\^c*y2, где с*=0,3184 и равенство дос тигается при #=3,124 (показывается проверкой), подстановкой y=uXin и взя* тием среднего, находим Л|п<М \MlXin + cmiflMX2ln. (3.14> Используя оба полученных неравенства, выводим Ain \u\-\M\Xin + c*u*MX2in Vin ^ \-u*MX2in/2 Подстановка найденных неравенств в формулу III теоремы 3.12 с учетом t'n-^0x (на основании А°) и пренебрежение членами второго порядка малости дока^ зывает результат. Для однородных внутри серий св. условия теоремы будет вы-- полнены, если \M\Xin=m/n и MX2in = o2/n. Как видно, если Xin=* =Xi/Y п, то условия теоремы достижимы лишь пр(и МХ{=0 (иначе т='Оо). Следствие 1. Пусть MXi=0, MX2i^ie2. Тогда нормированная сумма ^XilYn при п-+оо ИМ-сходится в с. в^ £, определенную первичными средними: Af£=0, Л?£2=<т2, Alcosttt=* = ехр(—w2a/2)cos(0,3184w2a2) при и таких, что аргумент косинуса меньше я/2. Этот результат, кстати, может быть получен и из теоремы дополнения л(редыдущего 'параграфа. __ Если усилить формировку, взяв Xin^Xi/n, то при MX2i<oo будет а2=0и тогда получим: _ Следствие 2. Пусть \M\Xi=my MX2i<oo. Тогда среднее арифметическое 2Хг/п этих с. е. сходится в с. в. g, определенную первичными средними: Ml2 = m2, Mcosul = cos\u\m при \u\m^Z <я/2. _ ~ Отметим, что среднее |М||=/п, вроде бы обязанное «перекочевать» из теоремы 3.13 в ее следствие, на самом деле поглоща- ется средним Af£2=i/n2 благодаря неравенству \М\Х^У MX2 (следующему из неравенства Гельдера при У==1). Условия теоремы 3.13 так слабы, что позволили «сработать» лишь одному неравенству III допредельной теоремы 3.12. Пойдем дальше, вовлекая другие неравенства. Вторая ослабленная предельная теорема. Определим те условия, при которых срабатывает неравенство I теоремы 3.12. Это не- 149»
равенство инвариантно к сдвигам как суммы S^tn + c на постоянную с, так и отдельных слагаемых, поэтому следует ожидать, что в условиях не требуется ограниченности суммы средних ^\М\Х{П> яо возникают дополнительные требования. Теорема 3.14. Пусть_ Xin независимы и пусть выполняются условия: а°. lim max MX2in = 0; ГС-»0О f=l,...,n б°. lim S (МХ?„)3/2 = 0; л-»оо в°. lim 2 MXfn{\Xin\^8} = o\ V6>0. /2->oo Тогда |Ж| cos (и 2 Xin + <р) < ехр { - (о2 - а2) ы2//2}, V ы, ф, *dea2 = lim 2 \M\*Xin (обозначено \M\2X=t(\M\X)2). л-»оо Доказательство. Во-первых, из (3.13) видно, что неравенство ininvtn(w)>0 будет верно для тех и, при которых и2 maxMX2in^2t т. е. I - I fl2^,2/maxA5X2in, а так как знаменатель первой части по условию а° стремится i к 0 при л-*оо, то в пределе оно будет верно для всех ы, и «следовательно, для всех и верно равенство \чщ\ (и)=\т(и). Из неравенства cosy^l—(1—ъ21\2)у2{\у\ ^е}/2, справедливого при любом i8>0, подставляя у=иХ{Пу получаем l-^n(tt)>-^(l--^-JAI^{l^inl<^-}. (ЗЛ5) Теперь подстановка полученного неравенства для 1—Vin(u), а также неравенства (3.14) для Ain в правую часть I теоремы 3.12 и замена 6=«/h с использованием \M\Xi^Y MX2 Дает после небольших упрощений 2F(\vin\, A£n)>^^1_J^j2^x2rt{|X./i|<6}_ -clu*z(Mxiy. В силу условия в° второй и два последних члена правой части последнего неравенства стремятся к 0. В результате произвольности б имеем HmSFd^nl, Ain)>u*(&-a2) Л-Юо « утверждение теоремы теперь следует из I теоремы 3.12, что и требовалось. Следствие 1. При условиях теоремы 3.14 сумма ^Хщ ИМ- сходится в св. т], определенную первичными средними вида \Щ cos (ит) +<р) = ехр { -(<fi-a2) и2/2}, Vи, ср. 150
Следствие 2. _Пусть Хи t=l, 2, ..., независимы, пусть- \M\Xi^m и MX2i=o2<oo9 MX2i = cP. Тогда при /г->оо нормированная сумма ^XilYп ИМ-сходится в св. т], определенную вт следствии 1 при а=т. В самом деле, для Xin=Xi/yrnf как нетрудно убедиться, выполняются посылки а0 и б° теоремы 3.14, а посылка в° следует из определения среднего для квадратичных (неограниченных) признаков как предела: а2= lim MX2i{\Xi\^H} при H—bVn. — //-*» — Последнее следствие наиболее полно раскрывает смысл второй предельной теоремы 3.14. Во-первых, не требуется, в общем, условия ограниченности элементов последовательности или аналога, этого условия — непременного спутника классических предельных результатов. Кстати заметим, что среднеквадратическая ограниченность мощности MX2i=<j2 — не эквивалент ограниченности самих с. в., пример тому — нормальная с. в. И во-вторых, нетривиальные оценки гармонических характеристик сумм могут быть получены и в том случае, когда средние св. являются интервальными, что имеет место для статистически неустойчивых последовательностей, и интерпретируется как совершенно неконтролируемые и не связанные друг с другом скачки средних MXi внутри интервала —т, т. Нетривиальными результатами следствия будут лишь при: о>т (условие отрицательности показателя экспоненты в теореме 3.14), а именно, грубо говоря, когда случайный разброс слагаемых, т. е. их независимые колебания превышают неконтролируемые ((неустойчивые) флуктуации средних. Собственно, в этом и в отсутствии ограничений на суммарное верхнее среднее и дисперсию состоит основное отличие второй предельной теоремы от первой. Замечания. 1. Условия теоремы 3.14 не исключают неограниченности как абсолютного среднего |Л?|2ХгП суммы, так к ее «мощности» М(2^гп)2. 2. Условия а° и б° теоремы будут выполнены, если об Х{П известно только, что они независимы и ограничены числами еПг т. е. Р(|ХгП| <8П) = 1, причем еп-И) при п-*оо. 3. Если считать фиксированными УхтМ^Хы, ХхтМ^Хщг limM^Xin)2, limM(^Xin)2 и т. д., то ^Xin будет ИМ-сходиться в св. г\и определенную помимо гармонических первичных средних теоремы 3.14 еще и первичными значениями Мг\\, №ци Мц2\Т Мц2{ и т. д., соответственно равными указанным пределам. 4. При га = 0, MX2i^o2, Xin = Xi/Vn результат совпадет со следствием 1 теоремы 3.13. Исследуем св. ц, определенную следствием 1 теоремы 3.14. Если f(y) ='£lA(u)cos(uy+q)U) есть разложение функции f(y) & и ряд Фурье, то 151
|ЖI f (tiX 2 \A (u)| exp { - oa u*l2) U «(при дискретах и, плотно заполняющих числовую ось, сумма заменяется на интеграл). Правая часть последнего неравенства дает оценки средних для произвольных признаков св. tj. Третья ослабленная предельная теорема. Посылки первой л второй предельных теорем во многом не перекрываются: нельзя оказать, какие из них более сильные, а какие более слабые. Объединение их ведет к следующей теореме (используются прежние обозначения). Теорема 3.15. Пусть выполняются условия А0, Б° и В0 пер- soil предельной теоремы 3.13 и условие в° второй — 3.14. Тогда -сумма %Xin ИМ-сходится в с. в. Y, определенную первичными -средними на степенных признаках 1. \M\Y = m, 2. MY2 = m2 + a2; и на гармонических I. \М\ cos (uY + <р) = exp { - (о2-а2) и2/2}, Vu, <p; И. М cosw7 = exp(-o2w2/2); HI. M cos и Y = ехр (-о2 и212) cos Ys (и) ; IV. |Af | sin и Y = exp {-(o2- a2) u2/2} sin Ys(w); хде последние три соотношения даются при и, заключенном неравенством: Ч^(и) = \и\m + c*w2(T2^n/2. Доказательство. Требуется установить лишь II и IV, так как все остальные следуют из предыдущих двух предельных теорем 3.13 и 3.14 (при этом условие б° в 3.14 есть следствие А° и Б° теоремы 3.13, поэтому выполняются все посылки двух теорем). Доказательство соотношения II получается вставлением неравенства (3.15) в неравенство II теоремы 3.12 и учета условия в°. Доказательство же IV в первом множителе правой части есть повторение доказательства I, а во втором — той части III, которая относилась к аргументу под знаком косинуса, что и требовалось. Заметим, что не все фигурирующие в теореме 3.15 средние являются согласованными между собой, и их согласование — весьма трудоемкое занятие. Хотя этого в настоящий момент и не требуется. Центральная теорема нормальной сходимости. Ключевыми для определения сходимости сумм к нормальной модели являются теорема 3.1 характеризации нормальной св. и теорема 3.2 ИМ-сходимости. Следуя им, нужно доказать, что: 1) правые части соотношений II и III теоремы 3.15 сходятся к одной и той же функции ехр(—о2и2/2) (для этого должно быть ог2=а2=02); 2) правая часть IV должна равняться 0 ори всех и. Еще одно требова- 152
ние: Ф(Н/<у)^Р(]?1Х{П>Н)-+0 при Н-*~оо автоматически верно» на основании неравенства Чебышева и условия Б°. Теорема 3.16. Пусть Х%п независимы, имеют нулевые средние MXin=09 точные дисперсии MX2in=<J2in, причем 2о2гЛ=<т2<оо; пусть дисперсии убывают lim max а2гп = 0, и пусть выполняется П->00 i—\ П условие Линдеберга — Феллера (ЛФ) [1, с. 397] ЛФ:Нт 2МХ?„{|Х,П|>8} = 0, V6>0. rt->oo Тогда %Xin ИМ-сходится в нормальную с. в. Jfo,e. Доказательство. Проводится иа основании теоремы 3.15. Во-первых,, покажем, что W2(tt)sO. В самом деле, из двух неравенств, верных при любом <е от 0 до 1: е — sin e \у — siny\ <г/2 при \у] <8, \у — sinj/K^j/2, \fy, выводим 8 —— Sin 8 |t/-sin^|<t/2 {Ы<е} + сф у*{\у\ >е}. Раскрывая соответствующим образом модуль, подставляя у=иХщ и беря среднее, получаем с учетом MXin=Q: [о —^ Sin 8 —— f 8 *\ —-—мх21п[\х]п\<, —} + + стШ21п{\Х1п\>-^}У Теперь, принимая во внимание, что maxv2in-*-l (вытекает из (3.13) и условия i — убывания дисперсии), имеем для Ч*^(и) =2Л*»МП в пределе при /г->оо: ^ (и) <Ф [ е""8Г8 а2 + ^ Пш 2АЫ^ {\Х%п\ > -*-}]. Vе>0. При любом е>0 в силу условия ЛФ последняя сумма стремится к 0. А первое слагаемое правой части стремится к 0 при в->4), поэтому и вся правая часть будет равна 0. С учетом доказанного из неравенств II, III и IV теоремы 3.15 получаем нормальную сходимость гармонических средних, что и требовалось. Следствие. Пусть Хи *=1, ..., п,. независимы, имеют нуле- вые средние МХг=0 и точные дисперсии МХ2ч=<52, (понимаемые как пределы (1.4)) и пусть выполняется условие У1: У1. lim Н2Р(\ХА>Н)=0 равномерно no L Я->оо Тогда нормированная сумма %Х{/У п при п-+оо ИМ-сходится в 153
В самом деле, среднее неограниченного признака определяется как предел «среднего от усеченного варианта этого признака, откуда для X2 имеем: Далее, используя условие У1, получаем Mx2i{\Xi\ >н} =Щх]-х]{\Хг\ <я}]<мх?-мх?{|л:г|<я}< <о« —Af[(xf)(-H'H)-H«{№r>H}l< <d* — M(x\y-M*H) + H*T(lXtl >Я) я при устремлении Я к оо правая часть стремится к 0. А тогда выполняется условие ЛФ: 2 М(Xt/Vn )2{ \Xt\/У7Г>6}^max MX?{|Хг\ > б V""},^0 и нормальная сходимость имеет место согласно теореме 3.16. Смьюл условия У1 в том, что вероятность превышений при увеличении уровня Н должна уменьшаться быстрее значения 1/Я2, предписанного неравенством Чебышева, что, конечно же, выполняется, если Х{ ограничены одним числом. В следствии требуется обязательная стационарность параметров т=0 и а. К случаю, когда это требование не выполняется, сейчас и перейдем*. Интервальная нормальная сходимость. Основное препятствие в применениях теоремы нормальной сходимости состоит в требовании точного 'нулевого среднего слагаемых и точной дисперсии. Постараемся отказаться от этого требования, считая эти параметры неизвестными и меняющимися. Для этого пусть св. Х\п раскрываются через некоторые «стандартные» независимые с. в. \i с нулевыми средними и единичными дисперсиями Х|п = о,£,/!/£+m,/*, AfE,-0t Afgf»l, *-1,..., л. Здесь \i считаются свободными от параметров ти ои тогда и Х{П будут независимыми. Делением на Y п и л уже учтена потребная для нормальной сходимости скорость убывания среднего и дисперсии Xin ПрИ Л-^ОО. Использованное нами представление называется аддитивно- мультипликативным. Хотя, в общем, оно является весьма специфичным, но для предельных теорем оно как раз оказывается универсальным. Дело в том, что для нормальной сходимости'основным является выполнение условия ЛФ, базирующегося на следующем наборе признаков Х2ы{\ХгП\>д}, V6>0. А этот-то набор признаков в асимптотике с учетом малости тп\\п пересчитывается в такого же типа набор, но уже св. &:|2*{|&|>бУл/<т}. Поэтому, считая для \i первичными именно средние от этих признаков, дополненные Mli = Q, Afg2<=l, получаем расширение: Х\п^ sa<|</Vn + mi/n. Применим к правой части предельные результаты, и мы придем к теореме. 154
Теорема 3.17. Пусть Хы^о&/уn+nii/n, t=l, ..., n, где g* независимы с нулевыми средними Щ{=0 и единичными дисперсиями Ml2i=l и свободны от параметров nti и аь меняющихся в отрезках [mu mi\ и ,[ои сгг]. Пусть все £< удовлетворяют условию У1 следствия, и пусть d ограничены сверху: o2i^b <оо. Тогда S^in ИМ-сходится в нормальную модель Jfm — — с интервальными средним m, m и дисперсией а2, о2, равными средним арифметическим от тех же параметров слагаемых. Доказательство. Покажем, что при фиксированных векторах т = = (mi, ..., mn) и a2=(a2i, ..., a2n), компоненты которых лежат в своих интервалах, условие ЛФ выполняется. Используя элементарное неравенство (а+с)2^ <2а2+2с2, имеем JJ.Zlt.(^.b+^)'{|^f-b+-^|>.}« <Лят12^^11Ь1>^+21г)< <2 6 НшА1Й{1Ы>Я} = 0, где мы заменили H—b^lf nfb и пренебрегли членами, стремящимися к нулю. Индексы m и а у М соответствуют последовательно сначала т, а затем а-се- чению модели JC* вектора X=(Xi, X2, ..., Хп), поэтому согласно теореме о представлении имеемЖхс:\/ \/М* » и также для суммы Л^ = у \J J№ ma' та' где т=Е/Пг/п, a2 = 2a2i7/i. Установив выше условие ЛФ, мы доказали lim Л^ adJTm а , поэтому и Um JL z=.J\Tm ^ ст ^"» что и требовалось. п->оо ' ' n-*oo —* '—* В условиях теоремы ничего не надо было знать о связи элементов гпи ой t=l, 2, ..., между собой. Это могут быть стационарные параметры, тогда mi=\m, (Xi=tcF, Vi\ что соответствует одинаковым средним и дисперсиям для Х\п при t=l, ..., л, но не известным и принадлежащим своим интервалам. Это могут быть и полностью нестационарные параметры, когда /п* ,и а* несвязанно друг от друга и неконтролируемым образом «скачут» внутри своих интервалов. Случай, соответствующий неустойчивой вы- борке. Наиболее жестким является требование теоремы 3.17, чтобы средние пц/п слагаемых скоро стремились к 0 при росте п, причем в V п раз быстрее, чем сходится к 0 параметр разброса Oil Yn- Нетрудно убедиться, что это условие может быть ослаблено, и теорема останется верной, если абсолютные средние |Af|Jf{П слагаемых убывают не со -скоростью 1/п, а гораздо медленнее, а именно, |М |ХгП~ 1/яа, где a — любое число из 1/2<а^1. Тогда при а<1 средние арифметические m^^MXiJn, т=^МХгп1п, одна, другая или обе вместе могут вырождаться в- 15S
бесконечность. Это не должно смущать, так как, например, при т=—оо, т = оо предельной будет нормальная модель Jfa—, соответствующая полностью неизвестному среднему и рассмотренная в § 3.1, а она еще далеко не голая модель. Возможны также варианты т = т = оо, т = т =—оо и любые промежуточные случаи, когда одна из границ конечна. И все равно, несмотря на сказанное, так как неравенство «>1/2 должно быть строгим, для нормальной сходимости необходимым является требование малости средних: средние должны стремиться к 0 быстрее, чем средние квадратические отклонения. Иначе нормальной сходимости не будет и допустимы лишь слабые предельные результаты, на связь с которыми мы и укажем. В случае интервальной нормальной модели У имеем: Mf (Y) « sup sup 7 / (у) —^- ехр { - (у - m?l(2 a2)} dy т а _оо ~у2по для всех интегрируемых (по Риману) функций, где т и а пробегают свои интервальные значения. Обозначив m*=max{|/n|, |m|}, имеем \M\Y = m*f MY2 = m2m+o2, М_cos и Y = ехр (— о2 и2/2) cos (ит*) при |и\ <Г я/(2 т*). Эти значения нужно сравнить с первой предельной теоремой 3.13, где получены почти такие же первичные признаки предельной «.в. |. Почти, но не совсем, так как условия теоремы 3.13 слабее: в них нет требования ЛФ и, следовательно, не будет интервального нормального закона. И как видно, нижнее среднее для косинуса там .получается менее точным. Аналогичное замечание можно сделать по отношению к другим слабым предельным теоремам. Таким образом, основное усиление теоремы интервальной нормальной сходимости в отличие от слабых предельных теорем обязано именно условию ЛФ и требованию малости средних. Дополнения. 1. Предельная модель при ограниченности средних модулей слагаемых. Везде в предельных результатах требовалась ограниченность MX2in. А что, если эти значения не даны? Теоретически они вправе быть бесконечными, если х2фЗГхг. Насколько предельные модели сумм оу- дут зависеть от существования MX2in? А если вместо них заданы Af|Xin|, то ■что будет? На эти вопросы проливают свет следующие две теоремы. Теорема. Пусть Xtn независимы, и при я->оо: A) maxM\Xin\-*Q> I Б) JaM\Xin\-+a. Тогда при и^я/(2а) справедливы два неравенства: lim M cos (u%Xin) > ехр { — с0 \и\ a] cos (на); Л-*00 lim \~M\ sin (и 2 Хы) <sin (\u\a); - где Со=0,725. 156
Доказательство. Из неравенств 1—cos*^co|*| (где со=0,725 есть постоянная, которая находится, как решение относительно со и х0 системы уравнений: sin*0=co, со*6=1—-cos*o) и |sin*|^|*|, подставляя x=uAin и <>еря среднее, получаем 1-2п(«)<*МАГ|Х|п1. А|п(и)<|и| AilXml. Теперь на основании неравенств \и\ а \и\ **{U)< minlin(u) *MlXinl= l-\u\c0maxM\Xin\ ; 2^(> Ain)<22Q-4nm<too\u\2M\xin\; Fn = maxF(Vin, Л^п)<с0 \и\ maxAf \Xin\, подставляя которые в неравенство III допредельной теоремы 3.12, получаем при переходе к пределу /г-^оо первый результат теоремы. Второй результат получается из неравенства IV теоремы 3.12, если учесть в пределе SAin/Vin-^-SAin^ |u|2A7|Xin |-Нм|а и монотонность синуса при |и|а^я/2, что и требовалось. Следствие. Пусть Х{ независимы и M\Xi\=a. Тогда HXi/n при п-+оо ИМ-сходится в св. Z, определенную первичными средними: \M\Z=a, Afexp(«Z)=exp(—\и\а), Mcos«Z=exp(—c0\u\a)cosua, \M\ sinwZ=sin|w|a при |ы|<л/(2а). Этот результат должен рассматриваться вместе с теоремой 3.7 о сходимости среднего арифметического. Основная особенность в том, что при столь слабых условиях, как ограниченность средних абсолютных значений слагаемых, для получения сходящейся суммы нормировать Х{ нужно не множителем l/l/^t как в предельных теоремах, а множителем 1/п, и при этом сходимость будет не к постоянному числу, как в законе больших чисел, а ИМ-сходимость в св. Z. 2. Слабейший предельный результат. Пусть не только MX2int но и Al|Xin| не являются ограниченными. Оказывается, и в этом случае предельная модель все еще не будет тривиально голой. Теорема. Пусть Хи Х2, ..., есть последовательность независимых с. в. и пусть MXi=m, MXi=m. Тогда при п-*оо среднее арифметическое 'LXi/n ИМ- сходится в св. £ (т. е. limJtajfi), определенную первичными средними: М£ = т, Af£ = m, Л£ехр(ы £) = ехр(ыт), Л£ехр( — ы£) = ехр( — wn), Vм >°- Доказательство. Из неравенства ехрх^ 1 +х получаем М_ехр(иХ)^ ^\+МиХ. Далее на основании независимости Х\ имеем Л[ехр(и 2 Я«/я) = АЩехр(иХ«/л)> U.Mexp(uXi/n) ^ (\+МиХг/п)п. l t i Переходя к пределу п-+оо и используя классическую формулу Эйлера, получаем гехр(шп), «>0, {€ € л-*»"™" * ' Iехр (am), и<0, что.и требовалось. 157
3. На лрямое разложение моментов сумм опирается следующее утверждение* Пусть Xin независимы, симметричны, ограничены и пусть существуют г и tt такие, что г^пМХ2ш^Н, Yin. Тогда Hm M(%x7n)2k < Hm (lMX2in)k (2k)\f(k\2k). /1-х» л-»оо 3.5. ЗАКЛЮЧЕНИЕ Если в предыдущих двух главах рассматривались общие пространства исходов, то здесь и далее — числовые пространства. Результатами случайных явлений будут случайные величины (св.), последовательности, затем процессы. Исходы теперь уже будут связываться не только множественными отношениями, но и числовыми: их можно упорядочивать, складывать между собой, умножать на скаляр, преобразовывать по правилам действия с числами, векторами* функциями. Такие возможности реализуются как в новых способах задания с. в. и последовательностей (ом. § 3.1), так и новых формах представлений. Случайные величины (и последовательности) в общей конструкции задаются средними признаков, а признаками являются всевозможные преобразования на числовой прямой — функции одной (многих) переменных. В том числе те неограниченные, которые мажорируются первичными. Вот почему не всегда существует как среднее самой с. в., ибо .признаки в виде тождественного преобразования прямой не , являются ограниченными, так и моменты, в частности* среднеквадрэтическое значение (при точном среднем — дисперсия). Самым распространенным представителем с. в. является нормальная, в нашей конструкции задаваемая тремя эквивалентными способами, тремя разными наборами средних: 1) с помощью плотности, следовательно, вероятностями отрезков; 2) моментами; 3) гармоническими средними в виде характеристической функции. В направлении этих наборов и удобно судить о степени приближения к нормальной св. Нужда предельных результатов, составляющих наиболее весомую часть главы, потребовала определить понятия сходимости моделей (ИМ-сходимос- ти), состоящей в приближении средних одной модели к другой. Главная причина введения ИМ-сходимости состоит в ее нацеленности на предельные результаты для сумм независимых с. в. В частности, с ее помощью формулируется закон больших чисел применительно к статистически неустойчивым последовательностям (теорема 3.7). Все давно привыкли, что при сложении независимых с. в. вправе ожидать нормального предельного закона, полагая при этом выполненными известные условия Линдеберга — Феллера. А если эти условия не выполняются, что вполне естественно при их исходной жесткости, состоящей в точном знании средних слагаемых и их дисперсий, а также неограниченном росте их числа? Представьте на миг, что средние слагаемых не совсем точные, т. е. хоть да чуть- чуть, а интервальные, и тут же окажетесь в тупиковой ситуации, так как средним нормированных сумм станет разбегающийся по ширине интервал, и лредел просто теряется. Потеряется в рамках классического подхода, но не интервального, способного охватить любые промежуточные случаи, причем даже для конечных сумм, т. е. допредельного случая. 168
Вообще допредельные и предельные результаты важны потому, что операция суммирования самопроизвольно участвует в практике рождения многих св. Так, погрешность изготовления детали есть результат наложения друг на друга разных' факторов. Сложение лежит в корнях процедуры фильтрации и т. д. И полезно знать, что не только данные о признаках слагаемых (в частности, вероятностях, среднем с. в.) переносятся по соответствующим формулам на суммы, но и само суммирование полагает внутри себя уточнение средних по характерным направлениям, даваемое степенными и гармоническими признаками. Такие направления универсальны в силу сугубо арифметических свойств, проявляемых при подстановке на место аргумента сумм. Их средними будут границы моментов, гармонические средние, при точных распределениях вероятностей объединяемые в характеристическую функцию (для нас не нужную). В зависимости от числа слагаемых и данных о них для сумм получаются то более, то менее широкие интервальные модели, определяемые своими средними по универсальным направлениям как степенным, так и гармоническим. Интересно проследить, как характер данных о слагаемых влияет на ширину допредельной и предельной моделей. И как в крайнем случае точных данных, удовлетворяющих классическим условиям, предельной станет нормальная модель (см. теорему 3.17). Изложение результатов построено так, что сначала в § 3.3 рассматривается случай однородных слагаемых, позволяющий вникнуть в суть, а затем в § 3.4 переносится на неоднородные суммы общего вида, где закономерности более общие, но и более сложные. Новые допредельные и предельные утверждения позволяют в полном объеме в терминах ИМ выявить вытекающие из суммирования данные еще задолго до того, как суммы стали предельно нормальными, и даже если таковыми в пределе не смогут стать. Глава А. СЛУЧАЙНЫЕ ПРОЦЕССЫ 4.1. ОПИСАНИЯ СЛУЧАЙНЫХ ПРОЦЕССОВ Принцип описаний. Время — неумолимый движитель, без устали бежит-бежит. В этом безостановочном беге и возникают события, названные случайными на том основании, что факт их появления или непоявления не прогнозируется абсолютно точно. Но время дает нам еще одно проявление случайности: можно достоверно знать, что событие произойдет, но не знать момента возникновения, и событие становится случайным по времени, т. е. случайным процессом. Вообще любые случайные или неслучайные события, если учесть их положение во времени, образуют процесс. А удобна ли такая абсолютизация случайных процессов? Наша цель — построение математических моделей •— обязывает не усложнять, а упрощать. Введение времени как самостоятельного параметра оправдано при следующих обстоятельствах. Во-первых, если важным представляется момент появления со- 159
бытия, например в радиолокации, где запаздывание отраженного импульса несет сведения о расстоянии до цели. Во-вторых, при описании физических явлений, связность и естественность хода развития которых без времени проследить немыслимо, таких как рост агрокультуры, технологические процессы, сигналы динамической системы, шумы, помехи и так далее. Процессы в природе могут быть самыми разнообразными: дробовые и атмосферные шумы, транспортные и промышленные, импульсные и гармонические помехи, всевозможные потоки в системах массового обслуживания и др. Задачей исследователя ставится разработка как можно более экономных и простых описаний, достигаемых выявлением наиболее существенных, важных сторон, своего рода «анкетных данных» процессов с последующим облачением этих данных в «тогу» первичных средних. Собственно, в самой уже модели за счет выбора первичных признаков заключена потенциальная возможность к упрощениям, направленным редукциям, и чем экономнее модель, меньшим числом данных она задается, тем проще процесс в нашем представлении, т. е. в том виде, как нам удобно с ним иметь дело. Это принципиальное положение теории. И переход к дискретному времени тогда естествен как одна из разновидностей редукции. Реализации и признаки. Формально случайным процессом (или просто процессом) называется система случайных величин Xtt /еТ, индексированная числовым параметром t — текущим временем. Здесь Т — множество значений t, в частности, это отрезок [О, Т] числовой прямой, а в пределе — полупрямая 91+ или вся числовая ось 91, Если t — векторный параметр, например t=(/, z\f z2, 23) — время и три координаты пространства, то Xt называется полем, наше изложение распространяется и на него. Наконец, если Т — дискретный набор временных отсчетов: Т= ='{£ь —, tn}, то процесс вырождается в случайную последовательность, а при л=1 — в случайную величину. Переход к последовательности связывает процесс с исследованием предыдущей главы, хотя сейчас нас в основном будет интересовать непрерывное время t. Пространством элементарных событий, соответствующим процессу Хи ^Т, в общем, является множество всех возможных реализаций Хи t^T (функций времени). Множество SB реализаций, имеющее единичную вероятность Р(Я?) = 1, называется достоверным для данного процесса. Все реализации, не принадлежащие S6\ оказываются невозможными. Если Т есть интервал прямой (либо вся прямая), а достоверным является множество SB непрерывных реализаций, то процесс будет непрерывным. Если это множество дифференцируемых реализаций, то и процесс будет дифференцируемым, если ограниченных (т. е. |л;*|^:а), то — ограниченным и т. д. Таким образом, некоторое свойство всех реализаций будет достоверным свойством процесса, т. е. выполняющимся с вероятностью 1. 160
По нашему мнению, для реальных, физически, так сказать, осязаемых моделей каждая возможная реализация должна иметь ненулевую верхнюю вероятность P(Xt=Xt)>0, Xt^$8. Так и будет получаться, если первичных данных о процессе конечное число и они не абсолютно точны, т. е. в известном смысле размыты. Для нужд теории, несмотря на сказанное, нельзя исключать и тот крайний вариант, когда вероятности всех отдельных реализаций нулевые, понимая его как предельный или идеальный, соответствующий неограниченному набору данных. В этом варианте достоверное множество реализаций 26 может не быть определенным однозначно (эквивалентно неоднозначности нулевого множества). В самом деле, если 3d к, &=1, 2, ..., — разные варианты #?, то их конечные пересечения обязательно будут достоверными, но никак не счетные, так как пересечение всех Ввк не приводит к достоверному множеству, а значит, минимальное из них не существует (эквивалентно тому, что объединение счетного числа нулевых множеств не ведет к нулевому множеству). Любое множество реализаций, включающее хотя бы один какой-нибудь вариант #?, будет достоверным. Не всегда 36 нужно стремиться сделать как можно уже, но желательно, чтобы оно было как можно проще (даже за счет некоторого его расширения). \ Прежде чем подойти к описанию процессов, напомним общую конструкцию интервальных моделей. Она остается единообразной для любых случайных объектов, будь то случайные величины, последовательности, процессы, наконец, поля, и состоит из трех шагов: 1) анализируется структура признаков с взаимной их полуупорядоченностью; 2) выделяются первичные, на которых задаются первичные средние; 3) первичные средние, продолжаются на все остальные признаки, образуя модель. Сложность модели будет определяться числом первичных признаков и, конечно, их структурой, а «подводными камнями» будет размерность 'пространства SB и связанные с ней трудности контроля упорядочения признаков, о которых пойдет речь ниже. Обратимся к случайным процессам. Их признаками будут всевозможные функционалы f{Xt}, ставящие в соответствие каждой реализации xt одно число. Примерами таковых для процесса с непрерывным временем являются линейные признаки, к которым относятся, во-первых, интегралы h{Xt}=fXthtdt, Т где fit — весовая функция; во-вторых, «выхватывание» из процесса одного отсчета fx{Xt}=XX9 соответствующего моменту т (может быть получен из интеграла при ht в виде дельта-функции Дирака); в-третьих, взятие первой производной f{Xt}=dXt/dt (если реализации процесса дифференцируемы), второй производной и т. д. Квадратичные признаки X2t, XtX%, d2XtXx/dtdxt h{Xt) = JJ XtXTHttXdtdx. т т 6-13 161
Индикаторные признаки есть индикаторные функции событий {Xi^a}f {ai<Xt<a2}y состоящих в превышения или непревышении процессом уровней; сюда же относятся произведения индикаторных функций: {Xt^za, V/eTi}, указывающие на одновременное превышение уровня а всеми значениями* процесса из подмножества Ti временной оси. Гибридные признаки вовлекают разные классы предыдущих, как, например, линейно-индикаторный {j Xthtdt>a}9 т состоящий в фиксации превышения линейным признаком уровня а с формулировкой результата в виде.О (нет) и 1 (да). Гармонические признаки даются произведениями П sin (щ ХЛ l cos v l %l) и связываются с предельными теоремами предыдущей главы. Вообще, признаков неисчислимое множество, а то, что здесь указано, лишь узкие их подклассы. Разберем упорядочение признаков как внутри подклассов, так и между ними. Для линейных признаков имеем fa^fh*<=>ht^h*u V/czT. Для квадратичных /н^/я'^^Я^д—H*t, х — неотрицательно определенное ядро. Линейные превращаются в квадратичные посредством возведения fh в квадрат: /2/i = JJ XtXx-hthxdidx с Ht,x=-hth%, врезультате че- т т го f2h^fH* эквивалентно неотрицательной определенности hthx— —#\т. Связь линейных и квадратичных с индикаторными признаками осуществляется через мажорирование индикаторных функций параболами, и наоборот. Так как {|лс|^а}^Со—с+\х2 при Co^l, c+i^co/a2, то сдвигом по оси абсцисс получаем неравенство: К < Xt < а2} > c0-cf (xt- 2^)' при с0<1, cf> —-с° («2—fll)2 где в левой части стоит индикаторный признак, а в правой — вложенная в индикаторный прямоугольник парабола. Помещая параболу сверху, получаем {Xt > а2}ф+ ( Xt - ^±^)4, V а, < а2, с+ > 4/(а2 - ах)2. Кстати, взяв среднее от обеих частей, придем к неравенству Че- бышева (см. § 3.1). Модель процесса. В формальном определении модель процесса есть совокупность согласованных средних Mf на классе £F функционалов-признаков, составляющих область существования верхних средних. В ST входят, по крайней мере, все ограниченные функционалы. Но могут включаться и неограниченные, скажем, линейные и квадратичные. Это будет совершенно законно, если процесс ограничен, а если нет, то будет некоторый волюн- 162
таризм, но оправданный энергетической конечностью реальных физических процессов, а также практической невозможностью (даже в смысле измерить) сколь угодно больших его значений. К этому вернемся в конце раздела. По способу задания модель согласно общей^нашей конструкции порождается любым непротиворечивым набором первичных средних Mg9 g^S, где 9 — выделенная совокупность первичных признаков-функционалов. В частности, первичными будут вероятности, если § составляют индикаторные признаки. Конечно же, по первичным средним вовсе не обязательно искать все Mf9 а нужно удовлетвориться мыслью, что они существуют и в случае нужды вычислимы конструктивным путем, даваемым формулой согласования и продолжения (1.1). При движении к основной цели: научиться экономно описывать первичными средними знакомые и наиболее характерные типовые черты и свойства процессов, полезно придать этим средним прикладную интерпретацию. Вот некоторые из примеров: текущее среднее значение процесса: га*=ЛЩ; среднее интегральное значение: М f Xtdt\ текущая средняя мощность Ft=MX2u интегральная средняя мощность: М_J* X2tdt; текущие начальные моменты: МХ\\ корреляционные функции: г (4t x)=MXtXx\ вероятности превышений: P(Xt>a); совместные вероятности: P(a\^:Xt^a2, V/eTi). Здесь черта над и под буквами предохраняет от повтора, означая, что соответствующее выражение верно отдельно как для нижнего, так и для верхнего средних. В отличие от MXt и МХи которые равноправны, между нижним и верхним средними других признаков имеется большая разница. Нижнее среднеквадратическое значение rt указывает на ту границу, ниже которой ни при каких условиях не может упасть среДнеквадратическая мощность процесса, a Ft — выше чего она никогда не сможет подняться. То же самое относится к вероятностям. Таким образом, _ги М9 Р служат для описания необходиг мых, обязательно присутствующих статистических свойств процесса, а в свою очередь, ft и М, Р — возможных, не исключенных, не обязательных. Любое из приведенных нами средних, — а ими, конечно же, не исчерпывается необозримое богатство выбора, — может быть включено в набор первичных; все зависит от того, какие среднестатистические данные о процессе доступны или могут быть из многообразия доступных разумно выделены для формирования математической модели. Например, если измерения значений процесса производятся с помощью инерционных технических средств, б* аез
выдающих на выход не значения самого процесса, а лишь интегральные его данные на отрезках .[Ш, (*+1)ДЛ, то всё первичен-! w ные признаки будут иметь вид £(Уг),гдеУг= J Xtdt. Если принципиальными для процесса мы считаем выбросы, то целесообразно в первичные включать вероятности превышений, тогда ими и будет характеризоваться выделенная нами черта процесса. Если доступным для наблюдений является не вся, а часть Ti временной оси, то признаками будут функционалы от Хи /еТь инвариантные к поведению реализаций вне TV О характерных признаках подробнее поговорим в следующем разделе. А сейчас продемонстрируем процедуру продолжения первичных средних на остальные признаки. Пример 4.1. Пусть Xt имеет достоверным некоторое множество реализаций SB и задан своими точными первичными значениями текущего среднего MXt=mu /eT. Ничего, кроме этого, о нем не известно. Формулой продолжения средних будет Щ{Xt} == ml {[с0 + ^ cttrit.]: f{xt}< с0 + 2 ciXti}t где неравенство на поиск инфимума должно выполнять при всех ограниченных реализациях xt, а инфимум определяется выбором дискретов U и коэффициентов d конечных сумм. Из данной формулы получаем M(co-\-^CiXt .) = ^Co+^aMXt., т. е. оператор среднего, будучи точным, проносится за знак конечных сумм. По формуле продолжения могут быть найдены средние лишь от функционалов, представляемых в виде f{xt}=fo{xt}+^CiXt , где функционал fo{xt} равномерно ограничен на $6\ они-то и образуют область существования &" средних и для них: ~Mf{Xt}=z sup foM + Zcitnt Если теперь текущее среднее йе является точным, а задается интервалами ти ftiu то все формулы остаются в силе с той лишь разницей, что с*т^ заменяются на Cifnft. при Ci^zO и на Citn^i при с*^0. Рассмотрим упрощения на пути построения модели. Какова бы ни была исходная модель, любой процесс можно «подвести основанием» под фиксированный набор признаков Ж, вычислив для этого Mh, к^Зё и взяв их за первичные для новой модели. Это соответствует ^-расширению модели Ж и позволяет соответствующим выбором Эв упростить описание процесса, представить его в типовом виде. Уже отмечалось, что вид первичного набора открывает воз* можность редукции самого процесса. Так, если первичными являются функционалы g{Xt}=g{X}> зависящие лишь от отсчетов Х=* ж;1Хгл ..., Xtn) процесса в дискретные моменты, то переход от Xt к вектору X, называемый дискретизацией процесса, будет преобразованием подобия (см. § 2.1). Здесь этот переход, по сути 164
дела, не меняет данных о-модели. А поскольку к указанному виду первичных функционалов могут расширением быть приведены любые модели, то дискретизация, в общем, есть не что иное в смысле теории, , как упрощающее расширение модели процесса. То же может быть сказано относительно квантования, состоящего в приведении значений процесса к заранее выбранным уровням. Итак, любые преобразования процесса влекут за собой расширения его модели, кроме преобразований подобия, так как они сохраняют все известные свойства процесса. Характерные черты процессов. Первый и прямой путь задания процессов состоит в выделении характерных статистических свойств и облачения их в форму первичных средних. Для этого может быть выделено, в общем, любое их число. Причем удачным считается наш выбор только тогда, когда без серьезного расширения тела модели меньшим оказывается число первичных значений, так как в результате будет проще модель. Поймать в чертах процесса наиболее важное, отличительное и воплотить в модель — есть искусство обладания математическим языком на базе инженерной интуиции. Рассмотрим некоторые типовые свойства. Сведения об ограниченности процесса по абсолютной величине числом а формулируются как P(\Xt\>a)=0. При t, пробегающим Т, это даст не одно, а целый набор первичных значений. Инерционность процесса в смысле невозможности быстрых его изменений описывается ограничениями на производную процесса в обычном или среднеквадратическом смысле: P(\dXt/dt\>a) =0; M(dXt/dt)2=c. Это определит локальные свойства реализаций. Глобальный же характер их изменений отражается видом границ корреляционных функций r\ty т), r(t9 т)« Отметим, что при несовпадении нижней и верхней границ корреляций свойства непрерывности ими гае определяются. Тогда непрерывность процесса воплощается, например, в способность средних вида M(Xt—Хх)2 сходиться к 0 /при %-*~t. Возможны другие средства описания непрерывности, например ограниченностью лроизводной. Глобально (и достаточно грубо) изменчивость процесса определяется интервалом корреляции тКОр — минимальным числом таким, что \M\XtXt+T=0 при т>тКОр. Охарактеризовать максимально допустимую интенсивность выбросов процесса выше уровня л помогают первичные значения P(\Xt\>a), тогда как гарантированная доля вероятностей этих выбросов эквивалентна ненулевой нижней границе P_(\Xt\>a). Причем на основании неравенства Чебышева верхняя вероятность превышений для ее согласованности со значениями MX2t не может быть выше MX2tfa2, •иначе при согласовании она должна замениться на это более точное значение. Нижняя же вероятность превышения автономна, так что. если вдруг она окажется больше MX2t/a29 то это никак на саму нее не повлияет, зато при согласовании приведет к уточ- 166
нению МХ2и а именно, к росту до значения MX2t=a2P_(\Xt\>a). Рассмотрим, как можно задать конкретный процесс. Пример 4.2. Задание импульсной помехи. Особенность рассматриваемого процесса — наличие на оси времени хаотических импульсов^ разной, в общем, амплитуды, формы и продолжительности. Отсюда основная* черта — это редкость ненулевых значений процесса. Поэтому первичными, нужно сделать вероятности P(Xt^=0)=_^, P(Xt^Q)=q. Отрезок '[?, q] указывает на вероятности присутствия в момент t импульса (ненулевого значения) процесса, а конечная его ширина — на незнание этой вероятности или же на неустойчивость процесса. При <7=0 не исключается, что импульсов вовсе не* будет, а <7>0 гарантирует обязательную долю вероятности их присутствия. Значение же q задает максимально допустимую их концентрацию. Дополнительно к q, q более детальный характер превышений мог бы быть- отражен вероятностями P(\Xt\>a) и P(\Xt\>a). Дробление процесса на составляющие. Исследуем одну полезную интерпретацию процессов, вытекающую из теоредеы 1.3 о представлении. Назовем процесс З'-простым, если модель его есть <Л^'> и задается точными на наборе (3' функционалов первичными средними Mg, g^§'. Согласно теореме 1.3 о представлении модель любого процесса с первичным набором 9 признаков записывается как объединение ^'-простых составляющих моделей при (§г более подробном, чем 2?: Чем шире &', тем из более «мелких частиц» складывается модель процесса. Наиболее экономно считать *§'=*3. . Иногда удобнее вместо «модель» говорить «процесс», а объединение интерпретировать как семейство простых процессов. Тогда рассматриваемое представление позволяет вообразить себе Xt так, как будто бы вместо него действует любой из этих ^'-простых составляющих процессов, но неизвестно какой. В более общем представлении модели имеем: Ж=\1М^ где 6 —неизвестный (задающий) параметр. Функциональные представления. Даются записью Xt = ==Ve{£*}, определяющей Xt посредством преобразования «стандартного» процесса g* и неизвестного произвольного параметра 0. Оператор Ve включает те действия, какие нужно проделать с g* для получения Хи а в Э вкладывается неизвестная часть этих действий. Для последовательности (дискретного времени /) примеры функциональной записи были рассмотрены в конце § 3.1. Они обобщаются на процессы. Одним из них является линейное представление: Xt= lh(Ux)lxd%. 166
При подробном описании £* импульсный отклик h(t, т) фильтра может играть роль носителя априорного дефицита 0, разрушителя подробности. К примерам линейных представлений «процесса относится запись в виде решения дифференциального уравнения ckdkXt/dtb+ ... +cidXtldt+c<>Xt + c=tt. Для процесса на выходе канала связи с замираниями характерно мультипликативное представление: Xt = =Q+th> где It — процесс с установленными свойствами и, главное, с точным значением М|2*=1, V/, а 0+*^О— параметр замираний. В зависимость от того, быстрыми или медленными являются замирания, ставятся корреляционные свойства 0+*. Размах между максимальным и минимальным значениями 0+* характеризует глубину замираний, а разность Л1(0+*)2—M(Q+t)2= =MX2t—MX2t — неточное знание мощности процесса Xt. Что касается связи процессов 0+* с £*, то часто они независимы. Но может 6+t быть свободным от §*, последнее оправдано физической возможностью влияния значений & на 0+*, когда It есть передаваемый по каналу сигнал, a Xt — то, что получилось в канале с учетом замираний. В этом варианте 0* может зависеть от g*, a точнее, подстраиваться под него непредсказуемым образом. Обратное .проблематично. Аддитивное представление: Xt=Qt + h> M£*=0, позволяет развязать медленно меняющуюся составляющую 0* от быстро флуктуирующей £*, и плюс к этому — явно выделить в виде It ту часть процесса, о которой статистические данные имеются, от той 0*, о которой кроме множества 0 возможных реализаций ничего не дано. Различные аддитивные представления. Функциональные представления, в общем, ограничены по своим возможностям ввиду детерминизма их связей. Не всегда удается подобрать такие V, 0 и |, чтобы получить требуемые свойства Xty да и итог может оказаться настолько сложным, что станет ненужным. Облегчения можно достичь заменой равенства на включение: X*c:Ve{£*}, означающее, что ИМ правой части включает ИМ левой, т. е. правая часть воссоздает расширенную модель исключением некоторых сторон процесса Xt (желательно наименее важных). Будем это включение рассматривать применительно к аддитивному представлению. Поставим вопрос, всякий ли процесс Xt можно записать как аддитивную смесь mt + h среднего его значения mt и добавки g* с нулевым средним Mlt = 0? Оказывается, и мы сейчас это покажем, что нет, если иметь в виду равенство, и да — если .включение, т. е. расширенное представление. Рассмотрим произвольный процесс Хи заданный моделью Л, Любое <mt=AfJt>-ce4eHHe модели Ant = ^A (MX> = mt) соответствует допущению, что среднее процесса известно точно. 167
Каждому /пгсечению соответствует то же достоверное множество реализаций, что и самому процессу. Если J[mt непусто, то реализация mt среднего называется собственной. Множество называется собственным семейством средних. Поскольку модель любого процесса представляется объединением ее сечений, имеем: .*- V л Mf{Xt}= sup Mmtf{XUm}9 mte=Wl где нижняя формула — суть расшифровка объединения в верхней, а процесс Xttm соответствует сечению JLmv Собственное семейство средних задает так называемые свойства первого порядка процесса. На основании этого семейства могут быть рассчитаны верхние (и нижние) средние конечных линейных комбинаций отсчетов процесса: М 2 с% Xt = sup 2 ct mt . Рассмотрим теперь возможность представления процесса Xt в виде суммы среднего и остатка. Если среднее mt является точным, то собственное семейство ЗЯ={|/п*} состоит всего из одной реализации mt и очевидной становится запись: Xt=mt + lu М|* = 0, где \t=Xt—mt есть процесс, определенный через Xt значениями Mf{lt}=fflf{Xt—/nj, V/eiF. Если Xt задан своими первичными средними Mg{Xt}, g^S, то первичными средними для \t будут ffig{h+{mt}> g^&, и они получаются смещением на mt функционалов g. Символьно это записывается ЛЪ+т=Л* или Jfi =Лх~т> m={mu tfe=T}. Пусть теперь MXt = mt не является точным. Аналогом предыдущего будет так называемое подчиненно-аддитивное представление, согласно которому аддитивная запись верна для каждого МХ^сечения Лт исходной модели Л: Mm&.m = 0, т^еЮВ, (4.1) где процесс \ttm определяется моделью Л^т = Л£~ш и имеет при каждом mt нулевое среднее. В этом представлении первое слагаемое mt при неточном его значении «вбирает» в себя статистически неустойчивую составляющую среднего процесса, а все имеющиеся статистические данные о Xt переносятся в остаток. Процесс Xt же сам складывается из семейства составляющих его Xt, m при гпи пробегающим множество ЯЛ. 168
Некоторым неудобством подчиненно-аддитивного представления является то, что остаток |*,ш, в общем, будет зависеть от значения mt. Чтобы освободиться от этой зависимости, заменим £t, m на более широкий (в смысле модели) процесс £*=э|*,т, определенный объединением: л*= v Ang'-m' теЗЛ Оказанное наводит на следующее расширенное аддитивное представление произвольного процесса: Xt<=mt + lt9 mt e 2B, М \г = 0, (4.2) где mt принимает произвольные значения из семейства Щ а процесс it свободен от \mt. Символ ^ означает, что расширение, стоящее в правой части (4.2), однозначно определено и является минимальным расширением подобного рода, включающим Xt. Смысл перехода от (4.1) к (4.2) состоит в том, что «забываются» связи между остатком ^ttm=Xt,m—Щ и средним ти приводя к расширению £* по сравнению с |*,га> как это записано в (4.2). Опасно только, не станет ли это расширение чрезмерным. Например, если £* в результате расширения окажется голым процессом, то включение (4.2) становится тривиальным. Такая опасность иллюстрируется примером. Пример 4.3. Сугубо ограниченный процесс. Пусть процесс Xt определен первичными вероятностями P(\Xt\&*a)=0, Vt. Это есть процесс, о котором известно только, что в любой момент он ограничен по модулю значением а. Для такого процесса MXt =—a, MXt—a и собственное семейство ЯЛ средних образуют всевозможные реализации, заключенные между значениями —а, а. В представлении (4.2) здесь будет 5*г=0, так как нельзя из такого процесса выделить случайную составляющую с М|*=0. При замене включения (4.2) на равенство, что будет, когда все gtfm от mt -не зависят, т. е. lt,m=b> Vm, приходим к свободно-аддитивному представлению процесса с неизвестным средним: где It считается свободным от \mt. Его чаще будем просто называть аддитивным. Не всякий процесс допускает такое представление, а лишь тот, для которого /пгсечения модели одинаковы между собой за вычетом mt. Дополнения. 1. Точное распределение вероятностей процесса. Абсолютно точным распределение процесса Xt, /eT, может быть лишь в случае, если Т дискретно и Xt при каждом teT принимает дискретные значения. Если это не так, то нужен остов в виде алгебры j^*, -на событиях которых задаются точные совместные вероятности P(At , Att% ..., At ), AtJS ^s&t. где /i, *2, ..., tn — произвольные выборки отсчетов из Т. Корректность вероятностей и вместе с тем их согласованность эквивалентна конечной адди- 169
тивности. Тогда вероятности, взятые в качестве первичных, и определят процесс с точным на пересечении st=f[s&t алгебр распределением вероятностей. t Если $&i есть счетные алгебры, принцип построения модели процесса сохраняется, порождая конечно-аддитивную меру на s4> (для которой, однако, вероятности P(At , At , ...) не будут, в общем, точными при счетных множест- 1 2 ~ вах отсчетов). Конечно-аддитивной мере соответствует единственная счетно- аддитивная мера согласно известной теореме Колмогорова о согласованных распределениях1. Меры может и не существовать, а задаваться на сопряженном пространстве, тогда процесс в классическом определения называется обобщенным 2. Например, это процесс, у которого У*= $ Xtq>i(t)dt, 1=1, 2, ..., есть нормальные св. с нулевыми средними н MYiYj = §q>i{t)q>j(t)dt. При нашем подходе в невыполнении счетной аддитивности нет «криминала», а обобщенный процесс естествен как задание средними на линейных преобразованиях. 2. Задание процесса переходными моделями. Этот способ состоит в последовательном задании переходных моделей Ж *, Жх * Жх t х* ••■» ПРИ произвольном выборе отсчетов f</i</2<- Если все последующие переходные модели зависят только от последнего момента: Ж*п v = Ж *п э то способ задания называется марковским. Он характерен для точных вероятностей и оказывается малоэффективным при неточных. Причина неудобства лежит, во-первых, в трудностях согласования переходных моделей, если t непрерывно, и во-вторых, в «расползании» модели х Ж 'п при увеличении tn в силу обоюдного влияния на нее как ширины мо- X X дели Ж *п_*1 , так и расплывчатости переходной модели Ж*п • При точ- xtn-\ ных и тех, и других, заданных вероятностями, ничего подобного не наблюдается, что и дает жизнь таким представлениям. 4.2. КОРРЕЛЯЦИОННЫЕ СВОЙСТВА Процессы второго порядка. Корреляционными свойствами процесса Xt будем называть согласованное множество средних M{J£leiXti +2i2idijXtiXtj. ), или в векторной форме М (ет Х + Х* DX), e* = (el9 еа,...), О-ЦЛ.Х'-^.Х,., ...) (4.3> при всевозможных выборах отсчетов ti^T и коэффициентов С\ и dij конечных сумм. Нижние М_ также определены, но не записаны, так как сразу выражаются через верхние. Удобно считать матрицу D симметричной: dij=dji, что, как можно видеть, не ска- жется на корреляционных свойствах. *.Боровков А. А. Курс теории вероятностей.—М.: Наука, 1972. — С. 261. 2 Гельфанд Н. М., Виленкин Н. Я. Некоторые применения гармонического> анализа.—М.: ФМЛ, 1974. —Вып. 4.^С. 302. 170 i
Отметим, лто корреляционные свойства есть более широкое понятие, чем просто границы Fttx=MXtXx корреляционной функ- дии (если только не считать корреляции точными). Процесс, заданный своими корреляционными свойствами, называется процессом второго порядка. В его первичной основе обязательно лежит какой-то непротиворечивый набор средних из (4.3), скажем, М (ещ Х(£) + Xjk) Ощ X(k)) = Щк), k = 1,2, ... , где Х(Ь) составляются, в общем, из разных последовательностей дискретных отсчетов Х^^Х^ ..., Xtk)f a т<ь) — первичные значения. В частности, это могут быть границы средних MXt и корреляций £t,x при всех или некоторых t и %. Любой процесс расширением приводится к процессу второго порядка, для чего за первичные берутся средние вида (4.3). Первичный набор продолжается на остальные корреляционные свойства в соответствии с общей формулой (с одновременным согласованием пг^ь если исходно они заданы несогласован- шыми): Ж (е- Х + Х* DX) = Inf {[с+ 2 ctm{k)] :c+Zct (efo Xik) + + Xjk) Dik) X{k)) > e* X + X* DX}, (4.4) где двоеточием отделено условие, при котором ищется инфимум в (4.4) выбором с, с+ft. Из этого условия становится ясным, что нетривиальными могут быть средние только для квадратичных форм от таких векторов XT=(Xtl, Х*,,...), компоненты которых встречаются хотя бы в одном Х(ь>. Сказанное порождает неудобства, поэтому подчас разумным и наглядным следует признать существование определенной гладкости корреляционных свойств по времени t, что дает основание переходу к фиксированному набору отсчетов t\f t% ..., tn, а в результате — к единому вектору X, считая, что между отсчетами будет иметь место нечто промежуточное. Тогда условие в (4.4) перепишется: с+2с+ (efo Х + Х* Dm X) > е- Х + Х* DX. Если принять еще одно допущение, что процесс имеет нулевое среднее MXt=0, Yt, и что заданными являются /n(fey=A?XTD(fe)X, то возникают дополнительные упрощения: Ж (ет Х + Х* DX) = М Хт DX - inf { 2 ct mik) : S 4~XTD(fe) X> > XT DX}. (4.5) Здесь в отличие от общей формулы (4.4) свободный коэффициент с положен равным 0, ибо таким он будет получаться при нахождении инфимума в (4.4) и принятых допущениях. Неравенство в условии формулы (4.5) эквивалентно неотрицательной определенности матриц ^с+Фы—D, что символически 171
выглядит следующим образом: 2c+feD(ft)—D^O. Будем говорить, что 2c+/tD(/o мажорирует D. Итак, продолжение средних на квадратичные формы при симметричных матрицах D эквивалентно поиску среди матричных .конечных линейных сумм 2c+fcD(fc)> мажорирующих D, такой, которой соответствует минимальное значение 2c+fe/n(fc). Пример 4.4. Пусть заданными являются Л№.=0, MX2t.=<j2, AfX2*.= =<Ja =—М(—X2tt), i=l, .., п. Они всегда будут непротиворечивыми, если о2^о*2, и согласованными. Здесь первичными будут единичные матрицы ±1 со средними соответственно а2, —а2 (приведенными к верхнему). Неравенство . после двоеточия в (4.5) запишется так: cl—D^O, тогда инфимум в (4.5) достигается гари с, равном максимальному Хтах собственному числу матрицы D, и в зависимости от его знака MXTDX=max {Xmax02t XmaxO2}. Представление процессов второго порядка семействами средних и ковариационных функций. Процесс называется простым второго порядка, если он задается точным средним MXt = mt и точной ковариацией b{t9 т); определяемой формулой b(t,x) = M(Xt-mt)(Xx-niJ. Обозначим модель простого процесса второго порядка как <m, Ь>„ где сокращенно m={mt}, h={b(t, %)}. Объединение простых процессов записывается: Л= V V <т,Ь>, (4.6) те=2И Ь(=33т где множество ЗИ называется собственным семейством средних, а множества S5m — собственными семействами ковариаций (в общем, вид которых может быть разным для разных средних т). Объединение (4.6) ведет к процессу второго порядка, задаваемому средними М (2 с% Xt.+ 2 2 du Хч Xt) = sup [2 ct mti + + 22 du mt mt+ sup 2 2 dtjb (tif tj)]. (4.7> Причем все ковариаций семейств 55m должны быть неотрицательно определенными в том смысле, что 22ci£jb(^> tj)^0 при любом выборе отсчетов t\ и коэффициентов с* конечных сумм. Покажем, что такой способ задания процессов второго порядка является универсальным. Теорема 4.1. Каждый процесс второго порядка эквивалентным образом может быть задан в виде (4.6) собственными выпуклыми семействами ЗИ средних и 55т, т^ЗИ, ковариаций. Доказательство. Запишем Jt= V .#ш, где JTm=.47\<m> есть m-сече- теЗЯ ние. Обозначим Jtm% ь=^т Л<Ь> модель Процесса с точным средним mt и точной ковариацней b(t, т), которая будет собственной, если пересечение непуста 172
$ Заметим, что <b> предполагает точное значение mt и имеет смысл лишь для т*-сечения Jtm. Так как Xt есть процесс второго порядка, то его Ши а затем b(t, т)-сечением будет Жт ь = (^Л<т»Л<Ь>= <т>Л<Ь>= <т, Ь>, что соответствует простому процессу второго порядка. Обозначая #m = {b -Жт^ = 0} и выражая JC объединением сечений, получаем представление (4.6), что и доказывает теорему. Скрытое содержание этой теоремы, заслуживающее пристального внимания, заключается в том, что статистически неустойчивый процесс, у которого точных средних и ковариаций вовсе не существует, представляется семейством составляющих его процессов с точными значениями \mt и b(t, т), т. е. статистически устойчивых. Это общее представление удобно, когда оно не чересчур громоздко. Формулы (4.7) для расчета средних через семейственное представление можно рассматривать как результат применения к процессам второго порядка подчиненно-аддитивного представления (4.1): Xt,m=mt+lt,m, где Ь,т имеют нулевые средние Afm£*,m=0 и описываются семействами S5m ковариаций. Расширенным будет представление вида (4.2): Xt>m^mt + lt, где «добавка» It имеет нулевое среднее М|г = 0, свободна от mt и определяется объеди- нием U ^ш семейств. Связь характеристик расширенного пред- ставления с исходными на одном частном случае будет исследована ниже. Интервальные ковариаций и корреляции. Корреляционные свойства в нашей интерпретации очень разнообразны. А нельзя ли упрощенно описать связь между Xt и Хх с учетом неопределенности этой связи, вызванной как нашим незнанием, невозможностью ее точно проанализировать, так и статистической неустойчивостью процесса? Уже говорилось, что эта связь характеризуется границами корреляций: r(t, т) =MXtXx. Но этого мало, и вот почему. Каждое Xt согласно аддитивному представлению складывается из двух составляющих: полностью неизвестной, статистически неустойчивой mt — это любая функция из собственного семейства Щ и случайной добавки и &,т '(©азможно, .подчиняющейся mt). И чаще оказывается, что своему размаху границы r_(t> т) обязаны именно влиянию Ши а этого не хотелось бы. Выделим корреляционные свойства, которые были бы отделены от mt и характеризуют остаток. При точных -средних mt и корреляциях r(t, т) такие свойства дает ковариационная функция b(t, r)=r{t, т) — —т$тх, а при неточных mt — границы ковариаций: Ьг (*, т) = ЩХг - щ) (Хх - mT), b2 (t, т) = ЩХг - mt) (Хх-Щ), b3 (t9 т) = M(Xt - щ) (Х% - щ), b, (t, x) = M (Xt - щ) (Хх ~ ЩУ Границ четыре: b\ и b2 — нижние, а Ъ$ и b4 — верхние. 173
Каждую из ковариаций можно расписать как некоторую сторону собственных семейств ЯК и 95 m f используя для этого (4.7). Например, Ъг (U т) = inf inf [Ь (t9 т) + (mt - mt) (тх - те=аЛ be»m "" - тх)\ = inf [bm (tf х) -f (mt — mt) (тх — mT)]f ~~ т<=9Л "" "~ ~" где bm(t, т) — нижняя грань ковариаций в 95т, и так для остальных (нетрудно вывести их в качестве упражнения). Рассмотрим пример, из которого можно извлечь содержание каждой из ковариаций. Пример 4.5. Пусть процесс Xt второго порядка имеет постоянное среднее и может находиться в одном из двух состояний, в которых среднее и ковариация равны соответственно либо mi, Ki(t, т), либо m2, K2(t, т), где trii я т2 — два числа, причем для определенности считаем mi>m^ Это дает описания двух простых процессов, составляющих Хи г вместе задает модель Xt в виде объединения: Ж=ЖС\/Жг^ где JCi — (jnu /d>, Жг=(т,г, Кг>- Тогда М'. T) = min{/C1(/, т); (т2-mx)* + К2(t, т)}, b2(t, т) = min {Kiif, т) + (т2 — m^; /С2(/, т)}, b3(t, T) = bt(t, T) = max{/(1^, т); /С2('> т)}. Здесь bi(/, т^ и bz(t, т) могут оказаться чуть завышенными по сравнению с минимальным из двух значений Ki{t, т) и Kz(t> т), тем не менее min{bi(t, т), b2(t, T)}=min{/d(/, т), Кг& т)}. Если все четыре ковариаций равны 0, то Xt и Хх называются нековариированными (см. (2.10)), что может быть следствием не только того, что в подчиненно-аддитивном представлении (4.1) случайные составляющие |tl m при каждом т% некоррелированы между собой, т. е. Мт\%, т£т,т =0 (тогда b{(t, т) = inf (mt—mt)X т X (pix—тх)=0 и аналогично для остальных ковариаций), но и того, что просто случайная составляющая отсутствует, т. е. Xt=mu как в примере 4.3 сугубо-ограниченного процесса, о котором известно только, что его реализации не могут по модулю превышать некоторый уровень. Используем расширенное аддитивное представление (4.2): Xt^tnt + ^t. Так как |* описывается объединенным по т семейством U^m, то границами ковариаций будут &(*, т) = inf inf b(t,t)t Ъ (t, т) = sup sup b (t, x). me=3ft te=a3m Это будут расширенные границы, так как, в общем, bjt, т) < min {bt (/, т), b2 (*, т)}, F(f, т) > max {b3 (/, т), 64 (t, т)}. 174
Равенства имеют место, очевидно, при 3$т=95, ут9 но не только (см. пример 4.5). Рассмотрим связь ковариаций с корреляционными функциями: нижней r(t, x)=MXtXx и верхней r(t, т)= MXtXx. На основании расширенного аддитивного представления имеем: r_(t, т) *= inf [mt mx + bm (t, т)] ^ inf mt mx + b^ (tt x); F(t, r) = sup [mt mx + bm (t, т)] <; sup mtmx + b (t> t). mt<==m mte=Wt При t=x получаем соответственно MX* > (\M\ Xt)* + b_(t91), MX] < (\M\ Xt)* + ~b (U t). Все эти неравенства заменяются на равенства при свободно-аддитивном представлении. В этом случае точные аначения корреляций r(t9 т) эквивалентны точным средним MXt=mt и точной ковариаций b(t, т). Вообще при точных средних mt границы корреляции с поправкой на слагаемое mtmx совпадают с границами ковариаций: rjt, r) = mtmx + b (t, т), г (t, x)=*mtmx-\-b (t, x). Разложение процесса по базису. Смысл любых разложений процесса сводится к упрощающей его замене дискретным набором коэффициентов. Пусть ej(t), /=1, 2, ..., есть система ортонормированных функций, заданных на отрезке [О, Т]: Здесь и далее интепрал от 0 до Г — по мере^длине. Функцией ej(t) являются координатными ч<осями» Гильбертова пространства 3?2 всех интегрируемых с квадратом функций: £?2={ct:j c2tdt< <оо}. Скалярным произведением в этом пространстве будет (с*; at) = J* Ctdtdt. В этих обозначениях ортонормированность записывается: (ei(t)\ ej(t))=8ij. Система ej(t), /=1, 2, ..., ортонормированных функций называется 'полной, если для любой функции ct^S?2 имеет место равенство lim J [с,- 2 (J ct ej (t) dt) et (t)Y dt= 0. В этой формуле сумма внутри квадратных скобок есть разложение функции ct в .ряд по ej(t). Полная ортонормированная система функций ej(t) называется базисом в j?2. Например, базисы в 3?* на *[0, Т] образуют:.!) нормированные полиномы Лежандра, 2) гармонические функции 175
У*2/Г~" (2njt/T), /=1, 2, ..., дополненные постоянной e0{t) = cos Рассмотрим разложение процесса по базису Xt = 2 X (/) ej (/), X (j) - ; X, г, 0 dU S [О, Л- (4.8) /-1 Считается, что множество $?=(i?2 достоверных реализаций процесса Xt должно состоять из интегрируемых с квадратом функций. Свойства коэффициентов разложения будут полностью определяться свойствами исходного процесса. В частности, корреляционные свойства процесса однозначно определяют корреляционные свойства коэффициентов разложения, что видно из цепочки равенств, справедливых для конечных сумм: М [ 2 с, X (0+ 2 2 dtJ X (0 X (/)] = - М [ 2 cj J Xt ej (t) dt+ 2 2 duf Xt et (t) dtx X J Xt e, (t) dt] = МЦ Xtg(t)di + И Xt Xx h (t9 x) did %} = = lim лП2^г(д(и-и+ |Д*|-Ю m w + 2 2 **m ^ПЛ (*m, f») (tm+1-tm) Уп+г-Ы], m n где g(t) =2Ciei{t)9 h{t9 т) =22*^(^)^(0- Для каждой реализации из j?2 справедливо неравенство k f X2tdt^%X(j)29 доказываемое следующим образом: 4 i 0<J \xt- 2 Х(/)^(0Гл=;Г^-2Х{ |х(/Ж0 + Отсюда, если процесс имеет конечную среднюю энергию, т. е. J ~MXf dt <оо, то М 2 X (/)2 <ЛГ/ Х2 d* < J MXfdt; i М 2 *(/)2<М J *?<«• i Переходя к пределу &->~оо, получаем Л? 5 X(j)2^M J X*dt, M 2 X(j)2^M J Xf Л. (4.9) i ' i Неравенства наводят на мысль, что между процессом Xt и его разложением (4.8) может иметь место «энергетический дисба- 176
баланс». В этом случае (корреляционные свойства 'коэффициентов разложения не будут определять полных корреляционных свойств исходного процесса и переход от процесса к его разложению вызовет потери. . Рассмотрим тот случай, когда переход к разложению не связан с потерями в свойствах второго порядка. Будем понимать разложение ^ (4.8) в среднеквадратическом скв-смысле, соответствующем равенству lim M J* lxt- S X(j)ej(t)J dt = 0. Ниже считаем, что процесс имеет конечную среднюю энергию. В силу неравенств (4.9) имеем 0<Л4 J* Xfdt-M 2 Х(/)2<Л? Г J Xfdt- - | *(/)■] -Ит Ж J Г*,- | XU)es{f)Jdt-0. Отсюда видно, что неравенства в (4.9) заменяются на равенства М 2 X (j)2 = M J Xfdt, М S X(j)* = M$ X?dt. l l В этом случае корреляционные свойства процесса будут эквивалентны корреляционным свойствам коэффициентов разложения. Сказанное вкладывается в теорему. Т е о р е м^а 4.2. Пусть процесс непрерывен в скв-смысле на i[0, T] :\imM(Xx—Xt)2=0. Тогда его разложение (4.8) в ряд справедливо в скв-смысле. При этом корреляционные свойства процесса Xt и его коэффициентов разложения X(j) эквивалентны. Доказательство. Доказательство второй части теоремы, по сути, содержится в рассуждениях, предшествующих теореме, поэтому осталось доказать первую. При точных среднем и ковариации b(t, т) эта теорема является известной [1, с. 500]. В общем случае свойства второго порядка эквивалентны заданию собственных семейств Ш и 95т, теЗЛ. Из непрерывности процесса вытекает равномерная непрерывность всех функций из 9Я и всех процессов 1Л m в подчиненно-аддитивном, представлении Xt=mt+%jt m. Отсюда каждая реализация mt среднего и каждый процесс %t> m может быть разложен в ряд по базису, а в силу равномерной непрерывности скв-сходимость этого ряда будет равномерной относительно Ш и 93т. Поэтому, обозначая 171U) и 1т0') — коэффициенты разложения m(t) и 6/, m в ряды по базису ej(t) и используя сг-неравенство § 3.1, получаем 177
mJ* \xt- 2 *(/)** (ol dt = = sup 2М*кПщ- 2>0')*J<0 + bf„- пкееЯЛ L 1 - 2 lm(/)^(0 I d*< sup (2/11111- 2m(/)^(0| Л + 1 J m(=m I L 1 J +4**5 J ^m - s 5ш(/)ч(о| л} = = 2 sup \umt- 2mU)ej(t)\ dt + + *ч> ж1ь jT Ь,.,ь- S W..b(/)^«| л} < ь<=ят L 1 J J <2suP jL-2«(/)e/wU + + sup *(*, т)- 2 %Wb(tt 4)ei(t)ej(i)dtdT . Ье=ЯЗ|_ 1 1 J Оба слагаемых правой части стремятся к 0 при £-*«> в силу равномерной непрерывности семейств 9Я и 33= {J 95m, что доказывает теорему. пкеЯИ Отметим, что <ск(в-непреры1вный процесс второго порядка лри его разложении преобразуется в 'последовательность также второго порядка. 4.3. ОДНОРОДНЫЕ И СТАЦИОНАРНЫЕ ПРОЦЕССЫ Однородные процессы. Понятие однородности применительно к последовательностям вводилось в § 3.1. Здесь оно прикладывается к процессам. Процесс Xt считается однородным, если его модель симметрична к сдвигам_во времени: МХг=Мх*+х, что эквивалентно тождеству средних М/{Х*};е=м/{Ян-т}, V'/e^", Vr. Совершенно ясно, что понятие однородности имеет точный смысл лишь для процессов, определенных на всей длине временной оси (—оо, оо). Но можно рассматривать участок однородного процесса любой конечной протяженности [О, Т]. Однородность позволяет сэкономить на задании процесса, сделав это раз для одного положения признаков на временной оси и перенеся те же значения на любой сдвиг по времени, существенно преумножая тем самым первичный набор. Процесс будет однородным, если выполняются два условия: 1) набор первичных функционалов, определяющих процесс, при 178
сдвиге во времени преобразуется сам в себя; 2) первичные средние при сдвиге во времени не меняются. Сказанное «символьно записывается: 1) g{Xt}eE$=>g{Xt+x} = gt{Xt}Z=S,VT, 2)Mg{Xt} = Mg{Xt+x),yfgG^,yfx. . Примером однородного является процесс, определенный постоянными границами среднего MXt=my MXt=m и текущей мощности MX2t=r, MX2t=r. Первичный набор здесь создают всевозможные отсчеты процесса и их квадраты: 9={±хи ±х2и —оь< </<оо}, и видно что этот набор не меняется при сдвигах во времени, как и средние на нем. Объединение и пересечение (имея в виду модели) однородных процессов приводят к однородному процессу. Сужение же может привести к нарушению свойства однородности, поскольку внутри однородного процесса существуют неоднородные составляющие, которые могут «выскочить» при этом наружу. Любой процесс Xt расширением («забыванием» его неоднородных особенностей) может быть приведен к однородному процессу У*. Для этого нужно положить Mf{Yt}= sup Mf{Xt+x}t — oo<t<00 V/eiF, и эти значения зададут Yt. Голый процесс, соответствующий полному отсутствию каких- либо данных, всегда однороден: сдвиг во времени не меняет нулевых сведений о таком процессе. Инвариантные во времени преобразования однородных процессов ведут к однородному процессу, например нелинейные безынерционные преобразования >вида Yt=f{Xt}y линейные преобразования вида У*= j" h(t—%)Xxd%. Складывание, вычитание и перемножение однородных процессов приводит снова к однородному процессу. Расширяя понятие однородности, будем говорить не о неизменности всех свойств процесса по отношению к сдвигу во времени, а о неизменности только некоторых из них. Процесс называется ^-однородным, если Mq{Xt}=Mq{Xt+x}9 Yq^Q, Vx, т. е. при сдвиге во времени не меняются средние признаков набора Q. Это частично-однородный процесс, но если Q является первичным набором, он будет однородным в общем смысле. То же самое будет, если ^?=э^, где % есть первичный набор. Если же Qcz9y то ^-однородный процесс сам по себе может не быть однородным, так как некоторые его первичные данные способны, в общем, зависеть от сдвига во времени. Например, если первичными являются MXt=m, MXt = fn, MX2t=£, MX2t—r, то процесс является однородным. Если же помимо этих имеются другие первичные данные, Зависящие от времени, например MX3t=m(S)(t), то процесс будет уже только частично {±х, ±х2}-однородным, а среднее и мощность — его однородные параметры. 179
Процесс, корреляционные свойства которого не меняются во времени, называется однородным в широком смысле. Для такого процесса тождественно по т Щ Z ****,+2 2*, Xf|Xf,)- = М (2 с% Хц+Х+ 2 2 du Х,.+т XtJ+J. Это частично-однородный процесс, но если других кроме корреляционных данных нет (т. е. процесс второго порядка), то он однороден в общем смысле. Рассмотрим однородные процессы второго порядка. Собственное семейство ЗИ средних для них не должно меняться при сдвигах во времени т^ЯИ^/п^-н^ЗЯ, Vr, и то же самое можно сказать о собственных -семействах ковариа<ций: b(t, /,)е55т/=> =^Ь(/+т, tf'+t)e93m/+T. Границы ковариаций должны зависеть только от разности аргументов: b(t9.t')=b(t—t'), 5{t, t')=* = b(t—С), хотя, в общем, каждая из ковариаций собственного семейства, как будет видно, таким свойством не обязана обладать. Детерминированная функция а, рассматриваемая как процесс с единственной возможной реализацией, будет однородна, если только эта реализация есть тождественная постоянная а=т. Процесс второго порядка, определяемый точным средним mt и ковариацией b(t, t'), будет однородным, если только среднее постоянно: mt = m, а ковариация зависит от разности аргументов: b(t, t')=b(t—t'). Назовем такую ковариацию однородной. Рассмотрим сечение однородного процесса Xt точным средним mt и ковариацией b(t, /'), записав следующим образом: Лт>ь = Л Д (т, Ь). Сечение может быть непустым, даже если т* зависит от t и ковариация неоднородна. Следовательно, для однородных процессов в собственные семейства 9Я и S5m входят, в общем, неоднородные функции mt и b(ty f). Отсюда однородный процесс складывается и из неоднородных составляющих. Пример 4.6. Однородный процесс первого порядка. 11усть однородный процесс Xt задан постоянными границами среднего: MXt — fJh MXt = tn. Имеем процесс первого порядка. Для него M^ctX = 2 ctm+ 2 ctm. Под такое же среднее для заданных с% можно подогнать другой процесс первого порядка Х*и задав его точным средним вида MX*tt —in при ti таких, что с^О, и Л№% =/п при ti таких, что й<0. Этот неоднородный процесс, поскольку среднее его меняется во времени, включается в предыдущий: Л**с czXt, более того, входит лишь как один составляющий элемент в представле- 180
ние Xt в виде объединения тгпростых процессов: Jt= V <я**>. что иллю-- стрирует нашу мысль о неоднородных составляющих однородного процесса. Таким образом, однородность суть симметрия исходных данных о процессе к сдвигу во времени. Стационарные процессы. В § 3.1 были введены понятия стационарных признаков и стационарной последовательности с. в^ Переложим эти понятия на процессы. Признак g{Xt} (функционал от Xt) называется стационарным, если для любого сдвига т Mlg{Xt}-g{Xt+,}]=0, Vt. Эквивалентным написанному будет: Л Д (Mg{Xt} = a) Д <М£ {*,+,} = а7> - 0 при афа'. Смысл в том, что если бы вдруг оказалось точно известным среднее значение Mg{Xt}=a признака g, то оно осталось бы таким же при любых сдвигах процесса во времени. Иначе говоря, если обозначить Л1£-сечения через JtMg=Jt/\iMg{Xt}s>, то для Мм& все средние от функционалов g{Xt+x} должны быть точными, равными значению Mg{Xt} 'независимо от сдвига т: MMgg{Xt+x}=Mg. Процесс называется Q-стационарным (частично-стационарным)г если все признаки набора Q являются стационарными, и стационарным, если Q — любые признаки. Последнее определение требует 'комментариев. А существует ли вообще в 'природе стационарный процесс, т. е. такой, что каков бы признак j ни был взят, ой оказывается стационарным? Если да, то это подразумевает, во- первых, возможность точного знания среднего любого признака, и во-вторых, (полную идентичность работы внутреннего статистически устойчивого механизма процесса по времени. Но даже пусть такового процесса и нет, все равно абсолютизация стационарности как математической абстракции оказывается весьма удобной как уверенность, что какой бы набор Q признаков ни был взят, при сдвиге во времени их средние, если они вдруг станут точно известными, не меняются. Имея в виду, что практический выбор будет всегда ограничен нашими возможностями, так что фактически обращаться будем с частичной стационарностью. Итак, стационарность — это статистическая устойчивость процесса в двух направлениях. Во-первых, по ансамблю, когда для процесса, если бы удалось его неоднократно «прокрутить» в одинаковых условиях, устанавливается (а иначе — декларируется) существование точных средних статистических Mq его признаков q. И во-вторых, по времени, когда утверждается неизменность этих средних статистических по течению процесса во времени. ^-стационарные процессы представляются как семейства Мф-точных стационарных процессов: Jt= V *^MQ и ^MQ — эта MQ 181
сечение Jf, т. е. складываются как ансамбли составляющих эти процессы стационарных '«кусочков». ^-стационарные процессы, очевидно, будут ^-однородными, а если С2=& — есть первичный набор, то вообще однородными. ^-стационарные с первичным набором 9 процессы могут интерпретироваться как семейства составляющих их простых стационарных процессов, что соответствует объединению: (Mj)= V (MS) (4.10) и эквивалентно следующей формуле расчета границ средних от вторичных признаков 3?& (конечных линейных комбинаций первичных функционалов): М 2 ct gt {Xt}= sup 2 ct Mgi9 где супремум берется по простым 'процессам и соответствующим им Mgu составляющим стационарные процессы. Понятие стационарности существенно тоньше по сравнению с однородностью. Если однороднобть — это неизменность во времени внешних форм, а внутри может твориться все, что угодно, то стационарность — это неизменность внутренней структуры, тех простых частичек, на которые делится модель (см. (4.10)), и, как следствие, — внешних форм. При одинаковых первичных данных ИМ стационарного процесса всегда уже ^-однородного. Понятия ^-стационарности и ^-однородности совпадают, лишь когда модель сама есть одна «простая частичка», т. е. ^-точная. В следующем утверждении устанавливаются алгебраические свойства моделей стационарных процессов. Теорема 4.3. Пересечение модели С?{-стационарного процесса с ^-стационарным ведет к модели ^1^2-стационарного процесса. А модели 8-стационарных процессов, заданные на одном и том же первичном наборе 2? функционалов, при объединениях сохраняют свойство стационарности. Доказательство. Пусть Xt и Yt — соответственно Q\- и ^-стационарные процессы. Тогда для q^Qi согласно определению и на основании коммутативности пересечения имеем при афа': ЛХ [\МУ Л ОЛц {Xt) = а) Д (Mq {Xt+J = а'> = 0 V*. что доказывает стационарность параметра Mq, q^Qu для jXx/\jMy. Это же, очевидно, верно и для q^Q2f что доказывает первую часть теоремы. Вторая часть вытекает из (4.10) и коммутативности операции объединения: (Mx$yV(MY$y=(\JWx$>)(\/WY$>)=\/W$\ где в круглых скобках объединение производится соответственно по (Мх$уа(Мх$у и <Afy^>cz<AIy#>, а в конце — по (М&}а<Мх&у\/(MY&y, что и требовалось доказать. J82
Смысл первой части теоремы 4.3 состоит в том, что если к, известным имеющимся сведениям о частично-стационарном процессе добавляются дополнительные данные, обладающие свойством стационарности, то процесс останется стационарным. Напри- мер, если для стационарного процесса второго порядка указана дополнительно, что вероятности P(a<Xt<b) существуют и не зависят от t, то процесс будет также стационарным, но уже на более широком ансамбле признаков. В развитие этой мысли абсолютно стационарный процесс может представляться »как пересечение всех включающих его частично-стационарных процессов. Рассмотрим пример частично-стационарного процесса. Пример 4.7. Процесс первого порядка со стационарны* ми свойствами. Определим объединение \/(МХг=ту как семейство про* т цессов, о каждом дз которых известно только, что среднее во времени не ме- няется и чему оно равно. В добавление к этому заданы границы m, m среднего т. Для такого процесса (сравни с примером 4.6 однородного процесса)» верно: M^CiXtt = max_ 2 ci пц = max {m 2сг» ^2^г}. Из этого равенства следует полезный вывод: получается одна и та же модель- первого порядка, принимает ли т значения внутри интервала jn, m, или толька крайние т и т, т. е. та же модель достигается как объединение двух составляющих <KmXt=jny\/<,MXt = fny. Рассматриваемый нами процесс представляет^ ся Jf<=m+|f, где т принимает любое значение в отрезке [л^ m], a %t свободен от т и Afgf=0 — это все, что о %t известно. Отметим, что для ^-стационарных (Процессов со стационарным: средним MXt (т. е. xt как признаки входят в Q) характерно шодчи- ненно-аддитивное представление: Xt=m+£ttm9 где т — независящий от / параметр, а добавка свободна от т и при каждом era значении имеет нулевое среднее. Сказанное относится и к следую- щему процессу. Процесс второго порядка называется стационарным, если стационарными являются все его признаки корреляций. Это есть разновидность частичной стационарности, где Q — линейно-квадратичные функционалы. Процесс второго порядка Xt будет стационарным, если и только если выполняются два условия: 1) собственное множества 9И средних содержит лишь константы тп\ 2) собственные семейства 95т ковариаций составляют однородные функции b(t—У), зависящие только от разности аргументов. Модель стационарного процесса второго порядка представляется в виде Л= V V (m9b)9 /71£=9Л Ь£=Ъ1П где </n, by определяет простой стационарный процесс, заданный своими постоянным средним m и однородной ковариацией &(т). 183
Интересно отметить, что процесс второго порядка может быть стационарным, хотя средние и ковариации совершенно неизвестны. Для такого процесса ЗИ составляют любые константы, а 1Bm=S3 — класс всевозможных неотрицательно определенных функций b(t—f), зависящих лишь от разности аргументов. Замечание. По аналогии с предыдущим произвольный процесс (не обязательно второго порядка) со стационарными корреляционными свойствами будет называться стационарным в широком смысле. При этом некоторые другие его свойства (например, вероятности превышений), выходящие за рамки свойств второго порядка, могут зависеть от времени. Стационарный в широком смысле процесс расширением (при котором сохраняются только корреляционные свойства) приводится к стационарному процессу второго порядка. Спектральные двойники процессов. Если рассматривать ограниченный интервал времени О, Т длительностью Г, то гармонические функции Y'2jfsm(k2nt/T)9Y'2jfcos{k2ntlT)> k=\y 2, ..., образуют ортонормированный базис. Дополним его постоянной £o{t) = llYT- Согласно теореме 4.2 любой скв-непрерывный процесс в скв-смысле может быть разложен в ряд по этому базису _ т (4Л1) Ряд (4.11) называется рядом Фурье, а Х\ и Х% — коэффициентами Фурье или спектральными коэффициентами. Подчиненно-аддитивному представлению Xt = mt + lt,m соответствуют аналогичные представления коэффициентов разложения -Фурье левой и правой частей: Xsh=msk + lsktm9 Xch=)mck+l%m- Смысл разложения процесса в ряд Фурье состоит в том, что- *бы представить процесс в удобном виде, используя конечный на- *бор спектральных коэффициентов. При этом Ж процесса преобразуется в модель Лф коэффициентов Фурье, что формально записывается: ЖФ = 8ФЖ, а Бф называется преобразованием Фурье. Модель Л(ф определена средними, рассчитываемыми по формуле: Л*фФ№ 4,k- 1. 2,-..}= ЖФ {|/А j- X<sin ^ Ц_ ^ dtt ' j/-f J Xt cos (k2ft)dt, £=1,2,...} =Mf9{Xt}, где ф — функционал в пространстве значений коэффициентов 184
Фурье, a fф — его изображение в пространстве реализаций (см, § 2.1). Если ограничиться рассмотрением только корреляционных свойств, то точным средним mt и ковариациям b(t9 t') процесса Xt будут соответствовать точные средние m8h, m\ коэффициентов Фурье и точные их ковариации, определяемые выражениями: «й- Т / Sbit.nsin (*25.f) sin [iZLf} dtdf; 485" "f f [ 6^'')sin (k2ft)c<*(l2ft')dtdt'; 41= jr{ I b (/. f) cos (* *L *) cos (/ |-*<) ЛГ. Обозначим матрицу этих коэффициентов через Вф. Собственным семействам средних ЗЯ и 23т ковариации процесса Xt будут соответствовать собственные семейства средних 9ЛФ= = S<t>S(tt, где Бф— обозначение преобразования Фурье, и матриц Я5ф, m ковариации в пространстве коэффициентов Фурье. Это соответствие взаимно однозначно. Перейдем к тому случаю, когда Xt есть стационарный в широком смысле с к в-;н епрерывныи процесс, полагая для простоты MXt==0. Тодда все функции собственного семейства S3 будут непрерывными, зависящими от разности аргументов, а ковариации коэффициентов Фурье будут равны Ь8ем= = 0 — это для перекрестных синус-косинус, а для совпадающих.— уже не будут нулевыми и для отдельной b(i—£')е93 записываются: *5 - - / » О Г— «* (k+l)m sin (*-3»P-—> ± ±_L_ cos й=й«! sin !Ш1*1]Л%, k^l; ^ = ^ = 2jb(T)^cos^dT+o(-7). Из данных выражений видно, что при Г-voo и &2я/Г-хо имеет место сходимость: b8Skr+6kiB((>>), Ьссы-^6ыЯ(о>), оо где Б (со) = 2 J ft (т) cos cordт о называется энергетическим спектром процесса, а 6ы=1 при £=/ и 0 при кф1. Каждой точной неотрицательно определенной кор- 185
реляционной функции b(t—t') соответствует энергетический спектр В (со), обладающий свойствами: S(cd)>0;B(g)) = B(-cd); В (со) ->- 0 ; 2 ] В (со) dco = Ъ (0). |ю|->оо 0 Собственному семейству 95 ковариаций, таким образом, ставится в соответствие собственное семейство энергетических спектров. Рассмотрим следующие спектральные преобразования процесса: Здесь со называется частотой, a Xso>,r и Хса,т — спектральными составляющими процесса. Очевидно, Х82як/т,т=Х8к, Хс2лк/т, т = ^\, на основании чего можно сделать вывод, что спектральные составляющие XVt и Хс(о,т, <ое^2, дают описание на интервале (0, Т) скв-непрерывного 'процесса. Задать модель М процесса Xt — все равно, что задать соответствующую ей модель в частотной области при —оо<«о<оо, где процесс Xt, O^t^ZT, заменяется на пару процессов XS^T> Хса>,т, которую удобно записать в комплексном виде Х<».т =*£>,r + J'*L,r= Yt( XteX?ii(*t)dt и называть спектральным двойником Xt. Это комплексная функция со. По формуле (4.11) можно, зная спектральный двойник, однозначно .восстановить Хи поэтому Xt и Л©,г эквивалентны. Спектральные процессы. Понятие спектра процесса имеет под собой твердую физическую основу и защищено с практической стороны экспериментами, а с научной — теоремой Винера — Хинчина. Мы дадим отличающуюся от классической математическую интерпретацию спектра — ту, которая логично вытекает из наших построений для стационарного непрерывного процесса. Понятие спектра так или иначе предполагает бесконечное время, поэтому пусть процесс задан на j[0, T] и Г->нх>. Считаем MXt = 0. Спектральный двойник Jf^r, рассматриваемый при каждом фиксированном со как последовательность индексированных параметром Т случайных величин, при Г->-оо не является скв-схо- дящимся ни к какой предельной случайной величине; скв-предела не существует. Но это не столь важно. Важно то, что для стационарных процессов «перекрестные» корреляции между разными частотами при Т-+оо стремятся к 0, а именно, верно следующее: lim М(Х(д,гХ(й',г) = 2В(со)бо(^-«'); lim М (Хсо.г Х«>',т) = 2 В (со) б0 (© — ©О» Г-»оо 186
oo oo где В (со) = inf 2 Г b (т) cos <oxdx, В (со) = sup 2 Г Ь (т) cos cotdr, a - 6e» S бе» о 6o(w—со7) есть 1 при со=10/, иначе 0. Отсюда видно, что к нулю стремится корреляция между действительной и мнимой частями спектрального двойника. Обозначим А*© процесс, обладающий предельными при Г->-оо корреляционными свойствами процесса Хы>т, и назовем его спектральным процессом. Согласно написанным выше соотношениям для спектрального процесса имеем следующие определяющие его равенства: МХ1 Х^ = МХ% Х'т,-МХ'Л Х;. = Л«Х« *i»0, <»=*«>'. (4.12) Корреляционные свойства J?®, с учетом (4.12) приводятся к виду - 8ир[2с,Я(©,)+2 4Д(©/)], Ж©) где В(<д) способствуют собственному семейству ковариаций. Отсюда л? [(xi)2-(xi)2]-Ai[(xi)f-(x;)2]-o. (4.1з> Из полученных уравнений видно, что для заДания модели спектрального процесса достаточно задать либо М2й(^с©/)2, либо M^Ci(Xs&i)2y либо М 2 C||*.J2=- sup 2 c^W, V©,. (4.14) Доказано такое утверждение. Спектральный двойник Х^т скв-непрерывного стационарного в широком смысле процесса Xt с нулевым средним при Т-**оо ИМ-сходится в направлении корреляционных свойств % спектральному процессу Х&, заданному первичными значениями (4.12)г (4.13), (4.14). Констатируемая утверждением сходимость является необходимым условием стационарности в широком смысле скв-непрерывного процесса. Но не достаточным, так как спектральный двойник процесса, являющегося нестационарным лишь в некоторой локальной области времени (пример: Xt = mt + lu где |* стационарен, a mt — любой урезанный вне фиксированного интервала процесс: mt = 0 при |/|>Г0) и стационарным на остальной временной оси, также будет сходиться к J?©. Необходимо отметить, что спектральный процесс J?©, определенный первичными значениями (4.12) — (4.14), в общем, не имеег аналога во временной оси, поэтому его нужно рассматривать как: 1) способ задания предельных (при Т-*~оо) корреляционных 187
свойств исходного стационарного в широком смысле процесса Xt\ 2) самостоятельный способ задания не существующих, но удобных в каком-то смысле процессов (как белого шума, для которого В (со) = const и для которого аналогов во времени даже в предельном смысле нет). Одним из основных достоинств перехода к спектральному процессу является простота и наглядность его пересчета при однородных линейных преобразованиях, о чем речь в следующем параграфе. 4.4. ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ ПРОЦЕССА Гладкость преобразований и непрерывность процессов. Линейными- называются преобразования вида Yt= { h(t,r)XTdr9 (4.15) о где h(t,%) есть импульсный отклик фильтра, т.е. его реакция на дельта-скачок на входе в момент t\ Yt — процесс на выходе, если яа вход поступает Xt. Считается, что реализации процесса интегрируемы с весом h(t, т). Многие процессы обязаны своему виду и свойствами линейным преобразованиям, вызванным характерной для систем наблюдений и измерений инерционностью среды, устройств и звеньев. И чем больше инерционность фильтрующей системы, чем медленней меняется h(ty т) по т, тем плавнее, глаже будут пропускаемые на ее выход реализации Yt в силу способности такой системы нивелировать скачки и быстрые колебания входного процесса. Сказанное подтверждается неравенством т 17^,-7,1 = J [h(t + At,T)-h(t9T)]Xxdr\^ <(max|Xx|) / \h(t + At,x)-h(ttx)\dr, % ° из которого видно, что при ограниченном входном процессе шах|Хт|^Я скорость изменения выходного за промежуток At определяется тем, насколько отклик фильтра изменится, если дельта-скачок на входе сдвинуть по времени на А/. Поделив обе части на At и устремив к нулю, получим неравенство для производной \dYt/dt\ < (max \Xt\) [ \dh (t, x)/di\ dr. о Такое же неравенство верно и для старших производных. Расчет выхода фильтра. Расчет модели процесса У*, определяемого в (4.15), производится строго то общей методике § 2.1. Сначала выявляются А-представимые признаки входного процессе
са, т. е. записываемые в виде функционалов ig{$h(t, %)Xxd%}=> *=gh{X). Для них рассчитываются средние Mgh{X}, и они же напрямую переносятся на аналогичные средние Mg{Y} процесса Yt, в совокупности своей и определяющие его модель. Проследим этот путь на примере входного процесса второго порядка. Первичными для него являются средние линейно-квадратичных признаков, записанные в интегральном виде М Ц c\k) Xtdt+H Xt tift. Xvdtdtr] = mkf k = 1,2, ... , или сокращенно для левой части: M(c^h\ D<fe>) =mfe, k — чшмер первичного признака. Первичные значения и определят по формуле согласования и продолжения средние от любых пар Л* (с, D), составляющих все вместе корреляционные свойства. Из них ft-представимые признаки, т. е. допускающие запись с* = J* h (*, т) ех dx, Dttr = JJ h (t9 т) НхХ h (t\ т') dxdx' или сокращенно (по аналогии с векторной формой) (с, D) = (he, hHh), определят модель выходного процесса своими средними Ж (е, Н)= Мх(с, D). Напрашиваются следующие выводы. 1. При линейных преобразованиях процессы второго порядка переходят также в процессы второго порядка, т. е. корреляционные свойства в корреляционные свойства. 2. Если все первичные признаки входного процесса второго порядка h-представимы, т. е. (c(ft), D<ft>) = (he<ft>, hH<fe>h), &=1, 2, ..., то первичными для выходного процесса будут (e(fe>, H(fe)) с теми же средними. Тогда входной и выходной процессы будут подобными. 3. Если преобразование обратимо в смысле существования отклика hrl(t% т) обратного фильтра, определяемого уравнением $h(t9T)h-t (t',r)dr = 8(t-tf), то преобразование наводит подобие между процессами Xt и Yt, а первичными для Yt будут признаки е<*)« J Л-1 (ttT)c^dr9 ЯДО, = JJ> fc-i (f, x) 0[*), Л"1 (Г, т') dxdx'. Линейные преобразования можно изучать с помощью подчиненно-аддитивного представления: Xt = mt + %ttm, где для процесса второго порядка слагаемые определяются собственными семействами средних ЯИ и ковариаций *Вт (см. (4.6)). Тогда такое же представление будет иметь выходной процесс, записываемый У*- J h (/, т) тх dx+ J Л (/, т) £x,m dx = nt + r\t,n и рассматриваемый как отдельное прохождение через фильтр 189
среднего и случайной добавки, что и определит нам собственное семейство средних Я и кавар.иаций ^ „ на выходе: Я ={nt:nt= j* ft (t, т) тх dx, тТ е Щ, Я„ = {/Сп (*, О - J J* Л (*, т) Л (Г, т') ft (т, т') dxdx\ Ь е »„,}• Они и определят полностью выходной процесс второго порядка,, по ним могут быть рассчитаны корреляционные свойства. Но расчет легче дается использованием собственных семейств входного процесса, что и продемонстрируем на примере. Пример 4.8. Расчет границ ковариации. Пусть Xt=mt+%tr где Л1£* = 0 и %t свободен от ти © результате чего 53m =95, Vm. Пусть также отклик фильтра неотрицателен h{t, т)^0. Тогда границы ковариации выходного процесса рассчитываются как максимум по входным /С(/, t') = J£hy9 Т)Л(/', т')Т(т, xf)dxdx'. Пусть однородный процесс второго порядка (для него 5(f, t')=5(t—t'))* имеющий конечный интервал тКОр корреляции (т. е. 5(t—1')=0 при \t—t'\> >tKop), пропускается через инерционный фильтр такой, что отклик неотрицателен &(/, т)^0 и как функция переменной х мало меняется за тКор: h(t, т+ +Ткор)«/г(/, т). Тогда границы ковариации выходного процесса будут полностью приобретать черты линейного звена, как это видно из следующего упрощения предыдущего выражения: K_(t, t') = fjh(t, i)h(t\ x + A)l[(A)dxdAtt ^^T(A)dAjh(t9 x)h(t', x)dx=^*Ko(*> *'). где Ko(t, t') определяется исключительно откликом фильтра. Можно было бы представить Yt=yY0t, где множитель у произволен в интервале (у, у), а У0* имеет нулевое среднее и точную ковариацию /Со (/, i'). Однако это представление верно лишь для расчета границ ковариации и отнюдь не означает, что собственное семейство сужается до y2Ko(t, x) (как это было бы, если бы входной процесс был стационарен). Назовем фильтр однородным, если h(t, т) = h(t—т), т. е. его реакция с точностью до сдвига одинакова вне зависимости от момента поступления входа. Нетрудно видеть, что фильтрация однородного процесса второго порядка однородным фильтром снова ведет к однородному процессу. Линейное преобразование и представление стационарного процесса. Здесь считаем, что входной процесс стационарный второго порядка и MXt = 0. Тогда собственные семейства составляют ковариации, зависящие только от разности аргументов: b(t—t'). Очевидно, что если фильтр однородный h(t, x)=h(t—т), то и выходное множество ковариации будет таким же, зависящим лишь от разности аргументов: К (t-Г) = J h (*-т) h (f-т1) Ь (т-тО did*. 190
Таким образом, процесс остается стационарным, если его пропустить через однородный фильтр. Рассмотрим <по образу и подобию примера 4.8 прохождение стационарного широкополосного процесса через узкополосный фильтр. Последнее подразумевает, что за интервал, на котором Ь(т—т'), принимают ненулевые значения, h(t) меняется слабо, откуда получаем: K(t-f)&fb (Д) d/i$ h (*-т) ft (*'-т) dx = y2Ko (t-f). (4.16) Написанное позволяет следующим образом представить выходной процесс: Yt=-yY°u где MY°t=Of MY0tY°t>=Ko(t—t') определяется исключительно фильтром, а входной процесс влияет лишь на множитель 7- В итоге выходной процесс имеет точную ковариацию, определяемую фильтром. Сказанное особенно станет наглядным, если перейти от Xt к его предельному спектральному двойнику %&, смысл введения которого во многом и состоял в упрощении расчетов спектральных и, следовательно, корреляционных свойств !Выходного процесса. В самом деле, предельный спектральный двойник на выходе находится простым умножением входного на частотную характеристику фильтра: У.*Я.Х§|Яв= J /i(r)exp(jcoT)dT. —оо Как и для всякого стационарного процесса, выходной спектральный процесс задается некоррелированностью его действительной и мнимой составляющих (4.12), равенством их мощностей (4.13), а его особенности (4.14) отражаются следующими корреляционными свойствами (записанными в интегральном виде): М J cm\YJ*dn**M] cJtfJ2|XJ*dcD. —оо —оо С позиций собственных ковариаций правая часть равна 2 sup J cJ#JaB(co)dco, в(о» -~ где В (<&) — преобразование Фурье от b(x) и супремум берется по соответствующим собственному семейству спектрам. Например, если Xt был определен границами Б (со) энергетического спектра, то Yt будет определен границами (Яю^Щсо). Нетрудно видеть, что если В (со)—широкополосный спектр, а i#a>| — узок, то \Й«\2В(®)~В(®о)\Й»\*=т?\Й»\, где <о0 — средняя частота «настройки» фильтра, т. е. выходные свойства определяются только видом фильтра с точностью до энергетического множителя. Любой стационарный процесс второго порядка (с нулевым средним) может быть представлен как результат линейного преобразования некоторого «стандартного» процесса Z(t)9 имеющего 191
заданный ненулевой при каждом со спектр В0(со)>0, с помощью фильтра. В самом деле, выходной процесс будет определяться следующим семейством энергетических спектров: и всегда можно подобрать такое множество h частотных характеристик фильтра, чтобы получить заданное собственное семейство 95. Стандартным может быть любой формальный спектральный процесс Z(o, заданный своим энергетическим спектром. В частном случае, если им является «белый шум»: Во(<о)=Ьо, то |Я<,)|2= = /С(со)/&о и тогда с точностью до постоянного коэффициента семейство Я*® идентично ft. Отметим, что «белый шум» как спектральный процесс Z© не только не имеет аналога во временной области, но не является в пределе спектральным двойником никакого реального процесса Xt. Однако он определен сам по -себе в частотной области и дает удобную форму для представлений других процессов. Узкополосные процессы. Получаются при фильтрации широкополосного стационарного процесса узкополосным фильтром, настроенным на среднюю частоту ,о>о. Импульсный отклик фильтра с узкой полосой частот пропускания записывается h (t-f) = H(t-f) cos К (*-f) + <p]f где Я(т) — огибающая, медленно меняющаяся по сравнению с периодом 2я/соо частоты настройки. Подстановка отклика в (4.16) убеждает, что все собственные выходные ковариации обязательно приближаются при сужении полосы фильтра « оданому ©иду К (т) ~ — у2 J" Я (О Я (/ + т) dt cos*(o0t = y2 #0 (т) cos со0т, включающему /колебательный .множитель. А поскольку точно такими же 1ковариациями обладает представление Yt = т|* sin o)01 + Л? COs ^о U где r\°t и r\su называемые когерентной и квадратурной составляющими процесса, некоррелированы, стационарны, имеют нулевые средние и 'ковариацию у2Ко(г) приходим к выводу, что любой узкополосный стационарный процесс в комплексной форме записывается Yt = r\t exp (- jco00, r\t = 4/ + ht * где r\t — комплексная огибающая процесса, а сам процесс У* равен действительной части ?*: Yt = Rel^. Такое представление широко используется в статистической радиотехнике и при обработке узкополосных сигналов. При переходе к спектральным процессам указанная запись запись превращается в Угоа=т|со_<0в - 192
4.5. ЗАКЛЮЧЕНИЕ Процесс —- это явление, исходами которого являются реализации непрерывного времени. Современная теория знает разные подходы к описаниям случайных процессов. Самый общий, состоящий в задании процесса согласованными между собой многомерными распределениями вероятностей, оказывается сложным, неэффективным и трудноприменимым. Исключение, пожалуй, составляют нормальные процессы, и то из-за их близости к другому подходу — определению процесса его корреляционными свойствами. Корреляционный подход прост в понимании, полагается на физическую природу инерционности процессов, интерпретируется через спектр и находит широкое применение зо всех областях. Еще один подход состоит в использовании функциональных преобразований стандартных процессов, обычно белого шума (так задаются диффузионные процессы), и занимает промежуточное положение между указанными двумя. Всем классическим подходам свойственны абсолютно завершенные по детализации конструкций: если известны вероятности, то вся совокупность, то же с корреляциями. Все же в самом существовании корреляционного подхода и его успехах усматривается тенденция вынужденного отхода от абсолюта в сторону упрощений, ибо корреляции суть лишь составная часть, толика всего необозримого арсенала вероятностных свойств. Требование дальнейших упрощений вызывает необходимость открыть простор любым частичным, сокращенным описаниям, заданиям процесса его отдельными свойствами, и не обязательно в точном, а можно в размытом, интервальном виде. Незавершенные для классической теории, такие конструкции оказываются совершенно законченными и строгими, даже естественными, для интервальных моделей, где любые вероятности, корреляции, моменты (точные или интервальные) как фрагменты средних, если их принять за первичные, уже как-то определяют процесс, причем чем в меньшем числе, тем проще. Сохранение обязательных, наиболее видимых, характерных черт и «забывание» всех второстепенных доводит сложность описаний процесса до уровня, мало отличающегося от моделей явлений с простыми исходами (типа дискретных и непрерывных случайных величин, последовательностей) и к ним нередко сводится. А для этого требуется направленный подбор признаков, которыми служат функционалы на пространстве реализаций, и задание их средних. Таковыми для импульсной помехи могут быть вероятности превышений одного или сетки уровней. Для процесса, рожденного инерционным устройством, характерными являются частично известные корреляции, интервал корреляции, свойства непрерывности реализаций и т. п. Любые желаемые черты при соответствующем навыке переводятся на язык первичных средних. Новый подход требует пересмотра некоторых положений современной теории. Так, не всякий процесс записывается щк сумма его среднего и остатка, а верны более общие аддитивные представления (конец § 4.1). Необычно определяется ковариация, если среднее интервально. Используются и известные приемы. Так, процесс, заданный корреляционными свойствами (второго порядка), (Представляется семействами точных собственных средних и ковариационных функций. Упрощение структуры описаний может достигаться за счет неизменности свойств процесса во времени, что позволяет, задавая средние при одном начале «отсчета, перенести их по сдвигу на все остальные, преумножая тем самым 7-13 193
число первичных данных. Сказанное охватывается понятием однородности процесса как инвариантности во времени внешнего облика в виде первичных средних, а отсюда и всех остальных. Значительно более тонким и сложным оказывается понятие стационарности как сохранность во времени внутренней, подчас незримой микроструктуры модели процесса. Стационарность позволяет перенести процесс в спектральную область, я не столько перенести (так как это можно сделать и для других процессов), сколько выделить простые свойства спектра, особенно полезные в задачах стационарной фильтрации и при описании процессов через спектральные двойники. Спектральные описания в такой степени автономны, что позволяют задавать вырожденные процессы типа белого шума, не являющиеся ничьими двойниками, но крайне удобные для представлений свойств других, вполне реальных процессов.
Часть вторая. Статистический (синтез Глава 5. ТЕОРИЯ ПРИНЯТИЯ РЕШЕНИИ 5.1. СТАТИСТИЧЕСКИЕ МОДЕЛИ Что такое математическая статистика? В любой деятельности, будь то ^производство, социальная сфера или быт, приходится принимать решения. В последнее понятие вкладывается научный смысл, причем значительно более объемный, чем обиходный. Считается решением, во-первых, ответ на вопрос, каково значение интересующего нас параметра, определяющего положение объекта или состояние системы, тогда имеем задачу оценивания параметров. Например, определение дальности до цели. Проблемой оценивания охватываются решения, преподносимые в форме интервала (интервальные оценки) и вообще в виде нечеткого события (расплывчатые оценки). Такое оценивание называется доверительным, когда расплывчатость служит гарантом надежности. Во-вторых, решение — это непосредственное выделение значений некоторой физической величины в ее течении во времени, тогда имеем задачу фильтрации. В-третьих, решением будет выбор одной из двух гипотез типа есть цель или нет, параметр ноль или не ноль, быть или не быть и пр. и пр. В-четвертых, это проверка одной из многих гипотез, например, в каком из нескольких рабочих (частотных) каналов присутствует сигнал, кто из представленных для опознания есть преступник, на какую отметку знает студент, сдающий экзамен, и т. д. Если это есть выбор одного из дискретного набора значений числового параметра, то при сближении дискретов и, соответственно, увеличении их числа задача проверки гипотез сближается с оцениванием, так как решение будет все больше сводиться к выбору конкретного значения параметра. Таким образом, общая проблема принятия решений распадается на предметные области, которые между собой тесно соприкасаются. Что же необходимо для принятия решений? Пищу для решений дают наблюдения, так или иначе связывающиеся с интересующими нас параметрами состояния системы. Если искомые параметры можно наблюдать либо измерять напрямую, то проблемы нет и мы получаем абсолютно точный результат. Лучшего не может быть. Труднее, если наблюдения косвенные, искажены погрешностями, помехами, измерения неточные и результат завуалирован шумами. Тут-то и возникают потребности в статистических методах. 7* 185
Само по себе прилагательное «статистический» означает, что используются усредненные по многим наблюдениям данные, своего рода собирательный среднестатистический опыт. И новизна •нашего подхода по сравнению с .классическим в том, что оформляется этот опыт в виде интервальных моделей средних, что. позволяет охватить практически самый разноликий статистический материал в его «бедности <и богатстве, с учетом формы, объема, неопределенности и степени доверия к нему. Сами решения в статистических методах имеют статистическую окраску: они не обязаны быть совсем точными всегда, раз это невозможно сделать однажды, но в среднем должны приводить к наилучшему результату. Это и есть основная задача статистических методов — оптимальный синтез, которому посвящена вся вторая часть книги. Математическая статистика — наука анализа решающих правил и их синтеза — имеет давние традиции, корнями уходящими в историю теории вероятностей. Росли эти две науки вместе, лод- тягивая друг друга. Математическая статистика давала пищу теории вероятностей требованием освоения новых моделей, развивая для них методы. И в результате бурного совместного роста, обязанного XX веку, мы оказались .перед поразительным разнообразием моделей и методов. Доходило дело до абсурда, когда исследователи сначала придумывали на основе здравого смысла правила, а затем «наводили на них наукообразие», подыскивая модели, для которых эти правила оптимальны (если это и есть способ оправдания, то лишь своего существования). А потребителям ничего № оставалось, как верить или делать вид, что верят, следуя известной сказке про голого короля. Корни подобных абсурдов лежат в том беспрекословном подчинении, незримом фатализме, с которым выбор модели обуславливает метод синтеза и в итоге вид оптимального решения. И если пользоваться арсеналом точных моделей, то их кажущееся многообразие, с одной стороны, и ненадежность с другой — порождают одинаковое сомнение в вариантах выбора, делают равноценными совершенно разные модели, тем самым обезличивая оптимальные процедуры решений. Напрашивающийся выход состоит в расширении арсенала моделей, дополнения его простыми, грубыми, надежными моделями для удовлетворения спроса такими, (которым 'вполне можно и нужно доверять. Не набирать каждый раз модели как семейства точных, поскольку это долгий путь, а иметь готовые образцы на все случаи жизни — вот наша цель! Принципиально то, что в реальных задачах данных всегда конечное число и они не могут быть абсолютно точными. Именно таковыми являются основные развиваемые нами модели, обретая потенциальную надежность в ущерб утерянной точности. И именно в этом заложен смысл подготовленных нами алгоритмических методов, ориентированных на конечное число данных, а «при неограниченном увеличении 196
рассыпающихся в «фейерверк» современных аналитических методов (так или иначе находящих разумное свое обоснование в рамках предлагаемого общего подхода). Новые модели пригодны для любых «климатических» условий: «переносят» как изобилие, так и дефицит исходных статистических данных, работают в условиях статистической неустойчивости (отраженной в интервальных средних), а также при частичном и полном отсутствии статистических данных. При этом в рамках индикаторных моделей интервальные средние могут подменяться указаниями интервалов, допусков на наблюдения, приближая нас к интервальному анализу, и в этом плане теория еще ждет своего развития. Статистические интервальные модели. Приступим к строгой математической формулировке (проблематики. Задача состоит в обработке наблюдений у^*У с целью подготовки данных и вынесения решений относительно состояний x^Sg объекта или явления. Примером состояний может быть наличие либо отсутствие сигнала, скрытого .шума, направление или дальность до цели и т. д. Переменную х будем называть параметром состояний. Область Зв значений х, в общем, весьма произвольна: дискретное множество, векторное или функциональное пространство и т. п. Предмет математической статистики возникает тогда, когда прямое наблюдение за состоянием х либо невозможно, либо затруднено наличием внутренних или внешних случайностей. Чтобы задача имела смысл, от состояний х должны зависеть свойства наблюдений у^?Ц> и тогда у будет описываться не одной, а семейством моделей J[yx, х^$в. Это есть переходные модели, эквивалентные некоторому случайному оператору Q (каналу), в соот- Q ветствии с которым й?->^. Само состояние х также, в общем, априори описывается моделью Жх, так что J[y=QJ[x. Произведение Мху=ЛхЖух дает совместное математическое описание исходов на °У и значений интересующего нас параметра х состояний. Совместная Jtxy называется статистической интервальной моделью (СИМ). Статистическая интервальная модель Жху в зависимости от того, распадается она на произведение ЖхЖух или нет, называется соответственно разложимой и неразложимой. Различие между ними состоит в способе формирования совместной модели. Для неразложимых это делается с помощью первичных средних Mg{x, у), g^S, содержащих данные о совместном поведении х и у. Эти средние могут быть найдены экспериментально, когда состояния х находятся вне нашего влияния, так что можно лишь пассивно следить за значениями х и сопровождающими их реализациями у. Разложимые модели являются результатом анализа поведения наблюдений у при каждом х^$8 в отдельности. Они будут иметь место тогда, когда на этапе формирования модели можно управлять значениями х состояний. Поясним разницу между моделями на примерах. 19/
Пример 5.1. Пусть синтез модели осуществляется на основании повторного совместного наблюдения реализаций *<п> и #(Л>, л=1, ~:.., N, при этом собираются сведения о средних значениях признаков g(x, у)&8. Далее усреднением и выставлением доверительных границ находятся первичные значения 1 N Mg(x, y) = — 2g(xin), у(п))-Д; 1 N Mg(x, y)=— Ss(*(n). y{n))+A. N л=1 В этом случае СИМ получается неразложимой. Если же имеется возможность управлять состояниями х и набирать статистику о среднем Mvxg(y) при каждом значении *<=#?, то будут получаться доверительные границы Mvxg(y)t, Myxg(y), задающие переходные модели разложимой СИМ. Пример 5.2. Пусть состояний всего два: хо и хи и каждому из них соответствует своя модель Л% и Луи интерпретируемая как семейство точных распределений вероятностей &у : Лух= V &v> х=х0 или *i. Тогда если &У<еЛух 0*v могут выбираться произвольно внутри Ж*х вне связи с тем, равно *=*<► или хи тогда Mf(x, y)=~Mx[6Xo(x). sup №Lf(x, y) + 6Xt(x) sup Ж>/<*. у)] и имеем разложимую СИМ, причем Ж*х =Жу0, Жух =JT«i. Если же &Vi из JCV* каким-то образом подчинены &у0 из Жуо, так что выбор одного распределения вынуждает вид другого, то, обозначая связь &*x = S&Vq, получаем Mf(xty) = sup МХ[Ь (x)WLf{x, y) + 6 (х)Жр f(x, у)]. 8>4=Л\ ° ° В этом случае СИМ сужается и становится неразложимой. Параметрами состояний могут быть средние характеристики случайного объекта или явления, скажем х=Мд(у), где ц — некоторая функция. Тогда Лух суть jfyty-сечения из представления: Л*=* V ЛУХ> гДе <Мх = Лу f\ (Mq = x) х<=ЗС и й?={лс: Лух¥=0}- Модель разлагается на произведение Лху~ =УхЛух, где 3t* есть голая на 9В модель. Это произведение эквивалентно следующему порядку вычисления средних: Mf(x, y)=* *=supMVgJ(x9 у) у и соответствует полному отсутствию априорных х данных о х. Одним из способов возможных упрощений СИМ является ее расширение, так как этот способ видоизменения СИМ не ухудшает ее надежности (а скорее наоборот, в отличие от сужения). Например, расширением неразложимая СИМ может быть приведена к разложимой. Вообще расширением можно свести СИМ к любой из заранее выбранных упрощенных форм. Вопрос только в том, к каким потерям точности это приведет, так как при не- 198
удачно выбранной форме приведенной СИМ расширение может обратиться в «раздевание» вплоть до голой модели Ьху> следовательно, к потере любых данных как относительно х9 так и у. Приведение возможно и к другим формам, о которых пойдет речь, и задача инжецера-исследователя — подобрать такую, какая ближе всего стоит к решаемой задаче с целью составить наиболее экономное описание. Функциональные представления наблюдений. Одной из форм задания СИМ является функциональное представление вида y = VxZ, XEE&, УЕЕ%1ЕЕЕ, (5.1) где I — некоторое случайное явление, называемое флуктуация- ми (либо шумом, помехой), а V есть оператор связи у с х и |, отображающий произведение 'пространств S&XE в <%/. В этом случае достаточно знать совместную модель Жх\ которая вместе с V однозначно определит СИМ Жху. Преимущества представления (5.1) будут ощутимы лишь тогда, когда простой по форме является ЖХЬ (или без особых потерь в расширении ее удастся упростить). Например, когда Жх*=ЖхЖ*, т. е. флуктуации | свободны от х. Можно заранее выбрать оператор V и расширением свести СИМ к виду (5.1). Тогда возникает вопрос о травильном выборе V, извлекающим из | все отличительное, что только требуется для у. Модели с мешающими параметрами. В определенных задачах выделяют так называемые мешающие параметры 8е0, считая СИМ JCqxv подчиненной Э. Если Э может быть любым внутри 0, так что априори его модель является голой Жв=Ув, то введение 0 эквивалентно представлению СИМ в виде объединения Жху=* = \/Жеху. При этом СИМ будет также частной к произведению Ж*ху=У* Жвху. Мешающий параметр может входить в функциональное представление у=Ув,х%> гДе он отражает неизвестные данные об операторе V. Это представление имеет смысл только вместе с упрощающими предположениями о совместной модели Э, х и g, что рассматривается в примере. Пример 5.3. Пусть имеет место представление #*=8+* (**+5*)» где ** есть сигнал, передаваемый по каналу связи; |* — аддитивный шум. Здесь мешающий параметр 0+*^О отражает замирания в канале. В случае независимости совместная модель запишется Ж^Ч=Ж^Х ЖХХЖ1. Если сведения о независимости нет, но имеет место свобода £ от в и х (означающая, что шум способен в некоторой мере «подстраиваться» под значения в и х в рамках заданной Ж\) и свобода 8 от х, то: Ж^Ч=ЖеЖхЖ1. Наконец, возможен и другой вариант, когда Ж^Ч=ЖХ1Ж^ и здесь уже параметр 6 может тактически «подстраиваться» под х и \ в рамках Ж*. Робастные модели. Получаются заданием или интерпретацией моделей семействами распределений вероятностей, оформленны- 199
ми как некоторые окрестности в пространстве распределений. Так может описываться и сама по себе СИМ, и модели флуктуации (или параметра состояний) в функциональном представлении наблюдений. Задается семейство Ж=\у& в виде метрических ограничений типа {№: d (3*, ^0) < е}, где d — («расстояние» от распределения вероятностей 9* до «центра» ^о- Читается, как семейство всех распределений вероятностей 9>> отстоящих от ^о не более, чем на е. Разные метрики d ведут к разным семействам, разным моделям. Одно из распространенных семейств дают интервальные плотности: p{z), p(z) — семейство всех плотностей, располагающихся между нижней и верхней границами (здесь z заменяет переменные лг, у или обе вместе). Выделим «центр» p0{z)=\[p(z)+p(z)]/29 он формален (это может и не быть (плотность); тогда семейство {p(z) : p(z)^p(z)^ ^p(z)} выражается метрически так: (р(г):тах 1рй-»«1 < И . ( г ?<*)-£« 2 J Частные варианты интервальной плотности, соответствующие p(z) = ооу дает семейство «засоренных» {[11] распределений, эквивалентно представляемое: (1—s)po(z)+epY(z)9 где po(z) — заданная, Pv(z) — совершенно неизвестная плотность, и тогда p(z)=i(l—e)po{z). Семейство записывается через функции рас- пределения: (1—e)Fo{z)+eFY (z)9 где FY(z) — произвольна. Понимается такая модель так, как будто с вероятностью (1—е) случайный исход z подчиняется заданному «чистому» распределению вероятностей, соответствующему Fq(z) (или po(z))t а с вероятностью е может быть все, что угодно, что и вызывает «засорение» чистых знаний и появление семейства. Робастный подход имеет поддержку в виде теоремы 1.3 о представлении, по которой модели интерпретируются как семейства распределений вероятностей. И этот подход мог бы быть универсальным, если бы не огромные трудности, встающие на пути описания метрическими ограничениями самых разнообразных семейств и свойств, особенно таких, как зависимость между случайными величинами внутри последовательности или процесса. Угроза получить громоздкий ком описаний вместе с вытекающими отсюда трудностями синтеза очень ограничивает сферу действия робастных моделей и методов. 5.2. ОПТИМАЛЬНЫЕ ПРАВИЛА Расплывчатые решения и решающие правила. Целью статистических методов является вынесение решений относительно состояний х^$Р по наблюдениям у. Каждое решение есть некоторое суждение о состояниях. Это суждение может выражаться в де- 200
терминированной форме в виде указания конкретного элемента £ пространства SB, так и в нечеткой форме в виде подмножеств #?, или в виде нечетких событий £ (а:), q(x) (е. 88), где специфично для решений границы обязаны совпадать и обозначаются d(x). Решениями называются любые нечеткие события на пространстве состояний SB, описываемые функциями d(x)f x&SB, такими, что 0^.d(x)^l. Функция d(x) — изображение мнения относительно возможных ху выраженного ъ виде некоторой кривой предпочтений разным значениям х по шкале [0; 1]. Это же при каждом х и степень уверенности, даже вероятности, с которой элемент х включается как возможный представитель решения. Множество всех возможных решений (всех функций 0^ ^d(x)^.l на SB) обозначим Dv. В Dv входит решение d(x)z=l, соответствующее фразе: «Какое-то состояние на SB имеет место». Туда же входят индикаторные решения d(x)=A(x), AczSB, соответствующие фразе: «Имеет место какое-то одно состояние из множества А на SB», В случае SB=31, когда множество А есть интервал прямой: А=\[а, Ь], индикаторное решение называется интервальным решением. Решение в виде дельта-функции: d(x) = =6-(я), состоящее в указании одного конкретного состояния jf, называется детерминированным. Наконец, решение d(x)=0 соответствует тому, что никакое из состояний SB не имеет места. Удобно выдавать 0 за белое, 1 — за абсолютно черное, и воображать себе ,в общем d(x), .как размазанное пятно (переменной контрастности на белом фоне, своего рода как нечеткое изображение цели на экране осциллографа. Величину supd{x)—infd{x), равную высоте d(x), будем называть контрастностью решения, а решение, принимающее хотя бы раз как значение 0, так и значение 1 — контрастным. Контрастность, это в некотором смысле несомненность, уверенность решений. Множество контрастных решений обозначим Аи:Дн = = {d(x) :infd(jic)=0, supd(je) = l}. В D0\ ©ходят как все детерминированные решения £>дет, так и все индикаторные (интервальные) £>и. На этом основании верно включение: DAeTczD^czDoiCzDY. Вернемся к множеству Dv всех решений. Оно замкнуто относительно логических операций: «не d(x)»o~l—d(x)\ «d\(x) или d2(x)»<=>d(x)=max{di(x), d2(x)}\ «di(x) и d^\x)»^>d(x) = — min{di(A:), d^ix)} (то же можно сказать относительно Оя). Множество Dv замкнуто и относительно рандомизации: «выбор di(x) с вероятностями piy 2iPi=l»<=>d(x)=2lpidi(x). Рандомизацией выражаются решения, высказанные в виде сомнения. Так, фраза: «Вероятно (с вероятностью р) имеет место решение d*(jc)» отражается абстрактным событием d(x) = pd*(x). Если, скажем, d*(x)=A(x) — индикаторное решение, то решение рА(х) будет соответствовать предложению: «Имеет место одно из состояний множества А со степенью уверенности р, и никакое из других состояний (т. е. из Лс)». Таким образам, разнообразие нечетких событий позволяет выразить разные оттенки решений. 201
Перейдем теперь от решений к решающим правилам. Они каждому наблюдению у указывают, какое решение при этом следовало бы принимать; т. е. полностью задают схему, процедуру принятия решений, какое бы у »и случилось. Если решения нечеткие, то отравила называются расплывчатыми. Чисто формально решающее правило ду(х) есть отображение пространства наблюдений ^/ в множество всех решений дУ гч Мы ограничим кл ассы правил, если заменим Dv на некоторое его подмножество D. Такие правила каждому у ставят в соответствие решение d(x) из множества D, DczDv. Правила классифицируются но виду решений. Если D=DAev есть множество детерминированных решений, то правило называется детерминированным; если D = DH есть индикаторные (интервальные) решения, то правило называется индикаторным (интервальным). Наконец, если D=D0{ — множество контрастных решений, то правило называется контрастным. Обозначения классов правил сродни решениям: iZ)v, 2)Лет, iZ>m iZW Потери. Решенде d(x') принимается >в конечном счете относительно состояний x'^lSB, поэтому требуется охарактеризовать его правильность, н асколько оно угадывает искомое х, охватывает что ли его. Бу_цем характеризовать противоположную величину— неправильность — с помощью потерь я(лс, d(x')), определяющих плату за решение d(x'), если на самом деле имело место состояние х. Это, >в общем, функционал от нечетких решений d(x')9 зависящий от истинного состояния х. В частном случае детерминированных решений потери я (л;, х) будут функцией двух "переменных: истинного состояния х и принимаемого решения х. Ниже даются примеры потерь. Пример 5.4. Де льта-потери. Используются при детерминированных решениях и имеют вид обратного дельтанвыбрюса: п(х, х') = 1—-б * (х). Шь тери равны 0 при х=^с (правильном решении) и равны 1 при ошибочном. Такие потери означают, что нас не волнует, какую ошибку дает решение & по отношению к истиннсэму состоянию х, а лишь интересует сам факт, имеется ли ошибка (тогда потери равны 1) или нет (тогда 0). Эта крайняя категоричность: либо все, лиСю ничего — сглаживается при обобщении с детерминированных на произвольные нечеткие решения в следующем примере. Пример 5.5. Составные потери. Пусть n(xt d(x')) = l—d(x) + +№i{d(x)}. Потери ра^ны величине неуверенности 1—d(x), с которой решение d(x) судит об ист-инном состоянии х плюс ущерб XQ{d) за расплывчатость. Ущерб пропорцкюнален ширине и обычно есть интеграл от d(x). На прямой 8в=& это буд^ет площадь под функцией d(x), определяющая интегральную ширину. Для* детерминированных правил ширина нулевая: Щ*} = =0 — и для них сост авные потери совпадут с дельта-потерями. Параметр к есть весовой коэффици ент, увеличение которого повышает акцент ущерба за расплывчатость. Пример 5.6. Квадратичные потери. Эти потери используются для детерминированных; правил и равны квадрату «расстояния» между при» 202
нимаемыми решениями St и истинным состоянием х. В случае №=9L потери п(х, х)=*(х—х)2, а при многомерном параметре состояний Яв=91п — это п будет квадрат длины вектора ошибки: п(х, i)=2(*i—*02- Наконец, для 1 процессов квадратичные потери превратятся в интеграл: п(х, х) = С (xt—ftt)%dt. Обобщением являются потери, определяемые в виде метрики на 26> г для линейных пространств 9В — в виде нормы: п(х, х) = ||jc—x\\2. Распространить такие потери на интервальные решения d(x')f=[x, Л] можно было бы, скажем, положив п(х, ££(*')) =min{|U—;||1, \\x—х||2}. Потери целенаправленно выбираются исходя из того, какие решения (решающие правила) мы можем реализовать на практике, на какие их стороны следует обратить особое внимание и что желательно получить. Немаловажна и простота. Так, для задач расплывчатого оценивания удобными оказываются составные потери, а для задач фильтрации — (квадратичные. Потери сами по себе могут быть неоднозначными, если их выбор вызывает сомнения. Тогда они определяются двумя границами: п(х, d(x')), я(лг, d(x')), своего рода наилучшими и наихудшими потерям^ В частности, может быть задана только граница потерь сверху я и тогда, учитывая, что я неотрицательна, останется считать я=0. При равенстве я (a:, d)=n(x, d) потери называются точными и обозначаются я(#, d). Риск. Текущие свойства решений оцениваются потерями, а глобальные свойства правил ду (переменную х удобно опускать) как процедур принятия решений, завися от потерь, определяются существенным образом совместным поведением наблюдений у и их связью с состояниями х, т. е. видом СИМ Л^. Так как ни конкретных значений х, ни каково ожидается у на стадии синтеза правил мы не знаем, то свойства нужно характеризовать в среднем, с учетом среднестатистических изменений х и у. Для этого нужно усреднить потери и получить нижний и верхний средние риски: П (д) = M*v я (х, ду), П (д) =~М*у я (*, ду). Нижний — это риск, лучше (меньше) которого быть не может, а верхний — наихудший из возможных; с одной стороны, риск оптимистичный, а с другой — риск пессимистичный. Забегая вперед, отметим, что риски могут вычисляться и по-другому, не только как средние значения, а с добавками, ну скажем, за расплывчатость правил или другие их негативные черты. Это будет уже не средний риск, а составной, о котором пойдет речь в следующей главе. Такую возможность обобщения держим всегда в уме. В дальнейшем удобно иметь в качестве риска не два, а одно число, взвешивая между собой нижний и верхний его значения: П* (д) = (1 -х) П (д) + хП (д), х> О, (5.2) 203
где к есть коэффициент пессимизма. При х=0 и х=1 риск равен соответственно нижней и верхней его границам. Случай х=0 ведет к П(д) и соответствует крайнему оптимизму, т. е. расчету на наилучший расклад: «авось повезет», тогда как х=1 зовет к П(<?) и стратегии пессимизма. Допускается х>1— это сверхпессимизм. Значение х=1/2 соответствует полуоптимизму. Два значения х = 1 и х=1/2 занимают особое положение, о чем пойдет речь дальше. Статистическая задача. Формализуется как совокупность исходных данных в виде Т= (Лху, 2), ,[П], х), где Мху есть СИМ; 3) — класс 'решающих правил, которыми мы собираемся ограничиться; х — коэффициент пессимизма; [П] — способ вычисления риска. Для среднего риска его заменяет функция потерь, заданная точно1[я] или интервально [я, я]. Статистическая задача может быть более и менее широкой. Для двух задач Ti и Т2 говорим, что Ti не шире Т2, если_Х1=х2, £Di=2)2=& и выполняются неравенства: ni(d):^II2(d), Ili(d)^ ^П^(^), VdeiZ). Тогда Ti является более узкой задачей, чем Y2, как в случае М\ху<^.Ж^у или [яь я^сг^яг, я2]. Статистическая задача поставлена, если для любого решающего правила ду&2) могут быть вычислены риски Пх(д). Слишком широкая статистическая задача (например, Mxy=2fxy или я==0, я^=1) приводит к тривиальным рискам и ее нужно сужать. Кроме того, целевое расширение статистической задачи (расширение Jtxy либо [я, я]) (может служить средством ее упрощения. Классификация статистических задач. Характер статистической задачи определяется многими факторами: структурой пространств SB и ^, видом СИМ JCxy и т. д. Но для классификации наиболее важен вид пространства состояний SB и какие решения D относительно состояний могут приниматься. Если D имеет две степени свободы, т. е. любое d^D представляется как линейная комбинация d(x) =C\A (х) + с2(1—A(x))t AczS6\ то имем задачу проверки двух гипотез: одна из них состоит в том, что хеЛ, и альтернатива хф.А. Если d{x) =^CiAi(x)9 где множества At образуют разбиение SB, то имеем задачу проверки нескольких гипотез, т. е. что ^еЛг-. К проверке гипотез всегда можно свести задачу, если SB дискретно и состоит из конечного числа элементов, хотя это же и задача оценивания значений х, четкой грани здесь нет. Если SB непрерывно, например 3£=&, и на решения никаких ограничений не накладывается, то имеем задачу оценивания параметра. Во всех случаях числа а{д) = МхУ[\ -ду(х)] = 1 - МхУду{х), а(д) = 1-МхУду(х) 204
есть нижняя и верхняя вероятности ошибки правил. Соответственно а*(д) = (1-к)а(д) + ха(д) будет взвешенной вероятностью ошибки. Если на класс £t> накладывается только одно требование, чтобы для всех д^З) фиксированной была вероятность ошибки а*(д), то имеем задачу доверительного решения. Доверительные решения обязательно должны быть расплывчаты, так как для детерминированных оценок числового параметра ошибка, если отбросить вырожденные случаи, будет равна 1. Детерминированные .правила 5е2)дет записываются: ду(х) = =6;у (а:), или просто ху, где х^$Р. Алгоритм ху есть отображение °Ц->$в, указывающее каждому у оценку х состояния. Оптимальность и пессимизм. Оптимальными называются правила д*у, минимизирующие риск Пх(д). Они дают решение поставленной статистической задачи Т. Для оптимальных правил риск равен v (Г) = inf П* (д) и называется ценой задачи. Минимум риска .на классе Ф может не достигаться, и в то же время i>(Y)<oo. Тогда будет существовать подоптимальная последовательность д(П)^Ф правил, качество которых сколь угодно приближается к наилучшему: i>(Y)= lim П*(д(П)). При любом е>0 в этой последовательности можно ука- л-»оо зать такое «е, что UK(d(n))-~v(Y)<s при п>пе и, следовательно, ущерб не будет превышать ,8, сколь угодное малое. При х=1 оптимальные правила (подоптимальные последовательности) минимизируют максимальный риск и называются минимаксными. При х^1 .расширение задачи (в смысле данного выше определения) увеличивает цену, равно как и дальнейшее сверх 1 увеличение коэффициента пессимизма х. Чтобы сказанное стало совсем прозрачно, нужно переписать риск (5.2) в виде IF (d) = U (д) + к[П (д)-П (д}] (5.2') и обратить внимание на то, что он состоит из суммы нижнего риска плюс разброса риска (от наилучшего к наихудшему случаю), взвешенного коэффициентом * пессимизма. Коэффициент х, таким образом, играет роль регулятора изменчивости риска оптимального правила дк, так как при росте х увеличивается вес второй части (5.2), что вынудит в итоге синтеза уменьшение разности П(дх)—П(дх), делая риск более устойчивым в смысле разброса, более гарантированным. Значение х=1 свойственно пессимизму, а х>1 — сверхпессимизму. 205
Уменьшение и ниже 1 приводит к принципиальным изменениям в статистической задаче. Теперь уже. расширение СИМ в целях упрощения может даже уменьшить цену задачи, так как приводя к увеличению верхнего риска П(д), в то же самое время уменьшает нижний П(д). Причем при х>1/2 преобладающим в весовой сумме будет верхний риск, а при х<1/2 — нижний. Случай чрезмерного оптимизма и<1/2 вызывает противоречие: чем меньше известно (чем шире СИМ), тем лучше. Что называется: «хорошо ловить рыбу в мутной воде». А имеет ли вообще смысл оптимизм и<1? Наверное да, так как пессимистичный настрой, хотя и делает правила устойчивыми, но достигает этого, поступясь ухудшением качества, размениваясь ценою задачи. Оптимизм же при удаче даст выброс качества; напротив, при неудаче (приведет к дополнительному ухудшению, усугубив положение. И вопрос в том, что лучше иметь, либо заведомо что-то гарантированное, надежное, либо что-то неустойчивое, но временами то более хорошее, то более плохое. Вопрос решается в сторону оптимизма, когда ожидаемое как гарантированное заведомо худо и удовлетворить не может. Тогда добавок оптимизма за счет усугубления перепадов в качестве оставляет надежду (свойственную игрокам) на благоприятный исход, если, конечно, повезет. Лучше надежда, чем гарантированная обреченность (поэтому в азартные игры любят играть люди малообеспеченные). Случай х=1/2 полуоптимизма является особым. В нем одинаково заложен расчет на «удачу» чи на «неудачу». И особенность его, как это с первого взгляда ни покажется странным, в рекомендации пользоваться именно точными распределениями вероятностей при поиске оптимальных правил. Теорема 5.1. Пусть СИМ определено согласованными первичными вероятностями P(xf у), Р(х9 у) на дискретных SB и ^, причем 22;[^(*, У)+Р(х> У)] =2. Тогда при точных потерях х у ~ п(х, ду) в режиме полуоптимизма и =1/2 средний риск любого правила ду равен 114* (д) = 2 я (*, ду) Р0 (х9 у), Р0 (х, у) - [Р (х, у) + Р (*, у)]/2. В самом деле, при этих условиях, как это следует из формулы (1.6) для средних Mf, Mf у аддитивных ИРВ, имеем Mf+Mf=*2%2f(xf y)Po(x, у), откуда — — ху подстановкой вместо / потерь получаем результат. Основной вывод тот, что раз риски выражаются через точное совместное распределение вероятностей Ро(х, у) (согласно условию теоремы 22J\>(*t #) = 1)> то я поиск оптимального правила следует производить по этому точному распределению Ро. Теорема 5.1 один к одному переносится на произвольные пространства SB и ^, на произведении которых заданы интерваль- 206
ные плотности р(х, у), р{х9 у) такие, что центральной (среднеарифметической) между ними ро= (Р+Р)/2 будет также плотность. Например, Р (*> У) = Ро (*> У)-М*> У)> Р (*> У) = Ро (х> У) + А (*> У)> где ро есть некоторое предположительное значение плотности, а А — ошибка в ее знании. Тогда риск П(1/2)(д) вычисляется по ро и не будет зависеть от ошибки Д, и следовательно, от ширины СИМ. Все будет определяться центральной плотностью p<j(x, у). Конечно же, это частный результат, соответствующий СИМ, заданной аддитивным интервальным распределением вероятностей, но он определяет статус точных вероятностных моделей при решении статистических задач, когда предположение о- том или ином виде плотности или распределении вероятностей выдается за уверенность в адекватном выборе модели. Проблема достаточности. Хорошо, когда на стадии предварительного анализа статистической задачи по ее внешним чертам сразу же возникает возможность сузить класс решающих правил до размеров, облегчающих поиск оптимального. Так сказать, создать своего рода ограждение, достаточное в плане уверенности, что оптимальное (Правило находится внутри него. Тогда нахождение оптимального правила приобретает двуэтапность: сначала как можно большее сужение диапазона поиска, а затем уже окончательный выбор. Сейчас речь пойдет о первом этапе, получившем название достаточной редукции. Достаточная редукция производится по внешнему облику задачи, поэтому будет однотипно определяемой для семейств статистических задач, объединенных одинаковыми чертами, такими как: 1) особенности СИМ, число и вид первичных признаков; 2) характер $в и 3), задающих постановочную цель решающего правила; 3) вид функции потерь; 4) область значений коэффи-^ циента пессимизма к. Причем тем весомее будут те или иные приемы достаточности, чем для более широкого семейства задач они пригодны. В свете сказанного проблему достаточности будем подразделять на глобальную, когда редукция производится с лозиций среднего риска по виду СИМ, или же только по внешнему облику функции .потерь, и специальную, когда достаточная редукция связывается с конкретными SB и iZ>, привязывается к задаче проверки гипотез или оценивания и к выбранному типу риска. В этой главе мы касаемся только глобальной проблемы, оставив специальные на последующее предметное изложение по главам. Дадим формальное определение. Подкласс 2>* решающих правил называется достаточным, если произвольному правилу d^SD при любом заданном е>0 можно указать правило д*^2>* такое, что Пх(д*)<Пх(д)+е, т. е. любому правилу из исходного (соответствующего Т) класса 2) можно указать не худшее его в смысле 207
риска (если только на сколь угодно малую величину е) правило цз достаточного подкласса 3)*cz3). Достаточность и функция потерь. Следующее утверждение о достаточности связывается с неограниченными потерями. Тогда риск П(д)=Мк(х9 ду) будет конечным лишь для тех д*> яри которых п(х, ду) принадлежит области существования верхних средних СИМ. Для остальных он бесконечен, как бесконечным будет П*(д) при любом х>0 и такие правила могут быть исключены из 3), редуцированы, что приводит к следующему выводу. Достаточным при х>0 является подкласс 3)* решающих правил, для которых потери я(х> ду) принадлежат области существования СИМ. Так, если Мху=Ш$У> где gi(x, у)^§ — первичные признаки СИМ с заданными Mgu то в 3)* включаются правила д*, потери которых л(х, д*) мажорируемы хотя бы одной из конечных сумм g(x9 y)=Co+%c+igi(x9 у), составляющих класс &+*§ вторичных признаков, с переносом на них Mg=c0+^c+iMgi, как это следует из общей формулы продолжения средних: П (д)-inf {Mg:n (х9 ду) <g (х, у)£Е£+Ъ}. Рассмотрим пример применения сделанного утверждения. Пример 5.7. Пусть £&=<y=D=&T есть пространства реализаций на интервале [О, Т] и пусть правила детерминированные ^>дет, а потери для них _ т п(х, x)=C(xt—xt)2dt равны среднему квадрату ошибки. Пусть СИМ Ж** о задана корреляционными свойствами Л1(с+2£А$+22<*<Д*г-^)- Тогда достаточными будут правила £*,у, которые при #*-*«> растут как функция у% не т быстрее лилейной степени. К ним относятся линейные: Xt,y=Jh(4, т)ух dx.s Квад* о т ратические xt,y= ?h(i, i)y2xdx уже не будут входить в достаточный класс, так о как потери для них не мажорируемы квадратичными формами, составляющими все вторичные признаки для заданной СИМ. Целевое расширение СИМ управляет достаточным классом, может служить эффективным инструментом упрощений. Кроме того случая, когда расширение не затрагивает верхних средних следующего класса признаков (функций х9 у): Зя = {-_я (*, д*)>п(х9 д*):д*ЕЕ Ф% по существу, определяющего риск для всех д* из достаточного класса правил. Чтобы указать еще на одну черту достаточного класса, центрируем первичные признаки СИМ {MS} (приведем к Mg=0), положив для этого g=g—Mg, g^%. Обозначим ^ — центриро- 208
ванный набор. Тогда согласно 'модифицированной формуле продолжения (1.3) нижний и верхний средние риски запишутся: /7(5)=- inf sup [-n(x, dy)-g(xyy)] ; о Х*У П (d) = inf sup [я (a:, dy) — g (x, y)]. о Х,У Отсюда видно, что риски в определенном смысле равны величине наилучшего приближения функции потерь (для верхнего — V4 О сверху, для нижнего — снизу) центрированными (с нулевыми Mg) о вторичными признаками СИМ из &"^§. Достаточными будут классы таких правил, для которых —т(х9 ду) и л(х, ди) лучше других о аппроксимируются сверху функциями класса 3?+&. Причем при расширении СИМ функции этого класса смещаются в область отрицательных значений, в результате аппроксимация ухудшается и это влечет за собой увеличение риска (по крайней мере, при и5*1). На основании только одного вида функции потерь можно иногда сократить множество D решений, и соответственно класс решающих правил. Множество решений D* будет достаточным (на D* основывается достаточный класс правил), если каждому d^D можно указать такое d*eD*, что при всех х^$в имеет место неравенство'. я(лг, d*)^.n{x9 d). Например, «пусть решения детерминированные /)=£)Дет, а потери п{х, х') принимают постоянные значения на разбиении Аи ..., Аъ. пространства «Я?: п(х, x')=m(x), x'^Ai. Тогда достаточным будет конечное множество D' = {x'u ..., х'ъ} решений, где х'г есть произвольно выбранные представители множеств Л*. От функции потерь многое зависит как в плане глобальной, так и специальной достаточности. Сам ее выбор может стимулировать принятие того или иного вида решений, например только детерминированных или только расплывчатых. Овладение этим рычагом управления — особая проблема, остающаяся вне нашего рассмотрения. Мы же в дальнейшем будем иметь дело с наболее простыми, типовыми видами потерь, для которых разрешим »и не сверхгромоздок путь нахождения оптимальных правил. Сказанное относится и к более общим типам риска. На первом плане стоит, конечно же, простота синтеза и практическая разумность риска. Регулировочшыми становятся те параметры, которые без усложнений удается вплести в структуру риска (как это было, например, с коэффициентом пессимизма). 5.3. ДОСТАТОЧНАЯ РЕДУКЦИЯ НАБЛЮДЕНИИ Теорема о представимости. Здесь и ниже с позиций среднего риска освещается глобальная проблема достаточности в плане таких преобразований z=Qy наблюдений у, которые, сокра- 209
щая */, не выводят из достаточного класса 2D*, т. е. сразу на начальном этапе без ущерба для статистической задачи совокупность наблюдений редуцируется преобразованием Q до значений z меньшей размерности. Это возможно только тогда, когда решающие правила достаточного класса 3)* могут быть все записаны через z, т. е. Q-представимы в смысле следующей записи d*z(x) =d*Qy(x). Преобразование Q, от которого зависит достаточный класс травил, называется достаточным. Оно дает сокращенные сведения о наблюдениях, вполне достаточные для построения оптимального решающего правила. Теорема 5.2. Преобразование Qy будет достаточным при х^1, если все первичные признаки СИМ JL*v=(J&(3y) являются Q-nped ставимыми, т. е. записываются gj (х, У) = ^ (*, Q у), V gs e S • (5.3) Доказательство. В самом деле, тогда и все вторичные признаки класса &+& будут ^-представимы в смысле (5.3). Они будут постоянными на подмножествах Q~iQy=Q-iz пространства QJ таких, что Qy=z при фиксированных г, поэтому верхние средние одинаковы для любого выбранного признака f(x, у) и Q-представимой его мажоранты supf(jc, #'), где супремум -берется по t/'eQ-1Q*/. Произвольному правилу ду укажем Q-представимое 0*у, положив его на подмножествах Q~iz={y: Qy=z} = Q-iQy пространства °{/ равным ду , где уг — представитель Q~*z. Тогда на основании сказанного: Щд) = МхУ inf я_(*, ду,) <Мхуп(х, д*у) = Щд*); y'<=Q-1 Qy П(д) = М*У sup n(x, ду,) >Л?*«я(х, д*) = П(д*). y'<=Q~l Qy В результате при х>1 согласно (5.2) Пи(д)^Пи(д*), что и требовалось. Если широко рассматривать Q как детерминированное преобразование 2/Ys°y в S?Xi2, оставляющее элемент х на месте: Q(*> У) = {х, Qy), и ведущее к преобразованию СИМ; QJtxy=^ =MXZ, то условия (5.3) эквивалентны тому, что Q наводит подобие (см. § 2.1): Мху?оМхг, т. е. не влечет потерь данных о СИМ: 0~^Мху=Мху. Таким образом, Qy, если это преобразование подобия СИМ, будет достаточным при х^1, и наоборот. Замечания. 1. Если вовлекать широкий класс преобразований Q(xy y)9 меняющих не только {/, но и х, то утверждения о достаточности будут существенно связываться с видом потерь и в этом смысле будут специальны. Причина: соблюдение или нет нужного (для теоремы 5.2) факта, что из_(3-представимости сГу следует Q-представимость потерь п(х, д*у)7 я (а:, д*у). 2. Как мы увидели сейчас и увидим ниже, утверждения о достаточности работают обычно при пессимизме х^1, корни чего в том, что редукция «сокращает благоприятные возможности» и ущемляет диапазон свободного выбора. Кроме того случая, когда все самые благоприятные возможности остаются внутри сокращенного класса, так же как и наименее благоприятные. 210
Первичные признаки и достаточность. Преобразование z=Qy, областью значений которого является числовая прямая гей, вектор z^9lh или любое числовое пространство j£, называется числовым. Оно эквивалентно набору признаков: Zi=Qi(y), t=l, ..., k> ,ка1к функций наблюдений на <у. Если Q достаточно, то и соответствующий ему набор признаков наблюдений 'называется достаточным. Свяжем достаточный набор с первичными признаками СИМ Л*у=(М&}. Порядок следующий: сначала по первичным признакам gi(x, у) СИМ выделяются достаточные признаки наблюдений, ровно столько, сколько останется после исключения повторов, а уже размерность пространства 2£ сама собой подстраивается под их число. Теорема 5.3. Достаточными при х^1 признаками наблюдений является набор первичных признаков СИМ g(x, y)^S (pac- смариваемых при каждом х как функции переменной у), развернутой по х и g: Qj/ = {g(^{/)^e^,gES}. Утверждение станет прозрачным, если $8 дискретно и состоит из элементов хи :.., Хъ. Тогда достаточный набор образуют следующие вектор-признаки (gj(xuy), gj(x2,y),...,gj(xk9y)) наблюдений, расположенные друг за другом в цепочку при gj, пробегающих ^. Получается вектор-цепочка Qy признаков, общая размерность которой равна произведению числа элементов SB на число признаков набора 9. Для уменьшения размерности повторы в этой цепочке уместно сократить. Доказательство утверждения эквивалентно доказательству представимости каждого gj{x, у) в виде (5.3) и следует из того, что gj{xf у) есть, по сути дела, выбор /-го вектор-признака из цепочки Qy, т. е. проекция Qy в некоторое подпространство пространства функций переменной у, составляющих «оси» Qy. Возможность дополнительной редукции возникает, когда все элементы цепочки зависят полностью от небольшого числа- одних и тех же функций q\{y)y ?a(y), ...» которые и составят на основании (5.3) достаточный набор. Например, все они зависят от одной и той же функции, что 'возвращает нас ж теореме 5.2. Перейдем к модификациям достаточности для разных конкретных способов задания СИМ, применяя теорему 5.3 к соответствующим наборам признаков. Сначала используем разложение СИМ. Следствие 1. Пусть СИМ разложима на произведение: Jt*>v=J[xJ[yx, где переходная модель Л^х задается первичными средними Mxtyx(y), *фзс(у)^^х- Тогда преобразование в виде вектора-цепочки Qy-{^x(y)'^x(y)^xPx^^^} будет достаточным (при х^1). 211
Доказательство вытекает из того, что первичными для произведения будут с+(х){[Цх(у)—МХЦ] вместе с первичными признаками Мх (теорема 2.3). Учитывая указанную выше зависимость достаточного набора от преобразования подобия, можно переформулировать следствие 1 так: преобразования подобия Qxy для переходных Jtyx, выстроенные в вектор-цепочку по х, образуют тандем Qy= = {Qxy:x^$?}> являющийся преобразованием подобия СИМ (следовательно, от него зависит достаточный набор признаков наблюдений). Перейдем к функциональному представлению наблюдений. Следствие 2. Пусть y=Vx% и считается заданной модель dfi = (MxPy, причем выполняются условия: а) | свободен от х\ б) каждый признак ty(\)^¥ представляется в виде: г|)(£) = =^(Qa:Vacs), где Qx — некоторые преобразования у, зависящие от х. Тогда их вектор-цепочка Qy={Qxy:x^$P} образует достаточное (при х^1) преобразование наблюдений. В самом деле, условие а) гарантирует разложимость СИМ, так как Мху,Цх, у) =МхМЦ(х, Vxl)=MxMyxf(x, y)t а первичными для переходных моделей на основании условия б) будут признаки t|>(Q#), ipeT, образующие согласно следствию 1 достаточный набор и зависящие от гореобразова'ний Qxy, которые и будут достаточными. Пример 5.9. Пусть */*=#*+!*, te[0, T], где шум |* свободен от сигнала хи интегрируем и задан' первичными средними Mty( j* \tdt)> феФ". Выражение в круглых скобках записывается: • Г [(**+!*)— *t]dt= Г (t/t— Xt)dt, что и определяет Qxy. При всех xt преобразование Qxy зависит только от Г ytdt% поэтому интеграл и будет достаточным при х^1 признаком наблюдений, определяющим достаточную редукцию пространства реализаций Щ в числовую прямую #, Рассмотрим теперь случай задания СИМ посредством мешающего параметра 0. Два очередных следствия, не требующие доказательств, являются некоторыми обобщениями предыдущих. Следствие 3. Пусть СИМ записывается как семейство J{xy=\/J[Qxy и при каждом фиксированном 0 существует преобразование Qey подобия для Мъху. Тогда цепочка Q#={Qef/, 0^6} при х^1 даст достаточное преобразование. Следствие 4. Пусть y=Ve,xZf где £ свободен от х и 0. Пусть существует отображение Sg подобия для Ж*, записываемое Sg = = Qe,*(Ve,*£). Тогда вектор-отображение Qy={Qe,xy :0ев, х<=Щ будет достаточным при х^1. Достаточные преобразования и факторизация. Давно известна связь достаточности с факторизацией плотностей распределений вероятностей [3, 4]. Здесь, следуя по этому же пути, будут получены сначала общие касающиеся интервальных моделей утверждения, аналогичные факторизации, и далее указана связь с классическими. 212
Теорема 5.4. О факторизации .Пусть в исходах преоб* разования z=Qy, отображающего °Ц в Z> СИМ разлагается на произведение М*у = Лг* Му . (5.4) Тогда Qy будет достаточным для тех статистических задач, в ко* торых: а)х=1; б) класс 3) решающих правил таков, что dy& ^£D=>Myz=Qydy^2)'y в) функция потерь я(лг, d) при каждом х вы~ пукла относительно <feZ). В самом деле, используя факторизацию (5.4) и аналог нера-- венства Иенсена из § 3.2, имеем: П(д) =Мхул(х, ду) = =Мх*МУгл(ху ду^М^^х, Myzdy)=Mxzn'{x, д*2), где д*2=МУ2ду-г отсюда 11(д)^11(д*). Условие б) теоремы выполнится, если множество D решений есть выпуклое подмножество числового пространства, а 2D=3) у составляют всевозможные отображения <У ъ D (например, все детерминированные правила). В дальнейшем нам понадобится тот факт, что для Жуг фактическим пространством возможных исходов будет множество °Цг= = Q~iz={y:Qy=z} всех тех у, которые преобразуются в одно z, так что Qyz=z и_Р^(%) = 1. Теорему 5.4 можно распространить «а широкий диапазон значений х, если потребовать от средних Муъ точности (т. е. Му2=* =Мух). _ Теорема 5.4а. Пусть стоит задача Y=iJ(xz, Jtyz, 3>, i[jt, я], и), где z=Qy, и переходные средние Мухп(ху ду)9 Myzn(xt ду) являются точными для всех ду^2), причем ду^2)=>МУгду^2), Тогда преобразование Qy будет достаточным для задачи Y при всех х^1, когда нижние _я(лс, d) и верхние д(х, d) потери при каждом х выпуклы как функции d; и будет достаточным при и^1, когда верхние потери выпуклы, а нижние — вогнуты. В самом деле, если нижние потери выпуклы, тогда на основании аналога неравенства Йенсена в § 3.2 имеем: Щд) = =^му2п{х9 д^)^М**я(л:, Myzdy)=Mxz7i(x, д%)=Щд*), поэтому при n^Zl будет справедливо неравенство: Пх(д)^Пх(д). Наоборот, если эти .потери вогнуты, то П(д)^:П(д*) и при >с^1 имеем П*(д) 5*11* (<?*)• "" "" В частности, если я(лг, d)=0, то нижние потери будут как выпуклыми, так и вогнутыми, и тогда преобразование Qy будет достаточным при любых х. При точных потерях я (т. е. _я=я) допустим лишь случай х^1, для чего потребуется выпуклость пг что характерно для классических моделей. Пример 5.10. Пусть JLxv=&*v — распределение точных (на алгебре s$ пространства ЯвуЩ) вероятностей, заданное точной совместной плотностыо» Р(х, у), и пусть эта плотность факторизуется: p(xt y)=r(x, Q(y))h(y) на произ- 21$
ведение измеримых (относительно st) функций. Пусть Ж> — всевозможные измеримые решающие правила д, а потери я(*, ду) являются точными измеримыми. Тогда средний риск будет точным, равным П(д)=МхУк(х, ду) = =МхгМ*гп{х, ду), где Ммг соответствует распределению вероятностей на QJ (а точнее, на °Цг) при заданном г. Условие б) теоремы 5.4 выполнится, если D — выпуклое множество числового пространства. По теореме 5.4а при выпуклых потерях n(x, d) и выпуклом множестве D решений преобразование Q(y) будет достаточным. Сказанное составляет суть известной из литературы теоремы о факторизации плотности и связанными с нею достаточными статистиками [3,4]. Рассмотрим подробнее условие факторизуемости (5.4) с точки зрения первичных признаков g(x, у) СИМ. Согласно теореме 2.3 о первичных признаках произведения моделей условие (5.4) фактически означает, что признаки g^&, приведенные к нулевым о средним g=g—Mg, имеют вид либо 1) g(x9 Qy)—Mg9 либо 2) £+(х, Qy)[ty(y)—ЛЙ'ф], причем последние, если они не тривиальны, получаются перебором всех неотрицательных с+(х> z) (здесь ${у) — первичны для Jtvz вместе с PM^z) = 0- Если же признаков вида 2) нет, что соответствует голой в облаете ^z переходной модели Mvz, то остаются (Признаки 1) и теорема 5.4 факторизации подпадает под теорему 5.2 о связи достаточности с Q-представимостью признаков, что распространяет ее сферу действия на любые 'потери при х^1. 5.4. РЕДУКЦИЯ НАБЛЮДЕНИЙ И ИНВАРИАНТНОСТЬ Инвариантные модели. Свойство инвариантности отражает некоторые стороны симметрии СИМ подобно симметрии шара с центром в начале координат к ^повороту осей. Но прежде изучим само понятие иевариантности, широко используемое в настоящее время .в научно-статистической литературе, и свяжем с нашим понятием достаточности. Пусть $>у^9* есть множество обратимых преобразований <%/ на себя. Очевидно, это множество всегда -можно считать алгебраической группой. В самом деле, произведение siS2t/=si(s2#) есть снова обратимое преобразование, а тождественное преобразование у-*~у дает единичный элемент группы, поэтому Ф называем группой преобразований. Функция <р (у) называется инвариантной к группе преобразований 9* пространства ^, если <p(sy) =<p({/), Vse^7. При преобразованиях группы S каждая точка у совершает движение по траектории Oy={sy, se^7}, называемой орбитой элемента у. Две разные орбиты либо совпадают, либо не пересекаются. На каждой орбите группа 9> транзитивна в том смысле, что любой элемент этой орбиты можно преобразованием из 9* перевести в любой другой. Пространство Of разбивается разноименными орбитами Оу на непересекающиеся подмножества: ^=20у. у 214
Максимальным инвариантом относительно группы 9> преобра^ зований пространства ^ называется отображение /(у), при котором равенство 1(у)=1(у') эквивалентно принадлежности у и у' одной и той же орбите. Максимальный инвариант принимает на каждой орбите постоянные значения, причем разные для разноименных орбит. Область значений максимального инварианта может лежать в весьма произвольном пространстве. Утверждение 5:5. Любая инвариантная к группе 9> функция ф (у) представима через максимальный инвариант: <р (у) =* = *(/(</)). В самом деле, если у и у' таковы, что /(#)=/(#')> то y' = sy для некото- рого se^ и поэтому ф(«/)=,ф(|//)- Для нахождения 1(у) может быть использован следующий факт |[9]: для любой функции f(y) ее инфимум inf f{sy) =/({/) s (как и sup) всегда инвариантен к группе 9>, а если инфимум достигается и единствен: minf(sy)=f(sy(y)), то 1(у)=$у{у) яв- S ляется максимальным инвариантом. Статистическая модель <Л?^> называется инвариантной к группе 9> преобразований, если все ее первичные признаки инвариантны к 9>: g(x, sy)=g(x, у), Yg^&. Согласно утверждению 5.5» все первичные признаки инвариантной СИМ представимы через максимальный инвариант 1(у), т. е. записываются ^(а:, /(*/)). Но тогда на основании теоремы 5.2 имеем следующую теорему. Теорема 5.6. Максимальный инвариант является достаточным (при х^1) преобразованием при инвариантной СИМ, а так- же преобразованием ее подобия. Пример 5.11. Пусть у=(уи —, Уп) и пусть первичные признаки СИМ инвариантны к перестановкам координат, например приводятся к виду g(x, (Zyqi)m), тогда инвариантные правила достаточны, поэтому инвариантным! должно быть оптимальное (при х^1) решающее правило; оно будет функцией максимального инварианта, которым является здесь порядковая статистика — последовательность, расположенная в порядке неубывания: /(*/) = в (0(1) <*(«><..• <У(п)). Симметрия, инвариантность и достаточность. Наше изложение здесь основывается на том соображении, что если СИМ при некоторых преобразованиях пространства О/ на себя не меняется, то >в общем-то не должны меняться и оптимальные решающие правила. Модель M*v называется симметричной к преобразованиям sy пространства °у на себя, если она не меняется при этих преобразованиях, т. е. sJtxy=<J[xy, или что то же самое Mf(x9sy)-Mf(x9y)9 VfEzf. Преобразования s считаем далее обратимыми. Если СИМ симметрична к преобразованиям Si и S2, то она 215
будет симметрична к их произведению (последовательному применению) S1S2, а также к обратным преобразованиям sr1, S2"1. Следовательно, она будет симметрична к всевозможным произведениям (последовательным применениям) S* и s/-1, образующим алгебраическую группу 9> преобразований. Так как СИМ будет симметрична к группе Ф в том и только в том случае, если она симметрична к каждому преобразованию se^7, то имеет смысл говорить о симметрии ко всей группе 9. Симметрия СИМ означает, что каждому первичному признаку £^§ и преобразованию s^9 может быть .найден другой g*e^, такой, что g(x, sy)=g*(x, у) и Mg(x, y)=Mg*(x, у), т. е. преобразования симметрии совершают перестановку первичных, признаков внутри 2?, не меняя их средних. Инвариантные к 9> СИМ симметричны к 9>, но не всегда наоборот, поэтому понятие симметрии более емкое. Любую СИМ Jtxy расширением можно сделать симметричной Л*ху, Ж*ху=)Л[ху; для чего надо образовать «средние Ж*/ (х, у) = sup Ж/ (х9 st/). S В самом деле, для M*xv и sJC*xy имеем ьМ4(х, у)=М4{х, sy) = = M*f(x, у) у поэтому ^Ж^У^М^У, Если 9 есть набор первичных признаков для Жху, то симметризацию достаточно провести на $> •что приводит, в общем, к расширению набора, и тем не менее, упрощает СИМ, так .как первичные средние выравниваются на признаках g(xf sy), преобразующихся друг в друга при s, пробегающих 9>. Примеры симметричных СИМ дают однородные процессы, для которых группу 9> образуют сдвиги во времени. Свойство постоянства риска. Если СИМ симметрична к преобразованиям 9* пространства °у, то риск будет неизменен при преобразованиях se^7: Пх(д8у)=Пх(ду), так как согласно определению симметрии Л1 я (jc, dsy) « М я (лс, ду), Мп (х, dsy) = М я (х, ду). Сейчас мы свяжем понятия симметрии, инвариантности и достаточности в смысле среднего риска, считая класс 2) замкнутым относительно 9> в смысле ду€2>=Ф-дзуг£), Vse^7, и рандомизированным, т. е. выпуклым. Теорема 5.7. Пусть СИМ симметрична к группе 9* преобразований пространства °Ц и выполняется любое из условий: I) группа SP дискретна; 2) оптимальное правило ду является единственным/ Тогда максимальный инвариант к группе 9> есть достаточное преобразование, причем для всех к. Доказательство. Если д*>у единственно, то на основании свойства постоянства, риска имеем inf n*(dy)=II*(d*y)=II*(d*ev) и в силу единственности оптимального правила верно д*у=дк8у, т. е. оно инвариантно, и следовательно, есть функция максимального инварианта. Если оптимальное правило 216
не является единственным, то совокупность оптимальных правил {д*у}, должна быть замкнута относительно группы 9> преобразований в том смысле, что для заданного д*у все правила д*8у при se^ должны принадлежать этой совокупности. Причем, если группа 9> дискретна ^={si, ..., s/J, то, полагая, что д*у получается равновероятным рандомизированным выбором 6ХУ, придем к k инвариантному правилу: д*у= 2 dn8ixlk- 1=1 Если СИМ разложима Лху=ЛхМух, то симметрия Мху эквивалентна симметрии переходных моделей JCyx в смысле sJ[yx= =Jtyx, Yx. Пример 5.12. Пусть y=(#i уп) и СИМ разложима. Пусть при каждом xg^ последовательность у г независима и однородна, т. е.. Лух=Лу*Х...хЛуп, ЛУ1 = ЛУХ1- Тогда переходные модели JCvx будут симметричны к перестановкам у\ между собой. Максимальным инвариантом к группе перестановок является порядковая статистика (Ум^Ум^... ^#(п>). Следовательно, оптимальное правило должно быть инвариантным к перестановкам и являться функцией порядковой статистики. Порядковая статистика будет максимальным инвариантом и в том случае, если у г при каждом заданном х имеют одинаковые модели Jtyx= — ^Jt^n но совершенно неизвестно, как у\ связаны друг с другом (первичный набор образуют {gx(y%), g^$> **=1, ..., п), а первичные средние не зависят от /). 5.5. ДЕТЕРМИНИРОВАННЫЕ РЕШЕНИЯ И ФИЛЬТРАЦИЯ Общие соображения. Детерминированными называются правила класса ^)дет, для которых решениями являются сами искомые состояния &^<%. Правила обозначаются ху и представляют собой инструкцию, указывающую, какое х выбирать (предлагать как решение) ери каждом возможном наблюдении у. Когда состоянием становится параметр (т. е. SB'=i% — числовая прямая), детерминированные правила переходят в детерминированное оценивание. Оценивание будет, когда х — вектор (S&=&£k). Последний случай иногда называют фильтрацией, понимая под вектором отсчеты процесса. А в общем, фильтрация охватывает случай, когда х — процесс (S6 — пространство реализаций). Четкой грани здесь нет. Детерминированные — это .решительные решения, когда )не должно быть места нечетким, осторожным высказываниям, суждениям, а требуются конкретные действия. Например, нужно очистить речевой сигнал от шумов, чтобы получить конкретную реализацию отфильтрованного процесса. Или в теории управления по наблюдениям за объектом требуется сформировать сигнал: он тоже должен быть четким как управляющее воздействие на физическую систему. Проблема детерминизма в оценивании имеет давние традиции и богатую историю. Мы не ставим задачей обзор. Наша 217
цель — выявить те особенности, которые вносятся в нее новыми моделями и регулировочной шкалой оптимизма-пессимизма. Последняя позволяет делать правила то более избирательными к оговоренным ситуациям и качественными к ним, то более грубыми и устойчивыми (в смысле среднего риска) к отклонениям от них. Потери правил ху меряются обычно как некоторое расстояние л(х, ху) между истинным значением х и предлагаемым оценкой £у. Это обязательно нелинейная, подчас неограниченная функция, как в случае степенного ее типа \х—ху\к. Будучи преобразованием переменных х и х, функция потерь искажает вид первичных признаков СИМ, вторгаясь в связь между структурой признаков и видом правил, но сохраняет, что очень важно, (^-представимость: Q-представимость .правил эквивалентна такой же представимости потерь и следует в свою очередь из представимости первичных признаков. Последнее, как утверждается теоремой 5.2, дает основания достаточной редукции наблюдений. Приведем пример редукции. Пример 5.13. Пусть наблюдаются у и ..., уп, а х — искомый числовой яараметр. Пусть первичным для СИМ является среднее M%(yi—x)2=b. Пер- i вичный признак представляется 20/*—-*)2==:2*/2i—2*2#*+*2 и при любых х i i I •есть функция 2#i и 2У2*- Эти суммы согласно теореме 5.2 есть достаточные i i при х^ 1 шрианаки, отсюда $у должна быть функцией от них. Некоторое обобщение получается, когда суммы взвешены коэффициентами 2М#г—х)2> тогда I достаточны 2^, S^i*/2*. i i Совершенно теми же согласно следствию 2 к теореме 5.3 достаточные .признаки будут, если yi=x+\u *'=1, ., п, а флуктуации |г- заданы первичным значением М%Сг%2{. Если yt — процесс, то индекс i заменяется на время t, a i суммы — на интегралы по t и достаточными признаками становятся интегралы J* aytdi, J* ctjptdt. Оптимальные решения при дельта-потерях. Приступим к изложению принципов построения оптимальных детерминированных оценок в зависимости от вида потерь и значения коэффициента пессимизма. Пусть сначала берутся дельта-потери я (х, х) = = 1—Ъ*(х)> равные 0 при правильном решении х=х и 1 при неправильном хфх. Эти потери очень критичны (если не сказать капризны) к сколь угодно малым отклонениям х от ху так как сразу подскакивают от минимального до своего максимального значения. Зато работа с дельта потерями удобна вследствие простых результатов, ибо цена приобретает «лицеприятный» вид: v (Г) = 1 - sup Pi-* (x « х9)ш (5.5) 218
где Р1-"(х=ху)=кР^х=Ху) + (1— к)Р{х=ху) — взвешенная вероятность правильного решения. При х=0 оптимальное правило будет находиться максимизацией верхней границы вероятности Р(х=£у)9 а при пессимизме н=1 — нижней Р\х=&у). Пример 5.14. Пусть СИМ задана первичными (вероятностями: 0<Р(*, *)<?(*, У)<1> V(x> у)^ЗСхУ (согласованными в смысле 2Р^1, 2^>1> где суммы по *, у), задающими аддитивное ИРВ на дискретных SfiyQJ. По формуле (1.5) для аддитивных ИРВ имеем: P(* = ^) = maxj 2 Р(х> У)> 1— 2 Р(х, у)\> I Х= Ху Х^*у * ¥(х = ху) = тхп\ 2 Р(х, у), 1— 2 Р(х> У)\- I *» *Х Х^ Ху J Так как множество {хф£у} точек пространства 9ВУ?Ц оказывается обычно существенно шире множества {х=ху}, то в первой формуле правая из двух частей имеет тенденцию стать отрицательной, а во второй — левая стать меньше правой (при 2,P<il), поэтому часто оказывается, что Р(* = ;у)= 2 £(*. У)> Р(х = ху)= 2 Р(х, у), х~ху х~ ху и оптимальное правило будет определяться максимизацией по х при заданном у взвешенной совместной вероятности Р1~к(х, y)=y,P(xt у) + (1—,к)Р{х, у), К этим правилам скоро вернемся из-за их более общего назначения. Замечание. Обратим внимание на одну характерную особенность оптимальных правил при дельта-потерях. Множество {x=Jty} представляет собой линию в пространстве ЗвУЩ и, как факт, невозможно найти ни одной линейной комбинации первичных признаков СИМ, которая мажорировалась бы индикаторной функцией множества {х=ху} и имела неотрицательное нижнее среднее, поэтому для таких задач Р(х=£у)=0. Обращаясь теперь к формуле (5.5), видим, что при и=1 риск независимо от ху всегда будет максимальным, равным 1. Оптимальное правило становится бессмысленным. К бессмыслице приводит и и>1. Лишь при н<1 оптимальные правила будут нетривиальными и находятся максимизацией Р{х=ху). Расширим СИМ до аддитивного ИРВ, определенного границами Р^(х9 у)9 Р(х, у) (вычисленными по исходной СИМ и принятыми за первичные). Правило, минимизирующее риск при указанном расширении СИМ, а потому квазиоптимальное, обозначается Ъу. Оно согласно (5.5) максимизирует при каждом У&У взвешенную вероятность: тахР1-*^, у) и называется пра- X 219
вилом взвешенного правдоподобия (в примере 5.14 оно оптимально). В частности, при х=0 из него вытекает правило £°у, максимизирующее Р(х, у): Р(х°у)=тахР(х9 у), называемое правилом X максимального правдоподобия. Таким образом, метод максимального правдоподобия соответствует максимально возможному on- | тимизму х=0. * При пессимизме х=1 квазиоптимальным будет правило.! Ру:Рфу, y)=maxP(x, у), максимизирующее нижнюю границу 1 вероятности. I Введем модификации рассмотренных правил, учитывающие мешающие параметры. Пусть «^> = V^V^, где &>еху при каждом е в определяется точными вероятностями Ре(х, у). Тогда Р(х, у) = = infРе(д:, у), Р{х, y) = supРе(х, у) и оценка х°у максимизирует в е максимальную по 8 вероятность, а х*у — минимальную. Если соответственно замечанию выше P^(x=Jcy) =0, и тем более Р(х, у)^Р^(х=ху)=0у то Pi-yi(x1 у) становится пропорциональной Р(х, у), поэтому правило максимального правдоподобия х°у, соответствующее х=0, будет квазиоптимальным при любых х<1. Указанная пропорциональность будет иметь место и когда Р(ху У)=рР(х> У) Для некоторого р^1 (при р=1 "вероятность точная). Постановка задачи линейной фильтрации сигнала при квадратичных потерях. Пусть наблюдения записываются Уг = Х1+1г, *=1,...,л, M?f = 0, где Xi условно будем называть сигналом, а |г- — шумом. Или в векторах-столбцах у=х+|, М%=0. Ставится задача фильтрации х при .квадратичных .потерях n(x,i) = ||x-x||2=(x-i)T(x-x), где ||z||2 — квадрат нормы вектора. Векторы х и % считаются некоррелированными: Мх£т = 0, заданными свойствами второго порядка в виде согласованного набора средних МхтСх, М|ТС^ при^ всевозможных матрицах С. Это делается путем задания первич-j ных значений МхтНх, Н&9#, AI|TG|, G<=^, с их последующим продолжением согласованным образом на вторичные признаки (т. е. на квадратичные формы) по формуле MxTCx = inf{ 2 ct МХ*Пьх: 2 с^Нг-С>0} р (5.6) где Нг&Ж В (5.6) из сумм выброшен свободный коэффициент, ибо он получается равным 0. Неравенство под знаком ин- фимума понимается как матричное, т. е. как неотрицательная 220
определенность матрицы 2с+<Н<—С. Такие же формулы верны для §. В классе правил, допускающих разложения в ряды Вольтер- ра, т. е. типа (ху)г= 2-1„у,+ 2 2 lMlyhyt+ 2 2 2 L\l}lyhysyl + .... / k j k \ i на основании теоремы 5.1 достаточными будут линейные правила xy = Ly, где L={Lij} »— матрица размерности /гХ/г (так как только для них потери мажорируемы квадратичным формами). Для линейных правил при квадратичных потерях и некоррелированных хи| нижний и верхний риски запишутся n(Ly) = Mx4|x-Ly||2 = Mx||x--Lx||2 + M4|L|||2, II(Ly)=7Wxy ||x —Ly||2 = Mx Их —Lx||2 + Ml ||ЬЦ|2 и вычисляются согласно (5.6). Риски складываются из двух слагаемых: первое определяет ошибку фильтрации за счет инерционности фильтра L, который не успевает отслеживать изменения сигнала (в силу отличия от единичной матрицы I), а второе — за счет проникновения шума на выход фильтра. Первое слагаемое растет при увеличении инерционности фильтра, а второе — уменьшается, и между ними есть оптимум. Выбор матрицы L*, определяющей оптимальный фильтр, производится исходя из минимизации среднего риска П* (L) = Мк хт (I - L)* (I - L) х + М" |т LT L£, (5.7) где Мк есть взвешенное среднее, равное (1—к)М-\-кМ. При точных матрицах корреляций Мххт = К, МЦТ=В риск от х не будет зависеть: П(Ь) =tr(I—L) (I—L)TK+tr LLTB, где tr — след матрицы, равный сумме диагональных элементов. Оптимальным в этом случае при обратимой матрице (К + В) будет фильтр L* = (К + В)-1 К, П (L*) - tr К (К + В)-' В, (5.8) где вторым указано выражение для ошибки фильтрации. Фильтрация сигнала с известными корреляционными свойствами из шума ограниченной мощности. Пусть корреляционная матрица (Сигнала х является точио известной и равной К, тогда как относительно шума известны сведения лишь об его средней «мощности» М 2 Ърп = М HI\\*/п = о2, М||I\\2/п = а2. Тогда аналогично (5.6) : М_ £т LL\ = sup end* = №minnо2, с I ^ LT L Al|TLTLg = inf cno2 = Xlaxno2, где неравенства матричные и X2min и %2тах есть соответственно 221
минимальное и максимальное собственные числа матрицы LTL^ В результате средний риск Представим K=FTrF, где F — матрица собственных векторов, а Г — диагональная матрица собственных чисел yt матрицы К- Тогда оптимальное правило запишется в виде Ly=FA, где Л — диагональная матрица корней квадратных А* из собственных элементов k2i матрицы LTL. В результате средний риск станет П* (L) = 2(1- Я,)2 ?, + (1 - х) Cmntf + xkLx n~o\ Задача нахождения оптимального правила сводится к минимизации найденного выражения по Л*. Дадим результат, тем более, что он тривиален, не приводя утомительных, но в то же время несложных выкладок. При х^1 оптимальными будут \k*i=c, что» соответствует фильтрации ху = су, сводящейся к прямому ослаблению входных наблюдений на величину c=tr K/(tr К+ияа2). Причем с уменьшается при сравнительном увеличении средней статистической энергии шума /га2, приходящейся на п отсчетов, по отношению к энергии сигнала tr К. В самом деле, если шум велик, то он дает основной вклад в ошибку на выходе и его нужно ослаблять. Незнание структуры шума ведет к тому, что наблюдения фактически не фильтруются. Пусть теперь 0^и<1. Результат будет весьма интересным, показывающим на вырожденные стороны режима оптимизма. При условии Kno2ltrK<Y (1—K>)ncfilymin оптимальными снова бу* дут X*i = c для всех i, кроме одного Ю: yio=minyi = ymin, Я*<о=0, назначаемого (нулевым. При синтезе фильтра наивно предполагается, что в наиболее благоприятном случае шум весь войдет именно в это наименее «сигнальное» направление yminj а мы «захлопнем» его путем приравнивания нулю: X*iO=0. Представ- те, что шумом с вероятностью 1—х управляет «свой» человек, наиблагоприятнейшим образом к нам расположенный, а с вероятностью х — противник. Оба они прекрасно осведомлены о наших действиях. Нужно защититься до-возможности от противника, и оставить «отдушину для благоприятных» акций «своего», гарантировав себе таким образом минимальный ущерб. Последнее не может служить утешением, а скорее является вырождением, поэтому общий вывод следующий: незнание структуры шума не позволяет никак использовать знание, даже точное, корреляционных свойств сигнала. Фильтрация при некоррелированном шуме. Пусть снова у== = х+£, корреляционная матрица К вектора сигнала х известна точно, а шум некоррелирован и задан первичными средними: AlEf-o?, A«b8-ai8f AtЫ/-0, *#/. 222
ТогдаЛ* ||Ll||2 = sup{2cfof: 2*iE?+ 2 2 It cu> g, < < 2 2 2 hLuLjkZk} = sup {2 *|Of: *,< 2 Lf,} =22 L*fof , и точно так же М||L£||2=22L2ij02i. В результате риск nML) = tr(I-L)(I-L)TK + trLLTDx, где <т2кг=(1—х)о2г + ха2г и Dx есть диагональная матрица из <5\%. Минимизация риска по L ведет к значению L* = (К + DK)-i К, П* (L*) = tr К (К + DJ-1 DK. Оптимальный фильтр, как это видно из сравнения с (5.8), получается точно такой же, как если бы М^ч были точно известны и равнялись а2хг\ Обобщение, Пусть у=х+Н£, где Н — известная матрица, вектор \ — тот же, как и был, а шум Н% есть результат прохождения независимых отсчетов |г- через известный фильтр, описываемый матрицей Н. Шум в (результате будет коррелированный с неточно известными корреляциями, обязанными различию а\ и а2г. Тогда nML) = tr(I-L)(I-L)*K + trHLLT№DH, и в результате минимизации по L получим L* = (К + HDK HV -1 К, П* (L*) - tr К (К + HDK W)~l HD* № . Вытекающая из этих формул инструкция призывает заменить неточию известные корреляции шума на матрицу Б^=2Я^а2хлЯ^, k считая ее про себя точной матрицей корреляций шума, и далее расчеты с ней производить по (5.8). Например, если tji=Xi + +2'Л*£г+ь т- е. шум генерируется скользящим суммированием независимых £*, то Bij = ]£hi-i(y2Kihi-j. Здесь мы использовали прямой метод, который свел задачу к точным корреляциям. В следующем разделе использован робастный подход. Корреляции заданы с погрешностями. Пусть у=х+£, сигнал х и шум | некоррелированы между собой и заданы каждый своими корреляционными свойствами. Последние, как известно (§ 4.2), эквивалентны собственным семействам, соответственно Ж (для х) и 9S (для I) ковариаций, что позволяет при вычислениях риска пользоваться формулой П*(Ь) = (1-х) inf tr(I-L)(I-L)TK + xsup^r(I-L)(I-L)TK + + (1— и) inf trLLTB + x sup trLLTB. 223
Рассмотрим случай, когда Ж и J? заданы метрическими ограничениями вида «■-{КгИК-КЛКДк). Я-{В:||В-ВЛ<д.}, где норма матриц понимается как максимальное по модулю собственное число. Можем для определенности считать, что Ко и В0. суть оценки корреляционных матриц, известные с ошибками, не превышающими соответственно допусков Дк и Дв. Верно равенство: sup{trHHTK: UK— Koll^AK}=tr HHT(Ko+ +АК1), mp-ичем супремум достигается при К* = Ко+Ак1, а I —► единичная матрица. Матрица К* получается из Ко увеличением, всех собственных чисел на Ак. Используя тот факт, что семейства Ж и 3S должны состоять из 'неотрицательно определенных, матриц, аналогично предыдущему имеем inf{trHHTK:HK-Koll^AK}=trHHT(Ko-AKI)+, где (Ко—Ак1)+ получается из Ко—Ак1 приравниванием нулю всех отрицательных собственных чисел при сохранении собственных векторов. На основании этих двух равенств выводим П* (L)-(l -х) tr (I-L) (I-L)* (Ко-Дк I)+ + + xtr(I-L)(I-L)-(Ke + AKl)+(l-x)trLL'(B0-ABI)+ + + xtrLL*(Be + ABl) = tr(I-L)(I-L)»Kx + trLBxL\ где K*= (1— x)(Ko—AKI) fH-x(/Co+AKI), и аналогично Вх. Оптимальной, минимизирующей риск, будет матрица L* = =|(Кн+Вх)~1Кк- Заметим, что в последнем выражении Кх получается из Ко пересчетом собственных чисел %0i матрицы Ко в соответствии с равенством 1 /1 vWl Л Vf-LWl -LA \ |^ + ХДК ПрИ ^<ДК, U0*+(2*— 1) Дк, при Я0г>Дк, а собственные векторы сохраняются неизменными. Так же получается и Вх из В0. Числа Я* возрастают по сравнению с Яо* при х>1/2, а при к^1/2 растут лишь те из них, которые достаточно малы, а именно, Яог<Акх/(1—х). Но всегда Я^хАк- Закономерности пересчета можно проследить на рис. 5.1, о котором пойдет речь в дополнении 2. При Ко—Ак'>0 и Во—Ав1>0 (что соответствует положительной определенности матриц) имеем Кк = К0 + (2х-1)Дк1, Вк = В0 + (2х-1)Дв1. Таким образом, наличие ошибок Дк и Дв в корреляционных функциях компенсируется прибавлением кх и 5 добавок в виде некоррелированных векторов т| и £: Мц2{=Ац> М£2г=Дв, ЛГг]гТЬ = =Af^i5j = 0, ьФи и переходом к модели у=х'+£'> в которой х' = =x+tj, £' = £+£ *, с последующим синтезом для нее оптималь- 1 Кузнецов В. П. Об устойчивой линейной фильтрации случайных сигналов// Радиотехника и электроника,—1975.—№ 1. — С. 2405—2408г 224
Рис, 5.1. Перерасчет энергетического спектра Кх(ь>)=Къ(ь>Пгх-1)Дк 4г ного фильтра по (5.8), который и будет оптимальным для исходной задачи. Дополнения. 1. Результаты один к одному переносятся на процессы yt=xt+it: матрицы К и В заменяются на ядра K(t, т), B(t, т) операторов, а след tr Н — на интеграл J #(/, t)dt Ядром единичного оператора I будет дельта-функция, являющаяся корреляционной функцией «белого шума» спектральной интенсивности 1. 2. Пусть процессы х% и \t являются независимыми (или некоррелированными) стационарными и определены своими энергетическими спектрами /((©) и В ((о), заданными метрическими ограничениями sup |/C»-/Co(<o)| <AKf sup |Я(о))-Д0(о>)|<Дя, где /Со(ю) и В0((д) — некоторые предполагаемые значения (оценки). Поиск оптимального фильтра ориентируется на пересчитанный спектр (рис. 5.1) /Сх((о), вычисляемый по аналогии с Я*. 5.6. ЗАКЛЮЧЕНИЕ Предлагаемая здесь теория статистического синтеза по своему построению подобна классической. Можно аргументированно говорить об оптимальности, если определено это понятие. А для этого должен быть отработан аппарат анализа, выдвинуты критерии сравнения алгоритмов: какой из любых выбранных лучше^ какой хуже. Аппарат будет действенен, если анализ каждого алгоритма принципиально возможен и не настолько трудоемок, что где-то грозит остановкой. Тогда возникает мысль, что раз алгоритмы упорядочиваются в колонну друг за другом по их качественным показателям, то среди них существует наилучший, к которому можно приблизиться, двигаясь в голову колонны. Причем для этого яе обязателен перебор всех алгоритмов, имеются другие эффективные приемы и их разработка — наша цель. Синтез не может обходиться без анализа, а анализ — без подготовительных работ следующего рода. Сначала, учитывая случайную природу среды, нужно определить характер случайности, т. е. математическую модель в виде СИМ (статистическая интервальная модель). Последняя есть совместное описание поведения наблюдений, т. е. входа алгоритма, и не наблюдаемых, но интересующих нас внутренних состояний среды. С состояниями связываются выходы алгоритмов — принимаемые ими решения. 8-13 226
Вид множества решений составляет лицо задачи. Если имеются всего два решения, то это будет проверка двух гипотез. Нескольким решениям соответствует многоальтернативная задача. Если нужно оценить параметр, то множеством решений будут точки числовой оси. Наконец, в задачах фильтрации решениями будут реализации обработанного согласно алгоритму сигнала. Каждый алгоритм есть правило действия, инструкция, предписывающая, какой выход назначить каждому наблюдению, т. е. входу. Изюмина нашего подхода © том, что это не обязана быть совсем строгая инструкция (детерминированное правило), а может быть набор рекомендаций в виде списка сравнительных предпочтений, которыми наделяются разные решения. Алгоритмы — неодушевленные объекты, а окончательное решение пусть останется за человеком. Сказанное подводит нас к понятию нечетких решений и расплывчатых алгоритмов. Практика применений и род математического аппарата синтеза могут потребовать алгоритмов закрепленной структуры (скажем, линейных). Тогда с самого начала вводится ограничение правил <в виде класса допустимых алгоритмов, внутри которого и будет производиться затем выбор наилучшего. Подготовительные работы еще не закончены. Нужно уметь сопоставить истинные значения состояний с принятыми решениями. Конечно же, полное совпадение — это очень хорошо; но не было бы статистической задачи, если бы алгоритм не имел «права на ошибку». Нужно назначить плату за ошибки в виде функции потерь. Только теперь после введения всех атрибутов статистической задачи можно приступить к синтезу, т. е. нахождению оптимального правила принятия решений. Критерием сравнения и выбора лучшего будет риск, равный средним потерям. Здесь возникают две особенности. Одна — конструктивная, состоит в вычислении риска продолжением первичных средних СИМ на функцию потерь (частным случаем такого продолжения будет интегрирование по вероятностному распределению). Другая — интервальность риска как среднего одного из признаков СИМ, причем нижний риск есть наименьшее, наиболее оптимистичное его значение, а верхний — пессимистичное. Идея брать некоторую промежуточную величину ведет к коэффициенту пессимизма, взвешивающему риски. Хотим иметь надежный гарантированный результат, берем коэффициент пессимизма равным 1, ориентируясь полностью на наихудший верхний риск. Берем ноль — рассчитываем на нижний риск, сверхоптимистично делая ставку на полную удачу (как в методе максимального правдоподобия § 5.5). Оптимальные правила при излишнем оптимизме лихорадочны по свойствам. Чуть лучше они делаются при полуоптимизме, когда нижний и верхний риски суммируются с одинаковыми весами. Режим полуоптимизма ослабляет требования к надежности модели (определяющей «здоровье» алгоритма) и одобряет нарочный переход к идеальным «погодным условиям» в виде точных моделей, оправдывая тем самым применимость распределений вероятностей. Полный иммунитет к «погоде» приобретают оптимальные правила, синтезированные в режиме пессимизма и сверхпессимизма. По свойствам они делаются устойчивыми, робастными. Алгоритмы суть изделия научных лабораторий. Удобно их «производство» 'сделать, двухэтапным: сначала — предварительная заготовка, а затем — окончательная оптимизация. Первый этап составляет смысл достаточной редукции. Цель его ,— сузить класс решающих травил, указав, на каком материале он 226 ,
должен основываться, т. е. какие предварительные сокращения наблюдений не приведут к потере свойств. Интересно и важно (теорема 5.3), что эта редукция всецело определяется структурой первичных признаков, исходно задающих СИМ. Чем проще первичный набор, тем глубже возможна редукция. Достаточность — прерогатива исключительно режима пессимизма. В нашем изложении связывается с классическим понятием теоремой 5.4 о факторизации (расширенной применительно к интервальным моделям, а значит, и к семействам распределений вероятностей). Инвариантность интервальных моделей и их симметрия к преобразованиям пространства наблюдений порождает такие же особенности оптимальных правил, а следовательно, предопределяет в какой-то мере вид достаточных преобразований (§ 5.4). Последний параграф § 5.5 главы отдается иллюстрированному применению основных утверждений теории к задачам детерминированного (точечного) оценивания и фильтрации. Выясняется влияние коэффициента пессимизма на вид алгоритмов оптимальной фильтрации. Глава 6. РАСПЛЫВЧАТОЕ ОЦЕНИВАНИЕ 6.1. ОБЩИЕ ВОПРОСЫ Ошибки правил. Детерминированные (точечные) оценки £у по своему внутреннему содержанию таковы, что обладают мизерной вероятностью Р(£у=х) «угадывания» правильного состояния, а чаще всего и вовсе нулевой (соответственно вероятностью ошибки Р(£уфх) — единичной). И эта природная их черта не есть следствие того, что оценки плохи (для определения целей они могут быть очень даже хороши), а просто вызвана тем, что хоть .как-то попасть «дрожащей» точкой &у в точку х на числовой прямой или числовом пространстве невозможно, учитывая количество точек и ничтожность точечных размеров. Это можно сделать только тогда, когда истинное х «накалывается» не точкой, а накрывается, чем-то ощутимым, например интервалом, что и подводит нас к расплывчатым оценкам. Потребность в расплывчатых оценках возникает прежде всего там, где помимо значения состояния цужна точность, с которой оно оценивается. Например, ставится задача — сопровождать указание расстояния до цели величиной погрешности, диапазоном разброса, с которым оно измеряется. Так порождается доверительный интервал. Чем шире он, тем меньше вероятность, что при указании произойдет ошибка. Эта ошибка может входить как составляющая риска, но может быть частью исходных технических требований на оценку, аппаратуру, тогда ошибку нужно фиксировать, поддерживать на определенном уровне. В этом случае говорим об оценке фиксированного уровня а ошибки, или просто уровня а. В* 227
В наших рассуждениях сейчас не столь важно, является ли 8В числовым «ли каким другим, и даже не число элементов х в #?, поэтому говорим о правилах как общих случаях оценок. Пусть ду(х) — расплывчатое правило — функция как х, так и у. Рассмотрим сначала его надежность — величину, обратную ошибке. Для заданного правила ду(х) нижняя и верхняя надежности соответственно равны Мду, Мду, где средние берутся по СИМ Л*у. В самом деле, величина ду(х) есть уверенность, с которой х указывается как возможное значение искомого состояния по результату наблюдения */. При разных у и х эта величина колеблется от 0 до 1 сообразно виду правила, причем 0 соответствует тому, что х отвергается как приемлемый вариант состояний, а 1 — наоборот, соответствует бесприкословному включению; величина д^(х) = 1/2 оз/начает, что при заданном у некоторое х принимается как возможное состояние с вероятностью 1/2, т. е. с половинчатой уверенностью. Надежность же есть уверенность в среднем, т. е. определенная в среднестатистическом смысле, что и заложено в Мду. Ненадежность меряется как нижняя и верхняя вероятности ошибки: с^(д) = 1—Мду, а(д) = 1—Мду, а взвешенная вероятность ошибки как объединенный показатель . а"(д) = (1-к)*(д) + ха(д)=1-(1-к)Мду-хШу, (6.1) где к — коэффициент пессимизма. Нулевой вероятностью ошибки обладают тривиальные правила ду(л;) = 1, тождественно равные 1, соответствующие при любом х фразе: «Какое-то х из SS имеет место» (но какое?). Его надежность равна 1, так как ошибиться здесь невозможно (по определению пространства элементарных исходов). Другая крайность — единичная вероятность ошибки, свойственная точечным (детерминированным) оценкам, причем чаще единичной будет оказываться именно верхняя ошибка сс(д) = 1, а нижняя при этом может вполне быть нулевой (тогде взвешенная ошибка будет равна % — вере в неблагопряитный исход). Предметный интерес для теории представляют не крайности, а «золотая середина», т. е. унимодальные как функции х при каждом у контрастные (достигающие 0 и 1) правила ограниченной по х ширины. Не ограждая класс 2) расплывчатых правил какими-либо барьерами, т. е. 2D=3)y выделим из него подкласс следующим условием. Правила ду, для которых <хх(д)=а, называются правилами уровня а, а при числовом S6 — доверительными оценками х. В дальнейшем мы будем заниматься синтезом именно таких оценок. Расплывчатость, риск. Помимо ошибок у рассматриваемых правил имеется другая «теневая сторона» — их расплывчатость- зге
Желательно, чтобы она была как можно меньше, т. е. при каждом у конкретнее указывалось бы искомое состояние х, но это вступает в противодействие с ошибкой правил, которая при этом увеличивается. Расплывчатость характеризуется шириной правил как функций .переменной х при заданном у; может измеряться разными способами. Прежде чем приступить к их рассмотрению, подумаем, а зачем здесь какое-то разнообразие, нужно ли оно? Оказывается, да, так как это своего рода регулировка, инструмент направленного воздействия на оптимальные правила, придания им тех или иных желаемых качеств, черт, оттенков. Приведем разные шкалы расплычатости, -пригодные как для скалярного, так и векторного параметров x^Mh (лишь для векторного х=(х\, ..., хи) и интегралы по dx=dx\- ... -dxk становятся кратными). 1. Интегральная шкала: Q (ду) = J ду (х) dx — наиболее проста по смыслу, так как придает всем иксам одни и те же веса. Для одномерного х это будет приведенная (к прямоугольнику единичной высоты той же площади) ширина, а многомерного — приведенный объем. 2. Взвешенная шкала: Qq(dy) = Jq{x)dy(x)dx. Весовая функция q(x) нужна для выделения более важных (скажем, в смысловом или стратегическом отношении) состояний, вынуждая их более точное оценивание в ущерб остальным. 3. Обобщенная шкала: Qy(dy) = §q(x)dy(x)ydx. Возведение решений в степень у<\ увеличивает дуу по сравнению с ду, если последнее <1, тем самым увеличивая плату за неуверенность решений и стимулируя их повышенную категоричность типа 0 и 1 (нет, да). При у>1, наоборот, будут поощряться неуверенные решения. 4. Эффективная ширина: Г dy(x)dx/supdy(x). Это есть при X каждом у отношение площади (объема) под ду(х) как функции переменной х к высоте ду. Таким способом создаются благоприятные условия для контрастных категоричных правил, у которых ду=1у и для них это будет просто интегральная шкала. 5. Периметр свойствен векторному х и определяется как максимальная по компонентам х\ интегральная ширина правил: max max [qt Г ду (х) dxt]9 X I где q% — веса, выделяющие относительную «важность» разных компонент вектора х. Введенные шкалы пригодны и для дискретных х, если интегралы обменять на суммы по х. Величина расплывчатости по введенным шкалам зависит от наблюдений у. Так как расплывчатость правил ду(х) может быть, в общем, разной при разных наблюдениях у, поэтому нужно говорить о средней расплывчатости (ширине), усредняя Q(dy) по у согласно СИМ Мх* (по частной к ней Лу). Средняя ширина есть 229
штраф за расплывчатость и меряется, в общем, сверху и снизу: MQ(dy), MQ(dy), где Щ ) — любая из указанных выше шкал. Если брать взвешенную сумму (1—y)MQ(dy) +кМ£1(ду), то при пессимизме х^1 нижнее значение будет с отрицательным анаком, и это уже, извините, будет не штраф, а поощрение расплывчатости, что сделает невозможным основные результаты о достаточности (справедливые, как увидим, при и!^1), поэтому за штраф будем брать верхнее значение MQ{dy) (по крайней мере, годное при пессимизме). Назовем составным риском расплывчатых правил взвешенную сумму «вероятности ошибки и верхнего штрафа за расплывчатость (для скалярного х это средняя ширина): Щ (д) = о? (д) + KMQ (ду). (6.2) Весовой коэффициент % призван регулировать отношение между слагаемыми: при увеличении Д, большая важность придается расплывчатости, нежели ошибке, в результате оптимальные правила, т. е. те, которые минимизируют ПхА/(д), будут более точными и менее надежными. И наоборот. Обратим внимание, что составной риск (6.2) не есть средний риск (среднее от потерь) з смысле предыдущей главы, а представляет собой некоторую» очень лростую форму характеризации негативных сторон правила. Тем не менее он сохраняет структуру риска как взвешенного коэффициентом пессимизма нижнего и верхнего его значений: ПЦд) = (1 — х)П(д) + кП(д) при П(д) = Л[ду, и(д)=~Мду + —MQ(dy). л Почему мы вдруг рассматриваем составной риск, а не средний? Да потому что составной риск делает простым синтез расплывчатых оценок и удовлетворяет (с помощью регулировочных шкал) всем практическим требованиям. Регулируя А, можно добиться любого фиксированного уровня а оптимального правила: если ошибка оказалась меньше а, то к следует чуть уменьшить, стимулируя тем самым расплывчатость, а если больше — то увеличить, и далее снова, посмотреть, что при этом получится с ошибкой оптимального правила. Минимизация по д^2)у составного риска с параллельной «подгонкой» значения К есть способ синтеза оптимальных правил фиксированного уровня а, обладающих минимальной средней шириной в классе правил уровня а, т. е. решающих забачу: min MQ(dy). Оптимальные расплывчатые правила при заданных совместных плотностях вероятностей. Совместная плотность являет собой крайнее исключение, когда данные о практически всех вероятностях событий, связанных как с х, так и с у, имеются в виде точных значений. Выделение такого случая можно было бы 230
назвать отступлением от общей нашей тенденции иметь дело с грубыми моделями, описываемыми конечным числом данным. Тем не менее такой отход позволяет, во-первых, уяснить влияние шкалы расплывчатости на вид оптимального правила, и во-вторых, продемонстрировать простоту нового аппарата синтеза доверительных правил на классической «почве» распределений вероятностей. Пусть $е=Мк, т. е. х= (хи Р-» **) и 0/=Жп, т. е. у= (уи ..., {/«), и пусть СИМ задается точной совместной плотностью р(х, у) по мере-длине на $ft+n (обобщение на другие пространства и меры для нас не принципиально). Тогда частные плотности будут равны: p(y)=J*p(x, у) dx, p(x)=Jp(x, y)dy. Считаем автоматически выполненными все необходимые условия измеримости по отношению к алгебре отрезков на Мк+п, обязанной сопровождать плотность (см. § 1.5). Для (измеримых) оценок ду(х) ошибка будет точной величиной, равной а(д) = 1—§§ду(х)р(ху y)dxdy. Перейдем к составлению риска и нахождению оптимальных оценок для разных шкал расплывчатости. Взвешенная шкала. Составной риск для нее записывается: Ilb(d)=l+Hdy(x)[-p(x,y) + Xp(y)q(x)]dxdy. Так как ду(х) заключено в пределах от 0 до 1, то правилом, минимизирующим этот риск, будет: д* (х) = { 1 при Р(Х'У)>ХР (У) Я (*). (6#3) у 10 при р(х, у)<А,р(у)<7(х). Оптимальным уровня а будет найденное правило /при таком выборе К чтобы 1 -а- Мх* д*у(х) = Д р (х, у) dxdy, р(х,у)>Хр(у)а(х) где неравенство снизу определяет совместную на #?Х^ область интегрирования. Обозначим ру(х)=р(х9 у)/р(у) и назовем апостериорной плотностью. Оптимальное решающее правило будет индикаторным и состоит в сравнении при каждом у отношения ру (x)/q(x) с порогом X и присвоении д* значения 1, если это отношение выше порога, и 0, если ниже. Функция q(x) определяет вес штрафов в зависимости от х. Для интегральной шкалы q(x) = l и тогда д*у определяется сравнением апостериорной шлотности ру(х) с порогом Л. При ?(х) = =р(х) с порогом будет сравниваться отношение р(х, у)/ [рЮр(у)]. Возможна замена усредненного на максимальный по у штраф sup[dy(x) q(x)dx, имеющий смысл, если при любом у требуется контролиро- 231
вать ширину правила ду(х) по переменной х. Тогда составной риск приобретает вид: nx(a)=l-Alxyay(x) + XsupJ^y(x)^(x)rfx. Записав inf IL (д) = sup inf [ 1 — М** ду (х) + Хр0 (у) Г dv (x) q (x) dx] (где, д Л Ро (у) д используя соответствующие утверждения теории игр [22], inf н sup поменяли местами), мы придем к правилу (6.3), в котором р(у) заменено на ро(у), определяемое минимизацией выражения Г Г [р(х, у)—%po{y)q(x)]dxdy. В некотором смысле ро(у) выбирается таким обраэом, чтобы произведение po(x)q(x) было по возможности более «похожим» на р(х, у). Обобщенная шкала. Составной риск Пх (д) = 1 -JJ [-в, (х) р (х, у) + Хду (x)v р (у) q (x)] dxdy. Оптимальное решающее правило может быть найдено минимизацией при каждом х и у выражения в квадратных скобках. После несложных вычислений приходим к следующему его виду: а;(х)=mm f 1, г ^<^' 1|/С1М))• т>L где Я находится из уравнения а<3> = ЯИ*.У>[1-(^)''''-''Г^-* Параметр y определяет наше отношение к сомнительным решениям ду(х)<1. При у=\ возвращаемся к (6.3). При 7 = 2 получаем dy(x)=min{l, py(x)/[2?U7(x)]}. Интересно отметить, что при q(x) = l данное решающее правило совпадает по форме с апостериорной плотностью, возможно, усеченной сверху величиной 2%: Замечания. 1. Выводы настоящего раздела согласно теореме 5.1 останутся в силе, если синтез производится в режиме полуоптимизма х=1/2, а СИМ задана интервальной плотностью р(х, у), р(х, у), так что// [р(х, у)+р(х, y)]dxdy=2. Тогда в предыдущие выражения нужно подставлять р(х, у)=![р(х, у) + +Р(х, у)]/2. 2. При дискретных х и у плотности заменяются на вероятности, а интегралы — на суммы. Достаточные классы расплывчатых правил. Нам неважно опять, каковыми являются S6 и ^. Это могут быть числовые или дискретные пространства, поэтому вместо оценок в общем говорим о расплывчатых решениях. Неважно также, какой является при этом шкала расплывчатости; она может быть совсем другой, чем рассмотренные выше. Важно, что для шкал должно выполняться очевидное условие dt (х) > d2 (x) =>- Q (dx) > Q (<У, (6.4) 232
т. е. более расплывчатым и более неопределенным решениям должно соответствовать большее (по крайней мере, не меньшее) число по шкале й. Как и выше, полагаем 2)=2)у — класс всех оценок. Выпишем выражение (6.2) для составного риска, раскрыв подробнее ошибку: П* (д) = 1 -хА1д, + (х- 1) Mdy + XMQ (д9). (6.5) Следующая теорема о достаточности является ключевой для настоящей главы. Хотя достаточность здесь специальная, так как привязывается к конкретному риску (6.5), но зато напрямую обращается к структуре первичных признаков СИМ, а заодно и позволяет крайне просто найти верхнюю (наименее благоприятную) ошибку, наиболее важную для нас. Теорема 6.1. При СИМ (М&У, пессимизме х^1 и условии (6.4), достаточном в смысле составного риска (6.5) классом рас* плывчатых правил будет усеченный снизу осью абсцисс подкласс вторичных, не превышающих 1 признаков 25* = {0У (*) = [Со- 2 cfgt (*. */)]+ : с0 <= Я9 с? ЕЕ <#+, «Г,е» ,д,(*)<1}- (6.6) Причем в него могут быть включены только те д*у(х), для которых нижняя надежность равна Ш*у = с0- 2 ctMgt. (6.7) Доказательство. Для любого ду согласно следствию к теореме 1.1, переписанному для нижнего среднего, имеем Мд= sup Mg. От- сюда заданному е>0 можно всегда подыскать такую —ge^£?+&, что —&8^—д и Md^MgE+e. С учетом неравенств ge(x, y)^ge(xt у) + ^ду(х), где плюс означает взятие неотрицательной части, имеем Мд—e^Mge^Mg+ef Md^Mg+E. Функция gB(x9 у)+ есть решающее правило, так как 0<g+e^d^l. Теперь из (6.5) на основании условия (6.4) и найденных отношений получаем: П£(д)=1— хМд + {х— 1)Мд + Х№(д)> I — *Mg$ + что и доказывает достаточность класса iZ>* правил. Осталось доказать последнюю часть теоремы. Если в (6.7) вместо равенства стоит неравенство, то по следствию к теореме 1.1 существует другой вторичный признак -^е^^, для которого g(xt у) + ^ду(х) и Md=Mg+e, а так как в силу первого неравенства Mg+^Md, то риск (6.5) у правила g+ будет (при е->0) не больше, чем у д, и последнее может быть исключено из достаточного класса. Заметим, что обозначение Mgi в правой части формулы (6.7) вместо Mgi означает, что оставляются лишь полулинейные комбинации согласованных лервичных признаков. 233
Следующие ниже утверждения получаются из теоремы 6.1 расшифровкой класса вторичных признаков при разных способах задания СИМ. Эти утверждения тут же сопровождаются поясняющими примерами. Следствие 1. Пусть СИМ разложима Mxv=JCxJ(vx, причем Л[х=(МЭ@у, Л(ух=(:$ху¥У определены своими первичными средними Mhi(x), к^Ж\ Дх-фИу), i^eY. Тогда при х^1 достаточным будет класс правил 2)* = {ду (х) = К- 2 ajr h% (x)- 2 cjr (x) ft>, (*, у)- причем таких, что ду{х)^1, МУхду(х) =ср—^a+iMhi. Пример 6.1. Пусть -Jtvx определяется всего одним первичным признаком ф(#) и значением Л?жф, зависящим от х, a J(x=3fx — голая модель. Тогда 3>* составляют ду(х) = [с0—~с+(х) (ч$>(у)—Л?жф)] + при выборе коэффициентов со и с+(х)^0, удовлетворяющих неравенству co+c+(x) (ty(y)—ЛЯхф)5^*» причем Мд=со. Мы видим, что так как с+(х) есть произвольная иеотрицатель-. ная функция, то правила ду(х) как функции переменной х при каждом заданном у могут иметь произвольный вид, но как функций переменной у их вид целиком определяется первичной функцией ф (у). Следствие 2. Пусть СИМ задана функциональным представлением y=Vxl и моделью J[xt = (Mx3@y (MW} (т. е. флуктуации g свободны от х). Пусть оператор V* обратим: l=Vx~iy- Тогда при х^ 1 достаточными в смысле составного риска (6.5) будут решающие правила 2)* = {дУ (*)-[*.- 2 afht (*)- 2 cf{x) fl>f (V-i */)- причем такие, что ду(х)^1, Мд=с0—%a+iMhi. Пример 6.2. Пусть наблюдения есть смесь сигнала х и шума: yi—x+\u /=1, ..., п, *е#, 1»е^, или в векторном виде у=1*+£, где 1 = (1г ..., 1)т — единичный вектор. Считаем, что шум \ свободен от х и имеет модель Ж%, заданную первичными значениями $гф;(|), ^i^^ а модель сигнала х — значениями Mhi(x)t hi^36. Тогда класс Ф* образуют правила вида ду(х)=» =<[со—2а+*М*)— 2c+iW(i|3j(y— \x)—M$j)]+> при ду(х)^1, Ш=с0— —Za+iMhi. Откажемся в следствии 2 от предположения свободы g от х* Следствие 3. Пусть */=V*g, причем оператор V* обратим,, и пусть первичными средними заданы частные Мх=(М2ёУ, и J&>=* =<Л?ЧГ>. Тогда при х^1 и риске (6.4) достаточным будет сле^ дующий класс правил: Я*-{0, (*)- [со- 2 ajr Ъ (х)- 2 ^*i (Vj1 У)]+ : Л, €= е Ж, ф, е П 234
причем таких, что ду(х)^1 uAfd=c0—^a+iMhi—^c+iMtyi. k Пример 6.3. Пусть tji= 2 wuXj+Ъи *=1» •••» л, или в векторных обоз- начениях y=Wx+|, где W — матрица тц. Пусть заданы только первичные средние Mtyi флуктуации |, а о связи £ с х совершенно ничего не известно. Тогда достаточный (при х^1) класс образуют правила вида ду(х)=» = [со—2С+*Ф*(У—Wx)]+ при таком выборе коэффициентов, что ду(х)^1 и Мд=со—'Zc+iMtyi. Нетрудно видеть, если перейти к k=l, W=l, что этот класс проще того, что получился в предыдущем примере. Следствие 4. Пусть y=Vxl, причем Vx обратим, и пусть об х ничего не известно J[x=3fx9 как и о его связи с \ (либо х свободен от I), a Jj^=<i04r> основывается на первичных признаках г|)г(Е), ifaeY. Тогда достаточный класс образуют правила вида [с0—2с+гфг(Е)]+^1, куда подставляется |=УЛт1 у, причем Md=Co—%c+iMtyi. Например, если y=Wx+|, то оптимальное правило есть функция у—Wx : dy(x)=d(y—Wx), в этом виде его и иужно искать. Замечание. Если СИМ задается в виде семейства \JJt^xy, или в виде пересечений /\JCqxv, а класс 3)* достаточен при каждой Л1вхуу то он будет достаточным для объединений и для пересечений. Это «верно хотя бы потому, что классы вторичных признаков, если они одни и те же для JCqxv, при объединениях и пересечениях сохраняются. Оптимизм и достаточность. Согласно предыдущему разделу режим пессимизма (т. е. х^1) позволяет произвести предварительную обработку, состоящую в редукции к достаточному классу 3)* расплывчатых правил, что облегчает решение статистической задачи в плане нахождения оптимального правила. Возникают два вопроса. Один — возможна ли при оптимизме и<1 такая предварительная обработка? Общего ответа на этот вопрос дать нельзя. Причина в том, что любая редукция наблюдений ведет к потере данных и расширению интервальной модели. В свою очередь, это уменьшает Мд и увеличивает Мд, т. е. эти величины как слагаемые риска (6.5) будут меняться в противоположных направлениях и при х<1 трудно уследить, в какую сторону поведет их взвешенную сумму, тем более делать общие утверждения на этот счет, составляющие смысл достаточности. Отсюда возникает другой вопрос, насколько целесообразно пользоваться определенными при х^1 достаточными классами iZ>*, если х<1? Отчасти ответ освещается следующим легко проверяемым утверждением. Утверждение 6.2. Пусть__ для всех правил достаточного (при х^1) класса iZ>* верно: Md*y=supd*y(x). Тогда класс £)* х,у будет достаточным и при х<1. Итак, видим, что рассмотренные в предыдущем пункте достаточные классы правил iZ>* будут достаточными и при х<1, если 235
в а*(д) «нейтрализовано» слагаемое с Мду. Иначе возникает чисто математическая возможность уменьшить ошибку ах(д) за счет искусственного увеличения Мду при сохранении неизменным Мду. Приведем пример реализации такой возможности, чтобы осмыслить всю абсурдность, к которой можно прийти, если пойти возникшим путем. Пример 6.4. Допустим СИМ задана точными вероятностями pi/= *=P(*&4i, y^Bj) на произведении разбиений Ai^s&xj, и Bj^&Vj, соответствен-? но пространств 26 и QJ. Оптимальное правило по теореме 6.1 записывается в виде ду(х) = \—yS^CijAi(x)Bj(y), где 0^сц^1. Пусть теперь х<1, a SB в Ч/ есть линейные пространства (скажем, 86^91, Щ^Яп), причем множества А* и В, содержат каждое более, чем ло одной точке этого пространства. Тогда, добавив к каждому слагаемому сцА{(х)В](у), у которого dj<l, произведение дельта-функций (1— сц)$х (х)6у (у), где Хц) и */(я есть произвольные представители множеств Л* и соответственно Bj, приходим к правилу с дельта-выбросами, у которого за счет нулевой площади выбросов штраф тот же: J* d*y(x)dx^j dy(x)dxt но Мд*у(х) = \^Мду(х)=Мду(х) = \—Я^сцри. Цель выбросов —» обеспечить в наиблагоприятнейшем случае единичную надежность Мд* = 1 и тем самым уменьшить риск при оптимизме. Таким образом, отход при х<1 от достаточного класса ЗУ* (соответствующего х^1) может привести к «нарушению гармонии» в правилах, вряд ли практически оправданному, поэтому использование класса £Z>* представляется разумным и при х<1, даже если условия утверждения 6.2 не выполняются. Симметрия статистических моделей и эквивариантность расплывчатых правил, Часто в задаче обнаруживается симметрия следующего содержания: .синхронные изменения лаблюдший эквивалентны соответствующему сдвигу параметра состояний. Мысль подтверждается на примере, когда yi=x+lu где подъем всех у\ на число а равносилен сдвигу х на то же самое число. Нужно ожидать переноса .названного свойства на оптимальные оценки х, а в общем, на правила, о чем и пойдет речь. Но в широком плане, когда синхронные изменения у и х математически постулируются как связанные между собой преобразования пространств 96 и ^, или просто как особый класс преобразований произведения шространств #?Х<у. Причем важно не только, чтобы эти преобразования не перекрещивали между собой 96 и ^, но и чтобы они образовывали группу, куда входили последовательные преобразования, равно как и обратные. Это нужно для шоследую- щего применения принципов инвариантности. Перейдем к формальному изложению. Рассмотрим группу & преобразований пространства $?Х^, сохраняющую на месте по отдельности Я? и у, т. е. такую группу, что каждое se^ отображает 96 на 96 и У на QJ: s(x9 y) = (s\x9 s2y). Любое преобразование s записывается как совместная пара (si, s2) преобразова- 236
ний, первое из них Si действует только на 36 9 а второе S2 — только на <у. Называются Si и s2 частными к s преобразованиями. Дадим обобщение на совместные преобразования s=(si, S2) результатов § 5.4 (где рассматривались преобразования лишь одного пространства наблюдений ^), используя введенные там понятия и некоторые результаты, интерпретированные к нашему случаю. Статистическая интервальная модель называется симметрии- ной к группе У, если для любого преобразования из этой группы Mf(slxts2y)='Mf(xfy)9 V/Gf. Симметрия достигается, если симметричен первичный набор 9 модели в том смысле, что каждой ^(л;, y)^S & каждому преобразованию se?' может быть указан_другой первичный признак gs (x> y)=g(s\x, s2y)e^ такой, что Mgs(x, y)=Mg(x, у). Утверждение 6.3. Если Жху симметрична к группе $Р> то частные модели Лх и Му будут симметричны к своим частным преобразованиям S\x и s2y, (si, s2)^9*. Утверждение следует из определения и соответствует равенствам Mf (six)= Mf (лс), Mcp(s2y)=Mq>(y). Функция f(x, у) называется эквивариантной по отношению к группе преобразований У пространства #?Х^, если f(s\X> s2y) = —f(x, у), (si, s2)^<?. Модель Jtxy называется эквивариантной к группе 9>> если все ее первичные признаки эквивариантны к 9*. Смысл эквивариантности — компенсировать изменения у соответствующим изменением х. Инвариантность СИМ есть особый случай эквивариантности, когда (s\x, s2y) = (x9 s2y)> т. е. каждое se?' преобразует только пространство ^/ (si оставляет х четко «а месте). Если СИМ (М&у эквивариантна к 9, то она будет симметрична к 9*. В самом деле все функции класса &*9 будут экви- вариантными и М f (si*, s2у) = inf {Mg : f (sxx9 s2y)^g (x, y) (=%+$} = = inf (Mg :f(xty)^g (*, у) ЕЕ £+ $ }= ~Mf (x, y). В соответствии с определением решающее правило будет (.как f) эквивариантным к 9>, если dS2y{six)=dy(x). Иначе может быть записано dSiy(x)^dy(srix)f (sb s2)e^. Например, для детерминированных правил имеем xS2y=s\Jty9 отсюда преобразование s2y выборки у ведет к «смещению» решения до решения S\Jc в. пространстве состояний. Класс эквивариантных функций замкнут относительно линейных операций и нелинейных преобразований, т. е. из эквивариантности всех g(x9 y)^S следует эквивариантность их линейных комбинаций (а в общем — эквивариантность любых функций от них <р(£(х, у)). Отсюда на основании теоремы 6.1 имеем: 237
Утверждение 6.4. При x^l достаточными для эквива- риантных СИМ в смысле составного риска (6.5) будут эквива- риантные правила. Значит, и оптимальные правила будут эквивариантны. Сейчас покажем, что в ряде случаев эквивариантными оптимальные правила должны быть и при симметричных СИМ. Назовем шкалу инвариантной к9, если Q(ду{s\x))=Q(dy(x))9 V(si, s2)e^. В случае й(ду>(x))=f ду(х)dx шкала будет инвариантной, пожалуй, только к сдвигам sx=s+;t. Теорема 6.5. Пусть СИМ симметрична к группе преобразований &, а риск составной, определенный формулой (6.5), причем шкала Q инвариантна к 9>. Допустим, также выполнено любое из двух условий: А. Оптимальное правило единственно или число этих правил конечно; Б. Группа 9* дискретна. Тогда при любых к оптимальное правило (а если их несколько, то хотя бы одно из них) будет экви- вариантным к 9*. Доказательство. Пусть оптимальное правило является единственным. Тогда, используя сначала инвариантность шкалы, а затем следующую из утверждения 6.3 симметрию частной модели, получим MQ(dv(x))=MQ(dy(six)) = =MQ(ds%v(siX)). Отсюда П£ (ду (х)) = 1 - А**1-** ду (х) + Я. AT U (ду (х)) = = 1 - М(1-к> ds% y (Sl х) + K-MQ(dSt y (slX)) = П* (dSt у (Sl x)) и в силу единственности оптимального правила dy(x)=ds ^(si*). Если теперь оптимальных правил не одно, а несколько, скажем, Оу(х)и 1=1, ,..., /, то преобразованиями se^ одно переходит в другое, так что заданным se^ и i найдется такое /, что ds y(six)i=dy(x)j. Производя равномерную рандомизацию между dy(x)i (т. е. выбирая dy(x)i с вероятностями 1//), приходим к эквивариаятному решающему правилу. То же самое необходимо проделать, если группа & дискретна: ^7=(s<1), ..., s('>). Теорема доказана. Теорема (проста для случая, /когда 9 дискретна. Если же нет, то трудности может вызвать проверка условия А. Максимальный инвариант относительно группы &, поскольку по определению 9 не перемешивает между собой SB и °у, записывается как пара 1\(х)у /2(у), и тогда эквивариантное правило записывается через максимальный инвариант: ду(х) =d'i2(V)(Ii(x)). При условиях утверждения 6.4 и теоремы 6.5 оптимальные правила нужно искать именно в таком виде. 6.2. ДОВЕРИТЕЛЬНОЕ ОЦЕНИВАНИЕ ПРИ ЗАДАННЫХ РАСПРЕДЕЛЕНИЯХ ВЕРОЯТНОСТЕЙ ФЛУКТУАЦИИ Предисловие. Отсюда мы начинаем «осаду» проблемы доверительного оценивания числового параметра х^&, априорных данных о котором совсем нет, с целью получения конкретных рас- 238
{ плывчатых оценок ду(х), минимизирующих штраф MQ(d) за рас- | плывчатость при заданной ошибке (уровне) ххх(д)=а, или что то * же ^самое, минимизирующих составной риск И\(д) =<хк(д) + +ХМ£1\(д) при соответствующем подборе X, обеспечивающем уровень а. Основная задача — научиться пользоваться аппаратом. Здесь в качестве первого шага не лишне выяснить, как работает 1 предлагаемый аппарат <на привычной и хорошо «утоптанной» многими исследователями почве заданных распределений вероятностей и их семейств, и к чему он приводит. Этому и посвящен данный параграф. Неожиданным оказалось то, что и на «утрамбованном грунте» наш подход дает пробиться свежим «росткам» ♦ в виде 'как общих выражений для доверительных оценок векторного параметра х, так и получения новых доверительных интервалов для скалярного параметра. ■ Оценка регрессии при известной плотности вероятностей. Пусть k У1=Е^г<Л" + 6*э i=h ...» я, или в векторных обозначениях у= a=Wx+|. Считается, что относительно вектора хт= (х\, •••, хь) ниче- , го не известно, а вектор |т=(|ь ..., gn), именуемый флуктуация- ми, определен и-одерной плотностью Pi(z)y zT=(zu ..., <zn), то отношению к мере-длине на &п. Требуется оценить вектор х. Относительно связи х и £ никаких предположений не делается, она не известна (или так нам удобно это -считать). ^ Согласно следствию 4 к теореме 6.1 достаточный (при х^1) класс образуют правила вида д (у—Wx), где d(z) измеримы относительно алгебры отрезков. Считая за штраф верхнюю среднюю * площадь под ду(х), что соответствует интегральной шкале расплывчатости, и учитывая отсутствие сведений о х, преобразуем штраф: ЛГй (д)= му J* д (у-Wu) du = M1 sup J d(Wx + fc-Wu) du = if X = Ml J* д (|-Wu) du = J pl (z) dz J д (z-Wu)rfu = = JJpi(z + Wu)5(z)dzdu. ^ В силу измеримости d(z) ошибка будет точгаой, равной а(д) = = 1— Мд(%) — 1—J*d(z)pi(z)dz, и составной риск I. щ (д) = 1 - J* д (z) pi (z) dz + l JJ pi (z + Wu) a (z) dzdu = = 1 + J д (z) ft J p| (z + Wu) du-/?| (z)] dz. Минимизирует риск интервальная оценка d*(z), равная 1 при ^ A,Jp|(z+Wu)du—p|(z)^0 и 0 в противном случае. Цена будет v=l— J[p| (z)— A,J*p|(z+Wu)du]+dz. После замены А,а=1Д оценка записывается Jp| (z + Wu)^u/p| (zX^a (указываются значения z, при которых d*(z) = l). Здесь Ха находится по заданной ошибке из уравнения а(д*) = 1— J*d*(z)/?| (z)dz=<x. 239
Выражение .для доверительного интервала в явном виде получается заменой z=y—Wu и приобретает окончательный общий вид: x^,^ i™ J4(y-Wx + Wu)rfu ^л 5»-1 т ^(y-Wx) <*- М иначе значение правила равно 0. Нужно разрешить это неравенство относительно х и подобрать Яа, что и ведет к доверительной индикаторной оценке заданного уровня а, а при одномерном х — к доверительному интервалу. Отметим, что, во-первых, постоянные множители левой части (6.8), не зависящие от у—Wx, удобно перенести в правую часть, и во- вторых, целесообразно искать упрощения с помощью монотонных нелинейных преобразований обеих частей, что сразу же и продемонстрируем. Рассмотрим тот случай, когда £ есть нормальный вектор с нулевым средним и матрицей корреляций В, что соответствует плотности p%(z) = ((2rc)ndet В)-V*ехр»(—zTB-4z/2). Тогда по (6.8) после несложных вычислений находим J>s(z+Wu)du _ (V2*£_v pl(z' j^det^B-iW X exp {—zT В-1 W (W* B-1 W)-1 WT B-1 z\ . Отсюда отбрасыванием постоянного множителя, логарифмированием и подстановкой z=y—Wx получаем индикаторную оценку, равную 1 в области значений х, ограниченной неравенством (у __ Wx)T В-1 W (WT В-1 W)-1 WT В-1 (у - Wx) < xl (k), (6.9) где %2a(ik) — критическая точка распределения хи-квадрата с k степенями свободы, и равную 0 вне этой области. Пример 6.5. Рассмотрим простейший случай одного неизменного по i параметра *, который нужно оценить по выборке #*=х+1*, i—l, ..., п, где £i независимы и нормально распределены с Л1£»=0, М|2{=1. Тогда Л=1, и из (6.9) получим доверительный интервал для х, записанный в форме неравенства \9-х\^ка, где 4 у=1>У1/п и X =—гФ-Ч-—Ь а Ф(и) = 1 уп \ z I 1 и = -ш/су- J* ехР ( — и2/2) du — функция Лапласа. В результате получается хоро* шо известный доверительный интервал для среднего при заданной дисперсии нормальной выборки ^еп Пусть теперь у*=#«4+6*, 1=1, ..., я, где %% нормальны, зависимы и заданы «корреляционной матрицей B={Afgi|j, i9 /=1, ..., п}> 240
a Mli=0. Тогда оптимальной доверительной оценкой уже будет лс — yTB~1w wTB—*w. ^(w^B^w)-1/2®-! i1-^) (6.10) X — Применительно к процессам yt=xwt+£tU Afg*=0, B(t, т) = =Mltlx формула (6.10) переписывается: 1*^1 * tf ■>*,«-.««»-. (1=2.) . J Wfhtdt J \ z / где /it есть решение уравнения J*B(£, х)1г^к=Шг. При взвешенной шкале расплывчатости в знаменателе левой части неравенства в (6.8) появляется весовой м'ножитель Ц (у—Wx), расширяющий интервал для тех х, которые имеют «повышенный приоритет» яри сужении для остальных х. В случае обобщенной шкалы Q(d) = fq(x)dy (x)ydx, v>b on* тимальная оценка уже не будет доверительным «интервалом, а повторяет с некоторыми искажениями по форме .плотность р. (2) li/(T-i)i d* (z) = min {1 • l ^^~ L\x?(z)J4<z-Wu)<*uJ где %а ищется по заданному уровню а. Например, при одном параметре ху при <7(z) = l, нормальной плотности и независимых од- родных флуктуациях с Afgi=0, Afg2i=>a2, имеем (рис. 6Л) а; W-mrn {1; Яехр [- -_±_ <,-*).]} . Доверительное оценивание дисперсии. Пусть t/i = xlu t=l, ..., п, или в векторах y=x^t где х>0 — оцениваемый параметр, свободный от % и описываемый голой моделью 21х (что соответствует полному отсутствию данных о jc). Пусть известна плотность р% (z), Тогда достаточным при х^1 будет класс всех измеримых правил вида ду (х) =д(у/х). Ошибка равна а{д) = 1—Мд(у/х) = = 1—Jpi(z)d(z)dz, а штраф М*]д (у/и9) du' = Ш sup ? д (х l/u') du' = о *>о о оо __ оо »Jft (z) sup J d (xz/u') du' dz - о J p| (z) J 5 (z/a) dwdz, *>0 q 0 Рис. 6.1. Доверительная оценка среднего нормальной выборки при обобщенном штрафе
где произведена замена u=u'jx и сделано допущение supx=o. х>0 Необходимость такого допущения состоит в том, что ширина доверительной оценки растет с увеличением х> стремясь к со при я-^оо, ©от и приходится вводить ограничение х<о (причем о можно считать любым сколь угодно большим числом). Тогда составной риск запишется Пх (д) = 1 - J д (z) ft (z) dz + Xa J ft (z) J д (z/u) dudz. о Обозначая Л<т=1Да и производя во втором интеграле замену z'=z/a, учитывая при этом, что dz = undz\ приводим риск к виду Пь 0) = 1 ~ J* д (z) Г ft (z) -Я"1 J и» ft (uz) dJ dz. Отсюда сразу же следует, что оптимальное доверительное решающее правило должно быть интервальным и иметь вид J un ft (uy/x) dulp% (у/х) < Яа, (6.1I) о где 'неравенство указывает значения х, при которых д*(у/х) = \ (иначе — 0); Ха находится из уравнения Jd*(z)pg (z)rfz= 1—a, a при нахождении доверительного интервала совершена подстановка z = y/jc. В частном случае нормальной стандартной плотности флуктуации оптимальный доверительный интервал в терминах пере* менной z=y/jc приобретает вид J и» exp (||z||2 ^y^\ du= exP(HzJ/2> J un exp (-w2/2) du^X. Отнесем интеграл к правой части, обозначив ее Хп, и пусть и[Кп) и й(кп) есть решения уравнения ехр(ы2/2) =%nun+i. Тоща искомый доверительный интервал запишется «*(A.n)^llz||2^ на(А,п), если верно неравенство Xn^expi[(n+l)2/2]/(n+l)n+1. При равенстве доверительный интервал вырождается в точку, причем иЦХп) = = й2(Яп) = п+1, а при обратном неравенстве — бессмыслен. Найдем Хп в соответствии с заданной ошибкой а. Для этого обратим внимание на тот факт, что |||||2 по определению есть случайная величина, распределенная по закону хи-квадрата с п степенями свободы. Подставляя плотность этого распределения, выводим _ й1 <*7i> vn/2 _ j — и* (кп) 1 ' Г(л/2) _ ч п' где Г( ) — гамма-функция. Отсюда «находится значение^ Ха,п как решение этого уравнения. Обозначая ^a,n = w(Xa,n), "a,n = 242
«= и(ка,п) и подставляя ||z||2=|lyll2/*2» получим окончательно следующий доверительный интервал уровня а: При а->1 имеем иРа,п\п+1, й?а,п\п+1 .и доверительный интервал стягивается <к точке \\у\\2/ (п+1) =%y*i/ (п+1). Таким образом, получен доверительный интервал для дисперсии нормальной выборки, обладающий вообще минимальной расплывчатостью, в том числе среди всех известных. Математическое ожидание наблюдений у считалось -нулевым: Муг = 0$ i= 1, ..., л. Пусть теперь среднее Myi=Q совершенно неизвестно, т. е. #г=*£г+Э. Считая Э свободным 'параметром, а £* — независимыми стандартными нормальными св., путем вовлечения понятия инвариантности (к сдвигу) можно прийти к тому, что оптимальной оценкой дисперсии является доверительный интервал: П ollul, п-\ < X2 < ПОу/tta, я- 1 , (6.12) где числа wa,n-i и йа,п-\ были определены выше а <т2 у =2 (у%—#)2/Л- — . 1 6.3. ОЦЕНКА ПАРАМЕТРОВ РЕГРЕССИИ ПО ЭНЕРГЕТИЧЕСКИМ И КОРРЕЛЯЦИОННЫМ ДАННЫМ О ФЛУКТУАЦИЯХ Обоснование. Наиболее обиходными, доступными сведениями о процессе помимо среднего являются его энергетические характеристики: средняя мощность, текущая мощность, а также корреляционные свойства, спектр. Причина их распространения в том, что верхняя граница средней мощности есть просто предел энергетических возможностей источника излучения. А корреляционные свойства обычно обязаны фильтру, будь он объект естественной природы как 'инерционность среды или искусственной в виде начальных каскадов приемника, который преодолевает процесс прежде, чем попасть на устройство обработки и принятия решений. Кстати, энергетические данные есть часть корреляционных, как и некоррелированность выборки, обычно достигаемая, если отсчеты процесса разнесены достаточно широко друг от друга. Здесь строятся оптимальные доверительные оценки для регрессионных параметров, в частности, параметра сдвига, когда известны те или иные данные указанного сорта о флуктуациях. Оценки получаются расплывчатые, но никак не индикаторные, т. е. не в виде доверительных интервалов. Любопытно по ходу изложения проследить, как связывается расплывчатая форма этих оценок с видом первичных признаков, незримо присутствующих в энергетических, корреляционных и других исходных (первичных) данных, а также как по мере увеличения количества и улучше- 243
ния качества (точности) этих данных улучшаются оценки, становясь более точными, более надежными. Оценка параметра сдвига при заданной мощности флуктуации» Пусть yi=x+%u i=l, ..., л, или в векторных обозначениях у— = 1х+%. Пусть единственное, что известно, так это МЬ\\%\\2/п= =о2 — верхняя средняя по отсчетам (и по ансамблю) мощность флуктуации. Тогда СИМ Мху будет определена единственным дер- вичным средним, получаемым подстановкой \% = у%—х: М** 2 (^-д:)2/п = а2. (6.13) Здесь сумма (далее все суммы по i от 1 до п) составляет первичный .признак. Ищем при этих данных оптимальную оценку параметра лс. Достаточным для (Поставленной задачи согласно следствию 4 к теореме 6.1 будет следующий класс оценок: ду (X) = [с0 - с 2 (yt - х)2/п]+, О < с0 < 1, с>0, (6 Л4) причем для них Мду(х)=,[со—са2]+. • Чтобы искать оптимальную оценку, вычислим штраф. Обратим внимание, что оценка (6.14) как функция х есть парабола, что видно, если переписать входящий в (6.14) первичный признак следующим образом: 2(#*—х)2/п*= = <У2у + (х—$)2, где #=2#*М — выборочное среднее, ау =2 («/г— #)2М — вы* борочная дисперсия. Парабола усечена снизу осью абсцисс. Интегрируя ее, получаем y+Y[co/c-Sf]+ Q(d) = $dy(x)dx= J [Cp-сЦ -c(x-yf\dx = y-V[c./c-Sl]+ _ 4([Co-Cay2]+)3/2 ГДв пределы интегрирования соответствуют положительной части ду(х). Оста- 4 — /г л2 1-4-43/2 лось найти Му Q(d) = -rrj=r Му исо — со;у J ) . Частная модель JC? сог- 3 ус ласно теореме 2.1 основывается на первичном значении: Му inf 2 (уi — х)*/п = W a I = 6s- X Здесь a2y есть первичный признак, а так как он всего один, то Му о\ = inf ay = 0, и поэтому Ш([с0-сЦ}+)3'2 = *щ>([с0-сЦ]+)т = У 244
Осталось найти Я*у ду(х). Правило ду (х) не мажорируется первичные признаком (6.13), записанным а2у+(*-#)2, а он всего один, поэтому Мху ду (х) = sup [с0 - с 2 {уг - *)2/"]+ = с0. В результате а*(д) = 1-хМду(х) + (х-1)Шу (*) = 1-х[с0-са2]++ (х-1)с„. Теперь записываем составной риск: П1(а)=1-к[с0-со"2]+ + (х~1)с0 + Яс0^-у3077. (6.15> Здесь нужно рассматривать два случая: с0—«т2>0 и о—со2<0. Последний из них не представляет, интереса, так как соответствует ошибке a*(d) = (x—1)с0, определяемой исключительно пессимизмом (а не знаниями о свойствах флуктуа^ ций). Полагая с0—са2>0, найдем сначала оптимальное значение с при задан- ном со. Для этого, дифференцируя правую часть составного риска по с и при- равнивая 0, получаем с = с0(2Х/(Зх5*))2/3 и minn^^nr 1+с0[(12Я.2хог2),/3~ 11. с Отсюда видно, что оптимальное значение о должно быть равным либо 0, либо^ 1. Поскольку неравенство с0—са2^0 исключает значение с0=0, полагаем со-^Коэффициент с находится по заданной ошибке а из уравнения а=1—*+ +сха2+х-1=сха2 и равен c* = a/(xa2). Причем условие c0-cV>0 соответствует <х/х<1.' Таким образом, при <х^1 оптимальная оценка имеет вид ха2 (6.16) Как функция переменной х, есть парабола, нанесенная на рис. 6.2 штриховой линией, максимальная при значении х9 равном выборочному среднему $, и усеченная снизу осью абсцисс. Максимальное значение параболы 1—с*а2, не -равно 1, что говорит о некантрастности оценжи, а размах параболы у основания, равный 2 V 1/с*—а2у, характеризует ее расплывчатость. Здесь неприятным является влияние а2у, от которого, как оказывается, нетрудно избавиться, что сейчас и будет рассмотрено. Рис. 6.2. Доверительная парабола при энергетических данных 24S
Введем контрастную оценку (т. е. supdysd, inf ду езО) вида х х ду (х) = [ 1 - с* (х - у)2]+, с* = а/(ха2). (6.17) Для нее Мду(л;) = М[1+с*Оу - с* 2 (^--*)2/л]+= 1 +с*Ш\ - -с*Ж2 (У1 — х)2/п= 1— с*о2 = 1— а/киШду (х) = 1, поэтому уровень а* (5) = 1 — н Л! д-|-(и — 1) М д = а, а штраф М* J dy (*) dx = = Му 4/(3 У?) - 4/(3 f £*). Таким образом, и штраф, и уровень оценок (6.16) и ,(6.17) совпадают, контрастная оценка (6.17) также является оптимальной. Это парабола по переменной ху нанесенная сплошной линией на рис. 6.2. Можно сказать, что любая оценка, заключенная в пределах между оценками (6.16) и (6.17) l-c*a*-c*(x-y)2]+<dy (*)< [1-с* <*-£)»]+, -будет оптимальной. Причина такой неоднозначности оптимальной оценки объясняется тем, что как Мду> так и Мду, а следовательно, риск ориентирован на такой наименее благоприятный процесс, у которого а2у=0, что означает постоянство реализаций флуктуации |i = |2= — ™Еп, при этом оценки (6.16) и (6.17) совпадают. Это же и причина, по которой точность оценки, ее ширина не зависит от объема выборки п. Оценки (6.16) и (6.17) -называются оценками энергетического типа, так как используют только среднемощностные дашше о флуктуациях. Сейчас мы выявим некоторые их дополнительные стороны и дадим обобщения. Развитие энергетического типа оценивания. 1. Если помимо а2 задана нижняя граница в*=МЪ\\1\\2/п мощности флуктуации, то оптимальная оценка не изменится, так как новое среднее, взятое за первичное, не меняет «и частной модели ЛУ, ни шкалы й(д), ни значений Мду, Мду. 2. Пусть помимо верхней мощности а2 известно, что флуктуации имеют нулевые средние, а именно, либо М|г=0, х=1, ..., /г, либо Afg=0. В обоих случаях в силу симметрии СИМ к перестановкам iji оптимальный алгоритм будет принадлежать следующему достаточному классу: ду(х)=[С0 + Сг 2 (Уг~Х)/П-С 2 (Уг-Х)2/П]+. Слагаемое с коэффициентом С\ даст лишь смещение в сторону по оси х оценки ду (х) как функции х9 что, как нетрудно убедиться, приведет к увеличению риска, поэтому с*=0. Частная модель JC* 246
как при нулевых данных Afgt = 0, так и когда этих данных о М%$ нет, одна и та же, поэтому штраф рассматриваемой оценки, а следовательно, и риск будут такими же, как у оценок (6.16)г (6.17). Таким образом, данные о нулевом среднем значении флуктуации не меняют решения исходной задачи: оптимальная оценка будет иметь вид (6.16) или (6.17). Сказанное переносится и на случай, когда заданы границы: а) Щ{=—m, M\i=my t=l, ..., nr либо б) Л1|=—/п, М1=чп. 3. Оценки (6.16) и (6.17) «настроены» на максимальный штраф MQ(d) и соответствуют х^1. Тем не менее ояи остаются оптимальными и при х<1, а также при взвешенном (коэффициентом пессимизма) штрафе вида Л1* Q (д) = к Ж J ду (х) dx + (1 - х) М J ду (х) dx. В самом деле, Мду (х) = supdy (x) и согласно утверждению 6.2- достаточным при х<1 .будет тот же класс (6.14) оценок. Полагая со=1 (оптимальное значение), нетрудно убедиться, что переход к взвешенному штрафу не может повлиять на вид оптимальной оценки, так как значение с однозначно определяется ошибкой а. 4. Если искать оптимальную оценку в классе интервальных, то она примет вид y + aYnlq и получается заменой в (6.17) усеченной параболы на прямоугольник единичной высоты с тем же основанием, как это выглядит на рис. 6.2. Ошибка этой оценки будет также равна а, однако расплывчатость ее по сравнению с (6.17) возрастет за счет увеличения площади под ней. 5. Мы считали, что о связи х и \ ничего не известно. То же самое согласно следствию 4 теоремы 6.1 будет, если считать, что в представлении у=\х+\ о параметре х известно только, что он свободен от 5, т. е. Jt^=\M^9x и теперь уже х может произвольно подстраиваться под значения \. Можно показать, что допущение о свободе х от \ не меняет оптимальной оценки. 6. Оценивание параметра регрессии. Пусть СИМ задана следующим образом: yi=WiX+li9 t = lf ..., л, М\\1\\2/п = о2> где Wi — функция регрессии (скажем, форма детерминированного сигнала), х — параметр регрессии (амплитуда сигнала). Достаточный класс в этом случае образуют оценки вида <?у (x) = [c0-c\\y-wx||2/л]+, w = (wl9 ... , wny. Представим здесь квадрат нормы в виде l|w||2,[a2y— (х—у)2] в обозначения у=Sf/iWllw||2, a2y = llyll2/l|wll2—у2 и запишем штраф- (верхнюю среднюю ширину): К sup (4c0/3) \ c0n/(c||w]|2)— a2y. Су- * у г премум достигается при о2у=0, поэтому штраф равен К4соУ Соп/с/ 24Т
(3||w||). Из сравнения с (6.15) видим, что оптимальной должна быть оценка (6.17) (или (6.16)), если заменить в 'ней # на # (ау А — на <7у), а с* — на а\Ы\\2/(хо2п). 7. Оценивание векторного параметра регрес- k сии. Пусть yi — ^WijXj+lu i=l, ..., л, или в векторном виде у= = Wx+^, и пусть М\\%\\2/п=^о2 определяет Jfi. Оптимальной уровня а (при х^1) будет оценка [1— с*Ш2]+, с*=а/(хло2), куда подставляется %=у—Wx. Записанная оценка неконтрастна, так как тах||у—Wx|| = X — Ну 111^0, откуда maxdy(x)^l, где у± <— проекция у в под- X пространство, ортогональное векторчгголбцам матрицы W. Разложим у па две ортогональные составляющие: y=yw +y i» где yw=W(WTW)-1WTy — проекция у в подпространство вектор- столбцов W. Замена в вышезаписанной оценке у на yw ие изменяет а (поскольку ЛЩ||2=Л1||^у|12, где £w— аналогичная проекция £), поэтому доверительная оценка многомерного параметра регрессии dy<*) = [l-a||yw -W*||2/(xno2)]+ «будет оптимальной уровня а и одновременно контрастной. В частом случае, когда параметр регрессии скалярный, результат, как нетрудно убедиться, совпадает с рассмотренным в предыдущем пункте. 8. Неоднородные флуктуации. Пусть СИМ задана, следующим образом: y = Wx + |, М||А|||*-ло2, где А — матрица пХп. Совершая преобразование z=Ay=AWx+A£=AWx+f|, видим, что Л?||ц||2=/га2, и задача в новых наблюдениях z сводится к рассмотренной в предыдущем пункте с заменой W на AW. В частном случае, когда заданы Щ±а2$ч=по\ матрица А становится диагональной с элементами а» по главной диагонали. Такой результат легко переносится на процессы: yt-wtx+lt91 e [0, Т], М^г / а2 Ц dt= о2, т о где wt и at — известные функции. Тогда для получения оптимальной оценки нужно в формулах (6.16), (6.17), #, ау и с* заменить на т т $ytwta2tdt л Sytatdt ~ „ п, || wa IP y || wa |P *T xo*T 248
т где ||wa||2=J* w2ta2tdt. Так, оценка типа (6.17) принимает вид ? о д'у (*) = [1 -а||wa||2 (х-ут)У(ю* Т)]+. 9. Пусть теперь исходным является не задание «мощности» флуктуации, а среднее значение некоторого неотрицательного функционала от реализаций флуктуации: JUF{5}=|i. Тогда оценка будет иметь вид ду(х)=)[со—cF{y—Wx}]+, причем Мд=\[с$—c\i]. Рассмотрим два шримера таких оценок. Пример 6.6. Пусть х — параметр сдвига и заданным является среднее эффективное значение реализации флуктуации ЛЩ[=ц, |||~S|^i|. Тогда оптимальная оценка уровня а записывается: д(%)=*[со—с*\%\]+, co^'l, c* = al(x\i). Сюда нужно подставить 1=у—\х. Оценка как функция переменной х обретает вид линейно-ломаной с узлами в точках #*. Форма записи оценки не изменится при заданной любой другой норме \%\. Пример 6.7. Пусть единственным первичным значением является А12{1Ь1 >*}/« = Як. т. е. исходным является задание верхнего среднего относительной частоты превышений абсолютными значениями %i порога Л. Тогда оптимальная оценкз имеет вид 0уМ = [«о —«2{1Ь1>Л}/я]+, c0 = c = min{l, (1 -а)/(1 — хрл)}. Оптимальная оценка параметра сдвига при однородных некоррелированных флуктуациях. Дополним сведения относительно флуктуации, обогащая первичный набор новыми признаками, и посмотрим, как видоизменится оценка, какие новые свойства у нее появятся. Пусть yt = x+li, t=l, ..., я, причем известно только, что £г некоррелированы Af|4j=0, 1ф]9 и имеют одинаковые «мощности» М|2г-=а2. Это соответствует СИМ с первичными средними, получаемыми подстановкой \%—у%—х и приобретающими вид: _ _ Af (*,-*)(»-*)-О, 1Ф1\ М(У1-х)* = о*9 где i и / шробегают значения от 1 до п. Поскольку СИМ симметрична к перестановкам #г- между собой, а группа перестановок дискретна, то достаточным будет класс инвариантных к перестановкам правил (см. утверждение 6.5). Вместе ic теоремой 6.1 это позволяет получить следующий достаточный класс оценок: Зг (*)-[*•-*! 2 2 {Уг-х){у3-х)1п*-с% ZUft-xr/n]*- «и/ = [Со -сг(У-xf + (сг/п-с2)(у*-2ху+х2)]+, £2 = 2У]Ш, и для них Мду (х) =\[со—С202]+. Осталось найти коэффициенты со, Ci и С2, минимизирующие риск и удовлетворяющие ограничению 24$
Будем искать Q(d), для чего перепишем ду (х) в виде: ду (х) = [со -с^+ (cjn - с2) у2 + + 2х (сг (п — \)/п + с2)у — х* (сх (п — \)/п + с2)]+ = [а0 + аг х — а2 **]+, где ao = c0—a2i)2+ (ci/n—с2)ау, ui=2a2yt a2=Ci(n-^\)/n-^c2. Условие ду(*)^1 соответствует двум неравенствам а2^0 и supoy(x)=s X *=uo+&2il4a2^l. Так как ду{х)^0 при ао+а24/2а2^0 и J jc—ai/2a2K ^ |/r[d2i+4doa2]+/2a2, то, проинтегрировав д (х) по х в пределах, соответствующих последнему неравенству, найдем Q(д) = J*dy(х)dx = (2/3a2)]/ [a\ +4a0a2]+[20 + a?/4a2]+. Учитывая теперь, что Мд (х)=М7[ao+a2i/4a2] +=sup[do+d2i/4a2]+, сформируем у .выражение для составного риска: П* (д) = 1 — х [с0 — с2 а2]+ + (х — 1) 5 + 4Л 53/2 /3 Т/а^. Найдем в этом выражении S = sup[do—d2i/4a2] + = co+inf a2^2+sup(Ci/n—c2)a2y= у *2 у ay =c0. Отметим, что для справедливости последнего выражения должно выполняться Ci/n^c2 (иначе супремум от а2у равен оо). В результате Л* (д) = 1 -х [с0-с2^]++ (х- 1) с0 + 4Я4/2/зУ^- Оптимальным с и минимизирующим риск при заданных с0 и с2, будет такое значение, которое максимизирует a2=ci(n—1)/п+с2 при условии d/n^c2. Так как чем больше Ci, тем больше а2 и тем меньше риск, то оптимальным будет наибольшее возможное значение: Ci = c2nt откуда сразу же a2=Ci, и досле подстановки этих значений оценка приобретает вид ду(х) = [со—Ci(Q—х)2]+, а ее риск становится равным П%{д) = 1 - х [с0 - сг а2/я]+ + (х - 1) с0 + Я с0 (4/3) У^. Полученное выражение отличается от (6.15) лишь тем, что вместо а2 здесь «стоит а2/п, поэтому оптимальная оценка будет иметь вид (6.17) с заменой а2 на о*2/*, что мы и сформулируем как результат. При однородной некоррелированной выборке мх^1 оптимальная расплывчатая оценка уровня а имеет вид а* (jc) = [ 1 — с* (х - */)*]+, с* - ош/х а2. (6.18) Иллюстрация ее дана та рис. 6.3. При увеличении п оценка становится все более узкой, менее расплывчатой, что очевидно дол- лоно быть, так как при получении # как суммы некоррелированные флуктуации складываются в беспорядке, стохастически, сглаживая в известном смысле друг друга, в результате разброс уменьшается, что позволяет для фиксации а сообразно этому 250
Рис. 6.3. Расплывчатая оценка при некоррелированных флуктуациях сократить ширину. Причем такой же оценка будет, если дополнительно известно, что Afgi=0, эти новые данные оказываются- ИЗЛИШ'НИМИ. Оценка (6.18) инвариантна к перестановкам наблюдений. Она же эквивариантна к преобразованию сдвига в том смысле, что одновременное прибавление ко всем yi и к х любого числа а не меняет ее значения: ду{х)=ду+га(х+а). Последнее и позволяет исследовать (6.18) три *=0, исследуя тем самым д(%). Оценивание сдвига при неоднородных некоррелированных флуктуациях. Пусть выборка не является однородной, но остается некоррелированной, т. е. Уг=х+*£и МЫз = 0, *V=/, Щ21=®2и 1=1, ,..., п. Определенная таким образом СИМ уже не будет симметричной к перестановкам. Достаточным будет следующий класс оценок: Л (х) - [с0 - 2 S °и (Уг - х) (%-*)]+, где Си — ел. Перепишем: dy(x) = [do+&iX—a2x2]+, где й0=с<г-22cij##j, &=22 Cii(#i + +yj)"B22c<0«> Ci=2c*i, fl2)=22c*i- При введенных обозначениях штраф / Л? *f ду (х) dx - -^" [sup (S, а2 + а\ /4)+]3/2 . Щ у Ищем внутренний супремум в квадратных скобках: sup (йоа2+d2J4) = с0а2+inf [а222 сиУгУз—22 с&Юху,]. У У Чтобы инфимум не равнялся —оо, матрица Q элементов iQ«j—'(22cw)g«j— c«cj, iy /=1, ..., я, должна быть неотрицательно определенной, и тогда sup(flofl2+ у +fl2i/4)=c0a2. Далее Мду(х) = [со—2с+«<*2*]+» где с+ц есть положительные части с««. Наконец, Mdy(x)=sup dy(je) = (l/a2)sup(doa2+a2i/4) +=co, а ду(х)<1 ДР.У *»У эквивалентно условию co^l. Используя найденные значения и полагая со—2с+«а2*>0, запишем риск nX(a) = i-c0 + x245r?+^4-co/2/3Vs2^J. Нужно минимизировать риск сц при условии неотрицательной определенности матрицы Q. Разложим Q на сумму матриц ранга 1: 0=2Ь<Л)ЬТ(Л)> где Ь(к)в(&м, -.., bhn)T — векторы. Тогда нужно будет минимизировать Щ(д) независимым выбором векторов Ь(Л). Совершенно ясно, что все эти векторы све- 251 д*М б/Vx/fccn)
.дутся к одному, так что Cij = bibj. Отсюда 22^^= (2^02 н сц=Ьгг. Оценка и риск запишутся так: dy(x) = [c0-(ZbUyi-x)r]+, П^(а) = 1-с0 + >с2^5? + Я4.^/2/32^- Осталось минимизировать риск по 6г и со. Дифференцируя по Ьг и приравнивая 0, получаем &i=2Xco3/V[3x<j2i(2&02]- Суммируя по i, выводим уравнение, из которого находим сумму 2^ = [2M2(l/a2t))/(3x)]1/3c01/2. Подставляя эту сумму в выражение для Ь\ и далее в 11*^(0), имеем ^=co/2(i7),/3/ra|(s(1/^))2/3] и • Пх (д) = 1 - с. [1 - (12Х* х)1'3 /(2(1/"а?))'/3] • Очевидно, со будет равно 1 или 0 в зависимости от того, больше или меньше 0 выражение в квадратных скобках. Нас интересует лишь первый случай, поэтому со=1 и тогда bi=%h2i. Определяя X по заданной ошибке <х=и2&2<0"21 = «=хЛ2(1/а2г), находим А.2=а/[х2(1/о2г)]. Сформулируем окончательный результат. Оптимальная {при х^1) уровня а оценка параметра сдвига неоднородной некоррелированной выборки имеет вид ■«-И(ч)(- 2 УгЮ! 2 1/а? + В обозначениях <т2ср=/г/(211М2г) и # = а2ср2 (*/г/(я<*2г)) оптимальная оценка записывается д*у(х) = [i-^(*_J)»]+. (6.19) Отметим, что при одинаковых дисперсиях Oi = o имеем аСр=а и #=#, поэтому из (6.19) частным случаем будет (6.17). Обобщения оценок 1. Оценка параметра регрессии. Пусть yi = WiX+lu MEi£j=0, хф\, Ml2i = o2u t=l, ..., п. Переходя к новым наблюдениям Zi=yi/Wi = x+ (li/Wi) =х+щу Mrfi = o2i/w2i> мы^сводим задачу к (6.19), в которой yi заменяются «а г*, а а2г— яа а2г/ш2г. Получается следующая оптимальная оценка: *<-ИН)(-^)Т- « Отметим, во-первых, что отсчеты уг- индекса £:Шг = 0 исключаются. Во-вторых, оценка эквивариантна к преобразованиям сдвига вида s(x, y) = (x+a, y+wa). В-третьих, оценка (6.20) базируется на y={J!lyiWi/a2i)/(^Wil(y2i) — такой детерминированной оценке х4 которая максимизирует в классе линейных оценок вида 252
2^i{/i отношение (2сг^г)2/(2с2г<т2г) (интерпретируемое в задачах радиотехники как выходное после линейной обработки отношение энергии полезного сигнала к мощности шума).. 2. Рассмотрим более общую задачу. Пусть известны 'корреляции флу-ктуац.ий: yi = WiX+lit М|^=В*,-, i, /=1,...,я. Здесь элементы Вц образуют неотрицательно определенную симметричную матрицу В. Разлагая ее по собственным функциям, получим B = FT2F, где 2 — диагональная матрица с элементами а2г по главной диагонали, a F — унитарная матрица F^: FT = F_1. Переходя к векторам-столбцам w и \ элементов до* и \и запишем y=w*+§, В=Л1ЦТ. Совершим преобразование z = Fy= =xFw+F|=^w+tj, где &i=2lFijWjt Лг=ЕЛ^. Нетрудно видеть, что Af44T=MF|£TFT = FBFT=FFT2FFT=2, так чт0 Ш некоррели- рованы между собой и Mr\2i=xy2i. Таким образом, в наблюдениях Zi задача сводится к уже рассмотренной, только в формуле (6.20) нужно заменить у{ на zu Wi на wiy а а2* »на а2*. Так как 2 wf/af = w» 2 -1 w = w* FT F В-1 FT Fw = wT В-1 w, 2 ZiWi/ot^z-* 2~Iw = yTFTFB-1FTFw = yTB-1a>, то после соответствующей подстановки в (6.20) получаем оптимальную оценку 3j(*)- Г1- — wTB-xw(A:-xy)2l+ , "(6.21) где xy=yTB'~1w/wTB~1w (полезно сравнить ее с (6.10)). Если учесть, что верно Mx2i = llwTh~iwf то оценка (6.21) записывается иначе: д*у (х) =» [1 - (a/к) (х - ху)2/М *|]+. Отметим, что ху при М& = 0 есть детерминированная оценка х, минимизирующая в классе линейных оценок сту отношение «сигнал-шум»: (McTy)2/M(cTy)2=(cTw)2/ (cTBc). 3. Оценивание амплитуды детерминированного сигнала. Пусть требуется оценить х по данным yt = wtx + tt> Mltlt> = B{Uf), М'е[0,Г], где B(t9 V) — корреляционная функция шума, это есть ядро положительно определенного обратимого оператора. Оценка имеет тошю приведенный в (6.21) вид с той лишь разницей, что квадратичные формы wTB_1w и yTB_1w заменяются на интегралы т т wrB^w-/ wthtdt, y^B-1vf= J ythtdt, о о 253
где ht получается решением (интегрального уравнения / B(Ut')htdt = wt>. о Отметим, что точное знание корреляций есть некоторая идеа«" лизация реальных знаний, если ошибки невелики. В следующее разделе будет изучено влияние ошибок в знании корреляций на способы формирования оценок и оптимальный вид их. Оценка амплитуды сигнала при колебаниях его формы и неточных корреляциях шума. Пусть yt=wtx+lu где t=tu t2> ... tn (или t&\[09 Г]), wt определяет форму сигнала, а х — его амплитуду. Пусть шум It имеет нулевое среднее Af£*=0, а его корреляционная функция B(t, т) неизвестна и лежит внутри заданного выпуклого ограниченного семейства 95: Mtttx = В (t, %)<=*, т.е. Л\= \/ Ж. в<=аз Будем искать оптимальную оценку х в достаточном для указанной задач» классе правил вида d(yt—wtx). Запишем для этого риск I I^(d)=l^yiM^d(l) + (K-l)M^d(l) + KWsup^d(l + w(x,—x))dx== — х' = 1 — и infMd (§) + (* — l)supMd(£) + A,supAl| fd(£ — wx)dx = в — в в J = 1 — KinfMld(g) + (x— l)<T-f-Xsup [d(l — wx)dx, в — | J где использовано равенство M%f(%)= sup/(§)=/ и индекс t у |< и wt для краткости опущен. Задача синтеза оптимального правила обретает вид inf sup[l— и Л[|д (£) + (* — l)"d + Xsup J*d(§ — wx)dx]. д В ^ Так как A*|Bi+(1_v)B,d(g) = sup{2 SftBxC т) + t х / t x = 7^|ia(6) + (l~Y)^lt^(6)» 0<7<1, то риск является вогнутой функцией В. Учитывая выпуклость и ограниченность семейства 95, мы можем инфимум л супремум поменять местами и сначала отыскать оценку при заданной корреляционной функции B(tt т), обозначая риск П£ в(д), а затем, максимизируя риск, определить наименее благоприятное Вн.б и подставить в оценку. Оптимальная оценка, минимизирующая П£в(д), и риск для] нее записываются в матричном виде (при непрерывном t легко ; переписывающимся в соответствующие интегральные аналоги): П* в (д) = (12 Я» x)«/»/(W В-1 w)»/3, 254 ' ,
где при некотором Я это — формула (6.21), и было сделано допущение, что П;ив(д)^1. Теперь из выражения для риска видно, что наименее благоприятной Вн.б будет корреляционная функция, минимизирующая квадратичную форму: wT В-* w = min wT В-1 w. ид) Окончательно оптимальная оценка уровня а примет вид (6.21), щда вместо В подставляется Вн.б. Рассмотрим примеры получения таких оценок для различных семейств 95. Пример 6.8. Пусть заданы границы корреляционной функции B\ty т), B(tt т), являющиеся неотрицательно определенными ядрами. Тогда наименее «благоприятным будет значение £н.б(*, т) =/*(*, т), соответствующее максимальной мощности B(t, t)=52t шума и максимальным корреляциям. В другом случае пусть 95= {В : ЦВ-— Boll^v}, где норма IIВЦ есть максимальное собственное число оператора с ядром B(tt т). Здесь Bo(t, т) есть «екоторое предполагаемое (оценочное) значение корреляционной функции, а л?— величина ошибки. В этом случае min wT В""1 w = wT (В0 4*v О-1 w» ||B-B0|1<V .где I — единичный оператор, соответствующий ядру в виде дельта-функции Дирака. Ядро vl интерпретируется как корреляционная функция «белого шума» спектральной интенсивности v. Поэтому сумма Bo+vl равносильна добавлению к флуктуациям «белого шума». Таким образом, ошибка в знании корреляционной функции флуктуации компенсируется прибавлением добавки в виде «белого шума» (подобный вывод, если вспомнить, мы уже получали в задаче фильтрации конца § 5.5). Теперь обсудим тот случай, когда неточно известна функция и>ь определяющая форму полезного сигнала. Оценка (6.21) уже не будет в этом случае оптимальной, так как она призывает к линейной обработке наблюдений у и тогда как при неточно известном сигнале не исключено, что следует перейти к нелинейной обработке. По крайней мере, оценки вида ([с0—E2^j(f/i—*)X X (Уз—х)]+ уже не образуют достаточного класса. Тем не менее, если изменения сигнала малы то сравнению с некоторым гипотетическим значением w°t, то все же можно ограничиться линейны- ми оценками, подбирая в % = cTy значение с таким образом, чтобы максимизировать отношение сигнал-шум на выходе фильтра линейной обработки при наименее благоприятном отклике wt, т. е. решая задачу max min (cTw)2/cTBc при cTw= 1. с wer Пример 6.9. Пусть wt может колебаться около значения w°t, так что 8W—w0U2=2(a><—ш°02<А2. Тогда t min (cT w)2 = min (2 ct wt)2 = (%ct w\ — ||c||^A)2 = (cT w° — ||c|| A)*, WE^ l|w-w°||<A * 255
где минимум достигается при wt = w°t—с*Д/||с||. Максимизация по с отношения сигнал-шум (cTw°—||с||А)2/стВс ведет к значению с* = (В — vl)"1 w/wT(B — vl)_1w, где v находится как решение уравнения v2wT(B+vI)-2w=A2. При непрерывном времени t суммы заменяются на интегралы,, а матричные выражения — на интегральные аналоги. Таким образом, наличие колебаний сигнала в случае линейной обработки компенсируется введением дополнительного аддитивного «белого шума» спектральной интенсивности v1. Полезно- провести сравнение с предыдущим примером, где такая же добавка являлась следствием неточного знания корреляционных, свойств шума. 6.4. ОЦЕНИВАНИЕ ПАРАМЕТРА СДВИГА ПО МОМЕНТАМ И ГАРМОНИЧЕСКИМ СРЕДНИМ Оценивание по моментам. Какова будет оценка параметра х по наблюдениям yi=x + liy /=1, ..., п, когда известны моменты более высоких, чем первого и второго порядков? Тогда вид оценки, в общем, будет отличаться от усеченной снизу параболы, каковой о'на являлась выше. Начнем с примера. Пример 6.10. Допустим, что исходными для % являются: M£3il3j = 0, i¥=j, M^6i = fn6. Тогда при x^l достаточным будет следующий класс оценок: д(|) = [с(г—Ci22S3i£3j—Сг216*]+ («уда для получения ду (х) нужно подставить li=#i—х). В частности, к этому классу относится оценка вида d(!) = [l~(IVAn)2]+, Р = 26?/я, которая заменой ^3i=t\i выводится из (6.18), причем Mr\i = 0, Мц21 = гпбу поэтому для фиксации уровня должно быть Ап= ]/ хт6/(сш). Если в той же самой задаче дополнительно известны промежуточные моменты (вплоть до шестого), то, как можно будет видеть из сравнения со следующим примером, более хорошими могут оказаться оценки вида [1—(g/A)6]+, так что форма оценок во многом определяется видом исходных (первичных) признаков. Перейдем от примера к общему случаю. Пусть ограниченными являются моменты вплоть до порядка 2k. Зададимся оценками вида «(g)—И -(!/Д»)2*]+, k = 1,2, ... , (6.22) и назовем их оценками степенного типа. Как функция переменной х оценка степениого вида д(у—1л:) при k>\ уже не перевернутая 1 Впервые показано в статье: Кузнецов В. П. О синтезе линейных обнаружителей при неточно заданном сигнале и неполностью известных свойствах нормального шума//Радиотехника и электроника. — 1974. — № 12.— С. 2529— 2538. 256
Рис. 6.4. Оценки степенного тина усеченная снизу парабола, а кривая, более тупая, чем парабола у вершины,^ более круто спадающая у основания, как это показано на рис. 6.4, трансформирующаяся при к-*- ->-оо к индикаторной форме, т.е. доверительному интервалу. Величина 2ДП — размах оценки у основания. Очевидно Мд(%)^ ^>1—М&к[А2\ (так как д(х) 5*1 -{z/An)2h), Мд(%) ^1 (так как d(z)^l), откуда при х^1 имеем а*{д)= \-к^д + {*-\)Мд^кЩ2к1А1к• Теперь, чтобы уровень ак(д) оценки был не больше а, (нужно брать Дп^ (xM£?kla)i/2h. Для определения размаха оценки Дп нужно знать Ml2h. В свою очередь, для нахождения M|2ft, как это следует из неравенства Alg^^S ... 2|лЩг ... lik/n2k> достаточно знать смешанные моменты вплоть до порядка 2k. Чтобы получить содержательные результаты, нужно сделать предположения относительно существования моментов. Характер этих предположений и их влияния на размах оценки установим сначала на примере. Пример 6.11. Пусть &=2. Тогда для независимой симметричной последовательности с конечным четвертым моментом: ( О при ix ф ia> ix ^ i3, t'i ^ *4, |ЛГ| \h \l% li% l[4 = ] о"4 при ix = i2 * i3 = iv \ m4 при it = i2 = i3 = i4, где o2=M£,2it ш4=Л1|4г. Отсюда имеем M£4<' За4(/г—1) An<- 1 Г X / Ш4 УЛ a\n m4 3a4(n-1) )I" Аналогично, если k=3, то __Л 1 / _ 0 Ml*<-J-[ nm6 + C\n(n — 1)m4a2 + л(n — 1) (n ■ - 6! •2)op (2!)3 3! ■)• Здесь видно, что чем больше л, тем в меньшей мере влияют величины старших моментов на ширину оценки (6.22). При п-+<х> существенным оказывается лишь значение второго момента а2. Сделаем предположения. Пусть k — некоторое целое число и обратимся к оценке степенного типа (6.22). Считаем %% одно- 9-13 257
родной последовательностью симметричных св., у_ которой m2fe=Mit2fe<o°. Для «ее М1^~1=0 при /=1, ..., k9 и ni2j конечны при /^ift. Нужны также предположения относительно некоррелированности м__ежду собой степеней отсчетов, а именно, считаем \М |g{* Ц2... Iff—0, если нечетно хотя бы одно ju где ]\ принимают целые значения от 0 до 2/г^2& (требуемая некоррелированность будет, если £* независимы и симметричны). Тогда для расчета М\2к, а отсюда и для расчета ошибки а*(д)=кМ12к/А2кп оценки (6.22) уместно воспользоваться допредельной формулой (3.11), а в асимптотике при п-^оо — утверждением 3.11, согласно которому lim М12кпк^о2к (2k) lf(kl2h). Л->оо Подставляя правую часть в ошибку и приравнивая последнюю а, находим асимптотическое значение размаха АЛ оценки степенного типа, нормированное множителем У'Тг: Обратим внимание, что при п-^оо размах Дп уменьшается пропорционально 1/|/ я, так как правая часть от п не зависит. Как .функция числа к правая часть имеет явно выраженный минимум, дающий наименьший размах оценки при данном уровне а. Это рождает задачу асимптотически (при л-м») оптимального выбора числа k, т. е. подстройке формы оценки по параметру к в рамках структуры степенного типа (6.22), к чему и шерейдем. Асимптотическая подстройка оценки степенного типа. Считаем |* симметричными, ограниченными (поэтому существуют моменты любых .порядков) и независимыми. В результате при любом делом k будут выполнены предпосылки формулы (6.23), дающей асимптотическое при п-+оо выражение для размаха оценки степенного типа. Ширина оценки (6.22) получается интегрированием Q»0>« У П-(*/Дп)2*Н* = 2дп ^ . Подстановка сюда значения Ап из (6.23), обеспечивающего по крайней мере асимптотически уровень а, приводит к выражению для асимптотически нормированной ширины Поставим задачу выбора такого k, при котором достигается минимум правой части. Ее решение — сфера численных методов. Но на качественном уровне вполне приемлемы и аналитические,] воспользоваться которыми позволяет формула Стерлинга: | 258
k\tt(k/e)kY2nk. Подстановка ее на место факториалов в Q* дает: Q* - 2о (1/2 к/а)1/2* V2^7i ^^ , а минимизация по Л ведет к уравнению /a=fe(2fe+3)/(2fe+l), где /y = ln(Vr2x/a), решение которого есть £* = /a/2—3/4+ "K/2a—3/a/2-f- + 9/2. Нужно взять ближайшее целое к нему значение )[&*], подстановка которого в й* даст асимптотически нормированную ширину оценки (6.22). Ее приведенное (к единичной дисперсии) значение fi*/a при х=1 сведено в таблицу для сравнения с приведенной шириной 2Ф_1(1/2—а/2) доверительного интервала нормальной выборки примера 6.5. При составлении таблицы брались по очереди целые значения k*=l, 2, ..., по ним находились /а, Затем а (оптимальные уровни, соответствующие заданному k*) и вычислялись й*/а, а параллельно для сравнения находились 2ф-1(1/2—а/2). Степень оценки Оптимальный уровень Расплывчатость Q*/<r 20-41/2—0/2) 1 0,267 2,62 2,22 2 0,086 3,9 3,44 з 0,03 4,84 4,36 4 0,01 5,62 5,08 5 3,84. Ю-3 6,3 5,76 6 1,4.10-5 6,9 6,4 Мысль, проводимая нами и подкрепленная таблицей, вот в чем. При увеличении п нормированная сумма 2W V п ограниченной симметричной независимой последовательности св. в соответствии с центральной предельной теоремой 3.16 должна сходиться к нормальному закону, это факт. Но тогда следует ожидать, что ширина оценки (6.22) тоже должна приближаться к ширине доверительного интервала для нормальной последовательности gj (сумма которых, как известно, тоже нормальна). Эти ожидания, как явствует из таблицы, полностью оправдываются, Оправдываются и доказывают принципиальную возможность получения качественных оценок при крайне скудных знаниях о флук- туациях li. Отсутствие же полного совпадения объясняется тем, что из предельных свойств суммы 2£г «выхвачены» только моменты,, да и сама оценка по постановке заключена внутри форм степенного типа. Еще важно, что наши оценки «впитывают» в себя все имеющиеся и следующие из них данные, даже побочные. Использование допредельных и предельных результатов. Приступим к более методичному привлечению допредельных и предельных результатов гл. 3 для синтеза оценок. В предыдущих 9* 259 «*>
двух разделах рассматривались только степенные признаки сумм и, как следствие, моменты. В то же время не использованы данные о гармонических признаках, возникающие при суммировании независимых с. в. согласно исследованиям гл. 3. Прежде чем высказать соображения на этот счет, сделаем небольшую остановку, чтобы резюмировать характерные свойства полученных выше оценок параметра сдвига х. Во-первых, оценки ду(х) являются функциями li = tji—лс, что равносильно их экви- вариантности к преобразованиям сдвига: ду+\а(х+а)=ду (х) — =д(у—1л;)=д(£). Первопричина такого свойства в том, что любые значения х находятся в одинаковом по привилегиям априорном положении, если данных об х нет. (данные, скажем, о диапазоне значений х умышленно можно игнорировать с целью достичь упрощений) и если шкала расплывчатости не взвешена. Во-вторых, для однородной выборки t/i=x+li (наблюдений оценка является функцией суммы 2€* как последствие симметрии задачи к перестановкам наблюдений, в результате все наблюдения оказываются одинаково равноценными участниками в поиске скрытого х, И, наконец, самое важ|ное в 'настоящий момент, что оценки являются функциями не просто суммы, а нормированной суммы £п. Это либо среднее арифметическое \ в оценке (6.17), когда данных о корреляциях & нет, либо нормированная сумма |1/^лг= — SEi/Vfl, если \\ некоррелированная или независимая однородная последовательность. Последнее легко вытекает из (6.22), (6.23), если учесть, что оценка зависит от отношения £/Дп, а размах Ап пропорционален 1/1//г. В общем, оценки записываются: ду(х) =v(t>n)t где v(z) есть Некоторая унимодальная симметричная функция z, равная 1 при 2=0 и спадающая к 0 при отклонении z от 0. Интегральная ширина функции v (z)f а для независимых флуктуации с поправкой на множитель l/Vn дает расплывчатость оценки. В упомянутом случае X,n = %V n= {^—x)Y n и J ду (х) dx= j v((y- x) Yn) dx = $ v (z) dzlVn. В аргументе функции v(%n) стоит нормированная сумма £п, в поведении которой выделяется то, что £п при увеличении п стабилизируется как случайная величина, т. е. не вырождается ни к нулю, ни к бесконечности. Удобно представлять себе св. £п, как будто совершающую ограниченные колебания в диапазоне, меняющемся при увеличении п несущественно, в то время, как среднестатистические данные об £л претерпевают изменения, да еще какие! Базу исследованиям дает гл. 3, где доказано, что нормированная сумма сообразно исходным данным стремится к разным по ширине моделям, первичными для которых являются 260
степенные и гармонические признаки (вплоть до нормальной и интервальной нормальной моделей). Здесь интересно напомнить, что сведения о степенных и гармонических иризюаках сум*м £п возникают и уточняются даже тогда, когда похожих данных о слагаемых ©роде бы и не было. Сказанное наводит на мысль для независимых флуктуации |* при расчете ошибки оценки д(%)=и(£п), £п=2£г/Кя> и синтезе оптимальной оценки как можно шире пользоваться данными о £п, предоставляемыми допредельными и предельными теоремами в виде средних степенных М^кп и гармонических Afsina£n, М cos и£п признаков, взятых за первичные для £п. При этом вроде бы «забываются» исходные данные о флуктуациях после того, как они были использованы для получения необходимых сведений относительно £п- Теперь расчет_ ошибки будет осуществляться так: для вычисления Мду(х) =Mv(t>n) функция v (z) мажорируется полиномами, смесью гармоник или теми, и другими, а при расчете Мду (х) (соответствующей верхней ошибке), наоборот, мажорирует их в соответствии с общим принципом продолжения средних. А если вспомнить принцип достаточности, формулируемый теоремой 6.1, то v (z) и вовсе сама должна записываться в виде степенного ряда, гармонического ряда Фурье или получаться смешением того и другого. Так, в общем-то, и делалось в предыдущем разделе, но только для степенных признаков. Нам же предстоит это проде-, лать еще и для гармонических. Замечания. 1. Нужно отметить, что оценивание по допредельным неравенствам и предельным результатам нельзя назвать совсем оптимальными хотя бы потому, что мы «забываем» данные о li и пользуемся только тем, что узнаем по ним о £п. И далее, хотя по данным о £п оценка строится наилучшим образом, но такие оценки ©се же точ!нее назвать квазиоптимальными, а при п-+оо — асимптотически оптимальными. 2. Нормироваться сумма 2g* в оценке а(£п) при независимых флуктуациях не обязательно должна коэффициентом 1/|/п, это может быть и 1/п, если данных об отдельных слагаемых почти нет. Синтез квазиопткмальных оценок по гармоническим средним. Пусть lu £=1, 2, ..., л, — однородная последовательность независимых св. и пусть д(%) = v(£п) есть оценка параметра сдвига, где t>n=HlilVrn — нормированная сумма. Функцию v(z)9 считая ее симметричной по отношению к началу координат, запишем через преобразование Фурье V(u): ОО | СО v (z) = J V (и) cos {uz) du, V(u)= — J* v (z) cos (uz) dz. Это прямая и обратная формулы преобразования Фурье. 261
Раскладывая V(u) = V+(u)—V~(u) на положительную и отрицательную части, имеем Mv (£п)>X V+ (и) Мcos (и CJ da- J V- (и) Ж cos (и£п) du. Мы видим, что ошибка а(д)='1—Му(^п) оценки 'выражается через гармонические средние _Mcos(u£n) и Afcos(ugn) нормированных сумм. Данные гармонических средних доставляются допредельными и предельными теоремами главы 3, в общем, не для всех ы, а для некоторой области U, учтенной при интегрировании. Для шростоты конкретизируем задачу. Пусть |* независимы, имеют нулевые средние Mli=0 и конечные дисперсии Mg2i=a2. При этих данных последовательность git в общем, статистически неустойчива, сходимости £п к нормальной модели не будет. Тем -не менее значения Mcos(tt£n) могли бы быть получены из допредельной теоремы дополнения к <§ 3.3, которые, и позволили бы в принципе рассчитать ошибку а (д) при конечном п (и следовательно, взвешенную ошибку, так как a(d) = =0). Мы не будем выписывать все громоздкие следующие этому пути формулы хотя бы потому, что они принципиально мало чем отличаются от более -простых вытекающих из них при n-^оо асимптотических формул, тех, что даются следствием 1 теоремы 3.13, на которых и остановимся. Последние предоопределяют такие асимптотические данные о £п: _ _ М 1п = 0, М Й = о2, М cos (и tn) = ехр (- w2o2/2) cos (с* ы2о2), (6.24) где с*=0,3184, а \и\2^и/(2с*о2). Это неравенство для и и определяет область U, так что если v(z) такова, что V{u)^0 для всех и, то имеем асимптотическое значение ton М v (gj > 2 } V (и) ехр (- и2 о2/2) cos (с* и2 о2) du, л->оо О где при выставлении пределов использована симметрия подынтегрального выражения. Замечание. Гармонические средние в (6.22) может быть не столь значительно, но все же уточняют модель суммы по^ сравнению с Л1£2п=«х2. По одному только последнему значению о2 продолжением имели бы: Micos(w£n)^l—w2a2/2, а то, что содержится о £п в выражении (6.24), несколько лучшее, хотя при ы->0 они и стремятся друг к другу. Пример 6.12. Пусть v(z) есть по форме «гауссов колокол»: v6(z) = =ехр(—Я22/б2), где б — его интегральная ширина: J v6(z)dz=d. Тогда У(м) = = (6/2я)ехр(—и262/4я)^0 и ошибка асимптотически будет не больше: «(а)<1-- J exp{__^+— )}cos(c*«*aV«. 262
Приравнивая правую часть значению а/и, рассчитывается ширина б, обеспечивающая нужный уровень а. При этом напомним, что ширина самой оценки v(t,n) будет равна б/^/г, убывая с ростом п пропорционально j/ n при фиксированном асимптотически а. Вопрос, конечно, почему в примере в качестве исходной формы i'(£n) взят «гауссов колокол»? Именно потому, что преобразование Фурье от него есть всюду неотрицательная функция. Этому факту имеется разумное обоснование. В самом деле, при принятых данных имеем McosuCn = lt поэтому наличие отрицательной части V(u) внесет довольно неприятный вклад в ошибку оценки © виде слагаемого J V~(u)du. В результате те v (2), преобразование Фурье которых неотрицательно, должны иметь определенное преимущество в плане достаточности,. Последнее суждение требует некоторой корректировки, так как не принимает в счет еще одного обстоятельства: согласно (6.24) помимо гармонических средних имеются данные о квадратичном признаке MZ>2n=<j2. Если только на нем основывать оценку, то это привело бы нас обратно к оценке (6.18) параметра сдвига по некоррелированной выборке (и значительно более простым путем, правда, при дополнительном условии М&=0). А целесообразно, по-видимому, использовать все данные о £п, гармонические и степенные, приводящие к следующей смешанной форме оценок: v(z) = [c0+ 2 с+cos (иг2)-с+2?]+, с0+ 2^=1, при последующем выборе щ> с0, c+i и с+. Оценки этой формы симметричны и при z=0 согласно условию справа достигают максимального, равного 1, значения. Для них My(U>Co+ S c+Alcos(w^n)--^^2=l~a/H, а ширина, нормированная множителем l/V^n, найдется интегрированием v(z). Пример 6.13. Пусть форма оценки задана выражением v (z) = [cos (я z/2A) — г2/(16Д2)]+, где делитель при z2 подобран так, чтобы выражение в квадратных скобках не имело побочных выбросов выше 0, кроме одного основного при z=0. Тогда подстановка на место аргумента £п=|}^л и использование (6.24) приводит к уравнению /Wa (£п) = ехр (— я2 Ь/2) cos (с* я2 Ъ) — 6/4 = 1 — а/и, где 6=о~2/(4Л2). Решением уравнения находится Ъ> а отсюда и А. Применение других допредельных и предельных результатов принципиально мало отличается от только что проделанного. По этому поводу сейчас выскажем некоторые соображения применительно к неоднородной выборке. 263
Об оценивании параметра сдвига при неоднородных флуктуа- циях. Пусть t/i=x+li, i=l, ..., /г, где |* — независимые с._в. с нулевыми средними Mli = 0 и разными дисперсиями: Ml2i = o2i. Тогда нормированную сумму £п нужно заменить на взвешенную £п = п = 2^гп?г, Cin^O, записав оценку через а(£п). Интегральной ши- риной оценки по х будет величина J*a(2cin*/i—x^cin)dx= = (2йп)""1 $и(2)Лг, обратно пропорциональная сумме 2й«. Ошибка монотонно зависит в конечном счете от дисперсии: MZ2n = =Hc2in<y2iy поэтому выбор коэффициентов Сщ будет, по крайней мере, близким к оптимальному, если минимизирует 2с2г^а2г- ПРИ заданном 2сгп. Это ведет к значениям Сгп=Уо2г, откуда £п = ==^2?г/ст2г, т. е. весовые коэффициенты оказываются обратными дисперсиями. Становится ясным, что чем больше а2г-, тем с меньшим весом должен участвовать i-й отсчет в сумме £п, ограждая ее тем самым от влияния этого излишне интенсивного, излишне шумящего отсчета. С теми же весами получалась оценка (6.19), но для некоррелированных 6*. У нас li независимы, что позволяет достичь дополните лыного эффекта оценки применением к сумме 2£г/ст2г допредельных и предельных теорем § 3.4. Дальнейший путь строго следует «колее» предыдущего раздела, и мы подкрепим его примером. Пример 6.14. Пусть §» независимы, ограничены, заданы а2* и симметричны. Рассмотрим оценку вида д(£) = [1—(£n/6)2fe]+. £п=А,2£г7а2г. Пусть о2г^е>0. Применение дополнения 3 к § 3.4 (самый конец главы 3) дает llmAiS»<llm-g^[X*2(l/3j)]*. откуда b=X[y,(2k)\l{k\a)yt*k'\/2(l/2o"?). При >,= [SU/a2*)]"1 случайная величина £п будет стабилизирована по п, а асимптотическая нормированная ширина оценки Q*= НтО„0)Ул = У2 H--f- aCp, п—оо L a#l J где аср= I — 2(1/а?) • Ее минимум по k ищется точно так, как эта проделывалось в начале настоящего параграфа при асимптотической подстройке оценки степенного типа. 6.5. ДОВЕРИТЕЛЬНОЕ ОЦЕНИВАНИЕ ПАРАМЕТРА МАСШТАБА Общие соображения. Параметр масштаба определяет энергетические свойства наблюдений: мощность, эффективное значение. Задача его оценивания возникает, во-первых, когда уровень интенсивности процесса несет полезную информацию об интересую- 264
щем нас положении объекта. Например, величина гидроакустических шумов может характеризовать расстояние до косяка рыб или до корабля. Сам шум в этом случае в некотором смысле обретает ранг полезности. А во-вторых, потребность измерения уровня шумов возникает 'при определении и текущем контроле показателей работающей аппаратуры, например, для фиксации вероятности ложных тревог в радиолокационных станциях. И в этом случае оценивание уровня шума нельзя считать «второсортным», второстепенным делом, так как оценки составным элементом входят в единый синтезируемый комплекс функционирования аппаратуры. С позиций современной теории вероятностей оценивание масштабных параметров занимает особое положение. Обязано оно непрерывному времени и допущению о точном знании корреляционных свойств, так как тогда, разлагая процесс конечной временной протяженности от 0 до Г в ряд по собственным функциям корреляционного ядра, получаем бесконечное число некоррелированных коэффициентов разложения, которые нормировкой (делением на корни из их дисперсий) все приводятся >к одинаковым дисперсиям. В результате происходит превращение наблюдений в бесконечную последовательность преобразованных, новых значений, некоррелированных между собой и одинаково реагирующих на изменение масштаба, и таким образом, несущих неограниченный запас сведений об этом параметре; запас, позволяющий сколь угодно точно его выделить (причем по отрезку (О, Т) .наблюдений сколь угодно малой протяженности!). Этот парадокс — эффект точного знания — получил название сингулярности К Явление сингулярности оказывается серьезной преградой в реальном оценивании параметра масштаба, так как все оценки рефлектор'но тянутся в ее сторону как сулящую «райские кущи» неограниченного улучшения их качественных показателей, перекрывая поиски других путей и напрочь заставляя забыть о том, что сокращение длины интервала (О, Т) наблюдений предъявляет все более жесткие требования к точности корреляционной функции, чтобы хоть как-то гарантировать некоррелированность даже небольшого числа компонентов разложения. Наша цель—строить оценки параметров масштаба по реальным, конечным данным, что само собой исключит любую возможность таких чисто математических («фокусов», как сингулярность, поставит теорию оценивания на почву реальности. Причем, как всегда, за начало возьмем самые слабые исходные данные (о явлении) энергетического толка, а затем будем их постепенно усиливать в нужном направлении, не забывая следить за происходящими при этом видоизменениями оптимальной оценки. В конце концов, полезно знать, какие реальные сведения должны иметься, 1 Гихман И. И., Скороход А. В. Теория случайных процессов. — М.: Наука, '971. — Т. 1.— 664 с. 265
чтобы с нужной точностью оценить параметр масштаба, в частности, его разновидность — дисперсию. Оценивание параметра масштаба по заданной мощности флуктуации. Пусть Уг=хЩи t=l» ..., п9 х>09 1Ф0. Требуется оценить параметр х9 если известно, что ограничена средняя мощность флуктуации: Af|2=o2, {£j=262*Mt и более ничего не дано. Отметим, что при а=1 и 1=1 параметр х будет мощностью (при Af£i=0 — дисперсией) наблюдений, а при 1=2 — средним эффективным их значением. При /=—2 это будет параметр нормировки. В общем случае /=^0 будем 'называть х параметром масштаба. Согласно следствию 4 теоремы 6.1 достаточный класс обра- зуют оценки, зависящие от |2 с подстановкой сюда %г=у%1х1/29 что ведет к их виду ду(х)=)[со—с+у2/х1]+, и для них Мду(х) = =\[со—с+а2] +, Мду (х) = с0. Найдем интегральную ширину и штраф, рассматривая сначала случай /<0, Щд)= J [c0-x-'c+?]+dx = ^J- (-^rYl/l . /-1 * Vc+^2y Правая часть равна оо при #2=0, поэтому есть смысл предполо- жить #2^е>0, считая е сколь угодно малым числом. Тогда составной риск запишется П* (д)= 1-х [Со-с+о2]+ + (х- 1)х0+%с0 -jl-j [-^r-)~l" ■ Из этого выражения после некоторых выкладок следует, что оптимальным будет значение Со= 1. Значение же с+ будет определяться уровнем а, что при «<х даст с+=<х/(ха2). После подстановки найденных значений оптимальная оценка параметра х при* мет вид д*у (х) - [ 1 - х-1 а р/(х о2)]+, х > 0. (6.25) Так, при /=—2 (тогда yi = lilx) оптимальная оценка параметра нормировки х получится равной: д*у (х) = [1— л;2ш/2/(х<т2)]+> я>0. Как видно из рис. 6.5,а, это есть полупарабола с максимумом в точке х = 0, усеченная «снизу осью абсцисс и слева — осью ординат. Пусть теперь />0. Оценка будет иметь вид рис. 6.5,6 и имеет бесконечную ширину. Тогда, чтобы штраф не равнялся бесконечности, нужно рассматривать взвешенную шкалу интегрирования тюх с весовым множителем q(x), убывающим при я-^оо, по крайней мере, быстрее 1/х. Считая q{x\*=x-l-*9 y>0» (т- е- чем больше 266 - ,
*) б) Рис. 6.5, а, б. Оцена параметра масштаба по энергетическим данным х, тем меньше берется вес), найдем штраф как верхнее среднее взвешенной ширины: Му Q (д). C+j/2 о Со — 1+V+1 \dx- Cg I У + l iil+ dx max v// Составляя риск и -производя его минимизацию (точно так же, как это делалось при /<0), получим оценку (6.25), которая оказывается оптимальной .при любых /. Так, при /=1 и а2=1 (х есть мощность наблюдений) довери- -—ч тельная оценка х примет вид (см. рис. 6.5,6): ду (х) = [1—ау21 (х%)]+~ Как функция переменной х оценка равна 0 при х^.ау2/к и стремится к 1 при jc-^oo. Дополнения. 1. Тот же самый вид (6.25) будет иметь оптимальная оценка для непрерывных реализаций уг = х1/21и 0^/^Г, /s 1 Т с той лишь разницей, что у2= — J* yf dt . т о 2. Сведения о точной .мощности (дисперсии) лИ£2=*а2, а также о нулевом среднем флуктуации M%i=0 (или же М1=0) не меняют вида оценки, т. е. эти сведения оказываются ненужными. То же самое, если х является свободным от |. 3. Столь большая расплывчатость получающихся оценок есть следствие'крайне скудных данных о флуктуациях. Дело в том, что поставленная задача, когда известна только средняя мощность флуктуации, в пессимистическом настрое эквивалентна оцениванию параметра масштаба по одному-единственному наблюдению, так как не исключается случай постоянных реализаций gi=* = £2= ... =Еп. 267
4. Если заданы точное значение М|2=а2 и верхняя граница -—ч М(12)2=т4, то доверительная оценка уровня а примет вид ду (х) = [1 -с* (1 -х-' Р)2]+ с* = а/[х (1+т4-2о2)]. Эта оценка, как видно из рис. 6.6, равна 1 при х=(д2)1^1 и убывает по мере отклонения х от этого значения. Некоторое улучшение оценки здесь достигается за счет данных о моментах четвертого порядка. Это в некотором роде общее свойство оценок моментов: для получения более удовлетворительных оценок момента fe-ro порядка нужно иметь сведения о моментах порядка 2k. Сейчас мы лишний раз в этом убедимся. Оценивание параметра масштаба по некоррелированной вы» борке. Пусть yi=xl^lu t=l, ..., п, *>0, /=^0, и нужно оценить параметр масштаба х9 если флуктуации некоррелированы и имеют одинаковые «мощности: МЦ = о\ М1(1; = 09 гф'и /,7—/— 1 л. Оптимальную оценку будем искать в следующем достаточном классе: ду(х) ={с0—x-l(ciy2+c2o2y)]+f о2у=у2—$2. При нахождении этого класса учтены первичные данные и симметрия поставленной задачи к перестановкам наблюдений. Для этого класса Мду(х) = [с0—с\Ф\п—с2о2(п— 1)/п]+, Мду(х)=с0 при си с2^0. Точно так же, как это делалось в предыдущем разделе, только с заменой с+у2 на Ci^2+c2a2y, вычисляется штраф. При /<0 он будет равен М Q (д) = С&'-1 >/l l/[(l — 1) inf (сг у2 + с2 ау2)] = с(01-{>" 1/(1 - 1) с2 е, где инфимум достигается при # = 0 и а2у = е2, причем допущено •v. у2^е>0 (иначе ширина будет бесконечна), считая е сколь можно малым. Оптимальным будет значение с0=1, и тогда при а<к риск записывается двумя уравнениями: П*х(д) =а+Х/с2, а=к(с\и2/п + С2(У2(п—1)/л). Чем больше Сг, тем меньше риск. Поэтому учитывая последнее равенство, оптимальными будут С\=0> _^. Рис. 6.6. Оценка параметра х масштаба при заданном четвертом моменте 268
С2 = ап/('к{п—1)а2), в результате чего оптимальная оценка приобретает вид yW L х(л— 1)а« yJ Точно такой же вид будет иметь оценка при />0 (если брать взвешенную множителем х~1~у шкалу интегрирования в штрафе). Таким образом, данные о некоррелированности наблюдений при отстуствии другой информации лишь незначительно меняют оценку и ее свойства по сравнению с рис. 6.5,а и б, а именно, оценка сужается в п/(п—1) раз, что при увеличении п становится практически не заметным. Причина этого неприятного эффекта кроется в том, что для получения хороших оценок требуются данные о четвертых моментах флуктуации. Допустим теперь, что помимо некоррелированности M%jfcj=0, 1Ф\У и Ml2t = o2 дано Ml2il2j = o\ гфи Mg4i=m4. Тогда достаточный класс образуют оценки' вида ду (х) =\[co + CiX-ly2+c2x-i2l2iyiyj— ^ ^ &j —Czx~nyk—С5^~^22у2г^']+, где #4=2*/4гМ- Постараемся более или **/ менее «угадать» вид оптимальной оценки из этого класса, записав ее в виде ду (х) = [ 1 - с (1 - х-' у2/а)2]+. (6.26) Очевидно следующее: Мду(х) =д=1, причем максимум оценки достигается при х1 = у2/а. Если расписать оценку через 5, раскрыв круглые скобки, то4 получим 2 5(8)- \-с + 70-5^(2Й+22Ь«»)]+ и отсюда будет следовать, что Мду (х) = [1-с + 2со2/а-ст4/па2-с(п-\) о*/псР]+. Считая выражение в квадратных скобках неотрицательным, ищем сначала оптимальное значение параметра а, тогда как с потом будет найдено исходя из заданного уровня а. Если вычис- лить штраф, полагая #2^е>0, то он будет равен MQ(d) = = ei//a-i/V(c), где г(с) = (1-е) (c+vi—c--vi) +2c(c+V-±№—c-Wl)[ f(l—l)—c(c+w-M—c-W-M)/(l—2l), а с+=1 + 1/Кс, с_=1—1/Ус. Подставляя найденные значения в составной риск, дифференцируя его по а и приравнивая 0, получим значение а как решение уравнения: Я/е1//г(с)а(2/-,)// + о2а--(т4 —о4)/п —о4«0. Чем меньше уровень а, тем меньше будет значение X. Поэтому при малых a первым слагаемым левой части равенства можно пренеберчь, положив Х=0. В результате получим значение параметра а в явном виде: а = о2+ (fnjo2—a2)/n. Дальнейшие упрощения могут быть получены, если считать п большим, и тогда а^о2. Отметим, что 269
увеличение а по сравнению с о2 ведет к увеличению средней ширины при /<0 и уменьшению три />0. Полагая для простоты а —а2, (получаем исходя из заданной ошибки а значение с* = ала4/х (/гц—а4). В результате искомая оценка приобретает вид ау (х) = Г1 - аяо* (1 - х-' ?/<*? f . (6.27) имеет максимум три xl=y2fa2 и принимает ненулевые интервале с границами -^-jldbl/ ~(з"~М) Оценка имеет максимум три xl=y2/v2 и принимает ненулевые зна- чения в Размах этого интервала, характеризующий расплывчатость оценки, будет тем меньше, чем больше а, а самое главное, эта ши-^ рина будет стремиться к 0 при увеличении п со скоростью 1/}/ п. Это то самое, чего мы добивались. Развитие проблемы. 1. Для расчета оценки (6.27) использовалась точное значение мощности а2. В случае щеточного значения: o2=Ml2if o2=Ml2i ошибка в (6.26) равна ах(д)=%(1—Мду) = =xtf[l—2а2/а+/п4/па2+а4(п—1)//ш2]. Оптимальным значением а, минимизирующим ошибку, будет а=а4/а2+(т4—о^)/па2, 2. Данные о т4—а4, необходимые для оценки (6.27), могут быть получены косвенным путем. Например, если & ограничены числом Я, т. е. Р(|^|<#) = 1, то неравенство МЦ2— а2)2^#4/4 позволяет /п4—а4 заменить на #4/4. 3. Рассмотрим вопрос об асимптотически (при л^-оо) наилучших оценках, если известно, что Ml2kj<оо, V&>0. Считая |* независимыми и полагая для простоты jwg24=c2=l, введем следующий класс степенных оценок д(»»[1-(1-£)"/Д"]+. II || куда для получения ду(л;) вместо |» нужно подставить хг112у%. Если обозначить Т1г = £2г—1, то ЛГг]г= м|2г-—1=0 и тогда d(K)) = =,[1—(ц/А)2к]+. Мы видим, что в новых обозначениях оценка совпадает с (6.22). Тогда при /г->оо по аналогии с оценкой (6.22) имеем 1 -Мд= [М(£2 - 1)2/Д2 л]* (2k)\lk\ 2* +0 (1/л). ' Отсюда, пренебрегая последним слагаемым правой части и используя то, что Мд=1, получаем ширину Д оценки по заданному уровню а: /x(2fe)l у/2* 1 /^(6g —1)g 270
Если воспользоваться теперь в целях упрощений формулой Стир«. линга, то получим [.(2*)!/ft!2*]w*« Y2kje2l^9 откуда А * ±= (у 2 f)imVmH,H = \ГЩЦ-\)\ При оптимальном значении £*=1п(1/2х/<х), минимизирующем ширину А оценки, полагая k* ближайшим целым числом, имеем окончательно А*= (HlYn) V 21п(К2х/а) и в результате оценка ду (х) приобретает вид: аУм = [1-(1-^р^7лГ]+. 4. Данные о нулевом среднем M%i=0 не меняют найденных оценок. Сказанное не означает, что средние М& могут быть произвольными, так как некоррелированность Mli§j=09 i¥=j9 сама по себе ограничивает возможные вариации среднего, 5. Пусть t/i=xl/2{li + Q)9 t=l, ..., п, где 6е52 — скалярный мешающий параметр. Тогда оценку следует искать в виде: ду (х) = = [1—с(1—хг1о2у/о2)2]+. Чтобы ошибка этой оценки стремилась к О при увеличении потребуются следующие условия: M%i%j=09 гф\\ М^=02. М|2.|2.=а4> i¥sj. M¥i = m4; ЩЫкЬ^О* i¥=j, 1фку 1ф1. При этих условиях 1—Мду(х) =a[m4(l/n—2/n2+ 1/л3)/о4—1/п+ + 3/л2—1/л3]=а/х, откуда и находится коэффициент с. Такой же останется оценка для наблюдений yi=xl/2li + m, т^Я. 6. Рассмотрим случай, когда мощности флуктуации |* по известному закону меняются: МЪ2г = о2и М|4г = а4г/п4. Тогда переходя к новым наблюдениям z=y%loi = xl/2\ilOi = х1/2щ9 мы сводим задачу к рассмотренной с Mr\2i = l. Оценка будет отличаться от найден- ных в этом пункте лишь тем, что вместо у2 подставляется 2(/2г/(о2гтг). Аналогично, если задана корреляционная матрица В вектора %, то вектор г| = В~1/2| будет обладать только что рас- смотренными свойствами, поэтому у2 заменяется на утВ""1у//г. Мы :не сможем © этой задаче перейти к процессам yt=xl/2lu пока не изучим влияние ошибок в знании а2г- на свойства оценок. Дело в том, что для процессов с точным значением корреляционной функции B(t9 x)=M'e>tlx9 разлагая ядро по собственным функциям B(t, т) = 2<J2i<Pi(/)<p.i(T) в новых наблюдениях г*= = J yt4i(t)dt/oi=xl/2x\i получаем бесконечно длинную некоррелированную последовательность случайных величин г\и Л1т)2»=1, что соответствует /г=оо и приведет к абсолютно точной оценке х. Этот парадокс сингулярности, о котором говорилось во введении к параграфу, есть следствие допущения о точном знании B(t9 т), предположения, увы, практически не выполнимого. Выход содержится в следующем пункте. 7. Пусть мощности флуктуации не являются точно известными, Т. е. У1 = хЩи М1& = 0, Ml2i = 02u Л?|2г = а2г, М&^О^О2,, 271
M|4i = m,-, й£/=1, .... п. Ищем оценку в виде <Эу(л:) = ='[1—с(1—S«/2»/rfi)2]+, di^O. Для нее Мду = 1 и Определим d* исходя из минимизации ошибки а (д). Для этого продифференцируем правую часть равенства по d\ и приравняем 0. Получим di=(fhi—а4г)/.[а2г—усг2г]+, где 7 находится из уравнения Y=2tf2i[<rV-уо2{]+/(т{—а4*). Отметим, что у<1. Мы видим, что dt = 00 при <y2i/o2i<y. Таким образом, если ошибка в знании а2г достаточно велика, то наблюдение tji делится на_оо и исключается. Накапливаются лишь те y2i/du для которых о2г/а2г>7- Сказанное относится и к процессам, так как в разложении неточной корреляционной функции в ряд по собственным функциям ядра коэффициенты разложения, обозначенные так же а2*, станут неизвестными. Причем чем больше индекс i, тем меньше их абсолютные значения и тем меньше будет отношение aVo2*. Поэтому, как и выше, придется ограничиться лишь конечным усеченным рядом, включающим только «главные компоненты» разложения. 6.6. ЗАКЛЮЧЕНИЕ Логика такова, что на неясный вопрос не жди вразумительного ответа. Естественным ответом на размытость моделей, вызванную априорной бедностью данных, будет расплывчатость оценок. Оценки искомых параметров должны подчиняться двум диаметрально противоположным требованиям. С одной стороны, быть надежными, и следовательно, в нужной мере расплывчатыми, а с другой — потребительский интерес вынуждает их к конкретности, т. е. по возможности к наибольшей точности. Разрешение этого противоречия ведет к оптимальным доверительным оценкам фиксированной надежности. Введение составного риска как суммы штрафа за расплывчатость (в виде площади под кривой решений) плюс величина (вероятность) взвешенной ошибки достигает своей цели — существенного упрощения методов синтеза доверительных оценок. Даже при классических распределениях вероятностей минимизация составного риска ведет к новым по содержанию общим формулам для доверительных интервалов (§ 6.2) (для нормальных распределений превращающимся в известные), ставить и решать новые задачи, например, найти доверительную оценку дисперсии, обладающую минимальной расплывчатостью; получить оптимальные доверительные оценки параметров регрессии. Самое важное, что составной риск, органично сочетаясь с конструкцией интервальных моделей в виде первичных средних, выходит на простые структуры оптимальных оценок, которыми будут усеченные снизу линейные комбинации первичных признаков, о чем гласит теорема 6.1. В зависимости от первичных данных получаются самые разнообразные по форме оценки, дающие 272
по шкале 0—1 картину предпочтений значениям параметра. В частности, при вероятностных моделях это будут доверительные интервалы (предпочтение полное 1 внутри и 0 вне интервала) ввиду того, что первичные признаки здесь индикаторные. Меньше данных — легче поиск оптимальной оценки. Разве не это правильная пока непривычная концепция? Нет данных — никакого поиска не надо, оценки тривиальны (всем значениям будет приписано одинаковое предпочтение). Однородность исходных данных, их симметрия откликается в структурах оценок уменьшением числа варьируемых коэффициентов, подлежащих оптимизации. Коэффициенты связываются линейным уравнением, фиксирующим надежность, а в остальном находятся из минимума интегральной расплывчатости оценки. Их поиск вкладывается в типовую параметрическую задачу оптимизации с ограничениями. Мы ее решаем аналитически, не исключая полезности численных способов в виде стандартных программ. Оптимальные доверительные оценки параметра сдвига находятся в § 6.3, где считается известной только усредненная мощность флуктуации. Более точными они становятся для некоррелированных флуктуации, а затем обобщаются на случай заданных корреляций и на оценивание параметра (одномерного) регрессии. Примечательно, что параболический вид все эти оценки наследуют от квадратичных признаков, составляющих свойства второго порядка наблюдений. И характерно для нашей теории, что оценки по сложности одинаковы как для последовательности наблюдений, так и для процессов, если состав первичных данных одинаков. По мере роста числа данных оценки несколько усложняются, зато и уточняются, становятся по форме более узкими при той же надежности. Предугадывается потребительский вопрос, лучше ли полученные оптимальные оценки, чем привычные доверительные интервалы для нормального распределения? На наивный вопрос ответ неутешителен: конечно же, хуже! И могут быть намного, так как разные оценки рассчитаны на разные условия. Одни условия — это режим полного априорного благополучия в виде нормального .распределения вероятностей, по нему считается доверительный интервал. Полученные нами оценки оптимальны в условиях полного неблагополучия, свойственного бедным знаниями моментным задачам, поэтому более расплывчаты. И все же, неблагополучие их относительное. При независимых отсчетах по мере увеличения числа наблюдений без каких бы то ни было дополнительных предположений наши оценки приближаются по свойствам к нормальным {§ 6.4). Можно лишь подозревать, что этому мы обязаны внутренним законам нормальной сходимости, формально' при синтезе нигде не задействованным. Данный результат демонстрирует великолепное «пищеварение» разработанного аппарата, позволяющего при крайне бедном априорном пайке усваивать любые питательные вещества. Внедрение допредельных и предельных результатов в оценку на систематическую основу поставлено в конце § 6.4. Конец главы посвящен задаче оценивания параметра масштаба (в частности, мощности) по данным о свойствах второго иорядка^ наблюдений. Неожиданным оказывается здесь то, что отсутствие ограничений на моменты четвертого порядка не позволяет получить сколь-либо хорошие оценки даже при неограниченном росте длины наблюдений. Но исправить их при наличии нуж- 273
ных ограничений оказывается очень просто. И совершенно правильно ожидалось, что проблема сингулярности (состоящая в абсолютной точности оценки дисперсии, а в общем-то и сдвига) сама собой становится невозможной при отказе от идеальных вероятностных моделей и переходе к реальным интервальным. Сингулярность — побочный плод теоретизированного изобилия и недосягаемая мечта для привычной практическим задачам априорной бедности. Глава 7. « ПРОВЕРКА ГИПОТЕЗ 7.1. ОБЩИЕ ПОЛОЖЕНИЯ Введение. Отвлеченно представим себе некоторый ящик, который неважно, чем начинен, и что в нем происходит и .как, но важно то, ^то процессы внутри могут находиться в некоторых двух состояниях. Одно состояние обычно, рабочее, условно именуемое нулевым, не вызывает у нас никаких реакций и не требует вмешательства, а другое, напротив, критическое, называемое альтернативным. Нужно по наблюдениям за выходом этого '«ящика» решить, какое из двух состояний в 'настоящий момент присутствует, причем в условиях когда выход настолько засорен шумами или флуктуациями, что однозначно и с полной уверенностью решение принять невозможно, так как появление одних и тех же реализаций свойственно как нулевому, так и альтернативному состояниям, но с разными вероятностями. Последнее очень существенно и подразумевает наличие среднестатистических данных о выходе, о наблюдениях. Это то, за что можно и нужно ухватиться для решения проблемы. Источник получения данных для нас сейчас не принципиален: либо это результат исследований внутренней физической природы процесса, либо последствие предварительных наблюдений за выходом, когда к этому говорится, какому состоянию он соответствует (обучение с учителем), или может быть обучение без учителя.-Важна форма представления данных, которая должна соответствовать нашей генеральной концепции формирования интервальной модели средних: иметь вид размытых среднестатистических свойств признаков выходных наблюдений. Благодаря языку первичных данных это очень доступная и универсальная форма, в том мы не раз успели убедиться. Причем обязательно данные так или иначе должны связываться с состояниями, какое оно, нулевое или альтернативное ( иначе решение станет тривиальным). Важным здесь является анализ и получение данных не о любых доступных признаках с целью использования их всех, а только о наиболее характерных, выделяющих те направления* которые оказываются наиболее чувствительными к смене состояний (лучше меньше, да лучше). Тогда первичных данных будет меньше, а задача — проще. Именно этот случай нас наиболее интересует еще и потому, что при невозможности обучения или 274
предварительного анализа многие реальные задачи оказываются ««сидящими на голодном пайке» априорного дефицита. Поскольку действительные состояния неизвестны и предстоит это еще решить, то называются они гипотезами: соответственно нулевая гипотеза и альтернативная (проще, альтернатива). Они могут иметь разный вес, приоритет. Ведь отказ от нулевой гипотезы, т., е. принятие альтернативы, если оно неправильное, может привести в итоге к тяжелейшим последствиям. Например, принимается неверное решение о движении группы неопознанных объектов в направлении чьей-то территории, что может вызвать мгновенную ответную агрессию, которая не найдет оправданий. Или принимается решение о безвредности нового лекарства, тогда как это на самом деле не так. Или осуждается невиновный. Сказанное подводит к принципу, та»к сказать, «презумпции гипотезы», согласно которому лучше несколько раз отвергнуть альтернативу, пусть даже ошибочно, когда она на самом деле верна, чем хотя бы раз неправильно отказаться от гипотезы. Последствием этого принципа чаще будет приниматься гипотеза, а альтернатива — лишь то^да, когда этому есть вполне веские основания, не вызывающие особых сомнений. Таким образом, гипотезе придается приоритет, вес, и тем самым в нее закладывается консервативное начало, а в альтернативу — прогрессивное (иногда, агрессивное). Это в^Ькно для понимания смысла правил проверки гипотез с фиксированным уровнем ошибок, о которых ниже пойдет речь. Не остается в стороне и задача различения гипотез, соответствующая бесприор1И*гетным гипотезам, например, тот случай, .когда по каналу связи передаются посылки 0 (соответствует нулевой гипотезе) или 1 (альтернативе). На самом же деле, если вес заменить вероятностью гипотезы (средней ожидаемой частотой чередования нулевых посылок), то выбором вероятности можно всегда учесть желаемый приоритет, как и наоборот. Это убеждает нас (и будет математически подкреплено), что задачи проверки и различения гипотез, т. е. с приоритетной и бесприоритетной гипотезами являются смежными, подменивающими друг друга. Математическое оформление задачи. Пусть по наблюдениям у&эЦ требуется проверить нулевую гипотезу с соответствующей ей моделью Му^ против альтернативы с соответствующей Му\* Состояний х в этом случае два: формально х=0 при пулевой гипотезе и л:=1 — при альтернативе. Решающее правило ду(х) по общему определений § 5.1 в результате трансформируется в пару ду=(д°у> д^), где числа д°у и д\ (представляющие удобную запись ду(0) и ду(1)) выражают степень предпочтения, отдаваемого соответственно нулевой гипотезе и альтернативе. В силу относительности предпочтений будем считать д°у-\-д*у=\, что позволяет в дальнейшем рассматривать либо д°у, либо д*у. С учетом последнего равенства правило ду можно интерпретировать как рандомизацию, при которой с вероятностью д°у при- 275
нимается нулевая гипотеза, а с вероятностью д\ — альтернатива. Рандомизация здесь имеет смысл процедуры, реализующей отношение предпочтения, если обязательно требуется принять одну из двух гипотез (в целом же понятие предпочтения более объемное, чем рандомизация). Правило такое, что infd°2/=0, supd°tf^l, назовем контраст- у у ным9 а если д°у (отсюда и д\) принимают только значения 0 и 1 — то детерминированным. Модели Жуо и Жуи 'класс 3) возможных правил, коэффициент пессимизма х — все вместе они образуют статистическую задачу проверки гипотез. Свойства правил меряются ошибками, которые и определим сейчас. Уровнем правила называется среднестатистическая величина ошибки, состоящей в принятии альтернативы при условии, что гипотеза верна. Меряется уровень относительно Жу& а*(д) = =кМ0д\+(1—к)М0д1у=1—><Мод0у--{1—к)Мод0у, где М0 и М0 соответствуют Жуо. Та же самая а*(д) — величина ошибки первого рода, задающая консервативность правила: чем меньше а*{д), тем сохранней станет гипотеза. Балансом к ней является ошибка второго рода, определяемая формулой P*(^-xAl1^ + (l-x)M1^«l--xAf1di-(l«-x)Al1di. Это есть вероятность неправильного принятия гипотезы при условии верной альтернативы (измеряется относительно Жу\). Если интерпретировать значения правила ду в интервале 0—I как рандомизацию, то ах(д)и $*(д) будут иметь смысл вероятностей ошибок, взвешенных коэффициентом пессимизма. А в общем, это будут количественные выражения среднего предпочтения, отдаваемого ошибочно одной гипотезе при справедливости другой» Вычисляются вероятности ошибок по методике продолжения средних с первичных данных (задающих исходно Жо и Ж\) на д°у, д\у рассматриваемые как признаки пространства ^. Обе ошибки балансируют друг друга: желание уменьшить одну из них вызывает тут же увеличение другой и наоборот. Оптимизация на уровне синтеза состоит в связанном понижении обеих ошибок или только одной из них при заданном значении другой, что вложено в следующее определение. Оптимальным при уровне а называется правило проверки гипотез, минимизирующее ошибку второго рода $*(д) при фиксированном значении величины ошибки первого рода: <хх(д)=а. Нахождение оптимальных правил и есть та основная задача, которая ставится в этой главе. Оптимальное правило ищется в классе всех правил, т. е. всех: функций д°у со значениями в отрезке ([0; 1]. Для его нахождения, если воспользоваться методом множителей Лагранжа, 'достаточно сделать два шага. Первый — это решение смежной задачи: минимизации по д, весовой суммы ошибок г*ь(д) = Ха*(д)+$*(д), при этом минимизирующее правило будет зависеть от множителя Я„ 276
придающего вес гипотезе. Второй шаг будет состоять в выборе такого Я, чтобы уровень минимизирующего правила равнялся а. Полученное правило и будет оптимальным уровня и правилом проверки гипотезы. Правило, минимизирующее риск в виде весовой суммы ошибок, называется оптимальным правилом различения гипотез. Подмечена эквивалентность этих двух видов правил, где риск может рассматриваться как усредненная ошибка при заданных вероятностях гипотез. Действительно, весовая сумма ошибок, если ее переписать r*k(d) = = [роах(д) + (1—ро)Р*(д)]/(1— ро), положив для этого Я,=р0/(1—ро), при интерпретации ро как вероятности гипотезы с точностью до множителя совпадает с полной вероятностью ошибки, заключенной в квадратные скобки. Таким образом, каждому К соответствует задача с заданной вероятностью ро, и на» оборот. Класс SD* правил называется достаточным, если любому пра~ вилу д и числам Х>0, е>0 можно указать такое д*^2>*% что г\(д*)^г*к(д)+е. Понятие достаточности вытекает из общего определения § 5.2 и сформулировано применительно к смежной задаче. Если ошибка первого рода минимизирующего правила непрерывна по Л, то тот же класс 3)* будет достаточным в основной задаче, причем при любом а. Если вдруг такой непрерывности нет, то ее можно добиться некоторым расширением 2t>*. Основная теорема о достаточности. Обозначим, как всегда* 9?+*§ — класс вторичных признаков, основанных на ^, т. е. i?+^ = = {ё(у) =Co+%c+igi(y)> gi^&}- При проверке гипотез, если 5?° — первичные признаки, задающие нулевую гипотезу <Жу0=<кМо&0}, а &1 — задают альтернативу, Mv\ = (M$is>, этих классов будет два: &+9° и S+8K Следующая теорема связывает достаточные классы правил с видом вторичных (и следовательно, первичных) признаков, соответствующих гипотезе и альтернативе. В самом деле, на каком из классов j?4"^0 или 2?+^1 основывать правило? Оказывается, на том и на другом, а при х= 1 — либо на том, либо на другом, как сейчас будет доказано. Теорема 7.1. Пусуь <Л^о^°> и (Mv^1} определяют соответственно гипотезу и альтернативу, где &° и &1 — приведенные к верхним первичные наборы. Пусть 0^:g°(y)^3?+&°, 0^gi(y)^^ ej?*^1 — неотрицательные из вторичных признаков гипотезы и альтернативы. 1. При х^1 достаточными будут классы правил любого из двух видов а или б: а. д\ = min {1, g\ (y)y g* (у)}, д«у - max {0,1 - g> (у), 1 - g1 (у)}; б. д\ - max {0,1 - g° (у), 1 - g1 (у)}, д° - min {1, g° (у), gi (у)}. 27?
2. При х=1 достаточными будут правила любого следующего, вида а или б: а. d;-mm{lf^(y)}fflj-[l-e*(y)]+, причем такие, что а (5) = Л?0 g° (у) = с00 + Е cjfc M0 g? при g° (у) = б. д^ = [ 1 — gb(y)]+, dl = min {1, g1 (у)}, причем такие, что р (д) = = М^г(У) = с01+ 2 с* A*i «I при gx(y) = c01+ 2 4ei(0- Доказательство. 1а. Пусть ду — какое-то правило. Покажем, что можно найти не худшее его правило из достаточного класса, т. е. с таким же риском или отличающимся на сколь угодно Малое е. Выпишем весовую \J KJ KJ KJ KJ сумму ошибок r*k{d) =KyiModiy + (yc—l)Midiy—X{K~l)Modiy--xMidiy. Идея до- казательства будет состоять в мажорировании произвольно выбранного d\ по очереди вторичными признаками гипотезы и альтернативы, которые и переча KJ KJ дадут д1у свои средние значения, определяя М0д\ и М\д1у. Нижняя грань К.' признаков и есть правило достаточного класса, не худшее д\. А теперь — более строго и подробно. По следствию к теореме 1.1 правилу д*у и заданному е>0 можно указать такой мажорирующий его вторичный признак нулевой гипотезы g°(y)=:coo + +2c+iog°i(y)&&+9\ что g°(y)>div и М*^(у)—М*д1у^в1Х (причем M*g°(y) = =coo-h2^+<oM^°i). Аналогично можно указать тако^ gl(y)^^+9it чтв gi(y)^ ^д1у и Migl(y)—Midiy^s (причем Migi(y)=^Coi-^^c+nMgli). Теперь введем ^1y=min{l, g°(y), gi(y)}^ Это есть решающее правило, так как 0<^у<1, оно мажорируется функциями g°(y) и gl(y), поэтому с учетом х^1 имеем ЬхМ0д*у+(к— ^Mid^^KxMog^y) + (х— \)М^(у)^кхМ0д1у+(к— l)Midly + s. KJ KJ \J По мажорируемости д*у^д*у верны неравенства Modiy^Modiy, Afid1v^Alid1yy V.' в результате чего получаем гк(д)^г*к(д)+е, что доказывает достаточность лравил вида, взятого для д\у а формула для д°у Эквивалентна 1—д*у. 16. Здесь доказательство отличается от предыдущего разве что выбором \*; g°(y)^2?+&° и gi(y)^3^+9l9 удовлетворяющими неравенствам g°(#)^d°y, kj _ _ ^ _ w £i{y)^^°Vf и таким, при котором Mog0(y)—Mod°y^:elXi Mig^y)—MidQ^e/k. Тогда, вводя правило d°y=min{l, g°(y), gi(y)}, точно как выше доказывается г\(д)^г*ь(д)+г. \J \J W 2а. При х=1 имеем rlx(d)=KModiy + l—AlidV Выберем g°(y), как это делалось в 1а, и положим d1y=min{l; g°(y)}. Тогда Шод^^Шо^Ч*/) < KJ W W \J з^Шод^+е. Так как д1у^д1у, то Mid^^Mid^, и поэтому ri%(d)^ril(d)-\-et что и требовалось. Доказательство 26 аналогично. 278
Комментарии. 1. Случай пессимизма х=1 привлекателен тем, что для правил 2а, базирующихся на вторичных признаках гипотезы, 1сразу .находится ошибка первого рода, а для правила 26 — второго рода. В связи с этим для правил заданного уровня а рекомендуется форма 2а, где фиксация уровня эквивалентна равенству Mog°(y)=a и осуществляется в виде линейного ограничения Coo+^lc+ioMog°i=u на коэффициенты. А поиск оптимального правила сводится к минимизации ошибки второго рода ${д) (даваемой формулой продолжения средних для JtV\ и так или иначе определяемой коэффициентами) при ограничениях на коэффициенты: одоного, фиксирующего уровень а, и другого, вытекающего из требования ду^:1. 2. При х> 1 и для правил 1а имеем (используя факты из доказательства теоремы 7.1): a(d)^min{Mog°, Mog1} и можно удовлетвориться теми g°(y) и gi(y)f для которых верно равенство. Здесь трудоемким может оказаться вычисление MogK если gi(y) — признаки «не свои», т. е. не класса i?+^0 гипотезы, и тогда для вычисления ошибки первого рода также потребуется применение формулы продолжения средних. 3. Если 9°=$*, т. е. гипотеза и альтернатива базируются на одних и тех же первичных признаках, то правила 2а (или 26) с теми же соотношениями для ошибок будут достаточными не только при х=1, но и при всех х>1, что следует из первой части теоремы (так как g°(y)=gi(y))- 4. Вместо j?+^0 и S^x в условиях теоремы могут фигурировать любые более широкие классы дризнаков. 5. Если 3?+9°(}2'+&i=0, то достаточные классы правил, соответствующие пунктам а и б теоремы, не будут пересекаться между собой. Тогда оптимальное правило, поскольку оно может принадлежать как одному, так и другому достаточному классу, не будет единственным. Вообще нельзя говорить о минимальном достаточном классе вследствие того, что он очень часто не существует. 6. Достаточность, утверждаемая теоремой, казалось бы, специальна в том смысле, что относится к конкретному риску в виде линейной суммы взвешенных (коэффициентом пессимизма х^1) ошибок. Но теорема верна для любого риска, монотонно связанного с этими ошибками, и в этом смысле универсальна для проверки гипотез. Например, для r(d)=max{a(d), p(d)}. 7. Достаточные при х=1 классы части 2 теоремы можно рекомендовать использовать и при оптимизме х<1. •Пример 7.1. Различие между случаями 2а и 26 теоремы выявим на простом примере, когда гипотеза и альтернатива заданы каждая одним первичным значением в виде верхних вероятностей Р0(Л0)=р0, Pi(Aiy=Pi соответственно событий А0, А1 лз q/. Тогда первичными будут А0(у) — для гипотезы и А1 (у) — для альтернативы, а вторичными соответственно &+&°= 279
= {c+c+oA°{y)}, 2?+&*={с+с+1А*(у)}, и достаточные классы в теореме 7.1 при эс=1 примут (с заменой с на 1-е) вид 2а. д°у = с-с+А0(у), с+<с<1, а(д)=\-с + с+р09 26. ду = с — с^ЛЧу.) с^<с<1, р"(а) = 1 — c + c+Pi. Они изображены на рис. 7.1 в виде кривых д°у для случая 2а и д1у для 26. Для правил вида 2а альтернативе отдается предпочтение лишь при #еЛ°, т. е. в области известной вероятности Ро(Л°), позволяющей вычислить при х=1 величину ошибки первого рода, и следовательно, фиксировать уровень правила приравниванием а=1—с+с+оро. Уменьшение уровня достигается либо уменьшением с+о, либо увеличением с, иначе говоря, за счет «расплывания» вширь правила. Примем нужное условие: Л°иЛ^=^, А°А1Ф0. Оно отражено на рис. 7.1: множества Л° и Л1, перекрываясь между собой, охватывают вместе все °{/. Это условие позволяет найти (мажорируя д% вторичным признаком альтернативы: с—c+o+c+oAi(y)'^c—с+оА°(у) и подставляя его среднее) вероятность ошибки второго рода: p(d) = c—c+o+c+oPi (без принятого условия мажорантой будут постоянное с и $(д)=с). Найдем оптимальное правило. Для этого находим коэффициенты с и с+, минимизирующие (3(d) (линейную комбинацию) при ограничении в виде равенства а. Имеем 1. с= 1 — а, с^" = 0, З-1 с = с+ = - 1—/?о •*.-. а, 1—а 0=1 —а при po + Pi>l; Ро [1 А* (у)], Р "Pi при 1 —Ро с=1. с0 — Ро * L Ро J Ро при Po + Pi<l» Ро>а- J\- Аналогичен расчет правила типа 26, да и д°у получается таким же с той лишь разницей, что А0 (у) заменяется на 1—А1 (у) (Л° заменяется дополнением к Л1). Проще говоря, область предпочтения нулевой гипотезе расширяется с дополнения к Л° (см.' рис. 7.1) до Л1. Ошибки у обоих типов правил совершенно одинаковы. Отсюда следует и более глубокий вывод, что любое правило д°у, располагающееся между д°у и д°у: д°у< <д°у<д% (т. е. в области пересечения i/e ^А°А1 не скачком, а произвольно спадающее с одного уровня предпочтения на другой), будет иметь те же ошибки и тоже будет оптимальным. v f Инвариантность и симметрия. А 4 ^ ' Ао что, если три некоторых преобразова- Рис. 7.1. Два типа достаточных ниях пространства у на себя мо- правил дели гипотезы и альтернативы ос- 280 \ ч ! *( \— -А t я' г 1 I I I j — »»
таются неизменными, т. е. строго в математическом смысле обнаруживают свойства инвариантности или симметрии к преобразованиям? Тогда ожидается передача похожих свойств к оптимальным правилам, ' что эквивалентно дополнительному сужению достаточного класса. Данная мысль полностью укладывается в рамки общих принципов инвариантности и симметрии § 5.4 при состоянии х, принимающем два значения: 0 или 1. Теорема 7.2. Пусть первичные признаки ИМ гипотезы {Му09°У либо альтернативы (^Му^1} инвариантны к группе 9* преобразований пространства °^: g(sy)=g{y), se^, g^&K /=0 или 1. Тогда при х=1 класс инвариантных к 9 правил (функций максимального инварианта) является достаточным. В самом деле, все функции класса 3?+&° будут инвариантны к 9>. Отсюда инвариантными становятся решающие правила части 2а теоремы 7.1, образующие яри х=1 достаточный класс. Теорема 7.2 будет справедлива при х>1, если обе моделиу соответствующие как гипотезе, так и альтернативе, будут инвариантны к 9>. Статистическая задача проверки гипотез называется симметричной к группе i? преобразование пространства °у, если J^0 и' Jty\ симметричны к 9* в смысле Mjf(sx)=^Mjf(x)f V/e#~, s^9f> /=0, 1. Очевидно, из инвариантности обеих моделей к группе 9 будет следовать их симметрия (но не наоборот). Данное здесь понятие симметрии связывается с общим определением § 5.4. В самом деле, для этого нужно вместо пары J[vQ9 Лу\ перейти к СИМ Лху = 3?хМуХу в которой х принимает одно из двух значений: О или 1 и никаких данных о х нет. Симметрия этой СИМ эквивалентна симметрии задачи проверки гипотез, поэтому применяя теорему 5.7, получаем следующее. Теорема 7.3. Пусть задача проверки гипотез симметрична к дискретной группе 9> преобразований пространства °Ц. Тогда класс инвариантных к 9 правил является достаточным для этой задачи. Таким образом, при наличии симметрии задачи при поиске оптимальных правил можно ограничиться функциями максимального к 9> инварианта. Пример 7 2. Пусть у и -, Уп — однородная выборка, заданная первичными значениями Mjgh(yi)—fngij, gk^&, i=l, ••, я, /=0, 1. Задача симметрична к группе перестановок yi между собой, и так как эта группа дискретна, то в классе инвариантных к перестановкам нужно искать оптимальное решающее правило. Согласно части 2а теоремы 7.1 структура оптимального при х=1 правила будет иметь вид: dJ=[c0-Sf^W]+. §h(y)= %gk(yi)/n, gk<=&, k *=1 причем при таких коэффициентах c+k, что а(д) = 1—с0+2с+л^*ь.°- — k 281
Обнаружение сигнала по вероятностям превышений. Проиллюстрируем на одном частном случае, как формируется достаточный класс правил и как находится рптимальное. Пусть выборка дискретная уи ..., уп- Пусть нулевая гипотеза (интерпретируем как ^отсутствие сигнала ) определяется первичными вероятностями Po(\yi\>h)=q0(h). При каждом h это есть та граница, которую не сможет никогда превзойти вероятность превышения уровня h при наихудшем для гипотезы стечении обстоятельств. Считаем cjo(h) неубывающими функциями Л, они-то и определят ИМ J[y0. При альтернативе (наличии сигнала) вероятности (превышений возрастают и становятся не меньше qv(h) = = Р}(\уА>Ь)> они будут первичными для «#уг. Причем мы не оговариваем здесь, каким является сигнал, а лишь опираемся на тот факт, что его наличие изменяет вероятности превышений уровней Л, всех, либо по обстоятельствам некоторого набора уровней или только одного, что соответствует разным наборам первичных данных. Такая постановка встречается, если характерными, отличительными чертами, сопутствующими сигналу, или просто которые мы знаем, является рост частоты лревышений уровня или уровней. Поскольку первичными и для Jfy0, и для Жу\ являются индикаторные функции превышений {|у<|>Л}, согласно теореме 7.1 достаточным при х=1 будет класс правил вида: д°у = [с0- 2 2 <t (hj) {Ш > Л,}]+. i hj А на основании симметрии задачи к перестановкам отсчетов коэффициенты Ci(hj) не должны зависеть от t и в результате правило упрощается: д°у=[с0- 2 с* (hj) n (hj)]+9 где n(hj)=^{\yi\>hj} — число у и превысивших значение hj. Причем ошибки первого и второго рода будут найдены, если взять М от выражений внутри квадратных скобок (ограничив результат снизу нулем, а сверху — единицей), и равны соответственно: а (д) = 1 -с0+ 2с+ (hj) гц0 (hj), hj p(d) = c0- Zc+(hj)nqi(hj). Ч Осталось при заданном а(д)=и выбором коэффициентов Со и c+(hj) минимизировать р(д). Для этого нужно положить с0=1 и все c+(hj) =0, кроме одного коэффициента, соответствующего некоторой конкретной «высоте» /i*. Тогда a=c+(h*)nqa(h*), откуда 282
c+W)=<L/nqo(hm) и £(д) = 1—c+(h*)nq{(h*) = l-aqi(h*)lq0(h*}, * оптимальным правилом будет у L q0(h*) n J Высота Л* выбирается исходя из минимизации Р(д), или же максимизации отношения: maxq\(A)/q0(h). Причем если это от- ношение меньше 1, то Со=1—а и все c+(Aj)=0, так что оптимальным становится тривиальное правило: ду = 1—а. Рассмотрим функционирование этого правила. Если n(h*)=Or т. е. ни одного превышения А* не было, то д°у=1 и принимается нулевая гипотеза. При увеличении числа я (А*) превышений А* возникают сомнения в справедливости нулевой гипотезы, проявляемые в виде пропорционального уменьшения д°у. Наконец, при n(h*)/n^cjo(h*)/а принимается альтернатива, так как д°у=0. Чем меньше а, тем больше <7а(А*)/а, т. е. тем больше должна быть относительная частота превышений я (А*)/я, при которой уверенно принимается альтернатива. Если перейти от дискретной выборки t/i к реализации уи O^f^r, то при первичных вероятностях Ро(|у*| >А) =qo{h)> Pi(\yt\>h)=q\(h) оптимальным будет правило, получаемое по аналогии с предыдущими и записываемое до= Г1_ =£_ 2L»!)-|+ р у L goSh*) т J ' где т(А*) — суммарная длительность времени превышения реализацией yt высоты А*. 7.2. КОРРЕЛЯЦИОННАЯ ТЕОРИЯ ПРОВЕРКИ ГИПОТЕЗ Получение оптимального правила при заданной средней мощности наблюдений. Здесь считается, что единственное, чем заданы и в чем отличается гипотеза от альтернативы, так это сдвиг и изменение средней мощности наблюдений. Пусть у= (уи ..., уп) и гипотеза задана следующим единственным первичным средним и первичным признаком: e#i>:AfeP=oo, ?= 2 уЬп, т. е. задана верхняя граница усредненной мощности наблюдений. При х=1 согласно части 2а теоремы 4.1 независимо от альтернативы оптимальным уровня а будет одно из правил класса ду = [с0-су*]+9 1-с0 + соо = а, с>0, 0<с0<1. Уровень а фиксируется указанной линейной связью коэффициентов со и с, оптимальные значения которых могут искаться, если лишь задаться конкретной альтернативой. Ее и введем. 283
Пусть альтернатива Жу\ также задана всего одним первичным «средним Здесь Х\ — сдвиг выборки, соответствующий альтернативе, в дальнейшем для определенности считаемый неотрицательным х\^0. Вид правила задают коэффициенты с и с0. Фиксируя их, (находим ошибку второго рода р(с, с0). Это \не так просто, как первого, а требует привлечения формулы продолжения, по которой д°у мажорируется вторичными признаками альтернативы: р (с, с0) = Л?! [с0 - с р>]+ = inf {(d0 + do?) : d0 + d 2 (yt - j^)2/" > >c0 — cy2}. ЗЗудем ее искать. Здесь все коэффициенты должны быть неотрицательными. Неравенство под знаком инфимума переписывается так: {d0 — c0 + dxl) + (d + c)^-2dx1y+(d + c)^0> хде у=^У{/п9 о*2у=2(#*—У)21п- Это неравенство должно выполняться при всех у. Последнее слагаемое левой части неотрицательно в силу неотрицательности d и с. Так как значения а2 у никак не связаны с у, то неотрицательной долж- ла быть оставшаяся сумма, полученная, если положить а2у=0. Эта сумма образует квадратный трехчлен относительно Q и условием неотрицательности -будет неотрицательность дискриминанта: (d+c)(do—co+dx2i)—(dxi)2 = *=(d+c)(d0—c0)+cdx2i^0, что с учетом d^O записывается l/d^.[—l/c+#2i/ (со—do)]+ и заменяет неравенство под знаком inf. Теперь для вычисления ошибки Р(с, с0) требуется при условии выполнения последнего неравенства минимизировать do + do2i. Сначала минимизируем по коэффициенту d. Чем меньше d, тем меньше do+do2it поэтому, заменяя последнее неравенство для l/d равенством и подставляя найденное отсюда d в do+do2u приходим к выражению для ошибки второго рода, в котором произведем сразу минимизацию по d0: Р(с, c0) = min/ dodo ~ъ2, М---Г lc0 — d0 с J = { с0 при JCi<alf — с0 — c0—-c(x1 — g1)2 при хх — <<Ji<*i> схг °? -^ с0 при Ох^Хх— . схг ^ \ с0 с I 284
В верхнем случае минимум достигается при do=co, в среднем — при йо = =co—Xi(Xi—^oi)c, и наконец, в нижнем «— при do=0. Приступим теперь к поиску оптимального правила д°у . Для этого нужно найти параметры с, с0, минимизирующие р(с, с0) при условии 1—£оЧ-со2о=а. Очевидно, при JCi^ai минимум достигается при с=0, 1—с0=а и равен P(d) = = 1—а. Оптимальным здесь является тривиальное правило д°у=1—а, согласно которому независимо от наблюдений с предпочтением (вероятностью) 1—a принимается нулевая гипотеза. К такому же тривиальному правилу приходим при Jti^oo + ai. Запишем полученный результат: ду=\— а, {Г(д)=1—ос при *i<7r0 + ov Пусть JCi>ao + ai. Тогда |Г(с, c0)=£i(c, с0)=Со—с(ху—ai)2 при с0^ ^cxi(xi—Oi) и 1Нс, со)=^2(с, co)=<J*il(x2ilc0—\lc) при противоположном неравенстве. Таким образом, ошибка равна Р(с, co)=^i(c, с0), если на плоскости значений коэффициентов точка (с, со) лежит выше прямой: a) co=c*i(*i—at), и равна Ьг(с, со), — если ниже. На самой прямой верно неравенство bi(cu со) = = Ьг(с, со). Ограничение на уровень правила в свою очередь соответствует ярямой: б) Co=ca2i + l—а. На этой прямой и нужно искать оптимальные с и со, минимизирующие Р(с, с0). Здесь нужно рассмотреть два случая. Первый, когда прямая б лежит выше прямой а в области ограничений параметров O^co^l, с^О. Это эквивалентно неравенству Xi < \ог + у о7^ + 4а о/а)/2 = **» где х* обозначает правую часть (**>'ao + ai при ai/ao+Kl/a, и тогда интервал ao + ai^*i^** будет непустым). В этом случае Р(с, c0)=&t(c, с0) и легко найти минимизирующие значения: со=1, c=a/a2o, откуда оптимальным будет правило: д*=[\—ауЧо20]+ при' Оо + о^х^x*. (*) Для него "р(д) = 1—a(xi-^i)2/aV Пусть теперь прямые вида а) и б) пересекаются, т. е. *i>**. Тогда минимум, как нетрудно убедиться, достигается на прямой б правее ее точки пересечения с а, т. е. при $(д)=Ь2(с, со). Подставляя в выражение для Ь2(с, с0) уравнение прямой б, дифференцируя по с и приравнивая 0, находим точку минимума с*1=(1— a)/(ao(*i—oo)), c*o=(l—a)Xil(xi—ao), что и определит оптимальное при c*<a/a20 (эквивалентно 0^с*0^1) или, что то же самое, при -*i>ao/a: у"" 1—(о0/^) L a~o*i J «при JCx^bya; F(a) = (l-a)"a2/(^-a0)2. Если же **^;*г^чго/а, то оптимальными будут c*=a/a2o, с*о=1 и, следовательно, правило (*), но с ошибкой, вычисляемой подстановкой оптимальных -значений в выражение для tb2(c, со), что дает 285
d° = [l— ay*/ol]+ при x*<ix1*£io0/a; Подождем пока формулировать доказанный результат, а сделаем это чуть ниже (формулы (7.1), (7.2)) в более общем виде, так как он оказывается пригодным для многих случаев. Для унификации введем такие обозначения: У2=у2, MqY2=g20, <7 = 0i/ao —* коэффициент изменения мощностей, p—x\joo — нормированный сдвиг (аналог отношения сигнал-шум). Оптимальные решающие правила и их свойства не зависят от объема выборки, и вообще от типа реализаций, вектор ли это или функция времени. Так, для процессов с непрерывным временем хи 0^/^7\ определенных следующими гипотезой (/ = 0) и альтер- т _ нативой (/=1): Mjyt=Wjt9 Mjf (yt—Wjt)2dtlT=o2j, оптимальные о правила сохраняют тот же вид и ту же ошибку при обозначениях: т т уг= j (yt—Wot)2dt/T9 x2i = ] {wit—Wot)2dt/T. Сказанное здесь и до- о о казанное выше ведут к следующему. Общая форма правила. При известных только M0Y2==b^ M\(Y—x\)2=bx и при p2=x2i/b0, q2=b\Jb0 оптимальным уровня а в зависимости от величины нормированного сдвига р будет одно из следующих правил: 1 —а при р< 1+q, до= \ [l-aF2/M0F2]+ при 1+?<р<1/а, (7Л) £=2L [р - У*/Л?0 Y*]+ при р > 1 /а. р — 1 Ошибка второго рода определяется выражениями: 1—а при р < l+q, 1-а(р-?)а при l+9<P<P* = (? + }V + 4/a)/2, I <72/(р2 - 1/а) при р* < р < 1/а, [(1-а)?2/(р-1)2 при р>1/а, (7.2) Различные виды решающих правил (7.1) представлены сплошными линиями на рис. 7.2, а соответствующая им кривая ошибок второго рода как функция р — на рис, 7.3. Обращает на себя внимание параболический вид правил, унаследованный ими от первичного признака гипотезы, здесь единственного. Другая характерная особенность — расплывчатость оптимальных правил, в корнях своих обязанная исключительной бедности исходных данных о гипотезах. Это же есть причина низких качественных показателей (большой вероятности ошибки р), объяснимых так- 286 у р-
f+f£/>4/> / :\* z* y/Vm0 y2 # у* z^y/VuqY2 Vp p I) Рис. 7.2: а) слабый сигнал, б) (средний, в) сильный же тем, что пессимизм (х=1) заставляет ориентировать расчеты на наименее благоприятный случай (в рамках исходных первичных данных), а таковой здесь зовет к постоянству реализаций yi=y2= ... =yn = Yy т. е. сводит все к одному единственному наблюдению У. f+f р* 1/* Р Итак, правило (7.1) является -0 „ . * ^Л„Л ' v v ' Рис. 7.3. График ошибки второго •оптимальным для задачи, когда рода v Y v наблюдение всего одно (или к нему все сводится) У, а гипотеза задана одним первичным значением МоУ2)=>а2о, как и альтернатива: Mi (У—*i)2=<j2i. Это — суть ^мощности, измеренные при гипотезе без сдвига наблюдений, а лгри альтернативе — со (сдвигом х\. Введем новые гипотезу и альтернативу: ^о-Л!о^ = 0,ЖоУ2= о2,; Лх : MxY = xl9 М^-ьГ -о? . Ъ 287
Здесь, в отличие от предыдущего, среднее считается известным, является точным и при альтернативе сдвигается на хи а дисперсия (она при известном среднем заменяет мощность) изменяется от а20 до а2ь Несмотря на то, что новая гипотеза и альтернатива более узкие по сравнению с .предыдущими, можно показать, что для них оптимальными уровня а будут точно те же решающие правила (7.1) с их ошибками (7.2). Доказательства этого факта подменяется иллюстрацией рис. 7.2. Здесь представлены в зависимости от величины нормированного сдвига р=Х\1ао картины для оптимальных правил сплошной линией, а штриховой — для тех вторичных признаков альтернативы, с которых средние М\ переносятся на д°у, давая ошибку второго рода. Из рисунка выясняется, что как сами оптимальные правила, основанные на^ признаках вида с0—с У2, так и вторичные признаки альтернативы, здесь имеющие вид d<y+d(Y—Х\)2, базируются каждая лишь на одном признаке, а именно том, который соответствует дисперсиям, и не используют совсем признака среднего У. Это и объясняет, почему знание средних не меняет решения статистической задачи. Сказанное дополняется следующим. 1. Знание нижних дисперсий о2-,-, /=0, 1, или даже точных значений Oj = Oj = (jj не меняет решения статистической задачи. 2. Штриховые кривые на рис. 7.2 дают другой возможный вариант решающих правил, соответствующих части 26 теоремы 7.1 и ориентированных на первичные признаки альтернативы. Например, для случая последней строчки формулы (7.1) (рис. 7.2,в) это будет следующее контрастное правило: d°y=l~[l~ (7=7F (Г-**)2/Жв уг]+ при р > 1/а- Вообще любое правило, располагающееся между сплошной и штриховой линиями рис. 7.2, будет оптимальным. Можно выбрать его, например, в классе линейно-ломаных функций или каком- нибудь другом сообразно дополнительным требованиям (например, разумно считать в только что выписанном правиле ^ = 0 при Y>X\). Теперь становится понятной неконтрастность правила на рис. 7.2в как результат ограничения формы д°у классом парабол; в другом классе правил оно вполне уже может стать контрастным. 3. Детерминированные правила принимают только два значения: 0 или 1 ,и изображаются на рис. 7.2 прямоугольниками единичной высоты. Как видно из рисунков, прямоугольники нельзя расположить между сплошной и штриховой линиями, следовательно, детерминированные правила не могут быть оптимальными и переход к ним сопровождается ростом ошибок.^Чтобы выдержать уровень а, нужно положить д°у=1 при У<а<>/К«> а иначе приравнять правило 0, тогда основание прямоугольника на рис. 288
7.2,а, б должно совпасть с основанием положительной части параболы. Расчет для этого правила ошибки второго рода производится буквально как расчет вероятности события в примере 1.5 и зависит уже от того, известно__ли среднее M\Y=X\ или нет. Если известно, то Р=)[1+ (р—1/ V а)^1_1> гДе p>l/V^a, а если нет, то р=(р— 1/Ка)~2, гДе р^1 + ,1/К«, при других р ошибка равна 1. Проверка гипотез по заданным корреляциям. Пусть у= = (Уи —1 Уп)т и точно известными являются матрицы корреляций: -Мо'-М0уг Уз = Ви, А : Мг (уг - wt) (уj - wj) = Ktу В векторных обозначениях w= (w\, ..., wn)T — сдвиг, а В и К — положительно определенные симметричные матрицы. Достаточный класс правил здесь записывается в виде [с0—22<tyJWj]+; выбором коэффициентов с0 и Сц нужно искать оптимальное из них. Достаточным (см. § 7.6) здесь будет подкласс правил, основанных на линейных преобразованиях наблюдений: gTy=Y, сводящих вектор у к одному значению Y при искомом (на заключительном этапе синтеза) векторе g. Теперь для У 'как нового наблюдения гипотеза и альтернатива будут определяться значениями M0Y2=gTBg, Mi(Y—*i)2 = gTKg, где *i = wTg. Таким образом, задача сводится к уже рассмотренной в этом параграфе: при заданном g оптимальным будет правило (7.1), (7.2) с подстановкой туда y=gTy, M<>Y2=gTBg, ?2=gTKg/gTBg, p2= (wTg)*/gTBg. Перечисленные параметры зависят от g, отсюда вид правила и его ошибка второго рода pg будут определяться выбранным g. Осталось найти такое g*, которое минимизировало бы эту ошибку: g*:minpg, g что и даст нам наилучшее правило. Сложность выражения (7.2) не позволяет найти общий вид для g*. Пойдем по пути дальнейших упрощений, выбирая g максимизацией нормированного сдвига р g** : max (wT g^/g* Bg. Основанием упрощений служит то, что ошибка р, как это можно видеть из (7.2), монотонно убывает при увеличении р при каждом заданном q. Решение g** последней задачи имеет вполне конкретный вид: g** = B^w. При одинаковых корреляциях К=В параметр q=l и найденный нами вектор будет строго минимизировать вероятность ошибки: g*=*=g** = B-1w. Подстановкой этого вектора находятся 10—Щ 289
У и вместе с формулой (7.1) они триведут к оптимальному при оди- «а'ковых ^корреляциях правилу уровня а: 1 — а при р < 2, [l-a(wTB-1y)2/p2]+ при 2<р<1/а. (? 3) I 1 _Л Г (WT В"1 у)* 1+ _ ,, 1 рПГ[Р- р2 J Ч* P >!/<*• :~ Romojvw&mmwm-зам&ч&няя. L Наличие~дшшых Моу=0, Miy^Yf о средних значениях наблюдений не меняет решения задачи. 2. Случай одинаковых К=В эквивалентен обнаружению сигнала w, когда при его отсутствии действует только шум у=| с корреляционной матрицей В, а при наличии — смесь детерминированного сигнала с шумом y=w+£. 3. Переход к процессам yt=wt+fcu O^t^T, при известной B(t, т) — корреляционной функции шума £* сводит матричные выражения к операторным: Y= J wt В-1 (t, т) yt dt, p2= JJ WtB-1 (U т) wT dtdx, где Br\(t, т) — ядро обратного к корреляционному оператора. При однородном шуме, т. е. B(t, т) =B(t—т), обозначая В (со) = 00 =2J* B(r)icos(coT)dT — энергетический спектр, а у& и шф — спек- о тральные двойники (преобразования Фурье) yt и Wu и считая Т достаточно большим, приходим ,к следующим значениям составляющих оптимального правила (7.1): <*> I.;. 12 У = Г dco _Joo *(©) Знаменатель В (со) усиливает те участки спектра, где шум мал, и подавляет зашумленные. Проследим, как повлияет на обнаружение присутствие гармонических помех «а частотах a>j. Их действие проявляется в возникновении дельта-выбросов в спектре: В(со)=Во(со) +2&j6(a)—<0j), где б (со) — дельта-функция Дирака, равная 0 при ыфО и оо при со = 0. Подстановка В (со) в знаменатель формулы для У убедит нас в том, что частоты гармоник будут режектироваться при преобразовании yt в У. 4. При некоррелированных наблюдениях: Вц = о2(н9 Ки=<У2\и £ij=/Cij=0 при 1Ф\, имеем g*i = Wi/v2Qi и правило проверки гипотез будет основываться на статистике У=2*/гДОг/а2ог и даваться выражением (7.1), в котором p2=MQY2=Xw2i/(y2oiy 92=i(2^V^2h)/ 2 (w2i/o2oi). В частном случае постоянных значений Wi=Xi, аог = = сто, <TH = ai имеем <g*i=const и приходим (полагая g*i=l/n) к оптимальному правилу для однородной некоррелированной выборки, _имеющему вид (7.1), (7.2) при У=#, Л?0У2=о20/п, р = =XiVn/o09 q=v\/o0. -----..- <- . -.. 290 * -
i 5. Показательно, что при нулевом сдвиге х\ = 0 оптимальным будет лишь тривиальное правило д°у=1—а. Причина кроется в крайне слабых исходных допущениях, которые обязательно нужно дополнить знаниями четвертых моментов наблюдений, чтобы получить приемлемое правило проверки гипотез, различающее изменение одних только дисперсий (мощности шума). Пусть стоит задача: <:.: г .. -*hm.Mht/\ = ol, Mhy*y* = o* при 1Ф1; Mhyf = = ты; 6 = 0,1; *,/=1,...,/г. Переходя к преобразованным наблюдениям zt = yf—og, получаем: M0zizJ = M1(zi-x)(zJ-x) = 0, 1Ф\\ M0z* = M0(y?-ol)* = = ^о4-ао» M1(z± — \)* = mll — o\ , где x = o\-ol. Задача в новых наблюдениях тождественна рассмотренной в конце предыдущего пункта, а оптимальным будет правило (7.1), (7.2) в обозначениях: Y = $-ol M0^ = (mo4_04/n> p2 = (af~a02)n/(m04~a04), Неточные корреляции. Пусть корреляции не являются точными и заданы не все, а частично. Скажем, не все элементы 3^ и Kij корреляционных матриц заданы, а часть, да еще и не точно, а их некоторые границы. Такая задача может решаться напрямую нашими методами. Собственно, одно такое решение было уже найдено в начале этого параграфа, когда известными были верхние границы сумм диагональных элементов корреляционных матриц: М?у*=ЪВи1п^в\ aiiy—xi)*=2Ru/n=~d*i. Рассмотрим еще один случай. Пусть известны только «потол* ки>>_ для мощности отдельных элементов наблюдений: Moy2i=Ba и Mi(yi—Wi)2=Ru, i=l, ..., /г, а какая корреляция между ними — совсем не известно как при гипотезе, так и альтернативе. Сказанное не исключает, что наблюдения в наименее благоприятном случае (х=1) могут повторять друг друга. Теперь будет понятен и смысл оптимального правила, найденного решением этой задачи нашими методами. Оно имеет вид (7.1), в котором У формируется как отбор только одного элемента Y=yi при таком i=/, при котором минимально значение рг«, найденное по формуле (7.2) с ПОДСТаНОВКОЙ Туда ДаННЫХ 1-ГО Элемента: ^г = Ягг7^гг» Р2г = W2ilBu. Итак, вначале отбирается один наиболее «информативный» элемент yh который в сравнении с каждым другим обеспечит меньшую ошибку рг- при заданном а. Затем по нему строится правило. 10* , 291
Подытожим оба частных случая. В первом осуществлялось -—ч квадратичное преобразование у2 наблюдений, во втором его можно считать линейным, полагая gi=0 для всех 1ф1, кроме одного gi=l. А в общем, по теореме 7.1 о достаточности (и >с=1) это будут преобразования вида ^ЪсцУгУз ПРИ суммировании по тем (/, /), для которых имеются данные о Bij, остальные cid=Q. Бели так окажется, что оптимальные c*ij=gigj и 22с*^й= (Sg^*)2, то преобразование шедется к линейному. В общем, это будет не так. 7.3. ИСПОЛЬЗОВАНИЕ ДОВЕРИТЕЛЬНЫХ ОЦЕНОК ДЛЯ ПРОВЕРКИ ГИПОТЕЗ Описание способа. Нередко задача проверки гипотез сводится к принятию решений относительно значений (параметра. Так, на отсутствие сигнала можно смотреть как на нулевое значение его амплитуды, оценку надежности аппаратуры можно перевести в проверку соответствия норме параметра надежности и т. д. Наша цель — связать правила проверки гипотез о параметре с доверительной оценкой этого параметра, чтобы затем использовать материалы предыдущей главы. Пусть х есть числовой .параметр и Жух — переходная ИМ, задающая модель на °У при фиксированных х. Пусть гипотеза и альтернатива соответствуют значениям хо и Х\ параметра лг. Тогда Jtyo=J[yxoy Лу\=Лух1 — Две гипотезы. В этом разделе считается х=1. Возьмем СИМ J[xy=JxJtyx и пусть^ дау (х) есть доверительная оценка уровня а параметра х: а=Мху(1—дау (лг)) = sup Мух(1— X —дау(х)). По доверительной оценке построим следующее правило проверки гипотез: д%=д*у{хо). Принимается нулевая гипотеза с той же достоверностью, с какой значение х0 включается в оценку дау (х). Ошибка первого рода этого правила не больше уровня а оценки, так как а(а) = М0(1-а°) = М^Л1-^(д:0))<8ирМ?(1-а?(х)) = а. X Следующее утверждение дает способ приближенного расчета ошибки второго рода правила (7.3). Теорема 7.4. Пусть д$у(х) есть доверительная (при х=1) оценка уровня р параметра х и пусть р* есть наименьший уровень р, при котором выполняется неравенство day(xo)+d^y(xi)^l. Тогда ошибка ~р(д) правила д°у=дау(х0) проверки гипотезы х=х0 при альтернативе х=х\ будет не_больше значения р*. Действительно, р (д) = Мх д° = М\х д\ < Mi, [ 1 - dg* (хг)] < <supA*ni-d£'(*)] = p*. 292 ,
рис. 7.4. Нахождение при- яидочной ошибки Значение р*, в общем, может отличаться в большую сторону от величины ошибки $(д), а потому называется прикидочным значением ошибки второго рода. Оно будет тем более точно приближать ошибку, чем меньше границы МУхду(х) и МУхду(х) зависят от х. Дадим наглядное пояснение к теореме (рис. 7.4). Положение оценки дау (х) зависит от наблюдения у, а сама оценка как функция х расширяется при уменьшении а. На рисунке сплошной линией и штриховой изображены два ее вида при разных уровнях, первый из которых равен а, а уровень р* (на рисунке ^*<а) подыскивается таким, чтобы сумма высот сплошной кривой в точке х = х0 и штриховой в точке х=хх равнялась 1. Величина р* и даст прикидочную ошибку. Так как р* будет тем меньше, чем менее расплывчатой является оценка д*у(х)9 то правило проверки гипотез будет тем лучше, чем меньше ширина оценки в направлении изменения xf а поэтому в качестве исходной лучше брать оптимальную оценку, или хотя бы квазиоптимальную. Следующие разделы дают примеры построения правил и расчета ошибок по теореме 7.4. Асимптотическое правило при симметричных ограниченных флуктуациях. Пусть #*=*+&, i=l. •••> "> гДе параметр х равен О при гипотезе и равен х\ при альтернативе, а флуктуации |* независимы, имеют -нулевые средние М& = 0 и ограниченную среднюю мощность Ml2i = o2. Данная задача относится к рассмотренной в § 7.2, если положить там <п=<Го=а. Введем дополнительные -предположения: 1) Ь ограничены сверху и снизу уровнем Я, т. е. Р(\Ъг\>Н)=0, 2)Ъг симметричны, т. е. Л*Е*2Л~1=0, t=l, 2, ... Тогда из доверительной оценки (6.22) степенного типа будет следовать правило 05-[1-(£/Д)2*]+. Расчет размаха 2Д по уровню д был произведен там же в § 6.4; асимптотически 'при п-+оо размах, умноженный на V п, оценивается ^неравенством (6.23)^ правую часть которого обозначим Aa(k)=o[(2k)\/(M)]^klV 2. 293 JC0 X. X
! f i В соответствии с теоремой 7.4 найдем прикидочное значение р*. Это есть минимальное число р такое, что *+*«>- [■- Ш']++[- (J*#-)T<1- Полученное неравенство должно выполняться при всех у. При Х\ Уп>Аа№) левая часть его как функция переменной у имеет три максимума: при */ = 0, при у=Х\ и в средней части между точ-1 ками 0 и х\. Нас интересует последний. Он достигается при у=* = Xi[(Ap(*)/Aa(*))2ft/(2fe-1)+l]-1 и равен 2— (jc21/z)ftt[Aa(A)2ft/(2ft-1) + +A^(k)2k^2k~i)]i~2k. Этот максимум должен быть не больше 1, Отсюда находится размах искомого д$у (xi): А$т (k)2kK2k-v = =l(xiVn)2k/i2k-V—Aa(*)2fe/(2fe_1)]+, а из него уже — прикидочная ошибка, которая применением формулы Стирлинга запишется в явном виде при условии x\Y n^Aa(k): Р* = / 2 (a f ^)2^ [(*х К^ Теперь нужно было бы искать оптимальное значение^ й, минимизирующее при заданном уровне а, и значении X\V n— прики- дочную ошибку второго рода р*. Мы не будем решать эту задачу, которая строго требует численных методов, а приближенно можно ограничиться найденным в § 6.5 значением k*. Поставим другую цель: сравнить прикидочное значение ошибки р* € точным р(д), полагая для простоты k=l. Тогда Да = ^ = [1-апу2/о2]+, Д^ = (^ ^л)2-д£, p^-^-l/a)-1, где р^хг У л/о. Можно видеть, что результат совпадает с (7.2) при q=\ и при р*^р^1/а. Значит, предлагаемая теоремой 7.4 методика привела к оптимальному правилу и его вероятности ошибки, что является показателем в пользу этой методики. Проверка гипотез по мощности флуктуации. Снова воспользуемся изложенной методикой, позволяющей переводить оценки в правила. Пусть */г = *£ь *=1, .♦., я, где параметр масштаба х принимает при гипотезе значение х0, а лри альтернативе — Х\\ счи^ таем для конкретности х\>х0. Пусть флуктуации |* .независимы, имеют нулевые средние ЛП;г = 0, единичные дисперсии M%2i=\ и ограниченные четвертые моменты M%ki = fhA. Воспользовавшись оценкой (6.27), получим д°у = [ 1 - а п (1 - у*/х0)У(щ - 1)]+. 294
Это есть правило уровня а. Ищем прикидочное значение ошибки второго рода р* как минимальное § такое, что a;+«5<*.>- [I- j^- u-9w]* + + [1-^гг<1-^>*Г<1- •■N» Сумма в левой части как функция у2 при интересующих нас В имеет три максимума: при у2=х0 и у2=хи где эта сумма равна 1, и в промежуточной точке у2= (a/xo+$lxi)f(a/x20+$/x2i), где эта сумма не должна превышать 1, что записывается 2-лар (хх-х0)2 (р/д:? + а/4) (m4- l)"1 (ajcA + PV^2 < Ь Из этого уравнения находится i|3*: Р*- V la(p-l)2/2 + (/]2 + (/[ap(p~l) + ?]-a (р- 1)2/2-</, . т4— 1 p = *i/*o, <7 = „ • Несколько более лростое «выражение для прикидочного значения будет получено, если искать минимальное р такое, что ду д$ (*i)=0. Тогда P** = ^[l—(l + /?/a)/p]-2. Очевидно, что р**>р*. При увеличении р=х\/х0 имеем: р**-^9=(т4—1)/п. 7.4. СПЕЦИАЛЬНЫЕ МЕТОДЫ СИНТЕЗА ПРАВИЛ Задана формальная плотность альтернативы по отношению к гипотезе. Пусть существует плотность альтернативы по отношению к гипотезе р (у) =Л\1Ж0. По определению_формальной плотности § 1.4 это соответствует тождеству M\f(y) =Mop(y)f{y), V/e#~i, справедливому для всех f из области существования Jtv\. Если гипотеза <Л?о^> задана первичными ^значениями Mog(y), g^&, то Ж\ будет определено значениями M\g(y)/p(y)=Mog(y), ^,иМ,(1/р(у)) = 1. Выпишем весовую сумму ошибок г1(д) = Ы"(д) + Р"(д) = к + к(М0д1р(у)-11^0д0у) + + (\-к)(М0д0ур(у)-ХМод0у). На основании неравенств Мод°ур{у) —М0Хд°у^Мод°у{р(у)—А,), Мод°ур(у) — ^~МоХд0у^Мод°у(р(у)—Х) и в силу непрерывности т^(д) по х всегда можно подыскать такое и*, 0^**^1, что будет верно равенство г*т (д) = Х + х*М0д°у(р(у)-Х) + + (1-к*)М0д0у(р(у)-к) = \ + М**д°у{р(у)-Х), 295
где М*=%М+ (1—к)М — взвешенное среднее. Тогда минимизирующим г*щх(д) будет правило р(у)*^К (в соответствии с которым при строгом неравенстве имеемг v д°у=1, при обратном неравенстве — д°у=0, а при р(#)=Я считается dvv=y). От значения у величина г**к(д) не зависит и определяется в результате выражением 3*<Ф = *+Л<*в<р<0-Я)+. Варьируя величинами Я и Vt можно добиться того, чтобы уровень правила был равен а, что доказывает следующую теорему. Теорема 7.5. Если р(у) есть формальная плотность альтернативы по отношению к гипотезе, то существует такой коэффициент к* в диапазоне оптимизма 0^х*^1, что оптимальное правило уровня а будет состоять в сравнении порогом: р(у)^К у при таком выборе у и К, чтобы уровень равнялся а. Точные плотности вероятностей. Перейдем теперь к одному очень важному частному по отношению к предыдущему случаю, когда J?0=^o и J(i={Pi — точные (на алгебре «я£0) распределения вероятностей, заданные своими плотностями вероятностей по какой-то мере. Следующая теорема в принципе хорошо известна, но она раскрашивается в цвета «оптимизма-пессимизма». Теорема 7.6 (лемма Неймана-Пирсона). Пусть Ро(у)> Pt{у) есть плотности вероятностей точных на s&0 конечно- или счетно-аддитивных распределений. Тогда при некотором к*у н*^1, и при всех х^1 оптимальным для проверки гипотезыр0(у) при альтернативе р\(у) будет правило Неймана — Пирсона, состоящее в сравнении отношения плотностей с порогом: Pi Ofl/Pt (*)<** (7.4) у где 0<А,<оо и О^у^ 1 выбираются исходя из нужного уровня а=1—М0д°у. Доказательство. Существование х*^ 1, при котором правило (7.4) является оптимальным, следует из теоремы 7.5. Пусть теперь х^1. Тогда достаточный класс образуют .^-измеримые правила. Оптимальность правила (7.16) в классе измеримых правил доказывается в [3, стр. 95]. Робастные методы. Их суть состоит в интерпретации гипотезы и альтернативы в виде семейств распределений вероятностей и подмене семейств на выбранные внутри них наименее благоприят* ные «экземпляры» распределений вероятностей. Пара ^*0cJ?o, &*\сЛх распределений вероятностей назы-ч вается наименее благоприятной (нб) для статистической задачи проверки гипотезы Ло> при альтернативе Ли если ,[13] м *>; {PV&1 <Ц-Мщ {9\isr>i < *} -1 - а, м#. pi/Pi < ц - Л»! ф/s»; < я}. 1 у у 29в i >
Здесь ^*i/^**o обозначает плотность ^*i но отношению к &*0 (оно же — частное плотностей (Р*\ и #**0 по отношению к одной и той же мере), а фигурными скобками оттенена индикаторная функция соответствующего события с рандомизацией на границе (т. е. при равенстве). Для существования нб-распределений, в общем, требуются Л0-измеримости первичных признаков гипотезы и альтернативы. Утверждение 7.7. Если наименее благоприятные распределения существуют, то &*\/&*о^Х является оптимальным правилом при х=1. Доказательство. Обозначим д* правило ^*i/iP*o^А, уровня а (для обеспечения уровня подбираются X п у). Тогда для любого правила д°у уровня а имеем р (д)=мг д* > м#. д°у > м9* {*>;/*>; < к} = =и*1 {*>;/*; <*}=Р(з*). У Таким образом, ошибка второго рода у д не может быть меньше, чем у d*f что и доказывает утверждение. Существование нб-распределений — это целая проблема, устанавливаемая в каждой конкретной задаче. Ниже рассматривается один такой случай. Проверка гипотез по заданным интервальным вероятностям. Пусть ЛУ0=<ро{у), Ро(у)>, Лу\ = (Р\(у), Pi(y)> заданы своими интервальными плотностями (по .мере-длине на °У=91п, хотя это и не обязательно), что эквивалентно заданию интервальных вероятностей, порождающих аддитивные ИРВ. Введем следующие плотности: [ 1 Ро(У) р'0(у)= { СхРЛу) {ь м р\(У) = ■ So (У)- Pi (У) h 7>o (у) Pi (У) I Ро (У) | с2 р\ (у) Ро (У) при при при при при при при при при A>(#)<CiM«/), Po(y)<Ci'Pi(yX'po(y)> OiPi(y)<Po(y); Pi(#X*>iPo(</). Pi(y)<b1p0(y)^p1(y), h'PoiyXPiiy)', Po(y)<CiPi(y), Ро (У) < c2 px (y) < p0 (y), c2 Pi (У) < Ро (У); 297
doo- рг(у) при р1(у)<Ь2р0(у), ш h Ро (У) при £ (у) < 62 /?0 (у) < рх (#), Pi (У) при Ь2 р0 (у) < рх (у); где коэффициенты Ci, c2, bi и '62 определяются однозначно из условия нормировки плотностей: J P*k(y)dy= $ q*k(y)dy=l, k=0, h Вид этих плотностей приведен схематически (для у^М) на рис. 7.5. Отличие q*o(y) от р*<*(у) будет состоять в поведении на участке перехода с нижней границы плотности «а верхнюю, где р*о(у) движется пропорционально р{(у) и выше ее, ,а q*o(y) ~ пропорционально р\(у) и ниже ее, причем коэффициент пропорциональности в первом случае больше единицы, во втором — меньше, но и там и там однозначно таков, что выполняется нормировка плотностей. Аналогичным является различие между Ч*\(У) и р*\(у). Уже с беглого взгляда видно, что эти шлотности имеют характер «наименее благоприятных», так как в максимальной мере «наплывают» на сторону противоположной гипотезы. Этот факт облачим в строгую формулировку. Теорема 7.8. Пусть гипотеза и альтернатива заданы своими интервальными плотностями и пусть выполняются условия J Pi(y)dy+ J pt(y)dy>\, J* p0(y)dy + 1Ро(У)>0 1Ро(У)=0 iPt(y)>0 + J* Po(y)dy>L Тогда, если Ci&i^l, то нб-плотностями будут р*о(у) и р%\(у)> Рис. 7.5. Наименее благоприятные плотности при ci&i^l (сплошная линия) и Ci&i< (штриховая) AM Рис. 7.6. Наименее благоприятные плотности при сА<1<с2&2 298
если с2Ь2<:19 то q*o(y) и q*\(y), наконец, если cvbi<\ и с2Ь2>1, то нб-плотности р**о(у) и P**i\y) каковы, что их отношение . f Pi (УУРо (У) при рг (у)/р0 (у) < b3t рТ(у} I. - -^7— = { Ьз при рг (у)/р0 (у) < Ьг < рг (у)/р0 (у), Ро (У) _ [ рМ/Ро (У) при Ь3 < рг (у)/р0 (у), где постоянная Ь$ определяется из уравнения J* IPi (У)-Ьз1>о {y)\+dy- J [63 Ро (У)-Pi (У)]+ dy + b9-l. Доказательство теоремы имеется в |[13]. Таким образом, в зависимости от значений нормируемых констант Си &ь с2у Ь2 разделяются три случая. Первый ci&i>l соответствует на рис. 7.5 меньшей единице площади областей как А+ (B + C+D+E), так и F + (B + C+D+E), и дает возможность линии перехода нб-плот- ностей с одной границы на другую пройти, как на рис. 7.5. Второй случай с2Ь2<1 эквивалентен превышению единицы площадей как A+(B+D+E), так и F+(B + D+E)9 и позволяет линии перехода пройти, как это обозначено на рис. 7.5 штриховой линией. Наконец, если оба этих (случая исключаются, то наименее благоприятные плотности проходят так, 'как это показано на рис. 7.6: они просто в области перехода произвольны, пропорциональны друг другу, но лежат внутри границ и подчиняются условию нормировки плотностей. Робастный алгоритм при независимых наблюдениях. Распространим понятие нб-плотности на независимую однородную выборку y=i(#i, ..., уп), каждый элемент которой описывается интервальными ПЛОТНОСТЯМИ Po(#i), РоШ, £l(#z), Pl^i)- Утверждение 7.9. Пусть p*o(yi) и р*\(у%) есть нб-плотности для одного элемента у\. Тогда нб-плотностями для вектора у с независимыми компонентами yi будут произведения [13] Р*о(У)= ПР*оШ> р\(У) = ПР\Ш- i i Рис. 7.7. Характерные нелинейные преобразования 299
Таким образом, оптимальное лри х=1 правило проверки гипотез имеет вид Up*\(yi)lp*o(yi)^:K а после логарифмирования: i TV 21п[р*1(#г)/р*о(#г)]^Я. Оно предполагает обработку каждого I У элемента выборки в соответствии с нелинейной функцией fi(yi) = = \n[p*v(yi)lp*o(yi)]f суммирование результатов обработки и сравнение их с порогом %: Sif(^i)^^. i у Вид (нелинейной функции /(у*) зависит от исходных границ плотностей. В самом общем случае f(yi) записывается: /(й)- \ <h In IPi Ш/Ро Ш] *2 ЬСр1(УгУРоШ] или In [pi (уг)/р0 (у{)] Оз In [Pi (Уд/Ро (#01 о4 при при при при при при . при Уг < dl> d\ <.У1^(к, d2 < #i ^ ds, ds<yi^ dA, dt < yt <d8» db<yt<i ds, de < yt. Функция $(уг) имеет, в общем, как видно из рис. 7.7, четыре постоянных уровня: ai<a2<a3<a4. Крайние уровни со значениями а,\ и #4 обязаны своим происхождением «затянутости хвостов» ро(уг) и pi(yi) при \у%\-*оо и возникающей отсюда возможности «сверхвыбросов» наблюдений. Эти «сверхвыбросы» и ограничиваются уровнями а\ и а4. В частном случае при ро(#г)=Р1(Уг)=°° (верхние границы не задаются) средние уровни а^ и а3 пропадают и функция f(yi) принимает вид ограничителя сверху и снизу: { % при yt < dl9 f (Уг) = \ 1П lPl (УгУРо (Уд] ПРИ d1<yi^ rfe, [ a4 при ds<yt. Такой же вид нелинейности будет, если заданы только верхние границы плотностей и не заданы нижние (po(*/i)=Pi(*/i)=0); с той лишь разницей, что в этом случае на среднем участке /(у*) равна ЩрхШ/РоЬл)]. Возможен и другой вид нелинейности: to lPl (УгУРо (Уг)] ПРИ Уг < d2, / {Уд = { я2 ПРИ <k < Уг < d59 In IPi (УгУРо (Уг)] при db < уг. Здесь, наоборот, выделяются выбросы наблюдений и «смазывается» средняя неопределенная часть, т. е. работа производится ш> 300 1
«вершкам» наблюдений в отличие от «предыдущего случая, где полезнее оказались «корешки». Замечания. 1. Утверждение 7.9 справедливо и в том случае, если считать выборку стационарной [13] — значит, дополнительный тезис о стационарности наблюдений, хотя и сужает по сравнению с однородностью математическую модель, но в данной задаче не меняет ее решения (интересно, насколько это общий факт?). 2. Все изложенное нами в этом параграфе справедливо, если плотности определены не по длине, а по произвольной мере ц,, только тогда интегралы Римана по dy (для счетно-аддитивных моделей — интегралы Лебега) заменяются на интегралы Римана — Стилтьеса (Лебега — Стилтьеса) по dp,. 3. Заданы границы вероятностей событий. Под рассмотренный случай интервальных плотностей подпадает дискретный эксперимент, исходами которого являются / взаимно- исключающих событий. Формально пронумеруем их числами от от 1 и до /: ^ = {1, ..., /}. Считаются заданными границы вероятностей Ро(/), Po(j), Pi(j)> Pi(j) этих событий /=1, ..., /, определяющие собой гипотезы. Имея результаты п независимых таких экспериментов в виде зарегистрированных чисел п\, п% ..., rtj вы- j падения каждого события, 2 Ъ = п, нужно проверить гипотезу. /=i Совершенно формально здесь на вероятности надо смотреть как на плотность по считающей мере (р,(/) = 1) и, следуя замечанию 2, использовать результаты последнего раздела. Тогда нелинейность f(yi) заменится на указатель событий, какие произошли в i-u эксперименте, суммирование /(*/*) по i от 1 до п превратится в счетчик чисел щ и оптимальное правило примет вид 2 я* in (р; (/)/*;(/)) <*• /=1 У Расчет значений отношений наименее благоприятных вероятностей в аргументе логарифма осуществляется по теореме 7.8 с подстановкой там границ вероятностей на место плотностей (вместо у подставляется /) и заменой интегралов по dy на суммы по /. 7.5. ПРОВЕРКА ГИПОТЕЗ О ЗАДАННОМ ЗНАЧЕНИИ ПАРАМЕТРА Формулировка задачи. Если в § 7.3 при гипотезе х=х0 альтернатива звучала как некоторое точное значение х=хх параметра, то здесь она конкретно не задается. Альтернативу будут составлять все значения х, не равные х0, т. е. хфх0. Решения выносятся такие: соответствует х значению х0, т. е. х=х0 или нет, т. е. хфх0, а место альтернативы занимает направление отклонений, указываемое параметром х, а точнее, его физическим смыслом и связью с наблюдениями. Так, если нет сигнала, то значение его амплитуды — ноль (х=0)9 есть — не равно нулю. 301
Пусть каждому значению параметра х поставлена в соответствие шереходная модель Лух на °у. Тогда гипотеза х=х0 о значении параметра и альтернатива хфх0 в терминах ИМ принимает вид Л1 = о&*Хщ%Я\*= V ж\- (7.5) Замечание. Альтернатива (7.5) соответствует тому, что априори какие-либо данные о х, кроме хфх& отсутствуют. Тогда Лу\ будет частной ИМ к совместной 2fx\Jtyx, где Зх\ — голая на х^ЗБ—х0 ( SB без точки *0); если же априорные данные о х имеются в виде ИМ Лх\, то — будет частной к произведению лх\Лух. Часто х имеет физическое толкование как параметр состояния среды. Например, при функциональном представлении J/=V*g вектор (или процесс) \ означает флуктуации (шум среды), a Vx — оператор, согласно которому влияние | на наблюдения зависит от х. Пусть Уг=# + Ег, тогда параметр состояния среды есть сдвиг на -величину х всех наблюдений у и гипотеза л;=0 соответствует отсутствию такого сдвига. __ В случае непрерывности Лух по х (в смысле непрерывности Myxf(y) как функции х при любых /eiF) или непрерывности оператора Vx в точке Хо, казалось бы, возникает безвыходная ситуация, так как альтернатива охватывает гипотезу: ЛуосиЛуи откуда для любого правила д°у имеет место $(д) =М\д°у^Мод0у = = 1—M0diy=l—а(д) и аналогично р(д)^:1—а (д). В результате прих^1: p*(d)S*l— xa(d)+'(x— 1)а(д)^1— ха (д) + (и— 1)а~(д) = = 1—а(д) и в любом /случае оптимальным становится тривиальное правило д°у=1—а. Задача вырождается. В следующих разделах предлагаются различные способы выхода из создавшегося затруднения. О правилах при оптимизме. Оптимизм х<1 в условиях охва- тывания альтернативой гипотезы 'позволяет строить оптимальные нетривиальные правила, что иллюстрируется лр'имером. Пример 7.3. Пусть в векторных обозначениях у = 1*+^ и пусть флуктуации % заданы интервальной плотностью p(z), p(z) по отношению к мере-длине на &п. Будем считать, что границы p(z) и p(z) унимодальны и достигают максимума при z=0. Будем рассматривать детерминированные (измеримые относительно алгебры отрезков) правила, причем те, для которых Мд)= Jdlzp(z)dz, а(д)= $dxzZ(z)dz, что будет иметь место при J* p(z)dz<oo, если требуемый уровень а довольно мал. Тогда № = inf M dQlx+l = inff max {J ^+z p (z) rfz, 1 - J d\x+z л (z) dz), 302
где использован тот факт, что Мд\х+% = £.(^?*+1 = 1) есть для детерминированного правила д°у вероятность соответствующего события и применена формула для вероятности событий аддитивных ИРВ. В силу унимодальности границ плотностей инфимум по х будет достигаться при неограниченном увеличении х. Положим \х\ ^Я. Тогда инфимум достигается при |*|=Я, что дает нам: 0(d) = max {J d%p(y±lH)dy, 1 — J* д$р(у ± 1 #)dy}, где справа бе- рется тот знак +Я илн —Я, при котором окажется меньше Р(д). Далее fT(d) = supMd10jr+!>Aid|= 1""-а(^)- При малом уровне а вполне можно считать Р(д) = 1. В результате оптимальным будет правило, минимизирующее (1—x)iP(d) при заданном а*(д) = Г512[(1— n)p(z)+xp(z)]dz. В соответствии с теоремой 7.6 (и выкладками, аналогичными сопровождающим теорему 7.8) оптимальным правилом будет одно из следующих четырех правил: (1— хМу) + к£(у) (1— х)^(у) + к^(у) Выбирается то из них, для которого минимальна ошибка $(д)> рассчитываемая по составляющим каждое правило границам плотностей; по ним же находится уровень а, который фиксируется выбором %. Отметим в заключение примера, что ошибка (5х (д) для любого из приведенных правил при х->1 будет стремиться к Р(д), причем Р(д)^1—а(д)ж1, т. е. найденное правило работоспособно лишь при небольших к. Равномерно-оптимальные правила. Правило д°у называется равномерно-оптимальным для проверки гипотезы х=х0 при альтернативе хфх0, если оно является оптимальным правилом проверки гипотезы х=х0 при альтернативе х=Хи каким бы ни было Платформу для 'существования равномерно-оптимальных правил при х=1 создает теорема 7.1, согласно которой структура оптимальных правил целиком определяется линейной комбинацией первичных признаков, составляющих гипотезу, а уровень а и вид альтернативы влияет лишь на коэффициенты линейной комбинации. При столь скудных исходных данных, что варьируемым становится всего один коэффициент, он сам полностью определится уровнем «х. Тогда от альтернативы вид правила зависеть не будет и имеем равномерно-оптимальное правило. Пример 7.4. Пусть #i=JC+£i, i=l, ..., п\ М|^ = 0, при 1Ф\ и Af| 52<=^ = а2ж, т. е. флуктуации £< некоррелированы, однородны и их мощность а58* зависит от параметра сдвига х. Проверяем гипотезу jc=0 при альтернативе хфО. Если бы альтернативным значением было x=xi, то оптимальное правило согласно дополнению 4 на с. 390 имело бы вид д° = [1 -am^loЙ+ при е = (о^ + с^/Уп < \хг\ < а0/аУ^. В довольно широком (при малых а и больших п) диапазоне изменения пара- 303
.метра Xi оптимальным оказалось одно и то же правило, вид которого определился целиком данными о гипотезе. Оно и станет равномерно оптимальным для х в указанном диапазоне. Хотя нижняя граница этого диапазона зависит от Ох , но случай |*i|>e не представляет практического интереса, так как при этом Р(д)^1—а, и поэтому может быть исключен из рассмотрения. Введение защитного диапазона. Этот метод состоит в сужении альтернативы до неравенства: 0<е^|л;—л:о|^#<оо, где е и Н — числа, ограничивающие диапазон изменения х. Задача проверки гипотез, в общем, будет зависеть от выбора е и Я. В целом ряде задач значения лса±е и х0±Н -будут соответственно наименее и .наиболее благоприятными в том смысле, что для оптимальных правил д°у уровня а справедливы равенства f(d) = Мух±е д°у, р (д) = МХ±Н ду0 . В силу этих равенств при поиске оптимального правила и расчете ошибок первого и второго рода альтернатива ЖУ\ = V *^у* е<\х—х0\<Н вполне может быть заменена на Jf^-eV^o+eV^o-HV^o+ff. что соответствует замене числового параметра х на отдельные точки: лсо±е, х0±Н. При х^1 «наиболее благоприятные» точки Хо±Н теряют смысл и останутся лишь «наименее благоприятные» х0±г как наиболее приближенные к гипотезе. Если вдобавок к оказанному вид оптимального правила не будет зависеть от величины б, то будем иметь равномерно оптимальное правило. Пример 7.5. Пусть в примере 7.3 х=1. Тогда при сделанных там предположениях и альтернативе х>г задача нахождения оптимального правила сводится к минимизации 'Л P"0)="Md?e+|=min{J'^p(y-le)dy. 1 — J" flj, р (у — I е) d у} при заданном а(д) = §дху p(y)dy=a. Оптимальным будет то из двух правил р(у—1е)/р(у)^Л, р(у— le)/p(y)^ X (где Я выбирается по заданному уровню а), для которого минимальна ошибка Р(д), рассчитанная по границам плотностей, составляющим правило. Правило будет равномерно оптимальным, если его вид не зависит от значения е. Сказанное будет иметь место, например, в случае «нормальных» границ видаг p(y)=vp0(y), p(y)=vp0(y), 0^v<l^v<oo, /?о(у)=ехр < — — утВ"1 у> / (2nn/2(det В)1'2), где В есть симметричная положительно определенная матрица. Тогда правило утВ-Ч^А,, где X определяется из уравнения v Г Ро(у)^у=а, будет равномерно оптимальным. Его ут в-Ч>л _ ошибка второго рода P(d)=v Г Ро(у—el)Jy, конечно же, зависит от ут в-1 кь величины е и стремится к 1—а при е-*0. Минимизация интегральной ошибки. Пусть х=1. Введение защитного диапазона \х—х0\^е> отделяющего альтернативу от гипотезы, эквивалентно априорному допущению о невозможности 304
при альтернативе появления «очень близких» к х0 значений х. Обобщением является задание соответствующего альтернативе вероятностного закона на 9В с помощью Л*\. Тогда Jty\ будет частной к произведению Мх\Жух> а ошибки будут: а (д) =Ж0 д', р (д) = Ж Мух д°у = Щ рх (д), где §х(д) =МУхд°у. При точной априорной плотности q(x) (по отношению к мере-длине), задающей Мхи ошибка находится интегрированием: V(d)=$Vx(d)q(x)dx. (7.6) Задача поиска оптимального правила сводится к минимизации этой интегральной ошибки йыбором д°у при заданном уровне а. Отметим, чтов (7.6) q(x) может быть некоторой весовой функцией, характеризующей уровень предпочтения, отдаваемого различным значениям х при альтернативе. Например, допускается q(x) = l (тогда $((3), по сути, уже не величина ошибки, а некоторый функционал от нее). Использование доверительных оценок. Пусть д*у (х) есть оптимальная доверительная оценка параметра х при коэффициенте пессимизма х=1. Если считается, что_J[xy=S(xJCyx, то уровень оценки определяется формулой: a=supAl^[l—д*у(х)]. X Для проверки гипотезы х=х0 при альтернативе хфх0 введем правило д°у = д*у(х0). Оно будет уровня не больше а, так как а (д) = М0 (1 -ду) = Щ ll-dlfa)] < sup 7Й* [1 -ду (х)] = а. X Трудно говорить об оптимальности введенного правила d°y. Тем не менее на примере будет показано, что оптимальность оценки д*у(х) в смысле минимума расплывчатости Q{d) = =Му J d*y(x)dx в некотором смысле приводит к сокращению интегральной ошибки (7.6) второго рода. Пример 7.6. Пусть в векторных обозначениях у=1*+1- и пусть х=1. Если об х и его связи с % ничего не известно, то оптимальная оценка будет функцией у—1*, поэтому правило д°у проверки гипотезы *=*о будет д° = д*(у—\хо). Его ошибка первого рода равняется уровню а оценки <Г(£); действительно, а(а)==Ж0(1-а5) = л?0[1--а*(у--1^о)] = м[1--а*(1)] = а; А ошибка второго рода при x=Xi будет равна JXi(d) = WXid° = WXid(y-lx0)=-Md(l+lxl-lx0). С другой стороны, интегральная ширина оценки MQ(d)=M§ д(у—\x)dx= =М § d(%+\x—\xo)dx^§Md(%+lx—\xo)dx=$ $x(d)dx.Ecnn здесь вместо неравенства имеет место равенство, то правило д°у будет минимизировать интеграл от ошибки второго рода по параметру л, следовательно, будет оптимальным ъ смысле интегральной ошибки, что мы и хотели показать. 305
Таким образом, предлагаемая здесь методика позволяет прямо приложить все доверительные оценки параметров, полученные в гл. 6, к проверке гипотез о значении этих параметров. Выписать получающиеся отсюда правила предоставляется интересующемуся читателю. 7.6. РАЗЛИЧЕНИЕ НЕСКОЛЬКИХ ГИПОТЕЗ Общие положения. Мы выше рассматривали задачу проверки нулевой (консервативной) гипотезы при противостоящей ей альтернативе. Пусть теперь гипотез, в общем, не две, а /С, и они в какой-то степени равноправны, каждая определяется своей ИМ Мъ *=1, ..., К на °у. По наблюдению у нужно установить, какая из гипотез имеет место, т. е. какой ИМ подчиняется у. Этот случай охватывает многие практические задачи классификации и распознавания образов, сюда входит прием ансамбля сигналов, различение букв рукописного текста, узнавание вида болезни по диагнозам и т. д. Решающее правило составляется как совокупность бу = = (dV ..., дку) решений, каждое из которых dky, k=l9 ..., /С, определяет тот уровень предпочтения, который при наблюдении у отдается k-й гипотезе. Суммарное предпочтение не должно превышать 1, что выражается в требовании 2 в*<1. Vy. (7.7) Зададимся вопросом, а можно ли сумме предпочтений разрешить быть меньше 1? Будем считать, что, в общем, да, оставляя не- к заполненной долю д7у=1—2 д\ предпочтений, называемую нейтральным решением (примеры дает рис. 7.2,а, б, в, где д?у равняется длине отрезка по вертикали, заключенного между сплошной и штриховой линиями). Нейтральное решение не относится ни к одной из гипотез, т. е. никакого решения не выносится. Его введение вызвано исключительно удобством и никак не умаляет общности, а скорее наоборот: по крайней мере, как мы вскоре увидим, д?у всегда можно «раздать» по д\ так, чтобы сумма предпочтений (7.7) при всех у строго равнялась 1, а качество сохранялось то же. Предпочтения dhyy когда это не 1 (а остальные — 0)*или не 0, представляют собой рекомендации, оставляющие все-таки последнее слово за человеком (способным при принятии окончательного решения воспользоваться дополнительными соображениями). При необходимости «механического» выбора в пользу конкретной гипотезы предпочтения заменяются на процедуру «слепой» рандомизации, согласно которой при каждом у разыгрывается игра с исходами &=1, ..., К, и вероятностями dhy исходов. 306
Обозначим Мк— модель на пространстве значений 1, ..., /С, вбирающую в себя априори все статистические данные о гипотезах. Произведение \МкУ=МкМь дает совместную модель гипотез и наблюдений, т. е. СИМ. Величина Md=MkMkdky есть нижняя вероятность правильного решения (опознавания), усредненная по гипотезам. Это — совокупная характеристика надежности правила. Составными ее частями являются М^дку — нижние вероятности правильного принятия k-x гипотез (каждая вычисляется по своей Mh_ продолжением первичных средних), и обратные им величины аь(д) = 1—Mhdky, охватывающие все ошибки, связанные с k-Pi гипотезой. Выделим два крайних случая. Первый, когда Лк=Ук, т. е. априорных данных нет, тогда оператор Мк осуществляет минимизацию и получается Md = mmMhdhy. Другой случай, когда априор- "* k ные вероятности заДалы точно и равны Я&, 2Я*=1, тогда Мд = к — = 2^fc^c?V g последней сумме, чтобы она приобрела новую по- лезяую окраску, полезно снять с Я& «одежду» вероятностей (как правило, неизвестных) и .наложить груз ответственности за последствия .неверного отказа от гипотез, это общий прием. Проблема оптимального синтеза состоит в поиске правила, минимизирующего совокупную ошибку а(д) = 1—Мд при ограничении (7.7). Методом множителей Лагранжа^оптимальное правило получается минимизацией составного риска а (д) +Я max %дку при у k выборе Я, согласно (7.7). В этом плане формулируется и достаточность. В этом же плане услеживается явная аналогия с доверительным оцениванием дискретного параметра x = k (с точностью до способа йыбора Я). Осталось переформулировать теорему 6.1 (следствие 1) о достаточности к гипотезам. Теорема 7.10. Достаточный при х=1 класс правил в задаче различения нескольких гипотез Мъ> k=\, ..., К, определенных каждая своими первичными средними Mkgkj{y)> /==1» ••> Jk, образуют усеченные снизу нулём, а сверху — совокупным требованием (7.7), вторичные признаки соответствующих гипотез: dky=[ch- 2 ajjgu(y)]+9 *-lf...,tf. причем те, для которых ошибки определяются как суммы первичных средних: ak (д) = 1 -ck+ 2 atjMk gkj. i Обратим внимание, что решение дку в пользу k-й гипотезы строится только по первичным признакам, определяющим k-ю ИМ Мъ (в теореме 7.1 это соответствовало настройке на одну или 307
другую гипотезу), а по их первичным средним Mugkj 'Находятся ошибки ось, зависящие только от вида д\. После применения теоремы поиск оптимального правила сводится к нахождению коэффициентов a+fej, минимизирующих совокупную ошибку а(д) =Mhak(d)t а в конечном счете, благодаря последней части теоремы, минимизирующих линейную форму от a+kj при ограничении (7.7). Чем выше и шире как функция у каждое дкуу тем меньше будет ошибка а&, поэтому совершенно ясно, что оптимальное правило будет стремиться увеличить сумму предпочтений %дку ближе к 1, делая тем самым как можно меньшим нейтральное .решение д?у, и конечно же, равенство суммы 1 будет обязательно достигаться в каких-то точках у*, называемых «горячими», в которых нейтральное решение отсутствует: д7у* = 0. Эти точки определят ошибки и вид правила. Будь оптимальное правило построено, дку станут как можно широкими и дальше расширять их уже некуда, только лишь за счет «раздачи» нейтрального решения, что не меняет ни горячих точек, ни, следовательно, ошибок, поэтому все эти правила будут эквивалентными независимо от способа «раздачи». Синтез детерминированных правил. Правило ду, компоненты дку которого принимают только значения 0 или 1 (если одна — 1, то остальные — 0), называется детерминированным и эквивалентно детерминированной оценке йу состояния k: дку=6и(йу) (см. § 5.5). Риск оценки при дельта- потерях Mdh{uy) превращается в совокупную ошибку а(д) правила различения гипотез. Детерминированные правила не являются оптимальными. Кроме случая, когда все Jthj &=1, ..., /С, представляют собой интервальные распределения вероятностей (что следует из индикаторной структуры первичных признаков ИРВ и теоремы 7.1). Детерминированное правило эквивалентно разбиению пространства °у на непересекающиеся части Аи={у : дку=\}, %Ак=<У; при попадании наблюдений k у л Ah принимается k-я гипотеза. Оптимальное (по крайней мере, в классе детерминированных) правило соответствует таким Ah, которые максимизируют Md=MhPh(Ah). Это может быть максимум по k стоящих справа нижних вероятностей правильных решений, или взвешенная их сумма ^KhPhiAh). В последнем случае особенность оптимальных Л&, помогающая их нахождению, следующая: \khPk(Ah)^hPi(Ah)t V/, k, т. е. взвешенная вероятность множества Ah при «своей», &-й гипотезе должна быть не меньше, чем при других. Для ИРВ множества Ah должны составляться из первичных событий гипотез и строиться на объединенной (по &—1, ..., К) алгебре этих событий. Нужно отметить, что выбор оптимальных Лл, в общем, не является однозначным (намек на существование нейтральной области, уже как-то розданной по Ah). «Горячие» точки будут располагаться на границах областей и будут совершенно неподвижны: нейтральная область их не захватывает, что фиксирует ошибки. Различение гипотез по заданным корреляциям. Рассмотрим и как иллюстрацию синтеза, и как важный для практики случай 308
задачу, где каждая из гипотез задана своими корреляциями, пусть точными: -#h : Mh (y-w*) (y-w*)*- Bft, *- 1,..., /С. Здесь у и Wfe — векторы-столбцы элементов уи Wk(i)9 t=l9 .., п7 2l В^ — матрицы корреляций размерности пХп. Таким образом, каждой гипотезе соответствует свой вектор сдвига w& и заданная с учетом этого сдвига матрица корреляций. Критерием считаем минимум а(д)=2Я&аь(д). Определим, пользуясь теоремой 7.10, по признакам моделей форму оптимальных решений. Число 'первичных признаков для каждой отдельной гипотезы равно, очевидно, п2 и согласно теореме 7.10 каждому из признаков должен быть приписан коэффициент, что в векторной форме выглядит следующим образом: dky = [ch - (у - ЩУ Ak (у - wA)]+, k = 1,..., /С, (7.8) Mkd»«l-ak(d) = £?k- 2 trAftBfe, — k=x где ak(d) выписаны согласно последней части теоремы, а А& и будут симметричными (по симметрии В&) матрицами неизвестных коэффициентов Ak(i, /), выбор которых и составляет проблему синтеза. Правило называется контрастным, если inidky=0, supd%=lv у у Yk. Для (7.8) контраегёюсть эквивалентна Ck= 1: тогда каждое dny достигает 1 при y = wh и совокупная ошибка запишется: a(d) = = S^fetrAfeBfe. Нетрудно видеть, что веса гипотез легко могут быть учтены умножением на «их Вк, поэтому допустимо (включив их в Вь) считать далее A,fe=const и минимизировать суммарную ошибку 2 trAfeBfc. Контрастные правила оказываются достаточными при определенном удалении гипотез друг от друга (чтобы отойти от тривиального случая dfey=scfe). Как функции у они представляют собой совокупность параболоидов dky с вершинами в точках y = w& высотой dftWfe=l. Для Наглядности интерпретации удобно мыслить л = 2. Основаниями параболоидов, где они пересекают координатную плоскость, будут эллипсы (см. рис. 7.8) с серединами в wk. Чем шире параболоид &-й_гипотезы, тем шире будет эллипс и тем меньше будет ошибка ak(d). Но ширина ограничивается требованием (7.7), соответствующим тому, что сумма параболоидов не должна нигде превышать 1. Контролировать это требование достаточно лишь в располагающихся где-то между wk «горячих» точках, обозначенных на рис. 7.8 звездочками. Для оптимального правила, поскольку «все дку делаются как можно шире, «горячих» точек должно быть максимальное число, причем они будут располагаться где-то в серединах групп в разных сочетаниях векторов Wfe (причем теми, для которых пересечение оснований дку юенулевое). 309
Zzi к=4 Рис. 7.8. Картина расположе- Т ния «горячих» точек Кроме «горячих» точек и центров w& везде сумма параболоидов предпочтений окажется строго меньше 1. Наиболее это выражено в зоне на рис. 7.8, лежащей вне эллипсов, где решение полностью нейтральное: д?у = 1. «Раздача» нейтрального решения, ж>тя, в общем, и произвольная, но подчиняется разумным началам: например, все содержащееся в д?у предпочтение удобно отдать близлежащей гипотезе. Другой возможный путь: ввести во все матрицы Ak один постоянный множитель а и для каждого у подыскивать такое ау, при котором сумма предпочтений станет равной 1. Возможны иные варианты. Оптимальность решений определяется формой лежащих в основаниях эллипсов, минимизирующих суммарную ошибку. Оси эллипсов и их ширина ставятся в зависимость от расположения ivft и вида Вь и управляются искомыми матрицами А&. Перейдем к наиболее простому случаю /С=2. Оптимальное правило различения двух гипотез. Пусть К=2 и будем искать оптимальное правило вида (7.8), т. е. искать матрицы Ai и Аг, минимизирующие суммарную ошибку trAiBi + +trA2B2. Требование diy+d2y^l должно контролироваться в области ненулевых значений <?4У и д2у, где запишется как ограничение сверху единицей суммы двух параболоидов 2—(у—wi)TX XAi(y—wi) — (у—w2)TA2(y—w2) (квадратичных форм у). Максимум по у достигается в «горячей» точке у*, получающейся решением уравнения (Ai + A2)y*=AiWi + A2W2; в результате подстановки у* требование запишется: 2 - wj Аг wx - w* А2 w2 + (Ах wx + А2 w2)T (Аг + А2)- (Аг щ + + A2w2)< 1, или же после некоторых щреобразований перепишется: - (w2 - щу А] (А, + А2)- А2 (w2 - w2) > 1. (7.9) Здесь минус в показателе означает, что матрица псевдообратная1, 1 Гантмахер Ф. Р. Теория матриц. — М.: Наука, 1966. —С. 34. 310
а именно, такая, что АА~А=А (обратная матрица в подпространстве собственных векторов, если она особая). Сказанное важно «вот почему. Минимизация tr AiBi + trA2B2 при условии ;(7.9), замененном «а равенство, производится методом множителей Лагранжа и ведет к матричным уравнениям у (Аг + А2) Bx (A1 + A2) = A2wTwA2,w = w2-w1, у (Ах + А2) В2 (Ах + А2) = A1wTwA1, в которых у «находится из (7.9). Отсюда, так как правая часть имеет ранг 1, сразу же следует вывод, что матрицы Ai и А2 также должны иметь ранг 1 и записываться в виде: Aft=afeggT, £= = 1, 2, где g — вектор-столбец. Тогда обратной матрицы не существует, а лишь псевдообратная: (Ai + A2)-=.ggT/(ai + a2). Обозначая &fc = gTBfcg, '/nfe=gTWfc, сводим матричные уравнения вместе с (7.9) к системе скалярных уравнений: т2 аг а2 = ах + а2, т = т2 — т1У Viai + a^b^alm*, У {ах +a2f Ь2 = а\ т2. Решая их, находим оптимальные ai= (H-jA b2/bi)//n2, a2= = (l + VbJb*)l*n2- В итоге подстановки найденных ах и а2 правило запишется ej-[i-(i+ YW ttT(y-w1))V«fw)1]+f а д2у есть либо 1—diy (когда .нейтральное решение отдается в пользу второй гипотезы), либо дается аналогичным записанному выражением с переменой индексов 1 и 2 местами. Суммарная ошибка 'правила будет равна dt + ~a2 = (j/g^BTg + KgrB2l)2/(gT w)2. Остался последний шаг — найти вектор линейной обработки g (на который проектируется у), минимизирующий выписанную суммарную ошибку. Это сделать несложно при одинаковых корреляциях: Bi = В2 = В, тогда g минимизирует отношение gTBg/i(gTw)2 и равен g=B"1w, w = w2—w1# Более двух гипотез. Пусть К>2 и нужно найти правило вида (7.8), минимизирующее суммарную ошибку. Требование (7.7) подстановкой туда (7.8) (конкретнее, суммированием содержимого квадратных скобок (7.8) и взятием максимума по у, который достигается <при 2Afey=2AfeWfe), обращается в систему неравенств: } 2 wlAftwft-(2 Aftwft)T(S Aft)~ (2 Aftwh)>(2 ch)-l, (7.10> где суммы перебираются для любых сочетаний индексов в числе от двух (аналогично (7.9)) и вплоть до /С. Причем для каких-то сочетаний будут равенства, соответствующие каждое своей «го- 311
рячей» точке. Само неравенство в (7.10) имеет в виду, что не между всеми сочетаниями w& способны располагаться «горячие» точки (так, если все w& стоят «а одной прямой в ряд, то равенства будут лишь для смежных пар). Облегчение синтезу дает следующее общее утверждение, являющееся аналогом теоремы 6.5. Утверждение 7.11. Пусть гипотезы симметричны между собой в том смысле, что существует преобразование наблюдений \, оставляющее задачу на месте, меняя гипотезы между собой: J^ky=^vk* k=l, ..., /С, где vk осуществляет перестановку индексов k. Тогда минимизирующее суммарную ошибку правило экви- вариантно\ д\у=^дук. Если V — удовлетворяющее утверждению преобразование, то лоследовательное применение VZ=V... V будет также удовлетворять ему, поэтому V* образуют группу преобразований. Смысл утверждения 7.11 в том, что, построив какую-то одну из составляющих решающего правила, скажем, d*y> мы переносим ее на другие составляющие dhy, где k = \l\, подставляя V'y в д*у на место у. Если vzl при изменении / пробегает ©се k=lt ..., К, то оказывается достаточным построить всего одну составляющую лравила, перенося ее преобразованием \1у на все остальные. Для правила (7.8), если имеется V, циклически переставляющее гипотезы 1-^2, 2-^3, ..., /С->1, сказанное соответствует: А&= = (V*)TAiVft. Перейдем к рассмотрению примеров синтеза. Три ортогональных сигнала. Пусть /С=3 и в векторной записи y = Wfe-t-£, й=1, 2, 3; «шум» % есть однородный некоррелированный jW£igj = a26ij процесс, а «сигналы» w& ортогональны между собой: wTfeW/=i/n25fej, m—лх «амплитуда». Задача симметрична к перестановке гипотез между собой, причем плоскость, (натянутая <на векторы wb w2, w3 в 91пу вращаясь, остается на месте (см. рис. 7.9). По этой причине и в силу инвариантности свойств шума к таким вращениям оптимальные А& должны проектировать у на плоскость (z\t 22), где и достаточно решать задачу синтеза, направив новые оси согласно рис. 7.9: *~ 21-y»(2w1-w2-wJ)/(2m)f z2 = ]/3yT(w3-w2)/(2m). Рис. 7.9. Преобразования координат 312
В новых координатах z='(2i, z2)T исходная задача переписывается: z = mfe + £, mi = (m, 0)т, m2 = (- m/2, l/l$"m/2)T, m3 = (- m/2, - У 3 m/2)T, С - fflf £2)T, Af С, Ь = .6 efi, & = 3 oV2. Перестановка гипотез l->*2, 2-^3, 3-Я соответствует вращению z .на 120° по часовой «стрелке. Обозначим V — унитарную матрицу вращения. Ее элементами будут: Vn = V22 =—1/2, V2i = W =—Vi2=У" 3/2. Ищем матрицы Afe в правиле вида dftz = v./ =i[l—(z—mfe)Afe(z—mfe)]+, минимизирующие суммарную ошибку, w w равную %b'[Ak(l,l) +Ah(2,2)]. Согласно утверждению 7.11 имеем: k w www A2 = VTAiV, A3 = VAiVT (где использовано VT = V2), так что задача W W сводится 'к нахождению матрицы Ai = A, определяющей д1г . В силу симметрии положения т2 и т3 по отношению к осям zu z2 мат- W WW рица А должна быть диагональной: Л(1,2) = Л(2,1) =0, откуда d\={\^A(\A)izl-my-A(2f2)zh]^ «Горячих» точек для dlz будет три: одна — в начале ловой координатной системы 2i = 22 = 0, относительно этой точки совершается вращение V и потому по симметрии d1 <=д2о=д3о = W W = 1— Л(1,1)/7г2, откуда из требования д10+д2о + д3о = 3—ЗА (1,1)/п2= W = 1 следует Л(1,1) =2/(3/п2). Другие две «горячие» точки располагаются на серединах между парами ть т2 и mi, m3 и дают W W одно уравнение mTr(V—I)T[(VTAV)-1 + A-1]_1(V—I)mi=l, из ко- W торого находится А(2,2) =2/(3/п2). Таким образом, на плоскости (zi, z2) основаниями d*z, д22== = dlvz> d3z =diy/Tz будут круги радиуса ]/" Ъ\2т с центрами :в ти т2 и тз. Четыре попарно ортогональных противоположных сигнала. Пусть /С=4, y=wfe+£, М1иЪ=<*2Ьы, &> / = = 1, ..., 4, а «сигналы» .попарно принимают противоположные значения w3 = — Wi, w4 = —w2 и ортогональны в двух направлениях: wTiw2=0, !iwi||='/ni, ||w2ll=</n2, имеют в них разные, в общем, «амплитуды» гп\ и /п2. Действует только один сигнал W&, нужно узнать какой, наблюдая у. Очевидно, достаточной является проекция задачи на плоскость 2i=yTwi/m, 22=yTw2/m и ма этой плоскости задача выглядит так: z=nife+£, mi = —m3= {rnu 0)т, m2=—m4= (0, m2)T, AJ££T=a2I. Ищем, как и в предыдущей задача че, матрицы А*, Л=1, ..., 4, которые в силу симметрии задачи к перемене знака ±гц ±z2 будут попарно одинаковыми и диаго- 313
нальными; обозначим их диагональные элементы соответственно 4i(/, j)=Mj, /)=ai(/), Л2(/, /)=Л4(/, j)=a2(j), /=1, 2. Будем их искать исходя из минимума суммы ошибок 2a^[ai(l)+a\(2) + +Я2О) +Дг(2)] при требовании (7.10), которое воплотится в три неравенства: 1} т2 дх(1)а2(1) а1(2)а2(2) , 2) 2 m* аг (1) > 1, 3) 2m*a2 (2) > 1. Пусть для определенности тг2^мг\. Тогда картину расположения «горячих» точек дает рис. 7.8, а в 1) и 2) будут равенства. По симметрии равенств и из 2) находится: ai(1) =a2(l) = = l/(2/n2i), и далее подстановкой в 1): ai(2)=a2(2) =3/(2i/n22). Получаем следующее оптимальное правило: ^-[l-fe--m1)2/(2m2)~3Zl/(2m2)]+, ^ = [ 1 - г\Ц2 т\) - 3 (z2 - m2)2/(2 m\)]+ , а д32 отличается от д^ как и d4z от d2z переменой знака у т^. Ошибки , будут одинаковы: afe='a=a2/(2/n2i) +3a2/(2/n22). Замечания: 1. Разные значения дисперсий Af£2j=Af (|TWj)2=a2j, /= 1, 2, оставляют тот же вид оптимального правила, если m22/a22^m2i/a2i (вместо mh>m2i), при этом a"=a2i/(2m2i)+3a22/(2m22). 2. Задача: y-±wj+t М%&=Ъ, wjB-'wi-fyimVa'j, /, /=1, 2, где шум коррелирован, а w,- совпадают с направлениями собственных векторов В и о2} — собственные числа, эквивалентна предыдущей. 3. При равных амплитудах сигналов mi=m2=m и a2i=a22=a2 оптимальными будут значения a/(/) = l/m2. Основаниями оптимальных дкг станут круги (на лодобие олимпийской эмблемы) и ак—2с21тг. 4. Совершенно прост переход к непрерывному времени: векторные произведения заменяются на интегралы. Система ортогональн о-п ротивоположных сигналов равной амплитуды. Обобщим предыдущее правило на случай любого четного числа сигналов, разбивающихся на пары сигналов, внутри каждой пары противоположных, а между парами — ортогональных, все одинаковой амплитуды: w*wz = m26*,/=l,...,/(;AfglT = o2I. По аналогии с замечанием 3 оптимальным правилом будет Написанное осмыслено лишь в том случае, если а&<; (2К—1)/2К, 214
иначе оптимальным делается тривиальное правило dfe=l/2/( с оЛ=(2К—1)/2*. Неточно известные корреляции. Пусть корреляционные матрицы Вь, определяющие Ль9 неточно известны, т. е. задаиы приближенно в виде оценочных границ _Sfe(/./), Bk{i,j) (это могут быть и доверительные границы, полученные по обучающему эксперименту). Для каких-то i, / этих данных о границах, впрочем, может и не быть совсем, что лишь способно упростить задачу, так как /по теореме 7.10 о достаточности для этих i, j следует положить Ak(i7 /)=0. Пример 7.7. Пусть /(=2 и заданы лишь диагональные элементы матриц корреляций Bi(i9 i), B2(i, i)t t=l, ..., n, а относительно взаимных корреляций сведений нет. Тогда Ak(it /)=0, 1ф\, а матрицы Ah станут диагональными. Их ранг должен быть равен 1 (аналогично вышеизложенному при /С=2), что- может быть, лишь когда все диагональные элементы матриц А& нулевые, кроме одного. Сказанное эквивалентно тому, что из наблюдений уи ..., уп выбирается всего один элемент yj, тот самый, для которого минимальной будет суммарная ошибка (построенного по нему правила, равная (как это было показано нри рассмотрении двух гипотез) величине: ai + (Z2=( jABiO", /) + У ^г(/,/)/ f(w2(j)—Wi(j))2. Все остальные наблюдения можно «забыть». Причина в том, что неизвестность взаимных корреляций вынуждает не исключать (в пессимистическом режиме х=1) случай, когда все элементы у% повторяют друг друга, тогда остальные у\ ничего нового по сравнению с одним значением не несут. Другой путь синтеза правил при неточных корреляциях базируется на том, что недоопределение корреляций, как и задание их границами, формирует собственные семейства % корреляционных функций (матриц). Ошибки, очевидно, будут равны а&= = sup trAbBfe и поиск оптимального правила сводится к мини- вье»л мизации суммы ошибок, т. е. « минимаксной задаче при ограничениях. 7.7. ЗАКЛЮЧЕНИЕ Рассматриваются две гипотезы, нулевая и альтернативная, отличающиеся разными статистическими описаниями наблюдений в виде интервальных моделей средних (ИМ). За гипотезами стоят конкретные практические задачи типа есть сигнал или нет его при обнаружении, либо проверка неисправности устройства, соответствия его техническим требованиям и т. п. Назначение решающего правила в том, чтобы по результатам наблюдений сделать выбор в пользу одной из гипотез. И не обязателен конкретный выбор, а вполне допускается расплывчатый, при котором решения подаются неоднозначными в форме предпочтений (реализуемых рандомизацией). Характеризуются правила проверки гипотез вероятностями ошибочного принятия одной, когда верна другая. Ошибки две: первого рода, состоящая в неправильном отклонении нулевой гипотезы, и второго. Вероятности ошибок 315
находятся продолжением первичных средних ИМ на решающие правила (рассматриваемые как признаки). Итогом будут интервальные значения каждой .вероятности: нижняя ее граница, дающая самые оптимистичные прогнозы иа ошибку, и верхняя — пессимистичные. По ним выводятся промежуточные значения, зависящие от степени пессимизма. Оптимальным для проверки нулевой гипотезы называется правило, минимизирующее величину ошибки второго рода при заданной первого (уровне правила). Хотя по определению приоритет отдается в пользу нулевой гипотезы, «синтез эквивалентен решению смежной. задачи минимизации взвешенной суммы «ошибок с последующим подбором весов (заменяющих априорные вероятности хипотез). В этом плане определяется достаточность. Центральный результат формулируется теоремой 7.1 и состоит в том, что достаточные при пессимизме классы правил, а следовательно, структура оптимального правила определяются исключительно линейными комбинациями первичных признаков гипотез. Остается отыскать коэффициенты, которых будет -тем меньше, чем проще гипотеза в смысле их признакового состава. При этом .вид правила может нацеливаться только на одну из гипотез, либо нулевую, либо альтернативную, причем первый случай предпочтительнее из-за простоты .фиксации уровня. Симметрия и однородность гипотез дополнительно упрощает „задачу. Особенности оптимальных правил состоят, первая, в их расплывчатости (рандомизированности), характер которой всецело определяется формой пер- гвичных признаков гипотезы (либо альтернативы). И вторая особеность, являющаяся побочным фактором произвольности настройки на гипотезу, состоит в неоднозначности вида. Обе особенности обостряются при бедном исходном материале, составляющем гипотезы, и исчезают при переходе к «богатым» моделям в виде распределений вероятностей, где рандомизация может остаться .лишь на границе по известной лемме Неймана — Пирсона. Положения теории раскрываются нахождением в § 7.2 оптимальных правил при сдвигах наблюдений и известных корреляционных свойствах, сопутствующих гипотезам (как ни странно, такая нужная задача в классическом аппарате не имеет решения). Правила получаются расплывчатыми, характер их, как это следует из квадратичной формы первичных признаков, является параболическим. Трудности определения ошибок правил толкают на поиски других способов синтеза, использующих пройденные пути. Один из них (§ 7.3), проторенный доверительными оценками предыдущей главы, требует записи гипотез через два разных значения одного и того же параметра. Правило состоит в отведении нулевой гипотезе той степени предпочтения, какое доверительная оценка дает соответствующему этой гипотезе значению параметра. Расплывчатость оценки породит расплывчатость правила, а величина ошибки оценки дереходит в уровень правила и открывает дорогу прикидочному расчету ошибки второго рода. Так образуется сразу большое число правил, может быть не совсем оптимальных, но все же хороших по их «гинетической» близости к -оценкам, если те взяты наилучшими. Другой путь (§ 7.4) уже традиционный и состоит в интерпретации моделей как семейств точных распределений вероятностей, поиска внутри семейств наименее благоприятных и сравнения их отношения с порогом по предписанию известной леммы Неймана — Пирсона. Путь привлекает методы теории 316
игр и охватывается робастным подходом. Автор приводит свои результаты по интервальным плотностям для демонстрации сравнительных возможностей робастного подхода внутри общих интервальных построений. Качественно другой характер гипотезы приобретают, когда нужно принять решение в виде согласия с выдвинутым (гипотетическим) положением и не согласия. Например, исправен прибор или нет; конкретизируется гипотеза, а альтернативой будет все остальное, правда, не ясно что. Образно говоря, если гипотеза и конкретная альтернатива составляют направленный диполь, то тут ои оказывается неориентированным, но закрепленным со стороны гипотезы. Постановка и методы подхода к этой задаче содержатся в § 7.5, где предлагается в качестве возможных путей использовать найденные ранее правила проверки гипотез и доверительные оценки. Задача различения гипотез § 7.6 возникает при необходимости разделить или различить между собой несколько состояний объекта. Гипотезы формулируются в терминах ИМ, их первичные признаки определяют собой структуру оптимального правила (теорема 7.10), минимизирующего суммарную ошибку. Его неоднозначность учитывается введением нейтрального решения. Конкретные правила получены для гипотез, заданных корреляционными свойствами наблюдений. Проблема различения многих состояний приближает нас к их оцениванию и даже может решаться методами теории оценивания, вопрос весь упирается в критерии анализа качества и способы формирования риска. Глава 8. НАДЕЖНОСТНЫЙ СИНТЕЗ «Л. ОБЩИЕ ВОПРОСЫ СИНТЕЗА МОДЕЛЕЙ Методология синтеза моделей. Наше житие можно сравнить «с движением в купе скорого поезда, из окна которого проносятся мимо быстро сменяющие друг друга пейзажи. И нет ни малейшего времени задуматься, что каждый его фрагмент «дышит» собственной очень сложной и содержательной жизнью, детальное изучение закономерностей которой — удел многих и многих поколений (если не всех). Мы же, глядя в окно, ограничиваемся самым поверхностным представлением обо всем этом, внешней моделью, связывающей увиденное с нашими внутренними воззрениями, опытом. Это естественно, потому что здравый опыт в своих лритязаниях и проявлениях суть экономное представление окружающего: выделение главного, игнорирование всего второстепенного (хотя детям, красивым девушкам и некоторым ученым иногда свойственна прямо противоположная тенденция). Образный пример не является случайным, а объясняет характер непреходящей гносеологической связи: адекватность ЯВЛЕНИЕ » МОДЕЛЬ действие 317
Человек строит модели >как отражения реальностей (причем на самой разной основе) и использует их для познания природы, а также воздействия на нее (поэтому-то отношение стрелками указано в ту и другую сторону). Как и природа, модель живет своей самостоятельной жизнью. Обе жизни родственны в том смысле, что они должны быть слаженными, как говорят, модель должна быть адекватной явлению (верхняя стрелка), что и позволит по состояниям модели прогнозировать, а затем и управлять состояниями явления ^нижняя-стрелка). *« - Прекрасной иллюстрацией сказанному является - случайный процесс броуновского движения — классическая модель перемещения частицы при хаотических столкновениях ее с молекулами при тепловом движении. Наглядная физическая картина здесь породила математический образ, вероятностную модель, в которой как таковых частичек уже нет, про них забыли, а только отжатый результат — процесс перемещения в виде математического построения. Такая абстрактизация позволила найти вероятности уклонений, установить идеальные законы броуновского движения. Вообще, нужно быть осторожным, так как на языке моделей удобным и отразимым оказывается далеко не все, что существует в природе. Идеализация приводит к моделям, надежным только на первый взгляд, отражающим желаемую для модели картину эксперимента. В дальнейшем, удобно в силу специфики настоящего изложения говорить только о математико-вероятностных моделях — символьного языка описания случайных явлений. Глубина и безграничная сложность явлений реального мира вынуждает, казалось бы, такие же качества у моделей. Так и кажется подчас, что чем сложнее модель, богаче ее собственная жизнь, тем более сильной в своей отражательной потенции она является. Можно и согласиться, если бы при этом не разрушалась прямая связь модели с явлением. Усложнение модели требует настоятельной проверки каждого ее нового фрагмента на соответствие действительности. Словами «пусть» (столь привычными в современных математико-вероятоостных изложениях: пусть процесс (марковский, пусть плотность существует и дважды дифференцируема, пусть известна вероятность и пр. и пр.) достигается обособление жизни модели, превращается в самоцель ее изучение математиками, считающими себя совершенно чистыми. Можно возразить, что история знает примеры, такие как теория групп или неэвклидовая геометрия, когда то или иное сугубо математическое построение встречалось в конечном счете с практическими приложениями. Но рассчитывать каждый раз на случай— все равно, что делать ставку при ликвидации космического объекта на удар в него метеорита. Не надежнее ли нацелить в объект что-то управляемое во времени в трехкоординатном пространстве? Мы убеждаемся здесь еще раз в нашей главной мысли, породившей и пронизывающей все содержание книги, что не нужны 318
оторванные суперсложные модели, .нюансы которых кто-нибудь из добросовестных исследователей может воспринять всерьез как изведшные законы природы. Значительно экономнее и надежнее иметь арсенал простых моделей, связывающихся с явлением в небольшом числе сторон, своего рода каналов, и отражать явление не сразу ©се, а по частям, освещая каждый раз только ту сторону, которая представляет непосредственный интерес. В том- то сила 1Гискусетво*чйШйаиия: раетлШитпв всю'сферу деятельности на науки, .каждой из которых отдается своя часть физического явления, затем науку — на предметные области и т. д. • Конкретизируем теперь связь: МАТЕМАТИЧЕСКАЯ ТЕОРИЯ -v МОДЕЛЬ. Математическая теория развивает групповые законы моделей и организуется внутри себя системой аксиом — этой формальной конструкцией, сцепляющей каждую модель. На символьном материале аксиоматические связи должны повторять реальные, что и есть адекватность аксиом и гарант правомочности теории. А жизненность теории будет зависеть от того, какими сторонами ее представители (модели) связываются с явлениями, насколько эти связи легко наводятся, доступны, физически наглядны (интерпретируемы), привычны, наконец надежны. Это и поможет инженеру-исследователю выбрать ту конкретную модель, которая нужна для решения поставленной задачи, чтоб далее привлечь всю мощь теории, от упрощения моделей только выгадывающей. Постановка задачи. Наша цель — рассмотреть проблему синтеза интервальных статистических моделей средних. Связующими для них с реальными явлениями будут некоторые задающие параметры в=(0ь 02, ...)> которые по их числу, содержанию и физическому смыслу могут быть самыми разнообразными (могут иметь только математический, формальный смысл). Теперь если модель искать в рамках исходной структуры Л$ и найти параметр в в виде детерминированной оценки в, то получим модель Л>* , а если в виде индикаторной 0 (для одномерного в — интер- 8 вальной), то объединение V *^е- бее Оценивание в должно производиться из ясного осознания конечных целей, под которыми подразумевается та последующая, наследственная задача, на решение которой призывается модель. Это может быть задача либо анализа, либо построения (решающих правил. Например, модель шума привлекается для нахождения алгоритма оптимального обнаружения сигналов или оценивания параметров в аддитивном представлении. Возможен другой вариант, когда модели гипотезы и альтернативы не связаны между собой через шум и строятся отдельно одна от другой. Нашу мысль, что решающие устройства должны через себя влиять на сам синтез модели в форме требований к оценкам задающих параметров, проиллюстрируем на примере. :
Пример 8.1. Пусть в — задающий (-одномерный или многомерный) на- раметр; для каждого его значения вводится модель Ufe и по ней синтезирует-, ся решающее правило дв (возможно, оптимальное). Вид'этого правила определяется видом J[q, следовательно, будет зависеть от, 9. Но 9 не известен. Считаем, что по обучающим реализациям Z он оценивается 6=0j(Z) и подставляется в «правило, что приводит к д + . Риск этого правила будет зависеть от истин- 6 ного, но неизвестного 9 и обозначается Щ(д л). Теперь стоит вопрос, как оце- 6 нивать 9? В среднем с учетом случайного разброса 9 риск всей указанной адаптивной процедуры (в общем, квазиоптимальной) равен г(д, 8)=ЛМ10(6\), 6 где усреднение производится по совместной модели 9 и Z. Оценку 8 нужно выбирать так, чтобы минимизировать г(д, 9), откуда сразу видно, что Пе(сЛ) и и должна служить функцией потерь в задаче оценивания (синтеза) 8 *. Выбор начальной структуры М§ — слабое место синтеза, способное в корне свести на лет иаше стремление получить надежную модель. Так будет, если Jl§ описывается параметризованной точной плотностью вероятностей р$(х), при изменении в очерчивающей лишь неосязаемую линию в пространстве всех распределений вероятностей. Надежные же модели должны быть объемными. Наибольший интерес для нас представляет тот случай, когда J[q /не надо выбирать, а оно само естественно определяется наведенными с явлением связями. А этот как раз тот самый случай, когда задающими параметрами являются статистические средние $ = MQ набора Q признаков, составляющие в совокупности модель Л(=\/<;МС2У (где объединение обязано расплывчатости оценок средних). Нагрузка синтеза полностью перекладывается на выбор набора Q и оценивание соответствующих ему параметров Bi = Mqu qi^Q. He надо, что самое замечательное, ничего лишнего, никаких допущений, порождающих сомнения. Здесь возникают две проблемы: выбор задающих признаков и оценивание их средних. Первая составляет свою сферу деятельности, и не всегда научную, а учитывая подавляющее разнообразие самих признаков и возможностей их выбора, превращающуюся подчас в ^искусство ("начинается там, где заканчивается наука). Это инженерное искусство выбора связующих признаков, используя априорные сведения о явлении, какие есть знания его механизма, наблюдения за явлением, опираясь на лрактпку, опыт и здравый смысл, сообразуясь с трудоемкостью самой процедуры синтеза модели, не «спуская прицел» с последующего применения модели. Путеводными здесь являются качества модели, про- * Кузнецов В. П. Байесов подход и оптимизация процесса обучения/УАвто- матика и телемеханика. — 1971,— Jfc 4t — С, 66—71, 32G ,
низывающие настрой всей книги: простота, доступность, надежность. Зторая проблема состоит в оценивании задающих параметров. Она согласована с выбором задающих признаков и шоэтому ад исключает привлечения самых разнородных физических закономерностей, фактов. Но может и формально решаться на базе предварительного эксперимента, обучающих реализаций, что нас интересует в наибольшей мере. Здесь требование адекватности связи модели с явлением накладывает на обучающие реализации обязанность быть «полномочными представителями» интересующего нас явления, т. е. быть носителями одинаковых значений параметров (средних), тогда их можно оценивать. Это есть условие стационарности задающих параметров, которое сейчас обсудим. Стационаризация статистических параметров. С позиций математических моделей средние как и вероятности есть фиксированные, числа, тогда как .интервальные средние и вероятности есть интервалы, границы которых удовлетворяют аксиомам ИМ. В эти понятия заложен смысл среднего арифметического или же частоты. Сейчас не суть важно, каким является пространство 2> элементарных исходов, на котором строится математическая модель; это может быть произведение Й?Х^, либо пространство S значений флуктуации |. Пусть zi,'£2, ..., zN, есть реализация независимой последовательности обучающих испытаний, для которой параметр Mq(Zi) является стационарным, т. е. одним и тем же для всех г. Такие испытания называются М<7-стационарными. Для стационарного параметра точное среднее Mq достигается как предел среднего арифметического: \ N Mq = \\m — 2 q{*i) N->oo /V j в серии независимых стационарных испытаний ziy i'=l, 2, ... Точная вероятность по тому же смыслу есть предел относительной частоты события N-»oo iV j где фигурные скобки обозначают индикаторы событий, равные 1 при 2^еЛ, а иначе — 0. Интервальные средние и вероятности возникают тогда, когда точных их значений нет, либо по причине ограниченности числа испытаний (дефицит опыта), либо из-за возможной нестационарности испытаний, т. е. неустойчивости средних и частот. Последнее является неприятной ««подножкой», но к счастью, не всему статистическому подходу, а тем формальным методам синтеза модели, к которым мы стремимся и которые волей-неволей требуют стационарности параметров. Укажем типичный для статистических приложений способ стационаризации, основанный на случайном выборе. - 1.1-ИЗ 32Г
Пусть имеется совокупность в N независимых испытаний гг,1 1=1, ..., JV, причем средние Miq(Zi) *в разных испытаниях, в общем, 1 различны. «Перемешаем» теперь испытания слепым образом, а 1 иначе говоря, произведем их последовательный равновоэможный | выбор. Тогда средние стабилизируются, станут одними и теми } же, равными JWq=2iMiq(Zi)/Nb так как равновозможно с вероятностями IfN выбра'йным может оказаться любой индекс L Как видно, 'произошла стационаризация испытаний, но увы, с возможной потерей «независимости, хотя и ,йз этого упущения есть свой \ выход, который проиллюстрируем на примере. Пример 8.2. Пусть pi есть вероятность события Zi^A в i-u испытании (Л одно и то же) и пусть заведомо известно, что первые k раз А обязательно произойдет: р!=р2= ... =#л=1, а остальные — нет: рл+1=/?л+2= ... =Рдг=0. Тогда случайный выбор (слепое перемешивание) испытаний ведет к вероятности р= j =\k/N события А в каждом из них. Но после перемешивания события Л, увы, 1 не обретут желаемой независимости, так как если стало известно, что первые I к раз повторилось событие 2*еЛ, то всеми последующими непременно будут 1 противоположные события 2*еЛс. Бели же после перемешивания из совокупности объема N произвести ред- j кий выбор Zi zn «небольшого их числа (объема) /i<JV, то эту выборку с достаточно большой точностью можно считать стационарной независимой. В самом деле, М{д(г{) от произвольного признака q будет одним и тем же Mq ] и справедливо равенство MUqi(Zi) = тая _ UM*qt(Zi). м*=мр м Вывод такой: случайный редкий выбор из совокупности есть \ средство стационаризации последовательности и причина независи- \ мости ее элементов. j Стационаризация облегчает построение математической модели, так как сводит ее синтез к оцениванию одинаковых по течению испытаний задающих параметров, т. е. к своей новой статистической задаче, которую рассмотренными в предыдущих главах методами можно формализовать и решить. Для этого нужно знать, какого содержания оценки, задающие модель, хочется получить, каким основным показателям они должны удовлетворять. Понятие доверительной модели. Проанализируем содержимое рис. 8.1. Построение математической модели — это отдельная задача оценивания параметров, а точнее сказать, надзадача, пищей которой служат испытания, и как ©сякая статистическая задача, она нуждается в исходной 'конструкции. В конструкцию надзадачи в первую очередь входит изначальная математическая модель самой последовательности испытаний, так сказать, надмодель, отличающаяся от искомой своей шириной и крайне непритязательными запросами: для нас это будут только предположения о независимости и стационарности. Интересно далее будет наблюдать за сужением ее в искомую модель, что достаточно сделать в направлении Q оцениваемых (задающих) параметров. Детерминированные (точечные) задающие модель оценки Mq, q^Q, в яадзадаче ©едут к ^-простым моделям <Aft?>. Эти (модели 322
с точными значениями задающих средних Mq= =Щ, qt=Q, будут ненадежными по причине ненадежности детерминированных оценок (кстати, включение детерминированных оценок в модель присуще; как это следует из теоремы 5.1, режиму оптимизма х=1/2). Нас сейчас всего более привлекает режим пессимизма и надежные модели, а для этого задающие оценки также должны быть надежными, доверительными, что ведет к следующему понятию. Доверительной надежности р называется модель, определенная пессимистичными (х=1) совместными доверительными оценками (Q) уровня а=1—р набора M(?={Mq, q^C?} задающих cped« них (найденными по обучающей последовательности z=.(2i,..., zN}\ испытаний). Здесь нужно обратить внимание, что надежность доверительных оценок равна 1 минус верхняя граница а([х)=а вероятности ошибки, что соответствует пессимистичному оцениванию. Это принципиальный момент, что оптимизм, если и допустим при нахождении решающих игравил, но ни © коем случае не при синтезе надежных моделей. Надежные модели пессимистичны. Итак, доверительная модель равносильна расплывчатой оценке задающих модель параметров: средних значений признаков. Итогом станет интервальная модель средних Jt9 но только в том случае, если оценки \iz (Q) индикаторные или совместные интервальные, т. е. \xz (Q) принимает значения либо 0, либо 1. Причем значение p,z(C) = l и выделяет как раз область 0 тех Q=MQ9 которые включаются составляющими синтезируемой модели Л9 записываемой .как их объединение: J[= V (МОУ* Представляет- ся ИМ Ж как облако составляющих ее простых моделей <М#> одной концентрации в смысле одинакового доверия ко всем им внутри 0 (и нулевого доверия вне 0). Заметим, представив uf через первичные средние: J[=(M&), что совпадение первичного набора & доверительной модели с задающими признаками Q будет лишь в случае, когда область 0 прямоугольная, т. е. направления ее граней совпадают с направлениями q. Например, \iz(Q) есть совместная интервальная оценка Mq, Mq, q^Qy тогда в= {Mq :Mq^Mq^.Mqt q^Q). Для других индикаторных оценок ц2 (Q) наборы 9 и #, в общем, различаются между собой: 9^Q. 11* 323- Обучающие испытания Надмодель испытании Выбор конструкции подели Выделение задающих параметров. Доверительное оценивание задающих параметров Подзадача Додерительная модель Целевое использование доверительной модели Рис. 8.1. Конструкция надежностного синтеза
8 2. ПОСТРОЕНИЕ ДОВЕРИТЕЛЬНОЙ МОДЕЛИ НА ЗАДАННОМ НАБОРЕ СОБЫТИЙ Исходные положения. Здесь рассматривается тот случай, когда задающими параметрами являются вероятности набора событий, поначалу непересекающихся, что применимо к тем задачам, в которых из вероятностей и слагаются характерные черты интересующего нас исследуемого явления. Такой выбор может руководствоваться простотой и удобством оценивания вероятностей. При этом четко нужно осознавать, что все первичные признаки итоговой доверительной модели будут обязательно постоянными на задающих (событиях или их пересечениях и это же свойство перейдет дальше к решающим правилам (достаточного класса) как конечной цели построения модели. Сформулируем формально задачу синтеза модели (надзада- чу). Пусть z=(2i, ..., zN) есть обучающие испытания из пространства 3Z: z^SE, (скалярного или векторного) и пусть Ль ..., Ah— непересекающиеся события, такие, что ^AjCiSZ, .и Л&-и = =i£—51АуФ0 — остаточное событие, введенное для общности. Вероятности P(zi^Aj)=pj считаются стационарными, не зависящими от номера i наблюдений, а события Zi^Aj и z^^Ay при %Ф'ь' нековариированными. Эти условия будут выполнены, если испытания являются независимыми стационарными. Здесь задающим модель будет вектор p=i(pb ..., р&) вероятностей. Его, и нужно оценить при заданной надежности р. Если обозначить доверительную оценку p,z(p), то ее надежность равна р=Щх(р). При указанных условиях достаточными ддя оценивания являются векторы частот г= (п, ..., /&), где г,- — число элементов zu N попавших в j4j:rj=2{zieAj}. Оценка ji2 (р)=Ит (р) должна быть функцией вектора г. При каждом заданном векторе р вероятности частот п, ..., Гь. даются известной мультиноминальной формулой РР (г) = Р? ... Pktf1 N\l(rx\ ... rfe+1!), k k где считается 0°=1, pfe+i = l— SPi, rk+i=N—£/> Формула для Яр (г) определяет переходную надмодель М\, редуцированную oi z к г. Общей надмоделью .испытаний будет произведение Л?т = =ЛР*МГ , куда в Жр можно вложить априорные сведения о р, если оии есть. Их обычно нет, тогда jTp=5rp и надежность дове- рителмюй оценки \iz (p) вектора р равна p«tnin 2 Мр)Мг). Р Vr Шкала расплывчатости оценки вектора р во многом обязана желаемым свойствам получаемого по доверительной модели ре- 324 ,
шающего правила. Бели же не определять пока решаемую иа базе модели статистическую задачу, то разумно использовать интегральную шкалу как наиболее простую: Частная JP % дающая гаадмодель вектора частот г, определяется границами: Ж/(г) = тах2/(г)Рр(г), Р Vr поэтому составной риск запишется: ПА,(ц)= 1 — М\хг (p) + XMQ X Х(ц) = 1 -min 2 Mp)Pp(r)+a,max 2 Л>* (r) J - J MP) <*P V Vr P* Vr I где Я — весовой коэффициент. Нужно минимизировать риск выбором |ЛГ (р). Перепишем риск следующим образом:^(ja) =1—inf 2 /«./НтХ w(p) vr I X (Р) РР (г) до (p) dp + l sup S J ... J PP (r) до* (p) dp J ... J [ir (P) d P o>*(P) Vr_ I * Тогда цена надзадачи /примет ©ид i;= l -sup inf 2 /-J ^ (Р) IPp (r) w (p)-XP- (r)] dp, где инфимум ищется по всевозможным априорным плотностям до(р) и до*(р), а А*»{г)—J.-*/ Рр(г)ш*(р)^р —вероятность вектора г 'При ПЛОТНОСТИ ДО*. В соответствии* с общими принципами минимакса [22] супремум и инфимум в записи цены поменяем местами. При каждых заданных «до (р) и до*(р) оптимальная оценка \хг (р) вектора р будет индикаторной, принимающей значение 1 при Рр (г) до (р)/Р„. (r) > Я (8.1) и 0 в противном «случае. С учетом .найденной оценки цена запишется: t;=l- inf 2 $..-$ [Pp(r)w(p)-XPw.{r)]+dp. Отсюда нужно искать наименее благоприятные до(р) и ДО*(р), которые затем подставляются в (8.1), что и приведет к искомой оптимальной оценке р. Порог Я здесь должен быть ©ы1бран исходя из заданной надежности Р - 2 J - J ^ (Р) Л> (г) w (p) dp, (8.2) w i куда подставляется наименее благоприятная плотность до(р). 325
Трудности нахождения наименее благоприятных плотностей вынуждают прибегать к некоторым «разумным» вариантам их подбора. Модель наибольшего правдоподобия. Пусть априорное распределение вектора р равномерно iza;(p)=const и пусть Pw* (r) =const, т. е. априори никаким векторам частот предпочтения не отдается, что в определенном смысле отражает неблагоприятную ситуацию. Тогда формула (8.1) запишется Рр(г)^Я, т. е. оценкой является индикаторная функция семейства векторов р максимальной вероятности (наибольшего правдоподобия). После логарифмирования обеих частей 'последнего неравенства, перемены знака и объединения между собой постоянных слагаемых оценка примет вид ^(Р, Р)= - 2 Pj InPj^KKN= -1пЯ + Ш(ЛП)- 2 ln(0!), /=i i (8.3) где pj=rj/N — есть относительные частоты 'выпадения событий А^ Отметим, что функция F(p9 p) неотрицательна и принимает минимальное значение при р = р, равное: F(p9 р)=—2 Рз^Рз- Пороговое значение % (а отсюда <и %\) находится по (S.2) с подстановкой w(p) =const. Интеграл при этом получается трудоемким, поэтому есть смысл определять Я исходя из нижней границы надежности: p = min 2 Рр(г)- (8.4) Р г;Рр(г>^А, Неравенство (8.3) с (нахождением К\ с помощью (8.4) формирует семейство JI векторов р, составляющих доверительную модель надежности р. Эта Jt иначе задается своими первичными средними, к поиску которых и приступаем. Здесь (так как семейство Ж непрямоугольное) первичными признаками не будут сами задающие события Aj (вероятности р которых оцениваются), а будут .измеримые функции на них. k Обозначим р°—(р°и ..., p°h), p°k+i = l—2P°i — решения уравнения F(p, р) = 1 =A,i относительно р при выборе Xi по заданной надежности р. Эти решения образуют набор, задающий поверхность семейства Ж. Первичные средние определяются гиперплоскостями в подмножестве I пространства &h+i, касающимися семейства Ж в точках р°. Так как dF(rtp)/dpj=—r3lpj> то уравнения этих гипер- плоскостей имеют вид 2/MPi—Л)//Л=0- Эти гиперплоскости и определяют 1 первичные признаки вида gp°(*)= 2pjAj(z)/pj, pj = rs/N, 326 , [
и юответствующие им средние MgD0 = max 2 Pi Pj/p] = 2 Pi p]lp) = 1 • pej i l В результате различным р° как решениям уравнения F(p, р)=А, соответствуют различные первичные признаки gpo(z) с одним и тем же у всех равным 1 верхним средним. Таким образом, первичными средними, определяющими доверительную модель, будут М S Pi A, (z)IPi = 1, V р°: - S Pi Ь Pi = V (8.5) i i Мы видим, что J? зависит от полученных в испытаниях частот г$ (или относительных частот pj). При N-+oo модель ^ стягивается к точному распределению вероятностей, соответствующему предельным частотам р,= lim pj. Получим в явном виде «некоторые из первичных средних, соответствующих набору (8.5). Для этого фиксируем p°j=pj, j — = 2, ..., k, и будем искать р°\ из равенства jF(p, p) =Х\. Получим p°i как решение уравнения * АЛЛ k -PilnPi-Pk+iln(Pk+i + Pi--Pi) = bi+ 2 Pi^Pi- 2 Этих решений будет два: р°и р°и где p°i^pi^p°i. Таким образом, «искомый вектор р% вероятностей будет иметь вид р°ир2, ...,'£*> k (1—2pj—p°i), где р°\ равно либо р°и либо р°ь Соответствующее 2 ~ каждому такому вектору первичное среднее находится из уравнения (8.5) и имеет вид Mfa-pl) [At (zypi-Abb (z)/(Pk+i+Pi~P'i)] = 0. Заменяя индексы 1 и k+l разными комбинациями индексов I, шу 1фчп, iot 1 до k+l у получим поднабор первичных средних вместе с уравнениями для нахождения р°г и р% Если склоняться к упрощениям, то от всего набора (8.5) первичных средних можно отказаться, оставив их какую-то часть, что приводит к расширению доверительной модели с увеличением надежности. За основу расширения могут быть взяты любые приз- наки вида g(z) =2gHi(2). Интересно то, что каждый из них с точностью до множителя совпадает с одним из первичных признаков (8.5) (для этого нужно подобрать соответствующее ри), поэтому такое расширение эквивалентно уменьшению числа первичных средних. 327
Использование критерия хи-квадрат. Определяющее доверительную модель Ж семейство векторов р может быть выбрано с позиций упрощенного расчета порога К. Используем для этого статистику хи-квадрат 2 (Pj-Pj)2Ipj<K (8.6) где Яг находится по заданной надежности р. При больших N ле- | вая часть 'неравенства имеет приближенно распределение хи-квад- 1 рат с k степенями свободы ([25]. Тогда порог %2 'будет критичес- \ кой точкой этого распределения. Семейству Ж векторов р, опре- I деленному неравенством (8.6), соответствуют первичные значения X £4-1 k-\-\ ~ М 2 р2/Л,(2)/(р?)2= 2 М . где р° есть всевозможные решения уравнения (8.6), в котором #е- равенство заменено на равенство. Информационный критерий построения доверительной модели. , Будем считать в (8.1) o;(p)=const и остановимся на подборе плотности ш*(р), входящей в знаменатель. Будем искать максимум знаменателя по ш*(р) при каждом заданном векторе частот г. Этот .максимум достигается при дельта-функции Дирака ш*(р)=Ф(р—р) и определяется по формуле Р (г) = max Pw* (г) = max Рр (г) = Pr/N (г). W* Р Оправданием нашим действиям служит то, что имея наблюденным вектор г, мы рассматриваем наименее благоприятную плотность w* применительно к г. С учетом найденного Р(г) после подстановки его в (8.1), логарифмирования обеих частей неравенства и перемены знака приходим к семейству Ж векторов р, определяемому .неравенством J (Р> Р) = 2 Pi In (pj/pj) < *r (8.7) i Левая часть неравенства (8.7) есть различающая информация [24], содержащаяся в векторе р в пользу точной вероятностной модели, определяемой этим вектором, при конкурирующей альтернативе р. Ясно, что чем меньше эта различающая информация, тем ближе р к р, а при р = р эта информация минимальна и равна 0. Таким образом, согласно (8.7) доверительную модель образуют такие векторы р, которые в смысле различающей информации отстоят от р не более, чем на число Яз. Порог Яз находится из формулы (8.4) с подстановкой неравенства (8.7) лод тайн символа суммы как ограничения на г (вспомним, что p = r/JV). 328
I В сравнении с ,(8.3) имеем ^(Р.Р)- 2 PjtoPs + FfaP)* 1 поэтому (8.7) совпадает с (8.3) при Я1=Яз—2 0jln/)j. Заменим в (8.7) неравенство на равенство и обозначим какое-то его вектор-решение р°. Этот вектор совпадает с таким же определяемым правым равенством в (8.5), если подставить туда вновь пересчитанное значение Яь поэтому первичные средние будут совпадать с (8.5) при соответствующих р°, что ведет к следующей записи первичных средних доверительной 'модели и уравнений для р° и А*: М *$ Pj Aj (z)/p? = 1, / (р> р°) = К p = min 2 рр(г)- р г:У(р,р)^, Доверительные совместные оценки. Пусть st>h={Au —> Ak} — произвольный (в общем, пересекающийся) набор событий на 2£. Требуется получить совместные доверительные оценки вероятностей этих событий pj=P(Aj) в виде произведения оценок [iz (Р§) k отдельных событий: \iz (p) =П fXz(Pj)- Требование к надежности совместной оценки накладывает ограничения на надежности отдельных оценок. Этот вопрос здесь и рассматривается, а именно получить совместную доверительную оценку, имея отдельные оценки. Для отдельного события Aj доверительная оценка /?j, pj уровня aj дается как решение уравнений [25] где ajo + ctji = aj и /*j — частота этого события. В асимптотическом варианте при N-^oo .и а^=щ\=щ12 доверительные границы будут приближенно равны Pj ± Ф"1 (1/2 -а7-/2) Vpj (1 -Pj)/N , где Ф(х) —функция Лапласа. Теорема 8.1. Пусть х=1 и \iT (pj), /=1, ..., k, есть доверительные интервальные оценки параметров pj = P(Aj) уровней aj, определяемые границами P(Aj)=pj, P(Aj)=pj. Тогда эти границы, взятые за первичные, задают доверительную интервальную k модель Ж9 надежности, по крайней мере, p^l—2«j. 329
k Доказательство. Для совместной оценки [хг(р)=Пи-г (р3), использу» к к элементарное неравенство Пи-r .(pj)>l— EO--Hr.(pj)], имеем: р=Мцг(р)=* * *_ ft =Afnp<rj(Pi)^l—2M[1—Prj(Pi)]i=l-—S^j, что и требовалось. — l l l Замечания. 1. Теорема 8.1 имеет смысл для любых совместных доверительных оценок задающих параметров. Совершенно не обязательно, что это оценки вероятностей и что юии интервальные. Так, если \iz(jnj), /=1, ..., k, есть расплывчатые доверительные оценки параметров rrij = Mg3(z), то размытая модель на- дежности p^l—2«j будет определяться первичными размытыми средними \xz (ntj) признаков gj{z), /=1, ..., k, и k — (размерность модели (если нет «избыточности в ее первичных средних). 2. Если уровни dj, /=1, ..., k, считать равными между собой, то в соответствии с теоремой 8.1 нужно брать о,= (1—р)/&. Это значение является явно заниженным, особенно при большом kt что приведет к излишне расширенной доверительной модели, поэтому требуется пересчет надежности по уже выбранным первичным средним (доверительным оценкам) отдельных параметров. Это делается так. Пусть Wj=M2gjHi(z) =2gj2pi, W Л* г— непе- t i ресекающиеся множества, образующие разбиение j£, а р* — их вероятности. Тогда пересчитанная надежность P = min 2 Mr)Hr('TC)- Р Vr 3. При увеличении числа первичных параметров надежность модели при заданных оценках отдельных параметров, © общем, падает. Кроме того случая, когда задающие параметры «сильно связаны» между собой, т. е. один лишь незначительно отличается от другого. Такая связь имеет место, если задающими являются вкладывающиеся друг в друга события, к рассмотрению чего и приступим. Доверительная функция распределения. Пусть задающим (он же первичный) является набор вкладывающихся друг в друга событий Aqch3Z9 0e$f, ЛесгЛв' при в^в'; обозначим через Рв= N ~2{2г^Ле}/ЛГ — значения относительных частот попадания по- следовательности Z{ испытаний в множества Лв. Если отобразить 2Е> © Л так, что Лв отображается в полуинтервал (—оо, 0), то /J& как функция 0 будет выборочной функцией распределения. Обозначим рв = Я(геЛв). Требуется найти доверительные границы для ре, такие, что Р{П{рв — cN{p)^pQ^pQ+cN(p)})=p. Разность — в \рв—ре | — известная статистика Колмогорова, поэтому с#(р) есть табулированные процентные точки распределения этой ста- 330 ,
тистики [25]. Таким образом, искомыми первичными значениями, определяющими доверительную модель, будут Р Ш = Pq-cn (р), Р (Лв) - ре +. cv (р). Мы видим, что несмотря на бесконечное в данном случае число задающих параметров рв доверительные границы отдельных параметров не становятся тем не менее тривиальными, не расширяются до интервала (0; 1), как это следовало бы из теоремы 8.1. 8.3. СОГЛАСОВАННЫЙ СИНТЕЗ МОДЕЛЕЙ И ПРАВИЛ Надежность моделей и истинные ошибки правил. Процесс изготовления промышленных изделий «обрастает», хотим мы этого или не хотим, массой подготовительных работ и вспомогательных служб. Нужно раздобыть сырье, сделать заголовки «(модели), скомплектовать их, доставить к месту, а для этого нужно иметь помещение, подготовить станки, технику, наконец, найти рабочих и заинтересовать их зарплатой, организовать экономические службы (хотя и это еще, конечно же, не все). И только потом можно приступать к самому изготовлению. На надежность, ритмичность работы нужно смотреть в комплексе с охватом всего отлаженного механизма предприятий в целом. Примерно то же самое имеет место при синтезе модели, где подготовительные работы состоят в выборе Жху, 3), .[я], х, составляющих статистическую задачу, а самое главное — в выборе модели Jt^y своего рода инструмента к будущему изделию — решающему правилу (заготовкой к которому является Д>). Брак в части инструмента делает бессмысленным само дальнейшее «изготовление» (какая бы ни была заготовка), поэтому в первую очередь модель Жху должна быть надежной, доверительной. В то же время нельзя и это требование доводить до полного абсурда, забывая о целевом назначении модели — прямо вести к изделию — решающему правилу. Чрезмерные издержки на инструмент поднимут и время изготовления, и суммарную стоимость. Здесь нужен компромисс. Будем мыслимо под «изделиями» подразумевать правила доверительного оценивания (хотя это может быть проверка гипотез). У модели и у правила «свои атрибуты: у модели — это надежность, у правила — ошибка (уровень значимости). Последняя рассчитывается по виду модели. Очевидно, имея ненадежную модель, нельзя уже доверять ошибке (расчетному уровню значимости а), рассчитанной (по модели) для правила, ибо истинная вероятность ошибки ожидается выше расчетной. В то же время слишком широкая и отсюда чрезмерно надежная модель приведет к неоправданному увеличению расчетных ошибок правил. Возникающее противоречие рождает потребность вскрыть 331
строгую связь надежности модели с ошибками правил, к чему и перейдем. Пусть а*(д) — уровень, или расчетная вероятность ошибки решающего правила д, рассчитанного по доверительной модели JCp надежности р. Тогда с вероятностью 1»—р, с какой модель «бракованна», эта ошибка не соответствует истине, и неконтроли- руема. Пессимизм х=1 при расчете заставляет усугубить ситуацию, .считать ошибку правил из-за «брака» модели максимально возможной, равной 1; а крайний оптимизм х=0 — наоборот, есть, по сути, вера, что все будет «как «нельзя лучше, т. е. ошибка минимальна и равна 0. В результате можно подметить, что неконтролируемая ошибка просто равна коэффициенту пессимизма х. Так как «брак» модели по ее построению закладывается с вероятностью 1—р, то истинная (полная) вероятность ошибки правил составляется из неконтролируемой х с вероятностью 1—р и расчетной с вероятностью р: о%(д) = р*"(д) + (1-р)к. _ (8.8) Подставив в полученную формулу ак(д)=ха(д) + (1—к)aid),, где а(д) = 1—Мд, а(д)==1—Мд, перепишем истинную вероятность ошибки в другом виде: а£ (д) = х £1 —р (1 -а (д) + а (д))] + ра (д). Отсюда наблюдается связь истинной вероятности ошибки ю коэффициентом пессимизма х. Чем больше пессимизм х, тем больше истинная ошибка а\{д). Но эта ошибка всегда не выше а°и(д)=ра(д), что соответствует х=0. При х=1 истинная ошибка а1*(д)=а(д) + (1—p)i[l—-а(^)] складывается из верхней границы ошибки а (д) и (при а(д)<С1) ненадежности 1—р (вероятности брака) доверительной «модели. Если записать (8.8) еще в одном виде: ахи(д) =а*(д) + + (1—p)i[x—ах(д)], то будет видно, что при х>ах(д) истинная вероятность ошибки всегда больше расчетной ах(д), причем чем меньше надежность р и больше (пессимизм, тем существенней эта разница, тем больше истинная вероятность ошибки. При х^ ^1—а*(д) истинная ошибка превышает расчетную, по крайней мере, на величину ненадежности 1—р. Установим связь между истинной ошибкой правила и надежностью 'модели, для чего запишем при х= 1: аМ^) = 1—р[1—а(д)]* Увеличение р вроде бы должно уменьшать а1и(^). На самом деле» при увеличении р доверительная 'модель расширяется, в результате а (д) возрастает, устремляясь ,к 1 при р-И. Тогда и а!и(^)->Ь Таким образом, брать большую надежность модели бессмысленно. А так как (в силу установленного выше) и малая надежность не имеет смысла, то d/ц каждой статистической задачи должно существовать оптимальное значение надежности р (пример будет рассмотрен в последнем разделе). 332
Пусть требуется обеспечить заданный истинный уровень а оценки: а\(д)^а. Подстановкой (8.8) находится ограничение снизу на надежность р^(х—а)/[и—а*(д)] и величина расчетного уровня арас, на который нужно настраивать правило: <х*(д)^ *С[а—х(1—р)]/р=арас. Если а<х(1—р), то последнее неравенство невыполнимо: нельзя найти арас, нацелив на которое правило, получили бы истинный уровень а, что говорит о невозможности получения по ненадежным моделям низкого уровня а оценок. Всегда .а^х(1—р) — истинный уровень правила больше ненадежности модели, взвешенной коэффициентом пессимизма. Оказанное точь-в-точь переносится на расчет ошибки первого рода а*(д) при проверке гипотез. Но если оценка откликается на падение расчетного уровня (по сравнению с истинным) расширением, что своего рода реакция (протест) на ненадежность модели, то у правила проверки гипотез понижение расчетной ошибки а*(д) по принципу качелей вызовет рост расчетной ошибки второго рода Р*(д), и тем самым истинной, определяемой согласно формуле (8.8) будет: $\(д)=р$*(д)+к{1— р). Теперь понятен общий случай, включающий в себя рассмотренные частные и охватывающий также задачу фильтрации. Приведенные соображения приводят к следующему выражению для истинного риска: nS (д) - рП* (д) + (1 - р) [х sup П (д) + (1 - х) inf П (Э)], (8.9) д д "-" где первое слагаемое есть риск, рассчитываемый по доверительной модели и взвешенный ее надежностью р, а слагаемые в квадратных скобках — это, в зависимости от степени пессимизма х, отражающего «настроение» правил, тот наибольший ущерб и /соответственно наименьший, которого можно ждать от «бракованной» модели, причем эта часть риска от д зависеть не будет. Нужно отметить, что структура оптимальных правил от перерасчетов риска, в общем, защищена, так как всецело определяется первым слагаемым (8.9), и в конечном счете, первичными признаками доверительной модели. Гибкими останутся отдельные параметры этих правил, вариации которых помогают управлять расплывчатостью и ошибкой. Итак, установлено, что ненадежность модели ведет к необходимости введения поправок в ошибки правил: истинные ошибки будут, в общем, больше расчетных. При потребности обеспечить фиксированную истинную ошибку (уровень) нужно предусмотрительно брать заведомо меньшее расчетное значение со скидкой «а ненадежность, что соответствует и что приведет к падению реальных качеств правил как оптимальных, так и неоптимальных. Размытые доверительные модели и решения. Расплывчатые оценки задающих параметров ведут к разным моделям, причем индикаторные оценки ведут к ИМ, а неиндикаторные — к более общим размытым моделям § 2.3. И тут возникает ©опрос, как для размытых (неинтервальных) моделей организовать синтез опти- 333
мальных правил. Этот важный момент оставался вне рамок рас- I смотрения, поскольку при синтезе мы ограничивались строго ин- I тервальными (моделями. К его освещению и «перейдем. * Пусть имеется задающий параметр 6=Mq(z) (пока всего один) 1 и *iz(6) есть его расплывчатая оценка надежности р=1—а(ц). I Считаем оценку \лг (в) унимодальной контрастной функцией па- | раметра в (т. е. достигающей 0 и 1). При каждом числе O^y^l, -t называемой высотой горизонтального среза, неравенство \iz (в) ^ $ ^у выделяет интервальную оценку (слой) {[вт, вт] задающего \ параметра Э, так что при непрерывной по в функции \iz (в) имеем * fiz (8v)=|iz (0V) =у. Каждый срез i[0Y, Ф] в свою очередь определяет свою интервальную модель J?(^) = <6V, 0Y>, располагающуюся на высоте у, причем М\у)<^Ж[чуЩъ y'^Y» а все вместе они, положенные друг на друга в соответствии с высотами, дадут размытую модель. Пространство Z так или иначе связано с произведением 8вХ°У, поэтому по Л*у) определяется СИМ J(ty) на этом произведении, и для каждой из них находится свое оптимальное правило ду{у)(х), зависящее от высоты среза у модели (своего рода привилегий к ней), 'причем чем больше у, тем (при х^1) более узкой будет Л*у) и менее расплывчатым — правила ду(у)(х), т. е. ду(у'Цх)^ т ^dyW(x) лри y'^Y- Теперь оптимальным правилом д*у(х) при размытой модели Л*$), построенной по расплывчатой оценке \iz (0), будет ^W-J^WdT- . (8.10) о Поясним его, считая д оценкой параметра леей?, Если ду{у)(х) есть при каждом у интервальные оценки х, то так как они вкладываются друг в друга, будет.иметь место равенство {д*у(х) ^у) = I = dyW(x), где слева стоит 'индикаторная функция множества. I Таким образом, интервальные оценки для моделей Jt*y), рассмат- I риваемые как положенные друг на друга слои на высотах срезов * О^Т^Ь формируют вместе расплывчатое правило д*у(х). Это и есть (наглядная интерпретация (8.10). Истинный уровень или ошибка правила (8.10) рассчитывается j по формуле (8.8), где 1—р есть уровень (вероятность ошибки) I оценки \iz (в), а следовательно, р — надежность доверительной 1 модели. 1 Мы рассмотрели один параметр Q=Mqf задающий модель. * Очевидно, все сказанное будет верно и для произвольного их ij числа, когда с целью построения доверительной модели находится 1 совместная расплывчатая оценка \xz (8) «вектора» Ъ=МС£ = I = {Mq, q^Q) и эта оценка, в общем, не является интервальной, я а имеет расплывчатый зид. 1 334 1
Адаптация, надежностное оценивание среднего при неизвестной дисперсии. Принцип адаптации состоит в сужении доверительной модели в процессе поступления наблюдений уи ..., Уп- Особенность в том, что «обучение» производится по тем же наблюдениям, по которым принимаются решения относительно состояний (оценивание, проверка гипотез); это первое. А во-вторых,, уточнение модели осуществляется последовательно по п. Для описания схемы адаптации рассмотрим один случай, когда требуется оценить параметр сдвига независимой выборки при неизвестной дисперсии флуктуации. Адаптация состоит в оценивании дисперсий и подстановке в оценку параметра сдвига. Пусть */г=*+<|г, t=l, 2, ..., и пусть требуется оценить х, когда gi независимы, имеют нулевые средние Af£i=0, ограниченные дисперсии m2=iWg2i<oo_H четвертые моменты Al|4i=m4m22 (полезно представить \i=V т&%, М&=0, М;2г=1, М;4* = /п4). При заданном \т2 и х=1 оптимальной расчетного уровня арас будет оценка (6.18): ду {х) = [ 1 — арас п (у — х)2/т2]+. На самом же деле, т2 не известно и нужно подставлять в эту формулу заведомо завышенное значение т2, что ведет к чрезмерному увеличению расплывчатости оценки. Здесь т2 и будет задающим модель параметром, причем считается он стационарным. Адаптация состоит в оценивании дисперсии т2 по наблюдениям и ее использовании для оценки среднего. Оценка дисперсии должна быть доверительной, так как по ней строится СИМ, и при этом не должна зависеть от х. Используем для нее статистику о2у=у2—#2, инвариантную к сдвигам х. Вид оценки при уровне 1—р ее значимости будет определяться формулой (6.27) (при х=т2, 1=1, <r2=A*t2i=l, x=l) • Иу Ю= П -(1 -Р) п (1 -о*/т2)2/с]+, где с«(т4—1). Оценка \iy (m2) как функция т2 принимает максимальное значение 1 при т2=а\9 она убывает по мере откло- нения т2 от этого значения, а при mi ^ о2у\ 1 — л/ - или m2^*ol\ 1 + Л/ оценка равна 0. Эта оценка и определяет расплывчатую доверительную модель (причем отнюдь не интервальную). Для получения оценки х по расплывчатой модели используем методику предыдущего раздела. Согласно ей «з неравенства [iy(/n2)^Y находятся интервалы тУ2у тУ2, соответствующие различным высотам у срезов. Нас интересует лишь верхняя граница ту2у так как оценка ду(х) определяется только ею* Имеем 335
тУ2==*У2у[ 1 + Ус{1—у) 1(1— р)я]-1 и по формуле (8.10) получаем %% : a;w_ i [,__. (,- /И) к^!1]+ „т. (в.,,, I Эта оценка зививариантна «к сдвигу: dy+ia(x+a) =<ЭУ (х)9 и инва- | риантна масштабным изменением: дьу {х)=ду(х), Ь>0. " Расчетный уровень ар ас и 'надежность р, как это показано в -начале параграфа, связаны соотношением р(1—арас) = 1—<х, где а — истинный (требуемый) уровень правила. Выразив 1—р=«(«х—арас)/ /(1—арас) и подставив в (8.11), можно было бы найти оптималь- -. ное значение арас, минимизирующее расплывчатость оценки (8.11). | Чтобы обойти технические громоздкости, <найдем значение арас, I минимизирующее расплывчатость «при заданном у. Для этого «уж- ч но минимизировать по арас коэффициент [|| «рас п [ 1 - Ус (1 - у) (1 - арас)//г (а - арас). I Дифференцируя его по арас и приравнивая 0, приходам к урав- j нению: 2 Y (1—арас) (а—арас)3— V с(1—у)/п>[2(1—арас) (<х—арас) + ** +<хРас(1—а)]=0. Нам нужно выявить качественную сторону, поэтому приближенно полагая 1—о«1, откуда 1—арас^1—а«1, п считая п достаточно большим, так что с(1—у) In мало, получаем «рас « *-Vc(l-y)*V4n, p= \-Ус{\-у)**Цп. | Мы видим, что при увеличении п расчетный уровень <храс 1 устремляется к истинному со скоростью l/jfn, а оптимально выб- \ рапное р с той же скоростью стремится к 1, так что суммарная | ошибка ctpac-f (1—р) =а есть истинный уровень. Для получения конкретных расчетных значений арас и р вместо неизвестного у нужюо подставить среднее между 0 и 1 число, J например 7=1/2, и положить с^т4—1. Здесь /п4, если оно не известно, также может оцениваться по наблюдениям или 'находиться из других соображений. 8.4. ЗАКЛЮЧЕНИЕ * Какую же выгоду все же сулит использование интервальных моделей? В качественном отношении они проигрывают точным (распределениям вероят- * ностей), и это как будто бы ставит на них крест. j Представьте на миг, что наблюдается доселе невиданный объект и требуется описать его форму. Причем объект плохо различим (находится в тумане или I далеко от нас). Ясно, что придется оговаривать условность сделанного описания вставками типа «вроде бы», «кажется», либо удовлетвориться грубым образом, * уняв воображение по отношению к тому, что не различимо (наука — не фантастика) . То же самое и для моделей, которые видятся в большинстве реальных задач весьма сМутно из-за конечности времени и выделенных средств на изучение явления, наконец, сменности, неустойчивости самих реальных явлений. 336
Прекрасно осознавая, что ошибочность модели тут же сделает никчемной ее дальнейшую эксплуатацию, постараемся осторожнее, т. е. в размытой форме описать грани модели, отобрав при этом лишь наиболее «видимую» их часть. \1 приходим к «чистокровным» интервальным моделям в их конструктивном задании набором первичных средних. Построение модели в реальных условиях — сфера многосторонних (подчас, многострадальных) исследований: физических, экспериментальных статистических. Нас интересуют формальные способы, когда при полной начальной неясности в распоряжение предоставляются обучающие реализации. Тогда построение модели суть совместное оценивание отобранной части параметров, задающих модель (§ 8.1). Точечные оценки ведут к точным моделям. А доверительные оценки формируют доверительную модель заданной надежности. Вопрос сведется к выбору задающих модель параметров. Ими могут быть вероятности, совместное оценивание которых рассматривается в § 8.2. Другой путь выбора модели, свойственный классическому подходу, состоит в проверке согласия, что модель имеет выдвинутый конкретный вид (например, нормальная). Этот путь, обязанный во многом крайней узости рабочего арсенала точных моделей, заставляет с самого начала «довольствоваться» заранее выбранным гипотетическим в меру простым вариантом. Принятие последнего, если согласие имеет место, тем не менее не приведет к околь-либо надежной модели, а всего лишь установит вхожесть гипотетического варианта в нашу доверительную ИМ-модель в качестве составной части. В конечном же счете это будет «выхватывание» из доверительной модели ее заранее сформированного кусочка — подход, свойственный режиму ч оптимизма. Мы же поступаем значительно осторожнее, используя доверительную модель всю целиком (необъятный арсенал ИМ позволяет произвести любой выбор), регулируя ширину с помощью надежности. Чем больше положить надежность, тем шире доверительная модель, от чего пострадает конкретность и качество выводов при эксплуатации модели. Наоборот, меньшая надежность, казалось бы, выводы сделает более конкретными и качественными, но доверие к ним уменьшит из-за утраты верности модели. Выход из этого заколдованного круга состоит в совместном рассмотрении тандема модель-выводы (§ 8.3), беря в расчет оба типа ошибок: за счет ненадежности модели и при эксплуатации из-за случайности наблюдений. Совместное рассмотрение заставляет вводить поправки в расчетные ошибки эксплуатации, увеличивая их сообразно ненадежности модели, что ведет к истинным ошибкам, а при более широком изложении — к истинному риску. Это как раз и есть то, что объективно нужно для целей анализа и синтеза решающих правил. Трудности в том, что доверительные модели по наследству от породивших их доверительных оценок, в общем, расплывчатых, неиндикаторных, становятся размытыми по форме средних, т. е. с размазанными итервалами средних. Определение понятия оптимального правила при размытых статистических моделях позволило в § 8.4 рассмотреть совместную картину синтеза модели по ее единственному задающему параметру — дисперсии, с последующим нахождением оптимальной оценки параметра сдвига. Все вместе это выглядит как доверительное оценивание дисперсии (уровень доверия которой и станет надежностью модели) с последующим использованием ее при доверительном оценивании сдвига при своем уже доверии (расчетной ошибке). Причем все про-
изводится по одной и той же выборке наблюдений, по мере удлинения кото* рой происходит уточнение оценки дисперсии, т. е. адаптационное сужение модели. Подчеркнем еще 1раз, что главным итогом рассмотрения тандема модель- правило явился истинный риск (истинные ошибки) синтезированного правила. А надежность модели есть всего лишь вспомогательный атрибут синтеза, приобретающий конкретное значение путем минимизации истинного риска. Такая оптимальная надежность существует и найдена в рассмотренной нами задаче адаптации § 8.4, где установлена ее тенденция с ростом длины выборки стремиться к единице со скоростью кубического корня. Теперь мы можем дать обоснованный ответ на поставленный в начале вопрос: выгода интервальных моделей состоит в получении объективно надежных обоснованных во всех отношениях решающих правил с оценкой их истинных качеств. Это и есть главное достижение надежностного синтеза.
СПИСОК ЛИТЕРАТУРЫ 1. Лоэв М. Теория вероятностей/Пер. с англ. под ред. Ю. В. Прохорова. — М.: ИЛ, 1962. —719 с. 2. Уиттл П. Вероятность/Пер. с англ. под ред. В. В. Сазонова. — М.: Наука, 1982. — 287 с. 3. Леман Э. Проверка статистических гипотез/Пер. с англ. под ред. Ю. В. Прохорова. — М.: Наука, 1964. — 498 с. 4. Закс Ш. Теория статистических выводов/Пер. с англ. под ред. Ю. К. Беляева. — М.: Мир, 1976. — 776 с. 5. Wald A. Statistical Decision Functions —N. Y.: Wily, 1950. 6. Тарасенко Ф. П. Непараметрическая статистика. — Томск: Изд-во Томского университета, 1976. — 291 с. 7. Гаек Я., Шидак 3. Теория ранговых критериев/Пер. с англ. под ред. Л. И. Большева. — М.: ФМЛ, 1971. — 375 с. 8. Кузнецов В. П. Некоторые обобщения ранговых критериев//Мат. статистика и ее прилож.: Труды СФТИ. —Томск. 1974. —Вып. 6. —С. 70—108. 9. Кузнецов В. П. Инвариантность решений по отношению к мешающим па- раметрам/Щроблемы передачи информации. — 1971. — № 4. — С. 36—44. 10. Кузнецов В. П. Инвариантность решений по методу максимального правдоподобия по отношению к мешающим параметрам//Проблемы передачи информации. — 1972. — № 3. — С. 38—47. 11. Хьюбер П. Робастность в статистике/Пер. с англ. под ред. И. Г. Журбен- ко. — М.: Мир, 1984. — 303 с. 12. Кассам С, Пур Г. Робастные методы обработки сигналов//ТИИЭР. — И985. — Т. 73. — № 3. — С. 54—110. 13. Кузнецов В. П. Минимаксные критерии при ограниченных семействах плотностей распределения//Теория вероятностей и ее применения. —• 1982. — Вып. 2. — С. 286—295. 14. Де Гроот М. Оптимальные статистические решения/Пер. с англ. под ред. Ю. В. Линника. — М.: Мир, 1974. — 491 с. 15. Заде Л. Понятие лингвистической переменной и его применения. — М.: Мир, 1976. — 168 с. 16. Шокин Ю. И. Интервальный анализ. — Новосибирск: Наука, 1981.— 112 с. 17. Карлин С, Стадден В. Чебышевские системы и их применение в анализе и статистике/Пер. с англ. под ред. С. М. Ермакова. — М.: Наука, 1976. — 567 с. 18. Обработка нечеткой информации в системах принятия решений/А. Н. Борисов, А. В. Алексеев и др. — М.: Радио и связь, 1989. — 304 с. 19. Кузнецов В. П. Интервальная мера и интеграл//Численный анализ и задачи интерпретации экспериментов: Межвузов, сборник. — Красноярск, .1987. — С. 75—95. 20. Колмогоров А. Н., Фомин С. В. Элементы теории функций и функционального анализа. — М.: Наука, 1972. — 496 с. 21. Кузнецов В. П. Интервальные модели вероятностей //Мат. статист, и ее прилож.: Труды СФТИ. — Томск. — 1986. — Вып. 10. — С. 128—151. 22. Экланд И., Темам Р. Выпуклый анализ и вариационные проблемы: Пер. с англ. — М.: Мир, 1979. — 399 с. 23. Ахиезер Н. И. Лекции по теории аппроксимации. — М.: Наука, 1965.— 24. Кульбак С. Теория информации и статистика/Пер. с англ. под ред. А. Н. Колмогорова. — М.: Наука, 1967. — 408 с. 25. Ван дер Варден Б. Математическая статистика. — М.: ИЛ, 1960. — 518 с. 339
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Адаптация 335 Аксиомы 15 — интервальных вероятностей 49, 50 — обращения 16 — переноса 15 — полу аддитивности 16 — сохранения порядка 15 — средних 15 Алгебры событий 44 — — изоморфные 74 — —• счетные (сигма-алгебры) 45, 46, 51, 55 Арифметика интервальная 82 — размытая 91 Белый шум 188, 192 Вероятности 12 — интервальные 13 — относительные 49 — ошибок 204, 205 весовые суммы 276 интегральные 305 истинные 332 первого и второго рода 276 прикидочные 293 расчетные 332 совокупные 307 — первичные 35, 38, 40, 45, 109, 124 — правильных решений 307 — превышений (выбросов) 22, 163, 282 — размытые 90 — согласованные 34 — точные 12, 43 — условные 64, 65 Вершины модели 32, 56, 66, 81 Гипотеза нулевая 275 — альтернативная 275 Группы преобразований 214, 236, 281 Дискретизация 164 Дисперсия св. 58, il23, 266, 335 Доверительные модели см. СИМ s— интервалы 198, 227, 239, 247 Допредельная проблема 141 Допредельные неравенства 140, 147 Достаточность глобальная 207 — класса правил 207 проверки гипотез 277 различения гипотез.307 расплывчатого оценивания 233 — множества решений 209 — набора признаков 211 — преобразований 210 — специальная 207, 232, 277 Задача надежностного синтеза 319 — проверки гипотез 276 смежная 276 — различения гипотез 307 — расплывчатого оценивания 230 — статистическая 204 Закон больших чисел 132 неустойчивый 135 * устойчивый 433 Измеримость 43 Изображения наблюдений 87 — признаков 84 — событий 73 — точек 73 ИМ (интервальные модели) см. модели интервальные Инвариант к группе 214 максимальный 215 Интервал корреляции процесса 165 ИРВ (интервальные распределения вероятностей) см, распределения вероятностей интервальные Квантование 165 Кольцо событий 44 Ковариационные границы 173, 190 — функции 173 ] однородные 180 Корреляционная матрица неточная 254, 291, 315 точная 221, 253, 289, 309 — функция 24, 163 наименее благоприятная 254, 255 Корреляционные свойства 170 Коэффициент пессимизма 204 Линдеберга-Феллера условие 153 Мера 42 Мера-длина 45 Модели 14, 317 — интервальные (ИМ) 16 абстрактно-условные 69 включение 29, 68, 80, 94, 122 ^ голые 24, 29, 32, 67, 80, 94, 104, 198, 199 индикаторные 24, 67, 69, 82„ 85, 135 340 I
моментные 62 объединения 31, 66, 68, 80, 94, ПО, 179, 182, 234, 319, 320 пересечения 31, 68, 81, 94, 179, 182 переходные 78, 170, 197 предельные 37, 45, 51 простые 52 процесса 162 пустые 30 разложимые 96 размытые 90 совместные 92 стандартные 58 условные 63 частные 93 — статистические интервальные см. СИМ Модифицированная формула продолжения 25 Моменты начальные 27, 139, 163, 256, 268 абсолютные 27, 137 — центральные 58, 124, 145 Мощность случайной величины 21, 266 — процесса 24, 163 — средняя 244, 283 Мультипликативность интервальная 82, 106 Надежность доверительной модели 323 оптимальная 332 Надмодель 322 Независимое произведение моделей см. произведение моделей Независимость последовательности св. 125 — явлений 106 Нековариированность алгебр событий 116 — классов прзнаков 115 — признаков 108 — случайных величин 115 — элементарных исходов 113 Некоррелированость 115, 126, 220, 249, 251, 268, 290 Неравенства 129 Нормальная св. см. случайная величина нормальная Область существования средних 14 ■ — предельная 37 Оболочка линейная 26 — (полулинейная 18, 26 Образ признака 75 — события 73 Обучающие испытания 321 Отображения см. преобразования Оценки — детерминированные 217, 218 — расплывчатые (доверительные) 228, 292 амплитуды сигнала 253, 254 вероятностей 324 — — дисперсии нормального распре* деления 240 интервальные '198, 227, 247 контрастные 246 масштаба 264 мощности 267 оптимальные 230 — — регрессии 239, 247, 252 сдвига 244, 249, 251, 335 совместные 329 степенного типа 256 Ошибки см. вероятности ошибок Параметры задающие 319 — мешающие 199, — нормировки 266 — подчиняющие 101 — стационарные 127 Первичный набор 18 Плотность вероятностей 60, 70, 123, 200, 239, 296 апостериорная 231 — — интервальная 207, 297, 304 v наименее благоприятная 298 совместная 207, 231 .переходная 85 частная 231 — формальная 61, 295, 296 Подобие ИМ 77 (см. преобразования подобия) — — случайное 86 — ИРВ 47 Полуаддитивность 16, 34 Последовательности см. случайные последовательности Потери. — дельта 202, 218 — квадратичные 202, 220 — составные 202 Правила — взвешенного правдоподобия 219 — детерминированные 217, 308 — квазиоптимальные 219 — контрастные 201, 276, 309 — минимаксные 205 — оптимальные 205 асимптотически 261 при оптимизме 234, 302 при полуоптимизме 206 — оценивания см. оценки — проверки гипотез 277 асимптотические 293 контрастные 276, 288 о значении параметра 301 оптимальные 276 равномерно оптимальные 276 341
рандомизированные 275 уровня а 303 — различения гипотез 306 детерминированные 308 оптимальные 277, 309 — расплывчатые см. оценки доверительные — решающие 202 — эквивариантные 237 — уровня а (228 Предельные теоремы 145, 148, 150, 152,. 153, 157 Представление моделей 52 — — объединениями 54, 199 пересечениями 31 функциональные 59, 199, 212, 234 — последовательности аддитивно- мультипликативные 154 рекуррентные 128 — процесса аддитивные 167 линейные 166 ■ мультипликативные 167 подчиненно-аддитивные 158, 173 расширенно-аддитивные 169, 174 свободно-аддитивные 169 функциональные 166 Преобразования 72 — детерминированные 73, 75, 76, 122 — изоморфные 74, 86 — индикаторные 82, 85 — линейные 188 — моделей 75 —- нелинейные безынерционные 24, 179" — признаков 58, 74 — подобия 77, 86, 164, 165, 210, 215 — простые 83, 85 — случайные 78 — совместные 236 — частные 236 — числовые 211 — Фурье 184 Признаки 10 — вторичные 18 — гармонические 22, 123, 139, 162 — гибридные 162 — дельта 10, 96 — измеримые 43, 55, 69, 117 — инвариантные к группе преобразований 215 — индикаторные 10, 22, 162 — квадратичные 138, 161, 263 —■ нековариированные 108 — линейные 138, 161 — определяющие модель 30 — первичные 18 — представимые 75 — случайных величин 21 процессов 24, 160 *• — совместные 92 — стационарные Ii27 — степенные 27, 139 — центрированные 25 — частные 92 — экспоненциальные 139, 157 Проверка гипотез см. правила проверки гипотез Полулинейность класса признаков 15 Продолжение вероятностей 35 — средних 19 • модифицированная формула 25 предельное 36 Произведение моделей 95, 213 независимое 109, 117, 199 подчиненное 101 свободное 102, 109 Пространство предметное 87 — элементарных исходов 9 Процессы 160 — белый шум 192 — второго порядка 171, 183 — непрерывные 160, 165 — ограниченные 160, 165 сугубо 169 — однородные 178, 190 в широком смысле 180 частично 179 — первого порядка 180, 183 — окв-непрерывные 177, 186 — спектральные 187 — стационарные 181 в широком смысле 184, 187, 191 частично 181 — уэкополосные 192 Разложения процессов по базису 175 спектральные (в ряды Фурье) il84 Размах оценки 256 Размерности моделей 21, 28 Рандомизация 275 Распределения вероятностей интервальные (ИРВ) 35 — конечно-аддитивные 38, 77, 219 счетно-аддитивные 41 точные (классические) 43, 169 гибридные 51 конечно-аддитивные 38, 44, 50 Коши 51 наименее и наиболее благоприятные 296 равномерные 45, 51 совместные 111 счетно-аддитивные 45, 51, 55 — условные 64 , 342
хи-хвадрат 240, 242, 328 частные 111 Расширение моделей 30 Решающие правила см. правила Решения 201 — -индикаторные 201 —- интервальные 201 — контрастные 201 — нейтральные 306 Риск 228 — истинный 333 — составной 230, 233 — средний 203 Свободное произведение моделей см. (произведение моделей Свойства — вероятностей интервальных 33 точных 44 — независимого произведения ПО — независимости 107 — средних 16, 17 — операций объединения и пересечения 32 — условных интервальных моделей 67 Семейства моделей 55, 212 — векторов (вероятностей 27, 66, 111 — плотностей 200, 207, 297, 304 — распределений 48, 55, 81, 112, 198, 200, 220 — собственные см. собственные семейства Сечения моделей 52, 69, 136 • вероятностями 54, 64 задающие 56 СИМ (статистические интервальные модели) 197 — доверительные 323 — инвариантные 215, 280 — неразложимые 197 — подобные 210 — разложимые 197, 217, 234 — размытые 333 — робастные 200, 297 — симметричные 215, 280 — эквивариантные 237 Случайные (величины 21, 121 дескриптивные 130 дискретные 21, 121 непрерывные 121 нормальные 123, 145, 153, 240, 259 . — с интервальными средним и дисперсией 124, 154 стандартные 123 ограниченные 121 симметричные 122, 143, 158, 258, 293 центрированные 58, 133 — последовательности 125 дескриптивные 131 зависимые 128 — — независимые 125, 137, 141, 147„ 262, 264, 322 нековариированные 126 некоррелированные 126, 248, 249, 251, 258, 268 однородные 126, 141, 249, 255 свободные 126 стационарные 127, 322, 324 Смежная задача проверки гипотез 276 Собственные семейства ковариаций 172, 189, 223 средних 168, 172, 189 События 9 — вторичные 38 — нечеткие 10, 87 — первичные 35 — элементарные 9 Спектры энергетические 186, 191, 225, 290 Спектральные* коэффициенты 184 — двойники 186, 290 — процессы 187 Среднее арифметическое 133 Среднеквадрэтическое см. мощность Средние (статистические) 13 — абсолютные 139 — верхние 13 — гармонические 22, 124, 140, 261 абсолютные 140 — интервальные 13 — несогласованные 20 — нижние 13 — первичные 18 — — непротиворечивые 18 — признаков 12 — процессов 163 — размытые 89 — случайных величин 21, 22, 58, 122 — согласованные 16, 19, 20 — точные 12, 13 — условные 65, 104 Срезы 89, 334 Статистические интервалльные модели см. СИМ Стационарность 127, 128, 181 Суждения нечеткие 88 Сходимость ИМ 130 — случайных величин 131 в ореднеквадратическом 131^ в среднем 137 — — по вероятности 137 почти всюду 137 Теоремы — о представлении ИМ 54 — продолжения 19 — разложимости 97 343
— факторизации 213 — характеризации нормальной с. в. 124 Универсальный класс признаков 139 Уровень 228, 276 Фильтр однородный 190 -Фильтрация линейная 220 -Функция — Лапласа 123, 240, 259, 329 — инвариантная 214 — распределения интервальная 46 доверительная 330 Фурье ряды и преобразования 184 Цена задачи 205 Шкалы расплывчатости оценок 229 взвешенная 229, 231 интегральная 229 обобщенная 229, 232 Штраф за расплывчатость 230 Энергетические спектры см. спектры энергетические Явления случайные 9 независимые 106, 115 подчиненно 112 свободные 115 ■ статистически неустойчивые 12 статистически устойчивые 12
ОГЛАВЛЕНИЕ Введение 3 ЧАСТЬ ПЕРВАЯ. ИНТЕРВАЛЬНЫЕ МОДЕЛИ . 9 Глава 1. Описание случайных явлений 9 1.1. Интервальные вероятности и средние 9 Пространство исходов (9). Признаки явления (10). Средние значения признаков (И). Интервальные средние и вероятности (13). Математическая модель явления (14). Аксиоматика (15). Определение интервальной модели средних, основные свойства (16) 1.2. Продолжение первичных средних 17 Вступление (17). Первичные признаки и средние (18). Теорема продолжения и согласования средних (19). Согласованные первичные средние (20). Признаки случайных величин (21). Признаки случайных процессов (24). Голая модель (24). Модифицированная формула продолжения (24). Дополнения (25) 1.3. Отношения между интервальными моделями 27 Геометрическая иллюстрация ИМ (27). Обсуждение (29). Иерархия моделей (29). Пересечение ИМ (3»1). Объединение ИМ (31). Свойства операций (32). Дополнения (33) 1.4. Интервальные распределения вероятностей 33 Свойства интервальных вероятностей (33). Продолжение первичных вероятностей (35). Предельное продолжение средних (36). Иллюстрация ИРВ (37). Конечно-аддитивные ИРВ (38). Счетно-аддитивные ИРВ (40). Обобщения (42). Точные распределения вероятностей (43). Интервальные функции распределения (46). Подобие ИРВ (47). Семейства распределений (48). Относительные вероятности и средние (49). Дополнения (49) 1.5. Представления моделей 52 Предисловие (52). Сечения модели (52). Свойства сечений (53). Теорема о представлении ИМ (54). Определение ИМ задающими сечениями (56). Представление через стандартную ИМ (58). Функциональные представления (59). Плотность (59). Дополнения (62) 1.6. Условные интервальные модели 63 Постановка проблемы (63). Определение условной интервальной модели (64). Расчет условных моделей через вершины (66). Некоторые свойства условных интервальных моделей (67). О восстановлении безусловной модели по условным (68). Абстрактно-условные модели (69) 1.7. Заключение 71 Глава 2. Совместный анализ 72 2.1. Детерминированные преобразования исходов 72 Отображения (72). Преобразования признаков (74). Расчет средних (75). Подобие моделей (77) 2.2. Случайные преобразования 78 Переходные модели (78). Преобразования моделей (78). Свойства преобразований модели (80). Индикаторные преобразования, интервальная арифметика (82). Простые преобразования (83). Дополнения (85) 2.3. Нечеткие события и размытые вероятности 87 Наблюдения и их изображения (87). Размытые вероятности и средние (88). Размытые действия (91) 345
2.4. Совместные интервальные модели 91 Совместные и частные интервальные модели (91). Представление совместных моделей случайными преобразованиями (95). Восстановление сомножителей разложимой модели (96). Разложимость совместной модели (97). Первичные средние разложимых ИМ (98). Подчиненные произведения (101). Свободные произведения (102). Дополнения (104). 2.5. Независимость 105 Определение независимости (105). Свойства независимости (107). Независимое произведение (108). Независимые произведения на дискретных пространствах исходов (111). Геометрическая иллюстрация независимости (113). Нековариированность случайных величин (114). Независимость, свобода, нековариированность (115). Дополнения (117) 2.6. Заключение 119 Глава 3. Случайные величины, последовательности, суммы 121 5.1. Случайные величины, последовательности 121 Определения (121). Детерминированные преобразования (122). Нормальная случайная величина (123). Случайные последовательности (125). Однородность и стационарность последовательности (126). Зависимые последовательности (128) 5.2. Сходимости 129 Неравенства для случайных величии (129). Сходимость моделей (130). Сходимость случайных величин и сходимость их моделей (li31). Сходимость среднего арифметического, закон больших чисел (132). Закон больших чисел для неустойчивых последовательностей (135). Дополнения (136) 3.3. Допредельная и предельная проблемы 137 Аппроксимация модели суммы независимых св. (137). Гармоническая аппроксимация (139). Допредельная проблема, однородный случай (141). Введение в предельную проблему (144). Дополнение (Н6) 5.4. Предельные модели сумм общего вида 147 Центральные допредельные неравенства (147). Первая ослабленная предельная теорема (148). Вторая ослабленная предельная теорема (149). Третья ослабленная предельная теорема (152). Центральная теорема нормальной сходимости (152). Интервальная нормальная сходимость (154). Дополнения (156) 5.5. Заключение 158 Глава 4. Случайные процессы 159 ■4.1. Описания случайных процессов 159 Принципы описаний (159). Реализации и признаки (160). Модель процесса (162). Характерные черты процессов (165). Дробление процесса на составляющие (166). Функциональные представления (166). Различные аддитивные представления (167). Дополнения (169) V -4.2. Корреляционные свойства 170 Процессы второго порядка (170). Представление процессов второго порядка семействами средних и ковариационных функций (172). Интервальные ковариации и корреляции (173). Разложение процесса по базису (175) 4.3. Однородные и стационарные процессы 178 Однородные процессы (178). Стационарные процессы (181). Спектральные двойники процессов (184). Спектральные процессы (186) 4.4. Линейные преобразования процесса 188 Гладкость преобразований и непрерывность процессов (188). Расчет выхода фильтра (188). Линейное преобразование и представление стационарного процесса (190). Узкополосные процессы (192) 546
! ЧАСТЬ ВТОРАЯ. СТАТИСТИЧЕСКИЙ СИНТЕЗ 195 Глава 5. Теория принятия решений ) .... 195 5.1. Статистические модели . , / . 195 Что такое математическая статистика? (195). Статистические интервальные модели (197). Функциональные' представления наблюдений (199). Модели с мешающими параметрами (199). Робастные модели (199) 5.2. Оптимальные правила 200 Расплывчатые решения и решающие правила (200). Потери (202). Риск (203). Статистическая задача (204). Оптимальность и пессимизм (205). Проблема достаточности (207). Достаточность и функция потерь (208) 5.3. Достаточная редукция наблюдений 209 Теорема о представимости (209). Первичные признаки и достаточность (211). Достаточные преобразования и факторизация (212) 5.4. Редукция наблюдений и инвариантность 214 Инвариантные модели (214). Симметрия, инвариантность и достаточность (215) 5.5. Детерминированные решения и фильтрация 217 Общие соображения (217). Оптимальные решения при дельта-потерях (218). Постановка задачи линейной фильтрации сигнала при квадратичных потерях (220). Фильтрация сигнала с известными кор* реляционными свойствами из шума ограниченной мощности (221). Фильтрация при некоррелированном шуме (222). Корреляции заданы с погрешностями (223) 5.6. Заключение 225 Глава 6. Расплывчатое оценивание . 227 6.1. Общие вопросы 227 Ошиоки правил (227). Расплывчатость, риск (228). Оптимальные расплывчатые правила при заданных совместных плотностях вероятностей (230). Достаточные классы расплывчатых правил (232). Оптимизм и достаточность (235). Симметрия статистических моделей и эквивариантность расплывчатых правил (236) 6.2. Доверительное оценивание при заданных распределениях вероятностей флуктуации 238 Предисловие (238). Оценка регрессии при известной плотности вероятностей (239). Доверительное оценивание дисперсии (241) 6.3. Оценка параметров регрессии по энергетическим и корреляционным данным о флуктуациях 243 Обоснование (243). Оценка параметров сдвига при заданной мощности флуктуации (244). Развитие энергетического типа оценивания (246). Оптимальная оценка параметра сдвига при однородных некоррелированных флуктуациях (249). Оценивание сдвига при неоднородных некоррелированных флуктуациях (251). Обобщения оценок (252). Оценка амплитуды сигнала при колебаниях его формы и неточных корреляциях шума (254) 6.4. Оценивание параметра сдвига по моментам и гармоническим средним 256 Оценивание по моментам (256). Асимптотическая подстройка оценки степенного типа (258). Использование допредельных и предельных результатов (259). Синтез квазиоптимальных оценок по гармоническим средним (261). Об оценивании параметра сдвига при неоднородных флуктуациях (264) 6.5. Доверительное оценивание параметра масштаба 264 Общие соображения (264). Оценивание параметра масштаба по заданной мощности флуктуации (266). Оценивание параметра масштаба по некоррелированной выборке (268). Развитие проблемы (270) 6.6. Заключение 272 347
Глава 7. Проверка гипотез 274 7.1. Общие положения 274 Введение (274). Математическое оформление задачи (275). Основная теорема о достаточности (277). комментарии (279). Инвариантность и симметрия (280). Обнаружение сигнала по вероятностям превышений (282) 7.2. Корреляционная теория проверки гипотез 283 Получение оптимального правила при заданной средней мощности наблюдений (283). Общая форма правила (286). Проверка гипотез по заданным корреляциям (289). Неточные корреляции (291) 7.3. Использование доверительных оценок для проверки гипотез . 292 Описание способа (292). Асимптотическое правило при симметричных ограниченных флуктуациях (293). Проверка гипотез по мощности флуктуации (294) 7.4. Специальные методы синтеза правил 295 Задана формальная плотность альтернативы по отношению к гипотезе (295). Точные плотности вероятностей (296). Робастные методы (296). Проверка гипотез по заданным интервальным вероятностям (297). Робастный алгоритм при независимых наблюдениях (299) 7.5. Проверка гипотез о заданном значении параметра 301 Формулировка задачи (301). О правилах при оптимизме (302). Равномерно оптимальные правила (303). Введение защитного диапазона i(304). Минимизация интегральной ошибки (304). Использование доверительных оценок (305) 7.6. Различение нескольких гипотез 306 Общие положения (306). Различение гипотез по заданным корреляциям (308). Оптимальное правило различения двух гипотез (310). Более двух гипотез (311). Неточно известные корреляции (315) 7.7. Заключение 315 Глава 8. Надежностный синтез . . 317 •3.1. Общие вопросы синтеза моделей 317 Методология синтеза моделей (317). Постановка задачи (319). Ста- пионаризация статистических параметров (321). Понятие доверительной модели (322) £.2. Построение доверительной модели на заданном наборе событий . 324 Исходные положения (324). Модель наибольшего правдоподобия (326). Использование критерия хинквадрат (328). Информационный критерий построения доверительной модели (328). Доверительные совместные оценки (329). Доверительная функция распределения (330) $.3. Согласованный синтез моделей и правил 331 Надежность моделей и истинные ошибки правил (331). Размытые доверительные модели и решения (333). Адаптация, надежностное оценивание среднего при неизвестной дисперсии (335) SA. Заключение 336 Описок литературы 339 Предметный указатель 340
РЕКЛАМА ИНТЕРВАЛЬНЫЙ ЭКСПЕРТ ИНТЕКС ИНТЭКС — обучаемая при настройке и самообучающаяся в процессе работы экспертная система, оперирующая с размытыми знаниями в виде интервальных вероятностей. Последние вводятся пользователями (экспертами), а также оцениваются по результатам предыдущей работы (базе данных). ИНТЭКС использует методы настоящей книги, позволяющие: настраивать экспертную систему исключительно на имеющийся набор •знаний в виде необходимого числа интервальных вероятностей, ширина интервалов которых отражает сомнения эксперта и конечность текущей базы данных; формировать в виде интервальных условных вероятностей нечеткие правила логического вывода, в которых посылками служат гипотезы, а следствиями — возможные ситуации; вычислять правила обратного вывода и по текущим ситуациям принимать решения; использовать и объединять знания нескольких экспертов с учетом степени доверия к ним (ранжировки экспертов); иметь свою пополняемую в процессе работы базу данных и использовать ее для получения необходимых статистических оценок, объединяемых «о знаниями экспертов; указывать, каких знаний для четкой работы системы не хватает; вести пользователя по дереву запросов для получения промежуточных и окончательных выводов. ИНТЭКС представляется в виде программного модуля для ЭВМ типа IBM PC/AT. Имеет дружественный интерфейс с пользователем (в том числе графический ввод и вывод интервальных вероятностей), для чего используются возможности языка продукционного программирования ДЕКЛ и естественно-языковой оболочки ДИЕС. Последняя позволяет достаточно свободное общение на естественном языке для ввода экспертных знаний и данных, вывода запросов и ответов. Цена версии 1.0 1900 руб.
ЯЗЫК ЛОГИЧЕСКОГО ПРОГРАММИРОВАНИЯ \ ДБКЛ ДБКЛ — новый язык логического программирования (продукционного типа), служащий для разработки интеллектуальных пакетов программ, организации дружественного интерфейса, построения экспертных, информационных и других систем. Язык ДЕКЛ не уступает по своим возможностям языку ПРОЛОГ, но гораздо проще по реализации (программное ядро занимает не более 40 Кбайт памяти) и существенно удобней в плане металогического программирования: для этого используется принципиально новый подход — структурный. В его рамках заметно облегчается* решение задач, связанных с поддержкой языков высоких уровней, создания оболочек экспертных систем, построения лингвистических процессоров (в том числе с широкими возможностями подстройки под язык пользователя). Язык ДБКЛ основан на новом аппарате — расширенных семантических сетей (РСС). РСС составляется из именованных предикатов (фрагментов). Для обработки РСС используются продукции, которые на нижнем уровне представляются с помощью наборов фрагментов. За счет этого удалось добиться нового качества — возможности применения одних продукций к другим, построения одних продукций другими без использования специального уровня списков (так сделано в ПРОЛОГе). Язык ДБКЛ включает: запись продукций в виде <имя>: ЕСЛИ (левая часть) ТО (правая часть), где левая и правая части — это наборы фрагментов, дополненные при необходимости операторами N, D, В, Т (отсутствие, удалить, выполнить, активизировать); механизм означивания, передачи и использования значений переменных ; встроенные процедуры для арифметических функций, преобразования РСС, обращения к дисковой памяти, ввода с терминала и вы-, вода на него, управления логическим выводом, трассировкой; встроенный механизм управления логическим выводом с реализацией принципа «BLACKBOARD» и возможностью задания сложных стратегий решения; набор стандартных процедур обработки (библиотека продукций) для облегчения решения ряда типовых задач, включая организацию режима анкет — меню; возможность расширения набора встроенных процедур; компилятор, обеспечивающий преобразование отлаженных процедур на язык программного ядра (ПАСКАЛЬ) для включения их в качестве встроенных процедур. Язык ДЕКЛ предназначен для решения в широких областях применения задач концептуального типа, т. е. основанных на эвристиках, знаниях, отдельных фактах и общих правилах. Язык ориентирован на пользователей — инженеров по знаниям. Язык ДБКЛ рассчитан на операционные системы VAX—VMS, MS—DOS. Комплекс технических средств в минимальном объеме состоит из ПЭВМ типа IBM PC/XT или AT.
ЕСТЕСТВЕННО-ЯЗЫКОВАЯ ОБОЛОЧКА ДИЕС ДИЕС — уникальная система на советском и мировом рынке, допускающая создание естественно-языковой среды для ввода знаний в ЭВМ и их использование в задачах экспертных и информационных систем. ДИЕС обладает всеми интеллектуальными возможностями для обеспечения удобных форм доступа к ЭВМ широкой категории пользователей — специалистов в своих областях знаний. Если Вы хотите: строить экспертные системы на основе накопленных Вами знаний, как фиксированных, так и нечетких, создавать концептуальные модели и использовать их для целей информационного обслуживания и принятия решений, не желаете изучать для этого специализированные языки, то Вам нужен надежный интеллектуальный партнер — ДИЕС. Обучение системы ДИЕС новым словам и понятиям для настройки на предметную область производится путем свободного диалога с машиной вводом предложений и ответами на вопросы, задаваемые машиной. Языки: русский и английский. ДИЕС дает возможность пользователям выполнять функции инженеров по знаниям. При этом не требуется специального ообучения непривычным формальным языкам. Допускается свободный порядок слов, полисемия глаголов, анаформические ссылки, определительные конструкции и т. д. ДИЕС позволяет через слова, концепты естественного языка выйти к любой точке создаваемой Вами системы, запросить знания любого вида (без обращения к меню-анкетам).. ДИЕС имеет встроенную БЗ, которая находится на постоянном носителе •(винчестере) и служит для хранения как предметных, так и лингвистических знаний. Объем хранимых знаний определяется только размером винчестера. По желанию пользователя ДИЕС может быть объединена с СУБД типа DBASE. Оболочка ДИЕС явилась результатом научной теории — аппарата расширенных семантических сетей (Кузнецов И. П.). Этот аппарат лег в основу нового инструментального комплекта для задач искусственного интеллекта — языка продукционного программирования ДЕКЛ (ядро ДЕКЛ реализовано на TURBO PASKAL). На языке ДЕКЛ написана ДИЕС. Комплекс технических средств в минимальном объеме: ПЭВМ типа IBM PC/AT, операционная система MS-DOS, требуемая оперативная — 640 кб., дисковая память — не менее 1,5 мб. Заказы на ИНТЕКС, ДЕКЛ и ДИЕС по телефонам: 339-75-29, 311-88-23»
Научное издание КУЗНЕЦОВ Владимир Петрович ИНТЕРВАЛЬНЫЕ СТАТИСТИЧЕСКИЕ МОДЕЛИ Заведующий редакцией В. Н. Вяльцев. Редактор В. К. Старикова. Переплет художника А. С. Дзуцева. Художественный редактор А. В. Проценко. Технический редактор О. А. Гришкина. Корректор Т. Л. Кускова ИБ № 1914 Сдано в набор 15.01.90 Подписано в печать 17.04.91 Формат 60x90Vie Бумага типограф. № 2 Гарнитура литературная Печать высокая Усл. печ. л. 22,0 Усл. кр.-отт. 22,0 Уч.-изд. л. 24,П Тираж 2200 экз. Изд. № 22562 Зак. № 13 Цена 4 руб. Издательство «Радио и связь». 101000 Москва, Почтамт, а/я 693 Типография издательства «Радио и связь» 101000 Москва, ул. Кирова, д. 40