Text
                    АКАДЕМИЯ НАУК СССР
дальневосточный научный центр
хабаровский комплексный
научно-исследовательский институт
Р. И. ТРУХАЕВ
МОДЕЛИ
ПРИНЯТИЯ РЕШЕНИЙ
В УСЛОВИЯХ
НЕОПРЕДЕЛЕННОСТИ
ИЗДАТЕЛЬСТВО «НАУКА»
МОСКВА 1981 г.


УДК 62-50 Трухаев Р. И. Модели принятия решений в условиях неопределенно- неопределенности. М.: Наука, 1981, 258 с. Монография посвящена моделям статических многошаговых и марковских процессов принятия решений в условиях дефицита информации. Рассматри- Рассматриваются свойства чувствительности, устойчивости, стабильности, регулярности и маргинальности байесовых решений, а также принципы построения и ис- использования функций неопределенности и неточности. Рассмотрены классы многошаговых процессов принятия решений с ограничениями, неаддитивными и многоцелевыми функционалами. Книга представляет интерес для специалистов в области теории управле- управления и прикладной математики. Табл. 3, ил. 28, библиогр. 71 назв. Ответственный редактор член-корреспондент АН СССР Е. В. ЗОЛОТОЕ Т 729-81, кн. 2. 1702060000 © Издательство «Наука», 1981 г. 055@2) -S1
ПРЕДИСЛОВИЕ Одним из важнейших направлений современной науки об уп- управлении является теория принятия решений. Основные пробле- проблемы теории принятия решений рассматриваются во многих иссле- исследованиях, связанных в основном с описанием составных элемен- элементов процессов выбора решений и с разработкой методов принятия решений. В монографии предлагается развитие классических подхо- подходов Льюса и Райфа, Блекуэлла и Гиршика, Фишборна, Беллма- на, Ховарда, Заде и других к исследованию математических ме- методов принятия решений в условиях неопределенности на основе классификации информационных ситуаций о состояниях среды и по показаниям источников информации о состояниях среды и управляемого объекта. В общем случае принятие решения можно определить как преобразование информации состояния в количественные или ка- качественные составляющие информации управления. Такая кон- концепция является наиболее приемлемой для управленческих ре- решений, принимаемых в АСУ, организационных системах, деловых играх и т. д. В первой части рассматриваются статические модели приня- принятия решений, определены семь основных информационных ситуа- ситуаций принятия решений по градациям неопределенности в зада- задании распределения состояний среды, для которых сформулиро- сформулированы частные и многоцелевые критерии принятия решений. Ис- Исследованы различные свойства решений, такие, как байесовы множества, чувствительность, устойчивость, стабильность, регу- регулярность и маргинальность, а также улучшаемость многоцеле- многоцелевых решений и т. п. Показано, что информационные ситуации порождают клас- классы функций неопределенности и неточности, использование эк- экстремальных свойств которых позволяет находить оценки рас- распределения вероятностей состояний среды и, как следствие, при- применять методологию статистической теории принятия решений (приведенную для первой информационной ситуации). Сформу- Сформулированы основные свойства и примеры задания функций не- неопределенности (неточности). Следует отметить, что даже известная система критериев принятия решений по книге Льюса и Райфа оставляла открытой проблему выбора критерия и тем самым приводила к неодно- неоднозначности выбора оптимального решения. В книге предлагается характеризовать проблему неоднозначности разбиением множе- множества критериев принятия решения на части в соответствии с введенными информационными ситуациями, с одной стороны, и
применять многоцелевые решения в каждой информационной ситуации либо принцип максимума функций неопределенности (неточности) — с другой. Полученные в первой части результаты являются лишь на- начальным этапом по детализации информационных ситуаций, критериев принятия решений и функций неопределенности. Во второй части рассматриваются динамические (многоша- (многошаговые) модели неоднородных процессов принятия решений в условиях неопределенности при наличии источников информа- информации как по управляемому объекту, так и по среде. На основе метода динамического программирования Беллмана для различ- различных информационных ситуаций поведения среды и управляемо- управляемого объекта на этапах перехода получены различные формы ре- рекуррентных уравнений для нахождения оптимальных стратегий решений. Эти результаты обобщаются на случай задания ограничений на время перехода управляемого объекта, а также для неадди- неаддитивного оценочного функционала, что приводит к необходимо- необходимости разработки подходов, отличающихся от традиционных мето- методов динамического программирования. В третьей части рассматриваются модели принятия решений для марковских процессов с переоценкой и без переоценки оце- оценочного функционала. Разработаны алгоритмы оптимизации ре- решений для процессов с поглощающим и выделенным состоянием, с конечным и бесконечным числом этапов. Исследуются марков- марковские процессы принятия решений с произвольным источником информации и ненулевой стоимостью испытания. Получены функциональные уравнения для нахождения оптимальных стра- стратегий решений и исследованы свойства решений этих уравнений. Предложены некоторые теоретические направления проблемы' оптимизации информационных структур в марковских процессах принятия решений. Р. Трухаеа
ЧАСТЬ ПЕРВАЯ СТАТИЧЕСКИЕ МОДЕЛИ ПРИНЯТИЯ РЕШЕНИЙ ГЛАВА ПЕРВАЯ ЭЛЕМЕНТЫ СТАТИЧЕСКИХ МОДЕЛЕЙ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИИ Эта глава является вводной и посвящена элементам теории принятия решений. Рассмотрены исходные положения и основ- основные понятия теории принятия решений, образующие категории неопределенности, оценочного функционала, эффективности, по- полезности и критериев принятия решений. Статические модели определяются в виде ситуации принятия решений. Вводится классификатор информационных ситуаций, характеризующих неопределенность «поведения» среды. В заключение обсужда- обсуждается подход к исследованию проблемы принятия статических решений, основанный на теории многоцелевых решений. 1. К ТЕОРИИ ПРИНЯТИЯ РЕШЕНИЙ Одной из составных частей современной науки управления является набор количественных методов исследования слож- сложных явлений и процессов. В условиях совершенствования систем управления промышленностью и экономикой количественные методы придают процессу управления необходимую научную об- обоснованность, сводят до минимума элемент субъективности при выборе управленческих решений и позволяют в определенной мере оптимизировать как сам процесс управления, так и ком- комплекс технических средств, обеспечивающих его осуществление. Прогресс теории принятия решений обусловлен быстрым развитием разработок, проектирования, внедрения и использо- использования в различных сферах народного хозяйства автоматизиро- автоматизированных систем управления. Доказательства непосредственной связи между теорией принятия решений и применением в прак- практике управления АСУ вряд ли необходимы. Каждый специалист, в той или иной степени участвующий в управлении сложным объектом, в реальных условиях всегда сталкивается как с эле- элементами математического, программного, информационного и технического обеспечения процесса управления, так и с недо- недостаточностью нужной для управления и принятия решений информации. Использование для управления АСУ требует и будет требовать все возрастающих объемов информации, так как полнота данных во многом определяет качество машинных решений, вырабатываемых системой.
В настоящий момент использование методологии и методов принятия решений в АСУ находятся лишь в начальной стадии разработки в связи с тем, что возможности технических средств АСУ, а также возможности систем обеспечения (математиче- (математического, программного, информационного и т. п.) АСУ далеко не- недостаточны для удовлетворения насущных потребностей созда- создания эффективных, надежных и рентабельных систем управления сложными объектами в реальных масштабах времени. Ниже будут рассмотрены основные элементы теории приня- принятия решений в условиях неопределенности, которые могут быть использованы при разработке подобной методологии и методов принятия решений в АСУ применительно к широкому классу объектов управления народнохозяйственного значения. Принятие решения — понятие, близкое к выбору из множе- множества возможностей. Это понятие базируется не только на ко- количественных характеристиках, но и на факторах, не всегда имеющих количественные меры. Учет этих факторов необходим также и потому, что в на- настоящее время четко определилась тенденция применения ме- методов моделирования и оптимизации явлений, позволяющая вы- выполнять формальную сторону подготовки и принятия решения на ЭВМ. Поэтому вопросы: какие составляющие процесса при- принятия решения должен контролировать человек, принимающий решения, и какие составляющие могут быть выполнены вычис- вычислительным комплексом, как осуществить взаимосвязь человека с этим комплексом — стали насущными вопросами теории я практики принятия решений. Без исследования этих вопросов вряд ли могут быть достигнуты какие-либо серьезные успехи в создании и исследовании больших систем управления (БСУ), и в частности в создании и исследовании автоматизированных систем управления (АСУ). Принятие решений является основной составляющей управ- управления (основным этапом процессов управления). Поскольку общей наукой об управлении, охватывающей теорию и прак- практику всего комплекса вопросов, связанных с целенаправленным руководством со стороны человека, течением и результатами его деятельности в любой области, связанной с процессами уп- управления, является кибернетика, то естественно теорию при- принятия решений считать разделом кибернетики. Предметом теории принятия решений является исследование законов преобразования информации состояния в количествен- количественные составляющие информации управления, присущих различ- различным органам управления и различным управляемым объектам. Методами теории принятия решений являются количествен- количественные и качественные методы моделирования и оптимизации. Сущностью теории принятия решений являются количе- количественные, логические и качественные описания деятельности органа управления при подготовке и принятии решений. Про- Процесс подготовки и принятия решения, т. е. деятельность самого
органа управления, имеет явно выраженные две стороны — творческую и формальную, взаимосвязь и взаимообусловлен- взаимообусловленность которых регламентируется человеком или группой людей и действием средств, призванных преобразовывать информацию состояния по определенным правилам (алгоритмам). Удельный вес каждой из сторон процесса подготовки и принятия реше- решения определяется прежде всего степенью изученности реального явления (процесса), для управления которым и существует конкретный орган управления, наличием времени, которым рас- располагает орган управления (человек) для принятия решения по существующей обстановке, а также опытностью и личными ка- качествами людей, возглавляющих орган управления. Так, чем более изучено реальное явление с количественной стороны, тем больший удельный вес имеет формальная сторона в процессе подготовки и принятия решения. И наоборот, чем меньше или хуже количественные представления о явлении (процессе), тем больше удельный вес творчества людей, воз- возглавляющих орган управления и входящих в его состав. Одна- Однако при любом уровне количественного описания реального яв- явления (процесса) наличие творчества человека или группы лю- людей обязательно. Основными понятиями (категориями) теории принятия ре- решений являются: система управления СУ, управляемый объ- объект О, орган управления и принятия решений У, среда С, со- состояния объекта и среды, решение, процесс принятия решения, неопределенность, оценочный функционал (матрица значений оценочного функционала), ситуация принятия решений, инфор- информационная ситуация /, источник информации /, критерий при- принятия решений и т. д. В рамках теории принятия решений возможны различные концепции в зависимости от того, какие понятия считаются основными при анализе процесса принятия решений. Согласно теоретико-игровой концепции принятие решения представляет собой выбор наиболее предпочтительной альтер- альтернативы из множества имеющихся альтернатив. При этом в качестве решения может служить: 1) элемент множества возможных альтернатив, выбираемый органом при- принятия решений; 2) документ, регламентирующий деятельность системы управления, утвержденный соответствующими инстан- инстанциями и обязательный для исполнения подчиненными этой ин- инстанции подсистемами; 3) устные или письменные распоряже- распоряжения о выполнении того или иного действия, операции, процесса и т. д.; 4) регламентируемая последовательность действий, пре- преследующая достижение избранной цели; 5) некоторый феномен (материальный объект, число и т. д.), наличие которого позво- позволяет утверждать, что поставленная задача решена (решение в этом смысле выступает как цель деятельности); 6) реакция на раздражитель.
Особенностью процессов принятия решений является учет наличия лица, коллектива лиц или органа принятия решения, которые стремятся к достижению некоторых целей на основе своих предпочтений о ценностях. В теории принятия решений «наиболее предпочтительным» считается решение, согласован- согласованное со структурой предпочтений органа принятия решений, а также с имеющейся у него информацией о проблеме принятия решений. В этом случае теория принятия решений дает возмож- возможность строить нормативные процедуры, которые помогают ор- органу принятия решений формализовать его предпочтения, а при- принятие решения сводится к сравнению тех свойств решений, ко- которые являются основанием оценки. Качество процесса принятия решений находится в прямой зависимости от полноты учета всех факторов, существенных для последствий от принятых решений. Часто эти факторы носят чисто субъективный характер, присущий как лицу, принимаю- принимающему решение, так и любому процессу принятия решений. Сами по себе эти факторы не могут опорочить тот или иной подход, в котором элементы субъективности сказываются на решении достаточно значимым образом. Кроме того, орган принятия решений часто вынужден дей- действовать в условиях неопределенности, т. е. орган принятия ре- решений обладает меньшим количеством информации, чем это не- необходимо для целесообразной организации его действий в про- процессе принятия решений. Частичное либо полное снятие неопре- неопределенности может быть достигнуто за счет имеющейся либо до- дополнительно получаемой органом принятия решений информа- информации. Неопределенность в принятии решений обусловлена недоста- недостаточной надежностью и количеством информации, на основе ко- которой орган принятия решений осуществляет выбор решения. Существуют различные виды неопределенности. В общем слу- случае, не претендуя на полноту, можно указать следующие наи- наиболее часто встречающиеся виды: 1) принципиальная неопреде- неопределенность, например, в известных ситуациях квантовой механи- механики; 2) неопределенность, генерированная общим числом объек- объектов или элементов, включенных в ситуацию, например, при чис- числе элементов порядка большего, чем 109; 3) неопределенность, вызванная недостатком информации и ее достоверности в силу технических, социальных и иных причин; 4) неопределенность, порожденная слишком высокой или недоступной платой за оп- определенность; 5) неопределенность, порожденная органом при- принятия решений в силу недостатка его опыта и знаний факторов, влияющих на принятие решений; 6) неопределенность, связанная с ограничениями в ситуации принятия решений (ограничения по времени и элементам пространства параметров, характеризую- характеризующих факторы принятия решений); 7) неопределенность, вызван- вызванная поведением среды или противника, влияющего на процесс принятия решения. 8
Таким образом, в процессах принятия решений имеется ряд ситуаций, обладающих той или иной степенью неопределенно- неопределенности и требующих для своего описания с целью получения реше- решения такого математического аппарата, который бы априори включал в себя возможность появления неопределенности. Исторически первым таким аппаратом был аппарат теории вероятностей, в соответствии с которым неопределенность си- ситуации описывается некоторой нормированной мерой, характе- характеризующей возможность появления наперед заданных случайных исходов (элементов или подмножеств некоторого множества). К естественному продолжению вероятностных методов опи- описания неопределенных ситуаций можно отнести теорию игр, в которой неопределенность порождалась конфликтом и антаго- антагонистическими интересами игроков, связанных между собой опре- определенными правилами ведения игры, и теорию статистических решений, в которой в качестве одного из игроков выбиралась пассивная среда или «природа», поведение которой характери- характеризовалось заданными законами распределения вероятностей. В принципе эти теории можно считать крайними случаями раз- различных степеней градации неопределенности либо информаци- информационными ситуациями. Другой класс неопределенных ситуаций охватывается аппа- аппаратом, базирующимся на понятии так называемого расплывча- расплывчатого (размытого) множества, введенного Заде [68, 69]. Этот аппарат является адекватным для описания таких ситуаций, ко- которые не имеют строго определенных границ. Несколько иным путем пришел к описанию расплывчатых ситуаций Зиман [10], который ввел отношение толерантности, выражающее в строгой математической форме интуитивное понятие сходства (нераз- (неразличимости). Отношение толерантности также описывает клас- классы объектов с размытыми, нечеткими границами. Близким к подходу Заде является подход Ватанабе [67], ко- который на базе обобщенной характеристической функции строит основы логики, описывающей некоторый класс неопределенных ситуаций. Схемы построения общего математического аппарата описы- описывающие широкий класс неопределенных ситуаций, даны в [3, 16]. В заключение отметим, что в настоящий момент терминоло- терминология, методология и методы теории принятия решений находятся еще в начальной стадии разработки. 2. СТАТИЧЕСКАЯ МОДЕЛЬ ПРИНЯТИЯ РЕШЕНИЙ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ Статическая модель принятия решений, порожденная теоре- теоретико-игровой концепцией, является широко известной и распро- распространенной моделью принятия решений во многих реальных ситуациях разового выбора вариантов, планов, кортежей, дей- действий, альтернатив, стратегий и т. д., связанных с неопределен- 9
ным влиянием среды на ситуацию их выбора, производимого органом принятия решений. При исследовании статических моделей принятия решений в условиях неопределенности будем исходить из следующей схе- схемы, предполагающей наличие: 1) у органа управления У мно- множества взаимоисключающих решений ф^г:^, ..., фт}, одно из которых ему необходимо принять; 2) у среды С множества взаимоисключающих состояний G={0i, ..., 0n}, однако, в каком конкретном состоянии находится (или будет находить- находиться) среда С, органу управления У неизвестно; 3) у органа управления У оценочного функционала F={fjh}, характеризую- характеризующего «выигрыш» или «проигрыш» органа управления при выбо- выборе им решения ф&еФ, если среда С будет находиться (или на- находится) в состоянии д^@. При использовании такой схемы количественную сторону теории принятия решений в условиях, когда среда «ведет себя» антагонистическим образом по отношению к выбору решений органом управления У, принято называть теорией игр. В случае «пассивной» среды («пассивной природы»), о которой органу управления У известно распределение вероятностей р=(ри ••• ..., рп) на в={01, ..., 0П}, принято называть играми с при- природой или статическими решениями. Эти случаи поведения сре- среды можно назвать крайними. В общем случае существует целая градация информационных ситуаций, определяющих стратегию поведения среды С. Определение и классификация этих информационных ситуа- ситуаций составляют, можно сказать, фундамент теории принятия решений в условиях неопределенности, поскольку частично по- позволяют решить известную проблему выбора критерия принятия решений путем разработки для каждой информационной ситуа- ситуации множества критериев принятия решений. Исходя из ранее рассмотренной формальной схемы приня- принятия решений в условиях неопределенности, творческая состав- составляющая процесса принятия решения органом управления У со- состоит: 1) в формировании множества решений Ф и множества состояний среды 0; 2) в определении и задании основных пока- показателей эффективности и полезности, входящих в расчет оце- оценочного функционала F={fjk}\ 3) в определении органом управления У информационной ситуации, характеризующей стратегию поведения среды С; 4) в выборе критерия принятия решений из множества критериев, характеризующих определен- определенную органом управления У информационную ситуацию; 5) в принятии по выбранному критерию оптимального решения или в его коррекции (если оптимальное решение будет не един- единственным или в случае отказа органа управления У от опти- оптимального решения по различным соображениям). Формальная составляющая процесса принятия решений в ус- условиях неопределенности заключается в производстве расче- расчетов по существующим алгоритмам показателей эффективности, 10
входящих в определение оценочного функционала F={fjh}, и в производстве расчетов для нахождения оптимального реше* ния ф°еФ (либо множества таких решений ФеФ) по заданно- заданному критерию принятия решений. Алгоритмы расчета показателей эффективности и критериев принятия решений с применением ЭЦВМ составляют математи- математическое обеспечение статического процесса принятия решений в условиях неопределенности для применения электронных циф- цифровых вычислительных машин (ЭЦВМ). Алгоритмы формирования на основе применения информа- информационных средств и ЭЦВМ информационной картины в органе управления У, характеризующей стратегию поведения среды С и обеспечивающей определение информационной ситуации, со- составляют информационное обеспечение статического процесса принятия решений в условиях неопределенности. Наличие и разработка этих видов обеспечения во многом оп- определяют эффективность статических процессов принятия реше- решений в условиях неопределенности. Определим основные элементы статических моделей процес- процессов принятия решений. Под ситуацией принятия решений будем понимать тройку {Ф, в, F}, где ф={ф!, ..., фш} — множество решений органа управления У, 6= {01? ..., 0П} — множество состояний среды С, которая может находиться в одном из состояний 0,ев, F={fjk} — оценочный функционал (матрица оценочного функцио- функционала), определенный на 6ХФ и принимающий значения из R\ при этом fjh=f(Qjy фА). В развернутой форме ситуация принятия решений характеризуется матрицей, элементами /# которой яв- являются количественные оценки принятого решения фЛ?ф при условии, что среда С находится в состоянии 0 Ф1 • • • Щ • • • фт &1 fl\ ••• /lfe ••• fim 9/ fn 0/i fm ••• fnk ••• fnm С категорией оценочного функционала тесно связаны такие известные понятия, как эффективность, полезность, потери, риск и т. д. Выбор той или иной формы выражения оценочного функ- функционала зависит от целей и задач управления объектом О, на- наличия методик получения и расчета эффективности задач, ре- решаемых объектом управления О и органом управления У, вре- времени процесса подготовки и принятия решений и т. д. Впоследствии будем использовать две формы выражения оце- оценочного функционала F, определяющие полезность, ценность и т. п. или потери, убытки, риск и т. д. 11
Будем говорить, что оценочный функционал F имеет поло- положительный ингредиент, если орган управления У при принятии решения исходит из условия достижения max {fjh}. В этом ф6ф случае условимся для положительного ингредиента соблюдать запись F=F+={f^k}. Для отрицательного ингредиента F орган управления У при принятии решения исходит из условия дости- достижения min {fjk}. В этом случае F=F~= {f~}. Определение положительных и отрицательных ингредиен- ингредиентов характерно для активно направленных систем. Можно от- отметить ряд интересных ситуаций, в которых, например, ингре- ингредиент пассивно направленной системы может определяться из условия достижения X min {/>*} + A — X) max {/>} @ ^ X ^ 1), еФ еФ причем при Х=0 имеем F=F+, а при Х=1 имеем F=F~. Определение оценочного функционала в форме F+, как пра- правило, используется для выражения категорий полезности, выиг- выигрыша, эффективности, вероятностей достижения целевых собы- событий и т. д., в противоположность этому F~ применяется для вы- выражения потерь, проигрыша, сожалений, ущерба, риска и т. д. Заметим, что при формировании оценочного функционала выра- выражение ингредиента определяется целями управления и приня- принятия решений органа У. Будем придерживаться определенной формы выражения ин- ингредиента оценочного функционала (F+). Однако в ряде случа- случаев, например при построении функций неопределенности треть- третьего рода, возникает необходимость использования отрицатель- отрицательного значения ингредиента оценочного функционала в форме сожалений. Функция сожалений есть линейное преобразование положи- положительного или отрицательного значения ингредиента оценочного функционала к относительным единицам измерения. Такое преобразование устанавливает начало отсчета оценочного функционала «нуль» для каждого состояния среды Qy. 1) для F+ в случае фиксированного состояния среды 6^6 находится величина //= max f% и функция сожалений определяется в виде Ф /-,(<рЛ)=/,—fjk-y 2) для F~ в случае фиксированного состояния среды 9^0 находится величина L/ = min fjk и функция со- Ф/е^Ф жалений определяется в виде о(фл) =fjk—Ц. Функция сожалений имеет отрицательную форму оценочно- оценочного функционала F~, о(фА)^0, и г#=0 хотя бы для одного ре- решения <pk при V6je9. Под информационной ситуацией / будем понимать опреде- определенную степень градации неопределенности выбора средой С 12
своих состояний из заданного множества 0, которой располага- располагает орган управления У в момент принятия решения. Определим классификатор информационных ситуаций, харак- характеризующих «поведение» среды С в процессе принятия решений при выборе своих состояний 0^0. Пусть Л — первая информа- информационная ситуация, характеризующаяся заданным распределени- распределением априорных вероятностей на элементах множества 0; /2 — вторая информационная ситуация, характеризующаяся задан- заданным распределением вероятностей с неизвестными параметра- параметрами; /3 — третья информационная ситуация, характеризующаяся заданными системами линейных отношений порядков на ком- компонентах априорного распределения состояний среды С; /4 — четвертая информационная ситуация, характеризующаяся не- неизвестным распределением вероятностей на элементах множе- множества 0; /5 — пятая информационная ситуация, характеризую- характеризующаяся антагонистическими интересами среды С в процессе при- принятия решений; /б — шестая информационная ситуация, харак- характеризующаяся «промежуточными» между It и /5 случаями вы- выбора средой своих состояний; /7 — седьмая информационная ситуация, характеризующаяся нечетким множеством состояний среды С. Отмеченные информационные ситуации являются в некото- некотором смысле глобальными характеристиками уровней неопреде- неопределенности состояний среды С. При исследовании критериев при- принятия решений будут использованы различные градации не- неопределенности в каждой информационной ситуации. Под критерием принятия решения хе/С будем понимать ал- алгоритм, который определяет для каждой ситуации принятия решения {Ф, 0, F} и информационной ситуации / единственное оптимальное решение ф°еФ либо множество таких решений Фс:Ф, которые будем называть эквивалентными по данному критерию принятия решения. Иными словами, критерий принятия решения можно рассма- рассматривать как операцию предпочтения на множестве решений Ф с учетом элемента неопределенности возможных состояний 0^0 среды С, упорядочивающую совокупность решений Ф в тран- транзитивную последовательность в порядке предпочтительности. Информационная ситуация / характеризуется совокупностью критериев принятия решений Кц = {>csi} (i=l, ..., 7). Например, для первой информационной ситуации составны- составными критериями являются критерии: Байеса, максимальной ве- вероятности, модальный, минимальной дисперсии и т. д.; для чет- четвертой информационной ситуации — критерии Джейнса, Лап- Лапласа и др.; для пятой информационной ситуации — критерии Вальда, Савиджа и др.; для шестой информационной ситуации — критерии Гурвица, Ходжеса — Лемана, Менчеса и др. При заданной ситуации принятия решений {Ф, 0, F} проб- проблема принятия решения состоит в том, что орган принятия ре- решения У должен выбрать одно решение, оптимальное по вы- 13
бранному органом управления критерию принятия решения. Проблема принятия аксиоматических решений характеризуется в основном тремя факторами: {/, Ки А}9 где / — информацион- информационная ситуация; Ki — множество критериев принятия решений, соответствующих информационной ситуации /; А — система ак- аксиом анализа критериев принятия решений. Под аксиоматическим подходом при анализе критериев при- принятия решения понимается метод выделения наиболее приемле- приемлемых аксиом (постулатов), которые позволяют органу управле- управления У исследовать проблемы принятия решений при неопреде- неопределенности в смысле поиска подходящего критерия принятия ре- решения. Принятию решения в данной ситуации {Ф, в, F} во мно- многом способствует возможность определения информационной ситуации /, а также установления системы аксиом выбора опре- определенного критерия Кр^Кр (р== 1, ..., 7). К настоящему моменту системы аксиом существуют не для всех информационных ситуаций, и, кроме того, выбор критерия в данной информационной ситуации / на основе существующей системы аксиом может быть неоднозначным. Неоднозначность выбора критерия, как правило, определяется неполнотой систе- системы аксиом. Несмотря на присутствие этих особенностей, пре- препятствующих разрешению проблемы принятия решения, можно заметить, что каждая из рассматриваемых информационных ситуаций характеризуется «потенциальным» критерием, отра- отражающим основные тенденции принятия решения в той или иной информационной ситуации. Многоцелевой подход принят в данной книге в качестве ос- основного при решении проблемы принятия решений. В заключение отметим, что основная тенденция исследова- исследования проблемы принятия решений состоит в детализации и клас- классификации информационных ситуаций, с одной стороны, и в раз- разработке критериев для этих информационных ситуаций с неко- некоторыми элементами исследования их положительных и отрица- отрицательных сторон в вопросах эффективности функционирования объекта управления О и органа управления У— с другой. Срав- Сравнительно меньшие исследования проводятся при разработке аксиоматических подходов к вопросам анализа и выбора крите- критериев принятия решения для различных ситуаций. ГЛАВА ВТОРАЯ ПЕРВАЯ ИНФОРМАЦИОННАЯ СИТУАЦИЯ Информационная ситуация /4 характеризует случай, когда орган принятия решений У располагает знанием априорного распределения вероятностей р=(ри ..., рп), pj=P{Q=Qj}> pj=l на элементах Qj<^@ состояний среды С. Эта ситуация 14
является, наверно, самой распространенной информационной си- ситуацией, идентифицирующей «поведение» среды С в большин- большинстве практических задач принятия решений в условиях «риска». Ее введение в процессы принятия решений позволило эффектив- эффективно использовать конструктивные методы теории вероятностей в разработке целого научного направления — теории статистиче- статистических решений. В практических задачах расчет априорного распределения р состояний среды С, как правило, осуществляется либо путем обработки обширного статистического материала, либо анали- аналитическими методами, основанными на формулировке гипотез поведения среды с последующим использованием основных ак- аксиом, теорем и методов теории вероятностей. Как один, так и второй изложенные выше пути являются приближенными, поскольку на практике в связи с рядом огра- ограничений (по стоимости, затратам, времени и пространству) воз- возникают трудности получения и обработки статистического мате- материала, кроме того, формулируемой системе гипотез поведения среды присуща соответствующая неполнота, а при использова- использовании «рабочих» гипотез приходится делать соответствующие до- допущения (например, о независимости событий) в ущерб физике процесса с целью осуществления расчета р. Среди различных понятий вероятности подобное априорное распределение р при- принято называть объективной вероятностью. Однако в ряде статистических процессов принятия решений ввиду сложности «поведения» среды С, отсутствия сбора и об- обработки статистического материала, использования аналитиче- аналитических методов и т. д., орган принятия решений У, опираясь на свой опыт либо на мнение группы экспертов, при расчете р пред- предпочитает использовать понятие вероятности, развитое на основе представления о степени уверенности относительно данного фактора, признака, симптома, характеризующего свойства «по- «поведения» среды. Такое определение априорного распределения р, делавшее понятие вероятности вопросом мнения, получило название субъективной вероятности. Например, субъективная мера вероятности дает возможность врачу выразить, насколько он уверен в клиническом заключении, в терминах относитель- относительных шансов или отношений правдоподобия, товароведу оценить вероятность спроса населения на определенный вид продукции и т. д. На основе учета возможных ошибок и неточностей, а также неоднозначности мнений группы экспертов при расчете априор- априорного распределения в главе делаются попытки построения мето- методов синтеза оптимальных решений по априорному распределе- распределению р=(ри ..., /?п), принимающему значения из плоского мно- ( жества Дп= \р: 0^/?/<1, ^ Р/= 15
В этом направлении рассмотрены вопросы чувствительности, устойчивости, стабильности, регулярности, маргинальности бай- есовых решений, а также методы построения синтезирующих байесовых множеств. 1. КРИТЕРИИ ПРИНЯТИЯ РЕШЕНИЙ Рассмотрим основные критерии принятия решений в инфор- информационной ситуации Iiy характеризующейся заданием распреде- ления вероятностей pj=P{Q = Qj}i ]>} Р/= 1 состояний среды С. Пусть задана ситуация принятия решения {Ф, в, F}, в ко- которой оценочный функционал F={fjk} принадлежит к классу F~ либо F+, множества Ф и 0 заданы в виде ф={ср!, ..., фт}, 6= {9,, ..., Эп}. 1. Критерий Байеса. Сущность этого критерия заключается в максимизации математического ожидания оценочного функ- функционала. Название этого критерия в основном связано с пре- преобразованием формул априорных вероятностей в апостериор- апостериорные. Согласно критерию Байеса, оптимальными решениями <рАоеФ (либо множеством таких оптимальных решений) считают такие решения,- для которых математическое ожидание оценочного функционала достигает наибольшего возможного значения: п 1 п у Pitt* = у Если максимум достигается на нескольких решениях из Ф, множество которых обозначим через Ф, то такие решения бу- будем называть эквивалентными. Величина В+(ру фл) = ^ р$к называется байесовым значе- нием оценочного функционала для решения фйеФ. Критерий Байеса — наиболее распространенный критерий в информацион- информационной ситуации /4. Большая популярность этого критерия объяс- объясняется, пожалуй, тем фактом, что критерий Байеса тесно свя- связан с аксиомами теории полезностей (аксиома Наймана и Мор- генштерна), в которой суммарная полезность определяется как математическое ожидание частных полезностей. Если оценочный функционал задан в форме i7", то вместо операции max математического ожидания используется min. Если оценочный функционал задан в сожалениях или рисках, то соответствующую величину В~(р, <pft) принято называть бай- байесовым риском для решения ф^еФ. 2. Критерий максимизации вероятности распределения оце- оценочного функционала. Фиксируем величину а, удовлетворяющую 16
неравенствам at<a<a2, где аг = min min //*, a2 = max max /%, (/= 1, ... , n\ k= 1,... , m). i k / k Для каждого решения %еФ определим вероятность jP(//a ^ос) того, что значение оценочного функционала не мень- меньше а для состояния среды 8^0 и решения фЛ^Ф. Сущность критерия максимизации вероятности распределения оценочно- оценочного функционала заключается в_нахождении решения Ф (либо множества таких решений Ф), для которых k= max P (ft*>a). Ф При использовании этого критерия орган управления У ис- исходит из задания конкретной величины а и оптимальными счи- считает те решения ф^еФ, для которых выполнено это условие. Для фиксированных а и qpfe неравенство //& ^а определяет множество состояний среды <Эа,ь. Тогда вероятность Р(/ равна Р(^>а) = Р(8ев«,Л) = S Р$=* в/). В этом критерии величину а задает орган управления У. По- Поэтому множество Ф зависит от а, т. е. ф=ф(а). Для двух зна- значений с^* и а**, _таких, что а^а^осг, ai^a**^a2 к a*^a*% имеем Ф(а**)^Ф(а*). Кроме того, Если оценочный функционал задан в форме /7=/г-, то для каждого решения срАеФ определяется вероятность P(fjk =Ц?), и применение критерия состоит в выборе решений ср^ или () для которых где величина р, такая, что ai^p^a2, задается органом приня- принятия решения У. 3. Критерий минимума дисперсии оценочного функционала. Для каждого решения ф^еФ определим среднее значение В+(р, ц>к) оценочного функционала и дисперсию ок2 в виде п в+ (Р, ф*) = ^, Pjflfk, а именно /=i °1 == о2 {Р. Ф*) = ^ [//* - 5+ (р, Ф.)]2 ph /—1 Дисперсия afe2 характеризует рассеивание случайной вели- величины значения оценочного функционала для решения <pft относи- относительно среднего значения В+(р, фА). 17
Сущность критерия минимизации дисперсии оценочного функционала заключается в нахождении решения ф^ (или мно- множества решений Ф), для которого <?2(Р> ФО= тто2(ру <рЛ). Основным недостатком этого критерия является то, что дис- дисперсия на решении ф^^Ф может оказаться меньше, чем на ре- решении фЙ2^Ф, т. е. ej^aj, в то время как В+(р, фА1)< <В+(р, фь2). Это говорит о том, что критерий минимума дис- дисперсии оценочного функционала, с одной стороны, является в некотором смысле слова вспомогательным критерием, а с дру- другой стороны, если его принять, то необходимо доопределить этот критерий, несколько видоизменив вид аА2, например, одним из следующих способов: п Г т -1 /=i L s=i J Если оценочный функционал задан в форме F=F~9 то реше- решение ф^ по критерию минимума оценочного функционала нахо- находится из условия о2{р, <р*,)= rnino2(p, фЛ), где величина о2(р, фА) определяется одним из следующих спо- способов: а2 (р, фа) = 2 If/* - 5' (Р, Ф^I2 Л, (Р. ф*) = S [^ "" min причем В- (/?, ф8) =^ 4. Модальный критерий. Сущность этого критерия заключа- заключается в том, что орган управления У исходит из наиболее вероят- вероятного состояния среды. Предположим пока, что существует един- 18
ственное значение ph = max P F = в/). При использовании этого критерия орган управления У по- полагает, _что среда находится в состоянии 0^6 и оптимальное фйо или Ф определяется из условия Если же окажется, что максимум РF = 0,) достигается на априорных вероятностях pjv ph, ..., p,s, то оптимальное ре- решение фй, (или Ф) определяется из условия V==l Основным недостатком этого критерия является возмож- возможность того, что если возьмем два решения <pftl и фА2, для которых fth > /а^2> то по этому критерию предпочтительно будет ре- решение фьг т. е. qpfcjCxpfc, однако может оказаться, что В+(р, ФА1)<5+(Р,Ф,2). Основными же преимуществами этого критерия являются: 1) достаточность выявления лишь самых вероятных состояний среды, при этом совсем не обязательно знать количественные значения самих вероятностей осуществления этих состояний; 2) определение (расчет) оценочного функционала лишь для са- самых вероятных состояний среды, что во много раз увеличивает скорость принятия решения. Заметим, что при задании оценочного функционала F в фор- форме F~ операция max заменяется на min. 5. Критерий минимума энтропии математического ожида- ожидания оценочного функционала. Предположим, что jF/*>0 для всех / и k. Энтропию математического ожидания оценочного функционала для решения фь^Ф определим следующим обра- образом: Сущность этого критерия заключается в нахождении реше- решения ф^ (либо Ф) из условия Н (р, ф*о) = min Н (Р> Ф*)- ФеФ В случае невыполнения условия f% >0 для всех / и k дела- делается переход от значений f% оценочного функционала к риску 19
{сожалениям, потерям) вида при этом решение ф^ находится из условия минимума по энтропии математического ожидания оценочного функционала вида Н(р, фО при fy~ >0 6. Модифицированный критерий. Фиксируем величину Я, удовлетворяющую условию 0^Л^1. Для каждого ф^еФ опре- определим величину и(р, ф*) = A- где обозначено В+ (р, ф*) = 2 P/tf*. ^2 (Р. Ф*) = S 1^ - В+ (Р Сущность модифицированного критерия заключается в на- нахождении решения ф^ (или множества решений Ф) из условия х (р, фЛ). Заметим, что в двух частных случаях Х=0 и Я=1 этот крите- критерий совпадает с критерием Байеса и с критерием минимума дис- дисперсии оценочного функционала. Введем в рассмотрение две величины [а рД =min%l i Очевидно, что величины Я*, Я** таковы, что выполняются нера- неравенства 0<Г<Г*^1. Лемма 2.1. Если величина Я удовлетворяет условию О^Я^Я*, то х(р, фй) ^0 для любого фк^Ф. Доказательство этого утверждения следует из того, что [п -12 п Г г, -12 /=i J /-a /-1 J 20
поскольку для любого решения фАеФ при Яе [О, Я*]. В качестве следствия к лемме получаем, что при Яе[0, Я*], т. е. при этих значениях Я модифицированный критерий более учитывает критерий Байеса максимизации сред- среднего выигрыша В+(ру q>k), чем критерий минимизации дисперсии <т2 (р, <рк) • Лемма 2.2. Если величина Я удовлетворяет условию Я**^ Я 1, то и(р, <pft) ^0 для любого фАеФ. Доказательство этого утверждения следует из того, что поскольку L/=i J/ 1=1 для любого решения фьеФ при Я^[Я*\ 1]. В качестве следствия к этой лемме получаем, что A— Х)[В+(Р> фА)]2<Я(т2(р, Ф*) при АеЕ[Я*\ 1], т. е. при этих значениях Я модифицированный критерий более учитывает кри- критерий минимизации дисперсии о2(р, <pft), чем критерий Байеса максимизации среднего выигрыша. Если величина Яе[Я*, Я**], то значения х(р, <pfe), вообще го- говоря, знакопеременные при %еФ, т. е. нельзя говорить о прио- приоритете критерия Байеса максимизации В+(р, cpk) или критерия минимизации а2(р, %). Для выбора Я\в интервале [0, Я*] можно предложить сле- следующие точечные (щенки: Здесь а — произвольное неотрицательное число; р(р)—рас- р(р)—расстояние от р= (/?!, ..., рп) до средней точки (—,...,—) плос- п п кого множества ^ = |р:0: 21
(n \2V/z ( П \^ У \Pi ) =! У Pi I • Точечные оценки /-Л ПЧ \? ' п) k*a(p) удовлетворяют следующим двум аксиомам: 1) %*а{р0) = 0пщ Р(/?°) = 0, т. е. в случае равномерного распределения р° = = (—,...,—) модифицированный критерий совпадает с критерием \п п} Байеса; 2) Х*а (/?*) = К* при р (р*) = max р (р) = (—-) *, т. е. в слу- pt=An V П ) чае вырожденного распределения р* (одна из компонент кото- которого равна единице, остальные — нулю) дисперсия а2(р, <pft)=0 для любого ф^еФ. Таким образом, если орган принятия решений У считает, что величина К в модифицированном критерии к(р, <pk) удовлетворя- удовлетворяет неравенствам Os^A^A,*, то при использовании точечной оценки ^а(Р) принимается решение из условия максимума к(р, <pk) no Ф^еФ для %=Ха(р). Частными случаями точечных оценок\*(р) при а=0, 1,2 яв- являются величины я; (р) = Г, 1[ (р) = 1^—2— р (р) Г, Г2 (р) = —5- Р2 (р) Г. г /I — I П— 1 Для выбора К^[Х*\ 1] используются точечные оценки вида с неотрицательными а. Величины Яа* (р) удовлетворяют следующим двум аксиомам: 1) К*а (р°)= 1 при р(р°) = О, т. е. в случае равно- равномерного распределения р° = (—, ...,—) модифицированный кри- \п п/ терий совпадает с критерием минимума дисперсии; 2) Я? (р*) = ^*^ / п 1 \ У г при р (р*)= max Р(/?)= , т. е. в случае вырожденного распределения р* дисперсия а2(р*, фл)=0 для любого фАеФ и оптимальное решение принимается по критерию Байеса. Таким образом, если орган принятия решений У считает, что величина X в модифицированном критерии хл(р, <р&) удовлетво- удовлетворяет неравенствам Я**^Х^1, то при использовании точечной оценки i*a (р) принимается решение из условия максимума И (Р. фь) по Фа^Ф ДлЯ Я = Я а* (р) . Частными случаями точечных оценок Яа*(р) при а=0, 1,2 являются С0>)=1- 22
Для выбора Хе[Л*, X**] можно предложить следующие то- точечные оценки: где а^О, при этом точечные оценки удовлетворяют следующим двум аксиомам: 1) Ха(р°)=Я* при р(р°)=О, т. е. в случае рав- равномерного распределения р° = [ — ,...,—) в модифицирован- \л п I ном критерии большее предпочтение «дается» критерию Байеса; 2) ?«(/?*)= А,** при 9(р*)= max Р(р) = f "~~M * , т. е. в модифи- цированном критерии большее предпочтение «дается» критерию минимума дисперсии G2(p> cpft), причем о2(р\ фь)=0 для любого <pfe&(P и решение принимается по критерию Байеса. Таким образом, если орган принятия решений У считает, что величина Яе[Я*, Я**], то согласно модифицированному крите- критерию^ принимается решение из условия максимума к(р, qk) при Частными случаями точечных оценок Яа(р) при а=0, 1, 2 являются %0 (р) == V, %, (р) = V + У -±- Р (р) (X" -> г /г — 1 ?> (Р) = У + -^7 Р2 (Р) (Я." - Я,*). Л 1 Л — Вывод приведенных точечных оценок основан на использо- использовании оценки P + YPa(p) (So + 6i + 62V*), коэффициенты которой подбираются таким образом, чтобы удовлетворялись приведен- приведенные выше аксиомы для каждого из трех случаев расположения Я€=[0, 1]. 7. Условные решения. Информационной, ситуации 1\ со- сопоставим множество Ki рассмотренных ранее критериев приня- принятия решений Ki= {к\ , ..., и?}. Из множества Ki критериев принятия решений орган управления У выделяет один крите- критерий, который условно называется главным, а на остальные кри- критерии принятия решений налагаются ограничения. Поэтому ре- решение принимаемое органом управления У по главному крите- критерию при заданных ограничениях на остальные критерии из мно- множества Ki будем называть условным решением. Как для задач оптимизации, так и для принятия решений в частности характерным является задание ограничений либо в форме нера- неравенств Ci'^Xi'^Cy, либо в форме равенств %il=cil. 23
Заметим, что поскольку поиск оптимального решения сво- сводится к перебору конечного числа вариантов, то задание огра- ограничения в форме точного равенства в большинстве случаев яв- является не совсем корректным и приводит к отсутствию услов- условного решения. В противоположность этому ограничения в форме неравенств являются более естественными и позволяют органу принятия решений проводить своеобразный анализ по установлению «разумных» пределов значений величин с±1 и С/ нижней и верхней границ значений критерия кх1. Таким образом, если x^e/d— главный критерий, то услов- условные решения находятся из следующей задачи: (/=1,..., Г Частным случаем сформулированной задачи поиска услов- условных решений является случай, рассматривающий вместо мно- множества Ki подмножество Ki^Ki. Пример. Пусть Zj={xA %i2}, где х11=5+(р, срд), к*=а2(р, фО, причем вектор априорного распределения р= = (рь ..., рп) задан, а %^ — главный критерий. Ограниченное решение ф^ находится из условия + (р, Ф*о) = max В+ (р, ер*), с <^ а2 (р, срЛ) Ф/^Ф где ciy Ct — заданные положительные константы. В заключение заметим, что можно определить класс услов- условных решений без выделения главного критерия принятия решения непосредственно как решение системы неравенств (/=1, ...,/i). 2. БАЙЕСОВЫ МНОЖЕСТВА РЕШЕНИЙ Критерий Байеса дает возможность в информационной си- ситуации /4 исследовать проблему синтеза для определения опти- оптимального решения по распределениям вероятностей р= (рь ... ..., рп) на множестве состояний среды С. 1. Определение байесова множества решений. Рассмотрим (п—1)-мерный симплекс *Vi= (Pi, ... .Aw): 0<ру^1(/ = 1, ... , л — 1), У1 р/<1 L являющийся проекцией плоского множества Ап на (п—1)-мер- (п—1)-мерное пространство значений ^-первых (п—1)-й компонент вектора априорного распределения р= (ри ..., рп). Сущность задачи синтеза заключается в разбиении симплекса Рп-1 на такие множества S^aPn-i (k= I, ... , m), что 5П5Л 24
при ГйФ k\ О 5ФА = Рп-ъ где Л — пустое множество, причем для р е 5фу, оптимальным по критерию Байеса является решение ф^ еФ, т. е. при p^Sq,k имеем В+(р, cpk) = max?+(p, ф). Множество 5ф/,е будем называть байесовым множеством зна- значений априорных вероятностей р= (ри ..., pn_i) для решения cpft, при этом будем называть решение ф^Ф для p^S<tk байесовым решением, а величину В+(р, фЛ) на байесовом решении фА— оп- оптимальным байесовым значением оценочного функционала. Определим байесову поверхность оптимальных байесовых значений оценочного функционала F+ (или просто байесову по- поверхность) для всех р^Ап в виде , <рА). Задание байесовых множеств SVk{k=l, ..., т) позволя- позволяет органу принятия решений У сравнительно просто принимать оптимальные (по критерию Байеса) решения даже при неточ- неточном знании априорных распределений вероятностей р= (ри ... ..., рп) состояний среды С. Однако проблема нахождения са- самих байесовых множеств является сравнительно сложной мате- математической задачей разбиения (п—1)-мерного симплекса на множества SWk (в особенности для м^4). Если оценочный функционал задан в форме F~f то определе- определение байесовых решений, множеств и поверхностей проводится аналогично с заменой операции max на min. 2. Геометрический метод. Этот метод применим для неболь- небольшого числа состояний среды (п^А). Иллюстрацию этого мето- метода дадим для случая т = 3 и п=2 и 3. Для га=2 на графике (см. рис. 2. 1) вычерчиваются прямые, соответствующие мате- математическому ожиданию оценочного функционала для каждого решения ф^Ф= {<pt, ф2, ф3}> т. е. три прямые В+ (р, фх) = pfu + A - Р) ft = В+ (Р> Фз) — P/i3 + A — Р) /23 = Р (/i3 — /23) + /23, р = ри A^р)=р2, Р^[0, 1]. Тогда байесовы множества SV|, S^, S^ для случая, представ- представленного на рис. 2. 1, имеют вид 5ф1=[0, р±]; 5ф2= [р1? р2]; 5Фз= =[р2, 1], где Величины ^4 и р2 находятся соответственно из ус- условий пересечения этих прямых, т. е. из условий В+(ри ф1) = = В+ (ри ф2), В+ (р2у ф2) = В+ (р2, фз) найдем '22 '21 — '23 '22 ^1 f+ f+ {+ 1 f+ ' ^2 f+ f+ x:+ '11 '21 '12~T '22 '12 '22 '13 25
Рис. 2.1. Байесова кривая В+(р) Рис. 2.2. Байесовы множества 5ф ,'4'5ф , 5Фз При этом байесова кривая значений оценочного функционала представима в виде J5+(p, фА) для р 6= 5ф1? В+ (р) = 5+ (р, ф2) для р е S<p2, ^+ (Р> Фз) ДЛЯ Р S Sqv Вид байесовой кривой 5+(р) дан на рис. 2.1. В случае п=3 следует рассмотреть три гиперплоскости S+(P><P2)=>i/l2- В+ (Р> Фз) = Pifis + Р2/23 + A — Pi — Р2) /зз, пересекающиеся в общей точке, для которой Эти три гиперплоскости попарно пересекаются по прямым В+(р, (pi) =В+ (р, ф2), В (р, cpij== В (р, фз) > В (р, ф2)==.о (р, фз) > проекции которых на симплексе Р2 совпадают (рис. 2.2) с от- отрезками 07Г, 0'2', О^З7, причем точка О' — проекция общей точки трех гиперплоскостей имеет координаты (рД р20). Байесовы множества SVl, 5ф2, Бщ представляют собой разбиение симплек- симплекса Р2={(ри р2) ; 0<рь 0^р2, Pi + p2<l} этими проекциями. При этом байесова поверхность в пространстве значений {ри р2, В+} имеет вид >+(р, фх) при (рх, /?2)е5ф1, В+ (р, ф2) при (рх, р2) е 5ф2 '+ (Р> Фз) ПРИ (^ii Рг) ^ ^Фа- В общем случае геометрический метод построения байесова множества S9k в (п—1)-мерном пространстве значений ри р2, ... 26
..., pn-i для выбранного решения фА^Ф заключается в следую- следующем. Рассматривается система неравенств )>0 (i= 1, ..., m, Pi>0 (/=1, ..., n-1), 2 P/^l, 2=1 где Km <P) = 2 Pi {fit - m + A- 2 Pi) (tic - /5*). Таким образом, имеем систему (п+т—1) неравенств. Отсюда следует, что S9k представляют собой выпуклую замкнутую клет- клетку в (п—1)-мерном пространстве, причем под клеткой понима- понимается минимальное выпуклое множество (многогранник), натя- натянутое на свои вершины, которые полностью определяют клетку. Для нахождения вершин 5ФЙ следует рассматривать всевоз- всевозможные комбинации из (п—1) уравнений вида п-г 4W) = o, Л= о, 2J/v=i. Таких комбинаций может быть не более С^»2. Вершиной Scpfe будет всякая точка р= (ри ..., pn-i), удовлетворяющая си- системе неравенств и системе из (п—1) уравнений с ненулевым определителем. Однако этот способ не является рациональным, поскольку число комбинаций сравнительно велико (например, Cm+rt-i =35 при я=4, т=4). Процесс отыскания вершин байе- сова множества можно сократить, используя результат следую- следующего утверждения. Теорема 2.1. В (п—1)-мерном пространстве значений рь р2, ..., pn_i на любой прямой 77, определяемой одной из комби- комбинаций (п—1)-го линейных пар уравнений • - может быть либо две вершины 5Ф^, либо ни одной. Доказательство. Из ограниченности байесова множества Sq>k (&= 1, ..., т) следует, что на прямой П не может быть толь- только одна вершина. Докажем теперь, что их не больше двух. Пред- Предположим! противоположное, т. е. что на прямой П находится более двух вершин 5ф/г. Возьмем любые три вершины Ми М2, М$, и пусть точка М2 лежит на П между Mt и Ms. Перенумеруем уравнения, приведенные в формулировке тео- теоремы произвольным образом, например, первые (п—1) уравне- уравнений 6фт(р) = 0 имеют номера 1, 2, ..., (т—1) в соответствии 27
с i при i<k и (t'+l) при i>k\ далее (п—l) уравнения pj=0 имеют номера m, ..., (\Ш + п—2) в соответствии с (m + j— 1); и, наконец, последнее уравнение ^ Р/ = 1 имеет номер (т + п— 1). Будем обозначать через / номер уравнения системы, приведен- приведенной в формулировке теоремы. Пусть Еершины М1у Л12, М3 получены как решения систем урав- уравнений с номерами (/}, Ц ... , tf_i), (Й, Й, ... , ZJL), (/?, Я, ... , tf-i), причем отличны от нуля определители систем уравнений для каж- каждой из трех точек. Тогда существует хотя бы одна гиперплоскость с уравнением l2Sy проходящая через точку М2, такая, что точки Мг и М3 лежат в разных полупространствах, отделяемых этой плос- плоскостью. Это значит, что для точек 7ИХ и М3 значения Ь\(р) про- тивоположного знака, чего не может быть по определению мно- множества Syk. Здесь Ь\ (р) = 0 — уравнение гиперплоскости L. Полу- ченное противоречие доказывает, что неверно сделанное предполо- предположение о существовании трех вершин М19 М2, М3 множества Sq>kf лежащих на одной прямой. Следствие. Если две системы уравнений с номерами Aи ... ..., /п_2, /n-i) и (Л, ..., /n-2, D определяют две различные вер- вершины байесова множества S4>ky то не существует номера ln+i та- такого, что система уравнений с номерами Aи 12, ..., /n-2, ln+i) по- порождает вершину 5,pfe, отличную от этих двух вершин. Теорема 2.2. Если координаты какой-либо вершины М байесова множества S(f>k удовлетворяют (п—1) уравнению с но- номерами Aи ..., /n_i) при ненулевом определителе и точка М не лежит ни на одной из гиперплоскостей, определяемых уравнения- уравнениями с номерами I, не равными 1и ..., 1п-и то эта вершина М образована (п—1) ребрами границ Г множества 5ф/5г. Доказательство теоремы следует непосредственно из того, что (п—1) различных гиперплоскостей в (п—1)-мерном евкли- довОхМ пространстве, пересекающихся в одной точке, определя- определяют (п—1) различные прямые, проходящие через эту точку. В заключение отметим, что сущностью геометрического ме- метода построения байесова множества 5ф/г является нахождение не всех вершин S,^, а лишь тех, из которых выходит не менее (п—1) различных ребер. После этого множество 5Ф& является симплексом, натянутым на эти вершины. В свою очередь, на- нахождение таких вершин облегчается использованием теорем 2.1, 2.2. 3. Функциональный метод построения байесовых множеств. Рассмотрим сначала случай двух решений ср^ и ф*2 е Ф. Обоз- Обозначим через 5Ф^1 и Бщ байесовы множества для решений ф^ и фа>2- 28
Для всех значений вектора р е S^ имеет место неравенство В+(р, Щ1)>В+(р9ц>ьл). Аналогично ?+(р, <Vk2)>B+(p, ф*,) для всех значений вектора peS?v Граница Гф^ф^, разделяющая множества Бщ2 и S«pv определяется' условием В+\р] ф^) = ?+(р, ф*2) пересе- пересечения двух гиперплоскостей В+(р, ф*2) и ?+(р, ф^). Заметим, что граница ТЩщ может проходить вне симплекса. В этом случае либо Бщ = Л, либо S9k = TV. Обозначим Ьщгщш (р) = = 5+ (р, q>*t) — Б+ (р, ф*2). Если min 6Ф* щ (р) > 0, то 5Ф, = P^i, a 5Ф^=Л, если же jnax Ьщ^ (р) < 0, то Sq^ = Л, а 5Ф^2 = Pn-i. При выполнении условий _min Ьщщ (р) < 0, jmax Ьщщ (р) > О граница ТЩщ пересекает симплекс Pn-i. При этом точка р* = = (р*, .. . , р^), для которой Ьщщя (р*) =^тах ЬФ/?1ф^ (р), принадле- Р^Рп-1 жит байесову множеству Бщ , а точка р**=(р**, ... , Р^1а)» Для кото- которой 6ФЛ1фА> (р**)= jmin 6фЛ1ф^ (р), принадлежит 5Ф^, т. е. р"*е5ф/?1,]о**е е5ф^, Если условиться при &х <^2 относить границу Тф^щ^ к байесову множеству Syk (а не к Бщ), то все точки р симплекса /Vb для которых Ьфд,^ (р) > 0, образуют байесово множество 5ф/г^ а все точки /Г симплекса Рп-ъ Для которых ЬФ/г^ (р)<СО, образуют бай- байесово множество Sn. Построение байесовых множеств для случая нескольких ре- решений (т>2) может осуществляться либо совместным рассмо- рассмотрением всех возможных пар решений, либо последовательно от двух решений к трем, от трех к четырем и т. д. Соответственно этому рассмотрим прямой метод решения задачи построения байесовых множеств и многошаговый метод последовательного увеличения числа решений. Прямой метод построения байесовых множеств для несколь- нескольких решений заключается в следующем. Для множества реше- решений ф={фь ..., фт} можно составить следующие пары реше- решений: (Фи Фг)> (Фь Фз)> (Фь Ф4)> • • • » (Фь Фт) —всего (пг— 1) пара, (ф2, Фз), (Ф2> фД • - • » (Ф2> ф/«) —всего (пг— 2) пары, (Фз, Ф4), • •. , (ф3> Фт) — всего (пг— 3) пары, (фт-i, фт)— 1 пара, и для каждой пары (фг, фл) разбить симплекс Рп-4 на два соот- соответствующих байесовых множества. 29
Обозначим через SykW{ байесово множество решений в группе только двух решений (фА, <рг). Тогда т 5ф» — П 5ф1|Фг 1=2 Для части симплекса Р^ХДр, байесово множество S^ нахо- находится в виде 1=3 После этого рассматривается часть симплекса [Pn(?1 для которого байесово множество S^ определяется в форме т 5фз = [^л-1\Eф1 (J 5ф2)] П $ыФг Продолжая этот процесс далее аналогичным образом, опреде- определим Г fe-i I m ~ г /г~1 \U ^s П Перейдем к формулировке многошагового метода последова- последовательного увеличения числа решений при построении байесовых множеств. Пусть решена задача построения байесовых мно- множеств для решений из множества (Х^сгФ, где Oi={<pi, ... ..., ф™,}. Обозначим через5ф1|ф1, ... , 5Ф/п\ф1 байесовы множе- множества решений <pt, ..., фт, в условиях ситуации принятия реше- решения {Фь Э, F+]. Присоединим к множеству решений Ф{ еще одно решение фт,+ь тогда, рассматривая следующие пары ре- решений: (фь ф«,+ 1), (ф2, фяц + l), • • • » (фш„ фт,-н), определим соответствующие этим парам решений границы V V Г бз уравнений *Ф.Ф„,1+1 (Р) = °. ЬФ^1+1 (Р) = © &Фт,Фт1+1 (Р) = °- Граница Гф/Ф 2 для пары решений (ф/, фт1+1) разбивает симплекс Prt_x на два подмножества: SV|lV|Ili+1 и ^\5 S Определим два множества 1 П ^Ф^ФтхИ И В первом из этих множеств оптимальным байесовым реше- решением является решение ф* в ситуации принятия решения {Ф1иФт,+1> е> F*}> т- е- 5ф11ф1 П ^№mi+i является байесовым мно- множеством для решения ф<, которое обозначим через 30
Второе множество Sq^+^uq^+i (q>f) = 5Ф.1Ф1 П 5Фтд+1|Ф; являет- является частью байесового множества для решения cpm,+i в ситуации принятия решения {Oi(J<pm1+i, в, F}y и, следовательно, можно определить полное байесово множество для решения фт,+1 в си- ситуации принятия решения {<Pi(Jq4+i> в, F} следующим образом: Эти рекуррентные равенства позволяют произвести построение байесовых множеств при любом количестве решений в ситуации принятия решений {Ф, G, F}. Заметим, что байесово множество некоторого решения фА, в ситуации принятия решения {Ф, 6, F+} обладает следующим свойством: где 5ф^,ф1иф—байесово множество решения ф/?1 в ситуации при- принятия решения {Ф (J Фх, 6, F+}. В частности, если 5Ф/^}ф = Л — пустое множество, то «S »ф = Л всегда при условии, что ФсФ. Однако если S^ ,5 = Л, то может оказаться, что 5ФА;|ф=^=Л при условии Фсф, Для осуществления: многошагового метода последовательного увеличения числа реше- решений при построении байесовых множеств 'необходимо найти знак наибольшего и наименьшего значения функции Ьф.Фт+1(р) = = В+ (/?, ф,-) — 5+ (/?, cpm1+i) при р г Sq,,^. Пусть при этом окажется,. что ^min ^mi+1(/?)>0, тогда 5ф.(Фт1+1 = Л, если же ^5|ф _ max 6ф/Фот1+1 (р) < 0, то 5ф.1Ф1иФт1+1 = Л — пустое множество, при- р^5^ф чем для 5Ф/,Ф1=^Л будет SVm4+l№ Если выполнены условия _min b^Q (p)<0, max то для построения байесова множества 5ф.|ф1иФ/П1+1 необходимо к системе ограничений, определяющих множество *S<p^, добавить не- неравенство ЬФ/Фт1+1 (р) > 0, а для образования множества ^Фтги^иФ/яхи^') Добавить к этой же системе ограничений нера- неравенство Vl1+i(P)<°- Наконец, если для всех решений ф/ на 6aj&ecoEbix мкожествах имеет место неравенство min Ьф.ф х(р)>0, то решение р^1Ф Фт,+1 не является оптимальным ни для одного р в ситуации при- принятия решений {<DiLtopmi+1, в, F+}. Если же окажется, что для любых ф*еф4 выполняется неравенство max ^+1Й, 1 31
то решение q>mi+1 оптимальнее (в смысле критерия Байеса) всех решений ф^Ф^ Таким образом, многошаговый метод последовательного уве- увеличения множества решений Фа на решение <pTOl+i может приве- привести к следующим случаям: 1) к присоединению нового решения фЖ1+1 к числу оптимальных решений, если хотя бы для одного из решений (p^Oi выполняется неравенство min 2) к отклонению нового решения (pmi+i, если для всех решений р выполняется неравенство min 3) к сохранению для ситуации принятия решений {O|J<Pm,+i» ©> F+} в числе оптимальных байесовых решений всех тех решений Oi, для которых выполнено неравенство 4) к исключению для ситуации принятия решений {OtlJqWi, в, F+} из числа оптимальных по критерию Байеса всех тех реше- решений фг^Фь для которых Задача отыскания знаков наибольшего и наименьшего значе- значений ^фШ1+1(р) при p^S^o, должна быть решена для каждо- каждого нового решения фт,+1 столько раз, сколько оптимальных по критерию Байеса решений было на предыдущем шаге в множе- множестве Oi. 4. Метод вариации контрольной точки при построении байе- байесовых множеств. Под контрольной точкой будем понимать фик- фиксированное значение вектора априорного распределения состоя- состояний среды р°= (р^, ..., pn°)(=;An. Исследование этого метода начнем с примера, в котором за- заданы три состояния среды 6={0i, Э2, 83}, три решения Ф= = {фь фг, Фз}, значения оценочного функционала F+={f^} и контрольная точка р°= {/?Д р20, Рз°) приведены ниже: Р © <Pl Ф2 Фз pj = o,3 ex о 2 1 р1 = о,35 е2 5 з о ро = О,35 93 1 0 4 32
Вычислим байесовы значения оценочного функционала на решениях <рь <р2, ф3 при р=р°: В+(р°, ф±) =2,1; В+(р°, ф2) = 1,б5; В+(р°, Фз) = 1,7; причем оптимальное байесово значение оце- оценочного функционала равно В+(р°) = В+(р°, ф1)=2,1. Если обозначим через SVl, S<p2, 5Фз байесовы множества для решений фь фг> Фз» ТО p°€ES(pr Построим границы байесовых множеств в следующем поряд- порядке. Из решений (ф2, ф3) определим решение ф,, для которого В+(р°, фг)=тах{В+(р°, ф2), В+(р\ фз)}. В нашем примере /=3, так как В+(р°, ф3) >В+(р\ ф2). Опре- Определим величину 81г(р°) =В+ (р°)—В+ (р°, ф3)=0, 4. Для границы Гф.срзСгРп-! пары байесовых решений (фь ф3) выполняется усло- условие б13(р)=0. В нашем примере 6i3(p)=7^0, поэтому [р°^Гф1Фз. Отсюда, для того чтобы 6i3(p)-^0, следует увеличить pj в той строке матрицы оценочного функционала, в которой значение оценочного функционала /д<//3, либо уменьшить pj в той строке матрицы оценочного функционала, для которой //1>//з. Рассмотрим вектор разности dZi первого и третьего столб- столбцов матрицы значений оценочного функционала /18\ / '11\ /1—0> \4-i/ V з; Введем в рассмотрение вариацию исходной контрольной точки р° в виде р=р°+Ч> т- е- Л=Л°+% (/=Ь •••> Л)» гДе я реДп; ^ р/= 1; ^ Р\в ^ 2 ^ " ^" Вычислим скалярное /=i /=i /=i произведение (9, d) векторов 9 и rf31: (9, d31)=ql—5q2 + 3q3. Найдем две точки р1 и j^2, лежащие на границе Гф1фз, на осно- основе рассмотрения следующих двух случаев. В первом случае определим вектор #1= (?Л ^Л ^з1) из условий (q\ dn) = q\- bq\ + 2>q\ == б13 = 0,4, q\ =0, q\ + q\ + ^=0. Решением этой системы уравнений является вектор qi=@\ —0,05; 0,05) с компонентами <7ii=0> Qzi = — 0,05, ^31=0,05. От- Отсюда найдем, что первая точка р1 вариации вектора р°, опреде- определяемая в виде pi = p° + q\ представляет собой вектор ^=@,3; 0,3; 0,4), компоненты которого удовлетворяют уравнениям для границы Гф1фз. Во втором случае определим век гор qz= (tyi2, q2z, qs2) из усло- условий Решением этой системы уравнений является вектор q2= @,067; —0,067; 0) с компонентами ^2 = 0,067, q22 = —0,067, ?32 = 0. Отсю- 2 Р. И. Трухаев 33
да следует, что вторая точка р2 вариации вектора /?°, определяе- определяемая в виде p2=p°+q2, представляет собой вектор р2= @,367; 0,283; 0,35), компоненты которого удовлетворяют уравнениям для границы Гф1Фз. Таким образом, две точки р1 и р2 однозначно определяют границу Г<р1(Рз, проходящую через точки р* и р2, как прямую вида "рПГ или в канонической форме pi=ctlpz+bi. Следовательно, могут быть найдены два условных байесовых множества 5ф1,Фз и S%№l. Аналогичным способом могут быть построены байесовы множе- множества 5ф1,ф2 и S^tor Рассмотрим вектор разности второго и первого столбцов матрицы значений оценочного функционала Вариация р исходной контрольной точки р° определяется з виде ?=р°+<?, при этом скалярное произведение (q, d2i) век- векторов q и dai равно в нашем примере (q, d2l)=2qi—2q2—qs. Найдем две точки р1 и р2, лежащие на границе Гф1Ф0, из рас- рассмотрения следующих двух случаев: q2=0; q3=0. В первом случае определим вектор qi=(qi\ q2l, q^) из ус- условий (<7\ d21) = 2q\ - 2q\ - q\ = б12 = 0,45, q\ = 0, Решением этой системы уравнений является вектор ^1=@,15; 0; —0,15), и, следовательно, первая точка j?1-вариации вектора р° находится в виде рх=:@9А5; 0,35; 0,2). Во втором случае вектор q2= (#Д q22, q32) определяется из условий {q\ d21) - 2q\ - 2q\ - q\ = fi12 = 0,45, q\ = 0, Решением этой системы уравнений является вектор ^2= @,1125; —0,1125; 0), и, следовательно, вектор р2 имеет вид р2^ @,4125; 0,2375; 0,35). Две точки р1 и р2 однозначно определяют границу Гф1ф2 в ви- виде прямой с уравнением Pi-Pi Pi-Pi или в канонической форме pi=a2p2+b2, где а2«0,33, &2«*0,33. 34
Таким образом, граница Гф1ф2 позволяет найти следующие два условных байесовых множества: 5ф11ч>2 и S<p2hPl. Наконец, перейдем к построению условных байесовых мно- множеств SV2|<P3 и 5Фз1Ф2. Рассмотрим вектор разности d23 второго и третьего столбцов матрицы значений оценочного функционала Вариация р исходной контрольной точки р° определяется в виде p=p°+q, при этом скалярное произведение (q, d23) векторов q и dZ3 равно (q, d23) = qi + 3q2—4<73. Найдем две точки р1 и р2, лежащие на границе ГФ2Фз, из рас- рассмотрения следующих двух случаев: </i=0, #2=0. В первом случае определим вектор qi=(qi\ qz\ q^) из усло- условий (я\ d23) ~q\ + 3ql - 4</J = б32 - 0,05, q\ - 0, в виде 91==@; 0,007; —0,007), и, следовательно, первая точка р1 вариации вектора р° равна pi= @,3; 0,357; 0,343). Во втором случае вектор q2= (9Л q*, q*) находится из усло- условий (Я2, dn) = q\ + Sql — 4?; = 0,05, q\ = 0, q\ + q\ + q\ = 0 в виде 92=@,01; 0; —0,01), и, следовательно ?8=@,31; 0,35; 0,34). Уравнением для границы Гф4Фз является Pi — Р2 — Р2 =\Р = (А. А) пли в канонической форме pi = a3p2+b3, где а3 ——1,43, 63^0,81. Таким образом, байесовы множества. 5ф1, 5ф2 и 5Фз для рас- рассматриваемого примера найдены (рис. 2.3) 0<A<l»0<A<!.Pi +А<1 А > — 4р2 + 1,5, Pi <0,ЗЗра + 0,33 °^Л^1>0^р2^1, Pi + p2^l Pi > — 1,43р2 + 0,81, рх > 0,ЗЗр2 + 0,33 + 1,5 = )Р = (Pi, p2) — 1,43р2 + 0,81, В рассматриваемом примере все байесовы множества S,,, 5ф2 и S<p3 имеют общую точку А с координатами рА=@,42; 0,27). 35 2*
Байесова поверхность значений оценочного функционала F+ в этом примере имеет следующий вид: Ий-Л + 1 при (ft,ft)eS?1, В+ (ft, Р2) = 2Л + Зр2 при (а, Л) е 5ф2> 1 —Зл —4д+4 при (ft, p2)e=Sv,, Обратимся теперь к рассмотрению общего случая. Пусть P°=(Pi\ -.., Рп°)—заданная контрольная точка р*<=Рп-ь Найдем байесовы значения оценочного функционала на реше- решеФ ° ниях при р = р° Определим такое решение условие В+ (ро) = В* [р\ ф^0) = шах В+ (р\ фЛ), Ф , для которого выполнено тогда §hok=B+(p\ фь0)—В+(р°, фь) для всех решений ф^ а векторы dhkQ разности k-то и &0-го столбцов оценочного функ- ционала F+ находятся по правилу Введем в рассмотрение вариацию р= (pi, ..., рп) исходной контрольной точки р° в виде р=° где п Рис. 2.3. Байесовы множества Для каждой пары реше- решений (ф*0, ф/,) найдем ск алярное произведение п (q, dkk0) = ^ qjdUo .Граница Гф^ф/г, разделяющая услов- 36
ные байесовы множества Syk |ф/е и 5п\щ , определяется путем расчета (п—1)-й вариационных точек р1, р2, ..., /У1" на основе решения (п — 1)-й системы линейных алгебраических уравнений для нахождения векторов q1, с/2, ..., цп~г\ (q, dkk0) = 6**e; q}- = 0; 4J fl'/ = 0. Тогда уравнение гиперплоскости, которая является гра- ницей Гф^ф^, проходящей через точки Р1 = (Й Й, .. •, Й-Л • • • > ^ = (Р*~\ •. ^, ЙЦ), определяется следующим образом: ~1 "~1 1 L Ръ Р% Г2> • • • > А>Л-1 Рп-1 Pi — Pl> P2 — P2, • • • , Prt-1 — P«-«l = 0. После построения условных байесовых множеств S^k |ФЛ байесово множество S<pk определяется в виде 5Ф^ = П 5 0 ° ф/еФ Далее процесс построения байесовых множеств продолжа- продолжается аналогично изложенному методу. 3. БАЙЕСОВЫ ПОВЕРХНОСТИ В начале предыдущего параграфа дано определение байесо- байесовой поверхности оптимальных байесоЕых значений оценочного функционала. Свойства байесовых множеств S^ тесно связаны со свойствами байесовой поверхности В(р). Перейдем к рас- рассмотрению этих свойств. 1. Аналитическое представление байесовой поверхности. Байесова поверхность В+{р) для любой точки (ри ••-, pn_i)e еРп_! при рп=\— 2 Pi определяется уравнением В+ (р) = max Б+ (р, щ) = max ^ pjfjk +1 1 — ^ Pj )fnk . Метод аналитического представления байесовой поверхно- поверхности (см. рис. 2.1) заключается в выполнении следующих про- процедур. На первом шаге находится величина М—1 / Л-1 \ вТ (р) = в+ {р> фх) = ^ pifjx + 1 — 2 л 1 /™» 37
на втором шаге — = 1 {Bt (р) + В- (р, ф2) + \Bt(p)-B+ (р, ф2) [}. Далее, продолжая этот процесс аналогичным образом, получим на т шаге искомое В+ (р) в виде В*(р) = max {Bt-x(р), В+ (р, Фт)} = 1 {?+_, (р) + В+ (р, Фт) + + \В+т-1{р)-В+(р, ФтI>. Построение процедур этого метода основано на представлении тах[а, 6]= у [а+6+ |а—Ь\] для любых вещественных чисел а и Ь. Указанный выше метод аналитического представления байесовой поверхности является весьма простым и может быть эффективно использован для вычислений на ЦЭВМ. Возможны еще и другие аналитические представления байе- байесовой поверхности, например m В+(р) = max В+(р, щ)=* max 2 а^+(/7, ф/е), Ф Л ( где а = (аь ... , ат), Ат = а: 0 1 Л-1 Р = Задача нахождения байесовой поверхности ?+(р) для всех в этом случае сводится к решению задачи параметриче- параметрического линейного программирования. 2. Свойства байесовой поверхности. Используя определение и аналитические представления байесо- байесовой поверхности, можно получить различные ее свойства, основ- основные из которых приводятся далее. Теорема 2.3. Байесова поверхность В+(р) непрерывна, кусочно-линейно ограниченна и выпукла по р^Дп. Свойства непрерывности и кусочно-линейности байесовой по- поверхности непосредственно следуют из аналитических представ- представлений. Возьмем две произвольные точки р1 и р2&Д„; тогда В+ (Хр1 + A - X) р2) = max 5+ (кр1 + A — Х)р», <р*) = Ф*е=Ф max [ХВ+(р\ фЛ) + A - ЯM+(р2, <рл)] ^ 38
max \B+ (p1, <pk) + max A — %) B+ (p2, <pft) = Ф Ф Отсюда следует, что В+{р) выпукла. Важной характеристикой байесовой поверхности является величина Bt = maxB+(p)— min В+(р), значение максималь- максимальней peArt ной возможной вариации значений функций В+(р) при реДп. Действительно, если Во+ близка к нулю, то по критерию Байеса решения ф^Ф эквивалентны и, следовательно, орган принятия решений У может не реагировать на изменение состояний сре- среды или распределений реДп. В связи с этим можно определить максимально возможный порог различимости (эквивалентно- (эквивалентности) порядка е>0 такой, что решения фьеФ неразличимы (эквивалентны), если B0+^z&, и различимы в случае В0+щ>е. Пусть в n-мерном пространстве значений (рЛу ..., pn_i), B+ задана гиперплоскость В+=у, где параметр у удовлетворяет неравенству min B+ (/?) ^ Y ^ шах В+ (р). Рассмотрим множество S^czPn-if граница которого есть про- проекция на симплекс Pn_i пересечения байесовой поверхности ( \ В+1ри ..., рп-и 1—^ р; с гиперплоскостью уровня В+ = у. Множество 5Т выпукло, поскольку оно является проекцией на Pn_! выпуклого плоского множества, образованного сечением выпуклой байесовой поверхности гиперплоскостью В+=у. За- Заметим, что ST является ограниченным выпуклым многогранни- многогранником. Ограниченность STdPn_i следует из ограниченности сим- симплекса Рп-и а свойство 5Т быть многогранником следует из того, что байесова поверхность кусочно-линейна. Лемма 2.3. Пересечение множеств Sv по всем у^ е [min B+(p), maxВ+(р)] непусто, т. е. П SV А л Доказательство леммы следует из следующего утверждения: SvdSv для любого у^ [у, max В+ (/?)], где у = min В+(р), при- д ь чем множество Sy=?At так как по определению Sy — {(рх, ... ... , Pn~i)^Pn-i'-B+(p) = у} при p = \plf ...,Рл-ь 1 — S^f» поскольку min В+ (р) = "у достигается по теореме Вейерштрасса РеАЛ для непрерывной и ограниченной функции В+{р) на ограни- ограниченном замкнутом множестве А„. 39
Заметим при этом, что множество S1 может состоять либо из одной точки р^Рп-и либо представлять собой выпуклое много- многогранное множество. Лемма 2.4. При Yi>V2 и Yi, у2 e [min В+ (р), max B+ (р)] имеем, что ST2czSTi, т. е. при увеличении у множества ST расши- расширяются. В качестве следствия к лемме 2.4. получим следующее свой- свойство 5Т: |i(STi) ^jji(ST2), т. е. fi(SY) является монотонно возра- возрастающей функцией 7» гДе I*(ST) —мера множества ST в про- пространстве (pi, ..., pn-i), при этом max|iE1r)=jui(iPn_l) при v у= тах?+(р). А Определим множества S$k для ф^бФ и 7е [minS+(p), max В+(р)] следующим образом: 5ф/е = 5V fl 5Ф^, при этом S7 = m = и^Ф/г> т« е» множество Sv может состоять только из под- множеств байесовых множеств S<pfe для решений ф/геФ. Рассмотрим множество &т={&=1, 2, ..., т: (x(S^ )=7^0}, и пусть тт — мера ^т, т. е. число различных k^№. Свойства монотонности |Jt(vST), |хEфА) и тт при увеличении у могут быть получены на основе лемм 2.3, 2.4. Таким образом, рассмотрение байесовой поверхности В+(р) и ее аналитических представлений позволяет определить для ор- органа принятия решения У следующие характеристики процесса принятия решений по критерию Байеса: Во+, ST, S?A , \x(S^)y |хEф*), №, mT и их производные по у. Использование этих характеристик позволяет, с одной сто- стороны, определить для органа принятия решений уровни и меры различимости решений и распределений вероятностей состояний среды, а с другой — формулировать различные обобщенные ха- характеристики процесса принятия решений по критерию Байеса, например/nVn(S*), (x E^EY), [y-min ?+(p)]/fx(Sv). A 3. Свойства байесовых множеств. Для решения фА^Ф байе- сово множество S^^czPn-i было определено ранее в виде n-i: B+ (p, q>k) = max B+ (p, ф)}, &ф 40
Лемма 2.5. Байесовы множества 5Ф^(^= 1, ..., т) вы- выпуклы. Доказательство леммы следует из того, что если (Pl> ••• > Pn-i)> (P2v •• > РЛ-х^^фл» с °ДН0Й стороны, получим В+ (Xpi + A _ %)р\ щ) = %В+ (р\ фл) + A _ *,) В+ (р2, ФА) = = % max 5+ (р\ ф) + A — X) max B+ (р2, ф) > > max [XB+ (р\ Ф) + A — X) Б+ (р2, Ф)] = = тах5+(^ ф^Ф а с другой стороны Следовательно, A - J^)P2, Ф), что указывает на принадлежность точки Хр{+A—%)р2 к S,ft. При этом в качестве векторов р1 и р2 используются векторы Кроме того, байесовы множества S4>k при ф^еФ могут быть получены как разбиение симплекса Рп-± при проектировании выпуклой кусочно-линейной байесовой поверхности, причем гра- границы Гф/Ф? байесовых множеств Sn, S^ получаются как соот- соответствующие проекции на Рп_4 ребер байесовой поверхности В+(р). Отсюда также следует выпуклость байесовых множеств. Подобное представление дает возможность сформулировать еще один метод построения байесовых множеств SVfe(fe=l, ... ..., т) на основе нахождения ребер байесовой поверхности и их проекций на Pn-i. Эти ребра находятся как пересечение байе- байесовой поверхности хотя бы с одной из гиперплоскостей В+ = = 5+(р, фА), т. е. как решение одного или нескольких уравне- уравнений вида В+ (р) = В+ (р, фА). Далее получим, что из свойств выпуклости множеств S? и 5ФА, следует выпуклость множеств 5jA. Заметим, что мера границы Гф/Фл байесовых множеств 5Ф/ и Sn (i=fck) в пространстве (Pi> • • •» Рл-2) может быть отличной от куля. 4. Применение метода статистических испытаний. Схему вы- вычислений методом статистических испытаний можно построить следующим образом. 11
Шаг 1: берется реализация plz=z(pl\ ..., рп1) случайного равномерного распределенного вектора, закон распределения Р= {Ри . • ¦, Рп) которого задан в виде А = 1 - ^Яь n-i+i - VI-6/). Prt = (l — Pi— ...—p/l-l)g», где g,-— равномерно распределенная на [0, 1] случайная вели- величина. Значения g,- вычисляются последовательно в виде ?/ = |Р/(Р/|Рь ... , Phi)dph о причем А(А) = лA — Р1ГЛ Р/(Р/|Рь ••• » Рм)= " 5п (Ря | Pi, • • • у Pn-i) = A —Pi— ... -рм> 1 A-/7!- ... -рл^) Шаг 2: вычисляем 5+(pz, фЛ) по формуле и находим ф^еФ из условия 5+(^05(^) Шаг 3: повторяем N раз шаги 1 и 2, Шаг 4: вычисляем среднюю величину байесова значения оце- оценочного функционала на решении фьеФ в виде 5+Ы=— S Я+(Р',Ф*). Шаг 5: находим байесово решение фйо из условия 5+(ф*в)= max Оценка сходимости метода статистических испытаний с до- достоверностью A—е) и точностью б может быть получена на ос- основе неравенства Чебышева в виде 8=\В+(ц>к)—В+(р°, )|^ 42
где p° — истинное распределение вероятностей, а для дисперсии а имеем оценку Задав величины б и считая величину N достаточно большой (такой, что можно применить оценку нормального закона), с достоверностью 0,997 найдем оценку числа реализаций N92/6\ Для решения конкретных задач принятия решений по крите- критерию Байеса можно использовать следующую статистическую оценку дисперсии: а^Д, причем ( 1 ^1 г» Г 1 где пк — число реализаций р1 +(р',ф*)Т1. Л 4. ЧУВСТВИТЕЛЬНОСТЬ БАЙЕСОВЫХ РЕШЕНИИ 1. Анализ чувствительности. Построение байесовых множеств дает возможность произвести анализ «чувствительности» байе- сового решения, определяемого контрольной точкой распределе- распределения вероятностей состояния среды по отношению к другим бай- есовым решениям из множества Ф. Вопросы определения «чувствительности» байесовых реше- решений приобретают особую важность, когда у органа управления У возможны ошибки (объективные или субъективные) в опреде- определении вероятностных оценок распределений р,- состояний среды Э^в(/=1, ..., п). При этом возможны два основных случая. Первый случай, когда ошибки определения контрольной точки образуют множество в симплексе Рп-и полностью входящее в одно из байесовых множеств. В этом случае очевидно, что «ма- «малые» ошибки в определении контрольной точки не влияют на принятие байесового решения. В противоположном случае по- подобное множество ошибок может пересекаться с несколькими байесовыми множествами. Это, естественно, делает проблему принятия оптимального байесового решения менее определен- определенной. Сказанное выше вынуждает орган управления У произво- производить расчеты некоторых крайних границ возможных изменений исходной контрольной точки, в пределах изменения которых байесово решение определяется контрольной точкой, или, ины- иными словами, определять уровень значимости чувствительности байесового решения. Сформулируем проблему чувствительности в общей форме. Пусть задана контрольная точка р°^Ап. Обозначим через фйоеФ байесово решение, соответствующее контрольной точке р°, тогда (Р?> • • •» Pn-i)e $щ . Под условной чувствительностью байе- 43
сового решения ф^еф к байесовому решению ф^еФ будем по- понимать расстояние min l/ ^ fa - р?) от множества 5Ф^ до проекции (pj, ..., pj^) контрольной точки р°еДп на симплекс Рп-\. Тогда чувствительность байесова ре- решения ф^ определим в виде р*0 = min Pkk, = min Р (р°, Sn). Ф Ф В последней формуле минимум может быть определен при щ ^ Фф^, где множество Фщ состоит из тех решений, байесовы множества которых имеют общую границу с байесовым множе- множеством Sq>k , т. е. рко= min P(p Если через R^ обозначить сферу радиуса р^0 в пространстве {Pit • • • > pn-i)y то RPk с 5Ф^. Поэтому, если ошибки в определе- определении контрольной точки р° лежат в сфере RPk, то эти ошибки не влияют на принятие байесова решения ф*0. Таким образом, чувствительность байесовых решений есть численная мера, характеризующая степень влияния ошибок в определении проекции (p°v ..., р°п^ контрольной точки р° в сфере i?pfto радиуса pfto на принятие байесова решения фАо. Есте- Естественно, что чем больше радиус р^, тем менее чувствительно байесово решение ф^0 к ошибкам в определении контрольной точки р°, и наоборот, чем меньше рйо, тем более чувствительно байесово решение фАо к ошибкам в определении контрольной точки р°. Приведем некоторые способы расчета чувствительности бай- байесовых решений. 1. В случае двух состояний среды симплексом Pt является отрезок [0, 1] изменения априорной вероятности p — P(Q = Qi). На рис. 2.4 представлены для примера байесовы множества 5Ф1= [0, pj, 5ф2= [ри ра], SV3= [ра, 1], где Ф= {ф4, ф2, фз}, и кон- контрольная точка р°. При этом рф2 есть расстояние от контрольной точки р° до байесова множества 5ф1, т. е. рФ,=р°—pi9 а #Рф2 есть интервал (р4> р40), где р1°=2р°—рх. Поэтому, если чер'ез гр« обозначить симметричный интервал ошибок определения кон- контрольной точки р°, то при /ус=:7?Рф2 решение ф2 остается байесо- байесовым решением, и максимально возможный радиус ошибок ин- интервала ошибок гр°, при котором ф2 остается байесовым реше- решением, определяется величиной рф2. При большом радиусе интер- интервала ошибок последний пересекается с байесовыми множества- 44
ми 5ф1 и \S<p2, что затрудняет расчет оптимального по критерию Байеса рашения. 2. В случае трех состояний среды контрольная точка р° при- принадлежит райесовому множеству S<pko. Обозначим через БЩ9 ..., S«pA\ байесовы множества, имеющие общие границы ГФЛ§ФЛ1, с байесовым множеством S^ соответственно. ч>к Обозначим через р° = (pj, р°) координаты проекции контрольной точки на Р2, а через Л^ + Вк.р2 + Ckl = 0 обозначим уравнение гра- границы ГФл#<рЛ/. Рис. 2.4. Определение радиуса чувствительности р ф2 байесо- ва решения Ф2 в двух состоя- 0 j Pf P^S P? Pz S ^ P ниях среды Pf Pz Pj Если умножить левую часть на нормирующий множитель 1 1 . = ± где знак [л^. противоположен знаку Ckp то это уравнение может быть представлено в нормальной форме р± cos aki + p2 sin a^ — — р^? = 0, где cosofy, sinaAi. и р^. определяются через Akp Bkt, Ck( естественным образом. На основе уравнения в нормальной форме расстояние Р^ от контрольной точки до границы ^щщ. байесовых множеств Syko и 5Фй. может быть рассчитано по формуле (рис. 2.5) p^fe = = |р°± cosakt + p\ sin ak. — pkt |, при этом радиус чувствительности байесова решения ф/ео определяется в виде р*0 = min pkokr t=l s Если р^ найдено, то Rp ko определяется как множество всех точек /?= (ри р2), лежащих в круге радиуса рАо с центром в точ- точке р°, т. е. удовлетворяющих условию (Pl-P°i? + (P2-pIJ^1. 3. Случай многих состояний среды является естественным обобщением случая трех состояний среды с той лишь разницей, что границыГф^ф^, ..., Гф^ф^ представляют собой гиперплоско- гиперплоскости в (п—1)-мерном пространстве, если G={6i, ..., 0П}. Для границы Тщощ. уравнение гиперплоскости может быть представлено в виде 45
либо в нормальной форме ^ P/cosaJ^ — p*,=0, где направляющие косинусы cos aj^ и pkt определяются следующим образом: cosai'i = (/= 1, ..., п— 1), причем знак в выражении для cosa^) противоположен знаку С*.* Рис. 2.5. Определение расстояния Ri _ 1 P^ofe и радиуса чувствительности Расстояние pkok от Гф^. до про- Pko в трех состояниях среды екции (pj, ..., р°Птт1) е ^Л-1 конт- контрольной точки р°еДл равно Радиус рАо чувствительности байесова решения ф^ находится следующим образом: == min 1=1 S и, соответственно, множество RPko определяется неравенством где предполагалось, что v Пусть /7+='{///г!/|'?=1 — исходная матрица значений оценочного функционала F+, а /?° = (pj, ..., p^v p*) — заданная контрольная точка. Определим расстояние по нормали от проекции (p°v ... ..., р?_х) е Рп-Х исходной контрольной точки до границ баиесовых множеств S<pk, ..., Sq^ , граничащих с байесовым множеством 46
Sip^, в котором ^0?ф Является байесовым решением, соответ- соответствующим ^контрольной точке р°еАл, причем (pj, ..,, р®_1)е5фу, . Определим величины 8kok{ = 5+ (/Л <р*в) — В+ (/Л (p/zt.) для реше- решений ц)к. и векторы dkfa разности &-го и 1-го столбцов оценочного функционала F+ в виде Рассмотрим вектор ^ с компонентами (qi9 ..., ^п), удовле- творяющими условию 2 9/==0- Тогда уравнение границы в ко- ординатах вектора q можно записать в виде (q, с1к1ко)=8Ы1 ли- либо в форме 1 при qn=— 2 9/» г#е d4fee"-K0Mn0HeHTbI вектора O- Полученное уравнение представим в виде Найдем координаты точки пересечения перпендикуляра, прове- проведенного к границе между байесовыми 5Ф^ и 5Ф^ из проекции (Р\> • • •» PLi)e $р*§ исходной контрольной точки р° е Ал. Если для введенной системы координат q гиперплоскость, являющаяся границей, задана уравнением то координаты точки пересечения л = (Ax , ..., лп~1 ) нормали к границе, проходящей через начало координат (проек- (проекцию точки р° в старой системе координат), определяются в виде = S | П 47
Например, для трехмерного случая (п=4) координаты точ- точки пересечения определяются в виде ikfy)bk;k0 Таким образом, расстояние р*0&, по нормали от проекции ис- исходной контрольной точки р° до границы, разделяющей байесовы множества Sn и Syk, равно 1 / sr\ и, следовательно, радиус чувствительности р^ находится в виде р*0= min Рассмотрим конкретный пример по применению этого мето- метода к расчету радиуса чувствительности, в котором Ф= {ф!, <р2, <фз, ф4}, в= {Gj, 92, 9з, 84}, при этом контрольная точка р*=@,3; 0,2; 0,25; 0,25), а компо- компоненты матрицы значений оценочного функционала F+ заданы в виде Ф1 Ф2 Фз Ф4 Q1 3 10 4 е2 6 3 3 1 03 5 9 7 8 04 б 5 7 4 Найдем байесовы значения оценочного функционала F+ на решениях * (р°, <pi) = з р% = 4,85; в+ о?», ф2) = 2 р'&=4>4°; + (Р°, Фз) = S Л% = 4,10; 5+ (р°, Ф4) = ? р^4= 4,40. 48
Для контрольной точки р° решение <pt является байесовым решениемДпоскольку В+ (р°) =\В+ (р°, Фх) = max B+ (/, q>k). \ Найдем величины 612, 6i3, 6U и векторы разностей d2u d3U d^ 612=0,45; 613 = 0,75; 614=0,45 В системе координат q с началом в проекции контрольной точки р° получим уравнения границ соответственно для пар ре- решений (ф4, ф2), (ф4, ф3) и (фь ф4): —qfi/0,45—G2/0,225+^/0,09= 1, -^/0,1125-^/0,1125+^/0,45=1, Точки пересечения нормалей (проходящих через проекцию точки р°) к соответствующим границам для пар решений (фь ф2)> (фь Фз) и (ф1, ф4) вычисляются для рассматриваемого примера в виде Х1B1) = —0,071; *2B1) = 0,012; Х3B1) = 0,071; Х4B1) = 0,012, Х/31>=—0,091; Х2C1) = 0,091; Х3C1) = 0,023; Х4C1) = 0,159; Х^ = = —0,055; X2Di^=0,018; Z3D1) = —0,028; Х4D1) = 0,065. Расстояния р12, р13, р14 от начальной точки р° до соответствую- соответствующих границ и минимальный радиу? pt чувствительности _для рассматриваемого примера равны р12=0,102; р13=0,203; pi4= = 0,092; Pl = min{p12,^13, p14}=p14=0,092. Таким образом, при исследовании проблемы анализа чувст- чувствительности оптимальных (байесовых) решений к ошибкам в определении вероятностей состояния среды 9^6 была установ- установлена некоторая численная мера чувствительности (например, ми- минимальный радиус чувствительности). При этом методы анализа чувствительности оказываются независимыми от способа оценок исходных вероятностей состояний среды. Заметим, что для исследования области возможных ошибок в определении исходной контрольной точки возможны следую- следующие два подхода. Орган управления У не имеет значительной информации об ошибках в оценке вероятностей состояния среды С. В этих усло- условиях орган управления У в процессе принятия решения может исходить из информации, полученной в результате анализа про- проблемы чувствительности. При этом минимальные изменения могут оказаться достаточно большими по сравнению с возмож- возможными изменениями ошибок в оценке исходной контрольной точ- точки. В этих условиях орган управления У будет, естественно, при- придерживаться байесова решения, определяемого исходной конт- 49
рольной точкой. Однако если исходное решение ср^ оказкется вы- высокочувствительным, то орган управления У может /направить свои усилия на поиск дополнительной информации, дающей воз- возможность уменьшения ошибки в определении контрольной точки. Орган управления У имеет значительную информацию о воз- возможных ошибках в оценке исходной вероятности состояний сре- среды, или, что одно и то же, исходной контрольной тотки р°. Может оказаться, что ошибки в оценке контрольной точ^и лежат в пре- пределах допустимой области, принадлежащей б^йесовому мно- множеству 5Ф^, т. е. байесово решение, определяемое контрольной точкой р°, нечувствительно к ошибкам в оценках р°. В противном случае решение ф^ окажется чувствительным к оценкам ошибок в определении контрольной точки. 2. Метод, оперирующий известными условиями чувствитель- чувствительности. При известных условиях чувствительности возможно при- применение некоторых методов анализа для проверки чувствитель- чувствительности решений. К таким методам анализа могут быть отнесены методы анализа байесова значения оценочного функционала В+(р) по линиям постоянных уровней, либо методы анализа проекций этих линий постоянных уровней на симплексе Pn-i. Например, в случае трех состояний среды возможные проекции линий уровней на симплексе Р2 могут иметь вид, представленный на рис. 2.6. Пронумерованные линии представляют местополо- местоположение (Pi, рг) с постоянным значением указанной в кружке ве- величины байесова значения оценочного функционала. Например, для решения q^ это значение уменьшается, когда (ри р2) движет- движется к точке О. Для решения ср3 значения также уменьшаются, когда (р4, рг) движется к точке О. Предположим далее, что ошибка в оценках проекции исходной контрольной точки (рЛ p2°)^S4 (для некоторого доверительного уровня допустим 98%) находится в пределах p/^ft°^fta (/=1> 2). Тогда интере- интересующая нас область ошибок представляет собой параллелепи- параллелепипед. Как показано на рис. 2.7, область ошибок может целиком лежать в байесовом множестве SVl. Однако возможен и такой случай, который изображен на рис. 2.8. Предположим далее, что каждая точка в области ошибок, т. е. в параллелепипеде Я, имеет заданную плотность распреде- распределения вероятностей. Обозначим через S^^, ..., Sp байесовы множества, имеющие пересечение с параллелепипедом П: П= {р= (plt ..., pn-t) : p/^Pi^pj2 (/=1, ..., я—1)}. В этих условиях величины В+(р, cpft;) (i"=l, ..., s) являются случайными функциями р= (рь ..., рп-ь Р*)> поскольку случай- ным является вектор р=(ри ..., /?n_i) еЯ, Рп=1—5] Ph При этом проблема анализа чувствительности привела к неопреде- неопределенности в выборе оптимального решения. Для возникшей неоп- 50
/>' Рис. 2.6. Примерный вид возможных проекций линий уровней в трех состояниях среды Рис. 2.7. Область ошибок це- целиком лежит в байесовом множестве 5ф1 Рис. 2.8. Область ошибок, содержащая элементы каж- каждого из байесовых множеств ? 5 S М Рг ределенности в выборе оптимального решения можно использо- использовать следующий метод, аналогичный методу Байеса. Обозначим через G}(pj) (/=1, ..., п—\) плотность вероятно- вероятности распределения ошибки при оценке координаты р;- контроль- контрольной точки в параллелепипеде /7. Тогда оптимальным решением фло будем считать такое решение, для которого выполнено усло- условие J B+(p, ifkJGM i)dpi dp»-! = = max B+ (p, q>* где JB+ (p, щ) — байесово значение оценочного функционала на решении <jfy, 51
+ (р, ф*,) = S * А = 3 *>А + О - л - • • • - #U) &, = Например, для нормального распределения ошибок имеет вид где /?j— математическое ожидание случайной величины; о/ дисперсия pj. Выражение Д+ (Р, <Pkt) Gx (ft) ... G/i-i (p.,-i) dpx ... ф«-1ч представляет собой математическое ожидание значения оценочного функционала В+{р, щ?) для решения ф^еФ на множестве зна- значений априорного распределения р е 5ФЛ. П П. Таким образом, важной проблемой является исследование чувствительности байесовых решений к ошибкам определения априорного распределения вероятностей состояний среды, при- причем величина радиуса чувствительности байесовых решений позволяет органу принятия решений получить качественные ха- характеристики принимаемых решений. 5. УСТОЙЧИВОСТЬ, СТАБИЛЬНОСТЬ И РЕГУЛЯРНОСТЬ БАЙЕСОВЫХ РЕШЕНИЙ 1. Устойчивость байесовых решений. Под устойчивостью бай- байесовых решений будем понимать свойство байесовых решений оставаться неизменными по отношению к изменениям априорных вероятностей либо к ошибкам определения контрольной точки. В отличие от понятия чувствительности понятие устойчивости байесовых решений основано на построении подмножеств зна- значений априорных вероятностей в байесовых множествах, в кото- которых сохраняются неизменными соответствующие байесовы ре- решения. При этом расстояние между смежными подмножествами постоянно' на всем симплексе Pn-i- Вопросы анализа устойчиво- устойчивости байесовых решений дают возможность органу управления У определять области устойчивости байесовых решений с опре- определенным гарантированным уровнем. Сформулируем проблему устойчивости байесовых решений в общей форме. Под областью устойчивости . байесова решения ф^еФ будем понимать множество S$k значений вектора априорных вероятно- 52
стей распределения состояний среды С, обладающее следующими свойствами: 1) S%k С 5ф/г, 2) р (ру Ys* ) > е (& = 1, ..., m), где Р(р> Г^ф ) — расстояние от любой точки /?еГ| , принадлежащей границе Г5е области устойчивости 5® (т. е. границе множества S<p/)> до границы Г^ф байесова множества SJA, являющейся общей границей с другими байесовыми множествами. Наглядное пред- представление областей устойчивости для случая трех состояний среды представлено на рис. 2.9. Величину 8>0 будем называть радиусом устойчивости. Яс- Ясно, что чем больше будет величина е, тем меньше будет мера областей устойчивости байесовых решений (х (S%>k) для k= = 1, ..., т и тем большей устойчивостью будут обладать байесо- вы решения. И наоборот, чем меньше будет радиус устойчивости, тем меньшей устойчивостью будут обладать байесовы решения. т Соответственно область Pn^i\{\JS^ будем называть об- &i ластью неустойчивости байесовых решений. Приведем некоторые способы построения областей устойчи- устойчивости байесовых решений. Рассмотрим случай трех состояний среды. Пусть некоторое байесово множество 5Ф/, имеет общую границу с байесовыми мно- множествами Sq>ki, ..., Sn . Обозначим отрезки границ, соответ- соответствующие этим множествам, через ГФлФл, Гф^ф^ , ..., Гф/гФ^ соответственно. Пусть уравнения этих границ имеют вид AkiPl+Bk.p2 + Cki = 0 (i = 1, ..., s), либо в нормальной форме рх cos aki + p2 sin <ц— pkt =¦ 0. Тогда уравнение границы Tse состоит из отрезков прямых Ч Picosaki + p2sinakl — pki — ^ki=0 (t = l, ..., s); Л = 0, р2 = 0 и р1 + р2= 1, где величина fa. равна + 1, если расстояние от начала координат до границы TWk меньше расстояния- от начала координат до гра- границы Г*/ / — 1 в противном случае. Случай многих состояний среды является естественным обоб- обобщением случая трех состояний среды с той лишь разницей, что границы ГФлф^, ..., Гф?ф/г представляют собой гиперплоскости 53
в (п—1)-мерном пространстве при в={еь ..., 6П}. Дл^ границы ^Wkt Уравнение гиперплоскости может быть представлено в форме либо в нормальной форме п-х Тогда граница Г|ф состоит из частей гиперплоскостей |ф где $kt определяется аналогично предыдущему случаю. 2. Стабильность байесовых решений. Рассмотрим байесово мно- множество S<p?, которое представляет собой часть симплекса Рп-х в иг—1)-мерном пространстве. Обозначим вершины этого байесова множества S<$k через Ак1\ ... ,Akk , координаты которых А^ =а = (р?, ....pslo-p*, .... л(;л)=^,.... А)=р*. Под центром стабильности байесова множества 5ФА, будем по- понимать точку р* = (р\у ..., /?л-х), удовлетворяющую условию = min /(p)= min ...,я-1) (/=1 м-1 mjn 2 т. е. такую точку pk9 которая минимизирует сумму расстояний до всех вершин байесова множества S<pk, при этом р efcSVft, где Р(р,/? ) —расстояние от проекции р искомой точки ^на Pn~i До точки ps< Под областью стабильности байесова множества S9k будем понимать некоторую окрестность (либо сферу) Тщ центра ста- стабильности pky такую, что T^k^S^k. Тогда решение <р/г будем называть стабильным, если оно является байесовым решением для точек априорных распределений р из области стабильности Tyk. 54
' Pf Рис. 2.9. Области устойчи- устойчивости в трех состояниях среды Рис. 2.10. Области стабиль- стабильности для случая трех со- состояний среды Стабильное решение qpft обладает тем замечательным свойством, что оно устойчиво и нечувствительно к ошибкам в значениях ап- априорных вероятностей р, лежащих в области Tq>k. На рис. 2.10 приведен вид областей стабильности Гф1, ТЩу 7Фз для случая трех состояний среды e={0i, 02, 93} и трех решений из множества Ф={ф1> ф2, фз}. 3. Регулярность байесовых решений. Рассмотрим критерии принятия решений в условиях первой информационной ситуации 1и такие, как критерий максимизации вероятности распределе- распределения оценочного функционала и критерий максимума энтропии математического ожидания оценочного функционала. Аналогично понятию байесова множества, вводимого для критерия Байеса, могут быть введены подобные понятия для множеств априорных вероятностей ру обладающих, как и байе- совы множества, свойствами оптимальности какого-либо реше- решения фА из Ф при условии, что вектор априорных вероятностей р принимает значения из соответствующего множества для пере- перечисленных выше критериев принятия решений. Обозначим через S^, ..., S?m множества априорных распре- распределений вероятностей р, дли которых решения <рь ..., фт являются оптимальными по критерию максимизации вероятности распределения оценочного функционала соответственно; через 5фА, ..., Slm — множества априорных распределений вероятно- вероятностей р, для которых решения ц>ъ ..., фт яеляются оптималь- оптимальными по критерию минимума дисперсии оценочного функционала соответственно; аналогично S^, .,., S^m — множества априорных распределений вероятностей р, для которых решения фь ..., фт 55
являются оптимальными по критерию максимума энтропии ма- математического ожидания оценочного функционала соответст- соответственно. Как и байесовы множества, определенные выше множества обладают следующими свойствами: S%ki Г) S?*2 = Л, Sj^ П 5ф*2= = Л, SJ П S"ki = A при ф*„ ф».еФ, U S^Pn-u U Sjk=;Vb fo=l /?—1 U 5фЛ = Рл-1. В отличие от байесовых множеств, границы которых пред- представляли собой части гиперплоскостей, введенные выше мно- множества имеют нелинейные границы — гиперповерхности. Напри- Например, для критерия минимума дисперсии оценочного функционала эти гиперповерхности представляют собой гиперповерхности вто- второго порядка. Множество полной регулярности решения ф^еф определим следующим образом: ?2Ф? = S<pk П Sq>kf] S%>k П Sn (k = 1, ..., m). Множество априорных вероятностей Q^k представляет, таким образом, пересечение байесова множества S^ со всеми осталь- остальными множествами оптимальности решения фьеФ. Решение cpft будем называть полным регулярным решением, если проекция (pi9 ..., рп_.4) вектора априорных вероятностей (ри • • •, Pn-i» pn)sAn принадлежит Q^k. Множество полной нере- нерегулярности решения ф^еФ определим в виде Pn-i\^k- Таким образом, полное регулярное решение фйеФ обладает тем свойством, что оно оптимально по всем четырем упомянутым выше критериям. Аналогично можно дать определение множества частичной регулярности решения cpft, образованного пересечением лишь не- некоторых выбранных множеств. 6. МЕРТВЫЕ И МАРГИНАЛЬНЫЕ ЗОНЫ АПРИОРНЫХ ВЕРОЯТНОСТЕЙ 1. Мертвые зоны априорных вероятностей. Рассмотрим ситу- ситуацию принятия решения {Ф, в, F}, в которой на выбор байесова решения имеется ограничение вида В+(р)^В+ при реДп. Это ограничение реализует требование органа управления У при выборе оптимального решения достижения оптимального значе- значения оценочного функционала В+(р) не менее заданной величи- величины В+ и определяет множество априорных распределений ве- вероятностей р, для которых не существует байесового решения из множества Ф, такого, чтобы было выполнено неравенство В+ (р) ;j>?+. Множество Рв+аР^ вида Рв+ = {р= (ри ... 56
/ Рис. 2.11. Мертвая зона Рв+ априорных распределений для случая двух со- состояний среды Рис. 2.12. Определение маргинальных вероятностей ~ в случае трех состоя- состояний среды ..., p»-i): 0<р,<1 (/=1, ..., п— 1), В+(р)<В+} будем назы- называть мертвой зоной априорных распределений.. Например, для двух состояний среды мертвая зона PB+ciPi априорных распре- распределений имеет вид, представленный на рис. 2.11. Из рис. 2.11 видно, что в мертвой зоне Рв+ ни одно из реше- решений {ф!, ф2, ф3, ф4} не является байесовским решением, для кото- которого В+(р) ^В+. В случае трех и более состояний среды мертвая зона Рв+ представляет выпуклое множество (выпуклый много- многогранник). Итак, если цроекция (рь ..., рп-.{) исходного априорного распределения р== (ри ..., рп_ь рп) принадлежит мертвой зоне Рв+, то для такого априорного распределения р не существует решения из множества Ф, для которого B+(p)^zB+. Поэтому в этом случае попытки органа управления У в принятии оптималь- оптимального решения с выполнением условия В+(р)^В+ приводят к естественному требованию перевода априорного распределения р из мертвой зоны Рв+, т. е. к поискам дополнительной информа- информации, дающей более точные оценки исходного априорного распре- распределения вероятностей состояния среды G. В некоторых ситуациях принятия решений может оказаться, что существует множество Фв+ недопустимых решений, для кото- которых не выполняется неравенство В+(р)^В+. Будем называть Фв+ мертвым множеством решений. 2. Маргинальные зоны априорных вероятностей. Предполо- Предположим, что среда находится в состоянии 8,-<=6, тогда оптимальным 57
по критерию Байеса решением является такое решение для которого f%0 = max /#. еФ Это решение ф^ будет оптимальным по критерию Байеса также в том случае, когда в векторе вероятностей состояния среды p=(pit ..., рп) вероятность pj достаточно близка к еди- единице. Границу pfo вероятности pj (удовлетворяющей условию Р:^Рзк°^^)> в пределах которой решение фЛо является байесовым решением, будем называть верхней маргинальной вероятностью. Соответственно этому множество Р*э= {реДп : р= (pi, ..., Рп), Pj-^рЛ /=1, • ••, я} будем называть верхней маргинальной зо- зоной решения ф^. Если решение фАо^Ф оптимально при состоянии среды 9,ев, то фАо оптимально по критерию Байеса (или является байесовым решением) для любого вектора распределения вероятностей р= = (ри ..., рп) состояний среды из множества в, удовлетворяю- удовлетворяющего условию pi^p*0 (/=1, ..., п)у в котором верхняя марги- маргинальная вероятность р*> определяется следующим образом: max AKk-ftk0) /1* — (/=1, ...,n). (f]f%) max Вид верхней маргинальной вероятности вытекает из рассмот- рассмотрения разности В+ (р9 ФА) - В* (р, фО = 2 (^ ~ ^о) Л ^ Pi (f/* - ^о) + + (l-p/)max (/^-ftO и справедливости неравенства ; max (/Ь-/&,)-(//* Таким образом, для каждого состояния среды 0^6, в кото- котором оптимальным является решение фАо, существует верхняя маргинальная вероятность р/° (/= 1, ..., п). Рассмотрим случай, когда решение фЛо является оптимальным для всех состояний среды fy, за исключением Gi. Если вероят- вероятность pi достаточно мала, то в качестве оптимального решения орган управления У может выбрать решение фЛо лишь тогда, ког- когда компонента pt удовлетворяет условию O^Pi^Pi^l. Границу pt компоненты ри в пределах которой ф^ является байесовым решением, будем называть нижней маргинальной ве- вероятностью компоненты р1в Последняя определяется следующим 58
выражением: = min sjn (/*__ faj _ p* Выражения для маргинальных вероятностей имеют (рис. 2.12) простую геометрическую интерпретацию для симп- симплекса Р2 на плоскости Opipz в случае трех состояний среды из множества G={9i, 62, 63} и трех решений из множества Ф = = {ф1, ф2, Фз}, при этом обозначено (/= 1, ..., п) max l!$k ГЛАВА ТРЕТЬЯ ВТОРАЯ ИНФОРМАЦИОННАЯ СИТУАЦИЯ В информационной ситуации /2 предполагается, что орган принятия решений располагает знанием распределения веро- п ятностей р(о) = (р1(о)), ..., pn(w)), ^j РДС°) = 1» Pi@)) = {0^|(о} на элементах 6,ев состояний среды С, зависяще- зависящего от значений неопределенного параметра со из параметрическо- параметрического множества Q. Вводимая ситуация /2 характеризует широкий класс практи- практических задач принятия решений, в которых органу управления У известен закон распределения вероятностей на в, однако пара- параметры этого распределения неизвестны и подлежат оценке. На- Например, в теории измерений случайные ошибки наблюдений под- подчиняются нормальному закону, многие случайные характеристи- характеристики в массовом обслуживании распределены по закону Пуассона, случайные распределения нели на плоскости при равномерном и прямолинейном законе движения — по закону Релея — Раиса и т. д. В данной главе рассматриваются различные классы критери- критериев принятия решений, ставится задача параметрического синте- синтеза оптимальных решений, приводятся статистические методы оценки неопределенного параметра [3, 5, 16, 33]. 59
1. КРИТЕРИИ ПРИНЯТИЯ РЕШЕНИЙ Рассмотрим основные подходы к получению критериев при- принятия решений в информационной ситуации /2, предполагая за- заданным распределение вероятностей р(со) = (pi(co), ..., рп(со)), п 1, ^ Pj (со) = 1 состояний среды для каждого значения / параметра oo^Q, где рДсэ) =Я(в = 93|со), cd=(g)i, ..., cog) — <?- мерный неопределенный параметр, Q — заданное параметриче- параметрическое множество. При этом если параметр cd = g>i, то простым параметрическим множеством Q значений этого параметра бу- будем называть интервал [соД coi2]. Предположим, что задана ситуация принятия решения {Ф, в, F}y в которой оценочный функционал F принадлежит классу F+. Поскольку параметр со является неопределенным параметром, то очевидно, что для него также можно рассмот- рассмотреть информационные ситуации Л* (i=l, ..., 6), которые будем называть информационными ситуациями неопределенного пара- параметра. Для преодоления неопределенности по параметру о могут быть использованы критерии принятия решения для информа- информационных ситуаций U с некоторыми элементами модификации, учитывающими характер непрерывного изменения неопределен- неопределенного параметра о в параметрическом множестве Q при принятии решений по критериям информационной ситуации Д. Рассмотрим сначала случай, когда <о = (о1 и co^Q, и если оL принимает конкретное значение co/eQ, то этим самым однознач- однозначно определен вектор априорных вероятностей р(со/) = (Pi(co/). . • п ¦ -., Р«(со/)), 0<р?(со/)^1, 51 Pi(°)i/) = 1 состояний среды из /=i множества 0={8i, ..., 6П}, т. е. конкретные значения принима- принимают компоненты вектора р(ю/), и, следовательно, имеем дело со случаем принятия решения в первой информационной ситуа- ситуации Д. Рассмотрим критерий Байеса. Аналогично понятию байесова множества S(Pk априорных распределений вероятностей состоя- состояний среды из множества в для решения ср^Ф определяется оптимальное параметрическое множество ЙФЛ значений неопре- неопределенного параметра co^Q, в котором оптимальным байесовым т решением является решение фЛеФ, при этом Q^k П^ =Л, (J ?2Ф?= 1 • k=i = Q, а также определяется параметрическая байесова поверх- поверхность В+(р((о1)) значений оценочного функционала F+ как функ- функция от coi^fi в виде п В+ (сох) = В+ (р(Wl)) = max В+ (р Ю), <pk) = max у. Pi (wi) //*. 60
Заметим, что как B+(p(coi)), так и В+(р(ы±), q>h) зависят от со! нелинейно. Наглядное представление оптимальных парамет- параметрических множеств йФЛ (для трех решений) представлено на рис. 3.1. Поскольку при о)! = ЯфЛ байесовым решением является cpft, то естественно, что каждому оптимальному параметрическому мно- множеству может быть сопоставлено байесово множество априор- Рис. 3.1. Параметрические байесо- ва поверхность ?+(o)i) и множе- множества &фА; ных распределений вероятностей р= (рь ..., рп), п SJ /)/ = 1 состояний среды из множества 0={6i, ..., 6П}, кото- рое будем называть параметрическим байесовым множеством S^h в котором оптимальным байесовым решением является Фь^Ф. Однако ввиду нелинейной зависимости Pj(cdi) от «! эти параметрические байесовы множества S®k уже не будут симп- pj(co1) = l может быть лексами, при этом (j S<?k С Рп-\. Заметим, что в силу ограничения найдено значение (либо множество таких значений) п удовлетворяющее уравнению^ рДоI°) = 1 и тем самым опре- делено априорное распределение p((di°) = (pi((oi°)y ..., pn(co10)), дающее возможность принимать решение по критериям из пер- первой информационной ситуации /4. Однако при двух или более компонентах неопределенного параметра со трудно воспользо- воспользоваться такой возможностью. Приведенные выше рассуждения и определения переносятся и для нескольких компонент неопреде- неопределенного параметра о= (со1, ..., сод). Как уже отмечалось, основу анализа и принятия решений во второй информационной ситуации составляют критерии приня- принятия решения ситуации 1и модифицированные с учетом характера информационной ситуации 1? неопределенного параметра со. Да- Дадим краткое изложение критериев принятия решения лишь для 61
случая информационной ситуации If неопределенного парамет- параметра со. Для других информационных ситуаций If (i=2, ..., 6) подобные исследования могут быть проведены аналогично. Рассмотрим случай первой информационной ситуации If не- неопределенного параметра (й=(ыи ..., юд), для которого пара- параметрическое множество Q представляет собой прямое произведе- произведение параметрических множеств Qt значений каждой компоненты coz (/=1, ...,#) вида Q=QjXQ2X ... XQg. Информационная ситуация неопределенного параметра If характеризуется зада- заданием плотностей вероятностей mz(@z) распределения 1-й компо- компоненты О/ неопределенного параметра со, удовлетворяющего ус- условиям О</и/(ю/), $ mi{(oi)d(Oi = 1 (/ = 1, ... , q), щ т. е. предполагается, что со* — случайные величины с заданными законами плотности распределения вероятностей тДсо*) и, кроме того, случайные величины со4, ..., со* независимы. Наиболее простой подход к разработке критериев принятия решений для информационной ситуации /2 состоит в определе- определении величин математического ожидания j? = (piy ..., рп) вероят- вероятностей состояний среды из множества вив использовании этих математических ожиданий в качестве исходных априорных рас- распределений на множестве в. Этд операция позволяет применять все критерии принятия решений для информационной ситуации Л при использовании в качестве априорного распределения оцен- оценки р= (ри ..., рп), причем i К, ... , <oq) т1 Другой подход основан на рассмотрении параметрических критериев. 1. Параметрический критерий Байеса. Согласно параметриче- параметрическому критерию Байеса оптимальным решением ф^еФ (либо множеством Ф таких оптимальных решений) считаете^ такое ре- решение, для которого математическое ожидание В^(ру cpfe2) байесова значения оценочного функционала на решении ф^ до- достигает своего наибольшего возможного значения, т. е. = J ... J 5+ {р N, ф*0)> Щ К) ...mq Ю d(ox... dcoq= Qi aq max \ ... \ В* (р (со), tpk) Щ (cox) ... tnq (®q) d(ox ... dco^. ФлеоЛ Q Естественным образом обобщается определение оптимального по критерию Байеса решения фАо для оценочного функционала, выраженного в форме F~ с отрицательным ингредиентом. 62
2. Параметрический критерий максимизации вероятности распределения оценочного функционала. Фиксируем величину а из интервала а^а^оь, где ах = minmin//"*, а2= max max f%. i k i k Для каждого решения фй рассмотрим вероятность P(f}k^> ^а|со). Сущность параметрического критерия максимизации вероятности распределения оценочного функционала состоит_ в нахождении решения ср^ (либо множества таких решений Ф), для которого достигает наибольшего возможного значения по величина математического ожидания вероятности4 = max ) ] ... \Р 4 о^ Для фиксированных а, ср^ неравенство //&>ос определяет множе- множество &a,k тех состояний среды 8/ е в«^, для которых /# > а. Тогда вероятность Р (fa ^> оь/<о) вычисляется в виде 3. Параметрический критерий минимума дисперсии оценоч- оценочного функционала. Дисперсия оценочного функционала решения q>ft вычисляется как функция ю в виде а2 {р ((о), <р*) =3 I//* — В+ (Р (ю)' Ф*)Г Р/ И- Сущность параметрического критерия минимума дисперсии оценочного функционала заключается в нахождении такого ре- решения фАо (либо множества Ф таких решений), для которого = f • • • S ааИ® q = min ... a2(p(co), 4. Параметрический модальный критерий. Сущность этого критерия заключается в нахождении такого решения cpfto (либо множества Ф таких решений), для которого //Л= тах/дл» где Ф индекс ]\ определяется из условия рп = max ... Л(со) 5. Параметрический критерий максимума энтропии матема- математического ожидания оценочного функционала. Сущность этого 63
критерия состоит в нахождении такого решения <pfto (либо мно- множества Ф таких решений), для которого На(р, <р*0) = I • • • I H(Pl00)» Ф*.)miК) • • • тяК)d(o±...d(og= йл = max f ... ) H(p (со), Ф/е) т1 (сох) ... mq (со,,) dcoj. ... где обозначено Таким образом, здесь кратко даны лишь самые простые кри- критерии принятия решения во второй информационной ситуации /2. 2. СТАТИСТИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ НЕОПРЕДЕЛЕННОГО ПАРАМЕТРА Рассмотрим проблему оценки неопределенного параметра со, от которого зависит вектор распределений априорных вероят- вероятностей состояния среды р(со) = (pi(co), ..., рЛсо)). Очевидно, что максимальный эффект от принятия решения (основанного на результатах оценки) будет достигнут, если принятая органом управления У оценка будет близка к истинной величине оцени- оцениваемого параметра со. В статистических методах оценка неоп- неопределенного параметра по результатам наблюдений может быть сведена к оценке значения некоторой характеристики распреде- распределения вероятностей (математического ожидания, дисперсии, ме- медианы, моды и т. д.). Таким образом, орган управления У оценивает компоненты о некоторыми величинами, определяемыми на основе анализа и обработки экспериментальных статистических данных. После этого он действует так, как если бы значения этих величин были истинными значениями компонент неопределенного параметра со—(g)i, ..., Qg). При таком подходе, вообще говоря, желатель- желательно дополнить принятую оценку информацией относительно того, насколько эта оценка надежна. Для этой цели обычно исполь- используются доверительные вероятности и интервалы, расчет которых основан на вычислении среднеквадратического отклонения оценки. 1. Методы первого рода. Предположим, что орган управления У располагает статистическим материалом по неопределенному параметру со= (оч, ..., сод), выраженному в виде статистических совокупностей по каждой независимой компоненте соответствен- соответственно coj, ..., со; ... ; со/1, ... , щ1\ ...; coj, ..., со^*. Тогда несме- несмещенными оценками математического ожидания М(со) и диспер- 64
сии_р[со] параметра со будут величины co=(o)i, ..., (oq) и о2= = (оЛ ..., ag2) вида - н _ н _ со/ = ^ ©{/л,, a« = 2 (©{ - со/J/(/г/ - 1) (/= 1, ...,</). 1 = 1 *=1 Эти оценки неопределенного параметра со назовем оценками первого рода. Оценка первого рода математического ожидания параметра со дает возможность определить вектор распределе- распределения априорных вероятностей p(a>) = (Pi(©), ..., ря(ю)) состоя- состояний среды из множества в и, следовательно, позволяет использо- использовать критерии принятия решения информационной ситуации Д. Указанные выше оценки неопределенного параметра первого рода представляют собой численные величины «точечных» оце- оценок, содержащие известный элемент случайности. Поэтому про- процесс замены неопределенного параметра со его средним значени- значением со ведет к определенным ошибкам. Чтобы оценить эти ошиб- ошибки, можно использовать понятие доверительного интервала Гр и доверительной вероятности р, широко используемых в методах математической статистики. Например, доверительным интервалом Гр— значений математи- математического ожидания М[со], построенным по точечным оценкам со и а2, может служить параллелепипед Гр- = Гр — XГ^- х ... хГ^- , где доверительный интервал Гр- компоненты со/ определяется по формуле Гр-/= (©, — fepa^, ©/+ Лрог-р, в которой к»^У2Ф^ф)\ а- — у о///г/ — среднеквадратическое отклонение оценки со*; Ф (Р) — обратная функция Лапласа. Величина kb определяет для нормального закона число сред- средних квадратических отклонений, которое нужно отложить вправо и влево от центра со*, чтобы вероятность попадания в по- полученный участок была равна р. На практике в качестве довери- доверительных вероятностей р часто используют величины [} = 0,9 и ? = 0,95. Таким образом, с доверительной вероятностью р за исходное параметрическое множестве Q значений неопределенного пара- параметра можно принять параллелепипед Г^-. В этом случае иссле- исследование сводится к анализу оптимальных параметрических мно- , жеств Q4 байесовых решений фьеФ и к анализу параметриче- параметрической байесовой поверхности значений оценочного функционала В(р(ы)). В(р(ю))=Я(р(<о), cpfc) для со^Цр^ (*=1, ..., т), при этом т U Йфа = Гр- и пщ П О*, = Л (i, k = 1, ... , т), k=l 3 Р. И. Трухаев 65
Для более детального изучения методов перзого рода для оценки неопределенного параметра можно рекомендовать лите- литературу по математической статистике [11, 12, 26, 51, 52, 63, 66]. 2. Методы оценки неопределенного параметра второго рода. В качестве методов оценки второго рода рассмотрим лишь ме- метод наименьших квадратов и метод максимального правдопо- правдоподобия. Метод наименьших квадратов. Предположим, что органу уп- управления У известен конкретный вектор р1=(р11, ..., рп') рас- распределения априорных вероятностей на 0 и что, кроме этого, из- известна зависимость вектора p((o) = (pi((o), ..., рп(со)) от ю. На основе заданных компонент вектора р1 и известной зависимости р(сэ) можно получить оценку ш неопределенного параметра о> Решение со этой задачи во многом определяется характером множества Q. При этом основные трудности ее решения связаны со случаем, когда Q — замкнутое множество. В литературе, по- посвященной методу наименьших квадратов, традиционным явля- является рассмотрение случая, когда Q=Eq (т. е. когда Q совпадает с ^-мерным евклидовым пространством). Это определение значи- значительно упрощает решение задачи нахождения со, поскольку по- позволяет использовать классический аппарат экстремума функ- функций многих переменных без ограничений. В этом случае оценка (о находится из условий Рассматриваемая задача получения оценки со представляет собой упрощенный вариант применения метода наименьших квадратов. Предположим теперь, что органом управления У получен ряд р1, р2, ..., рт распределений априорных вероятностей 6. Ме- Метод наименьших квадратов приводит к получению оценки со иа условия S S W - которое приводит к системе уравнений В случае замкнутого множества Qt например Q=Tp-, оценка о по методу наименьших квадратов находится из условия 66
s=l/=l -Л< s=i/=i которое приводит к условию оптимальности вида q у п ' - дР/Й - (о/ — о)/) = 0. Если й=ГРш, то получим (/=1, ..., q) у п s=i / ls=i / o-l при в противном случае. Метод максимального правдоподобия. В этом методе опреде- определяется функция правдоподобия L=L(o) в виде L(oo) = п ~Y[ Л(ю). Оценка второго рода ш, которую принято называть /=i оценкой максимального правдоподобия неопределенного пара- параметра со, определяется из условия достижения максимума функ- функции L(o) при о) = о), т. е. из условия L (со) = sup L (со), соей Оценка максимального правдоподобия 0 удовлетворяет сле- следующей системе уравнений (при условии, что Q — открытое множество): д [in L (со)] _ Q ^ Для более детального изучения существования и единственности оценки максимального правдоподобия можно рекомендовать специальную литературу [15]. Предположим теперь, что получен ряд р1, ..., рт распределе- распределений априорных вероятностей на 0, тогда для получим следующие уравнения для нахождения оценки со мак- максимального правдоподобия (/=1, ..., q): 67
д [In L ((•>)] ^-t л " i*** rj \~-/ •" f j \~/i -. л/ Если Q — замкнутое множество, то оценка со максимального правдоподобия находится из условия я max^J • откуда при Q=rp-найдем Щ—&№&} при СО/ CCOj '~ , д [In L (со)] } со/ -| „. v n 1 в противном случае. дьъ* I В заключение отметим, что полученные оценки второго рода по методу наименьших квадратов и методу максимального прав- правдоподобия позволяют произвести расчет вектора априорных ве- вероятностей р(со), а следовательно, использовать критерии при- принятия решения первой информационной ситуации Д. 3. Методы третьего рода. Полученные в предыдущих пунктах этого параграфа оценки неопределенного параметра w не были связаны с оценочным функционалом. Учитывая это, изложим некоторые подходы к получению оценок третьего рода с учетом фактора влияния их на значение оценочного функционала. Если органу управления У требуется оценить неопределенный параметр ш, то свою оценку о> on может (как уже говорилось ра- ранее) основывать на обработанных тем или иным способом ре- результатах статистических наблюдений. Выбранная органом управления оценка со параметра_зависит от свойств наблюдае- наблюдаемых совокупностей и, следовательно, представляет собой случай- случайную величину. Для наглядности представления об оценках третьего рода рассмотрим случай со = со±. Предположим, что со4 является истин- истинным значением неопределенного параметра, которое неизвестно органу управления, а со4 — оценка этого параметра. Определим параметрическое сожаление r(<oi, coj как функцию вида г к, щ) = g (в+ (р Ю) — 5+ (р Ej))), УДОВЛеТВОряЮЩуЮ УСЛОВИЯМ Г^, @1)>0, Г(СОХ, %)= 0 При CO^COj, причем г (соь сох) увеличивается с ростом разности между щ и щ. 68
В качестве функции g с указанными выше свойствами разум- разумно выбрать следующие зависимости: г К, щ) = | В+ (р (щ)) — В+ (р К)) |, г (©ь ©) = [В+ (р Ю) - В+ {р ц))^ Параметрическое сожаление г(юь ©J может иметь вид, пока- показанный на рис. 3.2. Рис. 3.2. Параметрическое сожаление г (о)ь ooi) ы «>; В дальнейшем статистическую совокупность Z1=(co11, ... ..., o)in') будем называть выборкой. Определим стратегию выбо- выбора оценки То органом управления У как некоторый алгоритм для получения оценки со в соответствии с каждой возможной выбор- выборкой Z1=((Oi1, ..., coin0> которую будем называть стратегией оценки и обозначать ее через v(Z^), Таким образом, стратегия оценки v{Zx) есть случайная функ- функция, ставящая в соответствие каждому элементу Zx с компонен- компонентами из параметрического множества Q элемент cd^Q, поэтому оценку coi как функцию Zt обозначим через col = u(Z1). В ка- качестве простых стратегий оценок могут быть выбраны среднее значение, медиана, мода, квантили и другие параметрические характеристики случайной величины. Определим параметрическую функцию риска р(соь v) для стратегии v, приводящей к оценке со, в виде Р К, v) = MZt [r (cox, Z,)] = MZi [r К, v (Zx))]. Задача оптимального оценивания неопределенного парамет- параметра формулируется в этом случае следующим образом: требуется найти стратегию оценки v°, дающую оптимальную оценку 0)!° = = y°(Z1), удовлетворяющую условию р(©ь fl°)=minp(©i, v). v В прикладных задачах исследования оценок третьего рода вместо выражений для параметрического сожаления r(o)i, «О пользуются приближенными равенствами вида = С2 69
которые являются достаточно приемлемой аппроксимацией r(cot, coi) при значениях со. в окрестности истинного значения параметра со4. Действительно, разлагая в ряд Тейлора В+(р(?±)) в окрестности р(со4) и сохраняя лишь первые члены ряда, полу- получим /=1 / Используя приближенные выражения г (о>4, со4) для г(о>4, сэ4), найдем, что L/=i ri В статистической теории оценивания наиболее широко ис- используется аппроксимирующее выражение параметрического со- сожаления, пропорциональное квадрату ошибки. Такой подход используется потому, что, во-первых, большинство гладких функ- функций параметрического сожаления, обращающихся в нуль при <Di=coi, допускают хорошее приближение с помощью квадратич- квадратичной функции, особенно если ю4 близко к со4. Во-вторых, в этом случае математические преобразования с г(со4, о4) оказываются наиболее простыми. В-третьих, для выборок Z4 больших объемов, как правило, стратегии оценок приводят к оценкам, распреде- распределение вероятностей которых хорошо описывается нормальным распределением ожидания oL/taТакое распределение вероятнос- вероятностей полностью определяется дисперсией оценки оо4, пропорцио- пропорциональной (со4—со4J. Таким образом, для аппроксимирующего параметрического со жаления г (соь ©) = с2 (o^) (щ — cdxJ параметрическая функция риска при v = сох определяете^ равенством р (С0ь ©i) = C2 {(Ot) MZl [К — COiJ]. Так как с2 (cOi) MZl [(щ — (огJ] мало при малом MZl [(щ — сохJ], то MZl [К - at + [М [SJ - co Действительно, [0! — Сдх] = (ЮХ — М [©J) 5 - о)!]2 =К - М К]J + 2 (М К] - сох) К - + (МК]-со1J; 70
MZt [К— (ОхJ] = M [(©! - M [©JJ] + + 2(М [щ] -сох) Af К — М [5j] + [M fo] — © отсюда получим, что Мгг [(« - coiJ] = а^ + [М [щ] - coj2, и, следовательно, наименьшее возможное значение —G)iJ] равно oj-, причем оно достигается при Следовательно, задача приближенного оптимального оцени- оценивания заключается в нахождении оценки ©10=u°(Z1) из ус- условия Р К, ©2) = ruin p (©ь у) ж с2 (щ) min {a^ + (At [©J — cOiJ}. Для получения стратегий оценок у0 могут быть использованы различные методы: методы моментов, максимального правдопо- правдоподобия, байесовых оценок и др. Использование двух последних из этих методов связано с требованиями наличия определенной информации о законах распределения неопределенного парамет- параметра ©! и условных законах распределения. При рассмотрении выборок больших объемов стратегию оцен- оценки v0 можно представить как последовательность частных стра- стратегий оценок, каждую из которых можно построить применитель- применительно к выборке определенного объема, и исследовать поведение этой последовательности при п-^оо. Такой подход может быть использован для упрощения мате- математических преобразований, так как предельное поведение по- последовательности стратегий оценок проще исследовать. Кроме того, такой подход позволяет установить некоторые критерии разумности стратегий оценок при заданных объемах выборки.. Стратегия оценки v называется состоятельной, если сущест- существует HmMzJ©!—©1J]=0 для всех ©4ей. 1 Стратегия оценки v называется эффективной, если не сущест- существует другой состоятельной стратегии оценки v*9 для которой hm * Для выяснения возможности использования выборки конечного объема и для определения достаточного объема выборки необхо- необходимо иметь некоторые сведения о близости полученной оценки щ третьего рода к значению ©1# При выборках больших объемов оценка щ обычно бывает распределена по нормальному закону с математическим ожиданием ©х и дисперсией а~, которую, в свою очередь, можно оценить с помощью оценки первого рода, напри- например а|-. Для выборок больших объемов значение сг^ близкой а^. Поэтому величину а~ можно использовать как критерий совер- 71
шенства принятой оценки <о1в Ранее указывалось, что одним из методов надежности принятой оценки ых служит доверительный интервал вида Гр~ = (?>! — ^/з*^, % + kpti-J, который является случайным интервалом, зависящим от выборки ZL таким образом, что Р {\Si — (ох | < ftpo^} = р. Такой метод построения доверитель- доверительных интервалов считается приближенным. До сих пор рассматривался случай, когда co = o)i. В общем случае при использовании ряда обобщений изложенного выше подхода для неопределенного параметра co=(coi, ..., (oq) могут быть получены оценки третьего рода со=(соь ... ,шд) соответ- соответственно. Оценка со третьего рода определяет вектор р(со) = = (Pi(©)»•••» Рп(©)) распределения априорных вероятностей на в и, следовательно, позволяет использовать критерии приня- принятия решений информационной ситуации Д. Возможно также применение методов четвертого рода для оценки со неопределенного параметра со, основанных на методах статистической теории проверки гипотез [46]. 3. О НАХОЖДЕНИИ ПЛОТНОСТИ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ НЕОПРЕДЕЛЕННОГО ПАРАМЕТРА При рассмотрении критериев во второй информационной си- ситуации /2 до сих пор предполагались известными плотности ffzz(coz) распределения вероятностей параметра о* (/=1, ..., q). Нахождение плотностей m^coj) является самостоятельной зада- задачей, решаемой органом управления У на основе статистических данных. Поскольку методы восстановления законов распределе- распределения случайных величин по данным наблюдений широко рассмат- рассматриваются в теоретической и прикладной статистике, приведем лишь два подхода к определению гаДю,). I. Эвристический метод. Построение плотностей nii((Oi) пара- параметра coz этим методом является упрощенным подходом и часто используется в моделях сетевого планирования. Сущность этого метода заключается в следующем. Орган управления по каждой компоненте со* (/=1, ..., q) находит (или задает) следующие три оценки, характеризующие возможные значения параметра о*: 1) моду Mh которая носит название наиболее вероятного зна- значения параметра сог, при этом величина Mt устанавливается ор- органом управления У на основе знаний (опыта) и является апри- априорной оценкой; 2) нижнюю грань со,1 области Qz определения параметра <ог; 3) верхнюю грань оог области пг определения па- параметра (Oi. На основе этих трех задаваемых оценок определяется мате- математическое ожидание ю* и дисперсия о*2 параметра шг {1= 72
= 1, ..., q) no формулам При расчете математического ожидания и дисперсии неиз- неизвестного параметра о* по этим формулам особые трудности вызывает необходимость задания значения моды распределения, особенно в тех случаях, когда орган управления У не располага- располагает достаточной статистикой. Поэтому в качестве приближенной плотности распределения параметра coz в сетевом планировании предлагается использовать распределение (типа «^-распределе- ния») вида 12 (© вероятностные характеристики которого определяются следую * щим образом: — 2со?4-3со} 2со}+со? со/ = '^ ' , Mi = —4—^, D Ш = 0,04 (о>* - юр». 5 3 Распределение /nzp(©z) характеризуется лишь двумя парамет- параметрами ©Д о)/2 и положительным эксцессом. В некоторых случаях эмпирическое распределение т^(соО может служить хорошей приближенной оценкой распределения mz(o)z). В работах по сетевому планированию, помимо ^-распределе- ^-распределений, используется логарифмически нормальное распределение с плотностью тТ Ы = , а Vl лГ- exp{-2[ln(o)/-coj) - In (©» — ©J) + I]2}, для которого 1,4©}+©? 2,5©}+со? со/ = о,О Эти распределения мало отличаются друг от друга, характе- характеризуются лишь двумя параметрами ©И и ©Д и каждое из них может быть использовано в качестве приближенной оценки плот- плотности nii(@i) распределения вероятностей параметра ©Z. Отме- Отметим, что изложенная выше упрощенная методика оценки плот- плотностей /7i|((di) распределения вероятностей параметра ©г на осно- основании двух задаваемых оценок ©/ и ©*2 (/=1, ..., q) отличается рядом преимуществ, гарантирующих использование небольшого, объема знаний о контролируемых факторах неопределенных параметров ©z. Эвристический метод определения плотности рас- распределения nii((ui) параметра wz, разумеется, не является един- 73
ственным средством расчета плотностей распределения неизвест- неизвестного параметра. 2. Вариационный метод. Сущность этого метода заключается в решении вариационной задачи выбора плотности mz(co*) рас- распределения вероятностей параметра coi (/=1, ..., q) по данным наблюдений Zt= {со*; . .. , со/} из условия [49, 50] Н [mt (со/)] = max H [mi (со/)] j при ограничениях J cojrn/ (со/) dm = Alv [Zi] (v = 1, ... , jjt). Здесь через #[mz(o)Z)] обозначена энтропия Шеннона неопреде- неопределенного параметра, которая равна Я [mi (со/)] = — J m/ (со/) In m/ (со/) dco/, а/ — точечная оценка v-ro момента распределения На основе применения метода множителей Лагранжа для учета ограничений типа равенства в сформулированной вариа- вариационной задаче можно показать, что плотность т^(со^) распреде- распределения параметра coi^Qi имеет следующий вид: причем множители Лагранжа Яо> Xv (v=l, ..., \х) определяются из условий J ехр — 1 + ^ + ^ ^v®7 d(°t = у ^ ^ (v=l, .... ji). / L Vx=l J Дальнейшее развитие вариационного метода нахождения плотности mz(co0 распределения вероятностей параметра со* по данным наблюдений Zt= {со1/, ... , со/Л/} может быть проделано двумя способами. Первый способ состоит в замене энтропии 74
Шеннона другими функциями неопределенности, например Я [mi @/)] = 1— J mj (со/) Я f Второй способ состоит в замене вариационной задачи максими- максимизации H[rrii((ui)] при ограничениях в форме равенств (получаю- (получающихся при использовании лишь точечных оценок на первые ц моментов) вариационной задачей с ограничениями в форме не- неравенств вида «v [Zi] ^ J cojm/ (со/) dco/ < Pv [Z/] (v = 1, ... , где av[Zi]y $v[Zi]—границы доверительного интервала для зна- значений v-ro момента распределения тДсо*). Если H[rtii((di)] является энтропией Шеннона, то решение получающейся вариационной задачи сводится к задаче нахож- нахождения функции rki((Oi) и вектора с= {си ..., сй) из условия Я [mi (со/)] = max } Я[т/(со/)] < ( при ограничениях (v=l, ..., \i) av [Zi] ^ cv ^ pv [Zi], J o/m/ (a)/) dm = cv. Применяя метод множителей Лагранжа для учета ограниче- ограничений типа равенства, получим задачу нахождения /nz(coj), cx и Uv из условия / [mi (со/), с, %v] = max / [mi (со/), с, X] 0<m/(©/) т l I при ограничениях av[Zz]^cv^MZ^ (v=l, ..., \i), где с== = {сu ..., cj, Я=-(Я0, Яь ..., V), 7[mz(co0, c, Я] — функционал Лагранжа вида / [mi (со/), с, Ц = Я [т/ (со/)] + ll +2 Xv fj co J v=i LQ/ 75
Условие оптимальности для нахождения тДсо/) имеет вид — 1пт/(©/) — 1 + %0 + 2 ^ Отсюда найдем выражение для плотности т/(со/) распределения параметра co/eQ/ = ехр —1+ Я0 + ^ W mi (со/) = причем множители Лагранжа %Qy ^ определяются из условий [** -  1 -\~ Aq -p V A^iOJ I ( V=! J J' Г — 1 L V=l J Условие оптимальности для нахождения вектора с формули- формулируется следующим образом: max [grad-/ [/я/(о>/), ^7, X], с — с] = О, где gradj/[m/(co/), cf Ц = — X, поэтому вектор с находится через Я в форме при pv[Z/] при любое из [av [Z/], CV t^/1] при ?у = 0. Таким образом, проблема нахождения плотности mf(©0 рас- распределения параметра ог сводится к задаче нахождения вектора К как решения системы нелинейных уравнений, при этом могут быть использованы хорошо известные алгоритмы численного ре- решения, например, метод Ньютона, метод минимальных невязок и т. д. 76
ГЛАВА ЧЕТВЕРТАЯ ТРЕТЬЯ ИНФОРМАЦИОННАЯ СИТУАЦИЯ Информационная ситуация /3 характеризуется заданием ве- вероятностных отношений порядков на компонентах множества в состояний среды С, индуцирующих соответствующие отноше- отношения порядков на компонентах вектора априорного распределения {Ри ...,Р»}. Определенный тип отношения порядка задается органом принятия решения У на основе имеющейся в его распоряжении информации, его опыта, интуиции и условий обстановки приня- принятия решений. Установление отношений порядков является более естественной и простой операцией, имитирующей опыт и знания органа управления, чем непосредственный расчет распределения вероятностей, который порождает известную «проблему априор- априорной вероятности». В главе исследуются различные типы отношений порядков, по которым определяются точечные оценки априорного распреде- распределения при использовании принципа максимума функций неопре- неопределенности второго рода. Даются дескриптивные методы получения систем упорядо- упорядочения состояний среды и отношения порядков распределения вероятностей состояний среды. Проводится анализ решений по оценкам распределения априорных вероятностей р. 1. ОТНОШЕНИЯ ПОРЯДКА Отличительной особенностью процесса принятия решений в информационной ситуации /3 является задание органом управ- управления У вероятностного отношения порядка на компонентах множества в. Вообще говоря, при более абстрактном подходе следовало бы определить различные классы отношений поряд- порядка на а-алгебре подмножеств в, изучить аксиомы их задания и свойства. Однако останавливаться на аксиоматическом подходе теории отношений порядка не будем, поскольку принятые здесь модели вероятностных отношений порядка являются весьма общим и распространенным на практике классом отношений, с одной стороны, и являются «расширением» классов бинарных отношений порядка, порождающих отношения предпорядка и квазипорядка,— с другой. Исследуемые ниже типы отношений порядка на компонен- компонентах вектора р= (ри ..., рп) априорного распределения вероят- вероятностей на в получаются на основе индуцирования соответству- соответствующими операциями упорядочивания множеств состояний среды С из в, причем эти отношения порядка подробно были иссле- исследованы в трудах Питера Фишборна [42—44]. Рассмотрим основные типы отношений порядка на компо- компонентах вектора р= (pif..., рп). 77
Простое линейное отношение порядка задается неравенства- неравенствами pi^pz^ ... ^рЛ. Частично усиленное линейное отношение порядка определяется неравенствами р^РмЛ \-рп _(j = l» • •> ..., п—1). Усиленное линейное отношение порядка при /е е{1, ..., п} имеет вид (для заданного целого a,j>0) pj+1+ ... •.. +P/+ai+i >P/>P/+i + ... + Pi+ar Однородное линейное отно- отношение порядка определяется неравенствами в векторной форме (для заданных матриц Л и В с неотрицательными компонента- компонентами) Ар^р^Вр. , Полное линейное отношение порядка имеет вид (для задан- заданных матриц Л, В и векторов a, b) Ар + а^р^Вр+Ь. Частным случаем общего линейного отношения порядка яв- является интервальное отношение порядка, в котором а^р^Ь}= =ci}+Ej (/= 1, ..., п) для заданных величин а, и bj. Заметим, что введенные в рассмотрение линейные отноше- отношения порядка приведены в порядке возрастания общности. На- Например, простое и усиленное линейные отношения порядка со- содержатся в однородном при соответствующем задании матриц А и 5. Таким образом, в информационной ситуации /3 предполага- предполагается, что орган управления У имеет возможность указать впол- вполне конкретный тип линейного отношения порядка на компонен- компонентах вектора р. Для простоты анализа перечисленных выше линейных отно- отношений порядка начнем со случая, когда на элементах состоя- состояний среды 0,ев определяется бинарное отношение предпочте- предпочтения [>, такое, что 6jtt>0i2 при 0^, Qh^@ означает, что 0i2 менее вероятно, чем Qjr При этом естественно предположить, что 05?> O'0i2 тогда и только тогда, когда Рз^Рь- Иными словами, би- бинарное отношение предпочтения на элементах состояний среды индуцирует линейное отношение порядка на компонентах векто- вектора р и обратно. Бинарное отношение предпочтения [> позволяет определить слабое упорядочивание состояний среды в виде 0,[>02[>... [>Qn* Тогда индуцированное операцией слабого упорядочивания со- состояний среды в простое линейное отношение порядка на ком- компонентах вектора р можно представить в форме п Pi>p2>->Pn>0, у. р, = 1. /=1 Операция слабого упорядочивания состояний среды может осуществляться органом управления У либо на основе интуитив- интуитивных методов (основанных на опыте и предварительной инфор- информации о поведении среды), либо на основе анализа дескриптив- дескриптивных решений.. Рассмотрим использование органом управления У интуитивного метода. Усиленное линейное отношение порядка может быть индуци- индуцировано введением аналогичной операции, слабого упорядочива- 78
ния подмножеств состояний среды из в. Предварительно заме- заметим, что при п состояниях среды существует 2П собственных под- подмножеств (включая пустое множество Л и множество всех со- состояний среды в). При больших значениях п анализ такого ко- количества комбинаций связано со значительными трудностями, поэтому при больших значениях п естественно принять слабое упорядочение всех выделяемых соответственных подмножеств состояний среды в. В случае я = 3 можно выделить следующие восемь комбина- комбинаций собственных подмножеств из в: 04=A; в,= {в1}; вз={92}; в4={03}; ©5= {01, Эг}; ®в={0ь 0з}; ®7={02, 0з}; в8={01, 02, 03}=0* которые могут быть слабо упорядочены. Например, предполо- предположим, что при попарных сравнениях этих подмножеств органом управления У было установлено, что 08[>04 и 02[>07. Отсюда получим транзитивную последовательность слабого упорядочи- упорядочивания множеств 0 (i'=l, ..., 8) вида 08[>05[>0б[>02[>07[>0з[> O04p>0i и соответствующую ей последовательность индуциро- индуцированных линейных отношений порядка априорных вероятностей 1 0 при выполнении ус- ловийд>0 (/=1,2, 3), 2 ft=1- Когда полное упорядочение подмножеств не достигается, ре- результирующие попарные сравнения могут оказаться очень по- полезными. Допустим, например, что органом управления У было установлено слабое упорядочение состояний среды 0, индуци- индуцирующее простое линейное отношение порядка. Чтобы получить более точные неравенства на вероятностях состояний среды С, орган управления У может произвести операции попарного сравнения {0J с {02, 08}, {02, 03, 0J и т. д. до тех пор, пока не будет получен некоторый индекс а, для которого {02, 03, ... ..., 0а, 0a+i}C>{0i}>{02, 0з, • • •, 0а}, либо пока не будет полу- получено {0i}t>{02, ..., 0n}. Подобная процедура далее может быть проведена для сравнения {02} с {03, 04}, {03, 04, 0s} и т. д., затем для сравнения {03} с @А, 05}, {04> 05, 0в} и т. д. Установленные таким образом совокупности упорядочений будут индуцировать соответствующие системы усиленного линейного отношения по- порядка на компонентах распределения априорных вероятно- вероятностей р. Приведем теперь пример для п=6. Пусть органом управле- управления У в результате проведения указанных выше процедур по- последовательных попарных сравнений установлена следующая система упорядочения: {в2,е3}>{е1}О{е2}; {в2} > {в3) е4> е5, ев>; 79
{в4, еБ, ee}>{e3}(>{G4Ie5}; Ш > {вв}; {вв> t> л, индуцирующая следующую систему линейных неравенств: Приведем теперь предварительный анализ интервальных от- отношений порядка, основанный (как уже отмечалось ранее) на интуитивных методах. Очевидный метод получения пределов значений для р}- заклю- заключается в указании органом управления У используемых величин а/ и р/, которые для него, несомненно, ограничивают р/# Полу- Полученные границы а/ и Р/ для р/ можно несколько уточнить одним п из следующих способов. Обозначим а= 1— ^ а7>0. Тогда, если еу- = Р/ — а;- > а для любого / = 1, ... , л, можно заменить Р/ на п Ру = а/ + а. Далее, если V а7- + р/г> 1, то можно заменить р^ на п п рй= 1—^ ah Аналогичным образом, если ak+ ^ Р/< !• то /=1 /s=l можно заменить ak на а^ = 1— ^ ру. Для этих процедур следует п учитывать, что ^ Pi~ 1» О^Р/^1 (/ = 1, ... , п). Для интервального отношения порядка вида а/^р/^Р/ при ^ a/^l^^ Р/ и S ^ = ^ спРавеДЛИВ0 следующее утвержде- ние: если для некоторого as выполнено условие as + ^ Р/1<Ь то не существует такого t=f=s, для которого было бы выполнено п неравенство Р/ + 2 а/>*- Это утверждение позволяет уточнить начальные границы для р/ (/ = 1, ... , п) посредством увеличения одного из а/ и уменьшения одного из Р/. 80
2. ДЕСКРИПТИВНЫЕ МЕТОДЫ ПОЛУЧЕНИЯ СИСТЕМ УПОРЯДОЧЕНИЯ СОСТОЯНИЙ СРЕДЫ И ЛИНЕЙНЫХ ОТНОШЕНИЙ ПОРЯДКОВ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ СОСТОЯНИЙ СРЕДЫ Рассмотренные в предыдущем параграфе методы получения систем упорядочения состояний среды и линейных отношений порядка на компонентах вектора р распределения вероятностей состояний среды были основаны на интуитивном подходе. В этом параграфе обсудим методы получения систем упоря- упорядочения и отношений линейных порядков, основанные йа пред- предварительном решении органом управления У ряда вспомога- вспомогательных вопросов о предпочтении специальным образом выбран- выбранных дескриптивных решений. Ответы органа управления У на эти вопросы должны базироваться на вводимом в рассмотрение дескриптивном оценочном функционале. Дескриптивные решения Wk (&=1, ..., /г), указываемые ор- органом управления У, представляют собой фиктивные решения, которые подбираются таким образом, чтобы как можно больше упростить процедуру их интуитивного сравнения. Получение различных систем упорядочения дескриптивных решений и опре- определение на их основе индуцированных линейных отношений по- порядка проводится с помощью введения органом управления де- дескриптивного - оценочного функционала Ffj2, принимающего только два значения: /4+ и /2+ для fi+>/2+. Например, дескриптивный оценочный функционал Fftft мож- можно определить в виде ПРИ ]Ч= к. Заметим, что в качестве f^ и f2* могут быть выбраны вели- величины /t = max max fk, fl — mm min f%. Ik i k Попарным сравнением дескриптивных решений орган управ- управления У должен упорядочить их по степени предпочтительно- предпочтительности, что после переобозначения индексов приводит к системе слабого упорядочения XF1>4;2> ... >4fn, где Ч'^Ч'h2 соответ- соответствует В+(ру 4fftl)^B+(p, Wh2), или в развернутой форме 81
Отсюда с учетом 2 Л=1 получим, что pAl/4++ (I— / i++(l—Pft2)/2+, ПОЭТОМУ рА]^: /V Таким образом, слабое упорядочение дескриптивных реше- решений индуцирует простое линейное отношение порядка вида После того как получено простое линейное отношение по- порядка, могут быть получены усиленные линейные отношения по- порядка на основе некоторой модификации дескриптивного оце- оценочного функционала F+flhy вводимой органом управления У. Для простоты начнем с определения усиленного линейного отношения порядка для р4 на основе модификации дескриптив- дескриптивного оценочного функционала в форме матрицы пХп я к я п- ft п п я я... я п п я я-я п п п я-п я я я я... я Поскольку В+(р, Wi)^B+(p, Ч^), то ^P^Ti. Рассмотрим те- лерь процедуру попарного сравнения Ч\ с Ч?в и аналогичные ей до тех пор, пока орган управления У не остановится на одном из двух вариантов: Ч^+^^О^а или 4fi>1P«. Первый из этих случаев имеет место, если выполнена следу- следующая система неравенств: В+(р, 4fa+1)^5+(p, 4f1)^B+(p, Wa), при максимально возможном а>0, что эквивалентно условиям /=2 /=06+1 1—2 /=2 /=а Второй случай Wi^V» имеет место при B+(pf Wi)^ ^Б+(р, Wn), что эквивалентно fiPi+*2i Pift>f*Pi + ^ Pitt /=2 /«а Анализ этих двух случаев приводит к следующим усиленным линейным отношениям порядка: р2+Рз+ ... Pa+i^Pi^Pz+ Р • • • +Р*, Pi>Pz+ . . . +Рп- Для получения аналогичных неравенств для р} (/= 1, ..., п) 82
рассмотрим усеченный дескриптивный оценочный функционал, заданный в виде усеченной матрицы Рг П П П ... П Ры Pi Pl+l Pi+a п ft п п п п п п п ¦¦ п •• ft .. ft .. • ft . п . ft . ft Pn ft П П ... П Очевидно, Ч^оЧ^я-!. Рассмотрим далее процедуру последовательного попарного сравнения дескриптивного решения % с ^+2, "Ч^я-з, и т. д., ре- результатом КОТОрОГО МОЖеТ бЫТЬ ^Fj+a+i^^i^^i+a ИЛИ Yj^^PV Эти две системы упорядочивания индуцируют усиленные линей- линейные отношения порядка соответственно: Очевидно, что с помощью соответствующих модификаций де- дескриптивного оценочного функционала могут быть получены различные виды линейных отношений порядков. Перейдем теперь к рассмотрению дескриптивных методов получения интервальных отношений порядка. Сравним дескрип- дескриптивное решение ^Ро со смешанными дескриптивными решениями составленными из дескриптивных решений Wo^^i, ..., Wn} и Tn+i. Дополним дескриптивный оценочный функционал Pftft9 заданный в виде усеченной матрицы, следующими равенствами /+(в„ ?«) =/i+, Г (в„ ^n+i) =/2+(/=1, .. •, л), при этом TW Обозначим через W смешанное дескриптивное решение, кото- которое является решением Wo с вероятностью q и решением ?„+1 с вероятностью 1—q. Для каждого /е{1, ..., п) орган управле- управления У должен называть две величины qh и qh такие, что для всех <7^fti и T^^F для всех q^qj2' В+ (р9 %•) > В+ (р, V) при q < qiu ВЦр^У^В+фЛ) при </><7/2, либо в развернутой форме ЯпП + A - qdfi^Pift + (l-Pj)fr<qiM + A - Яи) Кг откуда следует интервальное отношение порядка вида q$x 2. Согласно принятым ранее обозначениям щ—q^ и 83
для /=1, ..., п. Очевидно, что величину (qJ2—qh) следует стре- стремиться сделать как можно меньше. Если орган управления У может утверждать, что qix = qh> то, следовательно, имеем в каче- качестве точечной оценки pj = qh. На практике применение дескриптивных методов выбора от- отношений порядков на компонентах вектора р может оказаться более приемлемыми по сравнению с интуитивными, поскольку первые основаны на рассмотрении оценочного функционала на дескриптивных решениях как некоторой объективной оценки органом управления У ситуации принятия решений. Большое значение при этом имеет выбор соответствующего дескриптив- дескриптивного оценочного функционала. Использование интуитивного ме- метода может привести к переоценке вероятностей (связанных с более желательными для органа управления У следствиями) или недооценке вероятностей (связанных с менее желательными следствиями) при оптимистическом субъективном выборе отно- отношений порядков (и наоборот при пессимистическом). 3. ТОЧЕЧНЫЕ ОЦЕНКИ ФИШБОРНА Приведем основные точечные оценки распределения априор- априорных вероятностей состояний среды из множества в в информа- информационной ситуации /3. Для простого линейного отношения поряд- порядка вида п Pl>P2> •¦•>Рп>0, 2/>/=1, /=¦1 /ч оценки Фишборна р5 априорных вероятностей pj образуют убы- убывающую арифметическую прогрессию и имеют вид 2*"') (/=1 Л). Например, для п = 5 получим ft = 10/30, р2 = 8/30, р3 = 6/30, р4 = 4/30, ръ = 2/30. Для частично усиленного линейного отношения порядка вида pj^P}+i+ ... +рп (/=1> •••> л—1) оценки Фишборна pj удовлетворяют рекуррентному соотношению Pj = ft+i + . • . + Рп+Я, где Х = рп, из которого получим, что pj представляют убываю- убывающую геометрическую прогрессию, причем Р ^ </!«) Например, получим р6=1/31, р4«2/31, р, «4/31, ft =8/31, ft =16/31. Для усиленного линейного отношения порядка вида ft+i + ... i оценки Фишборна pj (/ = 84
= 1, ..., п) удовлетворяют рекуррентным соотношениям Pi = Pf+i + .. . + Pi+a + jPy+o+i Для всех /</г — а — 1, Pl = p/+i + ... +Pn + h Для всех />п — а — 1, на основе которых производится расчет В качестве примера рассмотрим случай п = Ъ и а = 2, тогда по- получим: Л = Л* + Рз + уР4» Р2 = Рз + Р4 + Y^5> Из этих уравнений имеем, что Pi=ll,5A,, р5=К р4=2Л, р3 = 4Х, р2 = 6,5А. Следовательно, оценки Фишборна: Pi = zo/ou, р2 == lo/ou, Рз == o/ou, /?4 = *±/о\), р$ = z/pu. Для интервального отношения порядка а^р^а^+е* где л,->0, е^О (/=1, ..., п), точечные оценки Фишборна опреде- определяются следующим образом: Например, при п = 3 в случае 0,30^р^0,45; 0,20^р2^0,35; 0,35^р3^0,50 получим р1 = 0,35, р2 = 0,25, р3 = 0,40. Хотя сам Фишборн основывал свои оценки неконструктив- неконструктивным способом на основе аксиом теории аддитивной полезности, можно предложить следующее обобщение точечных оценок Фишборна и способ их обоснования для линейных отношений порядка. Рассмотрим три случая: р^Ар-)га9 p^.Bp-\-b, Ap-\-a^p^.Bp-\- b9 тогда точечные оценки р;- (/= 1, ... , п) находятся из соответ- соответствующих уравнений р = Ар + а + X, р = Вр + Ь — ji, 2р = BА+ +В) р + а + b + к—it, где к и fx—векторы, определяемые из уело- при суммировании от /=1 до п р,= 1: 85
4. ФУНКЦИИ НЕОПРЕДЕЛЕННОСТИ ВТОРОГО РОДА Одним из эффективных путей решения проблемы построения точечных оценок, удовлетворяющих выбранному линейному от- отношению порядка на компонентах вектора р, является приме- применение принципа максимума функций неопределенности #(р) = max tf(p). Основная трудность исследования проблемы построения точеч- точечной оценки (для заданного линейного отношения порядка) пе- переносится на подбор самих функций неопределенности Н(р) по этому отношению порядка и решение экстремальной задачи максимизации #(р). При этом функции неопределенности, об- обладающие свойством дуальности с линейным отношением по- порядка, будем называть функциями неопределенности второго рода. Свойство дуальности (взаимного соответствия решения за- задачи максимизации #(р) на Ап и линейного отношения поряд- порядка на р) порождает класс функций неопределенности второго рода, обладающих асимметрией, что существенно отличает их от известных функций неопределенности в форме энтропии Шеннона, Реньи, информационной энергии и др. Приведем некоторые способы задания функций неопределен- неопределенности второго рода. В случае простого линейного отношения по- порядка рС^Рг^- •. • ^Рп можно определить Н(р) в виде что приводит к точечной оценке 2(П/+1) (/=1 п). Заметим, что если в качестве функции неопределенности взята следующая функция: я(р)= Up?1 с показателями о^>0, то задача максимизации Н(р) на Дп при- приводит к точечной оценке Это позволяет подбирать показатели щ таким образом, чтобы для р выполнялось принятое по тем или иным соображениям линейное отношение порядка. В частности, для случая задания 86
в виде щ=п—/+ 1, а, = 2пЧ, а, = a, получим, что р удовлетворяет простому, частично усиленному и интервальному линейным отношениям порядка соответственно и, кроме того, р являются оценками Фишборна. В общем случае для линейных отношений порядка вида Ар + a^p^Bp + b соответствующие показатели а;>0 удовлет- удовлетворяют следующим неравенствам: 1=1 ?=1 которые определяют некоторый выпуклый непустой конус в по- положительном ортанте ^-мерного евклидова пространства Еп. Если эти неравенства дополнить каким-либо условием нормали- нормализации вектора а, то точка а, лежащая на центральной оси кону- конуса, определяется этим условием нормализации единственным об- образом. Заметим, что для выбора а органу управления У остается сравнительно большая свобода выбора как нормализации, так и оси конуса, т. е. для заданного линейного отношения порядка является непустым класс функций неопределенности второго рода указанного вида. Аналогичным образом можно получить точечные оценки при выборе функции неопределенности второго рода вида п #(р) = _ ^ a/In/?/, причем а/ >0. Другим направлением получения функций неопределенности второго рода (обладающих свойством дуальности с заданным линейным отношением порядка) является рассмотрение мето- методов учета ограничений, определенных отношением порядка в задаче максимизации функций неопределенности первого рода (например, энтропии Шеннона). 5. МЕТОДЫ АНАЛИЗА РЕШЕНИИ ПО ОЦЕНКАМ РАСПРЕДЕЛЕНИЯ АПРИОРНЫХ ВЕРОЯТНОСТЕЙ Полученные в предыдущем параграфе оценки априорных ве- вероятностей состояний среды С позволяют использовать крите- критерии принятия решений информационной ситуации Д. Рассмот- Рассмотрим анализ принятия решения для критерия Байеса по оценкам р распределения априорных вероятностей. Подобный анализ ре- решений по оценкам р может быть проведен и для других крите- критериев принятия решений. 87
Итак, рассмотрим ситуацию принятия решения {Ф, в, F}7 в которой оценочный функционал задан в форме F = F+, и получе- получена точечная оценка р для какого-либо линейного отношения по- порядка. Тогда согласно критерию Байеса принимается решение фАо (либо множество таких решений Ф), для которого п В+ (Я Ф*о) = max В+(р, <рЛ), где Я+(р, ф/г)= 4J p}f%. Предварительно заметим, что если на основе имеющейся ин- информации о характере упорядочения состояний среды (а следо- следовательно, и об отношении порядка на распределении априорных вероятностей состояний среды из множества в) органом управ- управления У установлено, что выполняется неравенство В+(р, фЙ1) ^ ^В+(р, фь2), то, каковы бы ни были неизвестные точные зна- значения априорных вероятностей состояний среды р= (р19 ..., рп), органу управления У следует отдать предпочтение решению q>hl перед решением фЙ2, так как принятие решения фЙ2 в любом слу- случае заведомо нецелесообразно. Далее, если органом управления У установлено, что В+(р, ц)^)^В+(ру фА) для всех ф^Ф, то решение ф^ является оптимальным по Байесу, т. е. байесовым решением. Перейдем теперь к анализу решений для трех случаев зада- задания линейного отношения порядка на априорных вероятностях р= (/?!, ..., рп) состояний среды в. , В случае простого линейного отношения порядка превосход- превосходство решения фь над решением фг- можно гарантировать тогда и только тогда, когда справедливо неравенство для векторов априорных вероятностей р^Ап> для которых р^ ^р2^ ... ^рп- Преобразуем это неравенство, используя тож- тождество Абеля вида п П-1 Г / И п /=l /=i Ls=l J s=l тогда будем иметь где принято рп+1 = 0. В этом выражении разности при всех /=1, ..., я, следовательно, гарантировать превосход- превосходство решения фА над решением |фг- можно тогда, когда (/S/J)>0 Для /=1, ..., п.
Необходимым и достаточным условием превосходства решения фА над фг для случая простого линейного отношения порядка яв- является выполнение условия min Перейдем теперь к случаю задания интервального отноше- отношения порядка для вектора р^Ап распределения априорных веро- вероятностей состояний среды на в я^Р;<^=Я; + е,- (/=1, . • • > ")¦ При этом решение фЛ превосходит решение фг тогда и только тогда, когда имеет место неравенство /=1 для всех векторов реДп, для которых выполнено интервальное отношение порядка, т. е. когда выполнено условие min [В+(ру ук)-В+(р, A (/=1 П Обозначим рз = а}+Х} (/= 1, ..., п), тогда min 2 Pi(//*- й> = ^. fl/(^-//') + РеАя . — (/=1 я) /г + min ^ */($-///), (/=1,....д) 7 L причем дополнительные ограничения на х;- имеют вид: <е^ (/=1, ..., я). Упорядочим разности (f;ve — fft) в порядке убывания (/л* - /л<) < (//"^ - Л,/) < < (/Ь - fin*)- Положим 8Д ПРИ 89 71 \а при
и найдем величину ^ = а—в*. Далее определим — Ч ПРИ Действуя аналогично, найдем все величины л?, ... , #° , при этом если на 5-м шаге окажется, что О^я^-^е^, где as_! = — а—6j,— ...—еjs__x, то оптимальным является вектор х° с коор- координатами: *а = e/lf *• = e/if ..., *;м = e/wi x*s+i = ... =*«;= о» /s ( 0 при as_! = e/s. Отсюда найдем, что п п min 2J р/(/J - /Ji) = ^J (а, / / / (/=1 «) причем решение фА превосходит решение ф, тогда и только тог- тогда, когда Рассмотрим пример, в котором Ф={ф1, ф2, фз, ф4}, в = = {0i, 02, 03}, матрица значений оценочного функционала F+ за« дана в виде Ф1 Ф2 Фз Ф4 ех 8 6 4 3 02 2 7 7 4 03 4 4 5 6 Для простого линейного отношения порядка при п=3 точеч- точечные оценки Фишборна имеют вид: pi = i/2, P2 = 7s> Рз = 7е- Опти- Оптимальным по критерию Байеса является решение <р2, поскольку В+ (р, ф1) - 32/6, Я+ (р, ф2) = 36/6, В+ (р, Фз) = 31/6, В+ (Я ф4) = 23/6. Необходимое и достаточное условие доминирования решения ф2 над решением фг- для рассматриваемого примера формулируется следующим образом: I,« min lA(fJ.-fi 90
0,J 0,6 0,5 0,0 /, Рис. 4.1. Область D при доми- доминировании решения фг над ф1 Рис. 4.2. Область D при доми- доминировании решения ф1 над ф2 Можно показать, что L1== min [5ft —2/>J = —2 для ft= 1, ра=/?8==0, min min -! для 3 -i для О Отсюда следует, что решение ф2 (полученное при использо- использовании точечных оценок Фишборна) превосходит решения ф3 и q< для рассматриваемого простого линейного отношения порядка. Вопрос о доминировании решения ф2 над ф4 может быть решен органом управления У лишь на основе принятия гипотезы о вы- выполнении дополнительного линейного отношения порядка вида 5р2^2/>!. Заметим, что условия pi^p2^p3^0, р1+р2+р3=1. 5p2^2pi являются непротиворечивыми, их проекция на симп- симплекс Р2 определяет четырехугольную область D (рис. 4.1). Если орган управления У считает, что 5р2^2р4, то решение ф2 пре- превосходит решение <р1# В противоположном случае, т. е. при 5р2< <2рь анализ либо следует продолжить (взяв новую точечную оценку р), либо исследовать качественные характеристики бак- есовых множеств с контрольной точкой р1°=1/а, Р2° = 7з, Р«в==1А Для интервального отношения порядка 0,3^/7^0,5; 0,1 < 02; 0,4^р3^0,6 применение метода точечных оценок 91
Фишборна приводит к следующей оценке: р = (ри р2, р3) = = @,38; 0,14; 0,48). Вычислим байесовы значения оценочного функционала на ре- решениях из множества Ф: В+(р, ф*) =5,24; 5+(р, ф2) =5,18; В+(р, ф3)=4,9; В+(р, ф4)=4,58. Отсюда следует гипотеза, что решение ф! превосходит решения ф2, ф3 и ф4. Необходимое и достаточное условие доминирования решения ф! над решением ф, имеет вид L,= min [5+(р, ф1)— fi+(p H Можно показать, что L2= min [2л—5р2] =—0,4 для рх=0,3, р2=0,2, р3=0,5, L3= min [5рх — 4/?2 — 1] =0,1 для л==0,3, /у=0,1, р3=°Д L4= min [7ft — 2] = 0,1 для ft = 0,3; р2е [0,1; 0,2], 0,3<pi<0,5 n = О 7 0ft Отсюда следует, что решение ф4 превосходит решения ф3 и ф4, однако доминирование 'ф4 над ф2 имеет место лишь при вы- выполнении дополнительного линейного отношения порядка вида 2pi^>5p2. Заметим, что условия 0,3^р4^0,5; 0,1^Гр2=^0,2; 0,4^ ^Рз^0,6; 2pi^5/72 являются непротиворечивыми, их проекция на симплекс Р2 определяет четырехугольную область D (рис. 4.2). В противоположном случае, т. е. при 2/?4—5р2<0, ана- анализ либо следует продолжить (взяв новую точечную оценку р), либо исследовать качественные характеристики байесовых мно- множеств с контрольной точкой р!° = 0,38; р2° = 0,14; р3° = 0,48. В общем случае для полного линейного отношения порядка вида Ap + a^Zp^Bp + b анализ принятия решений начинается с получения точечной оценки реДп (удовлетворяющей этому от- отношению порядка) и решения фАо из условия В+(р, ф*0)= тах в+(Ру Ф*)- Ф Далее проверяется выполнение необходимого и достаточного условия доминирования решения фйо над решениями U = min [В+ (р, ф*0) — В+ (р, ф,)] > 0. А 92
При этом орган управления У считает решение ф^ предпочти- предпочтительным по сравнению с любыми решениями из множества Ф = = {<р<еФ : Lf^O}. Возможны два случая: Ф = Ф и В первом случае анализ принятия решения по критерию Байеса с использованием точечных оценок заканчивается выво- выводом, что решение <pfto предпочтительнее любого решения ф^Ф. Во втором случае анализ либо следует продолжить для но- новой точечной оценки из Дп, либо исследовать качественные ха- характеристики байесовых множеств с контрольной точкой р° = р. В заключение отметим, что проведенный анализ принятия решения с использованием точечных оценок дает возможность развития методов получения таких точечных оценок, которые удовлетворяют определенным качественным требованиям (в ча- частности, доминирование соответствующего точечной оценке решения над остальными, выполнения условий чувствитель- чувствительности и устойчивости этого решения, максимальной меры обла- области D и др.)- Обобщением этого является получение функций неопределенности #(р), обладающих свойством дуальности не только с заданным отношением порядка, но и с заданными ка- качественными требованиями на соответствующие реДп опти- оптимальные решения ф(р)еф. ГЛАВА ПЯТАЯ ЧЕТВЕРТАЯ ИНФОРМАЦИОННАЯ СИТУАЦИЯ Информационная ситуация /4 характеризуется неизвестным п распределением р=(ри ..., Рп), р^=Р{в=в,-}, ^ Pi = 1 на эле~ ментах в, с одной стороны, и отсутствием активного противодей- противодействия среды С целям принятия решений управляющего органа У—с другой. В некотором смысле такое «поведение» среды С эк- эквивалентно поведению «пассивной природы», исследуемой в тео- теории статистических решений. Иными словами, ситуация /4 ха- характеризует «полное незнание» органа управления У о «пове- «поведении» среды С. На практике такие ситуации встречаются при внедрении в производство нового оборудования и при реализации новых образцов товаров народного потребления, когда полностью не- неизвестен спрос, при освоении новых технологических способов производства, транспортных маршрутов (линий), при освоении новых районов рыбного промысла и новых объектов океаниче- океанического лова и т. д. 93
В этой главе исследуются критерии принятия решений, осно- основанные на методах теории потенциала и на принципах максиму- максимума функций неопределенности первого рода и функций неточ- неточности. 1. КРИТЕРИЙ МАКСИМУМА ИНТЕГРАЛЬНОГО ПОТЕНЦИАЛА Ниже будут рассмотрены методы принятия решений по кри- критериям, связанным со значениями оценочного функционала, ха- характеристиками байесовых множеств и байесовой поверхности. 1. Критерий максимальной меры байесовых множеств. Рас- смотрим ситуацию принятия решения {Ф, в, F}; обозначим че- через S9l, ..., S<pm байесовы множества решений фц ..., <рт соот- соответственно, а через \х(8ч) —меру байесова множества решения <рА^Ф. Поскольку информационная ситуация /4 характеризует- характеризуется неизвестным распределением вероятностей, то в качестве ра- разумного принципа выбора решения можно рассматривать прин- принцип максимальной меры (максимального объема) байесовых множеств. Этот принцип соответствует тому положению, что среда С с большей вероятностью выберет априорное распреде- распределение на в из байесова множества, имеющего большую меру. Такой подход основан на геометрической интерпретации вероят- вероятностных суждений о «поведении» среды С. Сущность критерия максимальной меры байесовых множеств состоит в том, что оп- оптимальным решением является такое решение ф^ (либо множе- множество решений Ф), которое удовлетворяет условию К одному из отрицательных свойств этого критерия можно отнести то, что при максимальной мере |д.Eф^) байесова множе- множества S<fk могут быть для некоторых фА^Ф выполнены нежела- нежелательные для органа управления У следующие условия: J В+ (р, Ф*о) dp^ J В+ (р, Фл) dp, s где величина $ В+(р, yk)dp характеризует интегральное (сред- невзвешенное по всем априорным распределениям) байесово значение оценочного функционала^ F=F+ для решения фА по всем априорным распределениям p^S^k р= (ри ..., pn-i), Pn= = 1 — Pi—...—р„-1. Положительной стороной этого критерия является возмож- возможность определения смешанного решения а=(аь ..., ат), ком- компоненты которого могут быть рассчитаны в виде ai=(S)/ n-i), где u(P,i-i) — мера симплекса Рп^. 94
2. Критерий максимума интегрального байесова значения оценочного функционала. Величину j B+ (p, <$i)dp будем на- называть интегральным байесовым значением оценочного функ- функционала F=F+ для решения ф^Ф. Сущность рассматриваемого критерия основана на принципе наибольшего возможного зна- значения j B+(p, щ) dp по всем решениям фЛ^Ф, согласно которо- му оптимальное решение ф^ удовлетворяет следующему усло- условию: J B+(p, <(k9)dp= max j B+(p, <pk)dp. 4*. 4* К одному из отрицательных свойств этого критерия можно отнести то, что может оказаться выполненным нежелательное для органа управления У условие \i (S<pfte) ^ ^ EФЛ) для некото- некоторых Фа^Ф. Этот критерий позволяет определить смешанное ре- решение а= («!, ..., ой), например, по следующему правилу: ос/= $ B+(p,<pt)dp/ J B+(p)dp. 3. Критерий наибольшего интегрального потенциала. Отме- Отмеченные недостатки в двух предыдущих критериях могут быть некоторым образом компенсированы путем разработки нового принципа выбора, основанного на понятии потенциала решения. Интегральным потенциалом решения ф^еф будем называть ве- величину J 5+ (р, Фл) dp S Сущность критерия наибольшего интегрального потенциала со- состоит в том, что_оптимальным решением ф^ (либо множеством таких решений Ф) является такое решение, которое удовлетво- удовлетворяет следующему условию: Физическая сущность сформулированного критерия носит вполне наглядный и естественный характер, поскольку макси- максимум величины лФ? эквивалентен наибольшему .возможному зна- значению числителя, т. е. интегрального байесова значения оценоч- оценочного значения на решении фА, и наименьшему возможному зна- значению знаменателя, определяющего геометрическую вероят- вероятность непопадания вектора р= (ри ... ,pn-i) в S4. 95
Понятие интегрального потенциала решения фАеФ может быть использовано для задания смешанного решения а = = («4, ..., ат) в форме Приведем пример применения критерия наибольшего интеграль- интегрального потенциала для нахождения оптимального решения при ф= {фь ф2> фз}, 6= {01 82} и матрицы F=F+ вида Ф1 Ф2 Фз 0! 2 6 11 е2 п 7 з Здесь Pi=p, /?2=A—р) —неизвестное априорное распределение вероятностей на в. Тогда получим В+ (р, cPl) = 11 — 9р, В+ (р, ф2) ^ 7 - р, В+ (р, Фз) = 3 + 8р, 5ф1 = [0; 0,47], 5Ф,= Л, 5ф8- [0,47; 1], li Eф1) == 0,47; ii Eф2) = 0, fx Eф8) = 0,53, |д (Рх) - 1, 5+ (/?, Фх) dp - 4,27, J 5+ (р, ф2) ф = 0, J В+ (р9 Ф3)ф=3,2 Отсюда следует, что лф1== 4,27/0,53» 8; яф2 = 0; яФз=3,2/0,47« «7и решение фАо = ф1 оптимально, поскольку лф1>яф2, яф1>яФз. 2. ОЦЕНОЧНЫЕ КРИТЕРИИ ПРИНЯТИЯ РЕШЕНИЙ В отличие от критериев, рассмотренных в предыдущем раз- разделе, в дальнейшем будем исследовать критерии принятия ре- решений, основанные на методах получения точечных оценок р неизвестного вектора р априорного распределения вероятностей на множестве в. 1. Критерий Бернулли — Лапласа. В основу этого критерия положен известный «принцип недостаточного основания», впер- впервые сформулированный Бернулли [36], который в общих чер- чертах означает: если нет данных к тому, чтобы считать одно со- состояние среды из множества в более вероятным, чем любое другое состояние среды из множества в, то априорные вероят- вероятности pj состояний среды нужно считать равными, т. е. согласно принципу недостаточной^ основания точечные оценки определя- определяются в виде pj=l/n (/=1, ..., п). Эти оценки распределения априорных вероятностей позволяют применять критерии первой информационной ситуации Д. Критерий Бернулли—Лапласа, основанный на применении критерия Байеса и принципа недостаточного основания для получения оценок априорных вероятностей ph формулируется следующим образом. 96
Оптимальным по критерию Барнулли—Лапласа _является то решение ф^еФ (либо множество таких решений Ф), которое удовлетворяет следующему условию: 1 п В+ (р, Ф*о)« max В+ (/?, q>k), где В (р, <р*) = — V, /%. п^ф п "jZx Разбор принципа недостаточного основания изложен в [34, 56, 63 и др.]. Принцип недостаточного основания (иногда назы- называемого принципом индифферентности, принципом возможных в равной степени состояний среды, принципом недостаточного зна- знания и т. д.) гласит: возможные состояния (события или случаи) рассматриваются как в равной степени вероятные, если у нас нет ни малейших знаний об условиях, при которых каждое состоя- состояние может произойти или быть получено. Рассмотрим теперь вопрос анализа решений по критерию Бернулли—Лапласа на основе матрицы {ftk} оценочного функ- функционала F+. Согласно принципу недостаточного основания по- положим, что pj—1/n (/=1, ..., п). Тогда превосходство решения ФА над решением <р< можно гарантировать в том и только том случае, когда Поэтому необходимым и достаточным условием предпочтения решения ф& из множества Ф является выполнение неравенства п min 2 {ftk-fi{)>0. ^ф ^Г 2. Критерий Хоменюка. Рассмотрим ситуацию принятия ре- решений {Ф, 0, F}, в которой оценочный функционал F задан в форме матрицы F+ или F~. Критерий Хоменюка основан на по- понятии «потенциального распределения вероятностей» на состоя- состояниях среды из множества в, при этом потенциальный вектор р априорных вероятностей состояний среды из множества в опре- определяется в следующей форме для F—F+ и F=F~ соответственно: (/= 1, ... , n). Принцип потенциального распределения вероятностей осно- основан на том, что среда С предпочитает выбор с большей вероят- вероятностью (с меньшей вероятностью для F=F~) такого состояния 4 Р. И. Трухаев QJ
среды из множества в, на котором вклад в суммарное значение оценочного функционала F+ по всем решениям фкеФ и состоя- состояниям из в имеет меньшую величину по сравнению с другими аналогичными значениями. Такой принцип, вообще говоря, пред- представляет собой для органа управления У вполне реальную мо- модель поведения среды С, стремящейся в среднем понизить зна- значение оценочного функционала Т74* (или повысить в случае F = = F~) для принятия решения. После того как получены оценки pj априорных вероятностей pj9 проблема принятия решения свелась к информационной си< туации 1и в которой для принятия решения может быть исполь* зован один из присущих ей критериев. Критерий Хоменюка, основанный на потенциальном распреде- распределении вероятностей р, формулируется следующим образом: оп- оптимальным решением считается такое решение ф^, которое удов- удовлетворяет условию Я+(р, ФО= тах В+(р9<рк). Рассмотрим теперь вопрос анализа решений по критерию Хо- Хоменюка на основе матрицы оценочного функционала F = F+. Превосходство решения <pft над решением <р< можно гарантиро- гарантировать в том и только том случае, когда В+(р, q^)—В+(р, ОО т. е. при выполнении условия *> lib t ы=2 2 (тах m Необходимым и достаточным условием доминирования решения фА над решениями из Ф является min Lt (ф&) > 0. Рассмотрим пример использования критерия Бернулли—Лап- Бернулли—Лапласа и критерия Хоменюка при анализе принятия решения для случая информационной ситуации /4, в котором Ф={фь ф2, ФзК e={6i, 05}, а матрица оценочного функционала задана F+: Согласно критерию Бернулли — Лапласа получим, что рг = р2 = = Рз = Р4= Я= 1/5; Б+(р, ф2)=40/5; 5+(р, ф1)=33/5; fi+(p, Фз)= = 34/5. Следовательно, решение ф2 является оптимальным, при* чем решение ф3 превосходит решение фх. 98 6 12 9 4 2 8 8 8 6 10 3 12 15 4 0
При использовании критерия Хоменюка получим /?х = 7/46, p2=J/46, рв =13/46, ^4 = 4/46, р5 = 18/46, В+(р, ф1) =259/46; В+ (Я ф2) = 396/46; В+(р, ф3)=280/46. Следовательно, по-прежнему решение ф2 является оптимальным, а решение <р3 превосходит решение ф4. Таким образом, критерий Хоменюка является распростране- распространением принципа недостаточного основания на случай использова- использования органом управления У принципа потенциального распреде- распределения вероятностей состояний среды, согласно которому У при- придает большую априорную вероятность состояниям среды, дающим меньший вклад в суммарное значение оценочного функ- функционала. Такой подход характерен для методов получения точечных оценок с использованием принципа максимума функ- функций неопределенности третьего рода. 3. ПРИНЦИП МАКСИМУМА ГИББСА—ДЖЕЙНСА Согласно принципу максимума Гиббса—Джейнса наиболее характерными распределениями вероятностей состояний неоп- неопределенной среды являются такие распределения, которые мак- максимизируют выбранную меру неопределенности при заданной информации о «поведении» среды. Впервые подобный подход использовал Гиббс для нахождения экстремальных функций распределений физических ансамблей частиц. Впоследствии Джеймсом [49, 50] был предложен формализм восстановления неизвестных законов распределения случайных величин при на- наличии ограничений из условий максимума энтропии Шеннона вида Следует отметить, что Нэ(р) представляет собой меру неопре- неопределенности, определяемую по распределению априорных вероят- вероятностей р состояний среды С. Энтропия Шеннона является широко известной мерой неоп- неопределенности, удовлетворяющей следующим свойствам (аксио- (аксиомам): 1) #э(р) непрерывно дифференцируема по р^ДЛ; 2) Нэ(р)^0 для р^Ап, Нэ(р)=О для вырожденного распреде- распределения; 3) Нэ(р) унимодальна по /?еДп, причем максимум Нэ(р) на Ап достигается при р1° = р2°= ... = рп°=1/п; 4) #э(р°)=1пя— монотонно возрастает при увеличении п\ 5) Н&(р) симметрична по реДп относительно р°; 6) Нэ(р) вогнута по реДп; 7) Нэ(р) аддитивна по состояниям 0^9. Формализм Джейнса постулирует: наименее сомнительным представлением вероятностей будет такое представление, кото- которое максимизирует неопределенность при учете всей заданной информации. 99 4*
Согласно Джейнсу [50], «принцип максимальной неопреде- неопределенности можно рассматривать как распространение принципа недостаточного основания Бернулли—Лапласа со следующим отличием: принятие распределения, обеспечивающего макси- максимальную неопределенность, можно мотивировать тем позитив- позитивным соображением, что оно определяется однозначно как допу- допускающее наибольшую вариабельность относительно недостаю- недостающей информации вместо негативного соображения, что нет ос- оснований предложить что-либо другое. С математической точки зрения распределение с максимальной неопределенностью обла- обладает тем важным свойством, что в нем могут быть учтены абсо- абсолютно все возможности; оно приписывает положительный вес каждой ситуации, которая неабсолютно исключается имеющейся информацией». Иными словами, применение принципа максимальной не- неопределенности Гиббса—Джейнса в условиях информационной ситуации /4 позволяет определить точечную оценку из условий Яэ(/?)== тах#э(/?)= max]—у p/lnp/l = Inn Д А [ ? J в виде Pj= \/п (/=1, ..., /г). Однако такая же точечная оценка априорного распределения состояний среды С постулируется и принципом Бернулли—Лапласа. Существенным преимуществом принципа максимальной не- неопределенности Гиббса—Джейнса является возможность полу- получения оценок априорного распределения, в которых органом уп- управления У могут быть установлены ограничения на распреде- распределение априорных вероятностей состояний среды, например, в форме задания средних и дисперсионных характеристик значений оценочного функционала F. В качестве простейших, но основных ограничений рассмот- рассмотрим ограничения двух типов. Ограничения первого типа на бай- есово значением оценочного функционала могут иметь вид В(Р> <р*)=.#А_ (?=1, ..., m), где в качестве Вк может быть выбрана, например, оценка сред- среднего значения оценочного функционала для решения <рд. Огра- Ограничения первого типа на дисперсию значений оценочного функ- функционала^ могут иметь вид <т2(р, «рА) =сгА2 (&= 1, ..., т), где в ка- качестве aft2 может быть выбрана, например, оценка дисперсии значения оценочного функционала для решения Ф Аналогичным образом могут выбираться ограничения на мо- моменты более высокого порядка как в форме равенства, так и в форме неравенства. Например, для ограничений второго типа 100
можно рассматривать следующие неравенства: п (k = 1, ... , m). В качестве способа задания 51Й и Бал могут быть использо- использованы границы доверительного интервала Bk. Аналогичные не- неравенства могут быть введены и для учета дисперсионных ха- характеристик значений оценочного функционала. С математической точки зрения ограничения в виде равенств и неравенств при использовании принципа максимальной неопре- неопределенности приводят к решению задач выпуклого математиче- математического программирования. Для учета ограничений в форме ра- равенств можно использовать аппарат теории множителей Лагран- жа. Для учета ограничений в форме неравенств необходимо использовать специальные методы учета ограничений, например такие, как метод погружения, обобщение метода множителей Лагранжа и т. д. Сформулируем ряд простейших задач по отысканию оценки р априорного распределения вероятностей состояний среды на основе принципа Гиббса — Джейнса. Задача 1. Требуется определить точечную оценку р апри- априорного распределения из условий э(р), В(р, щ) = у. Pifik= Bk (jfe=l, ..., т). ! п Заметим, что если в задаче 1 оценка Bk = — У />,, то ее реше- нием будет равномерное распределение вероятностей рз=\/п (/=1,...,/г). Задача 2. Требуется определить точечную оценку р апри- априорного распределения из условий (&= 1, ..., т) Н9 (р) = max Яэ (р), В (р, срА) = Bk, а2 (р, ср*) = а'. Задача 3. Требуется определить точечную оценку р апри- априорного распределения из условий (k= 1, ..., т) Яэ (р) = max Яэ (р), Blk < В (р, фЛ) ^ B2k, Oik ^ О2 (/7, Щ) ^ o\k. Задача 4. Требуется определить точечную оценку р ап- априорного распределения из условий (&= 1, ..., т\ г=2, 3, ... ..., р) Яэ (р) = max Я9 О), Blk ^В(р, <рА) ^В*, 101
M[k ^ ^ р/ [fjk В (/?, <Pk)Y ^ Л42/г. Рассмотрим задачу 1, для решения которой составим функ- функцию Лагранжа \/=i т / п Условие оптимальности имеет вид (/=1, ..., п) дк/др5=О9 т. е. в развернутой форме _ A + In Pl) - Ко - 2 hfik = 0. Преобразуем эту систему уравнений следующим образом: Обозначим A+Хо) =Xoi. Тогда получим Г т 1 — Ьо1— ^ ^Ч- Таким образом, принцип максимума Гиббса—Джейнса при- приводит к распределению вероятностей, имеющему экспоненциаль- экспоненциальную форму. Правда, здесь пока неопределенными остаются мно- множители Лагранжа ко1 и Xk {k=l, ..., т). Для их определения необходимо решить систему (га+1) линейных уравнений 5 Bk = O9 (k= 1, ... , m). Поскольку этот путь является довольно трудоемким и громозд- громоздким, то для упрощения вычислений введем функцию Тогда получим, что -л1 я / m \ е~ °Z=2 exp -Хо1-^ W/*N откуда найдем V = lnZ. 102
Дифференцируя [—e~k°'Z(Xu •..> Ki) ] no kh, получим систе- систему уравнений 1=1 \ отсюда могут быть найдены значения неопределенных множи- множителей ЯЛ. После преобразования -ь\ dZ __ J_J^1__ dlnZ dkQ OAk Z OKk OKk dKk получим dXl/dkk = dln Z/dKk= — Bk {k = 1, ... , m). Такой подход оказывается более удобным для практических расчетов. После того как определены значения множителей Лагранжа Яо и Л*, можно вычислить значения ph т. е. распределение веро- вероятностей, доставляющее наибольшее значение энтропии при за- заданных ограничениях на средние значения оценочного функцио- функционала. Рассмотрим задачу 2. Так же как при анализе предыдущей задачи, составим функцию Лагранжа т Г/п ( п У -1 *=i L\/=i V *=1 / J -Л0-2 W/*-2 И* //*- поскольку а2 (/?, фЛ) = Условие оптимальности имеет вид (/= 1,..., п) dh dpf " Из этой системы уравнений определяются причем для определения Bт-И)-го множителя Лагранжа Ао, Хи ..., ктУ |хь ..., |хт может быть использована система B/п+1) уравнений 103
Заметим, что решение этой задачи может быть значительно упрощено, если воспользоваться выражением для а2(р, фЛ) в виде а* (^ ФЛ - 2 Р/(//*-*)* = 3. / =i т. е. если заменить значение В(р, ср*) его заданной оценкой Вк. Тогда для задачи 2 функция Лагранжа примет вид п Г/г П m / л \ m гя - -1 -S ^ Зр/(//*-а)'-^ . поэтому Обозначив A+Ло)=Ло\ получим Рг /= ехр Г- XI - 2 hftk - L A-i Рассмотрим функцию Z = Z (Xlf ... , Ят, ft, ... , я Г m m ^ "I -S exP -S Wm-S M*(f/*-ftI Из равенства *1 п найдем, что XQi = \n Z. Дифференцируя [—e~x°lZ{Xu ..., A™, jxt, ..., |i«)] no Xl9 ... ..., Km, (it, ..., \im получим систему 2m уравнений (i= 1, ..., tn): h1 d7 n Г m m — T - e~ ° aTe S ^ exP ~ я»- S W/*-S !**(//*-Вь? = 104
Г L Следовательно, откуда могут быть найдены множители Лагранжа Ai, ..., Am* \iu ..., \хт. Иногда удобно сделать преобразование этой систе- системы к виду дАо7дАА=—Bk, dAoVdn*——°h (&=1, •••» w). Перейдем теперь к более общей задаче 4 (опуская рассмот- рассмотрение задачи 3 как частного случая). Задача 4 может быть пре- преобразована к следующей экстремальной задаче: найти векторы р, В, М\ А, |хг из условия максимума функции \ т / п \ /=i 1 L/=i J по p^An, SgJ= {BUi^Bhc^B2ky (&=1, ..., /^)}, Здесь А и р, — векторы множителей Лагранжа при учете огра- ограничений типа равенства Необходимыми и достаточными условиями оптимальности являются Д--О (/-l,...f, п), max Я -#-(Д*-В*) = 0 (А=1, ... , т), 1,,) Р)
Найдем выражения для частных производных функции h dh dh k p m dh Из условия dft/op/ = 0 (/ = 1, . . . , m) найдем pj = exp Г - Ц - 2 Xftf/Л - S S M* (//*- ft )rl, L *=1 r=2ft=l J где Xj= A + Xo). Рассмотрим функцию m Г m 9 m  Z = Z E Д, ц) = 2 exp - 2 A,A//ft - ^ S ^ ^/fc ~ B*)' ; /=sl |_ k=l r=2k=:l J тогда из условия^ ру= 1 найдем, что ?j= lnZ(B, X, |i). Диф- ференцируя In 2 (В, ?, (I) no ^ и jx; получим a In Z!dlk = — 5ft> & Bk Условия оптимальности дают возможность получить уравне- уравнения для нахождения Bk и Mkr (k= 1, ..., т\ г=2, ..., р) B±k при dh/dBk <C О, B2k при dh/dBk>0, . Ь dh Вк+Ж M[k при M[k при i любое из [M[k, Mr2k] при \ik = 0, правые части которых представляют собой проекции dh/dB и dh/dM на 33 и М соответственно. Таким образом, применение необходимых и достаточных ус- условий оптимальности к нахождению решения задачи 4 приводит к точечной оценке р распределения априорных вероятностей экспоненциального типа, параметры которого В, Мгу Л, \х нахо- находятся из решения (kp + 2m) уравнений (операторного типа и в частных производных). Эффективным методом решения за- задачи 4 является итерационный градиентный метод вида 106
s+l_ «s s <% где 6s>0 — величина шага, вектор Es и матрица М* являются проекциями dh/dBs и dh/dMs на Jf и *#. Полученная из принципа Гиббса—Джейнса точечная оценка р априорного распределения вероятностей состояний среды С обусловлена конечной совокупностью ограничений на значения оценочного функционала, принимаемых органом управления У. Принцип Гиббса—Джейнса позволяет использовать критерии информационной ситуации /t. Приведем пример по использованию принципа Гиббса— Джейнса. Рассмотрим ситуацию принятия решения {Ф, в, F}9 в которой Ф= {ф!, ф2, фз}, 6= @1, 62} и матрица F причем Pi = p, pz= 1—Р, 54 = Д2 = Для задачи 1 получим =exp\ — Xl—y} \kflk\, Р2=ехр — Xj а для определения множителей Лагранжа имеем уравнения = In Z = In \yt exp | — exp [ - >; XtjJ '-1 107
Отсюда следует, что 2D,5-//3)ехр(-^ V Непосредственной проверкой можно убедиться, что эти урав- уравнения выполняются при ехр ( - ^ Vi* ] = ехР ( - S V*) - 1, т. е. при Я!=Я2=Яз = 0, причем Я01 = 1п2, а точечные оценки pt = 4. ФУНКЦИИ НЕОПРЕДЕЛЕННОСТИ ПЕРВОГО РОДА И ОБОБЩЕНИЕ ПРИНЦИПА ГИББСА-ДЖЕЙНСА Рассмотрим ситуацию принятия решения {Ф, G, F). Каж- Каждому априорному распределению реДп можно сопоставить не- некоторую величину неопределенности в знании органом управ- управления У истинного состояния среды С, выраженную неотрица- неотрицательным числом. В любом частном случае выбор соответствую- соответствующей функции неопределенности необходимо основывать на ин- информации органа управления У о «поведении» среды С на в. Рассмотрим класс функций неопределенности первого рода, являющихся информационными мерами на распределениях со- состояний среды С, порожденными принятием тех или иных си- систем аксиом об их свойствах, «близких» к приведенным выше свойствам энтропии Шеннона. Основными свойствами (аксиомами) функций #(р) неопреде- неопределенности первого рода являются: 1) Н(р) непрерывна пореДп; 2) Н(р)^0 для реДп; Н(р) =0 для вырожденного распределения р*,= 1, Л=0 для /#/(,; 3) Н{р) унимодальна по /?еДп, причем максимум Н(р) на Дп достигается при pio = p2°= ... =рп°=1/«; 4) Н(р°) монотонно возрастает при увеличении п\ 5) Н(р) сим- симметрична по р^Ап относительно р°; 6) Н(р) вогнута по реДп. Помимо приведенных свойств функций, неопределенности первого рода дополнительно включают свойство аддитивности Н(р) по Дп. Наиболее известными функциями неопределенности первого рода являются следующие: функция неопределенности Шеннона 108
функция неопределенности де Гроота Я(р) = 1 — max{р4> ..., рп}; Я(р)=тт{р1, ..., pn}; информационная энтропия вида я п н{р)=ц р)У и (р) = 1 — 2 р"; структурная а-энтропия л энтропия Реньи порядка |J(p=/=l, p>0) 1 « ^—1 О функция неопределенности порядка а типа ^(a^l, ^>0, a+ 0) /^ (р) = Ц Функции неопределенности первого рода для случая двух со- состояний среды 01, 92, в={01, 92}, причем pi=p, pz=(l—p), при- приведенные на рис. 5.1—5.4, обладают всеми указанными выше свойствами, однако не все они обладают свойством аддитивно- аддитивности. Обобщение принципа максимума Гиббса—Джейнса заклю- заключается в нахождении оценки реДп априорного распределения на в при использовании какой-либо функции неопределенности первого рода вместо энтропии Шеннона. Рассмотрим обобщение принципа максимума Гиббса — Джейнса для функции неопределенности первого рода вида использование которой приводит к простым расчетным форму- формулам для получения точечной оценки реАп. Для задачи 1 введем функцию Лагранжа 109
Рис-5Л- Рис. 5.2. Р г Тогда из условия dh найдем, что 1 ( причем для нахождения множителей Лагранжа Яо, используются уравнения 3 j5y—1 = 0; ^]5///,-Вв=0 (s=l, ...,m) ..., 7<т или в развернутой форме / Таким образом, получена система (т+1) линейных уравне- уравнений с (т+1) неизвестными, решение которой может быть по- получено одним из методов линейной алгебры. НО
Аналогичным образом может быть проведен анализ решения задач 2—4. Анализ применения функций неопределенности пер- первого рода для построения точечных оценок р&Дп на основе об- обобщения принципа максимума Гиббса—Джейнса дает возмож- возможность сформулировать принцип дуальности: использование той или иной функции неопределенности первого рода обуславлива- обуславливает свойства точечной оценки р и, как следствие, решения <р*0 (принимаемого по этой оценке), и наоборот, свойства априор- априорного распределения вероятностей на в порождают соответству- соответствующие функции неопределенности первого рода. 5. ПРИНЦИП МАКСИМУМА ФУНКЦИЙ НЕТОЧНОСТИ 1. Функция неточности первого рода. Предположим, что рас- распределением состояний среды является реДп, а орган управле- управления У по какой-либо причине полагает, что распределение ве- вероятностей есть реДн, которое можно рассматривать как оцен- оценку истинного распределения р, при этом р^Фрэ (/=1, ..., я). Введем функцию неточности первого рода [2] которую Реньи [59] определил как меру неточности при рас- рассмотрении вместо истинного распределения вероятностей реД„ оценки реДп. Интересно отметить, что функция Я(р||р) явля- является частным случаем информационного числа Кульбака—Леб- лера [55]. Заметим, что энтропия Шеннона является частным случаем функции неточности когда оценка р органа управления У совпадает с истинным рас- пределением состояний среды, т. е. р^р. Поэтому разность Н{р\\р)—Н(р) можно считать характеристикой степени «не- «незнания» состояний среды органом управления У, причем Н(р\\р)^Н(р) при р^Дп, [Н{р\\р)—Н(р)] достигает минимума при р — р (рис. 5.5; 5.6) лля п=2 при pi = p, р2=1—Р- Конкретизируя рассматриваемую информационную ситуацию /4, будем предполагать, что истинное распределение состояний среды реДп неизвестно органу управления У, однако известно, что р<=Ап и р*=Д„, где Д„= {/?<=Д„ : сДрь ..., рп) = 1, ..., S)}, при этом предполагается, что Дп непусто. 111
2. Принцип максимума функции неточности первого рода. Согласно этому принципу априорное распределение р° назы- называется оптимальной оценкой р относительно ограничений Дп> если max Н (р \)р°) = rnin [max Н(р\\р)]. д Распределение вероятностей р*^Д» называется оценкой, со- содержащей только истину относительно ограничений Ап, если max И (р\\р*)^Н(р*\\р*). д *#(рър)-#(р) Рис. 5.5. Рис. 5.6. Оценки, не удовлетворяющие этому неравенству, называются оценками, содержащими не только истину. Заметим, что для любой системы ограничений существует по крайней мере одна содержащая только истину оценка: р*=— (/=1, ..., п). Действительно в этом случае //(р||р*)== п Распределение вероятностей /?** называется сильнейшей содер- содержащей только истину оценкой, если р** — оценка, содержащая только истину, и имеет место неравенство Н(р**\\р**) ^Н(р*\\р*)> где ]5*?ДЯ — произвольная, содержащая только истину оценка. Можно показать, что множество всех оценок, содержащих только истину, является замкнутым и Н{р*\\р*) достигает на этом множестве точной нижней границы, а следовательно, силь- сильнейшая содержащая только истину оценка всегда сущест- существует. При рассмотрении принципа максимума функции неточно- неточности первого рода удобно обратиться к геометрической ^интер- претации. В случае п=2, в котором pi=p, р2=1—Р> Pi=P, Pz= = 1—р, /?,ре[0, 1], для отыскания неточности, характеризуемой р при оценке р, строим кривую #(р||р) и проводим прямую, ка- 112
/f //fpWp) p P Рис. 5.7. Рис. 5.8 сательную к ней в точке, соответствующей р. Касательная бу- будет графиком функции неточности Н{р\\р) (рис. 5.7). Пусть множество А2 таково, что р может находиться только на отрезке [аи а2]. В этом случае, как изображено на рис. 5.8, оценка р* содержит только истину относительно рх=[аъ а2], а р1 и р2 —оценки, содержащие не только истину, так как тахЯ(р||р1)>Я(р1||р1), тахЯ(р|]р2)>Я(р2||р2). Очевидно, что в этом примере р** совпадает с точкой а2. Оптимальная оценка р°" также совпадает с а2, поскольку при реРь рфс^ имеем max Я (р || а2) = max Я (р \р)>Н (а2 \\ р)>Ща21| а2) = max Я (р\ а*). Рассмотрим теперь общий случай, когда р = (р19 ..., рп)у Р = {Ръ • • • i Р«). Проекции распределений р и р вероятностей со- состояний среды являются точками (п— 1)-мерного симплекса Pn-i при ря = A— рг— ... — pn-i), Pti = (l—Pi— ... — pn-i). Обозначим через Рп~1 множество всех точек симплекса Рп-и удовлетворяющих системе неравенств с8(ри ..., pn-i, 1—Pi—¦•• ...— Pn-iXO E=1, ..., 5). В этом случае Н(р\\р) представ- представляет собой вогнутую поверхность в пространстве (Я, pi9 ... ..., pn-i). Гиперплоскость Г, касательная к поверхности Н{р\\р) в точке, соответствующей р, совпадает с Н(р\\р). Справедливо утверждение: для любой системы ограничений на р, образующих множество /Vb существует единственная оп- оптимальная оценка р° е Pn-i. Оптимальная оценка р°^совпадает с сильнейшей, содержащей только истину, оценкой /?**, при этом, max 113
Из этого утверждения следует, что если множество Рп^ таково, что не существует (п — 2)-мерной гиперплоскости, отде- отделяющей /Vi от точки р\ то оптимальной оценкой является р° = р1. Например, если на выбор р не наложено никаких ограни- п чений, кроле ^ Pi — 1> то оптимальной будет оценка р) = — (/ = 1, ..., п). Это следствие поясняет, в каком смысле п целесообразно пользоваться принципом Бернулли—Лапласа. Почему оценка р*еРп-!, удовлетворяющая неравенству max Н(р\\У)^нСр*\\П названа «содержащей только истину»? Предположим, что внутри Рп~\ действительно может нахо- находиться распределение р. Допустим, что органу управления У известны не все неравенства, которые определяют Рп-ъ т« е- органу управления известна «только истина, но не вся истина». Дополнительные ограничения — «новая информация» — совместно со старыми ограничениями определяют множество Р?_ь причем Pn-iZDPn-i. Таким образом, для имеющихся у органа управления сведений может быть найдена оптимальная оценка р° относи- относительно множества Pn-i, при этом относительно множества Pn-i эта оптимальная оценка не обязательно будет оптимальной, однако она всегда будет содержащей только истину. Рассмотрим другой случай. При получении дополнительных све- сведений или «дополнительной информации», определяющей множе- множество Рп~ъ может быть найдена оптимальная оценка р°. Если в действительности распределение принадлежит не области Pn-i> а Рп-и то это значит, что органом управления У получены лож- ложные сведения об ограничениях на положение /?, и в этом слу- случае р° содержит не только истину относительно области Pn-i. Таким образом, если при построении оптимальной оценки орган управления У пользовался истиной (но не обязательно всей), то может быть получена оценка, содержащая только ис- истину; если же при построении оптимальной оценки получена оценка, содержащая не только истину, то это значит, что сведе- сведения, которыми пользовался орган управления У, содержали лож- ложные данные о множестве, в котором может находиться априор- априорное распределение вероятностей /?еДп. Разумеется, обратные соотношения не имеют места. Напри- Например, ложные ограничения могут и не привести к оценке, содер- содержащей не только истину. Очевидно, здесь дело в том, что не все свойства множества Pn-i существенны для построения опти- оптимальной оценки. Ложные сведения коснулись именно этих не- несущественных свойств. 114
Далее, выполнение равенства тах я (p\f) = Я (р° || р°> говорит о том, что если орган управления У пользуется оценкой р°, оптимальной при реально существующих ограничениях, то максимум функции неточности первого рода равен значению энтропии Шеннона от этой оценки. В общем случае, когда оцен- оценка может быть неоптимальной, значение функции неточности не выражается через значения энтропии Шеннона для р или р. 3. Функция неточности второго рода. Будем предполагать, что р^Д„ — распределение вероятностей состояний среды, а реДп — оценка истинного распределения. Функцией неточности второго рода является введенное Реньи [59—61] количество ин- информации порядка <x(ia>0, аф\): Нат [57] рассматривал Яа (р || р) как меру неточности порядка а Заметим, что Яа(р||р) при р = р превращается в функцию неоп- неопределенности (энтропию Реньи) порядка а. Основными свойствами. На(р\\р) являются: 1) Яа(р|р)>0; 2) lim На (р II р) = Я (р | р); 3) Яа (р || р) — монотонно убывающая: а->1 функция а; 4) Яа(р||р)> Я(р||р) при 0<а< \\ 5) Яа(р||р) < <Я(р||р) при 1<а< + оо; 6) если Яа(р||р)^Яа(р||р), то На(р\\р)^Нд(р\\р)\ 7) если Яа(р|р)>0, Яа(р1р)>0, тогда р); 8) | Другими функциями неточности второго рода являются [19] аддитивная мера информации порядка а типа р log /=1 a— 1 обобщенная неаддитивная мера информации порядка а и типа hUp\\p) = О-' f l_J=i- fi" J 115
обобщенная производящая функция информации распределения р относительно распределения р порядка а и типа р (—оо<и< -" '-оо) hUp\\p) = 1=1 4. Функции неточности третьего рода. Функции неточности первого и второго рода не были непосредственно связаны с оце- оценочным функционалом. Аналогично функциям неопределенно- неопределенности третьего рода функции неточности третьего рода связаны с оценочным функционалом. Простейшей функцией неточности третьего рода является ЛР) = а V/ a a 1, ..., т). При Pj=pj функция неточности третьего рода превращается в модифицированную функцию неопределенности третьего ро- рода — функцию неопределенности Белиса [35]: Применение принципа максимума функций неточности вто- второго и третьего рода открывает для органа управления У пер- перспективы создания более объективных методов расчета опти- оптимальных оценок р°еЛп. Принцип максимума функции неточно- неточности позволяет найти оптимальную оценку р° неизвестного апри- априорного распределения вероятностей на в и, следовательно, ис- использовать эту оценку для принятия решения на основе крите- критериев информационной ситуации /1# 116
ГЛАВА ШЕСТАЯ ПЯТАЯ ИНФОРМАЦИОННАЯ СИТУАЦИЯ Информационная ситуация /5 характеризуется активным про- противодействием среды С целям принятия решений органом управ- управления У. В отличие от «пассивной» среды либо среды, состоя- состояния которой реализуются согласно заданному распределению ве- вероятностей, активная среда стремится к выбору таких состоя- состояний из множества в, для которых оценочный функционал F= = F+ принимает наименьшее значение из множества своих мак- максимально возможных (по решениям) значений. Основной тен- тенденцией при выборе решения органом управления У в этой си- ситуации является обеспечение гарантированных (максиминных) уровней значений оценочного функционала. При этом анализ процесса принятия решений аналогичен основным правилам и элементам теории антагонистических игр. Поэтому критерии принятия решений в информационной ситуации /5 основаны на принципе минимакса (максимина) [3, 16, 18]. Таким образом, в ситуации /5 неопределенность полностью обусловлена тем, что органу управления У неизвестно, в каком состоянии из множества в находится среда С, и, кроме того, в теоретической модели принятия решений степень неопределен- неопределенности уменьшена в силу допущения, что среда С активно про- противодействует достижению наибольшей эффективности прини- принимаемых решений путем выбора таких своих состояний, которые •сводят к минимуму максимальную эффективность процесса управления. Можно отметить, что при моделировании процессов управления (в политических, военных, экономических, спортив- спортивных и других системах) приходится учитывать факторы антаго- антагонизма противостоящей среды противника, группировки, коман- команды, коалиции и т. п. 1. КРИТЕРИИ ПРИНЯТИЯ РЕШЕНИЙ Сначала рассмотрим такую ситуацию принятия решения, ког- когда оценочный функционал выражается в форме F=F+. Тогда согласно принципу максимина каждому решению <рлеФ при- присваивается в качестве показателя его гарантированный уровень, который определяется как наименьшее по состояниям среды значение функционала Оптимальным называется такое решение фйоеФ, для кото- которого соответствующий показатель fk+ наибольший, т. е. для которого ?Х= 117
Итак, каждое решение <р„ оценивается согласно принципу максимина по «наихудшему» состоянию среды для этого реше- решения, и «оптимальным» является решение, приводящее к наилуч- наилучшему из наихудших значений оценочного функционала. Если оценочный функционал F выражен в форме F=F~, то описан- описанный выше принцип обычно называют минимаксным. Согласно этому принципу орган управления пытается свести к минимуму максимально возможное значение оценочного функционала при принятии решения в случае информационной ситуации /5. 1. Критерий Вальда. Критерий основан на максиминном принципе для F=F+ и заключается в принятии такого решения Фь, (либо множества таких решений Ф), которое удовлетворяет условию fka = max min f]k. В случае я = 5, т=4 и матрицы оценочного функционала F=F+ Ф1 2 1 7 8 е 8 6 3 3 63 2 10 4 0 04 2 3 11 4 05 16 4 7 10 J определяется наименьший элемент в каждом столбце и среди этих наименьших элементов (по каждому решению) находится наибольший: 7J=minft =min{2, 8, 2, 2, 16} = 2, ftt =min{l, 6, 10, 3, 4}= 1, = min{7, 3, 4, 11, 7}=3, 7t=min/t4 =min{8, 3, 0, 4, 10} =0, ? = 7?o = max |7?}= max{2, 1, 3, 0 } = 3, т. е. согласно критерию Вальда оптимальным для рассматрива- рассматриваемого примера является решение <р3. Как отмечают Льюс и Райфа [16], критерий Вальда имеет то достоинство, что он чрезвычайно консервативен в такой об- обстановке, где консерватизм может иметь место. Однако против максиминного принципа можно выдвинуть ряд возражений. На- Например, рассмотрим матрицу F = F+ оценочного функционала 118
F+ = Поскольку решения ф! и ф2 дают гарантированные уровни соответственно 0 и 1, то ср2 предпочтительнее cpt согласно макси- минному принципу. Однако среднее значение В+(р, ф^ оценоч- оценочного функционала на решении ф! больше среднего значения В+(р, ф2) оценочного функционала на решении ф2 при любых pt = py р2=\—р, для которых O^p^l — 1О~2. Несмотря на это, решение ф2 разумно, если среда является сознательно противо- противодействующим противником органа управления У, так как тогда С должна выбирать состояние 8i, а решение ф2 является наи- наилучшим аргументом против 04. Сказанное выше говорит о необходимости введения допол- дополнительных ограничений в критерий Вальда, основанных на кри- критериях принятия решения в предыдущих информационных си- ситуациях. Например, в качестве основного ограничения можно использовать критерий Бернулли—Лапласа. Тогда оптимальным по критерию Вальда будет то решение фАо^ф, для которого Яо = max min {/%} = max (ft) при условии В+A/пу фАо)^Во+, либо В+(р°, фАо)^50+, где вели- величина Во+ и оценка р° задаются органом управления У. Винер, Хитч, Льюс, Райфа [28, 16] и другие критикуют принцип максимина. К основным положениям этих критических замечаний можно отнести следующие. Существуют игры, такие, как игра в крестики и нулики, где вся стратегия известна и мак- симинное правило поведения можно проводить с самого нача- начала. Если такое возможно, то это явно наилучший способ игры. Но во многих играх (таких, как шахматы и шащки) наше зна- знание недостаточно для полного осуществления подобной страте- стратегии, и тогда можно лишь приближаться к ней. Теоретико-игро- Теоретико-игровой принцип максимина (минимакса) учит действовать с край- крайней осторожностью на основании допущения, что противник — совершенный мастер. Однако такая установка не всегда оправ- оправдана. 2. Критерий минимаксного риска Савиджа. Критерий был предложен в 1951 г. и в настоящее время является одним из основных критериев, удовлетворяющих принципу минимакса. Большая популярность этого критерия объясняется интенсив- интенсивным использованием его в теории статистических решений, имею- имеющей большое теоретическое и прикладное значение. В критерии Савиджа [62, 63] оценочный функционал F выражен в форме сожалений или риска F = F~. Согласно критерию Савиджа оп- оптимальным решением фйо (либо множеством таких решений Ф) является такое решение, которое удовлетворяет условию 119
*о = min 7a = mm max Ф в Разумным ограничением в критерии Савиджа является огра- ограничение вида В~(—, фй) ^Дг Для всех фАеФ. п Рассмотрим пример предыдущего раздела, в котором мат- матрицы F+ и F~ имеют вид 1 ,ЛЛ j I, -i0 99 Если истинным состоянием среды из множества в является Qlr то орган управления У не испытывает сожалений, если выбира- выбирает решение <р2, но есть некоторое сожаление 1, если он выбира- выбирает ф4. Если истинным состоянием среды С является 82, то орган управления У, наоборот, не испытывает сожаления, если выби- выбирает фь и испытывает уже значительное сожаление (99), если выбирает ф2. Следовательно, при выборе решения ф! получается наименьшее максимальное сожаление. Сущность рассматриваемого здесь критерия во многом объ- объясняется самим понятием сожаления (риска), введенного при описании оценочного функционала. Основное возражение, вы- выдвигаемое против критерия Савиджа, состоит в следующем: еслнг согласно критерию минимаксного сожаления оптимальным явля- является ф^еФ, однако по какой-либо причине одно (или множе- множество) решений фА1 невозможно, то по критерию минимаксного сожаления может оказаться, что среди решений Ф\фЙ1, в кото- которые входит ф^, оптимальным будет уже не ф^, а другое реше- решение фь2е{Ф\фЬ1}. В связи с этим Чернов [39] полагает, что при разумном критерии наличие нежелательного решения фЙ1 не должно оказывать влияния на выбор между остальными реше- решениями. Возражение Чернова против критерия Савиджа тесна связано с понятием независимости несвязанных решений. 2. ФУНКЦИИ НЕОПРЕДЕЛЕННОСТИ ТРЕТЬЕГО РОДА И ПРИНЦИП МАКСИМУМА ГИББСА—ДЖЕЙНСА Функциями неопределенности третьего рода будем называть функции вида Я(р)= min ВТ(р, <Pk)=BT(p), где ВГ(р, ф*) = ^ pifjk, причем компоненты fjk оценочного 4УНК~ ционала выражены в сожалениях, а 5""(р) представляет собой байесову поверхность значений байесовых сожалений (риска). 120
Такое определение понятия функции неопределенности указано де Гроотом [5]. Функции неопределенности третьего рода тесно связаны со значениями оценочного функционала F (в отличие от функций неопределенности первого и второго рода). Основными свойства- свойствами (аксиомами) функций неопределенности третьего рода яв- являются: 1) Н(р)^0 при реДп, Я(р)=0 для вырожденного рас- распределения Pio=l, pj=O 0V=/0); 2) Н{р) непрерывна по р^ЛЛ; 3) Н(р) вогнута по р^Ап. В качестве функций неопределенности третьего рода ' можно рассматривать функцию неопределенности Белиса [35] "v (/>)--2 S V*(P)P/lnp/f yk(p)= В качестве других функций неопределенности третьего рода можно рассматривать некоторые критерии первой информаци- информационной ситуации, например = min которая хотя и не является вогнутой функцией, но квазивогнута. Принцип Гиббса—Джейнса формулируется как критерий определения такого распределения априорных вероятностей р состояний среды, для которого функция неопределенности треть- третьего рода достигает максимально возможного значения, т. е. Я (р)=.max #(/?). Как и для случая применения принципа Гиббса—Джейнса для энтропии Н0(р) Шеннона, для функции неопределенности третьего рода можно рассматривать следующие задачи нахож- нахождения оценки р, учитывающие возможные ограничения на рас- распределение вероятностей р состояний среды из множества в. Задача 1. Требуется найти точечную оценку р, удовлет- удовлетворяющую условию Я(р)= max H (р). , Задача 2. Найти точечную оценку р из условий (k = = 1,..., т) п И (р) = max H (р), 3 Puk = Bu. Задача 3. Найти точечную оценку р из условий (k= = 1,...,т) 121
Я (р) = max Я (р), В1/г < В~ (р, д Задача 4. Найти точечную оценку р из условий (k 1, ..., га; r = 2, ...,p) Я (р) = max Я (р), JBlfe <^ В~ (р, фЛ) ^ В*, д Анализ решения этих задач для функций неопределенности Н(р) при использовании методов учета ограничений и условий оптимальности проводится аналогично изложенному в предыду- предыдущей главе. Так как функция неопределенности де Гроота не является непрерывно дифференцируемой, то для решения сформулирован- сформулированной задачи 1 удобнее воспользоваться сведением возникающей максиминной задачи, с одной стороны, к задаче нахождения седловой точки {а, р} т Я (р) = max min ZT (p, cp^) = max min у akB~ (р, щ) = РЕ=Д ф/^еФ реД асД ^ = min max а с другой стороны, к А-задаче [30, 31] нахождения р^Ап и = max Алее/?1 д Для задач 2—4 можно использовать аналогичные формули- формулировки при задании ограничений на выбор реД». Задача нахождения седловой точки для линейной по а и во- т гнутой (квазивогнутой) по р функции вида ^ «ЛВ"(р, Ф*) хо- fc=i рошо изучена в математическом программировании и теории матричных игр. Можно показать, что в случае задачи 1 усло- условиями оптимальности являются тах 2 jr(Pi-Pi)=o, 122
min дН Для задач 2—4 условиями оптимальности {а, р} являются где А„ — множество р^Ап, удовлетворяющее ограничениям для каждой из задач 2—4 соответственно. Условия оптимальности при использовании Я-задачи могут быть получены на основе применения методов учета ограниче- ограничений, аналогично изложенному в предыдущей главе (поскольку ^-задача является обычной задачей математического програм- программирования). Использование оценки р (найденной согласно принципу Гиб- бса—Джейнса) приводит к возможности использования критери- критериев первой информационной ситуации для принятия решения. Рис. 6.1. Функция неопределенно- сти де Гроота Н(р) Рассмотрим пример расчета оценки р, в котором Ф = = {ф1» Фг, Фз}, e={0t, 02}, матрица значений оценочного функ- функционала F = F~f ( 0! 8 3 0 , причем /?i = p, р2= 1—Р, р Функция неопределенности де Гроота, представленная на рис. 6.1, имеет вид 123
8р при 0<^р<^— , 7 — 7р}= 7—7р при — I 8 Оценка р = 5/8 как решение задачи 1 находится из условий Н{р)= max #(р), при этом решения <р4, ср2 являются оптимальными по критерию* Байеса. ГЛАВА СЕДЬМАЯ ШЕСТАЯ ИНФОРМАЦИОННАЯ СИТУАЦИЯ Информационная ситуация /в определяется наличием фак- факторов, характеризующих два типа «промежуточного» поведения среды С. Для первого типа характерно наличие у органа управления У некоторой «смутной» информации об истинных распределени- распределениях состояний среды С. Какой бы неопределенной эта «смутная» информация ни была, орган управления У хотя и не может по- постулировать какую-либо конкретную информационную ситуа- ситуацию /<.(*= 1, ..., 5), однако может установить некоторый уро- уровень пессимизма—оптимизма. Для второго типа предполагается, что орган управления име- имеет информацию о состояниях среды, являющуюся «промежуточ- «промежуточной» между информационными ситуациями /j и /5, т. е. для это- этого случая такая информационная ситуация «лежит» между дву- двумя крайними ситуациями /4 и /5, характеризующимися, с одной стороны, полным или частичным знанием распределений веро- вероятностей на в, а с другой — антагонистическим поведением сре- среды С. 1. КРИТЕРИИ ПРИНЯТИЯ РЕШЕНИЙ 1. Критерий Гурвица. Критерии Вальда и Савиджа пессими- пессимистичны в том смысле, что с каждым решением они связывают состояние среды С, приводящее к наихудшим последствиям для принятого органом управления решения. Однако почему бы не попытаться учесть поведение среды С, являющееся наилучшим 124
для органа управления либо взвешенной комбинацией наилуч- наилучшего и наихудшего. Такой подход к выбору критерия принятия решений, известный как критерий показателя пессимизма — оп- оптимизма, был впервые предложен Гурвицем [16, 47]. Отличи- Отличительной особенностью этого критерия является то, что в нем предполагается не полный антагонизм среды С, как в критери- критериях Вальда и Савиджа, а лишь частичный. Сущность критерия Гурвица заключается в нахождении ^оп- ^оптимального решения фйо (либо множества таких решений Ф)^ для которого выполнено условие X min + A — tymax'ft. == max{Xmin fik + A — 9/ев еФ o0 max при фиксированном 0, 1]. Если обозначить ey<=e e;-<=e решением который ф будем то для фиксированного Ле[0, 1] с каждым можно связать показатель /ла=Я/л1+A—X)fi называть Я-показателем Гурвица решения Решение фл, будет предпочтительнее фА2 (что записывается в виде фА,[>фА2) тогда и только тогда, когда fui^/u2- Заметим, что при Я=1, fu=/:*1 и критерий Гурвица совпада- совпадает с критерием Вальда, а при i=0, /u=/ft2 и критерий Гурвица совпадает с максимаксным критерием. В первом из этих слу- случаев предполагается, что среда С максимально противодейству- противодействует целям управления, во втором, наоборот, среда С наилучппш образом содействует целям управления. В каждом из этих слу- случаев поведение среды в некотором смысле сравнимо с «умным»- или «совсем бездарным» противником. Однако если считать, что эти случаи представляют собой крайности, то истинное поведе- поведение среды будет являться промежуточным и может быть оха- охарактеризовано величиной Я^[0, 1]. Наряду с изложенным выше критерием Гурвица можно рас- рассматривать модифицированный критерий Гурвица, в котором для каждого решения флеф вводится свой показатель А*е[0, 1], т. е. вместо ДА определяется hkk=hfh+ (I—А*)/Л Возможное возражение против критерия Гурвица разберем на примере, в котором оптимальное решение противоречит здравому смыслу. Рассмотрим функционал Г ф1 ф2 1 0! О 1 е2 е3 1 0 j 125
Согласно критерию Гурвица решения ф4 и ф2 оба оптимальны, т. е. имеют один и тот же показатель. Однако ф! явно лучше <р2. Это замечание, по-видимому, связано с тем, что в критерии Гурвица необходимо учитывать ограничения, например, вида В+(—, фь)^?о+ для любого ф^Ф, исследуемого на оптималь- п ность по критерию Гурвица. Остановимся теперь на вопросе выбора коэффициента X. При изложении критерия Гурвица мы предполагали, что орган управ- управления У выбирает вполне конкретное значение Я^[0, 1]. Хотя четкой методики по выбору величины X нет, однако можно пред- предложить несколько разумных рекомендаций. При выборе коэффициента X органом управления У могут быть использованы эвристические методы, связанные с его опы- опытом и знанием особенностей выбора средой С своих состояний из множества в. Например, чем более сильными или убедитель- убедительными доводами органа управления являются соображения о принятии одного из крайних поведений среды, тем ближе будет X к единице или нулю. Значение Я—1/2 является равновесной точкой промежутка [0, 1]; для этого значения X вполне есте- естественно предполагать, что орган управления считает среду С в равной степени как антагонистической, так и максимально «со- «содействующей» целям управления. Далее органом управления У могут быть рассмотрены различные системы разбиения интер- интервала [0, 1] значений на полную систему непересекающихся под- подмножеств с последующим заданием на них вероятностных отно- отношений, приводящих к ранее рассмотренным линейным порядкам и методам получения оценок Я. Если орган управления У знает плотность распределения параметра Яе[0, 1], тогда в качестве оценки X можно исполь- 1 зовать среднее значение Я = Я, равное Х = f Xg(k)dX, либо искать о математическое ожидание Я-показателя Гурвица: В общем случае оптимальное решение по критерию Гурвица является функцией от X. Приведем пример, в котором матрица задается в виде Фх Фг Фз е2 2 б и е2 10 7 з Найдем fhk в виде (рис. 7.1) 126
Таким образом, по критерию Гурвица оптимальными могут быть решения ф3 и ф2, но ни при каких X решение ф! не опти- оптимально. Множество значений [0, 1] параметра X разбилось на два подмножества: ЛФз и Лф2, причем при ЯеАр3=[0, 4/т] опти- оптимальным по Гурвицу является решение <р8, а при ЯеЛф2=[4/?, 1]. оптимальным по Гурвицу является решение ф2. Л* /2 Рис. 7.1. -Л+г 'Уг / А Множество Гурвица ЛФА, значений Я^[0, 1] решения фл опре- определим в виде [0, 1], max ftt = причем т U АФл = [0, 1], k ф, = л при ф*2. Кривой Гурвица будем называть ломаную Т+(Х) вида = {ftk при (k = 1, ..., Кривая Гурвица Т+(Х) выпукла по Яе[0, 1]. Заметим, что ЛФА;. и Г4" (Я) по своей структуре аналогичны байесовому множеству S<pfe и байесовой кривой В+(р) соответственно. В связи с этим Я-показатель Гурвица может быть использован для построения критериев принятия решений по максимуму мер множеств Гур- Гурвица, максимуму интегрального значения показателя Гурвица и максимуму интегрального потенциала. И наконец, кривая Гур- Гурвица, построенная по значениям оценочного функционала F~y выраженного в сожалениях, может быть принята в качестве функции третьего рода, в связи с этим для получения точечной оценки X параметра X может быть использован принцип макси- максимума Гиббса—Джейнса Т-(Х)= max Г" (А,), teA*n[] 127
где Л* — множество значений к, полученное при задании допол- дополнительных ограничений. 2. Критерий Ходжеса — Лемана. Ходжес и Леман [46] стоят на той точке зрения, что в практике принятия решений в усло- условиях неопределенности информация о состояниях среды С часто находится между полным незнанием и точным указанием апри- априорного распределения. Например, априорное распределение р° может представляться вероятным и все же недостаточно надеж- надежным, чтобы основывать на нем решения. Критерий Ходжеса — Лемана позволяет использовать воз- возможную информацию, имеющуюся у органа управления У, но в то же время обеспечивает заданный уровень гарантии в слу- случае, если эта информация неточная. В некотором смысле крите- критерий Ходжеса — Лемана представляет собой «смесь» критериев Байеса и Вальда. Рассмотрим ситуацию принятия решений {Ф, 9, Т7}, в кото- которой оценочный функционал F выражен в форме сожалений (рис- (риска) . Будем говорить, что решение cpfto является ограниченным байе- 'Совым решением относительно заданного априорного распреде- распределения реДя, если В~(р, ф^) = min5~(p, фА) и если, кроме того, ф выполняются неравенства />9^Г(/=1> •••> п)у где f° задано. Ограниченное байесово решение фйо может быть также опре- определено из условия min {ЯоВ"(р, ф/г) + A — Х0)тах/7/г}, где по- Ф Вев стоянная Яое[О, 1] характеризует условие на р Эти два определения эквивалентны, так как если решение ф^ находится по второму способу и если max/>0 = f\ то Ф*о есть у ограниченное байесово решение по первому определению. Спра- Справедливо и обратное. Рассмотрим достаточные условия [46] при- принадлежности решения фА^Ф к классу ограниченных байесовых решений. Лемма 7.1. Пусть задано распределение р°^Ап, для которо- которого существуют постоянная величина Я0е>[0, 1], и распределение р^Ап такие, что P°=Kp+(l-h)p. Если ограниченное байесово решение фАо для р°еДп такое, что выполняется равенство В~(р, ф^) =max//v?e, то решение ф^ удов- летворяет условию %0В~ (/?, <р*#) + A — Хо) max fjko = min {Х0ВГ (р, e Ф 128
Действительно, пусть cpft — любое решение из Ф, тогда /?, фА) + A — Ло) max ffk > Х0В~ (/?, щ) + A — вв ФА§) + A - К) в~ 1 — Хо) max />в. Из этой леммы вытекает следующий результат. Предполо- Предположим, что max fjk = /°. Тогда фАо удовлетворяет условию ' е./=в 5-(|р°, Ф*о)= min B-(p\<fh). еФ Для данной пары распределений р° и р разложение /?°=Яр + + A—Я)/? для некоторых реАЛ определяет для % замкнутый интервал 0^Х^ЯР, в котором К будем называть р — констан- константой от р°. Лемма 7.2. При предположениях леммы 7.1 распределение р° максимизирует байесово значение оценочного функционала сре- среди всех априорных распределений р°у которые допускают разло- разложения р«=%р+(\— Х)р с Я>Хо, т. е. В-(р\ фО^В-(р°, Фао). Из этой леммы следует, что р°еДп максимизирует не толь- только байесовый риск, но также и ограниченный байесовый риск, т. е. min В"(р°, ф*)> min В~(р\ <pk). Ф Ф Чтобы доказать лемму 7.2, т. е. доказать существование рас- распределения с требуемым свойством, необходимо выполнение услоЕий: a) min jjiax [К0В~ (р, q>k) + A — Яо) ВТ (/?, фЛ) = = max min [X0B~(pf щ) + A — %0) ВГ(ру ф^)], Г ф причем это условие подчеркивает тот факт, что среда С ограни- ограничена распределением с ^-константой Х? ^Яо; б) существует наименее благоприятное распределение р^ ^Дп, которое удовлетворяет условию max min [X0B~ (/?, <pk) + A — = min [Я0В~ (р, фЛ) + A Ф^ЕФ 5 Р. И. Трух-аев J29
в) существует решение ф^еФ, которое удовлетворяет усло- условию min max [Х^ (р, фЛ) + A _ %0) В" (р, ц>к)\ = = max [Xjar (р, ф*0) + A — Х0)ВГ (р, <pft#)J. Тогда можно заметить, что max [10В- (р, щ) + A — Ло) В" (р, <p*#)J = Х0В" (р, фЛ) + A — Яо) max/7*. Следовательно, %0В" (р, ф*0) + A — Я,о) max fjko = min поэтому Ф^о) + A - **)max f/*0 = %0В~ (р, фЛ§) + (I - Яо) Я" (р, при А,о<1> когда maxf/^e= В (р, ф*0). Этот результат очевиден, когда Яо= 1. Рассмотрим теперь зависимость ограниченного байесова реше- решения от величины /°. Пусть /=тах/7^^ является максимальным у риском байесова решения (для простоты предположим, что ф — единственно, в противном случае определим /= min max f}k~ no Фь^еФ 9f<=e р р всем байесовым решениям ф^. Пусть / — максимальный риск ми- ^L _ — - нимаксного решения. Тогда f^f (случай f=/ исключим из рас- рассмотрения как тривиальный). Пусть для любого /, такого, что 7^/ ^7, %„{!) — ограниченное байесово решение и 5^(/) = = В' (р, ф^^ (f)) — соответствующий ограниченный байесов риск. Тогда функция B~(f) выпуклая, непрерывная и строго убывающая по / при фиксированном р. Пусть задана последовательность вложенных друг в друга множеств априорных распределений р из (п—1)-мерного симп- симплекса Pn_1P0dP1dP2c:...c:Prc:Pn_i при рп= I—р4—...—p»-i. 130
Орган управления У может быть уверен, что истинное распреде- распределение вероятностей состояний среды С принадлежит какому- либо из этих множеств. Отсюда следует, что орган управления У может выбрать из убывающей последовательности постоянных }Г>1Г"{>. • .>/* величину f\ большую ограниченного минимак- минимаксного риска, и минимизировать max B~(pt <pk) в зависимости от выполнения условия max B~(p, фА)^/Л В соответствии с этим P справедливо следующее утверждение. Лемма 7.3. Предположим, что существуют Я0>0, распределение р°^Рп-и для которого Р° = ^ где р^Р0, p{i)^Pi такие, что при v=.l,..., г max В~ (/?, фЛ§) == f = ВТ (р«\ ,фЛ§), max Б" (р, ф/?0) = Б" (р, ф^0); реР« здесь фь0—байесово решение для р°, т. е. В~(р°, = min Б~(р°, фА). Тогда выполняются условия min max В" (р, фЛ) = тахБ"(/?, ф*0) = В~(р°, Ф P Р^^-1 Х/1 (/=1, ..., г). Действительно, пусть фА —любое решение, удовлетворяющее не- неравенствам maxВ~(р, фк)^/1' (f=l, ..., ^), тахБ(р, фл)^ р ; тогда получим, с одной стороны, г г max 5" (р, Фл) = 51 ^ тах в~ (Р» Ф*) > S «о, с другой стороны, г г г 2 Л/ max В- (р, ф^)^^^(>, Ф^о)+ 2 Я^(° = S ^ ^рх fi"(/?' ф^- Таким образом, сущность критерия Ходжеса — Лемана со- состоит в следующем: 1) находится то решение, для которого ми- минимаксный риск равен /; 2) по величине / и условиям ситуации 131 5*
принятия решений выбирается величина fc^f в качестве макси- максимально допустимого риска; 3) выбирается решение фЛо, являю- являющееся наилучшим относительно р°^Р при условии, что наиболь- наибольший риск этого решения не больше f°. Выбор f° будет, естественно, зависеть от того, насколько точ- точно орган управления У уверен в ° 2. ПРИНЦИП «БАЙЕСИФИКАЦИИ» МИНИМАКСНОГО КРИТЕРИЯ Термин «байесификация» определяет операцию усреднения критериев принятия решений, которая сохраняет байесовский тип решения. Ни байесовский, ни минимаксный критерии сами по себе не допускают байесификации. Использование байесифи- кации ведет к тому, что байесовский тип решения расширяется до некоторой комбинации байесовского и минимаксного типов решений. По отношению к байесовскому и минимаксным крите- критериям байесифицированный критерий принятия решений позволя- позволяет органу управления У вводить и учитывать при принятии ре- решения любую имеющуюся у него информацию о поведении сре- среды С. Частными случаями байесифицированного критерия при- принятия решения являются критерии Байеса, Вальда, Савиджа и Ходжеса — Лемана. Таким образом, под байесификацией будем понимать выбор между использованием байесовского типа решения, с одной сто- стороны, и применением минимаксного (максиминного) решения — с другой. Можно допустить, что орган управления принципиально стре- стремится принять байесовский тип решения как непосредственное выражение объективной рациональности. ч Но это желание в большинстве практических случаев не может быть осуществлено из-за нехватки знаний об априорном распределении реДп. Ис- Использование же в этом случае минимаксного (максиминного) типа решения может ограничивать возможности органа управ- управления или завышать возможности поведения среды С и не учи- учитывать дополнительную информацию, имеющуюся к моменту принятия решения. Поэтому, естественно, можно было бы реко- рекомендовать использование стратегии выбора байесового типа ре- решений. Рассмотрим ситуацию принятия решения {Ф, в, F}. По своей сущности использование минимаксного критерия выражает пес- пессимистическую точку зрения органа управления У на поведение среды С. Если при этом неопределенность может быть изменена благодаря некоторому количеству априорных знаний или благо- благодаря некоторой апостериорной информации, тогда, несмотря на это, минимаксный критерий не изменит решения до тех пор, пока неопределенность относительно выбора средой С своего состоя- состояния 8^6 не станет полностью измеримой при помощи надежно определенного априорного распределения /?еАп. Это означает, 132
что минимаксный критерий не только пессимистичен сам по себе, но что его пессимизм весьма жесткий и негибкий. Поэтому целесообразно модифицировать (т. е. «байесифицировать») ми- минимаксный критерий, с тем чтобы сделать его приспособленным к той степени неопределенности, которой обладает орган управ- управления У в момент принятия решения. Для перехода к байесифи- кации рассмотрим следующее определение расширенного байе- сова решения. Предположим, что орган управления У знает, что существует некоторое априорное распределение р^Ап, причем это априорное распределение р неизвестно органу управления У, однако У знает некоторое подмножество Anc:An, к которому при- принадлежит истинное априорное распределение. Если орган управления У обладает информацией относитель- относительно множества Дп, то для выбора решения он может использовать некоторую комбинацию байесова и минимаксного критериев, на- называемую расширенным байесовым критерием, согласно кото- которому оптимальное расширенное байесово решение ф^Ф нахо- находится из условия max В~ (р, q>*0)= т*п тах В~ (Р* Ф*)« Байесовый подход в таком критерии заключается в фор- формировании В' (/?, фА) для каждого р^Ап и фАеФ. Минимаксный подход заключается в выборе фА^Ф так, что наибольший ожи- ожидаемый риск является минимальным, насколько это возможно достичь для каждого реДп. Заметим, что влияние байесового характера в этом критерии тем более доминирует, чем меньше мера подмножества AndAn, и наоборот. 1. Критерий Менчеса. Рассмотрим теперь обобщение расши- расширенного байесова решения. Пусть множество в состояний среды С разбито на непересекающиеся подмножества Gt, в2, в,, U в*=в. Предположим, что орган управления У знает, что со- стояния среды С принадлежат множеству в* с вероятностью ~ри у* pt-= 1. Пусть Р — класс априорных распределений р — t=i ='(рь • • • i Рду известный органу управления У для в4, ..., в/, при этом условное распределение^, ..*, ptki). вероятностей со- состояний среды С внутри множества в* неизвестно. Тогда орган управления У может выбрать такое решение ф*0, для которого выполнено условие max У} В7(р, фО = min max^J Bt (р9 133
Это условие представляет собой критерий Байеса, если р° = *={р}> т. е. если р содержит только один элемент р= (ри ..., рп), и если i= 1, т. е. когда в неразложимо. Поскольку max ^ BJ {р, ф*0) достигается для тех р, которые приписывают вероятности /?,- (*=1, ...,/) величинам max /т., то критерий Менчеса представляется в следующем виде [53, 54]: 1 _ ' _ 5 /7,- max /7*.= min 5! #max/>. Разложение 0 на множества 0Ь ..., @t и указание вероятнос- вероятностей р{ подмножества 0гс:0 выглядят резонными в случае исполь- использования органом управления У любой информации относитель- относительно истинного, но неизвестного р или класса Дп априорных рас- распределений. Соответствующее увеличение информации о Дп при- приводит к разбиению на большее число подмножеств {0г} множе- множества в. Однако, с другой стороны, когда орган управления У не располагает никакой информацией о Ап вообще (из-за того, что нет возможности указать вероятности на подклассах), разбиение ничего не дает, поэтому орган управления У сталкивается с пол- полным классом Ап, в котором не исключена возможность примене- применения минимаксного критерия. Такая ситуация встречается ред- редко. В реальных условиях у органа управления У будет некоторая информация относительно р или Ап. Когда орган управления У добивается увеличения количества информации о pt то Ап постепенно уменьшается, a G может быть разбито на большее число подклассов 0* и достигает наиболь- наибольшей степени, когда каждое 0* состоит только из одного-единст- венного элемента 0*^0. В этом случае наивысшая степень раз- разбиения 0 превращает критерий Менчеса в критерий Байеса. Частным случаем критерия Менчеса может быть критерий Ходжеса — Лемана. Рассмотрим разбиение 0 на 01 = {01} и 02 = = 0\6i. Более того, предположим, что Gi^© выбирается средой С с вероятностью р± и множество 02 имеет вероятность р2= 1—Pi. Тогда критерий Менчеса формулируется следующим образом: в качестве оптимального решения следует принять решение Ф удовлетворяющее условию ik. + Р2 max/7*. = min [pj& + р2 max />]. Если теперь заменим в этом выражении 04 на определенное априорное распределение /?еД«, 0j на /?, 02 на Ап и f*jk на В~ (/7, фА), тогда отсюда получим критерий Ходжеса — Лемана, где ве- 134
личину Pi следует рассматривать в качестве так называемого до- доверительного параметра априорного распределения р^Ап. 2. Критерий Шнейвайса. Шнейвайс [64, 65] предложил кри- критерий принятия решения, являющийся также комбинацией кри- критериев Байеса и минимаксного, обобщающий концепцию частной неопределенности для следующей ситуации. Множество 0 состояний среды С разбивается на два подмно- подмножества, которым приписываются некоторые (известные или не- Рис. 7.2. Пример разбиения множе- множества 0 известные) вероятности. Оба подмножества снова разбиваются на два подмножества, которым приписываются некоторые услов- условные (известные или неизвестные) вероятности и т. д. Для та- такого типа модели Шнейвайс вводит критерий, который дает байесово или минимаксное решение, если вероятности подмно- подмножества на фиксированном уровне разбиения являются известны- известными либо неизвестными. Рассмотрим следующий простой пример (рис. 7.2) только двух этапов разбиения множества в = {01, ..., 0П}. Множество 0 может быть разбито на два непересекающихся подмножества в1={в1,..., ел и 02={е8+1,..., еп}. Пусть р— априорная вероятность множества 04, A—р) — множества 02, причем состояния в 0 выбираются средой С с ве- s роятностями ри ..., ps соответственно, где ^ А' = Р- Для эле- ментов 6s+i, ..., 6п из 02 соответствующие вероятности неизвест- неизвестны. При использовании критерия Шнейвайса органу управления У рекомендуется в качестве оптимального такое решение ф^, которое удовлетворяет условию Р У f7k0Pi + A — р) max fjk. = min \p у. fjkpc + A — p) max fjk . Очевидно, этот критерий Шнейвайса для принятия решения ве- ведет к специальному случаю критерия Менчеса в форме S S У pi max />0 = min у р{ max />, , в»ев/ Ф*е<х>, ^ е.-ев/ если положить р= 1, Pi=pi (i= I,..., s). 135
Следует отметить, что разработка критериев принятия реше- решений в информационной ситуации /6 может быть продолжена в направлении развития и использования аппарата функций неоп- неопределенностей и неточностей. И, кроме того, возможно рассмот- рассмотрение более сложной информации о разбиениях Ап и G (напри- (например, задание отношения порядка на подмножества вгСв). ГЛАВА ВОСЬМАЯ СЕДЬМАЯ ИНФОРМАЦИОННАЯ СИТУАЦИЯ Информационная ситуация /7 характеризует случай, когда орган управления располагает «нечетким» знанием состояний среды С. При этом предполагается, что орган управления У точ- точно знает полное множество в возможных состояний fy среды, множество Ф своих решений <pfe и значения оценочного функцио- функционала F = {//*}^г На основе понятий теории нечетких множеств [4, 68—71] сформулированы пять моделей «поведения» среды С, применение которых дает возможность сформулировать ситуа- ситуацию принятия решений в виде {Ф, Ав9 F}, где Ав — нечеткое мно- множество или нечеткое случайное событие, определяемое функци- функцией принадлежности \хА и распределением р вероятностей состоя- состояний среды С. Будут рассмотрены классы функций неопределенности чет- четвертого рода, которые представляют собой различные меры не- нечеткости Лв. Для нахождения точечных оценок \х, р функции при- принадлежности и априорного распределения состояний среды С формулируется принцип максимума функций неопределенности четвертого рода. В ситуации принятия решений {Ф, Лв, F} сформулированы задачи нахождения оптимального решения ф^Ф на основе обобщения четырех типов критериев первой информационной ситуации: байесового, максимума вероятностного распределения значений оценочного функционала, минимума дисперсии значе- значений оценочного функционала и модального. 1. НЕЧЕТКИЕ МНОЖЕСТВА Рассмотрим основные способы нечеткого задания состояний среды С на основе определения и свойств нечетких множеств. 1. Определение и операции с нечеткими множествами. Нечет- Нечеткое множество А на элементах X определяется заданием отобра- отображения \iA(x) элементов х^Х в интервал [0, 1]. При этом |xAW называется функцией принадлежности элемента х нечеткому 136
множеству Л, характеризующей степень истинности события {х^А}, а множество Л записывается в виде Функция принадлежности iiA(x) является обобщением опре- определения характеристической функции множества, принимающей лишь значение 0 или 1, при помощи которой может быть опреде- определено само множество в классической теории множеств. Приведем следующие основные операции с нечеткими множе- множествами (которые следует рассматривать для всех х^Х). 1. Эквивалентность A<sdB<=>\ia (х) ез \хв (х). 2. Включение А аВ<=>\1А (х) ^\лв (х). 3. Дополнение A<=>ixa(x) = 1—\iA(x). 4. Объединение A\jB^=^\iA[}B{x) = max{\xA(x), \iB(x)}. 5. Пересечение АГ\В<=>\хАпв(х) =min {\iA(x)9 \iB(x)}. 6. Произведение А -B<^\iAB(x) = jnA(x) \xB(х). 7. Сумма A + B<=>\la+b(x)==\La(x)+ilb(x)—iia(x)iib(x). 8. Умножение А на ае[0, 1]: aO\xaA(x)=a(\iA(x)). 9. Возведение А в степень а>0 : Aa<=>\iAa(x) = (|Ыл(^))а- 10. Концентрирование CON (A) = Л2. И. Растяжение DIL(Л)= Л0'5. 12. Контрастная интенсификация 12(ЛJ при 0,5<М*)<1. Нечеткое множество Л называется субнормальным (нормаль- (нормальным), если max (Ыд (х) < 1 (max \ла (х) = 1). х х Множество уровня Л (а) нечеткого множества Л есть четкое множество вида Л (а) =*{х^Х : \хА(х)^а), при этом Л (а) моно- монотонно по ае[0, 1], т. е. а1^а2=^^(а1)с:Л(а2). Нечеткое мно- множество Л определяется своими множествами уровня Л (а) в виде где 2 понимается в смысле операции суммы нечетких мно- множеств; аА(а)—субнормальное четкое множество, для которого ЦчхА(а) (х) =с&!!л(а) (х), Vx^X, что эквивалентно а для х е= Л (а), — 0 для л: е Л (аL 137
2. Вероятностные меры нечетких событий. Пусть {/?n, a, P} — вероятностное пространство, в котором R— пространство п-мер- ных вещественных векторов; а —поле борелевских множеств в Rn (о-алгебра); Р — вероятностная мера на Rn. Нечеткое случайное событие А в Rn есть нечеткое множество, функция принадлежности которого \iA(x)^{Rn-*[0, 1]} измери- измерима по Борелю при хеХ. Вероятность нечеткого случайного собы- события А равна математическому ожиданию функции принадлеж- принадлежности \1А и определяется при помощи интеграла Лебега — Стиль- тьеса в виде Основные операции, приведенные в предыдущем разделе, могут быть применены и к нечетким случайным событиям; тогда полу- получим следующие важные свойства нечетких случайных событий: AczB^P(A)^P(B)y A^P{A) = \-P{A), P(A[jB)=P(A) + +Р(В)-Р(АПВ), Р(А)+Р(В)—Р(А.В), Р(АХ+ ... + Ап)= ^ Р {At)-2 P (Лг Af) + + 3 Р (ArArAi) + ... + (- \)пР Dl ... An). Пусть А и В два нечетких события в {Rn, о, Р}, тогда А я В — независимые нечеткие события, если Р(А-В)=Р(А)Р(В). Ус- Условная вероятность нечеткого события А при нечетком событии определяется по аналогу формулы Байеса Р(А\В)=Р(А-В)\ | (Р(В)), при условии Р(В)>0. В случае независимых нечетких событий Л и В пол учим Р (А | В) =Р (А). Так как операции дополнения, объединения, пересечения, суммы и произведения нечетких событий А я В используют 1—\iA, тах{ц,А, ptB}, min{|LiA, \1в}> Va+ixb, [и-Цв, которые изме- измеримы по Борелю, поскольку измеримы \iA(x) и [хв(*), то можно сказать, что нечеткие события в отношении операций дополне- дополнения, объединения и пересечения образуют борелевскую о-алгеб- ру, и можно определить нечеткое вероятностное пространство, индуцированное вероятностным пространством {Rny о, Р]. 138
Это позволяет определить основные характеристики случай- случайных нечетких событий, такие, как математическое ожидание, дисперсия, начальные и центральные моменты и т. д. Rn [А] = у^ J [x-M[A]]*\iA(x)dP(x)t ^ [^ = Г77Т f I* - Ж HlF ^ (*) dP W- При рассмотрении дискретных нечетких множеств и случай- случайных событий следует учитывать, что функция принадлежности задается только на дискретном множестве элементов из X или Rn, а интеграл следует заменить соответствующей суммой. 3. Нечеткие отношения порядков. Пусть X и У— два множе- множества элементов х и у произвольной природы (например, X и У принадлежат Rn). Нечеткое бинарное отношение 5 определяется как нечеткое множество S = {((*, у), (хя(л:, у))}, где (х, у)^ХхУ. Аналогично определяется я-арное отношение S = {((#!, ..., хп)у \1в(х. ..., хп))}, где (*i, ..., ^n)eX4X.. .X^n. Величина jlis(x, у) рассматривается как «сила» (степень) отношения S между х и у. Поскольку нечеткое отношение определяется как нечеткое множество, то могут быть определены операции над нечеткими отношениями, аналогичные соответствующим операциям над не- нечеткими множествами. Композицией (max—min композицией) нечетких бинарных отношений Si, S2 называется нечеткое отношение SjoS2, для кото- которого функция принадлежности определяется в виде (для х^Х, Z) = min max [\iSl (*, у), fx5a (yt z)]. Y Композиция нечетких отношений обладает свойствами 1) S^ (S2oS3) = (SioS2) °S3, 2) 3) Отношение подобия (отношение сходства) S в X определяется как нечеткое бинарное отношение на ХхХ, которое удовлетво- удовлетворяет следующим свойствам: 1) рефлексивно, т. е. fis(#, x) = 1 для всех AredomS, где domS — владение нечеткого отношения S определяется как нечеткое множество в X с функцией принад- 139
лежности вида [Xdoms(^) = max|xs(x, у); 2) симметрично, т. е. [xs(x, у) =|is(y, x) Чх,у^<\от 5; 3) транзитивно, т. е. SzdSoS, или в развернутой форме \xs(x, z)^max mini[|Jis(A:, у), \xs{x, 2)]. уех Нечеткий частичный порядок 5 в X определяется как нечет- нечеткое бинарное отношение S на ХхХ, которое удовлетворяет сле- следующим свойствам: 1) рефлексивно; 2) антисимметрично, т. е. (, у) >0 и \х8(у, х) >6--=>х=у Ух^Х\ 3) транзитивно. Если нечеткий частичный порядок 5 представлен в виде раз- разложения @<а^1) 5= 2 aSa, то любое 5а является четким час- частичным порядком в X. И наоборот, если 5а — вложенная после- последовательность четких частичных порядков в X, т. е. ai>a2r<=^ ^=^Saic=Sa2, то Si непусто и dom5a=.dom51 Va^[0, 1], и тогда S — нечеткий частичный порядок в X. Нечеткий предпорядок S в X есть нечеткое бинарное отно- отношение на XXX, которое удовлетворяет свойствам рефлексивно- рефлексивности и транзитивности. Нечеткий предпорядок 5 в X допускает разложение 1) где множества уровня Sa являются четкими предпорядками на X. Нечеткий слабый порядок S в X есть нечеткий предпорядок 5 в X, для которого выполнена аксиома хфу=^\к8{х, у)>0 или lie (У, *)>0 Vx,y<=X. Нечеткий порядок S в X определяется как нечеткое отноше- отношение на XXX, удовлетворяющее аксиоме транзитивности. Нечеткий линейный порядок 5 в X определяется как нечет- нечеткий слабый порядок, удовлетворяющий свойствам антисиммет- антисимметричности и транзитивности. Здесь приведены лишь краткие сведения по нечетким множе- множествам. Более подробно можно ознакомиться по работам Заде [68—71]. Обобщением понятия нечеткого множества и отноше- отношения является понятие небулярного множества и отношения, ког- когда вместо функции принадлежности задается отношение пред- предпочтения элементов по принадлежности к данному множеству [6, 13, 14]. 2. НЕЧЕТКИЕ МНОЖЕСТВА СОСТОЯНИЙ СРЕДЫ Введенные понятия нечетких множеств и отношений позволя- позволяют сформулировать различные модели нечеткого задания «по- «поведения» среды С применительно к формальным схемам опре- определения ситуаций принятия решений (Ф, в> F}, рассматриваемых в этой части. 140
Модель 1. Рассматривается нечеткое множество Лв={(9,-, l*j)}ej6e, порождаемое заданием полного множества в = {в4,..., 6П} возможных состояний среды С, причем функция принадлежно- принадлежности |л на Э определяется в виде |я(8) =|Xj при 8 = 8,- (/ = 1, ..., п). В качестве интерпретации такого нечетко множества Лв можно предполагать, что орган управления. У выделяет полное множество в всех возможных состояний среды С, а затем при помощи нечеткого отношения принадлежности, задаваемого функцией |я(8), определяет нечеткое множество Ав. Например, пусть 0={О, 1, 2, ..., 10}, Ав — множество целых чисел из в, «близких» к пяти, причем нечеткое отношение бли- близости к пяти задается функцией |i(8) = 1/A+ |8—5|). Тогда 7 V 7 7 7 1 7 7 Ц | Заметим, что для задания функции принадлежности \{) определяющей нечеткое множество А, орган управления У мо- может использовать методы шкалирования субъективных коли- количественных отношений на элементах множества 0 по тем или иным важным для У признакам. Модель 2. Рассматривается нечеткое полное случайное собы- событие Лв = {(8, Мб)) : ^{6 = 8;}=/?; (/=1, ..., п)}, порождаемое заданием полного множества 6 = {8i, ..., 8П} возможных состоя- состояний среды С и распределения р = (ри ..., Рп)> причем под \ia(Q) понимается степень принадлежности элемента 8е0 к Лв. В качестве интерпретации такого нечеткого полного случайно- случайного события Лв в ситуации принятия решений {Ф,Лв, F} можно счи- считать, что сначала орган управления У выделяет полное множество 0 состояний среды С, затем считает состояния среды случайно рас- распределенными с вектором р=(рь ..., рп)> а затем четкое мно- множество 0 заменяет нечетким множеством {Fц°(в))}еее на основе рассмотрения функции принадлежности ц°(8), и наконец, орган управления У в качестве модели «поведения» среды С рассма- рассматривает нечеткое полное случайное событие Ав при jiaF) 2=p,°F). Приведем выражения для трех основных вероятностных характе- характеристик нечеткого полного случайного события: Р [Ле] = у. \i,ph М [Лв] = 1=1 а 3 Iе/-л* с» Ив]-'- — a w 141
Модель 3. Рассматривается нечеткое случайное событие Лв={@г, |х<), P(Q^Qi)=pi (i=l, ..., п)}, порождаемое задани- заданием подмножеств в* полного множества в возможных состояний среды С и распределения р = (ри ..., р-) на этих подмножест- подмножествах, причем под |ы* понимается степень принадлежности 0 к 0г. В качестве интерпретации такого нечеткого случайного события Лв в ситуации принятия решений {Ф, Л©, F} можно считать, что орган управления У выделяет полное множество в состояний среды С, затем производит разбиение в на подмножества &if затем предполагает, что состояния среды распределены случайно с вероятностями рг попадания 0 в 0<. И наконец, орган управ- управления У заменяет четкое множество 0 либо объединение U© четких множеств 0* нечетким множеством {@/, |Xf)}jLi> причем в качестве модели «поведения» среды С рассматривает нечеткое случайное событие Лв. Приведем следующие основные вероятностные характери- характеристики нечеткого случайного события Лв: Я №t, М [Ав] = где р= (р1} ..., рп) — распределение вероятностей состояний сре- среды С на 0, а р{= ^ pt. Модель 4. Рассматривается нечеткое множество Лв={@г, 0j), ^ ^)}f/=1, порождаемое заданием полного множества 0 = = {0ь ..., 0п} возможных состояний среды С и нечетким бинар- бинарным отношением SA на 0X0, определяемым функцией принад- принадлежности \i8A(Qi, 0j). В качестве нечеткого бинарного отношения могут быть использованы нечеткие частичные порядки, нечет- нечеткий порядок, нечеткий линейный порядок и другие нечеткие от- отношения. В качестве интерпретации нечеткого множества Лв, приве- приведенного в этой модели, рассмотрим следующий пример. Пусть 0 — множество вещественных чисел Qu ..., 0П, бинарное отно- 142
шение SA представляет собой отношение порядка ^ на веще- вещественной оси (/?*). Тогда получим, что орган управления У спер- сперва установил состав множества в, выбрал отношение SA, опре- определил функцию [isA(Qiy 6j) как степень истинности выполнения отношения SA между элементами Qu 9^0 : G^Gj-. В результате этого в качестве модели поведения среды С орган управления У принимает нечеткое множество Ав. Модель 5. Рассматривается нечеткое случайное событие Лв = = {(Fi, 6;), \*>8А(ви Qs) :^{6 = Gj}=pi (/=1, ..., л)}, порождаемое заданием полного множества в возможных состояний среды С, распределением р= (ри ..., рп) на в и нечетким отношением SA с функцией принадлежности \i8A. Интерпретация этой модели может быть дана аналогично интерпретации модели 2 с учетом интерпретации модели 4. Здесь приведена краткая формулировка лишь простейших мо- моделей нечеткого «поведения» среды С в ситуации принятия ре- решений {Ф, Ле, F] на основе использования определений теории нечетких множеств. В этой книге нечеткие модели задания множества решений Ф и значений оценочного функционала F не рассматриваются, по- поскольку автор исходит из концепции, что орган управления У всегда может сформулировать задачу принятия решений, четко указав множество своих решений, полное множество G возмож- возможных состояний среды и оценочный функционал F. При этом не- неопределенным считается лишь «поведение» среды С. В принципе уже имеются попытки исследования моделей при- принятия решений, когда нечеткими могут быть цели и ограниче- ограничения на выбираемое решение [68]. Цель может быть сформули- сформулирована в виде достижения определенного уровня планируемого результата принятия решения, а в качестве ограничения — суж- суждение о том, что расходы при исполнении принятого решения не должны значительно превышать заданную величину. 3. ФУНКЦИИ НЕОПРЕДЕЛЕННОСТИ НЕЧЕТКИХ МНОЖЕСТВ Рассмотрим нечеткое множество А = {(х, |лА(*))}, где X — дискретное множество элементов {хи ..., хп}. 1. Прямая функция неопределенности четвертого рода. Мера нечеткости А может быть определена по аналогии с энтропией Шеннона в виде [41] п Н Ы = — а 2 {^л (xt) In iiA (xt) + [1 - цл (xt)] In [1 — \iA (*/)]}, причем H([iA) удовлетворяет следующим свойствам. 1. #(|j,a)^0, H(\iA) =0-<=>\iA(x) вырождена (т. е. принимает значение 0 или 1). 2. H(\iA) достигает максимума по \1а<=>1*>а(х) = ~? X 143
3. Н(цл) вогнута по Ца^[0, 1]. 4. 5. л:) при 6. 7. |Л| и |5| —мощности нечетких множеств А и В, соответственно Л -5 — произведение нечетких множеств А и В. Энтропию нечеткого множества H(\iA) будем называть пря- прямой функцией неопределенности четвертого рода, порожденной функцией принадлежности нечеткого множества А. Если коэффициент а=1/я, то H(\iA) называют нормирован- нормированной энтропией нечеткого множества А и соответственно норми- нормированной прямой функцией неопределенности четвертого рода. Энтропия нечеткого множества H(\iA) может иметь интер- интерпретацию, несколько отличную от общепринятого толкования эн- энтропии случайного события как недостоверности информацион- информационного предсказания результатов наблюдений. Например, Н(\хА) может рассматриваться как структурная мера неопределенно- неопределенности по составу структуры некоторой системы. И, кроме того, эн- энтропия Шеннона и другие функции неопределенности первого рода определены на плоском множестве Ап n-мерного простран- пространства, а Н(\1А) определяются на прямоугольном параллелепипеде [0,1]"- Заметим, что возможно определение других прямых функций неопределенности четвертого рода, если при их конструировании исходить не из обобщения энтропии Шеннона, а из обобщения класса функций неопределенности первого рода. 2. Связанные и полная функции неопределенности четвертого рода. Рассмотрим нечеткое случайное событие А={х, \хА(х): Р{х=Хг}=рг (/=1, ..., п)}. Мера нечеткости события А может быть определена [70] как энтропия нечеткого подмножества А четкого множества X с распределением р= (ри ..., рп): 1=1 Будем называть H(\iAi p) связанной функцией неопределен- неопределенности четвертого рода, соответствующей функции принадлеж- принадлежности \iA(x) и распределению р на X. В качестве другой связанной функции неопределенности чет- четвертого рода, соответствующей \хА(х) и р, является нормирован- 144
ная статистически средняя мера нечеткости события А вида Н(р, (Ал)= 2 Pi [fM ^ln ^ ^ + A— М Функции неопределенности четвертого рода Н(\хА, р) и [1а) имеют концептуальное различие ввиду того, что Н(\а>а> р) представляет собой по существу энтропию нечеткого подмножества состояний случайного вектора х с распределением р на X, а Я (/?, \хА) представляет собой математическое ожидание прямой функции неопределенности — энтропии нечеткого мно- множества, определенного на состояниях случайного вектора х с распределением р на X. При этом, если распределение р° вырож- вырождено, т. е. pla°=l, pi°=0 при 1фи, то #(р°, Ца)?=0, хотя //@H ^Р) Полная функция неопределенности четвертого рода опреде- определяется как полная энтропия [4, 41] нечеткого случайного собы- события А в виде H(p()iiA)=H(p)+H(p9 jia), где Н(р) —функция неопределенности первого рода для распределения р на X. Дру- Другие полные функции неопределенности четвертого рода могут быть определены следующим образом: р), H(p*liA)=H(liA)+H(p, рА)р 9 p), Я(р, iiA) =Я(р) + р)+Н(р). При этом можно определить, что приведенный класс функций неопределенности четвертого рода порождается рассмотрением бинарных отношений понятий случайности и нечеткости; естест- естественно, что могут быть определены и более сложные классы функ- функций неопределенности четвертого рода, основанные на рассмот- рассмотрении других, более тонких отношений между понятиями случай- случайности и нечеткости с привлечением классов функций неопреде- неопределенности первого и второго рода. 4. ПРИНЦИП МАКСИМУМА ФУНКЦИЙ НЕОПРЕДЕЛЕННОСТИ ЧЕТВЕРТОГО РОДА Применим аппарат принципа максимума функций неопреде- неопределенности четвертого рода для нахождения оценок функций при- принадлежности \iA и вектора априорного распределения р на в. Для рассматриваемых здесь проблем сущность принципа макси- максимума заключается в решении следующих задач. Задача 1. Найти \iA(x) оценку функций принадлежности () нечеткого множества А при х^Х = {хи ..., хп} из условия max tf(M*))> где Н(\хА) —прямая функция неопределенности четвертого рода, a \ia= (iia(Xi),..., \1а(хп)). 145
Задача 2. Найти \хА(х) при заданном р<=Дп из условий Н ((хл, р) = max Я (*хл (*), р), либо Я (р, {хл)= о<иих1 = max Я(р,М*))> либо Я(рО|*л) = max Задача 3. Найти рА= (рь ..., рп) при заданной функции при- принадлежности [Ал (*) нечеткого множества А из условий Я (^л, р) = max Я ((хл (*), р)> либо Я (р, \iA) = maAx Я (р, либо (Я (р О М = max Я (р О>л (^)). Задача 4. Найти \1а~_к_Р из условий Я (Дл, р)= max H(ixa{x), p), либо Я(р, = max Я(р,[хл(л:)), либо Я (р О р-л) = max Я (р О В этих задачах Н(р, \iA) и Я(|хА, р) —связанные функции не- неопределенности, а Я(рО|Ыл)—полная функция неопределенно- неопределенности четвертого рода. Заметим, что сформулированные задачи принципа максиму- максимума могут быть обобщены на различные случаи задания прост- пространства X, а также в случае задания дополнительных ограниче- ограничений (в форме равенств либо неравенств) на [iA(x) и р, например, типа р е Ая С Дя, ^л (х/) <= [0, 1]" с [0, 1]", (р, М*))е Дп х [0, 1]ясДи х [0, If. 5. КРИТЕРИИ И ЗАДАЧИ ПРИНЯТИЯ РЕШЕНИЙ НА НЕЧЕТКИХ МНОЖЕСТВАХ Приведем формулировку задач и критериев выбора опти- оптимального решения ф^Ф в ситуации принятия решений {Ф, Ле, F} для сформулированных в разделе 2 моделей «поведения» сре- среды С. В модели 1, если функция принадлежности p>=(Hi> •••> Рп) задана, то можно рассматривать величины {(*//>! №} и r/ife/S ^sfei как пРивеДенные субъективные распределения вероят- l s=i J/==1 146
ностей значений компонент функции принадлежности jli и оценоч- оценочного функционала F на решении фьеФ. При задании оценочного функционала F в форме F—F+ возможно использование в каче- качестве критериев принятия решений аналогов критериев первой ин- информационной ситуации: 1) критерий байесового типа В+ B+ 2) критерий типа вероятности распределения значений оценоч- оценочного функционала Р (ft > a) = P (9 где а <= [min //>, max ffk]; 0a>fe = {9y e 0: /% > a} — подмножество состояний среды С;' 3) критерии типа дисперсии значений оценочного функционала Й-*т (и. ф*)= ^ s=i J о2 (И'. Ф*) = Smz 2л rshk r s=i _ 4) критерии модального типа % (ц, <р&) = ft^, \i/t = max ц В модели 2, если заданы вектор р= (ри ..., рп) распределе- распределения вероятностей на в функция принадлежности \i= (\iu ... ..., |in) на в, то при задании оценочного функционала F в форме F=F+ аналоги критериев первой информационной си* туации имеют вид: 1) критериев байесового типа /=1 / 147
2) критериев типа вероятностного распределения значений оце- оценочного функционала Р(/+>а)=:р(ее=ва,,)= 2 И/Р// 2 ^ где fa e [min f}k, max /^], @а>к = {0/ G0:/ji > а}; 3) критериев /,? /,Л типа дисперсии значений оценочного функционала а2 (|1, р, фЛ) = 2 И* - Б+ ^' ^' Ч>*)]Я IW/ / 2 4) критериев модального типа к(Ц. Р, Фа) = /л,ь (И-/Л.) = тах В модели 3, если заданы р= (ри ..., рп) и \i= {\iiy \i2, ..., \in) на в, то для случая F=F+ аналоги критериев первой информаци- информационной ситуации можно определить в виде 1) критериев байесо- вого типа 2) критериев типа вероятностного распределения значений оце- оценочного функционала 3) критериев типа дисперсии значений оценочного функционала а2 (и, уо, Ф*)= 2 |i/ S I//*-^ (И. Р. Ф*)]"Р//3 Mf S 4) критериев модального типа x(|i,p,cpA)= 2 /W^o 2 ^l^ max^f^ 2 Pi В модели 4, если задана функция принадлежности ц5л(Вг-, 0,) на вХв для нечеткого бинарного отношения SA, определяется точечная оценка \l=(\iu ..., |хя) функции принадлежности \х= = (|ii,..., |л«) на в вида после этого используются аналоги критериев первой информаци- информационной ситуации для модели 1 при |ш=jx. 148
В модели 5, если задана функция принадлежности |Явл(9ь 6,) на GX0, определяется точечная оценка pi= (\iu . .., jxn), указан- указанного для модели 4 вида, после этого используются аналоги кри- критериев первой информационной ситуации для модели 2. Задачи нахождения оптимального решения ср^ в ситуации принятия решений {Ф, Ле, F} для моделей 1—5 «поведения» сре- среды С формулируются следующим образом. Задача 1. При использовании критериев байесова типа оп- оптимальное решение фйоеФ для F=F+ находится из условия +(ц, р, <рЛ), где B+{\i, ру ф?.) совпадает с В(\х, фА) для модели 1, с ?+(ц> р, фл) для моделей 2—3, с B+(\xt cpk) и B+([i, /?, cph) для моделей 4 и 5 соответственно. Задача 2. При использовании критериев типа вероятност- вероятностного распределения значений оценочного функционала F=F+ оптимальное решение <pfto^<D. находится из условия (для задан- заданного а) P(fik>a)= Задача 3. При использовании критериев типа дисперсии значений оценочного функционала F=F+ оптимальное решение находится из условия а2(ц, р, cpfeo) = mina2(|x, р, фА), где 'геФ о2 (pi, p, фА) совпадает с a2(jx, фА) для модели 1, с o2(\i, p, фк) для моделей 2, 3, с a2(jx, фА) и о2(|ы, р, фА) для моделей 4 и 5 соответ- соответственно. Задача 4. При использовании критериев модального типа для F=F+ оптимальное решение фАоеФ находится из условия и(м<> Р, Фло) = тах ^(М'» Р. Ф*)> где %(|ы, р, фЛ) совпадает с х(ц, фЛ) еФ для модели 1, с к(\х, р, фл) для моделей 2, 3, с >с(ц, фА) и и(|х, р, <pft) для моделей 4 и 5 соответственно. Критерии и задачи нахождения оптимальных решений в си- ситуации {Ф, Лв, F} при заданной функции принадлежности \х для моделей 1—5 «поведения» среды С могут быть обобщены на ос- основе рассмотрения критериев информационных ситуаций /2—/6 задания распределения р= (рь ..., рп) на в. При этом для на- нахождения точечных оценок р априорного распределения состоя- состояний среды С на основе принципа максимума функций неопреде- неопределенности можно (кроме приведенных в главах IV—VII функций) использовать функции неопределенности четвертого рода. Далее по аналогии с информационными ситуациями на рас- распределениях вероятностей р состояний среды С могут быть оп- определены информационные ситуации задания функции принад- принадлежности [хА@) в ситуации принятия решений {ф, Лв, F}. Тогда 149
для нахождения оптимального решения фЛоеФ при заданных ин- информационных ситуациях «поведения» среды С, характеризуе- характеризуемого fxA, можно развить методологию и аппарат предыдущих глав этой части с соответствующими (изложенному выше) изме- изменениями. ГЛАВА ДЕВЯТАЯ ПРОБЛЕМА ПРИНЯТИЯ МНОГОЦЕЛЕВЫХ РЕШЕНИИ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ В предыдущих главах этой части дается формулировка ос- основных критериев принятия решений для каждой информацион- информационной ситуации. В связи с тем, что в каждой информационной си- ситуации имеется несколько критериев принятия решения, возни- возникает неоднозначность выбора оптимального решения. Это, в. свою очередь, приводит к необходимости решения вопросов со- согласования, свертки и учета приоритета критериев принятия ре- решений, т. е. к необходимости исследования проблемы многоце- многоцелевых решений. В этой главе рассматриваются два основных класса задач при- принятия многоцелевых решений: в первом из них задана информа- информационная ситуация для нескольких оценочных функционалов при одном критерии принятия решений, а во втором также задана информационная ситуация, в которой многоцелевое решение принимается по нескольким критериям при одном оценочном функционале. При таком подходе, конечно, остается открытым вопрос о принятии многоцелевых решений по всем информационным си- ситуациям одновременно. Однако в рамках методологии, разви- развиваемой в этой книге, совместное рассмотрение всех информаци- информационных ситуаций является не совсем корректным, хотя для «близ- «близких» информационных ситуаций это может быть не лишено смысла. 1. КЛАССЫ ЗАДАЧ ПРИНЯТИЯ МНОГОЦЕЛЕВЫХ РЕШЕНИЙ Под ситуацией принятия многоцелевых решений будем пони- понимать пару {Ф, ЗГ}> где <D = {<pi, ..., фт} — множество решений ор- органа управления У, 9Г= {&~\ ..., &~Q} = {fkfglZ=i~ векторы I оценочных функционалов, определенных на Ф и принимающих значения из R\ При заданной ситуации принятия решений {Ф, @~) проблема принятия многоцелевых решений состоит в том, что орган управления У должен выбрать одно решение (или множество эквивалентных решений Ф), оптимальное по выбранному органом управления критерию свертки. Проблема принятия многоцелевых решений характеризуется тремя факторами {и, v, w}y где и — способ нормализации; со- соотношение приоритета; w — критерий свертки. Под способом 150
нормализации и будем понимать функцию преобразования &~ как однозначное отображение RQ в R\ Нормализация применя- применяется для перехода к сравнимым шкалам в значениях оценочных функционалов. Под отношением приоритета v будем понимать вектор оценок (vu ..., vQ) на компонентах ЗГ={&~\ ..., &~Q}. В некоторых случаях приоритет может быть задан отношением порядка, и тогда переход к оценкам приоритета можно осущест- осуществить методами, аналогичными применяемым в третьей инфор- информационной ситуации. Под критерием свертки w будем понимать принцип, согласно которому определяется оптимальное решение для данной ситуации принятия многоцелевых решений. Как пра- правило, критерий свертки представляет собой функцию, отобража- отображающую RQ в R\ Главное направление исследования проблем принятия много- многоцелевых решений состоит в формулировке основных факторов (критериев свертки, способов нормализации и учета приоритета) и подходов к вопросам анализа и выбора этих факторов. Основ- Основные виды критериев свертки, способов нормализации и учета приоритета приводятся в табл. 9.1—9.3. 1. Первая задача принятия многоцелевых решений. Предпо- Предположим, что орган управления У имеет Q(Q>0) ситуаций приня- принятия решений {Ф, в, Z71}, {Ф, 0, Р}, ..., {Ф, в, FQ}, отличающих- отличающихся друг от друга оценочным функционалом в заданной информа- информационной ситуации 1. Требуется определить оптимальное решение для всех Q ситуаций принятия решений одновременно. Такая по- постановка задачи принятия решений возникает в тех случаях, ког- когда необходимо учесть несколько показателей, например затраты и эффективность. Ситуация принятия многоцелевых решений {Ф, #~(в)} в дан- данной задаче будет иметь оценочные функционалы, зависящие от в. Использование основных факторов {и, v, w) принятия много- многоцелевых решений позволяет получить ситуацию принятия реше- решений с одним скалярным оценочным функционалом для заданной информационной ситуации 1 и критерия принятия решений Пример 1. Пусть / = 2, Ф = {ф1> ..., ф6}, в = {0!, 62}, &~=&~+у 771 и F2 заданы в виде матриц (ф1 Ф2 фЗ ф4 ф5 фб\ / ф1 ф2 ФЗ ф4 ф5 фб\ 9Х 15 1 2 3 7 1 , F* = 6Х 0 2 5 3 1 2 , е2 о 9 5 з 2 п/ \е2 6 2 з 4 5 1/ Возьмем в качестве основных факторов принятия многоцеле- многоцелевых решений естественную нормализацию; оценки приоритета tfi = f/4i ^2 = 3/4; линейный способ учета приоритета; критерий сум- суммарной эффективности. Тогда получим матрицу приведенного оценочного функционала в виде / ф! ф2 ФЗ Ф4 фб фв \ F= 02 70/280 84/280 215/280 136/280 72/280 84/280 , \вя 165/220 78/220 91/220 114/220 142/220 55/220/ 151
Далее принятие оптимального решения осуществляется так, как это описано в предыдущих главах. Например, положив /=/5 для критерия Вальда (принципа максимина), получим решение 2. Вторая задача принятия многоцелевых решений. Пусть ор- орган управления У имеет Q ситуаций принятия решений {Ф, в, F1}, {Ф, в, F2}, ..., {Ф, 0, FQ), отличающихся друг от друга оце- Таблица 9.1 Нормализация Смена ингредиента Относительная Сравнения Естественная Савиджа Математическая запись (П/тахП), (fg/mlnfi); к к {fl - mm fl), (maxfl-ffi; к к к k к к k [max fi — /jp/[max fqk — min /|] k k k ночным функционалом. Пусть для всех Q ситуаций принятия ре- решений имеется одна и та же информационная ситуация / и орга- органом управления У выбран критерий принятия решений х°. Применив критерий принятия решений к0 в каждой из ситуа- ситуаций, получим ситуацию принятия многоцелевых решений {Ф, ^"}, { rQ} Выбор основных факторов {и, v, w) принятия многоцелевых решений дает возможность найти многоцелевое оптимальное ре- решение. Пример 2. Пусть условия для этого примера такие же, что в предыдущем примере. Пусть в каждой ситуации принятия ре- решений имеется информационная ситуация /5 и органом управле- управления У выбран в качестве критерия принятия решений критерий Вальда (принцип максмина). 11рименив этот критерий к каждой ситуации, найдем fl == min f}k, fl = min f)k, что приводит к си- /=l,...,n /=1,...,я туации принятия многоцелевых решений с оценочными функцио- функционалами вида Если теперь в ситуации принятия многоцелевых решений ис- используется критерий Парето, то получим единственное опти- оптимальное решение фйз=ф4. 152
Принцип учета приоритета Линейный Показательный Сокращение размерности Лексикография Таблица Q°={?=1,.. { 9.2 Математическая запись & ..Q fq ^ lk0* (ft)vg qo— задано Таблица 9.3 Критерий Парето Гарантированного резуль- результата Доминирующего резуль- результата Равенства Суммарной эффективно- эффективности Равномерности Х- критерий Хоменюка Математическая запись Ье""^!!.яЖ{г'"""" max min /Jj max max /J k q fx — f2 = •••—/? max ,_j /ft max Y| fqk 3. Третья задача принятия многоцелевых решений. Предпо- Предположим, что орган управления У в ситуации принятия решений {Ф, 0, F} имеет информационную ситуацию /, в которой опре- определено множество критериев принятия решений /С7. Из множе- множества Ki орган управления У выделяет не один критерий, а не- несколько {х/, ..., XjQ}. Применяя каждый из этих критериев х^ 153
к данной ситуации принятия решений, получим для каждого р*^ шения фь^Ф вектор оценок 3^= {^(ф*)}^, следовательно, будет иметь место ситуация принятия многоцелевых решений, в которой оптимальное решение выбирается аналогично, как и в случае задачи 2. Пример 3. Пусть Ф= {фь .. ., ф6}, 0= {Qu 02}, оценочный функционал F1 задан в примере 1, p@i)=Vs, Р(Эг)=2/з. Это соответствует первой информационной ситуации /4. Пусть ор- орган управления У выбрал два критерия принятия решений: кри- критерий Байеса и модальный критерий. Применив каждый из этих критериев к данной ситуации принятия решений, получим fkl = 2 =3fift+?"f2fc, fft2=f2fe. Оценочные функционалы для полученной ситуации принятия многоцелевых решений имеют вид причем по критерию Парето имеем единственное оптимальное решение фЬо=ф6. 4. Четвертая задача принятия многоцелевых решений. Пусть орган управления У имеет ситуацию принятия решений {Ф, 0, F} и пусть им выделено Q информационных ситуаций. Для каждой из информационных ситуаций органом управления выделяется один критерий принятия решений х/ ^Kiq. Применив каждый из выбранных критериев к ситуации принятия решений {Ф, 0, i7}, получим ситуацию принятия многоцелевых решений. Пример 4. Пусть Ф = {фь ф2, ..., фб}, 0 = {Bi, 62}, оценоч- оценочный функционал F1 задан матрицей в примере 1. Поведение сре- среды характеризуется первой информационной ситуацией с веро- вероятностями состояний р(в1)=3/к, р(92)=74 и четвертой инфор- информационной ситуацией. Пусть органом управления У выбраны следующие критерии принятия решений: критерий Байеса в /t и критерий Бернулли — Лапласа в /4. Применив эти критерии принятия решений, получим ситуацию принятия многоцелевых о 1 11 решений, в которой f\ = -гЫ+-т /2ft. f\ = — Ы + -г Ы- 4 4 2. А Оценочные функционалы имеют вид В полученной ситуации принятия многоцелевых решений при vi = vz=\ и отсутствии нормализации единственным оптималь- 154
ным решением по всем критериям свертки, кроме равенства, яв- является ф1# 5. Смешанная задача принятия многоцелевых решений пред- представляет собой объединение нескольких задач, перечисленных выше. Рассмотрим, например, объединение задач второго и третьего классов. Орган управления У имеет Q ситуаций принятия решений {Ф, в, F1}, ..., {Ф, в, FQ}, относящихся к одной информационной ситуации /, в которой из множества критериев принятия реше- решений К выделяют т критериев {%Д ..., х/}. Применив для каж- каждой из Q ситуаций задачу принятия многоцелевых решений треть- третьего типа, получим задачу принятия многоцелевых решений вто- второго типа с оценочными функционалами &~={&~\ ..., Q} 2. ВЫБОР СПОСОБА НОРМАЛИЗАЦИИ, УЧЕТА ПРИОРИТЕТА И КРИТЕРИЯ СВЕРТКИ Одним из основных и в настоящее время наименее разрабо- разработанных направлений исследования проблем принятия многоце- многоцелевых решений является разработка подходов к вопросу выбора основных факторов {и, v, w)—способа нормализации, способа учета приоритета и критерия свертки. Выбор факторов приня- принятия многоцелевых решений рассмотрен на примере выбора кри- критерия свертки. В Приложении рассмотрен пример векторной оп- оптимизации. Пусть в ситуации принятия многоцелевых решений {Ф, @~) органом управления У выбраны два необходимых компонента многоцелевого принятия решений иу v — нормализация и отно- отношение приоритета и имеется множество W: w^{RQ-+R1} крите- критериев свертки. Рассмотрим процесс выбора критерия свертки при отсутствии какой-либо информации. Применив каждый критерий свертки w^W в ситуации {Ф, ^~}, @~={@~\ ..., #~Q}, снова получим ситуацию принятия многоцелевых решений вида {Ф, W(&~)}, в которой необходимо определить основные факторы: нормализацию, учет приоритета и критерий свертки. Поскольку значения w($Fhq) при w^W, q^ е{1, ..., Q}, фь^Ф являются несравнимыми, разумным можно считать использование естественной нормализации (<7=1, ..., Q; k^l, ..., т) &q)— min w max w (&)) — min t Ф/?ф Ф/еФ Так как нет никакой дополнительной информации о задании приоритета на критериях свертки w^Wy можно положить коэф- коэффициенты приоритета vw равными единице для любого w^W. 155
Далее множество W критериев свертки можно разделить на две части W+ и W- в соответствии со стремлением органа управле- управления к увеличению или уменьшению значений критерия свертки. После этого орган управления У может поступать двояким об- образом: либо указать общий критерий свертки w°, согласно кото- которому находится оптимальное многоцелевое решение фйоеФ, ли- либо указать принцип выбора «наилучшего» приемлемого крите- критерия свертки w* из заданного множества W критериев свертки, при этом оптимальное многоцелевое решение фйеФ находится по критерию w*. Обычно для определения w° используются критерии свертки типа гарантированного результата, наилучшего приближения, максимума функции неопределенности соответственно вида ш°(<р*.)= max ш°Ы причем берется (+1) при w^W+ и (—1) при ( Q kQ) = max w° (фй) = max jmin У\ [ opt w (8Г()] — w I Qr=X opt Ш (Fi) = ф [О, оу е= IT", = max w° ((pk) = где w(@~l)= [w(P~Qk)]J\ 2 w(&~rk) . Для определения w* находят те критерии свертки из W, для которых реализуются внутренние задачи оптимизации по w^W в предыдущих трех критериях для о>°, при этом оптимальное многоцелевое решение фйо нахо- находится из условия max w* (ф/j), до* е W+, min w* (ф^), ш* е W . Аналогично можно подходить к процессу выбора нормализа- нормализации и приоритета ugF. 3. УЛУЧШАЕМОСТЬ В ЗАДАЧАХ ПРИНЯТИЯ МНОГОЦЕЛЕВЫХ РЕШЕНИЙ Как это легко уже заметить из примера 4 (см. раздел 1)г критерий Парето в задачах принятия многоцелевых решений за- занимает некоторое особое положение. Это объясняется тем, что 156
для многих критериев свертки (например, суммарной эффектив- эффективности, гарантированного результата и др.) выполнено следую- следующее отношение: who[>wk=>w0k ?>wk7 где wh° — критерий Парето. Решение (pftl считается лучше решения cpfe по критерию Паре- то, если для всех <7<={1, ..., Q} и хотя бы одного <7*е{1, ..., Q} выполнено frk > /?, f? > /?. Решение ф^э называется оптималь- оптимальным по критерию Парето, если не существует ф^еФ, лучшего по критерию Парето, чем ф^. Свойство критерия Парето очень часто используется при не- неопределенности в выборе критерия свертки, нормализации и приоритета. Решения по критерию Парето не зависят от прио- приоритета и нормализации. Введем понятие улучшаемости решения ф^еФ по критерию Парето: решение ф^еФ назовем улучшаемым, если существует решение фЛ1ЕФ, которое лучше фА по критерию Парето. Свойства улучшаемых решений характеризуются следующи- следующими утверждениями [32]. Теорема 9.1. Решение фАо^Ф улучшаемо в ситуации при- принятия многоцелевых решений' {Ф, #~}, &~={@~и •••> @~Q) тогда и только тогда, когда существует вектор ^^RQf для которого вы- выполнены неравенства /Io<^, fto<&1 Для всех q е {1, ... , Q} и хо- хотя бы одного q1 е {1, ... , Q}, где с* = с — у?, с = шах min [fl + yq]. k q Доказательство. Пусть требуемые неравенства выполнены, тогда согласно определению cq существует фАеФ, для которого справедливо c^.fkq+^q и, следовательно, cq^fk>fk0<Ccq' sgl/V fqf для всех ?е{1, ..., Q} или хотя бы одного д'е{1, ... Из последних двух неравенств следует, что ф^ улучшаемо. Пусть решение ф#0 улучшаемо и пусть ф& из Ф является тем решением, которое лучше решения ф?0 по критерию Парето. По- Положим уд = fk — fl для всех q е {1, ... , Q}, где q': fl' > fk[. Тогда max [fl + yq] = min [fl + yq] = fl'. Учитывая, что для всех я у из i^min [fl + уд] ^с, получаем я + У, < П + У я ^ max [fl + уд] = min [fl + уд] для всех а^{1, ..., Q) или хотя бы одного ^^{1, ..., Q}. От- Отсюда следует справедливость доказываемых неравенств. Теорема 9.2. Решение ф^Ф улучшаемо в ситуации при- принятия многоцелевых решений тогда и только тогда, когда суще- существует вектор -у из множества Г ={у е RQ: max fl — min f?>Yp—Уд- k k (p, q = 1, ... , Q, p Ф q)} такой, что выполнены неравенства преды- предыдущей теоремы. 157
Следствие. Если оценочные функционалы @~д={!%}™==1 полу- получены после применения естественной нормализации, то область Г имеет вид: T={y^RQ: \ур—у«|<1 (<7, р=1, ..., Q; Ч'Фр)}. Таким образом, решение вопроса об улучшаемости (опти- (оптимальности по Парето) многоцелевого решения ф^Ф по крите- критерию Парето сводится к существованию (отсутствию) вектора Ч^Г, для которого выполнены неравенства теоремы 9.1. Из теорем 9.1, 9.2 получаем следующее утверждение. Теорема 9.3. Для того чтобы решение фА^Ф было улуч- улучшаемо (оптимально по Парето), необходимо и достаточно, что- чтобы выполнялись (были несовместны) неравенства fl ^ max {[max min (/? + у9)] — yq} (q = 1, ..., Q). V=r i p Поскольку Г в RQ имеет простую структуру, задача отыска- отыскания чисел в правой части этих неравенств при q= 1, ..., Q реша- решается сравнительно просто. Это дает достаточно простые условия улучшаемости (оптимальности по Парето). 4. ПРИНЦИП МАКСИМУМА ФУНКЦИЙ НЕОПРЕДЕЛЕННОСТИ В СИТУАЦИЯХ ПРИНЯТИЯ МНОГОЦЕЛЕВЫХ РЕШЕНИЙ Рассмотрим ситуацию принятия многоцелевых решений {Ф, iT}, где ф={фь ..., фт}—множество решений, 3~= = {Т\ ..., &~Q) = {fl}f,kLi~ векторы Q оценочных функциона- функционалов. С математической точки зрения проблема нахождения оп- оптимального многоцелевого решения ф^еФ является задачей векторной оптимизации, сущность которой заключается в зада- задании отношения порядка |> и нахождении фАо из условия {fqk0}q=i I> {Я}?=1 для Л1°бого ф^еФ. Отношение порядка [>, как правило, определяется в виде отношения порядка ^ в R1 при задании скалярного критерия, отображающего RQ в R1. Этот скалярный критерий принято называть критерием свертки. При формировании критерия свертки используются нормализации и учет приоритета компонент Ф. Применим аппарат принципа максимума функций неопреде- неопределенности для нахождения оптимального многоцелевого решения, согласно которому фАоеФ находится из Я(фАо)=тах Я() либо из min 2 $-7U2. где #(ф*,) = тах Н{щ) [20]. Рассмотрим сначала случай отсутствия приоритета на ком- компонентах %Г. В этом случае в качестве критерия свертки естест- естественно применять функции неопределенности первого рода вида JJ Н{щ) = minffl ..., %}, 158
где может быть использована приведенная относительная нор- нормализация сравнения (max f«-® /Q ^ max f® /Q I r=i mfx ft или приведенная естественная нормализация / д-гя \&/ д-ы.я у шах /« - min /? уi r=1 ^ max /? - min /? у или приведенная нормализация Савиджа /Q / max/?— min ; В случае задания простого линейного (лексикографического) приоритета на оценочных функционалах ^x>^zi>-K>^rq (не- (непротиворечивого к одной из указанных трех нормализации) в качестве критерия свертки естественно использовать функции неопределенности второго рода (которые порождаются различ- различными типами линейных отношений порядков) В случае задания частично усиленного линейного приоритета \> U ^Р в качестве критерия свертки можно использовать функции неопределенности второго рода В случае задания других линейных отношений порядка на компонентах ^= {{F\ ... ,#~Q} для определения критерия свертки можно воспользоваться результатами гл. IV по построе- построению функций неопределенности второго рода. Для учета приоритета в задачах векторной оптимизации широко принято представление критерия свертки в виде линей- линейной комбинации компонент векторного критерия, что для ситуа- ситуации принятия многоцелевых решений приводит к критерию Q свертки w(q)h)=y^ vqfiky где /^ — нормализование значения ft? 159
vg — весовые коэффициенты важности (приоритета) q-ro оце- Q ночного функционала &~q, причем 0^ag^l, ^J vq=l. Будем предполагать, что линейное отношение порядка на компонентах ^~= {&~\ ..., &~Q) индуцирует соответствующий линейный порядок (систему линейных неравенств) на коэффи- коэффициентах v= (vu ..., vQ), для нахождения которых используется принцип максимума функций неопределенности второго рода H(v°)=max H(v). Для случая f10 <Г2 [> ... |> $FQ имеем соответственно vx V2 > . . . > Vq И Я (v) = f[ [if,I Q-*+1, H (v) = - 5J (Q_ 9 + 1) In У„ Q Для случая fq[> U ^"P получим аналогично p=q+l ^ ^ G1 Q). Оптимальное многоцелевое решение фАоеФ при использова- использовании линейной свертки находится из условия Q .) = opt ш° (Фл) = opt 5J ^ /?. Выбор оптимального многоцелевого решения ф^^Ф на ос- основе использования принципа максимума функций неопреде- неопределенности можно мотивировать как обобщение принципа недо- недостаточного основания (который приводит к принципу вырожден- вырожденного равенства opt f\ — fl0 = opt fl — fl0 = ... = opt f{ — fi0 = 0, k k k т. е. к принципу доминантности ф^еФ) следующим пози- позитивным соображением: ф^ определяется как решение из Ф, до- допускающее наибольшую вариабельность более справедливого компромисса по сравнению с принципом доминантности (и да- даже с принципом оптимальности Парето) вместо сомнительного использования широко рекомендуемого принципа гарантирован- гарантированного результата [8, 16]. Кроме того, величины {/?}?=1можно рассматривать при флеФ как некоторое объективное распреде- распределение вероятностей компонент нормализованного оценочного 160
функционала y=[ylf ..., ST*}. Поэтому принцип оптимально- оптимальности Парето для fF становится вероятностным критерием, а фун- функции неопределенности первого и второго рода являются обоб- обобщенными информационно-статистическими характеристиками распределения значений fF. В связи с этим принцип максимума функций неопределенности представляет собой принцип макси- максимума отношения правдоподобия для выбора решения из Ф при рассмотрении объективного распределения вероятностей ком- компонент. Таким образом, принцип максимума функций неопределен- неопределенности может быть эффективно использован для исследования ситуаций принятия многоцелевых решений. 6 Р. И. Трухаев
ЧАСТЬ ВТОРАЯ ДИНАМИЧЕСКИЕ МОДЕЛИ НЕОДНОРОДНЫХ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ ГЛАВА ДЕСЯТАЯ ЭЛЕМЕНТЫ ДИНАМИЧЕСКИХ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ Рассматривается простейшая модель динамического процес- процесса принятия решений в условиях неопределенности! Для пред- предложенного классификатора источников информации, порожда- порождающего информационное обеспечение процесса принятия реше- решений, разработаны рекуррентные уравнения для различных информационных ситуаций поведения среды и управляемого объекта на этапах перехода. Кроме того, исследованы рекур- рекуррентные уравнения для динамических процессов принятия ре- решений с последействием. Предложены подходы обобщения ди- динамических процессов на случай неизвестных вероятностей условного перехода и противодействия управляемого объекта органу управления. 1. ПРОСТЕЙШАЯ МОДЕЛЬ ДИНАМИЧЕСКОГО ПРОЦЕССА ПРИНЯТИЯ РЕШЕНИЙ Рассмотрим динамический Af-шаговый процесс функциониро- функционирования управляемого объекта О и органа управления У среды С. Будем предполагать, что на каждом этапе / (l^ll^N) орга- органу управления У известно следующее. 1. Множество А1= {а1ъ ... , а1т} возможных состояний объ- объекта О, в одно из которых может переходить объект О из любо- любого состояния на предыдущем (/—1)-м этапе. 2. Множество Ф'= {<р1и .. . , фш/} решений, которые может принять орган управления У, где под фА* понимается решение органа управления на 1-й этапе о переводе объекта О в состоя- состояние ак\ причем на 1-м этапе орган управления У может принять только одно решение из множества Ф*. 3. Множество @1= {6Д ..., 6' } возможных состояний среды С на 1-м этапе. 4. Априори состояний среды С на множестве @\ т. е. p/=P{0z=0/}. 4. Априорное распределение pl= (р/, ..., р1п ) вероятностей 162
5. Матрицы F {Oy x) = {fjk (c^'1)}nfl^l значений оценочного функционала F для всех возможных состояний ач1~*^А1-1 (при этом будем предполагать, что F=F~f т. е. значения оценочного функционала имеют отрицательный ингредиент). 6. Условное распределение вероятностей gil(avl-\ yhl) = = Р{ау/-1->а/|ф'=фЛ'} перехода объекта О в состояние аУ^А1 из состояния ау'^еЛ'-1, если принято решение фА'еФ'. 7. Характеристики источников ]° и /с информации по объек- объекту О и среде С. Для органа управления У цель динамического процесса при- принятия решений состоит в переводе управляемого объекта О из данного начального состояния а0 в заданное множество AN ко- конечных состояний {aN} посредством выбора органом У последо- последовательности «оптимальных» решений ф1, ..., ф* (ф'еФ' при 1= = 1, 2, .. ., N) на основе исходных данных, задаваемых в моде- модели, и показаний источников /° и Iе информации по объекту О и среде С в соответствии с критерием принятия решений. Частным случаем динамического процесса принятия реше- решений является однородный процесс, в котором на каждом этапе N-шагового процесса заданы одно и то же множество состояний объекта О, множество решений органа управления У и множе- множество состояний среды С соответственно, т. е. А = {аи ..., ат}, Ф={фь ..., фт}, e={8i, ..., Эп}. При этом матрицы F(av) = =={/jft(flv)}/;?Li значений оценочного функционала, выраженные в отрицательном ингредиенте F=F~> априорное распределение р= (ри . .., рп) вероятностей состояний среды С и распределе- распределение gi(av, фй) =P{avl~1-+ail\q)l=(ph1} вероятностей условного пе- перехода не зависят от момента этапа. В рассматриваемой модели динамического процесса приня- принятия решений роль источников /° и Iе информации по объекту О и среде С состоит в определении на каждом из этапов /= 1,2,... ..., N состояний управляемого объекта О (в которые он перешел после получения и исполнения принятого органом управления У решения ф'-^Ф'), а также в определении информационной си- ситуации состояний среды С. В зависимости от вида объекта О, его функционирования, принципов построения информационного обеспечения в системе управления У, характера среды С, а также параметрических ха- характеристик организации и функционирования самих источни- источников информации в дальнейшем будем придерживаться приве- приведенной на рис. 10.1 схемы классификатора источников информа- информации, используемых в динамических процессах принятия реше- решений. На рис. 10.1 использованы следующие обозначения: / — источник информации; Xj — технические характеристики /; fj — функциональные характеристики /; Oj — организационные ха- характеристики /; 3j—экономические характеристики /; tj — временные характеристики /; Sj — общие (универсальные) характеристики /; а, а, Д, Д, ПВ, НЧ, О — свойства 163 6*
V f/j} {<?,} {*,} {*,} Ш Рис. ЮЛ. Схема классификатора источников информации, используемых в ди- динамических процессах принятия решений точности показаний /, включающие абсолютности (единствен- (единственности), неабсолютности, достоверности (истинности), не- недостоверности, простые вероятностные, нечеткости, отсутствие показаний соответственно; 7ад — абсолютно достоверный ис- источник информации на каждом этапе I (l^l^.N) указывает достоверно единственное состояние а^А\ в которое перешел управляемый объект О с предыдущего этапа; //да— абсолютно недостоверный с вероятностной структурой источник информа- информации на каждом этапе I (l^l^N) —указывает недостоверно единственное состояние а^А\ в которое перешел управляемый объект О с предыдущего этапа, т. е. задано условное распреде- распределение вероятностей показаний avl при истинных состояниях объ- объекта а?: Р{а<!\а1}, ^P{aJ\al} = \, Vi\ /2дх—абсолютно недо- V стоверный с общими показаниями источник информации на каждом этапе / A^/^Л^) —выдает недостоверно одно показа- показание xvl из исходного базиса возможных показаний Х1= = {Xily ..., xlri}, элементы которого представляют собой различ- различные высказывания относительно состояний множества А1, при- причем P{xvl\ui} — вероятность получить показание xvl при усло- условии, что объект О находится в состоянии а} и ^1P{xvl\ail} = l> v Vt; ^адхв — абсолютно недостоверный с выборкой источник ин- 164
формации на каждом этапе / (l^Zl^N) —выдает выборку (по- (последовательность) показаний [х1Ух, ..., xtl] из исходного базиса возможных показаний Xt={x^ ..., xit) c вероятностной струк- структурой P{xv\cii}; Jzjx—неабсолютно достоверный источник ин- информации на каждом этапе / A^/^ЛО—указывает достовер- достоверно подмножество AJ<zzAl состояний объекта О, в которое он мо- может перейти с предыдущего этапа, причем возможное число комбинаций показаний равно 2mi — 1 при ти равном числу эле- элементов множества А1; неабсолютно недостоверный источник ин- информации на каждом этапе / (l^/^Af)—указывает недосто- недостоверно подмножество AvlczAl; /аДП — неабсолютно достоверный с отношением порядка источник информации на каждом этапе I (l^l^N) —указывает отношение порядка на элементах мно- множества А1 и подмножествах AvlaA\ в некоторых случаях инду- индуцирующих распределение вероятностей на состояниях множест- множества А1; /пв— простейший вероятностный источник информации на каждом этапе l(l^.l^.N)—сообщает распределение веро- вероятностей qvl=P{at=av1} и ^qvl=l на А1 V/; /нч — нечеткий ис- V точник информации на каждом этапе /A^/^N); /J — пустой источник информации (отсутствие источника) на каждом этапе l(l^l^.N)—в качестве показания указывает само множество А1; {/с0}—множество смешанных источников информации, в которых на каждом этапе l(l^l^.N) используется один из ра- ранее приведенных источников информации либо соответствующая их комбинация (случайная или детерминированная); {Jen) — множество смешанных простых источников информации, в ко- которых на каждом этапе 1A ^.l^N) используется только один из ранее приведенных источников (за исключением Ус) > {^св} — хмножество смешанных вероятностных источников информации, в которых на каждом этапе l(l^l^N) используется вероятно- вероятностная комбинация источников информации; {/енч} — множество смешанных нечетко источников информации. Классификация источников информации 1е по среде С про- производится аналогично. Приведенная классификация источников информации, во- первых, не является исчерпывающей, хотя и учитывает основ- основные типы источников информации, и, во-вторых, при соответст- соответствующих доопределениях некоторые из источников информации могут быть частным случаем других. Например, источник ин- информации /аДА может быть /аДх, если xv положить тождествен- тождественно равным av на всех этапах; источники /аД и /0 могут быть /а~д, если avl=Avl и Avl=Al соответственно. 165
2. РЕКУРРЕНТНЫЕ УРАВНЕНИЯ ДЛЯ НАХОЖДЕНИЯ ОПТИМАЛЬНОЙ СТРАТЕГИИ В ПРОСТЕЙШЕЙ МОДЕЛИ ДИНАМИЧЕСКОГО ПРОЦЕССА ПРИНЯТИЯ РЕШЕНИЙ Принцип информационного обеспечения процесса управле- управления объектом О во многом определяется выбором соответству- соответствующих источников информации /° и Iе по объекту и среде. В свою очередь, выбор того или иного типа источников информации оп- определяет свойственную ему стратегию оптимальных решений по управлению объектом О и оптимальное значение показателя ка- качества функционирования объекта О за все этапы перехода из начального состояния в конечное. Оптимальные стратегии решений и суммарный показатель качества на этих стратегиях за все этапы управления находятся из рекуррентных уравнений. В простейшей модели эффективным методом построения рекуррентных уравнений является принцип оптимальности Беллмана [1]. Однако до сих пор существуют трудности получения рекуррентных уравнений для ряда источ- источников информации классификационной схемы. В этом разделе для некоторых (основных) источников ин- информации приводится вывод рекуррентных уравнений и соот- соответствующие им оптимальные стратегии решений и значения по- показателя качества функционирования объекта О за весь процесс [22]. В дальнейшем без потери общности будем предполагать, что источник информации Iе по среде С отсутствует и рассматрива- рассматривается только источник информации J0 по объекту О. 1* Рекуррентные уравнения для /ад. Набор Ф = (Ф\Ф2,... , Ф^} множеств решений $^$A ^l ^:N) будем называть програм- программой решений в многошаговом процессе принятия решений. Прог- Программа решений Ф° = {Фо\ ... , Фо% в которой Ф^ = {Ф{{ (а^1)}^1 является оптимальной по критерию Байеса, если для любого / A ^l ^.N) решения ф?0 (at") находятся из условия Множество решений Фо = {ф*/(в\Г-1)}^11A ^ ^Ю являет- является оптимальной по критерию Байеса стратегией решений, если для любого /(l^/^N) выполняется условие // (<pij (av1), a1;1) = min/, ((pi, at), // (<pi, Ж) = 166
том распределения вероятностей (gv^^, ф'о 1 vs/vs=i Математическое ожидание MB* в правой части выражений для ft находится по всем возможным состояниям а* еЛ3 с уче- уче(vs=l, ..., т$; 5 = /, ..., N—1), а для нахождения B*s исполь- используется выражение N-l Можно доказать [21], что оптимальные стратегии {«p'otflv^bii1 могут быть последовательно найдены для всех l—N, N—1, ..., 2, 1 из условий fi(?ko{ck% 4)- min /,<pj, о^-1), при этом значения Мф^, av^"*1) удовлетворяют следующим ре- рекуррентным уравнениям: fN{^ {^-\^-г)= min k 5' (Ф* I ai) + S fto (Ф? К)- °i/) Л (ai, Ф*) vi /+1 J Наличие абсолютно достоверного источника /^д информации по управляемому объекту О позволяет выделить из множества оптимальных стратегий решений на каждом этапе оптимальное по критерию Байеса решение ф°= {фо\ ..., ф<Л} следующим об- образом. Положим ф! = ф*о (а0); объект управления О при решении ф? ki переходит в одно состояние из множества А1, причем источник информации Уад указывает состояние aV в которое перешел объ- 167
ект О. Решение ср^еФ2 определяем в виде ф? = Ф2о(я1о) и т. д. Предположим, что найдены решения cpj, ф*, ... , ф?; тогда после 1-го этапа объэкт управления О перейдет в одно из состоя- состояний А1, а источник информации Уад укажет это состояние а10^ ^. [Решение ф?+1еФ/+1 определяем в виде фо+1 = ф^1 (я* о), причем Мф^К^о), ао)= т1п/1(фй, а0) является важной характери- 1 ^ стикой показателя качества управления и представляет собой математическое ожидание значений оценочного функционала за все N этапов для начального состояния а0 при использовании на каждом из последующих этапов оптимальных стратегий. 2. Рекуррентные уравнения для /°дА и «/Цдх. В этом разделе приведем лишь рекуррентные [уравнения для /?jx, поскольку для ^адд РекУРрентныг уравнения аналогичны, если считать, что ис- исходный базис X1 совпадает с множеством А1 состояний объекта О на 1-й этапе. Введем обозначение условной вероятности. Пусть q9l(avl) = = P{xl=xpl\al=av1} — вероятность выдачи показания хр1 при ус- условии, что управляемый объект О на /-м этапе находится в со- п стоянии atv^Al и ^ Чр (а*1) = 1 при v= 1,..., mh На Af-м этапе оптимальная по критерию Байеса стратегия ф!о (ф^, ... , Ф^М-Кр'лД) Д^ всех комбинаций решений ф^, ... • > Фа^Л на предыдущих (W — 1)-м 'этапах и показаний Хы~г находится из условия [mN-l v-i Для 1=2,..., N имеем причем 168
есть вероятность попадания объекта О на (/— 1)-м этапе в со- состояние сьГ1 при выбранных на предыдущих этапах решениях Ф^, • • ¦ , Ф*7-1- Для 1-го этапа оптимальная по критерию Байеса стратегия решений ф'оСф*!, •.., Фа/Ij I *p"/*i) удовлетворяет уравнению ill. %o 1 x k/ = min \ v=i s—i p=i На первом этапе оптимальная по критерию Байеса стратегия решений состоит из единственного (или совокупности эквива- эквивалентных) решения ф20 (а0), для которого {mi n \ В1 («pi | a0) +S 2 ^ (Ф*. Ф^о1 xi) 2 Оптимальное по критерию Байеса решение фв=(ф}, ... , ф^ для Л^-шагового процесса принятия решений определяется следую- следующим образом: Ф; = ф1о, Ф; = Ф^о (ф11 ^), ... , Ф^ = Ф^о (vj, ... 3. Рекуррентные уравнения для ^ддхв. [Используя ранее приня- принятые обозначения, аналогично предыдущему пушту определим на Af-м этапе оптимальную по критерию Байеса стратегию ф^ (ф^, ... ... , ф^ l^-1, ... , д:^1) для всех комбинаций решений ф^, ... ... , ф^1 на предыдущих [(N— 1)-м [этапах и выборки (фиксиро- (фиксированной серии показаний) л:^, ... , л:^-1 из условия [mN-l 2 BN(^Nk т/с V=l ^ \av [4>kt, . . . , фА^-!» Xvt , . . . , XvJjZi) 169
где для A=2, ... yN) Для /-го этапа оптимальная по критерию Байеса стратегия ре- решений ф^о(ф^, • •. , Ф^И 4Г\ • • • > 4"?х) удовлетворяет рекур- рекуррентному уравнению f(q>l Ф7 Ф^Г1 ^JL) S PV/=1 0skL .... фй П ^(^ M-=Pi На первом этапе оптимальная по критерию Байеса стратегия решений состоит из единственного (или совокупности эквива- эквивалентных) решения ф^Яо), Для которого mt rt ^(ф*К) + 3 2 ••• S s=i Pi=i Pv^ ... , x\ ) P (aj | фй) П ql (al) \. Оптимальное по критерию Байеса решение ф°= (фо1, .. ¦, Фо*) для Л^-шагового процесса принятия решений определяется сле- следующим образом: = ф'о, Фо= = ф^о Ы, ..., ifo 1\Xpt1, ... , X%Nlj. 170
4. Рекуррентные уравнения для /J. Решение Ф°={ф10, ... ki ..., (jfu }е{Ф\ ..., Ф*} оптимально по критерию Байеса, если .... ф".) = min U(<pl, •.., 4kN), 1= 1, 2, ... , N, TV Для нахождения вероятностей P(cfr1\q>lx, ... . Ф^х) перехода управляемого объекта О после (/—1)-го этапа в состояние Оу~1еА1~1 (при условии, что на первом, втором и т. д. (/— 1)-м этапах приняты решения ф^, ф|2, ., . , ц>Ь* ) можно воспользовать- воспользоваться заданными распределениями вероятностей {glvi (cfc1, (pi^lv Это^ в свою очередь, приводит к следующим рекуррентным равенствам причем Р (oj 1 фУ = gi (a°, ф^). Учитывая записанные выше рекуррентные равенства, можна показать, что для значений ^ ..., ф*,) ^ S S в§ (ф*. Iа"')р ^"г I ф*. Обозначим через /"/(фл4» ••• » ф!/) суммарное математическое ожи- ожидание байесова значения оценочного функционала на решении Ф^ е Ф1 при использовании решений ф^, ... , ф^х на первых (/— 1)-м этапах и оптимальных решений на (/ + 1)-м, ... , Л^-м этапах. Стратегия решений ф/0(ф*1, ... , Ф^х) называется опти- 171
мальной по критерию Байеса стратегией для 1-го этапа A если выполняется условие // (фл1? ... , ф^> Ф.о) = min fi (ф^, ... i ф^х, Фл) для всех возможных комбинаций {ф^, ... , ф!*^} е (Ф1, ... , ФМ}, которое приводит к следующим рекуррентным уравнениям для нахождения оптимальной по критерию Байеса стратегии решений: mJV-l = min 2 *1 v=i //(ф*„ ••• , «Pfc. <pjo) = [~m/-i = min ^ ^(Ф*!^1)? (ot^ki, ... , Ф^) + ФйеФ' Lv=i + f/+1 (Ф*„ .... 4tv Ф*. Ф? ) (/ = iV- 1, ... , 2, 1). Заметим, что на первом этапе оптимальная по критерию Байе- Байеса стратегия будет состоять из одного решения ф^0, это позво- ляет также найти оптимальное по критерию Байеса решение ф° = = {фо\ Фо2, • • •, Фо*} в виде ф5 = ф'ь фо = фМф'о), .. • , ф^ = \о (ф'о, - - , Ф^о )• 5. Рекуррентные уравнения для /с°. Предположим, что источ- источник информации по управляемому объекту О является смешан- смешанным в том смысле, что на каждом этапе / A^/^iV) точно из- известно, что источник информации Jt° по состоянию объекта О является либо абсолютно достоверным источником /^д, либо пу- пустым источником /о0. Обозначим через x{Ji°) показания источ- источника /С°={/Л ..•> J№} на 1-м этапе, при этом возможны следу- следующие показания источника Jc° ПрИ J/ ==УаД (V= 1, .. . , где Л — пустое показание (или отсутствие показаний). На мно- множестве X1 = {Л, а^, ... , a^J^} этих показаний введем следую- следующие обозначения: 172
! О, при x(J?)=f=A; 0, x(J°) = A. Для нахождения на /-м этапе (l^/^Af) оптимальной по критерию Байеса стратегии решений {Ф^Ф*. ..., ч?*\х(/?))} для всех возможных комбинаций решений {ф*х, ..., ф^}е е {Ф1, •.. , Ф^1} и показаний х (J°t) e= Xz имеем следуюшие рекур- рекуррентные уравнения: ))] 2 v=i «/-1 min {Яо^!/?)) 2 ^(ф^а^Р^М rJ (* (/2-i)) ft+i (ф*1> . • •, ф*Д , ф Щ V=l Оптимальное байесово решение ф°=={ф01, ..., ф0*} определя- определяется из оптимальной по критерию Байеса стратегии решений сле- следующим образом: [Фо1 = <Л; Фо = ф'о (Фо1, • • • , Фо! х (J!)) (/ = 2, ... , N). Ri ni 173
3. РЕКУРРЕНТНЫЕ УРАВНЕНИЯ ПО СИТУАЦИЯМ ПОВЕДЕНИЯ СРЕДЫ В предыдущем разделе для простейшей модели динамическо- динамического процесса принятия решений, предполагающей наличие рас- распределения вероятностей р1 на состояниях среды С на каждом этапе процесса принятия решений, были получены рекуррентные уравнения для оптимальных стратегий решений при использова- использовании только критерия Байеса. Ниже приводятся рекуррентные уравнения по основным критериям первой и других информаци- информационных ситуаций. 1. Для нахождения оптимальных стратегий решений Фо'= = {ф^СЯлГ1)}^1 на /-м этапе (/==1, 2, ..., N) по дисперсионному критерию рекуррентные уравнения запишутся в форме fi (ф'о (#v*), ch x) = min а2 (ф^ | alv x) + ^ / /I m/ -i ^ +1 ft/+i v/' v/ v/ V/=l J где о2(флг|ау') —дисперсия значений оценочного функционала на /-м этапе для решения ф/еФг и состояния а^еЛ'", равная а2 (Ф^| а1;1) = 5 Р/1//* («v) - В' (Ф*| ti1 Величина /га(ф[о (av'-1), ^v^) представляет собой оптимальное среднее значение дисперсии оценочного функционала за этапы /,/+/,..., N при использовании на Z-м этапе решения ср !0 («v^1) e ki еФог для состояния Ду'-^Л', причем на (/+1)-м, ..., N-u эта- этапах применяются оптимальные по дисперсионному критерию стратегии Фог+1, ..., Ф<Д 2. Для нахождения оптимальной стратегии Фо= {ф'о^)}^!1 на /-м этапе (/=1, ...9N) по вероятностному критерию (для за- заданных величин $1 ограничений сверху на значения оценочного функционала на Z-м этапе) рекуррентные уравнения имеют вид /Йфл.(^1),^-1)= max N ф^фЛ' 174
ft (Ф'о DЛ 4'1) = max \P {fik (a1'1) ^ v,=i /+1 В этих уравнениях /Г (ф'о^), flv) — оптимальная величина веро- ятности выполнения всех заданных ограничений на все значения оценочного функционала за /-й, (/+1)-й, ..., N-R этапы при ис- использовании на /-м этапе решения ф'о (а^'^еФо1 для состояния 1 при условии, что на (/+1)-м, ..., jV-m этапах исполь- используются оптимальные по вероятностному критерию стратегии Фо'+1, • • •, Ф<Л Отметим, что вероятностный критерий обладает следующим недостатком: величины ftp при изменении I от N к 1 имеют тенденцию к убыванию, поэтому для больших N их зна- значения на первых этапах будут близки к нулю. Следовательно, значения fip(<pk\ а*1'1) при ф^^Ф1 будут малыми и не будут за- зависеть от решений ф/еФг. Тогда вероятностный критерий при больших значениях N не дает возможности для нахождения оп- оптимальных по этому критерию стратегий Ф</ на первых этапах в том смысле, что Фо' будут совпадать с множествами Ф1. 3. При нахождении оптимальной стратегии Фо= {ф'о (av1)}^1 на /-м этапе (/=1, ..., N) по модальному критерию рекуррент- ные уравнения имеют вид /#(Ч>5 (о?Л о??1) = min rt («?"*>• k k н mi [mi -у где индексы ji° находятся из условий р[0= max pj при /= ii /=i «/ = 1, 2, ..., N. В этих рекуррентных уравнениях ff (ф^о (Ду), ЯдГ1) является оптимальной величиной математического ожидания оценочного функционала за Z-й, (/+1)-й, ..., TV-й этапы для ре- решения ф^^еФ^ и состояния aJ-l^A1-1 при использовании на (/+1)-м, ..., Af-м этапах оптимальных по модальному кри- критерию стратегий Фог+1,..., Фо^- 175
4. Для критерия Гурвица (при заданном значении Л* уровня оптимизма (пессимизма)) оптимальные стратегии решений Фо = {ф?о(я^ )}v^=i (/=1, ..., N) находятся при решении рекур- рекуррентных уравнений вида х. (tf). ) = min Цы min ffk(c^~1) +(l-XN) max rain [я, min /}*(а^) + A -Я,,) х «/+1 I J Б частности, для минимаксного критерия Вальда (который яв- является частным случаем критерия Гурвица при ^=0) рекуррент- рекуррентные уравнения для нахождения оптимальных стратегий имеют вид 5 ?),*?)- min max max mi V/=l J В заключение сделаем несколько замечаний. Выше были рас- рассмотрены (п. 1—4) лишь некоторые критерии свертки оценочно- оценочного функционала по среде С. Исчерпывающий список рекуррент- рекуррентных уравнений может быть получен при использовании крите- критериев принятия решений по всем информационным ситуациям в статических процессах принятия решений первой части. Среди критериев свертки по среде С существуют критерии (например, вероятностный, п. 2), приводящие к неаддитивным оценочным функционалам в динамических процессах принятия решений. Аналогично результатам этого раздела могут быть получены рекуррентные уравнения, учитывающие поведение среды С для различных источников информации по объекту /° и среде /с. 176
4. РЕКУРРЕНТНЫЕ УРАВНЕНИЯ ПО СИТУАЦИЯМ ПОВЕДЕНИЯ УПРАВЛЯЕМОГО ОБЪЕКТА НА ЭТАПАХ ПЕРЕХОДА В ДИНАМИЧЕСКОМ ПРОЦЕССЕ Рассматриваемые в этой главе модели динамических процес- процессов принятия решений можно отнести к классу управляемых марковских процессов без последействия. Основными показате- показателями марковских процессов без последействия являются следу- следующие два признака: 1) зависимость состояния управляемого про- процесса только от предыдущего состояния, например, в рассмат- рассматриваемой в разделе 1 простейшей модели такая зависимость вы- выражается заданием на /-м этапе оценочных функционалов и»(й*1~*)} (эффективность принятого на 1-й этапе решения срАг при состоянии среды 9/ при условии, что на (/—1)-м этапе объ- объект находился в состоянии aj-1 (v=l, ..., mi)); 2) наличие ус- условных вероятностей перехода pi} управляемого объекта из со- состояния i в состояние /, например, в рассматриваемой в разде- разделе 1 простейшей модели в качестве условных вероятностей пере- перехода приняты вероятности gil(avl~\ фА')=Р {ау'-1->а/|ф1=ф^} пе- перехода объекта О в состояние сц^А1 из состояний а'-'еЛ^1, если принято решение ук1^Ф1. Рассмотрим следующее обобщение управляемых марковских процессов, считая, что характер смены объектом своих состоя- состояний является неопределенным. Частным случаем неопределен- неопределенности является, конечно, и случай задания вероятностей услов- условного перехода. В качестве основы предлагаемого здесь обобще- обобщения берется классификация информационных ситуаций в стати- статических процессах принятия решений. Оставляя без рассмотрения вывод рекуррентных уравнений для всех информационных си- ситуаций, рассмотрим случай информационной ситуации, в кото- которой предполагается, что управляемый объект О активно противо- противодействует целям органа управления У на каждом этапе процесса. В этом случае рекуррентные уравнения для абсолютно достовер- достоверного источника по объекту /?д имеют вид Ы<Р?о {а%Ла"~1)= min max [BN (q? | a?-1)], fi (ф'о (а1Л av) = min max [Bl D1 а^)+ ft+1 (cpj 4 ^ 4 l Управляемые марковские процессы, для которых не опреде- определены условные вероятности перехода, будем называть неопреде- неопределенными марковскими процессами. 177
5. РЕКУРРЕНТНЫЕ УРАВНЕНИЯ ДЛЯ ДИНАМИЧЕСКИХ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ С ПОСЛЕДЕЙСТВИЕМ Если зафиксировать 1-й этап динамического процесса приня- принятия решений, то последействие может содержаться в двух ос- основных характеристиках, определяющих марковские процессы: в Fl (alv~l) = {f]k(Ov'1)} — оценочном функционале и в gi/ (<4~\ ф!) = = Р {а1^1 -> с^1 | ср?} — вероятностях условного перехода. Основными направлениями, в которых могут вестись обобщения, являются зависимости указанных характеристик от последовательностей пре- предыдущих состояний объекта (а?]"и, ... , а^!2> #v^i) порядка и и последовательностей принятых на предыдущих этапах решений (ф^-и» • • • » Ф^-i) порядка v. В дальнейшем примем следующие обозначения для динамических процессов принятия решений с последействием: <ПР, Fl[tiil, vtl]9 gl\u2\ v21]} —процесс решения с последействием порядка и^1 и vtl по оценочному функционалу и //2', v2l по вероятностям условного перехода. Естественно, чем больше порядок последействия, тем больше информации необ- необходимо для построения рекуррентных уравнений и алгоритмов отыскания оптимальных стратегий решений. Рассмотрим рекуррентные уравнения для процессов с после- последействием по состояниям объекта <ПР, F[2, 0], gl[2, 0]> min fi (ф'о (ai~,lv °fe). ^-i- a^J = mi V/=l Таким образом, оптимальные стратегии решений определяют- определяются из этих рекуррентных уравнений в виде Фо = {ф^о (^1^ av/!2)} (l=N,N—I,...,2,1). Рассмотрим рекуррентные уравнения для процессов с по- последействием по состояниям объекта и решениям 1, П> 178
(ф\ (ф&, <kt\)> <p?i. <-*) = min q>?, Из этих рекуррентных уравнений определяются оптимальные стратегии решений ф? = (ф'Лф^, я^)} (*=#, N—1, ..., 2, 1). Более сложные формы рекуррентных уравнений для процессов с последействием могут быть получены при различных типах ис- источников информации ]° и Iе. ГЛАВА ОДИННАДЦАТАЯ ДИНАМИЧЕСКИЕ ПРОЦЕССЫ ПРИНЯТИЯ РЕШЕНИИ ПРИ ОГРАНИЧЕНИЯХ НА ВРЕМЯ ПЕРЕХОДА ОБЪЕКТА В главе рассматривается динамический Af-шаговый процесс принятия решений в условиях неопределенности при ограниче- ограничении на время перехода управляемого объекта из начального со- состояния в множество конечных состояний. Такая постановка при- приводит к использованию отличающихся от традиционных методов учета ограничений в динамическом программировании. Получе- Получены рекуррентные уравнения для математического ожидания вре- времени перехода объекта за весь процесс в случае абсолютно до- достоверного источника информации и отсутствия источника ин- информации. Кроме того, рассмотрены различные виды ограниче- ограничений на время (типа равенства и типа неравенства). 1. МАТЕМАТИЧЕСКАЯ ПОСТАНОВКА ЗАДАЧИ Рассматривается динамический ЛЛ-шаговый процесс функцио- функционирования управляемого объекта О и органа управления в сре- среде С. При этом на каждом этапе / (/= 1, ..., N) предполагается, что органу управления Уизвестно: 1) множество А1— {а/,..., а1т } возможных состояний объекта О, в одно из которых может пе- переходить объект О из любого состояния на предыдущем (/—1) этапе; 2) множество Ф'={срЛ ..., ф^} решений, которые может принимать орган управления У, где под <рк' понимается решение органа управления У на 1-м этапе о переводе объекта О в состоя- состояние ak\ причем на 1-м этапе орган управления У может прини- 179
мать только одно решение из множества Ф1; 3) множество &= = {0/, ..., 9^} возможных состояний среды С; 4) априорное рас- распределение pl={pi\ ..., р^} вероятностей среды С из множе- множества в, т. е. р/=Р{в'=е/}; 5) матрицы {f)k(o^1)}^ значений оценочного функционала F для всех возможных состояний aJ-^A1-1 на предыдущих этапах (количество таких матриц fWi-i); 6) условное распределение вероятностей перехода объекта О на 1-м этапе в состояние а/еЛ' из состоя- состояния aJ'^A1-1 при условии, что на 1-й этапе принимается реше- решение ф'Ф1 7) матрицы UJk (^~1)}/,i=i времен переходов для всех возможных состояний Оу^еЛ7" (количество этих матриц m^i); 8) характеристики источников информации /°, /с по объекту О и среде С. Цель динамического процесса принятия решений заключает- заключается в переводе управляемого объекта О из заданного начального состояния а0 в конечное состояние aN (или подмножество конеч- конечных состояний из множества AN) при помощи выбора органом управления У последовательности решений ф1, ..., ф^ (ф'еФ1, /= 1, ..., N) на основе исходных данных, задаваемых в модели, и показаний источников информации по объекту и среде в соот- соответствии с критерием принятия решений при условии, что на время перехода из а° в aN наложено ограничение в виде равен- равенства или неравенства. В рассматриваемой модели динамического процесса приня- принятия решений роль источников /° и /с информации по объекту и среде состоит в определении на каждом из этапов /=1, ..., N состояний объекта управления О, в которые объект перешел по- после получения и исполнения принятого органом управления У решения ф'еф*, а также в определении состояний среды С. В данной задаче предполагается, что источник информации по объекту является абсолютно достоверным, т. е. после испол- исполнения решения ф'еФ* на /-м этапе (/=1, ..., N) определяется точное состояние al^A\ в которое перешел объект управления О, а источник информации о состоянии среды отсутствует. 180
2. РЕКУРРЕНТНЫЕ УРАВНЕНИЯ ОБЪЕКТА ПРИ АБСОЛЮТНО ДОСТОВЕРНОМ ИСТОЧНИКЕ ИНФОРМАЦИИ Для решения этой задачи можно воспользоваться рекуррент- рекуррентными уравнениями для динамического процесса принятия реше- решений в случае отсутствия ограничений на время, приведенными в гл. X. Множество решений Ф^ = {<р^ (а%")}^1~1 называется опти- kN мальной по критерию Байеса стратегией решений на N-u шаге, если Д. О« пип ЫФ%> О, A) -^kN\av )='зад где fniv^f ^v)— математическое ожидание оценочного функцио- функционала {ffk(av~1)}v?r1 Для решения q>kN еФ^ и состояния объекта nN fN (*, tf) = В» (< ? ^) —математическое ожидание времен переходов за весь процесс; ?зад— заданное время перехода. Множество решений Ф10 = {ф'о (ву)}^!1 называется оптималь- Н ной по критерию Байеса стратегией на t-ы этапе, если min //(ф*/> ^v ), W '-1 /+1 N . . \o Ф,О>='зад где МфД avz-1) —математическое ожидание значений оценочно- оценочного функционала за /, /+1, ..., iV-й этапы для решения ф| еФ* и состояния aJ-^A1-1 при использовании на последующих (/+1, ..., N) этапах оптимальных стратегий усредненное по всем возможным состояниям aip ... , ^7^ (vj=l, ..., mr, ...; v^r_i=l, ..., m^-i) управляемого объекта О, 181
т. е. h (ф!о, cfr1) = min f В' (Ф^ \ at) ' 4^ L >—*зад C) fl, , ^ ,] ф*1> • • • » ф?/1 ^v \ ф'о1 , •.. , ф^о) — математическое ожидание л/+1 kN +1 времени перехода объекта из а0 в AN при использовании на пер- первых (/ — 1) этапах решений q>Jlf ... , Ф/^, на 1-й этапе решения cpi/f а на последующих этапах от (t + 1) до Л/" оптимальных стра- стратегий при условии показаний а?"\ Стратегия Ф° = {Oj, ... , Ф^}, где Ф^ф'о^1)}™!!1, /= 1 ЛГ, Ri называется оптимальной по критерию Байеса для динамическо- динамического процесса принятия решений в условиях неопределенности при ограничении на время. Вывод рекуррентных уравнений для значений математиче- математического ожидания времен переходов производится последователь- последовательным рассмотрением каждого этапа, начиная с последнего. Пусть 7л(ф*„ -•• > Ф^г Ф^!^) -—математическое ожидание време- времени перехода объекта из а0 в AN при использовании на этапах 1, 2, ..., N решений q4, ... , Ф^х, Ф^ в случае показания ис- источника информации avN~\ при этом 1 N (ф^, . • • , *PkN^v фА I flv ) = = * (a° - Л^2) + / (A?- -+ cfi-1) + t (aT1 -» AN). D Здесь t(Ai-^Ai+l) —математическое ожидание времени перехода на каждом этапе (*'=0, ..., N—3); t(a°->AN-2) — математическое ожидание времени перехода объекта из а° в AN~2 при использо- использовании на этапах 1, ..., (N—2) решений ср^, ... , Ф^!2; t (AN~2 -* eft)— математическое ожидание времени перехода объекта из AN~2 в состояние avN~l при использовании решения Ф*^-1» ^(^v^*-^^^)—математическое ожидание времени пере- перехода объекта из состояния avN"i в AN при использовании решения q>kN. Значение t(a°-^AN~2) определяем следующим образом: AN~*) = t{a° -+А1) + t(A1 ->A2) + .. . + * (A N~* -> Л")= 182
S 3 Vi=l /=1 + 3 3 3 p^/*. ^ ^ (^' ^ **• ^ I ^ + • • • V2=l Vi=l /=1 mJV-2 mN-3 nN~2 ¦¦¦+ S S S рГ2С(<> ), E) где SP (alxt | ф^, ... , ф^) — вероятность нахождения управляемого объекта О после /-го этапа в состоянии а^1 ^А1, если на 1, 2, ..., /-м этапах использованы решения ф?х, ... , у{1. Для нахождения вероятностей ^(tfv/1 ф?, ... , ф^) нужно воспользоваться задан- заданными распределениями вероятностей {g^ (а^1 \ ф| )}v Li. Тогда S S можно записать следующие рекуррентные равенства: -1 V=l Легко Еидеть, что в каждом слагаемом в E) на 1-й этапе (I = 1, ... , N — 2) от состояния at/ зависит только й4/ (^v/li IФ*/)» mi удовлетворяющее условию ^ |gv/(^/-х I Фа/) = 1- Следовательно, полагая Ov0= ao,^(avo I O^l» получим iV-2 mq~l nq q=l v^^i /=i Для значений t(AN~2->a^~J) и t(ch~x-+AN) имеем f=l l= 3 3^ 183
так как mN nN vat=i Окончательно имеем \ $ {< a" "a1 a ^ ю * K-x 1Л а ^i,) + s pf/й (О. F) Ha /-M этапе Ti{q\XJ ... 9 <p?~* ф^а^, ф'о1 , ... , Ф^о) — мате- матическое ожидание времени перехода объекта из а0 в AN при использовании на первых (/—1) этапах решений ф^, ... , (ft1 , на /-м этапе решения фА*, а на последующих этапах от (/+1) до N оптимальных стратегий при условии показания о*1. Тогда где l~2 mq-l nq a 2 184
mi nUl 2 2/ m/ + S 2 S S 2-2 V/=l /= В целом /-2 W<7-1 nq S S S ^Ю /1 1 /г/ П S Для первого этапа рекуррентные уравнения имеют вид ' "> Л1) + з л1* (fl0) 7 7 7 l Стратегия фо = {Фо\ Oj, ... , Ф,^} = {{ф1, (а0)}, {фь2„ (<)}^=1> ... А1 А2 ... , {ф^г^-!)}^=1}, ^которая на этапах /= 1, 2, ... , N со- 185
стоит из оптимальных по критерию Байеса стратегий Ф*о = = {ф o((hit^)}vill=ij называется оптимальной по критерию Байеса стратегией для динамического процесса принятия реше- решений при ограничении на время. Наличие абсолютно достоверного источника /?L информации по управляемому объекту О позволяет выделить решения ф° = = {фо\ Фо2, .-., Фо*} из оптимальной по критерию Байеса страте- стратегии Ф°. Это решение ф°= {фо\ ф02, ..., фо*} является оптимальным по критерию Байеса для динамического процесса принятия ре- решения при ограничении времени в условиях неопределенности при абсолютно достоверном источнике информации по управляе- управляемому объекту и находится следующим образом. Положим ф2 = ф\) (а0). Объект управления О при решении ф? переходит в одно из состояний множества Л1, после этого источ- источник информации У?д указывает состояние а^1У в которое перешел объект. Решение фо е Ф20 определяем в виде фо = ф20 (а^). Про- Продолжая далее процесс нахождения ф° е Ф°, положим что найдены решения ф?, ф^, ... , ф?. После 1-го этапа объект управления перей- перейдет в одно из состояний множества А1У а источник информации /?д укажет состояние a^v в которое перешел объект О. Решение /+1 i+i / i \ определяется в виде ф0 = ф 0 (#v/). До сих пор рассматривался динамический Af-шаговый про- процесс принятия решений в условиях неопределенности при огра- ограничении на время, причем ограничение задается в виде равен- равенства. Кроме этого, возможно задавать ограничения в виде нера- неравенства. Методика решения задачи в этом случае сохраняется прежней, а рекуррентные уравнения A) и C) имеют вид fN (ф^ , о^) = min Пм pfffkN {a?'1)* У} kl+i kN mi i,a\)g\{a[-\^) . Рекуррентные уравнения для значений математического ожида- ожидания времени перехода на 1-м этапе A= 1, ..., N) останутся преж- прежними. 186
Существенным недостатком предлагаемого метода является то, что при его использовании на 1-м этапе (/=1, ..., N) прихо- приходится делать большой перебор по всем возможным комбинациям решений ф^, ... , ф*/ в определении значения математического ожидания времени перехода. 3. РЕКУРРЕНТНЫЕ УРАВНЕНИЯ В ОТСУТСТВИЕ ИСТОЧНИКА ИНФОРМАЦИИ Предположим, что источник информации по управляемому объекту О отсутствует. Тогда при выборе решения на 1-м этапе (/=1, 2, ..., N) становится неизвестным состояние объекта avl~\ на предыдущем (/—1)-м этапе. Поэтому неприемлемы для ис- использования введенные в предыдущих разделах оптимальные стратегии и оптимальные решения при получении показаний от абсолютно достоверного источника информации. При решении задачи используем критерий Байеса и рекуррентные уравнения для математического ожидания байесова значения оценочного функционала, приведенные в [21, 23]. Пусть задано некоторое решение Ф = (ф^, . . , щ, ф(^г, ... <p Тогда математическое ожидание байесова значения оценочного функционала на этапах 1,2,...,/ равно S M Пусть //(<$,..., ф| ) —суммарное математическое ожидание байе- байесова значения оценочного функционала на решении ф^ е Ф* при использовании решений ф^, ... , ф^1 на 1, 2, ...,(/— 1)-м эта- этапах и оптимальных решений на (/ -f 1)-м, ... , Af-м этапах, равное M<pL • • • . 4>ki) = f/+i(<P*i. • • • , Ф*/э ф'о1) + Ri nl где В1 (ф^ | а!^1) = 2 PitiH i^1) — байесово значение оценочного функционала; ^(ф^, ... , q>kN) — математическое ожидание байе- байесова значения оценочного функционала на множестве решений 187
е Ф^ при использовании In (<pL ... & Решение фо=(ф1о, ... , ф^о) называется оптимальным по kx kN критерию Байеса решением (в случае отсутствия источника ин- информации по объекту) и может быть найдено, начиная с послед- последнего, N-го этапа и кончая 1-м этапом, следующим образом. Для N-го этапа оптимальная стратегия решений q>N0 (ф^, .. • Фо' для всех возможных [комбинаций решений х)^ {Ф1» • • • » Ф^1} находится из условия , фЛдГ-i» ^^ min 2 ^ v-i (8) Для любого Z-го этапа (/= Л^— 1, ... , 1) оптимальная стра- стратегия ф*0 (ф^, ... , ФлТ^) Для всех возможных комбинаций реше- решений (ф^, ... , ф^) е{Фх, ... , Фм} находится из условия min "I \ , . . . ф^" ) I , ~x J (9) где ГагСф^, ..., 4kN) — математическое ожиданиз времени пере- перехода объекта из начального состояния в одно из конечных состоя- состояний при [использовании решений фД, ... ^ Д ьо1, ..., Ф^о) —математическое ожидание времени пере- 1+1 N хода объекта из а0 в AN при использовании на этапак 1, 2, ..., / 188
решений ф^, ..., щ, а на последующих этапах (/ + 1),..., N оптимальных решений ф. "J1, ..., Ф^о. 1+1 N На первом этапе оптимальная по критерию Байеса стратегия состоит из одного решения ф*0. Поэтому оптимальное по крите- рию Байеса решение ф° = (ф?, ..., ф^) будет находиться в форме <pj = ф*о, ф2 = ф*о (ф*о), .. •, ф" = %о (ф*о, • • > Ф^о )• 1 2 1 N 1 N-1 Теперь можно приступить к выводу рекуррентных уравнений для значений математического ожидания времени перехода объ- объекта из а0 в одно из состояний множества AN, т. е. = t(a° -> А1) + /(Л1 -> Л2) + ... +t(AN->AN)f где t(a°-+AN) —математическое ожидание времени перехода объекта из а0 в AN при использовании решений <р?1Э ..., ф^/, ()—математическое ожидание времени перехода объ- объекта из А* в Ai+i при i = 0, ..., iV—1. Учитывая предыдущие рассуждения, имеем = S рРк и + 2 v=i /=1 mN-i nN + 2 S Л v=i /=i iV mq-lnq S S S Для (Л^—1)-го этапа найдем ^ ^Д ^ *1 -+ AN), где t(AN-i-+-AN) —математическое ожидание времени перехода из Л*-1 в AN при использовании оптимального решения ф^0. N Тогда получим 189
k = 2 2 3 <7=1 v=l /—l mN-\nN + S S P/U. еЛ 3» (ov^ V=l /=1 Ha /-M этапе имеем |ф*„, Ф^ /+1 После этого можно переходить к определению оптимальных ре- решений ф°= (фо\ ..., фо*), как было указано выше. Так же как и в случае абсолютно достоверного источника ин- информации о состоянии объекта, рассмотрим задачу динамиче- динамического процесса принятия решения в случае отсутствия источника информации при ограничении на время, заданном в виде нера- неравенства. Рекуррентные уравнения имеют вид такой же, как и в случае абсолютно достоверного источника, а оптимальные стратегии находятся из условий (/ = N—1, ..., 2, 1) ЫФ*\> ...,<$)= min S V<9U, i^) x min v=i -1 190
ГЛАВА ДВЕНАДЦАТАЯ ДИНАМИЧЕСКИЕ ПРОЦЕССЫ ПРИНЯТИЯ РЕШЕНИЙ С НЕАДДИТИВНЫМИ ФУНКЦИОНАЛАМИ Рассматривается обобщение модели динамического процесса принятия решений в условиях неопределенности на случай за- задания значений глобального оценочного функционала как неад- неаддитивной функции значений нескольких частных оценочных функ- функционалов. Поскольку применение метода динамического про- программирования Беллмана [1] для нахождения оптимальной стратегии решений становится невозможным, предлагается но- новый подход к выводу рекуррентных уравнений при нахождении оптимальной стратегии решений. Тогда оптимальное решение определяется по оптимальной стратегии на основе использова- использования показаний источника информации. Сущность предлагаемого подхода основана на использовании формулировки принципа оптимальности применительно к неад- неаддитивному критерию [23]. I. ОБ ОПТИМАЛЬНОЙ СТРАТЕГИИ РЕШЕНИЙ Рассмотрим Af-шаговый процесс функционирования объекта управления и органа управления в некоторой среде. Будем пред- предполагать, что на каждом этапе / A^/^Af), кроме ранее введен- введенных параметров, заданы значения частных оценочных функцио- функционалов Fily ..., Fs в форме матриц ^={!1>М~%^-\,.<., S; v-1 т^). Для органа управления целью многошагового процесса при- принятия решений является перевод управляемого объекта из за- заданного начального состояния а0 в состояние из множества Ак посредством выбора последовательности решений <р\ ..., ф*(ф'<= еФ1 при /=1, ..., N) на основе исходных данных и показаний источников информации /° и Iе в соответствии с критерием при- принятия решений, определяемым в соответствии со значениями гло- глобального оценочного функционала ^. При этом значения гло- глобального оценочного функционала #~ для решений <р' еф1 A^ ^l^N) задаются в форме неаддитивной функции от суммар- суммарных математических ожиданий (за все N этапов) значений (всех S) частных оценочных функционалов (для всех возможных слу- случайных реализаций состояний объекта и среды, а также показа- показаний источников информации ]° и /с) в виде 191
где Л = {Л1, ...,Л"}, 6= {©',...,6"}, Вещественная функция ^(уь ..., t/s) переменных уи ..., ys предполагается заданной, ограниченной и нелинейной, т. е. не существует вещественных чисел а0, аи ..., as таких, что s Предположим, что источник информации Iе отсутствует, а источник информации 1°—абсолютно достоверный, т. е. после исполнения объектом решения qfe<Dz на 1-м этапе определяется точно состояние al^A\ в которое перешел управляемый объект (/=1, ..., N). Кроме того, пусть глобальный оценочный функ- функционал задан в положительном ингредиенте (т. е. в форме по- полезности, выигрыша, дохода и т. п.). Множество решений Ф^ = {ф^0 (^~1)}v=1 называется опти- оптимальной стратегией решений на N-u этапе, если выполнено ус- условие max Тм[^\а^гг\, где PNtoSl^^PiBUlv!!, cfi-1], ..., BglvF, a?-1]}, a В? [q>k9 а%~г] — байесово значение s-ro оценочного f функционала вида A <s<*S) nN Множество решений Ф^ = {(pfo (о^~2)}^ называется оп- оптимальной стратегией на (ЛГ—1)-м этапе, если выполнено ус- условие 1= max 2TN-iWk \cCi 1, k где является математическим ожиданием (по всем возможным реа- реализациям состояний ajjj^e^^'1) суммарного байесова значе- 192
ния 5-го оценочного функционала (l^Ts^S) за (N—1)-й и N-й этапы при использовании на (N—1)-м этапе решения ф^ (в случае нахождения объекта в состоянии avN~2 после (N—2)-го этапа) и на N-м этапе оптимальной стратегии {ф^0 (flv#l1)}vj?!i«i- N При этом N N есть суммарное байесово значение 5-го оценочного функционала A^5^:5) за (N— 1)-й и N-й этапы при использовании на (N—1)-м этапе решения ф^ (в случае нахождения объекта в состоянии avN~z после (N—2) -го этапа) и решения ф$ (Д?^) из N оптимальной стратегии на Af-м этапе при условии попадания объекта в состояние а^г после (N—1)-го этапа, а величина равна байесовому значению 5-го оценочного функционала A^ ^5^5) за (N—1)-й этап при использовании на этапе (N—1) решения ф^"" в случае нахождения объекта в состоянии avN-2 после (N—2)-го этапа. Используя заданное распределение условных вероятностей имеют следующий вид при 5=1, ..., S: Bs [ф/е , «v ] = Bs \Щ , «v ] + Аналогично изложенному выше множество решений ф^ = {ф^о^)}^1 называется оптимальной стратегией на 1-м этапе (Af—1^/^2), если выполнено условие ^"/[ф^о|а^1] =s = max ^/[ф^а^1], где М 1, at], ..., 7 Р. И. Трухаев 193
является математическим ожиданием (по всем возможным реа- реализациям состояний я?/ ^ А1, ..., #0^ ^ Ам~г) суммарного байесова значения s-ro оценочного функционала (l^s^S) за /-й, (/+1)-й, ..., N-й этапы при использовании на /-м этапе ре- решения <рА* (в случае нахождения объекта в состоянии а*1-1 после (/—1)-го этапа) и на (/-р1)-м, ..., N-u этапах оптимальных стратегий } (Ф («J есть суммарное байесово значение 5-го оценочного функционала (l^s^S) за /-й, (/+1)-й, ..., N-й этапы при использовании на /-м этапе решения срк* (в случае нахождения объекта в состоянии av1-1 после (/—1)-го этапа) и на (/+1)-м, ..., N-м этапах реше- решений ф^о1 («v/), • •., ф^о (uv^li) из оптимальных стратегий на этих /+1 N этапах при условии попадания объекта в состояния д* в. #> а^ после /-го, ..., (N— 1)-го этапов соответственно. Заметим, что nl представляет собой байесово значение s-ro оценочного функцио- функционала (l^ss^S) за 1-й этап при использовании на этом этапе решения (pftz в случае нахождения объекта в состоянии av1-1 по- после (/—1)-го этапа. Наконец, решение ср^о (^°) (для первого этапа оптимальная стратегия Фо1 состоит из единственного решения или множества эквивалентных решений) называется оптимальным на 1-м эта- этапе, если выполнено условие ^"i [ф^о | Д°] = maxi^ [ф^|а0]; при 1 ^ этом дгг [ф{ [ сР] = Т {В? [Ф1 аО] Bs fob а0]}; где ВТ [ч>1, fl°I = ам а Bl [ФЛ\ а° | фА2в«), ..., Ф^ (<^)] яв- ,,) ляется математическим ожиданием (по всем возможным реализа- реализациям состояний ^ei1, ..., а^! е Л^") суммарного^байесова 194
значения 5-го оценочного функционала (l^s^S) за все N эта- этапов при использовании на первом этапе решения фА* и на после- последующих втором, третьем, ..., N-м этапах оптимальных стра- стратегий N в: [<р|, о» i ф^ « . $ i *есть суммарное байесово значение s-ro оценочного функционала (l^s^S) за все N этапов при использовании на 1-м этапе ре- решения фь1 и на последующих втором, третьем, ..., N-м этапах решений ф^о (tfv0), • • •» Ф/^о (QvnIJ из оптимальных стратегий на 2 N этих этапах (при условии попадания объекта в состояния -а^, ..., Ял^х после первого, второго, ..., (N—1)-го этапов со- ответственно); при этом ВЛф*1, Л°] = 2 р}?ф(а°) представляет собой байесово значение s-ro оценочного функционала '^S) на первом этапе при использовании решения Стратегия Ф°= {Фо\ ..., Фо*}, которая на этапах /== 1, ..., N состоит из оптимальных стратегий Фо^ \Фьо (avt_i)}vtli=u назы- вается оптимальной стратегией для Л^-шагового процесса приня- принятия решений в условиях неопределенности при неаддитивном критерии. 2. ПРИНЦИП ОПТИМАЛЬНОСТИ Из выражений для В$[щ, а^г\ ф^1 (#v/)> •••> ф^о (^vJ^i)] ПРИ 1+1 N /= (N—1), ..., 1 следует, что (для любого s= 1, ..., 5) выполня- выполняется равенство -(Bllyla^+Bl* Отсюда получим 195 7*
/+1 1+2 N поэтому Л1 a1 <=Al \BS [фЛ, Ov Х] + Следовательно, условие для нахождения оптимальной стратегии на /-м этапе (iV—1>/>1) можно ? {ф^ ( представить в следующем виде: где при s= 1, ..., 5 имеем {щ > Bl [ф{, 4-1] + S 5Г?+1 [Ф^ I^Jei^oJ-1, ФМ . ' v/=i +1 J Таким образом, получили следующий принцип оптимально- оптимальности: оптимальная стратегия решений ф[ = {ф^0 (Ov)}^1 на '"м этапе (при условии попадания объекта после (/—1)-го этапа в состояние aJ-^A1-1) зависит только от состояния а^*1 и опти- оптимальных стратегий решений на последующих (Z+1)-m, ..., N-м этапах. Формулировка принципа оптимальности дана для случая аб- абсолютно достоверного источника информации по объекту. Для общего случая, когда J0 не являются абсолютно достоверными, следует в принципе оптимальности заменять «от состояния» на «от показания /°», причем рекуррентные уравнения для нахож- нахождения оптимальной стратегии определяются с учетом соответ- соответствующих изменений за счет неаддитивности глобального кри- критерия. 196
Использование принципа оптимальности приводит к следую- следующей системе рекуррентных уравнений для нахождения опти- оптимальных стратегий решений. На N-м этапе оптимальная стратегия Ф^ = {cp^> (я^1)}^1 при v= 1,..., m^-i находится из условия %о | <?-% . . . , Р% [ф? N N = max Э k *' i N—i nN N N—l / i o\ I ^v J == *^s [фй » ^v J E === 1 j • . . , o). После нахождения на этапах N, ..., (/+1) оптимальных стратегий Фо = {ф^о (^v )}V:=i » * • *' Фо == {ф^° (flv'/v=i N • /+1 оптимальная стратегия Фо = {ф^о (^v)}!^1 для /-го этапа (N—1^/^1) находится из условия (v=l, ..., т^) = max л ф!) (s = После нахождения оптимальных стратегий на всех этапах от Af-го до 1-го на основе использования показаний а^0 ^Л1 абсолютно достоверного источника информации /° по объекту определяется оптимальное решение ф°={фо\ ..., Ф<Л} в сле- следующем виде: __2 Фо= Фо = ф^ Kj. ). 197
Пример. Рассмотрим двухшаговый процесс принятия ре- решений, для которого исходная информация задана следующим образом: "-{Т'7-Т}' '-{т-1}- значения двух частных критериев F и Т, выражающих полез- полезность и время перехода, заданы в виде f%(al) Ф? ф22 q>l el ф! Ф2 «Й Si el el t)k (a?) el el el l l о ф*1 2 1 0 el el t% (al) el el l о 2 1 Ф? vl l 2 3 2 0 2 3 1 el el el 0 1 2 2 2 1 3 1 1 0 1 3 В} [ц>1, al] = 1/3, Глобальный критерий &~(уи у2) задан в виде @~(ylt уг)- где у и уг — значения частных критериев F и Т. Для N=2, используя исходные данные, получим Bf [фх, са] = 2/3, Bf [ф2, &\\ = 4/3, В? [Фз, al] = 4/3, В^ foj, al] = 1/3, В? [Ф?, al] = 7/3, В? [ф1, al] = 6/3, В? [ф«, а\] = 6/3, t 1ф2> ^2J == О/О, Щ [фз, fltlJ = b/O, t>t 1фз, <^2j :==: ' /«Л поэтому оптимальная стратегия ф„2={<р 0 '^! находится из условия шах max — , —, — l'i>:7*]при ai= 198
в следующем виде Для N=1, используя исходные данные, получим " В/ЕфЛ а°]=3/4, ВЛфЛ а°]-2/4, поэтому /[ф „ . _ Вг1[ср2\ а0] =4/4, поэтому оптимальная стратегия Фо1== = {ф о (а0)} находится из условия = max = max \ V—X у ri I i 1.1 i i. 11 1 1 4 + 3 ' 3 + 3 ' 3 4 + 3 ' 3 + 3 ' 3 ll. i I JLl'l A 1 А 1 I-43'ЗЗ'З 4 + 3 ' 3 + 3 * 3 = max 93 751 _ 93 78 ' 96J ~" 78 в виде ф 0 = ф11. При этом математические ожидания значений частных критериев (полезности и времени перехода из а0 в А2) для найденных стратегий решений равны соответственно 93/36 и 78/36. Можно показать, что полученная оптимальная страте- стратегия ф^0, {«pjotflv)}^ доставляет глобальный максимум значению 1 2 глобального критерия за N=2 этапов, т. е. ( 2 В} [^ <аР), а°] + ^ В} [ф? «), oj] ^(ао, Ф^ (а»)) 3го = max ф (а) V—1,2 В} Ф*. V=l Таким образом, на основе принципа оптимальности сформу- сформулирован метод нахождения оптимальных стратегий в многоша- многошаговых процессах принятия решений для неаддитивного глобаль- глобального критерия, который, однако, не всегда будет доставлять глобальный максимум значению глобального критерия в, 199
по всем возможным стратегиям решений {ф^ («v^lv/^i-i. Предложенный метод построения оптимальных стратегий су- существенно сокращает перебор всех вариантов по всем возмож- возможным стратегиям решений для нахождения глобального крите- / n \ рия, равный яо= I П ntifTii-i I , а общий перебор для нахожде- нахождения оптимальной стратегии решений по сформулированному ме- тоду равен я=1 2 ЩЩ-i К причем принято то=1. Для рассмо- рассмотренного примера яо=12, я=8, т. е. перебор вариантов сокра- сократился в яо/я= 12/8= 1,5 раза; для ЛГ=3, mi = mz=:ms=\0 отно- отношение яо/я= 1О5/210=476.
ЧАСТЬ ТРЕТЬЯ МАРКОВСКИЕ МОДЕЛИ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ ГЛАВА ТРИНАДЦАТАЯ МАРКОВСКИЕ ПРОЦЕССЫ ПРИНЯТИЯ РЕШЕНИЙ БЕЗ ПЕРЕОЦЕНКИ В работе Ховарда [29] приведен алгоритм отыскания опти- оптимальной стратегии для бесконечного марковского процесса при- принятия решений. Рассмотрены два типа процессов: без переоцен- переоценки (в этом случае минимизируется среднее значение потерь за один шаг) и с переоценкой (минимизируется математическое ожидание потерь за весь процесс). Ниже будут изучены марковские процессы принятия реше- решений без переоценки и предложены алгоритмы поиска стратегии, минимизирующей суммарные потери для процесса с поглощаю- поглощающим состоянием, и стратегии, минимизирующие средние потери для некоторых частных типов процессов с бесконечным мате- математическим ожиданием потерь. В обоих алгоритмах исследова- исследована связь конечных и бесконечных процессов. 1. ПРОЦЕССЫ ПРИНЯТИЯ РЕШЕНИЙ С ПОГЛОЩАЮЩИМ СОСТОЯНИЕМ Рассмотрим систему, которая наблюдается в моменты вре- времени ?=0, 1, 2, ... ив каждый момент времени может нахо- находиться в одном из возможных состояний. Множество допусти- допустимых состояний обозначим через А\ предположим, что А конечно, т. е. Л={0, 1, ..., т}. Если в некоторый момент времени си- система находится в состоянии i, то может быть принято одно из Ф^Ф возможных решений, причем множество Ф конечно. При- Принятие решения <р влечет за собой значение оценочного функцио- функционала Д(ф) и переход в какое-либо состояние из множества Л, причем вероятность перехода в состояние / равна ру(<р). Под- Подчеркнем, что как значения оценочного функционала, так и пере- переходные вероятности являются функциями только последнего со- состояния и соответствующего принятого решения. Стационарной стратегией R называется правило, предписы- предписывающее в состоянии i принимать решение R(i). В [29] показа- показано, что для описанного класса систем оптимальной является именно стационарная стратегия. Задача состоит в том, чтобы минимизировать суммарное ма- математическое ожидание расходов (если оно конечно) или мате- 201
матическое ожидание расходов за один шаг (в противном слу- случае). Пусть процесс принятия решений заканчивается после попа- попадания системы в некоторое фиксированное состояние. Для удоб- удобства будем в дальнейшем считать, что это — состояние с номе- номером 0. Очевидно, такой процесс можно считать бесконечным, если положить роо(|ф) = 1, fo(<p)=O при всех ср. Предположим также, что при любом выборе решения из любого состояния можно попасть в 0 с вероятностью не меньшей некоторого у, т. е. /?<0(ф) ^7>0>пРи всех Ф- Лемма 13.1. Для любой стратегии R и любого начального состояния i математическое ожидание суммарных расходов Vi(R) конечно. Доказательство. Очевидно, Vi(R) есть сумма математиче- математических ожиданий расходов за каждый шаг. Между тем плата за /г-й шаг не превышает /=тах/*(ф), а математическое ожида- ние этой платы не больше, чем A—y)"/* поскольку вероят- вероятность не оказаться в нулевом состоянии после (п—1)-го шага не больше, чем A—у)п~\ Отсюда. что и требовалось доказать. Легко убедиться, что Vi(R) удовлетворяют следующей систе- системе уравнений: т V?(R) = 2 Pu{R№)Vt(R) + ft(R{i)\ i=h .-.,m. A) Лемма 13.2. Преобразование ^(V), определенное форму- формулой является сжимающим для любой стратегии R. Доказательство. Фиксируем два вектора V1 и V2. Тогда max |V}-V7|fs pv(R@)U(l-Y)max \V}-Vf\, т. е. преобразование F является сжимающим с коэффициентом A—y)f что и требовалось доказать. Поскольку сжимающее преобразование имеет единственную неподвижную точку, система уравнений A) при любой страте- 202
гии R невырожденная и имеет единственное решение. Таким об- образом, система уравнений A) дает возможность для любой стратегии R найти математическое ожидание потерь Vi(R). Рассмотрим теперь преобразование @~(V) вида Т (V), = min Г 2 Ра (Ф) V, + ft (ФI • B) В следующих двух леммах докажем, что преобразование У имеет единственную неподвижную точку и что эта неподвижная точка есть вектор V(/?o), где Ro — оптимальная стратегия, при- причем для любой другой стратегии R и всех состояний i выполне- выполнены неравенства Vi(R)^Vi(\R0). Лемма 13.3. Преобразование SF — сжимающее. Доказательство. Фиксируем произвольные векторы V1 и V2. Пусть для определенности ^(V1) >^~(V2). Тогда т зг (V4,- т (V\ = 2 Ра, (ф1) v) + h (П- т. е. преобразование &" — сжимающее с коэффициентом A—у). Из леммы 13.3. следует, что, во-первых, преобразование име- имеет единственную неподвижную точку, во-вторых, эта точка мо- может быть найдена с помощью метода последовательных прибли- приближений. Очевидно, для неподвижной точки выполнены уравнения [т ~Л т 2 рч (ф) vi + Ш = S рч to) Vi + и ы = У и J '=' (з, откуда Vi= Vi (Ro), где Ro (i) =срг-. Лемма 13.4. Стратегия Ro оптимальна. Доказательство. По определению Ro при всех / V, (Я0) = min Г^ Рч (Ф) V, (Я,) + ft (ФI = /И Фиксируем произвольную стратегию R; пусть Vi(R) удовлетво- удовлетворяют системе уравнений A), которую можно решить с помощью последовательных приближений. Возьмем в качестве начально- 203
го приближения V° = V(^?0). Тогда VI = 2 Рц (R @) Vf (Ro) + U (R @) ? + А (Я @) - ^ и т. д. Следовательно, У/+1^У/. Итак: Vi(/?)= lim + = Уг (^о), что и требовалось доказать. Тем самым получен алгоритм поиска оптимальной страте- стратегии. Повторим коротко его суть. Алгоритм. Фиксируем произвольный вектор V°= {УД ... ..., Vm0}. Находим стратегию Ri и вектор V1 из соотношений т Г т  VI = 2 Л/ № «) W + f* («i @) = min 2 Л/ (Ф) VJ + ft (Ф) . L J Г т = min 2 Если получены стратегия Rn и вектор Vn, то Rn+i и Vn+1 получа- получаются из соотношений т =з рц (Л*1 @) v]+/, (я„+1 @) = * L/=i J При этом из леммы 13.3 следует, что max|Ff — ^/(#оI^ i Если теперь в качестве первого приближения V0 взять V(R*) для некоторого /?*, то для любого п^\ и любого i верны неравенства Vin+i^Vin'^Vi(Rn+i)'^Vi(Ro), откуда max|V? — \ max | Vt (Rn) — Последнее неравенство дает возможность для любой вели- величины е>0 найти такое количество итераций п, что 204
Стратегия Rnj для которой выполнено неравенство D), назы- называется е-оптимальной. Заметим теперь, что все предыдущие рассуждения сохраня- сохраняют силу, если условие ч>0 заменить следующим: пусть суще- существует г такое, что для любого состояния i вероятность попада- попадания в нулевое состояние за г шагов не меньше некоторого по- положительного числа у для любой стационарной стратегии. Оче- Очевидно, в такой ситуации преобразование ^F(V) не обязано быть сжимающим, но вектор V(/?o) по-прежнему является неподвиж- неподвижной точкой, и, следовательно, неподвижной точкой преобразова- преобразования @~к(\) при любом натуральном к. Лемма 13.5. Для любого вектора V, такого, что V,-^ Vj(/?0) при всех /, верно неравенство: |() i i Доказательство. В силу определения ^(V) имеем & (V), - Vt (Ro) = Я" (V), - Т (V (Ro)) = [т  т У, Ра Ы Vt + U M - У /i J /=i m m < S Pa (Ro @) Уi - 2 Pa (Ro @) Уi (Ro) - ; _ Vi (Ro) < 2 p,/ (l?o @) (^ (V)y - Vj (Ro)) где p?/ (Ro) —элементы матрицы \\pij(R0) II2. Продолжая этот процесс, получаем /=о где pVi (Ro) — элементы матрицы ||р*,(#о) 11Г, откуда в силу предположения, сделанного выше, ^г (V), - Vi (Ro) < A - Y) m/x (Vt - что и требовалось доказать. 205
Из леммы 13.5 и очевидного неравенства max | Т (V1) — Т (V2), | < max | V} — Vf | следует, что для поиска оптимальной стратегии может быть использован тот же алгоритм, что и при выполнении условия B). Полученные результаты могут быть сформулированы в виде теоремы. Теорема 13.1. Пусть при любой стационарной стратегии процесс представляет собой марковскую цепь с единственным поглощающим состоянием, в которое из любого другого можно попасть за конечное число шагов с вероятностью, не меньшей 7^0. Тогда оптимальный вектор V(R0) является неподвижной точкой преобразования ЗГ (V), = mi.n [5 Pt, (Ф) V, + ft (ФI причем решение уравнения V=^(V) и соответствующая стра- стратегия Ro могут быть найдены с помощью метода последователь- последовательных приближений. Пример. Рассмотрим iV-этапный процесс принятия реше- решений. Пусть на первом этапе система может находиться в со- состояниях с номерами от 1 до ти на втором этапе — от (mi+1) до т2, на последнем этапе возможно единственное состояние с номером М. На каждом шаге система переходит на следующий этап; процесс заканчивается, когда система попадает в М-е со- состояние. В каждом состоянии может быть принято одно из ко- конечного множества решений; выбор решения определяет пере- переходные вероятности и цену перехода. Задача состоит в отыска- отыскании стратегии, оптимизирующей суммарные расходы. Сведем, эту задачу к рассмотренной выше. Представим опи- описанный процесс как бесконечный стационарный с состояниями {1, ..., М} и соответствующими ценами и переходными веро- вероятностями. Очевидно, что из любого состояния не более чем за N шагов система неизбежно попадает в М-е состояние, т. е. r=M, a y=1. Из леммы 13,5 следует, что,начиная с любой стра- стратегии, не более чем за N итераций можно получить оптималь- оптимальную стратегию. В заключение рассмотрим связь между оптимальной и р-оп- тимальной стратегиями. Здесь р-оптимальной стратегией назы- называется оптимальная стратегия для процесса с теми же переход- переходными вероятностями и ценами, но с переоценкой при коэффи- коэффициенте р<1. Обозначим р-оптимальную стратегию через &<?, математические ожидания потерь при стратегии R через V(R, p). Справедлива следующая теорема. Теорема 13.2. Существует такое число Я, 1>А,>0, что при всех р, 1— КР<1, Яоэ=#о. Доказательство. Покажем сначала, что при любой фиксиро- 206
ванной стратегии R lim У,(Я,Р)=К,(Я), *=1, ,.., m. Легко видеть, что Vi(\R, р) удовлетворяют системе уравне- уравнений т Vt (R, р) = 2 ft/ ^ W) № + U (R №)¦ Предельное равенство следует из уравнений для Vi(R) и того, что решение невырожденной системы непрерывно зависит от коэффициентов. Итак, для любого е существует такое Я, что при р>1—X max|К,(Я)-К,(К, р)|<в. Пусть а= min тт[У*(Я)— ^(Яо)]. Возьмем Я таким, чтобы выполнялись неравенства при всех р>1— Я. Тогда получим, что тах|1^(Яо)—У<(Яор) откуда 7?о=Яор, что и требовалось доказать. 2. ПРОЦЕССЫ С ВЫДЕЛЕННЫМ СОСТОЯНИЕМ В этом параграфе рассмотрим такие процессы, в которых каждой стационарной стратегии соответствует неразложимая марковская цепь, причем нулевое состояние является в некотором смысле выделенным: или для любого состояния вероятность по- попасть в 0 достаточно велика, или мала вероятность выйти из О (точные условия на переходные вероятности будут сформулиро- сформулированы ниже). Покажем, что для поиска оптимальной стратегии может быть использован метод последовательных приближений, аналогичный описанному в предыдущем разделе. В [29] показано, что для элементов асимптотического пред- представления математического ожидания потерь за п шагов У/*= = Vi+ng верны уравнения 0(*> + g«) - 2 Pti (* @) tf > + /' (^ @). E) Задача состоит в поиске стратегии R, минимизирующей значение Уравнения E) позволяют определять Vi с точностью до кон- константы, поэтому сразу положим vo=O. Тогда первое уравнение 207
примет вид т (Л (О))- F) Пусть G= (vl9 ..., um, g). Определим преобразование Q(G) следующим образом: Q (G), = rain |j Pii (ф,) Vj + U (Ф,I, i = 0, ..., т. ф< L/«i J Предлагаемый способ решения состоит в следующем. Фиксируем произвольный вектор G±= (уД ..., vm\ gl), находим Q(G4), затем находим вектор G2 из соотношений затем находим Q (G2) и т. д. Условия, при которых g{ сходятся к минимальному значению g, даются в следующей лемме. Лемма 13.6. Пусть Рго(ф) ^Т>° Для всех *> Ф» 2 1 — у. Тогда преобразование Q(G)—сжимающее с коэффициентом A-Y). Доказательство. Фиксируем два вектора G1 = (t>J, . . ., v^, g1), G2 = (vl, ..., vl, g% Пусть Q {&) = &, ...,lxm, h, Q (G2) = * * * * # = @*, • • • > vm, g)> причем g2 >g>1. Тогда выполнено неравенство * * Гт 1 0< g2- g1 = min 7, Pol (Ф)о« + /0(ф) - ф Ui J К; Ро/(ф)я) + Мф) < /=i J */)<0 — V)maxIy/- -min ф *i *a Оценим теперь разность между v] и v\ при i 1. Пусть |2+^>|1 + и'. Тогда * * * * О ^ g2 — g1 + vf — v} ^ ^ pv (Ф) (о* _ о j) ^ A _ y) max |o»—o}|, откуда \v2c — vj | ^A — Y)max|o« —t»J|. 208
l + vt > g2 -f- и" Тогда и/ > и* 2. Пусть gl + vt > g2 -f- и". Тогда и/ > и*, следовательно, * * О <^ v) — v\ "in S Pu№vj + M«p) — — min \y> Pa (ф) oj Ц- ft (ф) + g2 — I1 = ф L/=i J = min К» /7(/ (ф) v) + ft (Ф) — min V /?</ (ф) oj + /»• (q>) + [ra -1 Гт "I У, Poj (ф)о? + /0(ф) —min 51 Ро/(ф)о•+/o(ф) /=i J ф L/=i J [m ^ ~ 1 S IPV—Л/| <A —Tjmaxl^ —u}|. /=i J ' Отсюда следует справедливость утверждения леммы: условие леммы выполнено, если 1) /^(фО^Ро^фо) для всех фг-, ф0; т - m 2) 2 Л/ (Фо) < Y. Ао (ф)> Y Для всех q>, ф0; 3) 2 Рц (ф)<>«< /=i /=i <1/2 при всех фг-. Пример 1. Пусть имеется система принятия решений с од- одним поглощающим состоянием и требуется выбрать стратегию,, минимизирующую число шагов до попадания в это состояние. Для того чтобы свести эту задачу к задаче, рассмотренной в разделе 1, введем вспомогательные цены следующим образом: /0(ф) =0, /г(ф) = 1 при ?>0 при всех <р. Очевидно, в таком случае Vi(R) равна математическому ожиданию числа шагов до попа- попадания в нулевое состояние при выходе из состояния i и приме- применении стратегии R. Задача состоит в минимизации Vi(R) и мо- может быть решена с помощью способа, изложенного в разделе 2. Пример 2. Пусть имеются два поглощающих состояния (нулевое и первое) и необходимо выбрать стратегию, максими- максимизирующую вероятность окончания процесса в нулевом состоя- состоянии. Положим /Дф) =Р«(ф). Это соответствует ситуации, когда переход в любое состояние, кроме первого, совершается бес-" платно, а переход в первое состояние стоит единицу. Тогда У/?^/?) где $Pu{R)—вероятность окончания процесса 209
в нежелательном состоянии при начале в j-м состоянии, откуда стратегия, минимизирующая Vi(R), минимизирует и ^u(R). Пример 3. Рассмотрим процесс без поглощающего состоя- состояния. В такой системе при любой фиксированной стратегии суще- существуют предельные вероятности #*0, &и ..., 9>т нахождения системы соответственно в нулевом, первом и т. д. состояниях. Пусть требуется максимизировать вероятность того, что система находится в нулевом состоянии. Положим /Дф) = 1—рг0(<р) для всех /, ср. Это значит, что за каждое попадание в ненулевое состояние взимается плата еди- единица, попадание в нулевое состояние происходит бесплатно. Очевидно, что математическое ожидание средних расходов рав- равно 1—5^0, и стратегия, обеспечивающая минимум g, дает мак- максимальное значение &0. 3. ПРОЦЕССЫ ПРИНЯТИЯ РЕШЕНИЙ С КОНЕЧНЫМ И БЕСКОНЕЧНЫМ ЧИСЛОМ ЭТАПОВ Рассмотрим систему принятия решений с конечным числом N этапов. Очевидно, в общем случае оптимальная стратегия не является стационарной, т. е. в одном и том же состоянии на различных этапах эта стратегия может предписывать разные решения. Оптимальная стратегия для такой системы определяется из известных рекуррентных уравнений V? = min [з ри (Ф) V? (Rn-J + ft (ф) 1 = (i)). V°t = 0, i = 1, .. ., m, где R(i) —решение, которое следует принять на (я)-м эт^пе в 1-й состоянии (отсчет номеров этапа ведется с конца). Очевидно, если решать уравнения G) последовательно для п=1, 2, ... и т. д., то решения суть не что иное, как стратегии, которые получаются в процессе поиска оптимальной политики для бесконечного процесса методом последовательных прибли- приближений. Ниже будут рассмотрены условия, при которых оптимальная для бесконечного процесса стратегия при достаточно болкыыих п приводит в применении к конечному процессу к результату, близкому к оптимальному. 1. Пусть имеется поглощающее состояние с номер ом 0, причем р,о(ф)^Т>О ПРИ всех * и Ф- Тогда при любой (стацио- (стационарной или нестационарной) стратегии R вероятность нез ока- оказаться в поглощающем состоянии через п шагов не превы.ииает A—f)n. Поэтому математическое ожидание потерь за п тагов 210
отличается от математического ожидания потерь за весь про- процесс при любом продолжении не более чем на max/f(cp). Рассмотрим теперь стратегию R\ состоящую в применении на первых п этапах оптимальной для /г-шагового процесса полити- политики Rn и оптимальной стационарной политики Ro на следующих этапах. Очевидно, Vt(R*) = Vi(Rn) +un, где 0^п^6п. Аналогично при применении оптимальной стационарной по- политики Vi(R0) = Vin(RQ)+v/n, где 0^ап'^8п. Отсюда следует неравенство Таким образом, для процесса с поглощающим состоянием при достаточно больших п оптимальная для бесконечного про- процесса стационарная стратегия применительно к п-шаговому про- процессу приводит к результату, ' близкому к оптимальному для n-шагового процесса. 2. Рассмотрим процесс без поглощающего состояния, такой, что /?гДф)^а>0 для всех t, /, ф. Очевидно, для него следует сравнивать не само математическое ожидание потерь при при- применении к п-шаговому процессу оптимальной для бесконечного процесса стратегии и оптимальной для этого процесса стратегии, а математические ожидания средних потерь за один шаг при применении этих двух политик. Введем следующие обозначения: V (R11) /? «/? (Я» @), Pi! = Pa (Rn Ш м>г = m?x g?, mn = min gnn x= 1—2a, Я= F—f Легко проверить, что tn fti+i /tii n+1 n+l ' Отсюда m = M,i{\ - a) n+l n+l n+l 211
rft+l rt+ 1 Л+ 1 Следовательно, An+1=Afn+i—mn+1^ A— 2а)Дп+ (Т7—/)/(n+l) = xAn + X/(n+l), причем Ап^с//г, где с=Я/A— х) +A^ Поэтому .g*n можно представить в виде gin=gn + vinln, причем vf^c при всех i и /г. Пусть теперь g0 и р<° соответствуют оптимальной стратегии для бесконечного процесса. Тогда ё п Откуда следует О ^0 [ ——) + g0 •Обозначив max через бя+1> получим 6ЛП^ б„. Следовательно, п+ 1 Тогда справедливо неравенство или \go—gn\^( ) Пусть теперь gon соответствует оптимальной стратегии для бесконечного процесса, примененной к тг-шаговой задаче. Тогда, как доказано в [29], limgon=go, причем \gon—go\^ (I—a)n. л-*оо Отсюда следует, что при некотором с справедливо \gon—gn\^ / Таким образом, оптимальная стационарная стратегия для бесконечного процесса дает при применении к n-шаговому про- процессу при больших п результат, близкий к оптимальному. Приведенные рассуждения обосновывают правомерность за- замены /г-шаговых систем при больших п бесконечными, исследо- исследовать которые значительно проще. 212
ГЛАВА ЧЕТЫРНАДЦАТАЯ МАРКОВСКИЕ ПРОЦЕССЫ ПРИНЯТИЯ РЕШЕНИИ С ПРОИЗВОЛЬНЫМ ИСТОЧНИКОМ ИНФОРМАЦИИ И НЕНУЛЕВОЙ СТОИМОСТЬЮ ИСЦЫТАНИЯ В этой главе будет рассмотрен динамический процесс приня- принятия решений в условиях неопределенности, возникающей из-за неполного знания состояния этого процесса. Сам процесс явля- является марковским, с конечным числом состояний и дискретным временем (шаговый). Решение состоит в выборе матрицы пере- переходных вероятностей из конечного набора таких матриц или в обращении к источнику информации о состоянии процесса и при- принимается на каждом шаге. Источник генерирует независимые случайные величины, распределение которых связано с истинным состоянием процесса. Каждой паре состояний поставлена в соответствие плата за переход из первого состояния во второе. За обращение к источ- источнику информации также взимается плата. Перед выбором мат- матрицы переходных вероятностей возможно многократное обра- обращение к источнику. Необходимо будет решить следующие задачи: а) вывести уравнения минимальных потерь для бесконечношагового процес- процесса при условии, что существует поглощающее состояние, дости- достижимое за один шаг; б) исследовать вопросы существования и единственности решения указанного уравнения; в) определить оценки сходимости последовательных приближений, или, други- другими словами, погрешности, возникающие при переходе к конечно- шаговому процессу. Рассматриваемый процесс представлен как синтез управляе- управляемого марковского процесса с последовательным анализом Валь- да, проводимого на каждом его шаге. 1. ПОСТАНОВКА ЗАДАЧИ Пусть заданы множество состояний {sh} однородной мар- марковской цепи (&=0, ..., т) и множество возможных решений Ф, содержащее конечное число элементов. Для каждого решения <р^Ф задана матрица Лф переходных вероятностей т А* = \рц (ф)]Г/=о. 2 Рч (Ф) = 1, Pti (ф) >0. /=0 Предположим при каждом среФ Лф такова, что соответствующая ей марковская цепь имеет одно поглощающее состояние, которое достижимо за один шаг из любого другого состояния. Иначе го- говоря, пусть s0 является поглощающим, тогда для УсреФ рОо(ф) = = 1, Poi(<p)=O (/=1, ...,m), Рг0(фH (l ) 213
Обозначим pi0 (ф) = \i > 0. ,/==1 m Матрица Ач имеет следующий вид:  0 ... 0 Д Известно, что существует (Е—А*)-1= ^ (^Ф)п для каждого . Введем потери за переходы из состояния sf в состояние si (*\ /=0, ..., т) при принятии любого решения ф^Ф. Для каждого ф*=Ф зададим матрицы [fa (ф)]?/=о, /у(ф)^0, где Мф) —потери при переходе из состояния st- в состояние s, при принятии решения феФ. Положим /0Дф)е==0 при /=0, ..., т и что до перехода имеется возможность произвести серию из п (п — любое) испытаний и получить независимые случайные ве- величины v4, v2, ..., vn, имеющие одинаковые распределения. Рас- Распределение v зависит от того, в каком состоянии Si находится система после перехода, следующим образом. Пусть каждое v= = 1, ..., 5, тогда задается набор условных вероятностей значе- значений v при условии, что процесс находится в состоянии sk: s Матрица G = [g^]v=i s определяет источник информации о со- foo,...,m стояниях процесса. Испытание источника состоит в получении значения (показания) случайной величины v. Предположим также, что плата за показание v = / равна <У>0, /=1, ..., S. Получаем источник информации с ненулевой стоимостью испытания. Пусть процесс начинается из состояния sk (k=l, ..., т) и может продолжаться неограниченное число шагов (переходов). Выберем какую-нибудь стратегию {ф} = {фь фг, ..., ф/, ...}, где ($i является решением, принимаемым на 1-м шаге, и ф*еФ, если совершается переход, ф* = ф, если совершается испытание источ- источника. Тогда с вероятностью 1 за бесконечное число переходов будет достигнуто поглощающее состояние s0 (это утверждение доказывается ниже). Математическое ожидание потерь за весь процесс при стратегии {ф} = {ф1, ф2, ..., ф3, ...}, ф^Ф, ог- ограниченно. Поставим задачу нахождения стратегии {ф}опт, при которой математическое ожидание потерь за весь процесс минимально. Введем вектор распределения вероятностей состояний процесса 214
P=(po, Pi, ..., рт), где Pi — вероятность состояния su т 2 Рл=1. Обозначим через Q (т+1)-й симплекс, тогда рей. Будем говорить, что вектор р на данном шаге задает процесс в том смысле, что в нем содержится вся информация о ходе про- процесса от начала вплоть до этого шага. Тогда процесс можно опи- описать последовательностью преобразований вектора р при перехо- переходах с помощью матриц {Лф} pl+l=A*4>l рь (/=1, 2, ...), а при ис- испытании источника информации — посредством операторов апо- апостериорных распределений {Tv(p)} p/+i = Tv(Pi), где ] w (i = 0, .... m,v=l, .... S). Здесь v — случайная величина с распределением Обозначим через к вектор с компонентами {M?L0> где ^в fl i=k = j п . . В частности, р = 0 отождествляем с попаданием в поглощающее состояние. Ясно, что Лф*0=0 для любого решения <реФ. Математическое ожидание потерь за один переход при принятии решения среф равно где иф — вектор с компонентами т (IU = 0, (иф)| = ^ h (Ф) Л7 (Ф) (* = 1, ..., т). Математическое ожидание потерь при одном испытании ис- источника (ф=ф) равно /гя=0 v=l S где с=(с0, с„ ..., сте), ch= S ^gftv. Для преобразований р имеем 215
(фр при ф/=феФ, [ р —v Tv (p) при ф/ = ф и показаний v источника, 5 Пусть ^(р)—математическое ожидание потерь при опти- оптимальной стратегии для бесконечношагового процесса, начавше- начавшегося из состояния с вектором р, peQ. Тогда метод динамиче- динамического программирования Беллмана [1] приводит к уравнению I {(с, р) + М [F (Tv (р))]} при ф = $, F@) = 0, реп, М [F(Tv(p))] = 2 f (?v (P))S Первая строка в правой части A) представляет собой матема- математическое ожидание проигрыша при оптимальном продолжении через переход, вторая строка — при продолжении через испыта- испытание источника. Минимум достигается при некоторой стратегии ФОПТ(Р) » еСЛИ Р ^ йф, ф е Ф, , если peQj, где Йф, Q~ e Q, ( U Q») U Qs= Й- 2. СВОЙСТВА И РЕШЕНИЯ ОЦЕНОЧНОГО ФУНКЦИОНАЛА Рассмотрим в пространстве #m+1 единичный куб Q={p: 1, t=0, ..., m}, QciQ. Преобразования рф=Лф*р, pj- =s = Tv(p) переводят Q-^-Q, Q-+Q соответственно (феФ, v=l, ... ..., S), так что обе части уравнения A) оказываются определе- определены на Q. Докажем существование однородного решения, непре- непрерывного при р->0 (p^Q). Для этого рассмотрим процесс после- последовательных приближений. Для каждого ф^Ф положим К (Р) = (иФ> Р) + Fl (Л; р), F°v @) = 0. B) Решение уравнения B) существует, единственно и равно /у(р) = ((?—Л'ф)^, р), где Яф определена в разделе 1; иф — вектор mXl, (^Ф)г=(иФ)г, 1=1, • • ., w; p=(pi9 Рг, •.., р™). Определим рекуррентно приближения Р(р) 1=0, 1, ... 216
= min I l(c, p) + M [F'OMP))], i = 0, ..., oo, pe Q. C) Условие P'@)=0 автоматически выполнено, так как /Г0@)=0 и Лф*0=0 для любого ф<=Ф, Гу@)=0 для любого v=l, ..., 5. Непрерывность F*(p) i=0, 1, ... при peQ очевидна по индук- индукции. Если peQ и tp^Q, то F°(tp)=tF°(p), M[Fl(Tv(tp)], так как (Tv Ш Pi81 (Tv (p)),, i = 0 m. В силу предположения индукции F{(A^tp) =Р(/Лфр) = = ?Рг'(Лфр), поэтому из рекуррентного соотношения следует, что Р"(/р)=*Р+*(р). Итак, для каждого f=:0, 1, ... Р(р) является однородной функцией при p^Q. Поскольку (Pv), где (pv),=Pi^iv, t=0, ..., т, то, пользуясь однородностью, име- имеем (pve=Q) Тогда (p) = min Г(с, р) + 2 L v=i pv = (Роё*о>ft*?. •••• p«C)« v=1- •••• 5- PVe<3- Свойство вогнутости /^(р) следует по индукции из вогнутости 217
ipi) + ktFi(pl)9 если plt p2€=Q, % (p^pzQ). Докажем теперь монотонную сходимость последовательных приближений, т. е. что 0^F+1(p) ^Р(р) для i=0, 1, ..., Q Имеем min [(Up, р) + F° (Л; р)] = min [(иф, р) + min F^ (Al p)] - ф?ф е<2> ^Ф = min [(иф, р) + F^ (Л; рI < min [(ифо, р) + Fj, (К, р)] = Ф,Фо еФ Окончательно получим min[(U<p, p) ; ^ф При t=0 получаем из C) Я (р) <? min [(иф, р) + F° И; р)] < F0 (р) при р е= Q. ф^ф Далее по индукции заключаем, что ()() P Монотонность доказана. Так как последовательность значений {^г(р)} для фиксированного peQ монотонно не возрастает и неотрицательна, то существует ^(р), такое, что /7*(р)|^7(р)^О» F(p) для p<=Q является предельной функцией. Из неравенства 0^F(p)^.F°(p) следует, что limF(p)=0. Покажем, что F(p) является решением уравнения A). Из моно- монотонной сходимости следует, что F'+1(p)=min Uc, р) + Af [F* (Tv (p))Jt откуда при г-»-оо получаем (p)^ l(c,p) + Al[F(Tv(p))]. Однако заметим, что F (р) > min l() M[F(Tv(p))], и тогда при i->oo (тт[(иф) F (р) > min Феф l(c,p) + M[F(T 218
Отсюда следует, что ^(р) удовлетворяет уравнению A) и непре- непрерывна при р = 0. Свойство вогнутости имеет место также и для предельной функции. Для доказательства этого предположения достаточно перейти к пределу в неравенстве Fi(%ipi + fk2p2)^ ^XiF(p1)+>.2^1(p2) при i-+oo. Легко показать, что функция F(p), вогнутая при peQ, непрерывна при pe(Q\dQ), где dQ — граница Q, т. е. при р: {0^р*<1}, i=0, ..., т. Отсюда по тео- теореме Дини следует, что сходимость монотонно убывающей по- последовательности непрерывных функций F(p) к непрерывной функции ^(р) равномерна на любом компакте Qcz(Q\dQ), p^Q. Сужая область Q до Q, получим те же выводы для перво- первоначальной задачи, где р — вектор распределения вероятностей состояний. Докажем некоторые утверждения. Введем обозначения: пусть к есть следующий вектор р, а именно pk=l, рг = 0 при 1Ф ?k9k=0,...,m. Лемма 14.1. Пусть||g|| = max {|<7*|}— норма вектора q. Тогда !ИФ*р—OIKXIlp—ОП для Уф^Ф, гдеХ=1— Доказательство, Из неравенств т \\р — 0[| = max(|р0 — 1|, max pi) <max 1 — /?0, ^ рЛ = = тах{1— р01 1 — ро}= 1— /?0, т ИфР — О И =Л — Ро — S P т <l-po~^2 Pf = A имеем X=l— \х, ||ЛФ*р—О||^Я||р— 0||. Лемма 14.2. Пусть функция Q(p)^O ограниченна при р^й и непрерывна при p=k, k=0, ..., т. Пусть матрица ис- источника информации G = {g7)v=i s такова, что 3v: для Vt, /== /=0,...,m = 0, ..., m, giv?^g5v при 1Ф1 Обозначим через Tvrt (p) = Pn(p) композицию операторов Tv/ для последовательности из п пока- показаний vn= (v4, v2, ..., vn). Тогда m HmM[Q(PB(p))]=S Q(k)Pk. Доказательство. А. Так как показания v( источника информа- информации независимы, /=1, 2, ..., п, то оператор ТуП(р)=Рп(р) 219
имеет вид , ..., m). Обозначим, как и ранее, вероятность появления показания v через gv, v=l, ..., 5. Если система находится в состоянии skf то gx=gkvy v= I, ..., S. При таком распределении {gl}v=i и ус- условии, что 3v: Vi, /=0, ..., m, gf^g? при 1Ф\ и pfe>0, имеем сходимость (с вероятностью 1) апостериорных распределений lim||Pn(p)-k|| = 0, т. е. lim Pn(p) =k. ЛО Л-»0О Б. Рассмотрим полную систему несовместных событий {Se SJ, k=0, ..., m. Имеем Из п. А следует, что события {Se«S*} и {lim Pn(p) = к} при (т эквивалентны. Тогда/ = lim M [Q(Pn (р))] = Ит|^ M[Q(Pn(p))\{Se= Ц}р*. Все услов- условные математические ожидания и их пределы существуют, так как функция Q(p)^O ограниченна при рей. В последней сум- сумме остаются только члены с pft>0, для которых эквивалентны события {SeSft} и {HmPn(p) =k}. Пользуясь непрерывностью Q(p) при р->-к и ограниченностью функции Q(p)^0 при переходим к пределу под знаком математического ожидания. Получаем все равенства с вероятностью 1 т J = y.M [lim Q (Р„ (р)) | {lim Р„ (р) = k}] pk = т т (p) = k}]^= у. Q(k)pft. т Окончательно J =* ^ Q(k)p^, т. е. лемма доказана. Лемма 14.3. Пусть Л(р) и ^(р) ограниченны при 220
Тогда Доказательство. Пусть в уравнении A) для F(p) минимум: по ф, ф достигается: для Л(р) —при ф^р), а для F2(p) —при ф2(р). Тогда р^)/?^) при Ч) = (Р2(Р). при ~ = фз (р)) F ( ) — F ( ) 1 w . ф; _ fa (Tv (Tv (P)) - F2 (Tv ПрИ ф = Фа (р), при ф = фх(р). Замечание. Пусть источник информации достоверный, т. е.. G=E. Тогда уравнение для оптимальной стратегии имеет вид F (р) = min min[(Uv, <реФ F(A9p)], D)» причем В силу уравнения D) | Fx (k) - F2 (k) | < max | Ft {& k) - F2 (^ k) |. ф Отсюда оценка леммы 14.3 имеет вид 1Л=о 3. ЕДИНСТВЕННОСТЬ РЕШЕНИЯ Докажем сначала, что любое ограниченное решение уравне- уравнения A), непрерывное при р = 0, мажорируется линейной функ- функцией. Для этого рассмотрим неравенство ^(р)^ min [(иф, р)+ ФеФ р)]^(иф, p)+F(A9*p) для каждого ф^Ф. Применяя 221
его последовательно, имеем F (р) < 3 (и< К* к=0 Так как || (Л/)"р—0|Ы) при n-^оо, то lim F((Av*)np)=F@) /г-*оо = 0. Следовательно, ф, р) = ((^ - ^ф) и», р) для каждого феФ. Имеем F (р) s= min ((? - ^^Оф, р) = (L, р), реФ при р:=0 (L, 0)=0. Предположим, что источник информации ямеет матрицу G={giv}, обладающую свойствами: существует v, такое, что giv?zgjv при 1ф\> U /=0, ..., т. При этом условии докажем теорему о единственности решения уравнения A). Теорема 14.1. Ограниченное решение уравнения A), не- непрерывное при р=к, единственно. Доказательство. Пусть Л(р)^0 и ^(pJ^O — два ограни- ограниченных решения уравнения, непрерывные при р = к, ?=0, ... ..., т. Обозначим |Л(р)—^(р) | =Q(p)> р^Й. Так как Л(р) и /^(р) мажорируются линейной функцией (L, р) с условием (L, 0)=0, то Q(p)^(L, p), p^Q. Из оценки леммы 14.3 (тхф(Лфр) Q(p)<max|<pe<D , peQ, lAf [Q(Tv(p))] <?(к)^тах(?(Лфк), k = 0, ..., т. ФеФ Отсюда получим неравенства {max(L, ЛФр) <реФ Q(k)^max(L, ЛФк), fe = 0, ...,m. Рассмотрим функцию ФеФ R(р)= max(Q(p), max(L, ЛФр)), реQ. Так как max(L, ЛФр) — вы- феФ еФ луклая функция, то max (L, ЛФ р) ^ М [max (L, ЛФ Tv (p))]. ф еФ 222
Из предыдущего неравенства получаем (М[тах(Ь,Л;т\,(р))] { Is* < lAf[Q(Tv(p))] max [Q (Тд, (р)), max (L, ^Tv (р))] = М [Я (Tv (p))]. Ф Окончательно имеем неравенство для R(p) ^Af[/?(Tv(p))], Отсюда рекуррентно имеем неравенство R()M{R(P())l Q Р()Т> () (см. обозначения леммы 14.2). Ограниченная функция R(p) непрерывна при p = k, ft = О, т, что легко видеть из ее выражения. Полагая п->оо и применяя лемму 14.2, имеем Д(р)<Нт М[Д(Ря(р))]= ^ /?(k)ft, рей, м R (k) = max (Q (к), max (L, Лфк)), ft = 0, ..., т. ^ф Используя оценку Q (к) ^ max (L, Лф*к), имеем еФ , ... , т. Пусть при данном к максимум достигается при ср = ф*, тогда «(k)(LM;k) Рассмотрим матрицу со столбцами Л*ф,А,к=ВА; эта матрица 5=[В0, Bj, ..., Вте] обладает теми же свойствами, что и каждая из матриц Ар*, ф^Ф. Действительно, (ВА)о=рАо(фА)^1—Я, ft= — 1, ..., m, (Bo)o= 1, 2 (BA)j= 1 для любого ft. Следователь- Следовательно т но, по лемме 14.1 ||В(р)— 0||<Я||р—0||, т. е. \Ы Alk kpA—0 < lU-o II Я||р—0||, peEQ. Поэтому m / т \ <= L, 2 4Ak^-0 < S |p —0|, I*=o II 223
Имеем F(p) ^.F+(p). Но если взять приближения снизу, то Fo (p) = 0, Fr+i(p) > FJ (Р), I = 0, 1 рей, i = 0, Наконец, получим Ff (р)^Т7(р), рей, i=0, 1, ... Последова- Последовательность {/v~(p)} сходится равномерно к решению уравнения A) для достоверного источника информации, которое имеет вид F~ (р) = min В результате /7(р)^/7~(р); получен очевидный результат F~(p) ^F(p) ^^(p)» рей, т. е. минимальные потери при на- наличии произвольного источника информации не больше потерь при отсутствии источника информации и не меньше потерь при достоверном источнике информации с той же платой за испы- испытание. Замечание. Ограниченное решение уравнения A), непрерыв- непрерывное при р=0, единственно и является непрерывной и вогнутой функцией при рей. ГЛАВА ПЯТНАДЦАТАЯ МАРКОВСКИЕ ПРОЦЕССЫ ПРИНЯТИЯ РЕШЕНИЙ В ОТСУТСТВИЕ ИСТОЧНИКА ИНФОРМАЦИИ 1. ПОСТАНОВКА ЗАДАЧИ ПРИНЯТИЯ РЕШЕНИЙ Пусть заданы множество состояний {sk} для однородного марковского процесса (&=0, ..., т) и множество возможных решений Ф, содержащее конечное число элементов среФ. Для каждого решения среФ задана матрица Лф переходных вероятностей марковской цепи т А> = (л/(ф)>Ямо, 2 л/ to) =1 > Ри^>°- A) Предположим, что при УфеФ Лф такова, что соответствующая марковская цепь имеет достижимое поглощающее состояние, 228
например, при &=0(s0)- Матрица Л„, следовательно, имеет вид 1 0 ... О" _Рто B) а) Для достижимости s0 (с вероятностью 1) необходимо и достаточно, чтобы для Уф^Ф ||(Лф)п||-Ю при п-->оо, что эквива- эквивалентно существованию 3 Рассмотрим набор решений ф= (фь ф2, ..., фп), где при 1=1, ..., п. Ему соответствует произведение матриц Лф>„ = ]~] Лф/. Матрица ЛФЛ имеет вид  ?ю(Ф. л) ... <7шо(ф, л)"] О :. И я;, LO /=i C) б) Потребуем, чтобы ]~[ Лф/г^0 при п-^оо равномерно по In ЦА\ Уф={ф/}2=1 при я>п0. Выберем некоторое Х>0. Так как все элементы А*^п неотрицательны и сумма элементов в любом столбце равна 1, то отсюда следует, что при п^п0 ^о(ф, п) ^ ^1—Х= jx>0, f=l, ..., т. Условие (б) обеспечит достижи- достижимость состояния 50 (с вероятностью 1) для любого набора реше- решений. В частном случае, когда ф={ф*=ф}/=г1, условие (б) пере- переходит в условие (а) : ||Лф*)п|| = ||Лф)я||->0 при я->оо для Уф^Ф. Введем потери за переходы из состояния st в любое другое состояние Sj (i, / = 0, .. ., т) при принятии любого решения Ф^Ф[23]. Для УфеЕф зададим матрицы {Д-/(ф)}Г/=о> Мф)^ ^0, где fij((p) —потери при переходе из состояния s{ в состоя- состояние Sj при принятии решения ф^Ф и /0;(ф) =0 при /=0, ..., т. Пусть процесс начинается из состояния sk (&=1, ..., т) и мо- может продолжаться неограниченное число шагов. Рассмотрим произвольную стратегию {ф}=(фь ф2, ..., фп, ...), где ф^^Ф•— решение, принимаемое на /-м шаге (переходе). Поставим зада- задачу нахождения стратегии {ф}, при которой математическое ожи- ожидание потерь за весь процесс минимально. 229
Введем вектор распределения вероятностей состояний р = = (Ро, Pi, ..., An), где pi — вероятность состояния su 5] Рь = li т. е. p^Q, где Q— (т+1)-мерный симплекс. Будем считать, что вектор р задает состояние процесса в том смысле, что р содержит всю информацию о процессе на каждом его шаге. Процесс описывается последовательностью преобра- преобразований вектора р посредством матриц {Лф}, ср^Ф. Математи- Математическое ожидание потерь за один переход равно т S Ыф)Мф)л = (иФ, р), где 1)ф—(т+1)-мерный вектор с компонентами (ифH=0, ф), i=l,...,/п. /—1 Преобразование вектора р при принятии решения ср^Ф за- задается как р->Лф*р, где Лф*— транспонированная матрица Лф. Пусть F(p)—математическое ожидание потерь при опти- оптимальной стратегии на бесконечношаговом процессе при усло- условии, что процесс начался из состояния с вектором р, p^Q. Тогда уравнение Беллмана [1] для оптимальной стратегии имеет вид Вообще говоря, минимум достигается при стратегии ¦ф(р) = {ф, если реОф}, Уф^Ф, где Йф — некоторые множества точек р и \J QV=Q ('Ф(р) может ФеФ быть многозначной функцией р, так как ?2ф1П?2ф2=7^Л, ф15 ф2^Ф). Докажем теорему существования и единственности решения уравнения D) и установим некоторые его свойства. В частно- частности, установим, что {?2Ф}, ф^Ф являются замкнутыми областями с выпуклыми границами. 2. СУЩЕСТВОВАНИЕ И ЕДИНСТВЕННОСТЬ РЕШЕНИЯ. СВОЙСТВА НЕПРЕРЫВНОСТИ И ВОГНУТОСТИ ОЦЕНОЧНОГО ФУНКЦИОНАЛА Обозначим через 0 вектор р: (ро) = 1, (p)f=0, f=l, ..., m; так как s0 является поглощающим состоянием, то Лф*0=0. До- Докажем следующие леммы. Лемма 15.1. Пусть ||q;|= так {|#|} — норма вектора q^R'n. Тогда для матрицы А*<р,п имеем оценку 230
f—1 ° Up-oil. E) где п0 взято согласно условия (б). Доказательство. Для любого вектора qeQ имеем ||q— 0|| = max{|^0— 11, max ^}= I — qQt i=i,m т так как max q%^у qt = 1 — qOf следовательно, для q= имеем т II Лф,*оР — 01| = 1 — Ро — У\ Чю (ф, п0) pi < —Ро)—A — = ^A —/70); к ||р—0|| = р теперь n=S /I* Л* /1* /I* — «^ф,/г Р === ^фь«0 X -"ф2,«о X ... X -Дфз.Яф X так как ||р—0|| = р0—1, то неравенство E) доказано при п=п0. Пусть теперь n=Sno + ry 0^r^.n0. Тогда ф(ф0() + фоО Применяя последовательно неравенство E) при п=п0 и заме- заменив р на Р1 = Лфл_г+1Х ... хЛф„р, имеем 1И*>—0||< ^^s||pi—ОЦ. Так как ||pi—ОЦ^Цр—0||, то неравенство E) дока- доказано для любого п. Лемма 15.2. Для решений ^(p), /^(p) уравнения D) спра- справедлива оценка ft ^i (Р) — ^2 (Р)|| ^ max I Fx (Л;., р) — F2 (Л;,, р) |. F) ф Доказательство. Пусть в уравнении D) минимум для /ч(р) достигается при ф(р)=ф1(р), а для /^(р) при ф(р)=фг(р)» Тогда F1 D>(P) Р) — F2 (Л;1(р) р) ^ F± (p) — F2 (p) ^ ^ ^i Иф.(« Р) — ^2 (^ф2(р) Р)» откуда следует I Fi (P) - F2 (p)| ^ max ] F, (A'v p) - Ft (/?, р)|. Применяя это неравенство, получаем оценку леммы 15.2. 231
Единственность решения уравнения D), непрерывного при р=0, доказывается с использованием неравенств предыдущих лемм. Пусть F^p) и F2(p) —два решения, IimF1(p)= HmF2(p) = 0. Тогда sup IFifo) —F2(p)| <sup max| FxH^p) — F2(^p) |; p<=Q рей ф пусть с = max!p — 0||, тогда имеем рей sup |Л(р)-^(р)|< sup \FL{q)-Ft(q)\\ ta-окл, n° с при /г~->оо, переходя к пределу, из непрерывности при р=0 по- получаем sup|Fi(p)— F2(p) | =0, т. е. F1(p)=F2(p). Существование решения, непрерывного при р=0, докажем, построив последовательные приближения (равномерно сходя- сходящиеся). Возьмем непрерывную и вогнутую при p^Q функцию F0(p)>0, F0@)=0, положив /= 0, 1, ... F?+1 (p) = min{(иф, р) + Ft (Лфр)}, peQ. еФ Отсюда имеем оценку I Ft» (р) - Ft (р) | <тах | Ft{Al р) - F^ (/С, Р) | ^ max 1 Fx (/?м р) — Fo (А^? р) |. ф Обозначая | Fi+l (р) — F{ (р) | = Qt (p), имеем max ф(р)^ max Q0(p). foVK rj_j с Обозначив max Qi(p) = Д/ (с), имеем А((с)<^.ко(Хп° с) [-] j = 0, 1, ...,. Таким образом, для абсолютной равномерной схо- сходимости Ff(p)-^?F(p) при i->oo достаточно, чтобы мажорирую- p?Q щий ряд сходился. Например, выбрав F0(p) ^0, имеем Л0(с)= max гтип(иф, р)= max min(Uv, р — 0)<min|ифf|с ||о!|< 11роц< ф<=ф ФеФ 232
Поэтому ряд 2 Ao(Vc) сходится не медленнее, чем 2 я mi||Uv|| Н чреФ 1 — Я Имеем оценку sup | Fi (p) - F (р)| < min IU, 1 — Л Кроме того, для F0(p)=0 Fi(p) ^Fi+i(p). Вследствие равно- равномерной сходимости {Л(р)} при i-^oo из того, что ^i(p) —непре- —непрерывная и вогнутая при любом i, получаем, что F(p)=limFi(p) 1-юо также непрерывна и вогнута при p^Q. Множества {Цр}, феФ, определяются из неравенств й\йф= = {р : pe=Q, F(p) < (иф, p+F(Лф*р)}, откуда ясно, что Op- замкнутые области. Легко показать, что при p^Q F (p) ^ min (E — Л<р)~Ч/ф, р), где ?/ф — m-мерный вектор , Р=(ри -., Pm). ГЛАВА ШЕСТНАДЦАТАЯ ОПТИМИЗАЦИЯ ИНФОРМАЦИОННЫХ СТРУКТУР МАРКОВСКИХ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ В работе [22] ставится проблема оптимального размещения ограниченного числа источников информации на этапах много- многошаговых процессов принятия решений и выдвигается гипотеза построения оптимальной стратегии размещения этих источни- источников в случае, когда число этапов больше числа источников ин- информации. В этой главе для различных типов цепей Маркова найдены условия оптимального размещения источников информации на этапах процесса принятия решений. Получены асимптотические свойства оптимального размещения как для случая поглощаю- поглощающих цепей, так и для регулярных цепей Маркова. Предлагается алгоритм поиска оптимальной стратегии принятия решений для поглощающей марковской цепи с размещением ограниченного числа недостоверных источников информации на этапах про- процесса. 233
1. ФУНКЦИОНАЛЬНЫЕ УРАВНЕНИЯ ОПТИМАЛЬНОЙ ИНФОРМАЦИОННОЙ СТРУКТУРЫ МАРКОВСКИХ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ Рассмотрим марковский процесс принятия решений; множе- множество состояний и множество решений будем считать конечными: fe=l, ..., га, ф=1, ..., п. Пусть {Рф}ф=1 — множество матриц переходных вероятностей {/ф}ф=1 — множество матриц стоимостей; /ф = [ft/ (ф)]?/=ъ Д-/ (ф) >]0 — стоимость перехода Гиз состояния * в состояние / при принятии решения ф^{1, ..., п}- Введем вектор стоимостей \Fv=(Vi(y), ..., Vm((p)) для ре- решения ф^{1, ..., п) по формуле т Vt (ф) = компоненты 1Л(ф) вектора Уф равны математическим ожиданиям стоимостей переходов за один шаг из состояний i при выборе решения ф. Предположим, что непосредственное наблюдение состояний, в которых находится процесс, невозможно, и стоимость данной реализации всего процесса сообщается только при его оконча- окончании. Для получения информации о состояниях будем использо- использовать источники информации следующих типов: 1) достоверный источник, показывающий состояние процесса точно (точнее, с вероятностью 1); 2) недостоверный источник, дающий значение реализации случайной величины v, распределение которой зави- зависит от номера состояния, в котором находится процесс. Недо- Недостоверный источник характеризуется матрицей G размера mxS: gu>09 2*л=я1' где gis=P[v=s|i]— условная вероятность показания v = s при нахождении процесса в состоянии и Достоверный источник мож- можно рассматривать как частный случай недостоверного, если m=S и G=E — единичная матрица. Предположим, что процесс находится в состоянии i9 и про- производится неограниченное число наблюдений независимых слу- случайных величин, распределения которых одинаковы и задаются матрицей G. Тогда по усиленному закону больших чисел часто- частоты значений vq=s при д->оо с вероятностью 1 сходятся к вели- величинам вероятностей P[v=s\i]=giSi s=l, ..., S. 234
Для пары состояний i, / соответствующие строки матрицы мо- могут быть равными, и тогда на основании наблюдений различить состояния i и / нельзя. Если же матрица не имеет равных строк, то после достаточно большого количества наблюдений можно определить любое состояние i с вероятностью 1. Следовательно, если количество испытаний как угодно вели- велико и матрица G не имеет равных строк, то информация, полу- полученная от недостоверного источника такая же как и от досто- достоверного (но при одном наблюдении). Введем распределение вероятностей на множестве состояний т 1=1, ..., т. Пусть р=(ри • • •, Р«), А^О, У] р<=1, и Pi — ве- роятность состояния и Справедливо следующее утверждение (сходимость апостери- апостериорных распределений). Теорема 16.1. Пусть gi=(giu ..., gu) и {g(}h i<=Ji — класс равных строк, /=1, ..., и, l^u^m] если /, /е//, то ?*= =gu и если i^Jp, fe/g, рфц> то gi^gj. Рассмотрим последовательность независимых случайных ве- величин {vj, 9=1, 2, ..., N. Обозначим pN= (Pnu ¦ • •, рхт)— век- вектор условных (апостериорных) распределений рЛ^=Р[1^д, 9 = = 1, 2, ..., N], /=1, ..., т. Зададим pN уравнениями (JV= = 1,2,...): [/71  У, gkvNP(N-Dk , * = 1, .. .,ю. ft=.i J Тогда вектор рл- с вероятностью 1 сходится к некоторому векто- вектору р= (ри . . . 9 рт) такому, что если fe//, то pi = р{/ ^ р/ при ^ ру > 0, игаче р( = 0. B) Индекс классов равных строк /—1, . . ., и. Доказательство этой теоремы приводится в [5]. Эта теорема дает возможность судить об эффективности источника информации с матрицей G. Введем плату с за наблюдение показания источника инфор- информации. Величина с оказывает влияние на стоимость всего про- процесса принятия решений. Если стоимость процесса после введе- введения в него (на каком-либо шаге) источника информации с пла- платой с уменьшается, то использование источника оправдано. Это позволяет указать размер максимальной платы стах за наблю- наблюдение. Опр.еделение. Рассмотрим 0^х<+ оо. Положим x^LNy если при c=jk для любого начального состояния N — шагового про- процесса принятия решений существует шаг, на котором использо- использование источника информации некоторое количество раз умень- 235
Шает стоимость процесса. Для LN=?0 максимальную плату ?тах определим так: Дальше будет показано, что LN^LNl при N^N, LN=[0, c^ax) или LN=[0, c%ax), если Ь1,Ф0. Предположим заданным конечное количество t источников информации с одинаковыми матрицами GX=G и платами за показание сх=с, т=1, ..., t. Рассмотрим Af-шаговый процесс принятия решений. Пусть начальное состояние процесса задает- ся вектором р=(рь ..., рт)у Рг^О, 2 А=1. Обозначим через i Q множество векторов р, а через ЛФ=РФ*. Задача состоит в том, как расставить источники, информации по шагам этого процес- процесса так, чтобы стоимость процесса была наименьшей. Для вывода уравнений оптимальной расстановки воспользу- воспользуемся методом динамического программирования. Пусть Fn{x) (p) — стоимость Af-шагового процесса принятия решений при условии, что он начался из состояния р и для расстановки имеется не более т^1 источников, причем стратегия расстанов- расстановки и принятия решений оптимальна. На первом шаге процесса имеются следующие возможности: либо ставить источник инфор- информации и использовать его оптимальное количество раз, после чего переходить к следующему шагу, но с запасом в (т—1) ис- источников; либо источника не ставить и переходить к следующе- следующему шагу с запасом в т источников. Пусть QN{x~l) (p) — стоимость ЛЛшагового процесса, стратегия которого оптимальная на 2-м, 3-м, . ¦., Af-м шаге, а на первом шаге заключается в использовании источника оптимальное ко- количество раз с последующим оптимальным переходом на второй шаг, но с запасом в (т—1) источников. Тогда получим фР)]; C) D) <</, N=1, 2 /Ут)(р)==0, где обозначено 7\,(р) = =.G\v(p),...,:rmv(p)), im i (p) = gtspi,72 SbPb i=lt-..,m, s=l,...,5. E) 236
Математическое ожидание Щ*] берется по распределению V случайной величины v т Рг 1 v 1 / Г*\ Для т=0 уравнения имеют вид Ff (р) = min [(V,, р) + f 55^-x (РI, Ff (P) = 0. G) Ф Если с>0, то все величины, входящие в уравнения C) и G) можно разделить на с и перейти к случаю с=1, при этом Уф->- ф (р)(Р) ^pJQfo) Рассмотрим уравнения C) — G). Первое из них можно пред- представить в виде Q(p)-min{/(p),c + M[Q(Tv(p))]}, P6G, C') V где f(p) —непрерывная вогнутая кусочно-линейная функция при p^Q. Известно, что его решение существует и является непре- непрерывной вогнутой функцией при peQ. Далее, если Мр), /г(Р) обладают свойствами f(p), Ыр)<Ыр), Р^^> то соответствую- соответствующие им решения Qt (p) <Q2 (p), peQ. Если рассмотреть уравнение C0 при с4 и с2, 0^Ci<c2t то со- соответствующие решения Q(p, ct)^:Q(p, c2), peQ. Обозначим через к вектор р, у которого pft==l, рг-=0, Ьфк, i, k=l, ..., т. Из уравнения C') имеем Q(k)=/(k), Q(p)^f(p). В силу вог- вогнутости Г т S Т = min /(p)fc2 A + SQ(D,p) L i=i s=i J Если рассматривать /(р) при pe?w+, где Ет+={р : р*^0, t= = 1, ..., m}, то решение уравнения C') можно продолжить на Ет+, причем помимо свойств вогнутости и непрерывности Q(p) обладает свойством однородности при pE?ffl+ (Q(p)=0, если р{=0, i=l, ..., т). Уравнение C') может быть записано в ви- виде: Q(P) = где \ 0 . . . gmsJ Все перечисленные выше неравенства сохраняют силу и для т соответствующих продолжений на Ет+, при условии, что ^ Рс > О- 237
Лемма 16.1. Функция /УТ)(Р)> Q*(T)(P), N=1, 2, ..., т= = 1, ..., ty продолженные на Ет+ с условием /VT)(p) = = Qn{x)(p) =0 при Рг=О, 1=1, ..., т, являются однородными вогнутыми и непрерывными, удовлетворяющими уравнениям:. ^'^ ,8, (р) - rain [(V,, р) + С!!!., (/I. р)]. Ф F<t)(P)eee0, т = 0,1,...,г, p?E+m. Доказательство проводится индукцией по т и N. Лемма 16.2. Имеют место следующие неравенства (ре ?+) 2) F(n (p) > F(n^i (p) и равенство точное, если т>М; 3) F$ (р) ^. F^1} (р) и равенство точное, если т > Л/ + 1; при рб?ш,^1,А*>0 справедливы точные неравенства; 4) если неравенство ^VT)(P) <^<T}(p) справедливо при N=N\ т= 1, ...,/, то оно справедливо при N^N*. Доказательство. Рассмотрим неравенства при N=l, t=L Из уравнений (8) имеем: Fix) (р) > 0 = F? (р); F? ^min (VVl p) = Ff (p). ф Пусть неравенства 2) и 3) выполнены при N=1, т=то^1. Тог- Тогда F1(to+1)(P)^0=Fo(t»+1)(P)) Л(Тв+1)(Р)=^1(То)(Р)- пУсть нера- неравенства 2) и 3) выполнены при N^NOy причем при l^Af^: ^ЛГ0—1 они доказаны для т=1, ..., /, а при N=N0 имеют ме- место для 1^т^т0. Так как min [(Уф, р) + /^Ц (Лф р)] > min [(Уф, р) + F^00L2 (A*p)] ф ф (равенство точное, если ro^No—1), то ^^(p); q№(p) = <$:M(p); ro>No-\. 238
Тогда получим причем равенство точное, если xo^Nn—1. Далее min [(Уф, р) + F%U (Ay р)] ^ min [(Уф, р) + Ф ф (равенство точное, если ro^NQ). Отсюда <№ (Р) ^ Q$T* (Р), QnH (Р) = ФГ* (Р) при т0 Тогда будем иметь причем точное равенство достигается при ro^No, Индукция по JVht окончена.. Неравенство Qn<x~1) (p)^FNix) (P) очевидно. Из предыдущего ясно, что FN{x)(p)=FN(N)(p), если x^N, pe?m+. Далее если для некоторого N=N* имеет место /Ут)(р)< то это неравенство справедливо и при N^N*y т=1, ..., /4. До- Доказательство этого неравенства проводится аналогично. Лемма 16.2 доказана. Лемма 16.3. Рассмотрим /УТ)(Р)=Л*(Т)(Р» с)> определен- определенные при iV=0, 1,2,...; т=1, ..., t\ pe?m+ формулами (8), как функции от с^О. Тогда: 1) FN{x)(p, с) неубывают и непрерывны по с, р при 2) ^(т)(р, с) являются вогнутыми функциями с при Доказательство. Докажем пункт 2. При N=0, т=1, ..., /, F0(T) (p, с)=0и утверждение пункта 2 справедливо. Рассмотрим уравнение (Р»с) = и предположим, что ^jfz? (Р> с) непрерывна по ре?т+, с^О и вогнута по с^О при фиксированном ре??т+. Для соответствующего уравнения последовательного анали- анализа имеем: [m S "I »5=1 S=l J 239
где /(р, с) вогнута по с при с^О, р^Ет+. Считая Q(n~1}(P> c) вогнутой по с, непрерывной по с и р, с^О, ре?т+, имеем: если c=Xici+X2c2f ci9 с2^0\ Kit Я2^0; Xi+A,2=l, то {n) in Г/ (p, Cl), cx 2 p, + 2 Q{n) (p, с) > ^ min Г/ (p, Cl), cx 2 p, + 2 Q^ (Д p, L [ 5 [ / (P,c2),c2 2 a + 2 Q(*-x) (Ds p, откуда Q(n)(p, с) вогнута по с и непрерывна по с и р; ^; e?w+. Переходя к пределу по п->-оо и пользуясь монотонной сходимостью Q(n)(P> с), 0^Q(n)(p, cXQ^^p, с) и тем, что функции Q(n)(P> с) вогнуты по р (лемма 16.2) и с при рб?т+, О, по теореме 16.2, приведенной далее, имеем HmQ(n)(p, с) = = Q(P> с); тогда Q(p, с) непрерывна, вогнута по р и по с от- отдельно при ре?т+, с^О. Таким образом, из уравнения последовательного анализа имеем: QN(x^i)(P> с) непрерывна по ре?м+, с^О, Qn(t"}(P> c) вогнута по с при фиксированном рЕ?т+, с^О. Рассмотрим уравнение . fmin[(V,,p) + /'№.1(i4vp,c)]; ^// (Р. с) = mm ф iQiT* (Р. с) и будем считать, что ^д!х(Р, с) непрерывна по вогнута по с, с^'О; тогда имеем для c=%ici+%2c2, F{n (Р, с) > V$> (р, ^) + KF® (Р, ^2), так что /VT)(p, с) непрерывна по pe?w+; с^О и вогнута по с; с^О. Отсюда по индукции вытекает утверждение леммы 16.3. Лемма 16.4. Пусть 0^с4^с2, c2GL^-i. Тогда c^LNy c2<=LN при N^N*> т. е. LN*^LN) LN — полуотрезок либо отрезок. Доказательство. Если c2^LN*, то по определению, t3.N=N*: для Vp^Q /У1}(Р> ?г) <^У0) (Р); из пункта 4) леммы 16.2 сле- следует, что это неравенство справедливо при N^N*, то есть с2^ LNt иначе LN*^LN. Из неравенства (леммы 16.3) при N^N*y рей, следует c^LN. Значит, если ЬкФ0у то LN — ПОЛуОТреЗОК ЛИбо ОТреЗОК; LN= [0,Cmax] ИЛИ Ln = [0, Cmax], ЧТО и доказывает лемму 16.4. Из леммы 16.2 можно сделать следующий вывод: если для АГ*-шагового процесса добавление источника информации к 240
(т—1) используемым уменьшает стоимость процесса, т=1, ..~ ..., tu то это справедливо и для ЛЛ-шагового процесса при N* Уравнения (8) для достоверного источника информации с. платой с=0 имеют вид: FQ(X) (p) =0, т=0, 1, ...,/, F°N (р) = min [(Уф, р) + FJSlx (А>р)], ф ф т Из уравнений (8) при с=0, пользуясь теоремой 16.1 сходи- сходимости апостериорных распределений, в случае источников ин- информации с матрицей G, не имеющей равных строк, получим уравнения (9) при условии, что количество наблюдений показа- показаний источника информации неограничено. 2. СВОЙСТВА ФУНКЦИОНАЛЬНЫХ УРАВНЕНИЙ ДЛЯ ПОГЛОЩАЮЩИХ И РЕГУЛЯРНЫХ МАРКОВСКИХ ЦЕПЕЙ Рассмотрим поведение решений (8) FN(p) при N-^oc Будем исследовать два типа процессов принятия решений: 1) для Уф=1, ..., п\ РФ=ЛФ* — матрица поглощающей цепи -ф ), т. е. р=к, к= 1 — поглощающее со- состояние, а р=к, &=2, ..., т — невозвратные состояния; 2) для Уф=1, ..., п\ РФ=ЛФ* — матрица регулярной цепи Маркова. Рассмотрим процессы первого типа. Пусть щ(ц)=Ъ при ф= = 1, ..., п. Из леммы 16.2 следует, что При N-^oo поведение решения /V0)(p), удовлетворяющего урав- уравнению Ff(р) = min[(Уф,р) + F8U(Лфр)], N=1,2,..., р?Е+т Ф исследовалось в 15 главе. Там показано, что FN{0) (р) ф ф/7<0) (р); peQ; iV-^oo; F{0)(p) является вогнутой непрерывной функцией при peQ и, кроме того, однородной при р^Ет+. Следовательно, для р<=Ет+ limFNix)(p)=F{x)(p), причем F{x) (р) удовлетворяет уравнениям (8), в которых можно перейти к пределу при Af->oo. Функция F{x)(p) является вогнутой и однородной при р^Ет+у и jF(t)(P) непрерывна при ре?т+, р»>0 в точке р==к, где к= A„ 241
—i 0)- Справедливо неравенство [т и 2Мф)((?-Ap)-ip)J. *=2 J Лем^а 16.5. Если решение предельных уравнений единст- 7? ^(т) (Р) непрерывна при р(=Ет+, и, по теореме Дини, ^(Чр)||Ят>(р) при рей, ЛГ+оо. Доказательство. Образуем новую последовательность при- приближений (т) Г т 1 о (р) = min К] ин (ф) ((Я - ЛФР р)к при р^Ёт+9 N=\9 2, ..., ?Ут)(р) получаем рекуррентно из уравнений (8). Легко показать (индукцией по N), что 0^ ^?' (Р)<?^(Р), ре?т+, ЛГ=1, 2, ..., и ?я(т)(р) -вогну- -вогнутые однородные функции, непрерывные при р^Ет+. Воспользуемся следующей теоремой, которую примем без до- доказательства. Теорема 16.2. Пусть DczEm+ — выпуклый компакт, и при ^=1> 2> ... fN(x)s=G[D], 0<fr+i(*XM*); f^W -вогнутые функции при xt=D. Тогда fi,W||f(x) при Л^-^оо, и f(x)eC[D], j(x) вогНуТая функция, x^D. ^,3^т°й теоремы вытекает, что на любом выпуклом компакте DaE^m+ Последовательность EN{x)(p)\\E{x)(p) при peD, N-+00 и ?(T)(P)^C[D], причем Я(х) (р) — вогнутая функция при р^Д. Взяв для уг>0 Dr={p:0^pi^r}y получим, что ?(т)(р) одно- однородная функция реД. (из однородности ?(т)(р)). Далее так как Q — выпу^лый компакт в Ет+, то ?(т) (р) непрерывна при peQ, и EN(p) j|?'(p) при рей, Л^-^оо, ?(т)(р) является решением предельных уравнений (8), следовательно, ?(т) (р) =ЯТ) (р), ре?"т+. Аналогично из леммы 16.4 и теоремы 16.2 получим сле- следующее утверждение. Л ем щ а 16.6. Ят)(р, с) неубывает и вогнута по с при р^?ш+, О Ес решение предельных уравнений единственно, то [Е+ 0] (Р, с)^а[Ет9 с>0]. Для процессов первого типа имеет место следующее утвер- утверждение. Теор^ма 16.3. Пусть имеется бесконечношаговый процесс с т источ^иками информации. Если плата за наблюдение поло- положительна, то есть с>0, то существует такой номер шага процес- процесса Ncx, что на шагах номеров N^NCX использование любого из т источни^ов неоптимально при любом начальном состоянии peQ. Доказательство. Пусть т=1. Из уравнений (8) имеем Fn (р) ^ "^min 2 v"«. П Л, р + М-*- S V • 242 •
Так как источник информации используется не менее %= 1 раза,, то Fn(p)>c9 p6Q, F$(p)> min F№(p) + c. Предположим, что 3pxeQ: min и W (p'J-x» при N-+oo. Переходя к пределу, имеем lim fft (р1) = FA) (р1) > lim Ffl. (p1) + с = F(o) (p Это неравенство невозможно в силу того, что (p)^p), p N->oo TV—>сэо Следовательно, существует Л/^1 такое, что при использование х= 1 источников первый и единственный из них должен исполь- использоваться не далее NJ-ro шага при любом начальном состоянии:. й. Аналогично показываем, что если 3 и iV(pT)->oo при Л^-vcxd, то F(t) (рх} > f (.) (рт} + с> что невозможно при с>0. Следовательно, существует Ncx, такой^ что при использовании т источников первый из них используется не далее Л/"рт-го шага при любом начальном состоянии рей. Пусть при т=1 источник используется не далее Л^-го шага (при VpeQ), а при ts^ все т источников используются не да- далее Ncx-ro шага для любого p^Q. Тогда (т+1)-й источник ис- используется не далее iVcT+1-ro шага, где Ncx+l = Nc(x+l) +Ncxy т=1, ..., t. Следовательно, при любом рей все t источников используются не далее, чем до NJ-то шага, где iVc*= Б Ncx. Теорема 16.3 доказана. Замечание 16.1. Если для всех peQ имеет место строгое не- неравенство F{i)(p)<Fi0)(p), то теорема 16.3 справедлива и для случая с = 0. Замечание 16.2. Так как FN{X) (p) f f/7(T) (p) при jV->oo, to ана- аналогичная теорема справедлива для ЛЛ-шаговых процессов при достаточно больших N^1. Лемма 16.7. Для процессов первого типа множество LN ограничено для любого N=1, 2, ... Далее,- если F{i)(p, c)<? </7@)(р) при рей, то при достаточно больших N LN содержат О Доказательство. Ограниченность LN следует из того, что при й /У'ЧР, с)Е=/у°>(р), если с^тах^@)(р). Д
^jv(t) (p) ff/r(T) (p) при N-+oo и любом т, то при достаточно боль- большом N /У4)(Р> с)<7У0)(р) при pGEQ, если FA)(P, c)<F^(p) при р^й. Лемма 16.7 доказана. Теперь рассмотрим процессы второго типа. Будем считать, что Рф — бистохастическая матрица для любого <р=1, ..., п; р«>0 при /, /= 1, ..., га, т. е. ЛФ=РФ*. Теорема 16.4. Если Лф>0 Уф=1, ..., п — бистохастиче- ские матрицы, то /V0)(P) ПРИ Р^Бт+ имеет следующее асимп- т тотическое поведение: /У0)(р) =Ng 2 p* + /@)(P) + ?*{0)(Р)> ГДе ?jv@)(P)^ 0, ре=й, f@)(p)—вогнутая непрерывная однородная т •функция pE?m+, g=mmVui(q))/m и справедливо уравнение т «Г У! Л + /@) (Р) = min [(иф, р) + /@) (Др р)], р е ?^, /=i ф имеющее единственное (с точностью до постоянной) решение /@) (p)i ограниченное при p^Q. Доказательство. Из уравнения (8) для FN@) (p); peQ; N= :=1, 2, ... имеем F%)(p) = mm[(l]^p) + F{t1(A(,p)], ^0)(p)-0. A0) ф Обозначим ф^=(ф1? фа, ..., ф*); фг^{1, ..., п}\ i=l, ..., N. Представим уравнение A0) в виде Ff (р) = min Гд (иф/,. ]1 Аър] 1, рей. /Ч УЧ Обозначим через р вектор с компонентами р{=1/т, t=l, ..., m. Так как для ф^{1, ..., п) Лф — бистохастическая, то Лфр=р. Обозначим р(/) = у|Лф.р для фиксированного рей и набора (фь Фг, . •., фО- Лемма 16.8. Существуют пределы lim maxyt?^ = lim min pf == 1/m / I l i и справедливо неравенство max p\l) — minpf* ^:yl, i i где y = 1 — 2a, a = min рц (ф) > 0. 244
Доказательство леммы. Обозначим ыг=тахр<">, у, = min р((!\ /=0, 1, 2, .... Имеем р<"=Лф/р<'-1) или ' рТ = УлРцЫрТ*> 1=1,..., т. Отсюда получаем неравенства -i+ A— oO^- Щ—Vt^ A —2a) (щ-i—Vi^) = f (Mz-i—oz-i). Следовательно, существуют lim^ = w; НтУ/ = ?>; w*— - Отсюда ясно, что u=v=l/m. Лемма доказана. 7(oo)^4 , / Очевидно, что \pi{l)—\1т\^щ—v^^1. Введем норму векто- вектора q\ ||^11 = || |9«| Тогда ||р@—рН^У; /=0, 1, 2,...; отсюда имеем [N N / /-1 [N N~x  S (УФ/> P) + S ^ = где Уф=тах^(ф), §>(О) = т1п(Уф, р). Обозначим ^v@) (p) =g{0)N-\-fN (p), рей. сю Подставляя A1)в уравнение A0), имеем: fN (р) = min [(Вф, р) + /л^1 (А, р)], /0 (р) == О, ф где ВФ=УФ—gi0)p. Имеем неравенство: I /jv+i (Р) - h (Р) | '< max | fN (Лф р) - fN^ (Лф р) | ^ ф fN \ i 11^/р ; рей; /i (Р) = min (ВФ> Р). A2) Отсюда получаем оценку 245
Из A2) имеем ( II N I /W(P) - fs (P) | ^Smax \v JT Лф/р - р Следовательно, Mp)i?/@)(P) при N-^oo, где /@)(Р) неограниче- на при peQ: |/@)(P) |<2t>llp—p||/O—f). Итак, справедлива фор- формула FW (Р) = gi0)N + /@) (р) + е»> (р), р s Q, где 8jv(o)(p)=tO при ЛГ-^оо, g-@) = min(l/v, p), рей. Легко прове- проверить, что /@) (р) удовлетворяет уравнению /> + /<°> (р) = min [(Уф> р) + /@) (Лфр)]; /(«(р) = 0. Ф Доказательство единственности решения /@) (р) этого урав- уравнения при условии, что f@)(P) непрерывна на Qh f@)(p)=O опускаем. Расширение g"@)(p) на ре?т+ делается по индукции. Теорема 16.4 доказана. Сформулируем теперь результат, касающийся расстановки конечного числа источников информации по шагам процесса второго типа в рассматриваемом случае. Теорема 16.5. Пусть Лф>0, <р=1, ..., п — бистохастиче- ские матрицы и имеется т идеальных источников информации с нулевой платой за наблюдение. Тогда из уравнений (9) следует т +ra; #=1,2,...; где fw<T)(p)—вогнутая непрерывная однородная при \ЫМ (Р) | </@) при рей; N=1, 2, ... ; Г>0. Доказательство. Из теоремы 16.4 следует, что разложение A3) справедливо для /У0)(Р)- При т=1 для /^-шагового про- процесса из уравнений (9) имеем [N'' Так как
V0)(p); рей; N=1,2,..., где /У(р)= min [/^(P)+ i f ограниченна при p^Q, N=1, 2, ... Окончательно при N=lt 2, ... имеем | ДО(р) | ^max(|/#>(р) |, |/»>(р)|) <Ifjj?(p) | </<°>. Предполагая, что разложение A3) выполняется для %=t—1, аналогично покажем, что тогда справедливо разложение A3) для т=^, N=\y 2, .... Свойство вогнутости, непрерывности и однородности при р<^Ет+ следует из леммы 16.1 и разложения 1=1 Теорема 16.5 доказана. Замечание 16.3. Поскольку для любого т^1, N=lf 2, ... ; /У0)(р)^/У*>(р, с)>/Ут)(Р, 0), а /УТ)(Р, 0) удовлетворяет уравнениям (9), если матрица G источника информации не со- содержит равных строк, то из неравенств и теоремы 16.5 следует, что т. е. I'F{$ (p, с) =? ^<°> при N-+00, Ni отсюда следует справедливость представления где |/Ут)(Р> ^)|=^f@), Р^й, N=l, 2, ... Значит верна следую- следующая теорема. Теорема 16.6. Пусть Лф>0 при <р= 1, ..., п и имеется т источников информации с матрицами GX' = G> т/=1, ..., т, т^1 и с платой за наблюдение, равной с^О. Тогда справедливо пред- представление: ^(р^Ж^ЗА + ^й)^), РЕЙ, ЛГ=1,2,..., где /лг(т)(р, с) —вогнутая непрерывная однородная функция Р(Ее?„Л |/„(т)(Р, с) | <f<°> при p<=Q, iV=l, 2, ... Из результатов исследования оптимальной информационной структуры процессов принятия решений первого и второго типов, содержащихся в теоремах 16.3—16.6, можно сделать следую- следующие выводы. Если число шагов N-шагового процесса достаточ- достаточно велико, то для процессов первого типа (P<p=Av* при любом 247
Ф являются матрицами поглощающей цепи Маркова с одним к тем же поглощающим состоянием и новозвратными остальны- остальными) при использовании т источников информации с одинаковы- одинаковыми матрицами G и платой за наблюдение с>0 расстановка их дальше некоторого шага является неоптимальной, т. е. все ис- источники располагаются на шагах с номерами не больше задан- заданного. Положение границы расстановки источников не зависит от начального состояния рей процесса первого типа. Если введение хотя бы одного источника информации с нуле- нулевой платой за показание уменьшает стоимость iV-шагового про- процесса при больших N для любого начального состояния р^й, то имеется независящая от начального состояния р граница расстановки т таких источников (с=0). Для процессов второго типа (РФ=ЛФ* при любом ф порож- порождает регулярную цепь Маркова) в случае, когда РФ>0, ф=1, ... ..., пу — бистохастические матрицы, получен следующий резуль- результат. Для любого конечного количества источников т, с любой матрицей G, не содержащей равных строк, и стоимостью наблю- наблюдения с^О, начиная с некоторого достаточно большого количе- количества шагов iV-шагового процесса использование источников ста- становится бесполезным, так как средняя стоимость процесса (в: расчете на один шаг) приближается к средней стоимости про- процесса без источников информации. 3. АЛГОРИТМ ПОИСКА ОПТИМАЛЬНОЙ СТРАТЕГИИ ПРИНЯТИЯ РЕШЕНИЙ ДЛЯ ПОГЛОЩАЮЩЕЙ МАРКОВСКОЙ ЦЕПИ С НЕДОСТОВЕРНЫМ ИСТОЧНИКОМ ИНФОРМАЦИИ О СОСТОЯНИИ Основываясь на предыдущих исследованиях процесса при- принятия решений, можно предложить алгоритм, позволяющий на- находить оптимальную стратегию. Алгоритм основан на последо- последовательных приближениях функции затрат, монотонно возрастаю- возрастающих и равномерно сходящихся к точному значению этой функ- функции. В случае поглощающей цепи Маркова средний проигрыш за бесконечношаговый процесс остается ограниченным (см. гла- главу 15). Исходными данными являются: Лф, <р=1, ..., т, — матрицы переходных вероятностей CX3); Уф, ф=1, ..., т, — векторы плат CX1); Gv={g7}\.=1 — информационная матрица датчика CX2),v=l,2; с — стоимость испытания датчика, с>0. 248
Уравнение, решаемое методом последовательных приближе- приближений, имеет вид: F (р) = min {min [(VVf р) + F (Лф р)], [с + Fx (G1 p) + F2 (G2 p)]}, ф F(l)=0, 1=A,0,0). Приведем описание алгоритма. 1. Ввод исходной информации. 2. Формирование массивов ^(р), Л(р) и F2(p), заданных на з дискретной решетке в симплексе Рг^О, t=l, 2, 3, ^ р»=1 или у1, i=l,2, 3. 3. Вычисление последовательных приближений функций за- затрат .F(p) по схеме: а) F(p)sO; б) F1(p) = min ф в) i72(p)==min г) max|Fa(p)-F(p)|<e; р д) если г) выполнено, то переходить к е), иначе и переходить к б); е) поиск оптимальной программы принятия решений min [(Уф, р) + F2 (Лф р)] A < ф < т)\ min Определяя для каждого р значение ф, при котором достига- достигается минимум, получим массив оптимальной программы ф(р). Доказательство сходимости последовательных приближений приводится в главе 15. ПРИЛОЖЕНИЕ Рассмотрим ситуацию {Ф, @~) принятия решений, где Ф={ф1 ..., фт}— множество решений органа управления У, #"(фь) = {^"Чфь), ..., ^"Q(9fe)} — векторный оценочный функционал на решении ср^еФ. Пусть имеются множе- множество способов нормализации U-= {щ, |eS} и множество критериев свертки В большинстве задач векторной оптимизации однозначное определение способа нормализации и критерия свертки является сложным и даже практиче- практически невозможным. Имеем несколько вариантов, соответствующих различным случаям выбора элемента из множества: А — определен выбор единственно- единственного элемента из множества; В — ни один из элементов множества не является пригодным; С — все элементы множества пригодны. Для множества U имеем случаи Ли Ви Сь для W — Л2, 52, С2, а для за- задачи принятия многоцелевых решений имеем девять вариантов: A\A2i A\B2i А\С2, В\А2, В\В2у В\С2, С1Л2, C1.D2, W^2' Обозначим через /^(ф/О векторный оценочный функционал для ф/^еФ, по- полученный после применения ?-й нормализации (geS), аналогично при Q положим 249
В случае В\ считаем, что критерий свертки определяется на ненормализован- ненормализованных компонентах оценочного функционала и поэтому эта ситуация совпадает с Ль В случаях Ль А2 неизменяющийся индекс g или со будем опускать. Сфор- Сформулируем несколько подходов к постановке задач выбора и, ш, основанных на критерии гарантированного результата и на использовании функции неоп- неопределенности. Все подходы к постановке этих задач можно разбить на две- группы: к первой группе относятся способы свертки с учетом всех критериев свертки (или всех способов нормализации, или тех и других в зависимости ог варианта), а ко вторй группе относятся случаи задания одного критерия сверт- свертки (способа нормализации). Рассмотрим способы постановки задач выбора и, w для каждого вариант та. Введем обозначения 4 (фк) = [w\ (ф*ш) у\ (Фл) = max Щ \ | <7=1 Q еЛфь) = Иф^—фл11, где H-II означает число неравных нулю компонент. Для варианта АХА2 единственный критерий свертки w используется для заданной единственной нормализации и при нахождении в качестве оптималь- оптимального решения ср/<° =Ф из условия w [и [F (ф^о)]} = max w [и [F Для варианта В\А2 единственный критерий свертки w используется при на- нахождении в качестве оптимального решения Ф^Ф из условия (компоненты оценочного функционала не нормализуются). = max w [ Для варианта С\А2 имеем множество нормализованных векторных оценочных функционалов Ф|(фь) и соответственно бЦфь), yl(q>k), &l(q>k) при ?еЕ„ Ф^еФ, а единственный критерий свертки w используется пои нахождении ре- решения одной из следующих четырех задач: 1) Я(ф?0)= max H((pk); фЕФ wl (<pk) = w W% (Фл)] / ^ w 7 2) A^° (фЛо) = min max Ф g где в качестве А6(фа) могут быть использованы 6^(фа), 76(фь)» с5(фл) фиксированном coeQ, соответствующем заданной свертке ш; 3) ЯЙ°)=тахЯ(|); б 3) ЯЙ)тах без 4) Д^° (Ф^03) = min max у ges lies Для вариантов ^ij52, 5ijB2, CiB2, соответственно имеем единственную нор- нормализацию и[#"(фа)], ненормализованную ^(фл) и множество нормализо- 250
ванных ^(фь) при g^H, фл^Ф, а критерии свертки непригодны, при этом задачи 1)—4) выбора нормализации g° и оптимального решения формулиру- формулируются аналогично, если формально в качестве критерия свертки w использовать преобразование суммирования по компонентам векторного оценочного функ- функционала Q Для вариантов А{С2, ВХС2, СХС2 соответственно имеем единственную нор- нормализацию и [^(фй)], ненормализованную #~(фл), множество нормализован- нормализованных #"&(фа) при ^еЕ, ф/^Ф и множество иу©(Фь) =ш<1^[^~|(ф/1)] .критериев свертки при co<=Q. Для варианта CiC2 задачи выбора оптимального решения по многоцелево- многоцелевому оценочному функционалу формулируются следующим образом: = max H (фЛ); и& А|°о (фЛ0) = min max A| (фЛ), где> качестве А|(фк) могут быть использованы б| (фк), у\ (фк), е| (фк); 3) Н (go, со0) = max tf (g,o); Я (g, со) = ^ ^ ш| (Ф^) Jn 4) А^°о (cp^i00!) = min max iей Для варианта AiC2 эти задачи формулируются при условии, что множест- множество 5 состоит из единственного элемента g, соответствующего заданной нор- нормализации ы[#"(фа)], а для варианта BiC2 использование ненормализованных ?F(q)k) означает, что S также состоит из единственного элемента g, соответ- соответствующего теперь тождественной нормализации м[^(фа)] =^"(фа) при В общем случае критерии свертки зависят от метода v учета приоритета, т. е. wv[&~t(q>k)] =ау[^1;(ф/0 \v] при ф^еф. Пусть задано множество V ме- методов учета приоритета, тогда можно определить случаи Аз, Вз, Сз аналогично предыдущему и для каждого из 27 вариантов сформулировать задачи выбора, однако можно рассматривать wv[?Tz(q)k)] для фиксированных нормализации w> и свертки w просто как различные способы свертки при разных i/еУ, и тогда случаи Л3, J53, C3 переходят соответственно в Л2, #2, ^2- 251
ЛИТЕРАТУРА 1. Беллман Р. Динамическое программирование. М.: ИЛ, 1960. 400 с. 2. Бернштейн С. Н. Теория вероятностей. М.; Л.: Гостехиздат, 1946, 556 с. 3. Блекуэлл Д., Гиршик М. А. Теория игр и статистических решений. М.г ИЛ, 1958. 4. Гусев Л. Л., Смирнова И. М. Размытые множества. Теория и приложения. (Обзор).—АиТ, 1973, № 5, с. 66—84. 5. Де Гроот М. Оптимальные статистические решения. М.: Мир, 1974. 496 с. 6. Дубров #. А. К теории небулярностей.— В кн.: Математические модели сложных систем. Киев: ИК АН УССР, 1974, с. 10—19. 7. Дынкин Е. Б., Юшкевич А. А. Управляемые марковские процессы и их приложения. М.: Наука, 1975, 338 с. 8. Емельянов С. В., Борисов В. #., Малевич Л. Л., Черкашин А. М. Модели и методы векторной оптимизации.— В кн.: Техническая кибернетика. Итоги науки и техники. М.: ВИНИТИ, 1973, т. 5, с. 386—448. 9. Заде Л. Дезоер Ч. Теория линейных систем. М.: Наука, 1970. 703 с. 10. Зимин Э., Быоменен О. Толерантные пространства и мозг.— В кн.: На пути к теоретической биологии. М.: Мир, 1970, с. 134—144. 11. Карлин С. Основы теории случайных процессов. М.: Мир, 1971. 536 с. 12. Крамер Г. Математические методы статистики. М.: Мир, 1975. 648 с. 13. Кулик В. Т. Небулярные множества.— В кн.: Системология. Киев: ИК АН УССР, 1974, с. 3—11. 14. Кулик В. Т., Бадрак С. А. Небулярное управление небулярными система- системами.— В кн.: Математические модели сложных систем. Киев: ИК АН УССР,. 1974, с. 3—9. 15. Куллдорф Г. Введение в теорию оценивания. М.: Наука, 1966. 176 с. 16. Льюс Р. Л., Райфа X. Игры и решения. М.: ИЛ, 1961. 642 с. 17. Ластед Л. Введение в проблему принятия решений в медицине. М.: Мир„ 1971. 284 с. 18. Мак-Кинси Дж. Ч. Введение в теорию игр. М.: Физматгиз, 1960. 420 с. 19. Петров Б. Н., Уланов Г. М., Ульянов С. В. Ценность информации. Семио- Семиотические аспекты информационной теории управления и кибернетики.— В кн.: Техническая кибернетика. Итоги науки и техники. М.: ВИНИТИ, 1973, т. 5, с. 193—385. 20. Трухаев Р. И., Хоменюк В. В. Оптимизация по энтропийному критерию в- условиях неопределенности.— В кн.: Тез. докл. на Всесоюзн. межвуз. сим- симпозиуме по математике и кибернетике. Горький: Гос. ун-т, 1967. 21. Трухаев Р. И. Динамические процессы в условиях неопределенности ста- стационарных процессов.— В кн.: Техническая кибернетика, Итоги науки и техники. М.: ВИНИТИ, 1973, т. 5, с. 70—80. 22. Трухаев Р. И., Лернер В. С. Динамические модели процессов принятия ре- решений. Кишинев: Штиинца, 1974. 260 с. 23. Динамические модели процессов принятия решений/Под ред. Р. И. Тру- хаева. Владивосток: ДВНЦ АН СССР, 1976, 168 с. 24. Прикладные методы исследования процессов принятия решений/Под ред. Р. И. Трухаева. Владивосток: ДВНЦ АН СССР, 1976. 188 с. 25. Модели процессов принятия решений/Под ред. Р. И. Трухаева. Владиво- Владивосток: ДВНЦ АН СССР, 1978. 172 с. 26. Уилкс С, Математическая статистика. М.: Наука, 1967. 632 с. 27. Хазен Э. М. Марковские процессы и оптимальное управление. М.: Изд-во МГУ, 1965. 28. Хитч Ч., Маккин Р. Военная экономика в ядерный век. М.: Воениздат, 1964, с. 624. 29. Ховард Р. Л. Динамическое программирование и марковские процессы. М.: Сов. радио, 1964. 190 с. 252
30. Хоменюк В. В. Метод решения задач оптимизации систем по многоцелевому критерию.— В кн.: Тез. III Всесоюз. симпозиума по пробл. системотехники.. Л.: Судостроение, 1976. 31. Хоменюк В. В. Применение критерия максимальной эффективности в зада- задачах векторной оптимизации.— В кн.: Прикладные методы теории оптими- оптимизации (проблемы векторной оптимизации). Владивосток: ДВНЦ АН СССР, 1977, с. 20—27. 32. Хоменюк В. В., Чемерис М. В. Об улучшаемости в многокритериальных за- задачах.— В кн.: Прикладные методы теории оптимизации (проблемы век- векторной оптимизации). Владивосток: ДВНЦ АН СССР, 1977, с. 28—33. 33. Чернов Г., Мозес Л. Элементарная теория статистических решений. М.: Сов. радио, 1962. 406 с. 34. Arrow К. /. Decisions theory and operations research.— Operations research, 1957, vol. 5, N 6. 35. Bells M., Guiasu S. A quantitative — qualitative measure of information in cybernetic systems.— IEEE Trans. Inform. Theory, 1968, vol. 14, N 4. 36. Bernoulli) D. Ars conjecfaudi (Opns post human) «Accedit tractatus de se- riebus infinitis, et epistola gallice scripta de ludo fHlae reticulavis». Basel,. 1713. 37. Braga-Illa A. A simple approach to the Bayes choice criterion.— J. Amen Statist. Assoc, 1964, vol. 59, N 308. 38. JBunke 0. Stabilitat statistischer Entscheidungsprobleme und Anwendungen in der Diskriminanzanalyse.— Z. Wahrscheinlichkeits theor. und verw. Geb., 1967, Bd. 7, N 2. 39. Chernoff H. Rational selection of decision functions.— Econometrica, 1954,. vol. 22. 40. De Groot M. H. Uncertainty, information and sequential experiments.— Ann. Math. Statistics, 1962, vol. 33, N 2. 41. De Luca A., Termini S. A definition of nonprobabilistic entropy in the set- setting of fuzzy sets theory.— Information and Control, 1972, vol. 20. 42. Fishburn P. С Decision and value theory. N. Y.: Wiley, 1964, 451 p. 43. Fishburn P. С Independence in utility theory with whole product sets.— Operations Research, 1965, vol. 13, N 1, p. 20—45. 44. Fishburn P. C. Analysis of decisions with incomplete knowledge of probabi- probabilities.—Operations Research, 1965, vol. 13, N 2, p. 217—237. 45. Havrade J., Charvat F. Quantification method of classification processes. Concept of structural a-entropy.— Kybernetika, 1967, vol. 1, N 3. 46. Hodges J. L., Lehmann E. L. The uses of previous experience in reaching statistical decisions.— Ann. Math. Statistics, 1952, vol. 23. 47. Hurwicz L Optimality criteria for decision making under ignorance.— Cowles Comission Discussion Papers, 1951, N 370. 48. Isaacs H. Decision sensivity to the errors of the probability estimations.— Operations Research, 1963, N 11. 49. Janes E. T. Information theory and statistical mechanics.— Th. Physical Rev., 1957, vol. 106. 50. Janes E. T. Probability theory in science and engineering.— In: Proceedings of the 1st Sympsoium Applic. Random functions theory and probability. N. Y.: McGraw-Hill Book Co, Inc., 1963, p. 163—203. 51 Jeffreys H. Theory of probability, 3d ed. London: Oxford University Press, 1961. 52. Keynes J. M. A treatise on probability. N. Y.: Harper and Row., 1962. 53. Menges G. The optimal decision criteria under uncertainty.— Statistische Hefte, 1963, N 4. 54. Menges G. On the «Bayesification» of the minimax principle.— Unternehmen- sforschung, 1966, vol. 10, N 2. 55. Kullback S., Leibler R. On information and sufficiency.— Ann. Mathem. Sta- Statist., 1951, vol. 22. 56. Nagel E. Principles of the theory of probability,— In: International encyclo- encyclopedia of Unified science, vol. 1, N. 6. Chicago: University of Chicago Press, 1962. 253
57. Math P. Inaccuracy and coding theory.— Metrica, 1968, N 2 3. 58. Pierce D. A. A method for determining the sensivity of a Bayes procedure to the prior distribution: Doct. diss. Okla State Univ., 1965, 98 p.— Dissert. Abstrs, 1966, vol. 27, N 1. 59. Renyi A. On measures of entropy and information.— In: Proceedings of the 4th Berkeley Sympsoium on a probability and statistics. Berkeley: University of California Press, 1961, vol. 1, p. 547—561. *60. Renyi A. Warscheinlichkeitsrechnung mit einen Anhang uber Informationstheo- rie.— VEB Deutscher Verlag der Wissenschaften, Berlin, 1962. 61. Renyi A. Information and statistics.— Studies math, statist. Budapest, Akad. Kiado, 1968. 62. Savage L. J. The theory of statistical decision.—J. Amer. Statistical Assoca- tion, 1951, vol. 46, N 1. 63. Savage L. J. The foundations of statistics. N. Y.; London: Wiley, Chapman and Hall, 1954. 64. Schneeweiss H. Eine Entscheidungsregel fur den Fall partiell hfcKannter Wahrscheinlichkeiten.— Unternehmensforschung, 1964, Bd. 8, N 2. 65. Schneeweiss H. Entscheidungskriterien bei Risiko. Berlin, 1967. 66. Von Mises R. Probability statistics and truth. N. Y.: Macmillan Company, 1957. 67. Watanabe S. Modified concepts of logic, probability and Information basea on generalized continuous characteristic function.— Information a. Control, 1969, vol. 15, N 1. 68. Zadeh L. A. Outline of a new approach to the analysis of complex systems and decision processes.— IEEE Trans. Syst., Man, Cybern., 1973, vol. SMC-3. 69. Zadeh L A. Fuzzy sets.— Information a. Control, 1965, vol. 8, N 1. 70. Zadeh L. A. Probability measures of fuzzy events.—J. Math. Anal, and AppL, 1968, vol. 23, N 2. 71. Zadeh L. A. Similarity relations and fuzzy orderings.—Inform. Sci., 1971, vol. 3, N 2.
ОГЛАВЛЕНИЕ Предисловие 3"- Часть первая СТАТИЧЕСКИЕ МОДЕЛИ ПРИНЯТИЯ РЕШЕНИЙ Глава первая Элементы статических моделей процессов принятия решений .... 5 1. К теории принятия решений 5 2. Статическая модель принятия решений в условиях неопределенности 9 Глава вторая Первая информационная ситуация 14 1. Критерии принятия решений 16 2. Байесовы множества решений 24 3. Байесовы поверхности 37 4. Чувствительность байесовых решений 43 5. Устойчивость, стабильность и регулярность байесовых решений . . 52 6. Мертвые и маргинальные зоны априорных вероятностей 56 Глава третья Вторая информационная ситуация 59 1. Критерии принятия решений 60 2. Статистические методы оценки неопределенного параметра .... 64 3. О нахождении плотности распределения вероятностей неопределен- неопределенного параметра 72 Глава четвертая Третья информационная ситуация 77 1. Отношения порядка 77 2. Дескриптивные методы получения систем упорядочения состояний среды и линейных отношений порядков распределения вероятностей состояний среды 81 3. Точечные оценки Фишборна 84 4. Функции неопределенности второго рода 86 5. Методы анализа решений по оценкам распределения априорных ве- вероятностей 87 Глава пятая Четвертая информационная ситуация 93 1. Критерий максимума интегрального потенциала 94 2. Оценочные критерии принятия решений 96- 3. Принцип максимума Гиббса-Джейнса 99 4. Функции неопределенности первого рода и обобщение принципа Гиб- Гиббса-Джейнса 108 5. Принцип максимума функций неточности 111 255
Глава шестая Пятая информационная ситуация 117 1. Критерии принятия решений 117 2. Функции неопределенности третьего рода и принцип максимума Гиб- са-Джейнса 120 Глава седьмая Шестая информационная ситуация 124 1. Критерии принятия решений 124 2. Принцип «байесификации» минимаксного критерия 132 Глава восьмая Седьмая информационная ситуация 136 1. Нечеткие множества 136 2. Нечеткие множества состояний среды . 140 3. Функции неопределенности нечетких множеств 143 4. Принцип максимума функций неопределенности четвертого рода . . 145 5. Критерии и задачи принятия решений на нечетких множествах . . 146 Глава девятая Проблема принятия многоцелевых решений в условиях неопределенности 150 1. Классы задач принятия многоцелевых решений . 150 2. Выбор способа нормализации, учета приоритета и критерия свертки 155 3. Улучаемость в задачах принятия многоцелевых решений 156 4. Принцип максимума функций неопределенности в ситуациях приня- принятия многоцелевых решений 158 Часть вторая ДИНАМИЧЕСКИЕ МОДЕЛИ НЕОДНОРОДНЫХ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ Глава десятая Элементы динамических процессов принятия решений ....... 162 1. Простейшая модель динамического процесса принятия решений . 162 2. Рекуррентные уравнения для нахождения оптимальной стратегии в простейшей модели динамического процесса принятия решений . . 166 3. Рекуррентные уравнения по ситуациям поведения среды .... 174 4. Рекуррентные уравнения по ситуациям поведения управляемого объекта на этапах перехода в динамическом процессе 177 5. Рекуррентные уравнения для динамических процессов принятия ре- решений с последействием 178 Глава одиннадцатая Динамические процессы принятия решений при ограничениях на время перехода объекта 179 1. Математическая постановка задачи 179 2. Рекуррентные уравнения объекта при абсолютно достоверном источ- источнике информации 181 3. Рекуррентные уравнения в отсутствие источника информации . . 187 Глава двенадцатая Динамические процессы принятия решений с неаддитивными функцио- функционалами 191 1. Об оптимальной стратегии решений 191 2. Принцип оптимальности 195 256
Часть третья МАРКОВСКИЕ МОДЕЛИ ПРОЦЕССОВ ПРИНЯТИЯ РЕШЕНИЙ Глава тринадцатая Марковские процессы принятия решений без переоценки 201 1. Процессы принятия решений с поглощающим состоянием .... 201 2. Процессы с выделенным состоянием 207 3. Процессы принятия решений с конечным и бесконечным числом этапов 210 Глава четырнадцатая Марковские процессы принятия решений с произвольным источником информации и ненулевой стоимостью испытаний 213 1. Постановка задачи 213 2. Свойства и решения оценочного функционала 216 3. Единственность решения 221 4. Равномерная сходимость последовательных приближений и суще- существование решения 224 Глава пятнадцатая Марковские процессы принятия решений в отсутствие источника инфор- информации 228 1. Постановка задачи принятия решений 228 2. Существование и единственность решения. Свойства непрерывности и вогнутости оценочного функционала 230 Глава шестнадцатая Оптимизация информационных структур марковских процессов приня- принятия решений 233 1. Функциональные уравнения оптимальной информационной структуры марковских процессов принятия решений 234 2. Свойства функциональных уравнений для поглощающих и регуляр- регулярных марковских цепей . / • 241 3. Алгоритм поиска оптимальной стратегии принятия решений для по- поглощающей марковской цепи с недостоверным источником информа- информации о состоянии 248 Приложение 249 Литература 252 Рудольф Иванович Трухаев МОДЕЛИ ПРИНЯТИЯ РЕШЕНИИ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ Утверждено к печати Хабаровским комплексным научно-исследовательским институтом Дальневосточного научного центра АН СССР Редактор А. А. Марусич. Редактор издательства В. В. Ященко. Художник С. А. Смирнова. Художественный редактор Н. Н. Власик. Технический редактор Е. Н. Евтянова. Коррек- Корректоры Н. И. Казарина, Л. В. Письман ИБ Mb 21011 Сдано в набор 06.03.81. Подписано к печати 02.12.81. Т-28943. Формат 60X907ie. Бумага гнижно-журнальная. Гарнитура литературная. Печать высокая. Усл. печ. л. 16. Усл. кр.- отт. 16,4. Уч.-изд. л. 16,3. Тираж 3450 экз. Тип. зак. 5351. Цена 1 р. 70 к. Издательство «Наука> 117864 ГСП-7, Москва, В-485, Профсоюзная ул. 90. 2-я типография издательства «Наука» 121099, Москва, Г-99, Шубинский пер., 10