Text
                    г, ДЫНКИН, А А ЮШКЕВИЧ
управляемые
Марковские
процессы
и\ их приложения
*=* ИЗДАТЕЛЬСТВО -НАУКА


АКАДЕМИЯ НАУК СССР ЦЕНТРАЛЬНЫЙ ЭКОНОМИКО-МАТЕМАТИЧЕСКИЙ ИНСТИТУТ Е.Б.ДЫНКИН, А.А.ЮШКЕВИЧ УПРАВЛЯЕМЫЕ МАРКОВСКИЕ ПРОЦЕССЫ И ИХ ПРИЛОЖЕНИЯ ИЗДАТЕЛЬСТВО «НАУКА» МОСКВА 1975
книга посвящена одному из наиболее актуальных вопросов в общей теории управления — проблемам оптимального управления с учетом случайных факто- факторов. Теоретические вопросы излагаются в ней парал- параллельно е приложениями к задачам о распределении ресурсов между различными отраслями производства и потреблением, оптимальных сроках замены обору- оборудования, регулировании водоснабжения и др. Работа рассчитана на специалистов по приклад- прикладной математике, теории вероятностей, кибернетике, математической экономике, автоматизированным си- системам управления. Д 10803-167 042@2)-75 —БЗ-20-13 Издательство «Наука», 1975 г* ПРЕДИСЛОВИЕ по с дискретным временем (по другой ^ Расска3 шаговых марковских проце различным конкретным за- о применениях это*теорим^р атичесюш МОделям SSSS^SSS Уч—им случайные ПГры стремились ^^ZTZ^^or хатель, заинтересованный в приложения , ^ мии»альшш нахвна™^™^ мавах строгую математик найдет в с00™^СТВУия основанную на раз- теорию общих ^^JXeCKHX 'множествах, теоремах витой теории меР?' аеНаиЛИ™ Мы отступили от манеры об измеримом выборе и т^ т которых излага- многих математических монографии ^ v ^^ pac, ется сразу наиболее общая ситуация * _ примерЫ. сказываются более «РоС™е ^ь Трудности для читателя Ставя своей целью №3^штъ^У* наиболее материала мы вводим новые °°™^чинДают работать. простой обстановке, где, они У управления на Так прежде чем Р^^^/Сы детально исследуем бесконечном интервале^ времени, мы д ^ шдр случай конечного ин^Р^ми пространствами состояний изучаются модели с *°"в™™ ?*?„ выхода за рамки н управлений - слуД^™ ^то^Гвремя позволяющий элементарной математики и » ™ ж р Результаты, объяснить важнейшие принципы т V кя затвм полученные для ««^^^едрерывн^ моделей, ko-j ^ПГГ TZZl усРлоРвии ког
характера. При этом используются простейшие факты о непрерывных функциях в метрических пространствах и об интеграле Лебега. Наконец, изучается самый общий случай (борелевские модели), предъявляющий значительно более высокие требования к математической подготовке читателя. Некоторые трудности, с которыми приходится сталкиваться, возникают уже для счетных моделей; их мы рассматриваем предварительно. Более серьезные ос- осложнения, связанные с проблемами измеримости, преодо- преодолеваются с помощью аппарата аналитических множеств и теоремы об изоморфизме борелевских пространств (необходимые результаты доказываются в добавлении). Такая система изложения требует некоторых повторений. Как правило, доказательство подробно проводится для простейшего класса моделей, к которому оно применимо. Для более широких классов указываются лишь необхо- необходимые дополнения. Общим постановкам задач предше- предшествуют конкретные примеры из разных областей прило- приложений. Ряд таких примеров описывается во введении. Мы возвращаемся к ним на протяжении всей книги .до мере того, как общая теория дает средства для их решения. Теория многошаговых марковских процессов решения была подготовлена пионерными работами Вальда [1, 2] по последовательному анализу и статистическим решающим функциям. Под названием динамического программирова- программирования она развивалась Бедлманом с начала 50-х годов. В этой теории учитывается двоякая роль управления на каждом шаге: непосредственный выигрыш и влияние на последующую эволюцию системы. Уже в первой монографии Беллмана [1] ларяду с детерминированным рассматри- рассматривался стохастический елуидй, когда управление не опрд- .деляет .последующих состояний системы? а-лишь влияет на их распределение вероятностей. Дальнейший сущест- существенный вклад был внесен Ховардом [1] и Дуббинсом и Сэвиджем [1]. Фундаментальные результаты относительно управляемых марковских процессов с произвольными множествами состояний и управлений были получены Блекуэлом [4, 5] и Штраухом [1]. Их работы составляют основу излагаемой нами теории борелевских моделей. Другое изложение результатов Блекуэла—Штрауха со- содержится в монографии Хиндерера [1]. В первых двух частях предлагаемой книги доказы- доказывается существование оптимальных и е-Ьптдмал&впдх стратегий для различных классов управляемых марков- марковских процессов; исследуются свойства этих стратегий и указываются некоторые способы их нахождения. Парал- Параллельно с общей теорией рассматриваются конкретные задачи: распределение ресурса между производством и потреблением и между различными отраслями производ- производства, замена оборудования, стабилизация линейной си- системы, находящейся под влиянием случайных возмущений, распределение ставок и др. Сначала рассматриваются процессы, неоднородные tio времени, а затем исследуются специфические проблемы, связанные с однородным слу- случаем: существование стационарных оптимальных стра- стратегий, максимизация среднего дохода за единицу времени. В третьей части анализируются модели с неполной инфор- информацией. Их удается свести к моделям с полной информа- информацией, изученным в первых частях, с помощью введения пространств, точками которых служат распределения ве- вероятностей. Последняя глава посвящена новым резуль- результатам о вогнутых моделях и моделях экономического развития, учитывающих случайные факторы. Другие главы также содержат ряд новинок (канониче- (канонические стратегии, суммируемые модели, исследование общих моделей с неполной информацией). Доказательства мно- многих известных результатов подверглись значительной переработке. В книге не затронуты управляемые процессы с непре- непрерывным временем. Это — тема, требующая специальной монографии. Мы не ставили целью полностью охватить и все результаты о процессах с дискретным, временем (све- (сведения о некоторых из них содержатся в историко-библио- графической справке в конце книги). Весь материал книги можно разделить на три уровня в зависимости от требований к читателю. Первый предпо- предполагает только знание элементов теории вероятно.стей и анализа. Соответствующие разделы доступны специали- специалистам с инженерным и экономическим образованием. Это — введение, главы 1 и 4, §§ 1—6 главы 6, §§ 1—7 и 11 главы 7. Читателям указанной категории рекоменду- рекомендуются также §§ 7—11 главы 2, §§ 9—12 главы 6 и § 12 главы 7, где рассматриваются приложения общих мето- методов к конкретным задачам (при этом придется Просмотреть формулировки из других параграфов, на которые имеются ссылки). Следующий уровень ориентирован на лиц, ра-
ботающих в области прикладной математики. В соответ- соответствующих разделах используются лишь начальные све- сведения из теории меры и-теории метрических пространств, причем все необходимые формулировки приводятся в тексте. Сюда относятся глава 2, §§ 8—10 главы 7, §§ 1—3 и 5 главы 8 и глава 9 (последний параграф этой главы требует знакомства с элементами функционального ана- анализа). Остальные разделы (главы 3 и 5, §§ 7—8 главы б, § 4 главы 8 и добавления 1—5) представляют интерес главным образом для математиков, хотя начальные па- параграфы глав 3 и 5, и § 7 главы б, где формулируются основные результаты, полезно просмотреть и другим читателям. Для полного чтения этих разделов достаточно обязательного курса математических факультетов. Све- Сведения, выходящие за рамки этого курса, приводятся в до- добавлении и, частично, в основном тексте., Аппарат, изло- изложенный (с подробными доказательствами) в добавлении, находит широкое применение во многих разделах совре- современной математики. Формулы нумеруются в пределах каждого параграфа. Принятая в книге система ссылок ясна из следующих примеров: C.2.7) —это формула G) из § 2 главы 3; B.7) — это формула G) из § 2 данной главы; @.5) — это формула E) из введения. ВВЕДЕНИЕ Управляемые случайные процессы возникают в самых разнообразных областях. Обратимся, например, к экономическому планирова- планированию. Планировать можно работу отдельного предприятия, отрасли или всего народного хозяйства. В начале каждого периода, исходя из достигнутого состояния, намечается план на следующий период. Развитие системы можно опи- описывать математически как управляемый детерминирован- детерминированный процесс, если считать, что состояние системы в конце каждого периода однозначно определяется состоянием в начале периода и планом на этот период. Однако не всегда можно пренебрегать влиянием таких факторов, как метеорологические условия, демографические сдвиги, ко- колебания спроса, несовершенство координации сложных производственных процессов, научные открытия и изобре- изобретения. Эти факторы лучше учитываются стохастическими моделями, в которых, зная состояние в начале периода и план, можно вычислить лишь распределение вероят- вероятностей для состояния в конце периода. Таким образом мы приходим к управляемому случайному процессу. Проиллюстрируем сказанное на простейшей модели распределения ресурсов между потреблением и производ- производством. Интересные к-ачественные выводы можно, получить даже из крайне упрощенной модели с единственным ре- ресурсом, который можно использовать как для производ- производства, так и для потребления. Предположим, что в течение одного периода из у единиц ресурса в сфере производства получается F(y). Если обозначить через yt количество, направляемое в производство в период t, и через ct — количество продукта, потребляемое в этот период, то
имеем очевидное соотношение Влияние случайных факторов вводится с помощью пред- предположения, что F зависит, помимо у, от случайного пара- параметра s, так что К описанной упрощенной модели сводится более содержа- содержательная экономическая модель, учитывающая, что для производ- производства необходимы трудовые затраты и производственные фонды." Уравнение выражает продукцию за период t через количество фондов Ki^1 и количество труда Lt_x в этом перирде. Функция Ф называется производственной функцией. Произведенная продукция Xt разт деляется на часть Ct, направляемую на потребление, и часть Xt—Ct, используемую для приращения производственных фондов. Оче- Очевидное соотношение Kt=Kt_x-\-Xt—Ct можно переписать в виде Обычно предполагают, что производственная функция Ф удовлет- удовлетворяет условию Ф(кК, Щ = 1Ф{К,Ь) при Х>0. Поделив уравнение C) на ?t и полагая Ct Kt . Lj получим уравнение 1I- Будем считать, чт& lf=l не зависит от времени t, так что трудовые ресурсы меняются по показательному закону. Тогда уравнение D) примет форму A), если положить F (У) = I'1 IV + Ф (у, 1)]. Отметим, что величины ct и yt имеют простой экономический смысл, выражая, соответственно, потребление и количествскфондов на одного работника. Если учитывать случайные факторы, то .надо ввести случай- случайный параметр s в производственную функцию Ф. Тогда F тоже будет зависеть от s, и мы получим уравнение B). 8 Более содержательная модель экономического плани- планирования должна учитывать не единственный ресурс, а множество таких ресурсов. Одна из таких моделей пред- предложена Д. Гейлом (она является обобщением более ран- ранней модели Дж. Неймана). В ее основе лежит представ- представление производственного процесса в виде пары неотрица- неотрицательных то-мерных векторов {%, rj): i-ые координаты этих векторов означают, соответственно, количества i-oro ре- ресурса, затрачиваемого и выпускаемого в ходе процесса. Для каждого периода t нужно выбрать производственный процесс (%t, y\t) из заданного множества ?Гt процессов, технологически осуществимых в этот период. При этом затраты на каждом шаге не должны превышать выпуска на предыдущем шаге, так что \t ^ ч\ь_х (rj0 обозначает заданный вектор начальных ресурсов1. Множество &'t может зависеть от случайного параметра sf, описывающего, например, состояние научно-техниче- научно-технических знаний или внешней среды. Тогда и выбор процесса (lt, -r\t) должен зависеть от. st (он может зависеть и от предшествующих значений случайного параметра, но не от будущих, которые еще неизвестны). Еще один пример — задача регулирования запасов воды. Вода запасается в водохранилище и расходуется для орошения в" засушливый период. Пусть st — годовое количество воды, которое можно использовать для по- пополнения водохранилища. В начале периода t, распола- располагая запасом воды xt_x, мы планируем количество воды ап которое будет использовано в этот период на орошение. Если бы объем водохранилища был неограничен, то мы имели бы уравнение ж/=ж/,_1—at-\-st. Если же его объем равен U, то вместо этого получаем соотношение Значение sf зависит от количества осадков, характера половодья, таяния ледников и т. п. и его естественно рас- рассматривать как случайную величину. Следующий пример можно интерпретировать как задачу распределения ставок между двумя вариантами игры. При ставке х выигрыш в первой игре равен ах, а во вта- 1 Запись Е < т], где ? и т) —¦ m-мерные векторы, означает, что каж- каждая координата j не превосходит соответствующей координаты -ц. 2 Символ <t /\ b обозначает наименьшее из чисел о и Ъ.
рой — ix, где а и т — случайные величины с различными распределениями вероятностей. Игра повторяется много- . кратно. Пусть xt_x — общая сумма, которой играющий располагает в момент t—1, и пусть он ставит afxt_x в пер- первой игре и $txt_x во второй (^+^ = 1). Тогда xt = («Л + $ft) xt_x. F) Вместо двух игр можно рассматривать два способа поме- помещения денег (например, положить их в сберкассу или приобрести лотерейные билеты) или две производственные отрасли с различными коэффициентами отдачи. В послед- последнем случае естественно заменить уравнение F) на ж, = («<О<+РЛ) (*<-!-«<)• G) . считая, что выпуск в момент t—1 не полностью распреде- распределяется между производственными отраслями, а частично идет на потребление. В каждой задаче управления возникает вопрос о цели управления. В задаче распределения ресурса между потреб- потреблением и производством естественно оценивать план по последовательности^, с2, . . . , с(, . . . количеств, направ- направляемых на потребление. Наиболее простая и законченная теория получается, если предположить, что оценка такой последовательности складывается и» оценок каждого ко- количества ct, что приводит к выражению giteO + ft^+.-.Tf g, (<*)+••• (8) (естественно считать, что оценка объема потребления ct зависит и от времени t). В математической экономике обычно предполагают, что функции qt вогнуты3. Сумма (8) определяет так называемую целевую функцию, максими- максимизация которой является целью планирования. В многопродуктовой модели Неймана—Гейла в ка- качестве целевой функции принимается Ях $v Ъ) + Qi ^2' Ъ) + • • • + Qt &. \) + • • • где qt{%, tj) — оценка полезности производственного про^ цесса (Ч, г). Управление запасами воды преследует задачу полу- получить наибольший урожай. Можно считать, что средний урожай за период t является функцией /(а) от количества 3 График вогнутой функции лежит над каждой его хордой. Ю воды а, отпускаемой для орошения. Оценивая урожай z в году t с помощью функции gf{z), мы приходим к целевой функции ?i(«i) + ga(aa)+•••+?>,)+ -.., (9) где qt{a)=g([f(a)]. Если план составляется на п периодов, то в суммах (8) и (9) надо рассматривать первые п членов. Если управляемый процесс случаен, то целевая функ- функция (8) или (9) представляет собой случайную величину. Из двух случайных величин естественно предпочесть ту, у которой больше математическое ожидание. Поэтому в стохастическом варианте управления суммы (8) и (9) заменяют их математическими ожиданиями. Вернемся к задаче о распределении ставок между двумя играми. Здесь естественно стремиться к максимально возможному окончательному выигрышу хп, причем оце- оценивать величину хп можно, например, с помощью мате- математического ожидания г(хп), где г — какая-то неубываю- неубывающая функция. Отметим, что оптимальное поведение за- зависит от вида функции г. Вообще говоря, получить лишний рубль важнее тогда, когда этих рублей мало, и поэтому часто считают, что функция г вогнута. Однако, может случиться, что нам требуется определенная сумма h, и целью является выиграть эту сумму с максимальной вероятностью. В этом случае надо положить '(*)= о при при х <С h. Более общая постановка задачи была бы такая, при которой из любых двух распределений вероятностей для выигрыша хп игрок предпочитает какое-то одно (или считает -их равноценными). Из об- общей теоремы Неймана—Моргенштерна вытекает, что при широ- широких предположениях такое упорядочение распределений определя- определяется величиной математического ожидания г (хп), где функция г определена однозначно с точностью до постоянного положительного множителя и постоянного слагаемого 4. В задаче распределения средств между двумя отраслями разумно рассматривать целевую функцию (8). * См. К. Эрроу [1], раздел 2, и Е. Б. Дынкин ж А. И, Овсеевич[{\. 11
Приведем еще две задачи оптимального управления случайными процессами. Первая из них — задача о замене оборудования. Предположим, что имеется некоторое устройство со слу- случайным сроком службы, и в начале каждого периода мы должны принять одно из двух решений: заменить устройство на новое или продолжать эксплуатировать старое. Вероятность поломки устройства и доход от его эксплуатации зависят от времени службы. При замене мы несем расходы на новое оборудование, при поломке сверх того терпим определенные убытки. Целью управле- управления является получение возможно большей суммарной прибыли (поскольку она случайна — рассматривается ее математическое ожидание). Вторая задача — поддержание стационарного режима работы технического устройства, подверженного случай- случайным возмущениям. Простейшее описание соответствую- соответствующего процесса дается уравнениями 1 *&t—\ ^t* A0) где slt s2, . . . , sf, . . . — случайные возмущения, alt a2, . . . , av . . . — корректирующие воздействия (выби- (выбирая at, мы знаем xt_^). Мы терпим убытки от отклонения yt от 0 и несем расходы, зависящие от величины аг Можно, например, ставить себе целью минимизировать матема- математическое ожидание суммы и п 7 'V1 2 I /. ^/,2 /11\ 1 ' 1 Другая возможность — минимизировать средние расходы за единицу времени при п —> со. До сих пор мы предполагали, что обладаем полной информацией относительно управляемого процесса. Между тем в реальных приложениях, как правило, получение полной информации либо невозможно, либо слишком сложно и дорого. Например, значение xt в задаче поддержания стацио- стационарного режима работы может наблюдаться с некоторой 12 (неизвестной) ошибкой. В задаче выбора между Двумя отраслями распределения вероятностей для случайных коэффициентов а и -с обычно неизвестны, хотя и имеется частичная о них информация, основанная на предваритель- предварительном опыте и расчетах. В этих условиях каждый следующий шаг не только дает материальную отдачу, но и приводит к дополнительным знаниям. Эти две стороны дела присущи почти каждой сфере человеческой деятельности, причем, как правило, на первый план выдвигается одна из них. Для производственного предприятия основной целью яв- является материальная отдача, но важным побочным резуль- результатом оказывается накопление производственного опыта. Для научного учреждения ситуация противоположна.
Часть I УПРАВЛЕНИЕ НА КОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ Г л а в а 1 КОНЕЧНЫЕ И СЧЕТНЫЕ МОДЕЛИ § 1. Управляемый детерминированный процесс Чтобы ввести читателя в идеи, на которых основано решение задач оптимального управления, рассмотрим следующую простейшую схему. На рис. 1.1 изображена система из 4 точек и 8 стрелок, соединяющих эти точки. Возле каждой стрелки указано число — оценка этой стрелки. Разрешается произвольно двигаться в направлении стрелок, причем оценка пути определяется как сумма оценок всех пройденных стре- стрелок х . Среди путей, выходящих из точки х и состоящих из четырех стрелок, требуется выбрать путь с максималь- максимальной оценкой (назовем его оптимальным). Таким путем, как мы увидим дальше, является путь, выделенный на рис. 1.1 жирными стрелками. При выборе оптимального пути на каждом шагу надо учитывать не только, в какой точке мы находимся, но и сколько шагов еще остается сделать. Поэтому целесо- целесообразно заменить рис. 1.1 схемой, изображенной на рис. 1.2. На этой схеме 5 столбцов изображают 4 точки рис. 1.1 в моменты времени t=0,1, 2, 3, 4. Стрелки, ве- ведущие из столбца Xt_± в столбец Х(, показывают переходы, возможные на t-ou шаге. Если выбрать любой путь из четырех звеньев на рис. 1.1, то соответствующая цепочка стрелок на рис. 1.2 изобразит график движения. 1 Оценку пути можно представлять себе как вознаграждение, по- получаемое при прохождении этого пути. Она служит определен- определенным критерием качества принимаемого решения. 14 В отличие от рис. 1.1 схемы, подобные рис. 1.2, поз- позволяют задавать системы, меняющиеся во времени (см. рис. 1.3). Если вычеркнуть из схемы, представленной Рис. 1.2 на рис. 1.3, несколько первых или последних столбцов, то снова получится схема аналогичного типа, только ' номер крайнего слева столбца окажется отличным от < нуля. Рис. 1.3 В общем случае (см. рис. 1.4) имеем конечные множества точек Хт, Хт+1, . . . ,Х„ (столбцы) и конечные множества стрелок Ат+1, • • • , Лп (стрелки множества А, ведут из X 1 в Xt). Точки множества Хп называются финальными. Из каждой нефинальной точки выходит по крайней мере одна стрелка. Последовательность стрелок образует путь, если начало каждой из них (кроме первой) совпадает с концом предыдущей стрелки и последняя стрелка окан- оканчивается в Хп. На множестве всех стрелок задана функ- функция q. Сумма" значений этой функции на всех стрелках 15
пути называется оценкой этого пути. Среди путей, выхо- выходящих из заданной точки х, требуется выбрать путь с наибольшей оценкой (оптимальный путь). Оценку оптимального пути, выходящего из точки х, мы назовем оценкой точки х и обозначим v (x). Для того, чтобы функция v(x) была определена на множестве X всех точек, положим ее равной 0 на Хп. Задача, разумеется, будет решена, если мы переберем все пути, выходящие из х, и сравним их оценки. Но этот метод редко применим, ввиду огромного количества ва- вариантов даже в не очень сложных схемах. Предположим, однако, что мы уже знаем функцию v(x). Тогда задача легко решается с помощью следующего критерия: для оптимальности пути I необходимо и достаточно, чтобы для любой стрелки а, принадлежащей I, q{a) = v (x) — v{y) A) (х — начало стрелки а, у — ее конец). В самом деле, складывая равенства A) по всем стрелкам пути I, полу- получим, что оценка I равна значению v в начальной точке этого пути. В то же время для любой стрелки а и ее на- начальной и конечной точек х и у (ибо правая часть равна оценке пути, состоящего из стрелки а и оптимального пути, выходящего из у). Если хо- хотя бы для одной стрелки пути I в формуле B) имеет место строгое неравенство, то складывая неравенства B) по всем стрелкам пути I, получим, что оценка I меньше оценки v в начальной точке, и, следовательно, путь I не оптимален. Заметим далее, что в нефинальной точке х v{x)= max [q{a) + v(y)], C) где у — конец стрелки а, А(х) — пучок стрелок, выхо- выходящих из х. Действительно, для любой стрелки а из А(х) выполняется неравенство B), а для стрелки а, являю- являющейся началом оптимального пути из точки х, оно заме- заменяется равенством [см. A)]. Формула C) выражает значе- значение оценки v на Xt_x через ее значение на Xt и позволяет вычислять v рекуррентно, двигаясь справа налево. Рис. 1.5 Рис. 1.6 *. На рис. 1.5 и 1.6 показаны вычисленные таким спо- способом значения оценки v для схем, изображенных на рис. 1.2 и 1.3, и из каждой нефинальной точки х жирно проведена стрелка, удовлетворяющая критерию A). Опти- Оптимальны те и только те пути, которые состоят из жирных стрелок. * * * Мы считали, что оценка пути складывается из оценок входящих в него стрелок. Можно рассмотреть более общую задачу, когда в оценку пути вносят вклад не только стрелки, но и точки пути. Пусть 1=хтат+1 хт+1. . . апхп — 2 Е. Б. Дынкин, А. А- Юшкевич 17
путь, состоящий из последовательно проходимых стре- стрелок ат+1, . . . , а, (а, ?4,) и точек se, xm+v. . . ,xH(xt?Xt)t причем началом стрелки at служит точка xt^, концом — точка хг Определим оценку / пути I формулой Щ) = г (хт) + q (ат+1) + г (хт+1) + . . . + д (ап) + + г(хп), D) где г — функция на точках, q — функция на стрелках. Если положить (x — начало стрелки а), то оценка D) запишется в виде: п 2, q (а,) + г (х„). i=m+l Поэтому мы ничего не потеряем в общности, считая, что г равно 0 на нефинальных точках. Тогда оценкой пути I будет сумма п t—m+1 Функции q и г назовем текущей и финальной платами. Критерий оптимальности пути и формула C) сохра- сохраняют силу и при наличии финальной платы г. Единствен- Единственное различие состоит в том, что теперь оценка v равна на Х„ не 0, а г. * * * Удобно ввести оператор V, преобразующий функции на стрелках в функции на нефинальных точках по фор- формуле 2 Vg {х) = sup g (а), E) и оператор U, преобразующий функции на точках в функ- функции на стрелках по формуле Uf (a) = q(a)-\-f (у) {у — конец стрелки а). F) В частности, Uv (a) — это максимальная оценка пути, на- начинающегося стрелкой а. Обозначим эту величину и (а) и * Разумеется, пока мы имеем дело с конечными множествами Л (х) супремум можно заменить максимумом, 18 назовем ее оценкой стрелки а. В силу условия C) v{x) = r{x) (х?Хя). G) (8) Уравнения G) с граничным условием (8) определяют и и v. Значение Vg (x) при хиз Х^ определяется по значениям g наЛ^значение Uj^ (а) при а из At — по значениям/ на Хг Функ- Функцию gможно рассматривать как набор {gm+1, . . ., gn), ?Pfigt—• сужение g на4<tфункцию/—какнабор{/т,/т+1,. . ^/J.rfle/, — сужение / на Х(. Операторы V и U также можно заме- заменить наборами {Vm+V . . ., FJ и {Um+1, ...,Un), где Vt пере- переводит функции на At в функции на Xt_v a Ut переводит функции на Xt в функции на А(. В этих обозначениях формулы E)—(8) перепишутся следующим образом: {х)~ supg^(a) евА(х) ,-i); ^tft(a)z=qt{a)~\~ft(x) (x — конец стрелки а, vf^1=Viut, uf = Utvt (m<Ct^Ln) (9) vn = r. A0) § 2. Управляемые марковские процессы и модели Предположим, что выбор стрелки в точке х определяет не состояние у, а лишь распределение вероятностей для этого состояния. Пример такой схемы изображен на рис. 1.7. В столбике Аг указаны три распределения ве- вероятностей на множестве Xlf соответствующие трем стрел- стрелкам, ведущим иэ Хо. В столбике А2 указаны пять распре- распределений вероятностей на множестве Х2, отвечающих стрел- стрелкам, начинающимся в Xv Как и прежде, мы стремимся пройти путь с максимальной оценкой (т. е. суммой чисел, стоящих над стрелками пути и его финальным состоянием). Однако.теперь проходимый путь зависит не только от нашего выбора, но и от случая, и мы хотим максимизи- максимизировать математическое ожидание оценки. Естественно рассуждать следующим образом. В со- состоянии III математическое ожидание оценки равно 2* 19
Рис. 1.7 при выборе первой стрелки и равно 1+|.1+1.2 = 1+1=1 при выборе второй стрелки. Оценка состояния III равна максимуму из этих двух чисел, т. е. д-, и ясно, что при состоянии III следует предпочесть вторую стрелку (см. рис. 1.8, на котором выбранные стрелки проведены жирно). Аналогично 8\ 10 и в состоянии IV предпочтительнее первая стрелка; 20 Рис. 1.8 0 0 17/ ; 2 +1.1 +1.2) = = тах(з и в состоянии V выгоднее первая стрелка. Далее, выбирая в состоянии I первую стрелку, а затем поступая оптималь- оптимальным образом, получим оценку „ , 1 7 , 1 10 , 1 , , , 28 ,1 9 ' а выбирая вторую стрелку — оценку 7 , 1 10 , 1 , Л , 11 о 2 Максимальное из этих двух чисел — v (I). В состоянии I нужно выбирать ту стрелку, которая привела к значению v (I), т. е. первую стрелку. Выбранные в каждом нефи- нефинальном состоянии стрелки (и единственная стрелка из состояния II) описьшают оптимальный способ поведения. Чтобы обосновать этот вывод, необходимо сначала точно поставить задачу. 21
Пусть Xt (t=m, /n+1, . .. . , n) TiAt(t=m+i, . . . , n) — произвольные конечные множества. Каждому а из At со- сопоставлено распределение вероятностей р{ ¦ \а) на Xt 3 . Функцию р, определяющую закон перехода из At в Хп мы будем называть переходной функцией. Естественно считать, что точка множества Хт, из которой начинается путь, тоже случайна, и дано ее распределение вероятно- вероятностей р. (начальное распределение). Переход из if Х{_г в At определяется нашим выбором. При этом мы выбираем а не из всего At, а из его подмно- подмножества А(х), зависящего от состояния х [на рис. 7 А(х) — это подмножество, в элементы которого можно попасть по стрелке, ведущей из х]. Элементы множества А(х) мы называем управлениями в точке х. Множества А (х) определены (и не пусты) для всех нефинальных состоя- состояний х. Мы будем предполагать, что А(х) попарно не пе- пересекаются и их сумма по всем х из Xt-1 равна А(. Другими словами, каждое управление а может быть использовано в одном и только одном состоянии. Это состояние мы обо- обозначим j(a), так что запись x=j(a) равносильна записи а (й А(х). Отображение / будем называть проекцией, а мно- множества A(x)=j~1(x) — слоями. На множестве всех управлений задана текущая плата q(a), на множестве финальных состояний — финальная плата г(х). Таким образом, мы приходим к понятию управляемого марковского процесса на промежутке времени [т, п]. Этот процесс задают следующие элементы: а) множества Хт, Хт+г, . . . , Хп (пространства со- состояний); б) множества Ат+1, . . . , Ап (пространства управле- управлений); п в) отображение / множества управлений А = (J At 3 Задать распределение вероятностей р на конечном (или счетном) множестве Е — значит отнести каждому х ? Е неотрицательное число р (х) так, чтобы сумма этих чисел была равна 1. Для каж- каждого Г с Е р (Г) обозначает сумму р (х) по всем х из Г. Если для подмножества Г множества Е выполняется условие р (Г)=1, то мы говорим, что распределение р сосредоточено на Г. Мы пи- пишем р (-\а) вместо р (х\а), чтобы отличить закон, задающий рас- распределение, от числа р (х\а), отвечающего конкретному х. 22 в множество состояний Х== (J Xt такое, что j (At) = Xt_x (проекция); t=m г) распределения вероятностей р( • \а) на Xt, зависящие от a^At (t=m-\-l, . . . , п) 4 (переходная функция); д) функция q на множестве А управлений (текущая плата); е) функция г на множестве Хп финальных состояний (финальная плата); ж) распределение вероятностей р. на Хт (начальное распределение). При изучении управляемых процессов полезно сокра- сокращать отрезок [т, п] до меньшего отрезка [тъ п]. Для сокращенного процесса элементы, перечисленные в пунк- пунктах а)—е), однозначно определяются по первоначальному процессу. Напротив, начальное распределение (в момент ntj) зависит от способа управления на промежутке вре- времени [т, Ш]]. Естественно поэтому дать специальное название объекту, который определяется элементами а)—е). Мы назовем этот объект моделью ъ . Если задана модель Z, то каждому распределению fi на Хт соответствует одно- однозначно определенный управляемый процесс Z , для ко- которого IJ. — начальное распределение (в случае, когда р. сосредоточено в точке х, вместо Z^ мы будем писать ZJ. Наша цель — найти способ управления, при котором максимально математическое ожидание оценки = 2 t-m+Л пути A) B) Необходимо уточнить, что понимается под способом управ- управления. Это будет сделано в следующем параграфе. Сделаем несколько замечаний и рассмотрим примеры. Мы предположили, что множества управлений, воз- возможных в различных состояниях, не пересекаются между 4 Иногда удобно считать, что р (-\а) — распределение вероят- вероятностей на X, сосредоточенное на Xt при а ? At. 6 Лучше было бы говорить «марковская модель». Слово «марковская» jubi опускаем для сокращения. 13
собой. Это удобно в общей теории, но не всегда удобно при разборе конкретных примеров. Если множества А (х) пересекаются, то естественно считать, что переходная функция и текущая плата в момент t зависят не только от а(, но и от Xf^. Однако этот более общий случай не- немедленно сводится к нашему, если понимать под управ- управлением пару xl_1ai (при этом отображение j сопоставляет каждой такой паре первую ее компоненту). Далее, выбор управления может определять не зна- значение текущей платы, а только распределение вероятно- вероятностей для этого значения. Мы можем, однако, снова вер- вернуться к рассмотренной схеме, заменив такую случайную плату ее математическим ожиданием в . С подобной си- ситуацией мы имеем дело, например, если плата на шаге t зависит от xt_x, at и xt. Такую плату можно заменить на Ч (xt-iai): я (^-i«а C) Наконец, определение модели значительно упрощается, когда ее элементы не меняются с течением времени (с при- примера такой схемы начинается § 1 данной главы). Мы гово- говорим при этом об однородной модели. Чтобы задать такую модель надо определить проекцию / пространства управ- управлений А на пространство состояний X, распределение вероятностей р на X, зависящее от а из А (переходную функцию) и текущую плату q на А. Если задана однородная модель У, то каждому нату- натуральному п соответствует гс-шаговая модель Z в прежнем понимании (неоднородная модель), которая строится сле- следующим образом. Рассматриваются га+1 экземпляров Хо, Хи . . . , Хп пространства X я п экземпляров Alt . . . , Ап пространства А и считается, что / отображает At в Xt_v а распределение /?(-|а)при а?А( сосредоточено на -Xt ' . (Эта конструкция уже встречалась нам в § 1 данной главы. Финальную плату можно положить равной, например, нулю. Однородные модели более естественно рассматривать на интервале времени [0, со) (см. главу 6). 6 Подробнее об этом см. в конце § 3 (петит). ' Формально можно .определить Xt как совокупность пар (t, х), (х ?Х), А — как совокупность пар (t, a)(a ? А) и положить / (*, e)=(i-l, / (a)), p (t, x\t, a)=p (x, a), q (t, a)=g (a). 34 * * * Остановимся на том, как сводятся к общей схеме кон* кретные задачи, которые мы рассматривали во введении. Начнем с задачи о замене оборудования. Этой задаче соответствует следующая однородная модель. Под со- состоянием надо понимать время работы действующего обо- у /> Z't Рис. 1.9 рудования. Мы будем считать, что это время описывается целым неотрицательным числом х (см. рис. 1.9). В каж- каждом состоянии х возможны два управления: с — сохранить старое оборудование и d — произвести замену. При управ- управлении d система переходит в состояние 0. При управлении с происходит переход х -*¦ ж+1, если не случится поломки оборудования. Если такая поломка произойдет, то обо- оборудование придется заменить и совершится переход х -> 0. Вероятность поломки зависит, конечно, от срока службы х. Обозначим ее qx и положим рж=1—дгж. Естест- Естественно предположить, что qx не убывает с увеличением х. Чтобы иметь дело с конечным пространством состояний, мы допустим, что при некотором х=К эта вероятность становится равной 1; тогда х будет принимать только значения 0,1,2, . . ., К. Переходная функция модели определяется формулами c) = qx, p@\xd) = l D) (х = 0, 1, ..., К) (вероятности других переходов равны 0). Текущая плата на шаге t зависит от времени службы прибора, от нашего решения и от того, произойдет ли поломка на этом шаге. Пусть hx — доход при переходе 25
Х-Хх-\-{ (т. е. при благополучной эксплуатации оборудо- оборудования, уже прослужившего время х); по смыслу задачи hx не возрастает с увеличением х8. Обозначим через а доход за период, когда происходит замена оборудования (переход х Д. 0). Мы будем считать, что а не зависит от х и а < hx при любом х. Наконец, пусть у — доход при переходе х Л- 0. Поскольку замена оборудования при поломке обходится дороже планомерной замены, то у <С а. Определенная нами текущая плата, вообще говоря, за- зависит от всей тройки xt_xatxt. В соответствии с замеча- замечанием, сделанным ранее, зту плату можно заменить ее математическим ожиданием C) при фиксированных xt_x и at. Тогда мы будем иметь q(xc) = PJix -f дхч, q (xd) = a E) {x=0, 1, ..., K). Финальную плату rx (ж=0,1, . . ., К) можно положить равной нулю или любой невозрастающей функции от х (последнюю можно истолковать, как оценку стоимости оборудования в конце промежутка управления). Остальные задачи, рассмотренные во введении, соот- соответствуют следующей схеме. Эволюция системы описы- описывается уравнением х, = Ft {xt_v at, st), F) показывающим, куда она переходит из xt_x под действием управления at в ситуации, описываемой случайным па- параметром st. Чтобы получить уравнение-^О. 2), описываю- описывающее однопродуктовую модель, достаточно положить xt ~ Vt + ct> at = Vt-v Ft (ж> a> s) = F (a> s)' G) управление at можно выбирать из промежутка [0, х{_г]. Уравнение @.5) в задаче о регулировании запасов воды получится при Ft(x, a, s) = (x-a + s)/\U. (8) К уравнению @. 6) из задачи о распределении ставок можно придти, принимая за st пару (<з^, it) и полагая at = at, F{x, a, s) — [aa-\-(\—a)i\x. (9) 8 Этот доход может быть и случаен; тогда под h надо понимать его математическое ожидание. То же относится и к вводимым далее величинам а и т- 26 В случае распределения ресурса между двумя произ- производственными отраслями и потреблением (уравнение @. 7)) управление at задается двумя числами: размером it—Xt-i—ct вложений в производство и долей *(t этих'вло- жений, направляемой в первую отрасль. Уравнение @. 7) получается из F) при «< = ('«. Ъ)> st = {°v zt)> F(x, а, ») = Чт° + A-тL Наконец, уравнениям @.10) соответствует функция F (x, a, s) — x — a-\-s. A1) Во всех этих примерах более естественно описывать состояния и управления параметрами, принимающими значения не из конечных множеств, а из некоторых чис- числовых интервалов. Более общие модели, охватывающие этот случай, будут разобраныХв следующих главах. Сейчас же мы напишем переходную функцию системы, управляемой уравнением F), в предположении, что х, а ж s принимают конечные множества значений. Кроме того, мы будем считать, что значения параметра st в раз- различные моменты времени взаимно независимы. Тогда р (у | ха) = nt {Ft (x, a, s) = y}(y? Xt, x G Xt_v a?At), A2) где Ut — распределение вероятностей параметра sr Доходу @. 8) в однопродуктовой модели соответствует текущая плата It (xt-i ~ at)> где qt — вогнутые функции. Доход @. 9) в задаче регу- регулирования воды получается при В задаче о распределении ставок текущая плата равна 0 и выигрыш получается только за счет финальной платы. В задаче о распределении ресурса между двумя отрас- отраслями текущая плата равна Я {xt-xat) = 1t («,_! - *,). В задаче о стационарном режиме работы Я («/-Л) = — Ъ ,_! - atf - со». 27
§ 3. Стратегии Вернемся к примеру, разобранному в начале § 2. В этом примере мы определили оптимальный способ по- поведения, . задав в каждом нефинальном состоянии по стрелке. Аналогично поступали мы и в § 1. Как описать это в общих терминах? Отображение х-> А(х) является примером точечно-мно- точечно-множественного отображения или, короче, соответствия. Вообще соответствие Ф из Е в Е' сопоставляет каждой точке х пространства Е непустое множество Ф(х) в дру- другом пространстве Е'. Однозначная функция ц> на Е со значениями в Е' называется селектором соответствия Ф, если <р (ж) принадлежит множеству Ф(х) при всех х из Е. Таким образом, в разобранных случаях мы задавали некоторый селектор соответствия А(х) ша Х\Хп в А. Условимся все селекторы этого соответствия называть простыми стратегиями. Применяя простую стратегию <р, мы получаем путь '=V«A+i' • -аА> гДе хт — случайная точка с распре- распределением (л, at=v{xt_x) и xt — случайные точки с распре- распределениями р(- \а() (т < t <^ n). Возможны и более общие способы управления. Можно выбирать каждый раз не определенное управление, а рас- распределение вероятностей для него. Дальнейшее обобще- обобщение состоит в том, чтобы учитывать при выборе а( не только состояние xt_x, но и всю предшествующую историю. h = хтат+1хт+1 . . . at_xxt_r (\) m Мы приходим, таким образом, к следующему определе- определению: стратегия п — это функция, сопоставляющая каж- каждой истории A) распределение вероятностей к(-Щ на множестве управлений At, сосредоточенное на A(xt_1). Естественно назвать стратегию марковской, если распре- распределение к(-\К) зависит только от конечного состояния х истории h (т. е. при известном «настоящем» не зависит от «прошлого»). Марковская стратегия а(• \х) определяет переход от состояния к управлению совершенно так же, как пере- переходная функция р (• \а) определяет переход от управления к состоянию. Разница между ними только в том, что р 28 нам задана, а а мы выбираем. В случае немарковской стратегии дополнительное отличие состоит в том, что механизм перехода зависит от прошлого 9. Обозначим через L множество всех путей B.2). Если заданы переходная функция р и стратегия г., то каждому начальному распределению 'р. соответствует распределе- распределение вероятностей Р в пространстве L, определенное формулой 9а р (x,nam+ixm+i ¦ ¦ ¦ а„х„) = |а (хт) tz (ат+11 хт) р (хт+11 ат+1)... ¦ ¦ ¦ ™ КI жА+А+1 • • • *„-1) Р (ж, \ая). _ B) Для всякой функции ? на пространстве L положим pe=26(W) C) (математическое ожидание случайной величины Е) 10. Примером такой функции является оценка B.1) пути I. Ее математическое ожидание мы обозначим через w: D) ¦ = p/(z) = p 2 Для управляемого процесса Z^ с данным начальным распределением р. величина w является функцией w (тг) стратегии ти (мы назовем ее оценкой стратегии тс). Макси- Максимизация функции w (п) и является целью управления. Верхнюю грань v функции w(tz) по всем it назовем оценкой процесса Z^ или оценкой начального распределения 9 Можно было бы считать зависящим от прошлого и механизм пе- перехода от управления к состоянию, т.е. рассматривать переход- переходные функции вида р (• \xmam+l.. .xt_iat). Но этот случай сводится к нашему, если ввести новые пространства управлений ш После того, как определена мера Р, путь B. 2) можно понимать как случайный процесс. (Если стратегия я — марковская, то этот процесс является марковским). 10 Обычно математическое ожидание обозначают буквой Е или М. Мы используем для него ту же букву, что и для соответствующего распределения вероятностей. Это удобно потому, что мы будем иметь дело с разными распределениями. Иногда, впрочем, нет необходимости вводить специальное обозначение для распре- распределения вероятностей; в таких случаях мы будем пользоваться буквой М. 29
fi. Стратегия тс называется оптимальной для процесса Z^, если w(k) = v. Мы будем иметь дело одновременно с классом всех управляемых процессов Z^, отвечающих некоторой мо- модели Z. Отражая зависимость оценок w и v от \х, мы будем писать w(\i., тс) и v([x). Если ^сосредоточено в точке х, то будем писать вместо этого и; (я, тг) mv{x). Естественно назвать v(x) оценкой состояния х. Стратегию тг назовем оптимальной для модели Z или равномерно оптимальной, если тг оптимальна для про- процесса Z^ с любым начальным распределением р.. В § 4—6 будет доказано существование простой стра- стратегии tp, оптимальной для модели Z, и описан метод вы- вычисления v и построения ср. * * * При нашем определении стратегии мы на каждом шаге имеем право произвольно смешивать допустимые в дан- данный момент управления (т. е. выбирать управление слу- случайно, с произвольным распределением вероятностей). Не расширим ли мы свои возможности, если разрешим смешивать сами стратегии? Пусть {пк} — конечный или счетный набор страте- стратегий и fk — неотрицательные числа, в сумме равные 1. Если (при любом начальном распределении [>) мы будем пользоваться стратегией тг,. с вероятностью у;, то полу- получим в пространстве путей L распределение вероятностей Р, определенное формулой где распределение Pfc отвечает стратегии пк. Оказывается, то же распределение Р можно получить, применяя неко- некоторую стратегию тг. Действительно, положим « (пМ I Хтат+1 ••¦*<) = 2 ТЛ (аш+1 I Жт) • • • Я ft (at+1 \ ht) \xm) ¦¦¦ (at F) если знаменатель не равен О, ni(at+i\K) B противном случае; 30 здесь m^t<^n, ht — a!m«m+i ; . . xt — любая история, аш—¦ любое управление из At+1; при t = m знаменатель полагается равным 1. (Выражение в правой части получится, если, отправляясь от меры E), выписать условное распределе- распределение для at+1 при известной истории хтат+1 .. . хг] Из того, что пк(" \хтат+1 ... xt)—распределение вероятностей, со- сосредоточенное на A (xt), и условий ^k = l, "fj.^0, сле- следует, что тг (. \хтат+1 .. . xt) — тоже распределение веро- вероятностей, сосредоточенное на A(xt). Значит, формула F) определяет стратегию. Из F) получаем, что для любого I хп пути 1 = хтат+1 П (ат+1 \Хт)п{ ...п(ан\ умножив обе части на fi («„,) р (a:m+11 am+1) . .. р (хп \ а„) и учитывая формулу B), находим, что стратегии тг отве- отвечает мера Таким образом, ответ на поставленный вопрос отри- отрицателен. Имея определение стратегии, мы можем уточнить смысл сде- сделанного на стр. 24 замечания о возможности заменить случайную плату q ее математическим ожиданием: оценка w (ц, п) любой стра- стратегии тс не меняется при замене платы q (ж<_1о^а:<)на платуq(xt-iat)i определенную формулой B. 3). В этом можно убедиться, непосред- непосредственно используя формулы B)—D) (при этом следует учесть, что роль управлений at играют пары xt_xat). § 4. Существование равномерно оптимальной стратегии. Сочетание стратегий Стратегия тг описывается конечным набором неотри- неотрицательных чисел тг(а|/г). Наборы, задающие стратегии, образуют замкнутое ограниченное множество П в ко- конечномерном пространстве. Функция и; (тг) непрерывна, так как она выражается через тг (a \h) с помощью операций сложения и умножения. Непрерывная функция достигает на множестве П своего максимума. Та стратегия, при 31
которой достигается ^максимум, оптимальна для про- j цесса Z. В частности, при каждом х из Хт существует | стратегия пх, оптимальная для процесса Zx. По набору "{ стратегий пх мы хотим построить одну стратегию п, опти- I мальную для модели Z. Естественен следующий способ действий: пользоваться все время стратегией пх, если путь начинается в точке х. Формально для этого надо положить я(-|Л) = ",а)(-|Л), A) где х (h) — начальное состояние истории h. Ясно, что эта формула определяет некоторую стратегию я, и что w (x, n)=w (x, kx)=v (x) при всех х из Хт. Нам остается показать, что всякая стратегия я, для которой w(x, *) = v(x) ,.{х?Хт) является равномерно оптимальной, т. е. для любого fi. l, Я) = ц;({1., Я). Из формул C.2) —C.4) следует, что для любой стра- стратегии 71 В частности, (x, п). (x, Я). B) Но iv (х, тг) <; w (х, я) при всех х из Хт, и, значит, w (у., п) < w(ii., я). Мы установили, что существует равномерно оптималь- оптимальная стратегия (но пока не знаем, можно ли ее выбрать из числа простых стратегий). Для равномерно оптимальной стратегии я и любого начального распределения р 1>(|J.) = W(l>,, Я) =: 2 V- (х) IV (X, П) ¦= 2 Р> (ж) V (х) — |АУ. Поэтому оценка любого начального распределения р. выра- выражается через оценки начальных состояний формулой v (|а) = |w. C) 32 Формулы B) и C) позволяют свести изучение управля- управляемых процессов Z^ при любом («. к исследованию процес- процессов Z^. Функцию v {x) (x ^ Xm) мы будем называть оценкой модели Z. Стратегия %, построенная нами по набору пх (х ^ Хт), обладает следующим свойством: При любом начальном состоянии х из Хт распределения в пространстве путей L, отвечающие по формуле C. 2) стратегиям я и пх, совпадают. Если выполняется это свойство, то мы будем говорить, что стратегия я является сочетанием стратегий пх. При этом w (х, я)=ц; (х, кх) для всех х из Хт, формула же A), вообще говоря, может не выполняться. С сочетанием стратегий нам еще придется иметь дело в дальнейшем, причем я будет строиться не по формуле A), а другим способом. § 5. Производная модель. Фундаментальное уравнение Процесс, управления естественно представлять себе как ряд последовательных шагов. Первый шаг состоит в выборе распределения вероятностей на Ат+1 (завися- (зависящего от начального состояния). Если этот выбор сделан, то каждому начальному распределению р. на Хт соответ- соответствует распределение вероятностей (л' на Хт+1. Рассма- Рассматривая р' как начальное распределение в момент яг+1, мы расчленим задачу максимизации на две задачи: 1) при любом начальном распределении на Хт+1 вы- выбрать оптимальное поведение в последующие моменты; 2) выбрать первый шаг так, чтобы была максимальна сумма платы за этот шаг и оценки оптимального поведе- поведения в последующие моменты при начальном распределе- распределении ;*'. Модель, получающаяся из Z вычеркиванием Хт и -^ш+и мы будем обозначать Z' и называть производной моделью. Важную роль в теории управления играет уравнение IV {X, Я) = ' (Ра> *« выражающее оценку w любой стратегии п в модели Z через оценки ц/ некоторых стратегий в модели Z' (фунда- 3 Е. Ё. Дынкин, А. А. Юшкевич 33
Ментальное уравнение). Ё этом уравнений начальное раб- пределение ра и стратегия па для модели Z' определяются формулами .(\) (\yah) (a ? Лт+1, y—j (a), h' — история в модели Z'). (тса пред- предписывает пользоваться стратегией тс, предваряя каждую историю h' предысторией / (а) а). Отметим, что в силу D. 2) тсй). C) Чтобы вывести уравнение A), рассмотрим простран- пространства L и V путей в моделях Z и Z'. Пусть Р — распре- распределение в L, отвечающее начальному состоянию х и стра- стратегии те, Ра — распределение в L', отвечающее началь- начальному распределению ра и стратегии па. Из формуя B.1) и C.2) видно, что для любого пути V из V В силу C. 3)-C.4) w(x, «) = E) F) Но Р (I) отлично от нуля лишь для путей, начинающихся в х, т. е. для путей вида xaV. Поэтому, подставляя в E) значения / (I) и Р (I) из D), и учитывая F), имеем A). В случае одношаговой модели, когда лг+1=п, про- производная модель Z' вырождается и не содержит управле- управлений. Поэтому здесь не имеют смысла стратегии тев. Не- Непосредственно из формул C. 3)—C. 4) и C. 2), определяю- определяющих w и Рл видно, что в этом случае где 34 G) (8) г — финальная плата. Чтобы можно было формулы G)— (8) рассматривать как частный случай формул A)—C), условимся в случае вырожденной модели Z' понимать под ц/ (х, •) просто г (х). Это вполне согласуется со смыс- смыслом оценки w. Ясно, что тогда и v'~r, § 6. Сведение задачи оптимального управления к аналогичной задаче для производной модели Теперь мы можем обосновать расчленение задачи оп- оптимального управления, описанное в начале предыдуг щего параграфа. Из фундаментального уравнения E.1) следует, что для любого х из Хт и любой стратегии те w{x, n)<sup[gr(a) + M/(Pe. nj]<sup [q (a) + v' (pa)] A) (v! — оценка модели Z1). Обозначим b(a) = g(a) + y'(pe) {^Am+l) B) (эту величину естественно назвать оценкой управления а). Заметим, что в силу D. 3) и = Uv', где оператор U на функциях от состояний определен формулой u и1(а) = Я(а) + ^р(у\а)Г(у) {а?А). C) у Используя функцию и, можем переписать неравен- неравенство A) в виде w (х, те) < Vu (x) D) [V — оператор супремума по слою А (х), определенный формулой A. 5)]. Из D) следует, что v ^ Vu. Мы докажем, что v—Vu, построив такую стратегию, при которой в D) имеет место равенство. Начнем с одного общего понятия. Пусть те' — произ- произвольная стратегия в модели Z' и пусть каждому х из Хт 11 Формулы B)—C) обобщают определения, данные в §1 [см. A.6)]. 3* 35
поставлено в соответствие какое-нибудь распределение вероятностей у (• \х) на Ат+1, сосредоточенное на слое А (х). Выбирая на начальном шаге управление а с рас- распределением у, и пользуясь на последующих шагах стра- стратегией п', мы получим стратегию п в модели Zt которая описывается формулами *"'^ при h~ Будем называть эту стратегию произведением у и «' и обоз- обозначать у п. Очевидно, если тт=утг', то стратегия па, определенная в § 5, совпадает с к при любом а из Ат+1. Поэтому для произведения уп фундаментальное уравнение E.1) при- принимает вид w (х, уп') = 2 Т («I х) [q (a) -f w' (pa, п')]. E) Ч*) Если к — стратегия, оптимальная для Z' (существо- (существование такой стратегии установлено в § 4), то w' (pa, п') = —v' (pa), и согласно B) уравнение E) обращается в w (х, у«') = 2 Т (а I х)и (а)- Ч*) Если при каждом х распределение у (• \х) сосредоточено! на том подмножестве Ж (х) слоя А (х), где функция, и (а) (а? А (х)) достигает своего максимума Vu (x), то последнее уравнение принимает вид w(x, yn') = Vu(x) (x?XJ. F) Итак мы доказали, что v=Vu. >7) Из F) и G) видно, что стратегия утг' оптимальна для модели Z. В качестве у(-\х), в частности, можно взять распре- распределение, сосредоточенное в какой-нибудь одной точке ф (х) множества Ж (х). Условие ф (х) ?Ж (х) равносильно равенству и (ф {x)) — Vu (x) или равенству и (ф (x))=v (x). Таким образом, мы имеем следующие результаты: а) оценка v модели Z выражается через оценку v' мо- модели Z' формулами v=Va, u — Uv', (8) 36 где операторы V и U заданы формулами A.5) и C); б) существует селектор ф соответствия А (х) из §Ст в Ат+1 такой, что в (ф (*))*=р(*); Р) в) если п' — оптимальная стратегия для модели Z', и селектор ф — такой, как в пункте б), то стратегия <|т' оптимальна для модели Z12. Иногда бывает удобно пользоваться результатами а)—в) в несколько иной форме. Селектор ф можно рас- рассматривать как стратегию в одношаговой модели с про- пространствами Хт, Ат+1, Хт+1 (и соответственно суженными проекцией /, переходной функцией р и текущей платой q). Оценка этой стратегии при финальной плате / в силу E.7)—E.8) дается формулой (Ю) Оператор 7\ преобразует функции на Хт+1 в функции на Хт. В силу B) и A0) (И) A2) Полагая Т = VU или, подробнее, Tf(x)= sup [g 2 вЧ) можем заменить формулы (8) и (9) на v=Tvl В силу A0) и A2), оператор Т иначе можно определить формулой = sup TV/ Ф A4) (ибо селектор ф в точке х может быть равен любому управлению а из соответствующего слоя). 12 Как уже отмечалось в § 4, в вырожденной модели Z', состоящей из одного столбца, v'=r. Формулировку в) в этом случае надо заменить следующей: любая функция ф, описанная в пункте б), определяет оптимальную стратегию для модели Z. 37
* * * Если 7г = фтг', где ф — селектор отображения х->А(х) (х?Хт) и «'—произвольная стратегия в модели Z', то фундаментальное уравнение для стратегии п согласно E.1), E. 3) и F.10) можно переписать в виде w(x, фтг') = T^w' {х, п'). A5) (Оператор применяется к ц/ (у, п'), как функции аргу- аргумента у из Хт+1). § 7. Уравнения оптимальности. Построение простых оптимальных стратегий Не ограничивая общности, мы можем считать, что в исходной модели Z т = 0. Рассмотрим модели ZQ, Zv . .. ...,Zn, где Z0 = Z и Zt является производной от Zt_x. Оценки ими для модели Zt обозначим через vt и ui+1 (vt определено на Xt, ut определено на At). Ограничения платы q и переходной функции р на At обозначим через qt и pt. Согласно результатам предыдущего параграфа оценки vt и ut связаны рекуррентными соотношениями v, , = Vu,, и, = Uvf A <Г t <! п), A) где ^/(«) = ?<(в)+2р< а) / (У) (« G At), Vtg {x) = sup g (a) причем vn = r. B) Равенства A) мы назовем уравнениями оптимальности. Полагая Tt = VtUt [ср. формулу F.12)], можем записать уравнения оптимальности в виде Уравнения A) или A') вместе с граничным условием B) позволяют последовательно вычислять, ип, vn_1, ..., v0. Далее, для каждого t = \, 2, ..., п можно выбрать селектор §t соответствия А (х) из Xt_± в At так, чтобы *t(b) = °t-v - C) В силу результата 6. в) простая стратегия <р = фгфа ... фя тмимальнаудля модели писать в виде Уравнение C) можно йере- где оператор Гф< переводит функции на X, в функции на Xf_x по формуле гФ,/ («) = ?, [ф, (*)]+2 р (у IЬ И) / (г/I D) [ср. F. ГО) и F.13)]. Пусть теперь п — любая стратегия в производной мо- модели Zk (fc=l, 2, ..., п) и ф, — какие угодно селекторы соответствия А (х) из Xt_x в At (t=i, 2, .. ., к). Из урав- уравнения F.15) По индукции имеем wa (*, фА ... фк«) = Гф/ф, • • • T^wk (x, я) E) (и^ _ оценка ц; в модели Zk). Формула E) имеет простой наглядный смысл: результат, даваемый стратегией фхф2. .. ... фд.тс не изменится, если прервать управление в момент к, назначив финальную плату, равную оценке стратегии п. В уравнениях A)—C) можно опустить индексы и пере- переписать их в виде v = Vu на Х\Хп, u = Uv на А, F) i; = r на Х„ и (9) = у на Х\ХЯ или v = Tv на Г\ХЯ, .(8) (9) здесь ¦*(*) =ч [? (*и+2 / (й р (у I ? (* Уравнения A)—B) [или F)—G)] обобщают выведен- выведенные ранее для простейшего управляемого процесса урав-
нения A.9)—A.10) [соответственно, A.7)—A.8)], а фор-Н мула C) [или (8)] — формулу A.1I3 Подведем итоги. Мы установили, что 1) Оценка v модели удовлетворяет уравнениям опти-: мальности, позволяющим вычислять и. 2) Существует простая равномерно оптимальная стратегия. 3) Такая стратегия на каждом шаге находится из у рае-: нения C), независимо от ее значений на других шагах. § 8. Марковское свойство Пусть 0<^к<^п. Предположим, что на отрезке [0, к] мы руководствуемся стратегией р, а на отрезке [к, п] — стратегией п (более точно, п—стратегия в производной модели порядка к). По аналогии с § 6 естественно сказать, что используется стратегия pit. Рассмотрим пространство Lo путей на отрезке [0, п] и пространство Lk путей на отрезке [к, п]. Всякую функцию I = I (хкак+1 . .. х,) в пространстве Ьк можно трактовать как функцию в пространстве Lo, не зависящую от х0, av.. .,ak. Введем в Lo распределение вероятностей Р^1, отвечающее начальному состоянию х и стратегии рп, и аналогично определим распределение Р" в пространстве Lk. Из фор- формулы C.2) видно, что P^i равно математическому ожи- ожиданию (относительно меры Р?) случайной величины F(xk), где F(y) = P$.- В самом деле, из C.2) непосредственно следует, что для любого пути г/Д ... bkykbk+1 . .. уп где с = у(р1 . .. Ьк, d = bk+1... уп. Умножая обе части на S {ykd) и суммируя по всем путям, получаем >- A) Так как = О при уфук, то B) 13 При разборе примера в § 2 мы фактически пользовались уравне- уравнениями оптимальности и соотношением (8) для оптимальной стратегия. 40 Остается подставить B) в A) и заметить, что 2П< Полученный результат можно записать в виде формулы . * ' C) Из формулы C) вытекает, что для любого начального распределения [а Положим Правая часть D) равна так что Р^ (*А+1 ' • • Х«) = Pv? (XA+l ¦ ¦ ¦ Хп\ F) Формула F) показывает, что распределение вероятностей для участка траектории на отрезке [к, п) при известном распределении состояния хк не зависит от распределения jj. и стратегии р. Говоря образно, вероятностный прогноз «будущего» (I) при, известном «настоящем» (v) не зависит от «прошлого» ([а, р). Это и есть марковское свойство. Подчеркнем, что оно справедливо лишь для стратегий спе- специального вида рте,-т. е. таких стратегий, при которых выбор управления на отрезке [к, п] не зависит от пред- предшествующей истории хоах. .. ак. Для общей стратегии марковское свойство, как правило, не имеет места. Воспользуемся марковским свойством, чтобы оценить вклады интервалов [0, к] и [к, п\ в оценку стратегии pit. Применяя формулу F) к функции G) 41 имеем U?([j., pit) = . Очевидно, Ы + w (v, *)•
i при t^ik (формально это выводится из C.2)). Поэтому; сумма в формуле G) выражает оценку w{\>., p) стратегии р- при нулевой финальной плате, и мы можем написать w{\x, рте) = к; ([A, p)-f M?(v, те). (8) Можно дать формуле G) и другую интерпретацию. Согласно D. 2) и E) w\ (9) Поэтому G) переписывается в виде х, ря) = РМ 2 q {at) -f W (xk, те) . \_t=t J Таким образом оценка стратегии рте равна оценке стра- стратегии р при финальной плате в момент к, равной w (•, тс). Частный случай этого результата, когда р=ф1 ... простая стратегия, был приведен в § 7 (см. G. 5)). § 9. Принцип динамического программирования Уравнения оптимальности § 7 являются частными слу- случаями более общего соотношения, устанавливающего вклад различных интервалов времени в общую оценку модели. Пусть Z — модель на отрезке [0, п] и пусть 0 ^ s <| <С t ^ п. Обозначим через Zlt [/] модель, которая полу- получается из Z, если сузить интервал [0, п] до Is, t] и назна- назначить в момент t финальную плату /. В частности, при s=l, t=n и /=г имеем производную модель Z'. Оценку модели 'Z\, отвечающую финальной плате /, обозначим v*t [/], Ясно, что vts\f\=:(VU)t"f = Tt-sf на X. Отсюда следует, что при любом t из промежутка [0, п] имеет место уравнение на Хо A) (г задана на Х„). Уравнение A) [равносильное уравнениям оптималь- оптимальности G.6) и граничному условию G. 7)]выражает принцип динамического программирования, согласно которому для 43 оптимизации управления на промежутке [0, п] при фи- финальной плате г можно сперва оптимизировать управле- управление на промежутке [t, n] (при той же финальной плате), а затем оптимизировать управление на промежутке [0, t] при финальной плате v" [r]. Из уравнения A) в частности следует, что если п" — оптимальная стратегия для Z'/ при финальной плате г и п — оптимальная стратегия для Z\ при финальной плате v™ [r], то стратегия п=т:'тс" имеет оценку vl [r] и, значит, оптимальна для Z? (при финальной плате г). § 10. Задача о выборе транспорта Покажем на простом примере, как применяется общая теория к конкретным расчетам. Представим себя в положении жителя большого города, желающего попасть в определенное место и могущего вос- воспользоваться разными видами транспорта. Выбор может определяться соображениями стоимости или удобства, но чаще всего решающую роль играет время. При этом приходится учитывать не только скорость движения, но и время ожидания. Конкретизируя задачу, мы предполо- предположим, что из пункта 0 в пункт В можно доехать автобусом за 3 минуты, трамваем — за 10 минут и дойти пешком за 20 минут. Интервалы между автобусами представляют собой одинаково распределенные независимые случайные величины с показательным распределением, так что, когда бы мы ни пришли на остановку с вероятностью, равной е с, нам придется ждать ближайшего автобуса время, не меньшее t u. Постоянная с равна среднему интервалу между автобусами, который планируется управлением городского транспорта. Аналогичные предположения мы примем и для трамваев, только средний интервал между ними будем считать равным d. Кроме того, будем считать, что автобусы и трамваи ходят независимо друг от друга. Чтобы иметь дело с задачей максимизации, будем оценивать путь затраченным на него временем, взятым с минусом. В начальном состоянии 0, когда мы приходим на оста- остановку, множество управлений состоит из двух элементов: 14 По поводу свойств показательного распределения см., например, В. Феллер [1]. 43
«идти пешком» или «ждать» (см. рис. 1. 10). Плата за пе- пеший путь равна —20, плата за ожидание равна -Iе о "е rfdx = —cd e-\-d : ПОДОЙ- По истечении времени ожидания с вероятностью ~г—, *. дет автобус (состояние С), с вероятностью , ,— трамвай (состояние D). В каждом из состояний С и D можно -20 (ждать) Рис. 1.10 ехать или ждать, но в состоянии С второе решение явно неразумно, и мы будем считать, что есть только одно управление — ехать 15. Плата за него равна —3. Реше- Решению «ехать» в состоянии D соответствует плата —10. Управление «ждать» снова стоит ——¦, причем мы С ~у* О/ попадаем в состояния С и D с прежними вероятностями —г—; и —г—j. Решение «итти пешком» в состоянии 0 и с -\- а с -\- а решение «ехать» в состояниях С и D приводят нас в со- состояние В. В состоянии В по смыслу задачи процесс останавливается. Чтобы не выходить за рамки наших определений, следует задать в В единственное управле- управление, с нулевой текущей платой, переводящее систему снова в состояние В (состояние с такими управлениями будем называть поглощающими). Для перехода к неоднородной модели нужно фикси- фиксировать число шагов п и определить финальную плату 16 Мы отбрасываем также заведомо невыгодное решение «идти пеш- пешком» в состояниях С и ?>. л г Я и D Значение финальной платы в состояниях 0, С,_въ[ • отражать потери от того, гЛ" п—г (В>=° -г @)~ РИ?. 1.11 =r (C)=r (D) =—К, где К — достаточно большое поло- положительное число 16. Тогда мы получим модель, изобра- изображенную на рис. 1.11. При этом введены некоторые упроще- упрощения, диктуемые смыслом задачи*, опущены состояния В, С и D в момент t~Q и состояние 0 в моменты t > 0. Чтобы выписать уравнения оптимальности, введем следующие обозначения для управлений: на t-ou шаге: art =«итти пешком», рг=«ехать на автобусе», f< — «ехать на трамвае», ^^«ждать» (f=l, 2, . . ., п). Тогда система G.6) запишется в виде ), u(\)\, A) о (а,) = -20+ 17 5 \ cd = max b(t<) = -10 + w(,) (< 16 Из дальнейшего будет видно, что оптимальное поведение при всех К > 20 одно и то же. 45 44
а граничные условия G.7) — в виде v(Bo) = 0 A <*<»). B) Нас прежде всего интересует v@). Из A) и B) сразу находим v{Bt)=0 A<*<и), в(ъ) = —10 ы(Р<)=— 3 р(С,) = —3 A<*<п —1), cd 4 "' С + I u(o1) = —20, -К, C) 1,@^) = max [-10, - После подстановки найденных значений в A), для осталь- остальных неизвестных получается система v @) = max [—20, и{\)], -1), D) у (?>,) = max [—10, и фм)} A < t < п - 2), где Из D) находим, что и (8В_Х) = х, где __ —U — 10с — cd Дальнейшее решение зависит от того, будет ли х больше или меньше —10. При х^—10 имеем и(Д„_2) = тах[—10, х] = —10, ,а ч —3d — 10с — cd "(8-a) = Г+1 = *' 46 E) —20 при х<— 20 х при -20<*<-Ю. Если х>—Ю, то последовательно находим (Dn_z) = —10, — cd —10, F) Итак, 20 при xx<;— 20, v @) = ¦ xx при —20 < xx < —10, 10< G) где * ' ,п —3d 4- сг. — cd , г\ л ч хо = -10, х^ = f-p^ (» = 0, 1, 2, Перейдем к простой оптимальной стратегии. Эту тегию достаточно задать только в состояниях 0 (l<^t^n — 1), в которых имеется выбор. При хх^ согласно формулам C), E)—G) имеем 1>@) = — 20, v(Dt) = —10, \ = -20, в(Тм) = ~10, стра- страи Dt —20 47
и(Тя) = —10, и^) = ~~К<-Ю, и, значит, оптимальна стратегия При _20<xx имеем "@) = *, y(D<) = —10, ] 0@4) = —20 <x, и(ь+1) = -т, \ H&+i) = *<—10, «(Т.) = —Ю, и оптимальна стратегия < Наконец, при х^>—10 —2) В(Тя) = и оптимальна стратегия »-2), <С —20 рекомендуется итти 10 — ехать на первом подо- подоТаким образом, при х пешком, при —20 <С к ^ шедшем транспорте, при —10 <I x — ждать, сколько можно, автобуса (на и-ом шаге — ехать и трамваем). Напрашивается естественный вывод, что в первоначаль- первоначальной однородной схеме при —10 ^ х следует ждать авто- автобуса, пропуская неограниченное число трамваев. Чтобы обосновать зтот вывод, нужно перейти к модели на беско- бесконечном промежутке времени [0, со). § 11. Задача о замене оборудования Обратимся теперь к задаче о замене оборудования, сформулированной в § 2 (остальные задачи, рассмотрен- рассмотренные во введении И в § 2, лучше отложить до тех пор, пока не будут изучены модели с общими пространствами сос- состояний и управлений). Переходная функция и платы в этой модели даются формулами B.4) и B.5). В этих фор- формулах 48 Будем считать, что управление проводится на про- промежутке времени [0, п]. Заметим, что если ко всем пара- параметрам hx, а и у прибавить некоторое число С, то при лю- любой стратегии суммарный доход w возрастет на одну и ту же величину пС. Оценка модели v тоже увеличится на пС, а оптимальные стратегии останутся прежними. Поэтому, не ограничивая общности, мы можем считать параметр у равным 0 (неравенство а > у переходит при этом в условие а > 0). Для возвращения к первоначаль- первоначальному случаю нужно в последующих формулах заменить hx и а на hx—у и а—у. В отличие от § 8, мы не станем разворачивать модель во времени, а воспользуемся уравнениями оптимальности в форме G.1)—G.2). Имеем vt_y (х) = max [ut (xc), ut (xd)], Щ (*с) = рХ + Wt @) + Pxvf {x + 1), B) ut (xd) = a -f- vt @) @ <^ x ^ K, 1 <J t ^ n), 4 В. Б. Дынкин, А. А. Юшкевич 49
причем Простая оптимальная стратегия равна ф^ФкФг"- • • фв» где О ППТТ 77 {тс\ *^> 77 (Тг1\ f ft \ d при и; (хс) <^ и^ (ж<2) (если ut (xc) = ut (xd), то в качестве значения ф; (ж) го- годятся как с, так и d; для определенности мы выбираем с). Явное вычисление vt и ф( в общем случае затрудни- затруднительно, но можно дать качественное описание ответа; Естественно ожидать, что оборудование тем выгоднее в эксплуатации, чем оно новее, так что при любом t Далее, разобьем при каждом t пространство X на мно- множество Ct тех состояний, в которых оптимальная страте- стратегия D) предписывает сохранять имеющееся оборудова- оборудование, и множество Dt, на котором нужно делать замену. Здравый смысл подсказывает, что если в некоторый мо- момент t выгодно заменить оборудование, прослужившее время х, то тем более выгодно заменить более старое обо- оборудование. Это значит, что Dt должно иметь вид (состояние К принадлежит Dt, так как ut (Kc)=vt @) < <С u-\-vt @)=viJiKd)). Множество Ct пусто при ^=0, а при kt > 0 имеет вид Ct = {0, I, ...,kt-l). G) Неравенства E) проверяются индукцией от t к t — 1, причем попутно выясняется структура множеств Ct и Dt. При t = n неравенства E) вытекают из предположений A) и формулы C). Допустим, что эти неравенства верны при некотором t (I ^t^ri). Поскольку (8) щ (хс) при x^Ct а -)- vt @) при x{*Df (см. B) и D)), то как структура F)—G) множеств Ct и D(, так и неравенства E) для оценки vt_± будут доказаны, если мы убедимся, что из {я>0, x?Ct) вытекает {щ(х— 1, с)^^ (же)}. Используя представление обоих членов в виде B), и учитывая монотонность hx и г;^ (х), имеем щ (х - 1, с) - щ (хс) = (?_! - ?,) у, @) + A - jj X X №_, + ^ (а:I - A - qx) [hx + У< ( то остается проверить, что Так как Поскольку ж принадлежит множеству Ct, то иДжс)^а-)- -)- у, @) ирг>0 (ибо при рх — 0 из B) получается ut (хс) — = », @) <_' a -)- ^ @)), Поэтому (9) вытекает из соотношений v, @)< a +1>, @) < в, (же) = дл @) + рЛ^ + vt ( В силу F) и (8) число kt — это наименьшее значение х, для которого ut (хс) <С x-\-vt @), или, с учетом B), — . (Ю) § 12. Счетные модели: уравнения оптимальности и е-оптимальные стратегии Условимся говорить, что модель конечна, если все пространства Xt и At конечны, и что она счетна, если все эти пространства конечны или счетны и хотя бы одно из них счетно. До сих пор мы рассматривали только ко- конечные модели. Распространяются ли их свойства на счет- счетные модели? Формула C.2), определяющая распределение Р в про- пространстве путей L, отвечающее данному начальному рас- распределению р. и данной стратегии тг, сохраняет силу и в счетной модели, но теперь пространство Ь не конечно, а счетно. На счетном пространстве L с распределением вероятностей Р не всякая случайная величина имеет ма- математическое ожидание. Чтобы формулы C.3)—C.4) по- прежнему определяли оценку w любой стратегии тс, 4* 51
достаточно потребовать, чтобы текущая и финаль- финальная платы были ограниче- ограничены. Можно ослабить это требование, введя любое из следующих двух условий: а) Текущая плата q и финальная плата г огра- ограничены сверху; а) Текущая плата q и финальная плата г ограни- ограничены снизу. i Тогда формулы C.3)—C.4) будут давать для оценки w любой стратегии те оп- определенное значение, ко- конечное или равное —оо Рис. 1.12 (соответственно, +оо). Ясно, что v < -j- оо при условии а), тогда как при условии а') возможен случай у= + оо. С этим связаны не- некоторые преимущества класса моделей, выделяемого усло- условием а), перед классом, определяемым условием а') (см. пример 11.2). Мы будем предполагать, что выполнено условие а) 17. Далее, функция на счетном множестве может не иметь наибольшего значения. Поэтому в счетных моде- моделях нельзя ожидать существования оптимальных стратегий. Например, если в схеме, показанной на рис. 1.12, г = 0 и д(а) = (а = 1, 2, ...), то для любой стратегии л («) = 2 о—1 а=1 а=1 в то время как о— 1 v (х) = sup w (л) = sup = 1. it a a В главе IV, при переходе к бесконечному интервалу управления, результаты этого параграфа будут распространены и на более широкий класс моделей на конечном интервале [т, п], содержа- содержащий, в частности, подели, удовлетворяющие условию а'). I 52 Отмеченная трудность лежит в существе задачи и при- приводит к следующему видоизменению понятия оптималь- оптимальности. Пусть г ^ 0. Стратегия те называется г-опти- малъной для процесса Z (или начального распределения р), если W ([1, It) > V ((J.) — S. Она называется г-оптималъной для модели Z (или равно- равномерно е-оптимальной), если это соотношение выполня- выполняется при зсех начальных распределениях р.. (При е=0 мы возвращаемся к прежнему определению оптималь- оптимальности.) Рассмотрим, какие изменения претерпевают построе- построения §§ 4—9 при переходе от конечных моделей к счетным. В § 4 для конечной модели Z была построена равномерно оптимальная (не обязательно простая) стратегия. В счет- счетной модели мы вместо этого для любого г > 0 построим равномерно е-оптимальную стратегию. Пусть пх — s-оптимальная стратегия для процесса Ztx [поскольку v (х) < +оо, такая стратегия существует по самому определению верхней грани]. Как и в § 4, за- зададим сочетание я стратегий пх с помощью формулы D.1). Так как w (хх я) = w (х, пх) при всех х из Хт, то w(x, A) Остается показать, что всякая стратегия s, для которой выполнено неравенство A), является равномерно е-опти- е-оптимальной. Как и в конечном случае, иэ формул C.2)—C.4) следует, что для любого начального распределения (л и любой стратегии те W ([л, it) = W (х, те). B) Из A) и B) получаем, что w ((j,, it) = 2 V- (х) w(x, те) хт < 2 V- (х) lw (х> s [>¦ (х) v (х = w Левое из полученных неравенств показывает, что sup w ([д., те) ^ 2 Р {%) v (х), C) 53
Правое — что" e- D) Ввиде произвольности числа s^>0 из C) и D) следует, что sup w ([а, п) = 2 Е* (ж) у (ж) ^ м> (p., s) -|- е. E) F) Значит, стратегия тс равномерно е-оптимальна. Из формулы E) видно, что по-прежнему (формула D. 3)). Содержание § 5, в том числе вывод фундаментального уравнения, без изменений переносится на счетные модели (причем безразлично, выполняется ли условие а или а' — этим замечанием мы воспользуемся в § 4.3). В § 6 сохраняются рассуждения вплоть до вывода не- неравенства w (x, n) ^ Vu (х) (те— любая стратегия, х ? Хт). G) Как и в § 6, из G) следует, что v ^ Vu. Чтобы доказать, что v=Vu, мы теперь для любого г "^> 0 построим стра- стратегию, при которой w(x, те) > Fa (ж)—г. (8) По-прежнему, фундаментальное уравнение для про- произведения Yn' имеет вид w (х, т«') = 2 Т (« I x) [Q («) + V {ра, п>)\ О) [см. F.5)]. Пусть тг' — стратегия, е'-оптимальная для производной модели Z (такая стратегия существует при любом г' > 0). Тогда w' {ра, п') > г/ (pj—е', и из (9) вытекает, что W (х, Tn') > S т (а \х) [q (а) + г;' {ра)] - е' = А() [как и в § 6, и (а) = q(a)-\-v' (pj]. Подмножество ji(ar) слоя Л (ж), на котором и (а) = Fw(a;)[==supa(a)] в счет- 4() 54 ном случае может оказаться пустым множеством. Вместо него мы рассмотрим множество Аж (х) ~{а:а?А (х), и (а) > Vu (х) — х} (ж ? XJ, непустое при любом х >• 0, и примем за у (• |я) любое распределение вероятностей на А (х), сосредоточенное на Ах (х). Для такого f ф) —*• - A1) При г' + х <еиз A0) и A1) следует (8). Итак, результат 6. а) (уравнения v=Vu, u=Uv') оста- етбя в силе. Вместо результата 6. б) мы теперь имеем б') При любом х > 0 существует селектор <]> 'соответ- 'соответствия А (х) из Хт в Ат+1 такой, что в(ф)>у-)с. A2) Результат 6. в) вместе с его выводом тоже сохраняет силу, но им не всегда можно воспользоваться, так как не всегда существуют оптимальная стратегия те и такой селектор <\>, что и (ty)=-v. Из проведенного рассуждения вытекает следующее обобщение этого результата: в') Пусть е' и х — любые неотрицательные числа. Если стратегия п' г -оптимальна для модели Z' и се- селектор ф удовлетворяет неравенству A2), то стратегия фтс' (г -\-%)-оптималъна для модели Z. С помощью оператора 7\, определенного формулой F.10), условие A2) можно записать в виде 7y>i; —х. ¦ A3) Из результата 6.а) без изменений получаются все варианты уравнения оптимальности, приведенные в § 7. Из результата в') следует, что если хт+1, хот+2, . • •, хв — любые неотрицательные числа и если Tiftvt > vt_i — y-t (t — m-\-i,m-\-2,...,n), A4) то простая стратегия у = ^т+Ат+г • • • Фв равномерно s- оптимальна при s = xm+1 -\- xm+2 -|- • • • -f- \- Согласно б') при любых положительных xt такие ^ существуют. Итак, для счетных моделей: 1) оценка v удовлетворяет уравнениям оптимальности; 2) при любом е >• 0 существует простая равномерно ^-оптимальная стратегия <р; 55
3) такая стратегия <р = ф1? <|>8. • • фв находится на каждом шаге из неравенства A4), независимо от значений <р иа других шагах. Конечно, если можно выбрать все <\>t так, чтобы фор- формула A4) выполнялась при xt=0, то существует равно- равномерно оптимальная стратегия ср = фт+1 . . . <|>я. Так будет, например, если все слои А (х) конечны, ибо супремум по конечному множеству всегда достигается. Результаты §§ 8 и 9 полностью переносятся на счетные модели. § 13. Счетные модели: достаточность простых стратегий Не потеряем ли мы что-нибудь, если будем пользо- пользоваться только простыми стратегиями? Предыдущие ре- результаты еще не дают ответа на этот вопрос. Из них сле- следует только, что наши потери можно сделать сколь угодно малыми. Теперь мы покажем, что при фиксированном на- начальном распределении [а для каждой стратегии найдется не худшая простая стратегия (вообще говоря, зависящая ОТ fl). Это вытекает из следующих двух результатовз 1. Для всякого (л и любой стратегии п существует марковская стратегия а такаяг что W ([А, О) = W ([А, П) A) (условимся говорить, что для процесса Z такая стратегия равносильна тс). 2. Для любой марковской стратегии а существует прос- простая стратегия <р такаяг что w ([a, <p) ^ w ([л, о) при всех [а B) (будем говорить, что такая <р равномерно не хуже а или равномерно мажорирует а). * * * Чтобы доказать результат I,4рассмотрим марковскую стратегию ° (а 1 х) = р К = а I s«-i = s} = Pp%~iaCrT} C) 56 где р _ мера в пространстве путей L, отвечающая на- начальному распределению р и стратегии те. (Выражение в правой части C) теряет смысл при Р {xt_1=x}=0. Для таких х в качестве о (• \х) можно выбрать произволь- произвольное распределение на А {х).) Распределение вероятностей Q в пространстве L, соответствующее начальному распределению р и страте- стратегии о, вообще говорях не совпадает с Р; но поскольку w\ Р, «) =,Р f 2 9 iflt = 2 Р9 К) + Рг (*.) 1 и аналогично m+l то для A) достаточно, чтобы каждый из элементов хт, am+1, жт+1, . . ., а„, хп имел одно и то же распределение вероятностей относительно Р и Q. Это равенство доказывается по индукции. Оно верно для хт (распределение хт относительно как Р, так и Q равно р). Предположим, что оно справедливо для xt_x. Поскольку стратегия a — марковская, то Q (^ = ха) = Q {х(_г = х) с (а | х) D) (формально D) получается суммированием из C. 2)). Поль- Пользуясь C) и D), получаем Р [at = a} = 2 Р (ж<-1а< = жа) == 6Х( = 2 6 = 2 6X = 2 Q{^_1a = M} = Q{a< = a}, так что наше утверждение справедливо и для at. Дока- Докажем, что если оно справедливо для at, то оно верно и для xt. По смыслу переходной функции V{atxi = ax} = V{ai = a}p{x\a), E) Q{a<*(=ar) = Q{e» = e}p(*|e) F) (а б Af, х?Х,), 67
(формально Зтй равенства йолучаЮтся суммированием из C. 2)). Из E) и F) получаем Р {xt = х) = 2 Р iatxt — ах) — = Q {*,=*} (x?Xt). * * * Доказательство результата 2 основано на следующей общей лемме. Лемма 1. Пусть / — функция и v — распределение вероятностей на счетном пространстве Е. Если v/ < -f-oo, то множество V={x:f(x)^yf) имеет положительную меру v18. Доказательство. Положим c = v/. Если с = —оо, то Т — Е и v(F) = l. Если с конечно, то Допустим, что v (Г) = 0. Тогда |.c-/(z)Jv(z). (8) Так как величина с — /(ж) строго положительна всюду на Е\Т, то из G) и (8) вытекает, что v (Е\Т) = 0 (ибо v(?) = 0 при каждом х via E\T). Но это противоречит равенству Лемма доказана. В силу A2.2) условие B) равносильно требованию w {х, <р) > и? (х, а) при всех х из Хт. Разложим марковскую стратегию а в произведение a=Y0' подобно тому, как мы это делали 18 Лемма справедлива и ее доказательство почти не меняется для распределений вероятностей и функций в произвольных изме- измеримых пространствах. 58 в § 6 (т — сужение а на Хт, о' — сужение о на Хт+1 U • • • . . . U Хп). По формуле E.1) w {x, a) = т J, гДе Тх ( 0 = Т (' \х) — распределение вероятностей на А (х), и /(a) = ?(a)+ «>'(?«. а') (а?Ат+1). По лемме 1 подмножество слоя А (х), на котором / (a) ^ ^ fj=w {x, о), имеет положительную меру f^ и, значит, не пусто. Если^ ф (ж) — произвольно выбранная точка этого подмножества, то / [<\> (х)] ^ w (x, о). Но в силу фундаментального уравнения E. 1) / [ф (х)] = ю (ж, фо'). Значит, »(ж, фо') >ц>(а;, о). (9) Предположим, что результат 2 верен для производной модели Z'. Тогда в этой модели найдется простая страте- стратегия <р', равномерно мажорирующая марковскую страте- стратегию а'. В силу E. 1) и сделанного предположения имеем w (х, фт') = 9 [ф (х)] + и>' (р„,и, ?') > 9 [ф («)] + + w' (Рф(*)» °') = »(ж> К) > w(x> 3)- Следовательно, в модели Z простая стратегия <р = ф<р' равномерно мажорирует о, так что результат 2 справедлив н для модели Z. Наше рассуждение с очевидными видоизменениями сохраняет силу и для одношаговой модели, и дает, таким образом, также начало индукции (<р' и а' отсутствуют, под w' (ра, ¦) понимается par, r — финальная плата). * * * Следующий пример показывает, что в результате 1 стратегию а, вообще говоря, нельзя выбрать независимо от w. Пример 1. Рассмотрим двухшаговую модель, изо- изображенную на рис. 1.13. В этой модели оценка любой марковской стратегии о равна = *. 2,...); она постоянна на Хо и меньше 1. Оценка же немарковской 59
стратегии п, предписываю- предписывающей при начальном состоя- состоянии уи идти в zk, равна Рис. 1.13 и принимает на Хй значения, сколь угодно близкие к 1. Значит, здесь любая марков- марковская стратегия хуже тс при некоторых начальных состо- состояниях. Исключение составляют равномерно оптимальные стратегии л, для которых всегда есть марковские и даже простые стратегии <р, равносильные п при любом р. Так как u? (fx, k)=v (ft), то равносильность ер и л при любом jx означает, попро- попросту, равномерную оптимальность <р. Таким образом, мы утверждаем, что из существования какой-либо рав- равномерно оптимальной стратегии вытекает существование простой равномерно оптимальной стратегии. Это утверждение вытекает из результатов 1 и 2 и того факта, что в стетных моделях равномерная оптимальность стратегии п — это jo же самое, что оптимальность те при некотором фиксированном начальном распределении (л, а именно — любом fi, удовлетворяющем условию (x) > 0 при всех х из Хт. A0) Для доказательства приведенного факта заметим, что по формулам A2.2) и A2.6) для стратегии л, оптимальной при начальном распределении (л, 2гФ)М — w {х, те)] = и (р) — w (\l, тс) = 0. Поскольку w (х, л) ^ v (х), то из A0) и A1) вытекает, что w (x, n)=v (x) при всех х из Хт. 60 Отметим в заключение, что если в определении модели вместо ограниченности плат сверху предположить их. ограниченность снизу <х. в. условие 12. а) заменить усло- условием 12 а')), то мы не будем иметь результата 2. ПI и м ер 2. Пусть в модели, показанной на рис. 1.12, г ^Д(а)=2«(«Д 2, • • •)• Тогда любая простая стра- стратегия имеет конечную оценку а ™*™*°^*™™? определенная формулой о(а|*)=2 , имеет оценку IV {X, я) = + со=У (ж).
Глава 2 ПОЛУНЕПРЕРЫВНЫЕ МОДЕЛИ §1.0 понятии измеримости В главе I мы постоянно имели дело с распределениями вероятностей в различных пространствах (пространствах состояний, управлений, путей). Для конечных и счетных пространств, которые рассматривались до сих пор, рас- распределение вероятностей — очень простое образование. В случае несчетных пространств положение сложнее. В отличие от дискретного случая, здесь недостаточно за- задавать вероятности отдельных точек. С другой стороны, как правило, невозможно определить согласованным об- образом вероятности всех множеств. Поэтому вероятности задаются лишь для некоторого класса множеств (их на- называют измеримыми). Напомним основные определения, связанные с поня- понятием измеримости. Система подмножеств пространства Е называется а-алгеброй, если она включаетЕ, содержит вместе с каждым множеством его дополнение и содержит вместе с любым конечным или счетным набором множеств их сумму и пе- пересечение. Мы будем говорить, что Е — измеримое про- пространство, если в Е выделена некоторая а-алгебра (будем обозначать ее 33 (Е)). Множество считается изме- измеримым тогда и только тогда, когда оно принадлежит^ (Е). В конечном или счетном пространстве Е за 38 (Е) принимается совокупность всех подмножеств этого про- пространства. Если Е — прямая, то под^ (Е) мы будем по- понимать минимальную а-алгебру, содержащую все интер- интервалы (элементы этой а-алгебры называются борелевскими множествами.) Отображение i измеримого пространства Е в измери- измеримое пространство Е' называется измеримым, если про- прообраз любого множества из 33 (Е') принадлежит 39 (Е). 62 ^Йсно, что из измеримости отображений Е -ХЕ', Е' -* Е* вытекает измеримость их произведения Е -4- Е". Числовая функция f называется измеримой, если она определяет измеримое отображение в прямую. (Для этого необходимо и достаточно, чтобы были измеримы все мно- множества {х : f (х) ^ с} или все множества {х : f (х) ]> с}, где с — любая константа.) Все обычные операции над ко- конечным или счетным множеством функций (сложение, умножение, предельный переход, взятие верхней или нижней грани) приводят снова к измеримым функциям. Всякое измеримое подмножество Ё измеримого про- пространства Е также становится измеримым пространством, если выделить все подмножества Ё, принадлежащие^ (Е) (они образуют а-алгебру в Ё). Через ЕххЕгХ. . .xEk обозначается совокупность наборов хх х2 • . . хк, где xt ? Et (i=l, 2, . . ., к). Если Ег, Ег, . . ., Ек — измеримые пространства, то ЕххЕ%Х X. . •хЕк также можно рассматривать как измеримое пространство, принимая за ЗВ (JB^Xi^X. . .хЕк) мини- минимальную а-алгебру, содержащую все «прямоугольные» множества ГххГ2х. . . ХГА, где Г^ ? <Ш (Et) (t=l, 2,. . ., . . ., К). В случае, когда Еи Ег, . . ., Ек — прямые, а <Ш{ЕХ), 33 (Е2), . . ., Ш (Ек) — а-алгебры их борелевских подмно- подмножеств, эта конструкция приводит к измеримому ^-мер- ^-мерному арифметическому пространству, причем элементы системы 38 {ЕгхЕ2х. . .XЕк) также называются борелев- борелевскими множествами. В дальнейшем под измеримыми множествами в k-мерном пространстве мы всегда пони- понимаем борелевские множества 1. Мера v в измеримом пространстве Е — это неотри- неотрицательная функция п&38(Е), удовлетворяющая условию: если Г представлено в виде суммы конечного или счетного числа попарно непересекающихся измеримых множеств Гв, то v (Г) равно сумме v (Гк). Если кроме того v B?)=1, то v называется вероятностной мерой или распределением вероятностей. Если v — мера в измеримом пространстве Е, то каж- каждой неотрицательной измеримой функции / на Е соответ- 1 Класс борелевских множеств в ^-мерном арифметическом про- пространстве уже класса множеств, измеримых по Лебегу (их часто Тоже называют измеримыми множествами). 63
ствует неотрицательное число X (интеграл f no мере v). Кроме конечных значений, v/ может иметь значение + со. Для любой измеримой функ- функции / полагают v/ = v/+-v/-, A) где /+=тах (/, 0), /~=тах (—/, 0). Чтобы интеграл v/ имел смысл, необходимо и достаточно, чтобы хотя бы одно из чисел v/+, v/~ было конечным. Заметим, что если / = хг2, где Г ? $ (Е), то v/ = v (Г). Поэтому мера v однозначно определена, если известны значения интеграла v/ для всех ограниченных измеримых функций. § 2. Общее определение модели Пространство путей L состоит из всевозможных на- наборов — Xmam+lx где И mam+lxm+l • • • anXn' Хт, ат+1 GАт+1, Х т+1, — xt ь+ у//к^ v <^z-1Ь — ¦*¦)• \\) Оно является подмножеством произведения Rn = XmXAm^XXm+1X ... ХАпхХп. Если сомножители Xt и At — измеримые пространства, то Rn тоже является измеримым пространством. Если L — измеримое подмножество в Rn, то и L можно рас- рассматривать, как измеримое пространство. Мы будем предполагать, что а) Множество состояний X и множество управлений А являются измеримыми пространствами; при этом Хт, 2 Через Хг обозначается характеристическая функция множества Г, равная 1 при х ? Г и равная 0 в остальных точках. Ат+1, . . ., Хп — непересекающиеся измеримые подмно- подмножества X ж Ат+1, . . ., Ап — непересекающиеся измеримые подмножества А. р) Отображение j измеримо. у) Множество всех пар хх (х ? Xt) принадлежит of (XtxXt) (те< i О). Условия а)—у) обеспечивают измеримость L, а также измеримость множества Нt всех историй h=xmam+1xm+1 ... . . . atxt в момент t (в пространстве Rt=XmXAm+1xXm+1X X ... Х^ХХ,). В самом деле, условия A) можно записать в виде где &^ (х, у) (х, у ? Xt) — функция, равная 1 при х=у и равная 0 при хфу. Из условия y) следует, что 8^ — измеримая функция на Х( X Xt, Значит, bt (xt, j (<^+1)) — измеримая функция на Rn, и в силу B) L — измеримое подмножество Rn. Измеримость Ht в Rt доказывается аналогично. В конечном и счетном случаях распределение веро- вероятностей в пространстве путей задавалось формулой A.3.2). В общем случае ей соответствует формула р (dxmdam+1dxm+1dam+2 .. . dxn^dandxn) = = V- (dxm) * (dam+11 xm) p {dxm+11 am) n (dam+21 хтатПхт+1).. . )(dxn I «») C) Эта запись означает, что Р/ = \ V-(dxJ .j «(da^i\хт) \ Р№т+11ат+1)X J x \ ап_г) X „ат+Ан-0 • • • S Р ' X X А X X для всех функций /, для которых правая часть имеет смысл. Рассмотрим сперва внутренний интеграл (по XJ. Чтобы он имел смысл, нужно, чтобы / была измерима. 5 Т. Т* ТГырт'ИН. А. А. 65
Нам придется применять формулу D) к случаю, когда / — оценка пути I. Поэтому придется потребовать, чтобы платы q и г были измеримы. Чтобы существовал следующий интеграл [по А (хп_х)] нужно, чтобы первый интеграл представлял собой измеримую функцию от ап. Это при- приводит нас к необходимости включить в определение пере- переходной функции р (• |а) требование измеримости по а. Чтобы были осмыслены остальные интегралы, надо поза- позаботиться об измеримости второго интеграла по перемен- переменным хтат+1хт+1. . .жв_1. Поэтому мы вынуждены будем включить в определение стратегии те (• \h) требование из- измеримости относительно h. Разумеется, в общем случае необходимо сохранить и предположение ограниченности q и г сверху, введенное в § 1.12 для счетных моделей. Учитывая все это, мы будем говорить, что элементы, перечисленные в пунктах а)—е) § 1.2, определяют модель, если выполнены условия а)—у) и следующие требования: 8) Переходная функция р (• \а) измерима по а, т. е. р (Г | а) является измеримой числовой функцией на At при любом Г из S3 (Xf) (t=m+l, : . ., п). е) Текущая плата q и финальная плата г измеримы и ограничены сверху 3. В определение стратегии мы включаем следующее тре- требование измеримости: п (Г \h) является измеримой числовой функцией на Ht при любом Г из S3 (А() {т ^ t ^ п—1). Для простой стратегии <р= с^фа. . . фя это требование сводится к тому, чтобы tyt было измеримым селектором соответствия А (х) из Xt_x в А( (t=l, . . ., п), для марков- марковской стратегии о — к измеримости функции а (Г \х) на Xt_x при любом Г из S3 (А(). * * Для любой пары измеримых пространств Е и Е' можно говорить о переходной функции из Е в Е'. Это функция v (х |Г) от точки а: пространства 2? и измеримого множества Г пространства Е', причем при любом х это вероятностная мера на Е' и при любом Г — измеримая функция на Е. В этих терминах можно сказать, что р — переходная 3 Вместо ограниченности плат сверху можно было бы потребовать их ограниченности снизу (ср. аналогичное замечание в § 1.12). Более общий класс моделей, охватывающий оба эти случая, рас- рассматривается в главе V. 66 функция из Л в X, а л — переходная функция из про- пространства всех историй Н в А. Дополнительно требуется, чтобы мера р (• |а)была сосредоточена на Xt при а ? At, а п(- \h) — на слое А (х), если х — конец истории h. * * * Мы уже упоминали в гл. I, что иногда удобно считать переходную функцию и текущую плату зависящими не только от at, но и от xt_x. Этот случай сводится к основному, если принять за управление пару xt_xat. Такое сведение применимо и в общих моделях, только нужно ввести изме- измеримую структуру в пространстве пар xt_xat. Мы будем считать, что at и хг принимают значения из измеримых пространств At и Xt, причем пара xt__1at должна принадле- принадлежать измеримому подмножеству At произведения Х(ЛхАг Проекция ; определяется при этом формулой j (xt-iai)~ ~xt_x. Чтобы в каждом состоянии можно было управлять, мы потребуем, чтобы j отображало At на все пространство Xt_v Условие J3), очевидно, выполняется автоматически. Условия а) и у) не меняются, а условия Ь) и е) видоизме- видоизменяются очевидным образом. * * * Вместо того чтобы задавать переходную функцию, можно задать рекуррентное уравнение xt = Ft(xt-v at< si) (%-ia,6.^> st?St) и распределения вероятностей П^ на St для случайных параметров st (ср. конец § 1.2). Будем считать, как и в § 1.2, что параметры st взаимно независимы. Переходная функция может быть построена по формуле р (Г | ха) = П, {st: Ft (x, a, st) ? Г} (ха Е At). E) Чтобы формула E) имела смысл и задавала переходную функцию, достаточно потребовать, чтобы функция Ft была измерима по совокупности своих аргументов. Это значит, по определению, что прообраз Fjx (Г) любого из- измеримого множества Г из Xt при отображении Ft измерим. В пра- правой части E) стоит мера za-сечения этого прообраза. Остается сослаться на следующие общеизвестные факты: а) если С — измеримое множество в произведении Y X Z, то все г-сечения С, являются измеримыми множествами в У; ^* 67
б) если Р — произвольная мера на Y, то Р (Cz) — измеримая функция на Z (см. Халмош [1], §§ 34—35; это нетрудно также вы- вывести из леммы § 3 добавления 4). § 3. Переносятся ли на общие модели методы, применявшиеся для изучения конечных и счетных моделей? Исследование конечных и счетных моделей в главе I основано на фундаментальном уравнении A. 5. 1). Для об- общих моделей фундаментальное уравнение A. 5. 1) прини- принимает вид w (х, тс) — | тс (da | х) \q (a) -f w' (pa, па)] А(х) (х?Хт, к — любая стратегия) A) Оно доказывается так же, как в конечном случае, только суммы заменяются интегралами. При этом вместо равен- равенства Р (xal')— тс (а \х) РаA') используется формула р/ (awe»ti ¦ • • х») = ^ \ PJ (-Vn^+i •¦•*»)« (da \ x), А(х) вытекающая из B. 4) (мера Р отвечает начальному состоя- состоянию х и стратегии тс в модели Z, мера Ря — начальному распределению ра и стратегии тса в модели Z'). Для оценки «/, входящей в фундаментальное уравне- уравнение, теперь имеем выражение W'(Pa> *,) = \ *a)p{dy\a) B) (ср. A. 5. 3)). Это следует из общей формулы w (р-тс) = I и? (а;, тс) p. (da;), C) которая выводится из B. 3) точно так же, как в конечном случае A. 4. 2) выводится из A. 3. 2). Как и в § 1. 4, из C) вытекает, что если w (х, тс) = у(ж) при всех х из Хт, то стратегия и равномерно оптимальна 4. Аналогично пере- 4 Отметим, что все предыдущие построения остаются справедливыми и в предположении ограниченности плат снизу — этим мы вос- воспользуемся в § 5.2. 68 носится на общий случай и марковское свойство (§ 1.8). В главе I был указан рекуррентный способ построения оценок v и простых оптимальных стратегий, использую- использующий операторы U и V. В общем случае оператор U зада- задается формулой = q(a)+\f(y)p(dy\a) [ср. A.6. 3)J. Для оператора V сохраняется формула A.1.5). Существенная трудность связана с тем, что V может пере- переводить измеримые функции в неизмеримые. Действительно, пусть j — ортогональное проектиро- проектирование квадрата А на его сторону X. Как известно, су- существует такое борелевское подмножество С квадрата А, что ; (С) не является борелевским подмножеством X (см. добавление 2, § 5). Если g (а)=хс (а)> то Vg (х) = =Xfo (x)i и последняя функция неизмерима. В силу сказанного, функция vn_x, вычисленная по фор- формулам vn^_1=Vuji, un~Ur, может оказаться неизмеримой. Тогда не имеет смысла выражение Uvn^, содержащее ин- интеграл, и, стало быть, рекуррентные формулы vt_1 = Vut, ut=4lpt из § 1.7 неприменимы. Один из способов справиться с этими трудностями состоит в том, чтобы рассматривать только измеримые функции из некоторого класса X, инвариантного относи- относительно операторов V и U. Таким методом будут исследо- исследованы в этой главе полунепрерывные модели. На них уда- удается перенести результаты, доказанные для конечных моделей. Построение равномерно оптимальной стратегии для конечных моделей опиралось также на принцип сочета- сочетания стратегий. Чтобы формула A.4. 1) определяла стра- стратегию в общем случае, необходимо обеспечить измери- измеримость л( • \h) no h. Для этого приходится доказывать специальные теоремы о возможности измеримого выбора. Весьма общий класс измеримых моделей (включающий, как частные случаи, счетные и полунепрерывные модели) будет изучен в следующей главе. Однако для них-при- них-придется применить новые, более тонкие методы построения измеримых стратегий (причем получаются результаты более слабые, чем для счетных и полунепрерывных мо- моделей). 69
§ 4. Определение полунепрерывной модели Отправным пунктом для нас является аналогия между свойствами функций, определенных на конечных множест- множествах, и непрерывных функций на компактах. В частности, и те, и другие достигают своего наибольшего и наимень- наименьшего значений. Впрочем, для нас существенно лишь наибольшее значение. Доказывая, что непрерывная функ- функция / на компакте достигает своей верхней грани, исполь- используют только то, что при любом с множество {х : f(x) ^ с} замкнуто. Действительно, пользуясь компактностью, строят сходящуюся последовательность {хп } такую, что / (хп) сходится к верхней грани 6 функции /. Для всякого е > 0 множество {х : / (х) ^ 6—е} со- содержит все хп, начиная с некоторого, и, значит, содержит предел х' последовательности {хя}. Поскольку / (х') ^ 6—е при каждом е > 0, то / (х')=Ъ. Пусть Е — произвольное метрическое пространство 5. Функцию, заданную в Е, назовем полунепрерывной, если все множества {х : f(x) ^ с} замкнуты в. Любая невозрастающая последовательность полуне- полунепрерывных функций /я сходится к полунепрерывной функ- функции / (принимающей, быть может, значение —со). Это вытекает из очевидного соотношения {х : f(x) ^ с }= = П {•? 'fn{x)^c}- В частности, полунепрерывны все п пределы невозрастающих последовательностей непрерыв- непрерывных функций. Справедливо и обратное: любая полуне- полунепрерывная функция является пределом невозрастающей последовательности- непрерывных функций. 6 Множество Е называется метрическим пространством, если лю- любым х, у g E сопоставлено неотрицательное число р (х, у) {рас- {расстояние между х и у), причем 1) р (х, у)= р {у, х), 2) р (х, у)=0 тогда и только тогда, когда х=у; 3) р (х, у) sg р (х, z)+p (у, z) для любых х, у, z (• Е (неравенство треугольника). Сходимость последовательности {хп} к точке хоъ Е определяется требованием р (хп, х0) ->¦ О при п -> го. 6 Обычно такие функции называют полунепрерывными сверху. Полунепрерывными снизу называют функции, для которых замк- замкнуты все множества {х:/(х)^'с}. Функция непрерывна тогда и только тогда, когда она полунепрерывна одновременно сверху и снизу. Полунепрерывные снизу функции нам не встретятся, и поэтомуГмы можем употреблять сокращенное выражение «полу- «полунепрерывная функция» вместо более полного «функция, полу- полунепрерывная сверху». 70 Вот простое доказательство этого утверждения для ограничен- ограниченной сверху полунепрерывной функции / (другие случаи нам не встретятся). Положим 1 /„(*) = (тахГ-и, Fx(^)\dr, Fx(r)= sup f{y). При каждом х функция Fx не убывает и стремится к / (х) при г \ 0. Поэтому /„ 4 /. Из неравенства треугольника вытекает, что {У ¦ Р («о. У)< г -В} С {у : р (х, 1/)<г}С при р (х0, х) < 8 < г. Значит, ^„(г-&К^(г)<^0(г + В) при p(s0, s)<8<r. Следовательно, Fx (г) -»¦ Fx<s (г) при а: -»¦ х0 для всех значений г, где Fx, (г) непрерывна, т. е. на всем отрезке [0, 1], кроме, быть может, счетного числа точек. Поскольку —п < max [—п?х (-?)] < sup /, в выражении для /„ (х) можно перейти к пределу под знаком ин- интеграла при х -> х0, и функция /я непрерывна. Каждое метрическое пространство Е мы будем рас- рассматривать как измеримое пространство, принимая за <SS{E) минимальную <з-алгебру, содержащую все откры- открытые и замкнутые множества (элементы этой а-алгебры называют борелевскими множествами в пространстве ЕO. Обозначим через 3?(Е) совокупность всех полунепрерывных ограниченных сверху функций на Е. Модель Z назовем полунепрерывной, если А. Множество состояний X и множество управлений А — сепарабелъные метрические пространства 8; при этом Хт, Хт+1, . . ., Хп — замкнутые подмножества X и Ат+1, . . ., Ап — замкнутые подмножества А. Б. Если хк -> х^Хиак^А(хк)г то последовательность 7 Для fc-мерного арифметического пространства это согласуется с определением борелевских множеств, данным в § 1. • 8 Метрическое пространство Е называется сепарабелъным, если в нем можно построить счетное множество С такое, что для лю- любого х из Е и любого е > 0 найдется у из С, удаленное от х на рас- расстояние, меньшее е (такие множества С называются всюду плот- плотными). 71
{ак} имеет Предельную точку, принадлежащую А(х) [это свойство мы назовем квазинепрерывностъю соответст- соответствия А(х) по х.\ В. Если f?g{Xt) и g(a)=\p(dx\a)f(x) A) то Г. Плата q на множестве At принадлежит 56{At)t плата г принадлежит $?(Х„). Условия А—Г выполняются автоматически, если про- пространства X и А конечны. Таким образом, все конечные модели полунепрерывны. Условие В равносильно более простому требованию: В-у. Если функция f непрерывна и ограничена, то функ- функция ,Оу определенная формулой A), также непрерывна* Чтобы вывести В± из В, достаточно заметить, что функ- функция / непрерывна тогда и только тогда, когда / и —/ полунепрерывны сверху. С другой стороны, В вытекает из Въ так как всякая функция класса X является пределом невозрастающей последовательности ограниченных непре- непрерывных функций 9. Отметим, что условия а) и у)—е) § 2 следуют из усло- условий А—Г. Условие J3) § 2 также следует из А—Г, если пространство X представляется в виде суммы счетного числа компактов. В самом деле, а) вытекает из А и определения а-алгебры <88 (Е) в метрическом пространстве Е. Из Б следует, что про- прообраз У (С) компакта С а X является компактом в А (действи- (действительно, для любой последовательности {ап} a j'1 (С), последо- последовательность {; (ап)} С С имеет предельную точку х0 ? С ив силу Б у последовательности {а,,} найдется предельная точка ао?А (х0) = = Г1(хо)С1Г1(С)). Значит, если С —компакт, то Г1 (С) со Если Х=\_]Сп, где Сп — компакты, то любое замкнуто ство DaX является суммой компактов Dn = D(~)Cn, и 8 Из теоремы о монотонном предельном переходе под знаком ин- интеграла следует, что если функции /я измеримы, Д ограничена сверху и fn \ f, то \xfn \ ц/ для любой вероятностной меры ц (см. Халмош [1], § 27, теорема 2). 72 = U 1~х (О„) 6 * (Л). Если измеримы прообразы всех замкнутых 1 множеств, то измеримы прообразы всех борелевских множеств, и мы имеем условие 8). Условие 7) вытекает из представления «диагонали» D = {x=y} пространства Еу^Е в виде где В (ге, е) = {у : р (у, хп) < е} — е-окрестность точки хп, а {хп} — счетное всюду плотное подмножество Е. В метрическом пространстве полунепрерывная функция из- измерима, так как ее множества уровня {х : f (х) > с} (с —действи- —действительное число) замкнуты. Поэтому из Г) следует е). Чтобы вывести условие 8), обозначим через К класс всех функций /, которым по формуле A) соответствует измеримая функция g. В силу В класс К содержит все непрерывные огра- ограниченные функции. Очевидно, он замкнут относительно сложе- сложения, умножения на числа и ограниченного предельного перехода. По лемме 1 добавления 5 класс К содержит все ограниченные измеримые функции, в частности, характеристические функции всех измеримых множеств (лемма применяется к множеству X всех непрерывных ограниченных функций). Остановимся на обобщении, о котором говорилось в конце § 2. Нетрудно проверить, что при описанном там сведении получается полунепрерывная модель, если обоб- обобщенная модель удовлетворяет условиям А и Б в прежней форме, а также следующей модификации условий Вг и Г: BJ. Если f — непрерывная ограниченная функция на Xt, то функция 8 =\f(y) ха) B) непрерывна по совокупности х и а на At. Г'. Плата q на множестве At принадлежит $\ плата г принадлежит 73
Вернемся теперь к рекуррентному уравнению xt = Ft(xf-v йр st) (xt~iat?At> st?st)' C) рассмотренному в §§ 1.2 и 2.2. Когда это уравнение опре- определяет полунепрерывную модель? На пространстве Xt, А( и At, а также платы q и г надо наложить прежние требования А, Б и Г'. Относи- Относительно функций Ft достаточно потребовать измеримости по совокупности всех аргументов и непрерывности по сово- совокупности xt_x и at 10. Первое из этих условий позволяет определить переходную функцию p(-\xt-iat) (CM- §2). Из второго следует свойство В[. В самом деле, пусть / — ограниченная непрерывная функция на Xt. Пере- Переходная функция B. 5) переводит / в функцию g (*a) =\f(y)p (dy | ха) = J / \Ft (x, a, s)] П, (ds) = Mf[Ft(x, a, st)] D) (Равенство интегралов сводится к определению переход- переходной функции р в случае, когда / равно индикатору Г, и распространяется на все ограниченные измеримые функции / с помощью леммы 1 из § 1 добавления 5). При сделанных предположениях подинтегральная функция ог- ограничена и непрерывна по ха при каждом s из S(, и не- непрерывность g вытекает из теоремы Лебега о предельном переходе под знаком интеграла и. Итак, при выделенных курсивом условиях уравнение C) задает полунепрерывную модель. § 5. Уравнения оптимальности и простые оптимальные стратегии Условимся говорить, что соответствие допускает из- измеримый выбор (униформизацию), если для него существует измеримый селектор (см. § 1.3). Пример отображения, не допускающего униформизацию, будет рассмотрен в § 3.1 (пример 1). 10 В действительности, измеримость по совокупности xt^^at и Sf вытекает из измеримости по st и непрерывности по остальным аргументам. 11 См. Халмош [1], § 26, теорема 4. 74 Мы будем опираться на следующую общую теорему. Теорема А. Пусть Е и Е' — сепарабельные мет- метрические пространства и О(х) — квазинепрерывное соот- соответствие из Е в Е' (см. § 4, Б). Если /G<$?(?'), то функция g(x)= sup f(y) принадлежит 3?(Е), множества непусты и соответствие Q(x) допускает измеримый выбор. Эта теорема будет доказана в следующем параграфе. Опираясь на теорему А, распространим на полуне- полунепрерывные модели результаты §§ 1.6—1.7 об оценке v и простых оптимальных стратегиях. Для вывода этих результатов нужны следующие свойства: 1) оценка v принадлежит 3?{Хт) (и, значит, измерима); 2) v([i) = ij.v для любого начального распределения jr, 3) существует равномерно оптимальная стратегия. Для конечных моделей свойство 1) тривиально, а свой- свойства 2) и 3) были выведены нами до того, как мы при- приступили к исследованию связи между моделью Z и ее про- производной Z'. В полунепрерывном случае приходится до- доказывать свойства 1)—3), также используя индукцию от Z' к Z. В предположении, что свойства 1)—3) выполнены для производной модели Z', докажем, что а) оценка v модели Z выражается через оценку v' модели Z' уравнениями v=Va,' u = Uv', A) где операторы U и V определены формулами (a) = q(a)+\f(x)p(;dx\a) (a?A), B) (x?X\Xn); C) б) существует измеримый селектор ty соответствия А(х) из Хт в Ат+1 такой, что u№(x)\ = v{x); D) 75
в) если и' — оптимальная стратегия для модели Z', и if — селектор из пункта б), то стратегия фи' опти- оптимальна для модели Z; г) модель Z тоже обладает свойствами 1)—3). Для вырожденной модели, состоящей из одного мно- множества Хп, свойства 1)—3) выполняются тривиальным образом [1) следует из 3. Г]. По индукции свойства 1)—3) будут справедливы для любой полунепрерывной модели, а с ними и результаты а)—в). Так же, как в § 1.6, выводим из фундаментального уравнения C.1), что w(x, где E) u(a) = q(a) + v'(Pa) (й^п+1) F) (и—любая стратегия). По предположениям 1)—2) "'(Р.)= $ v'(y)p(dy\a). Поэтому из условий 3. В—3. Г вытекает, что и Сопоставляя B) и F)—G), имеем u=Uv'. Построим теперь стратегию и, для которой формула E) выполняется со знаком равенства. Пусть и' — стра- стратегия, оптимальная для Z' [предположение 3)]. Тогда, в силу фундаментального уравнения и формулы F), для любого произведения f71' (см. § 1.6) w(x, Ти')= J f(da\x)[q(a Л(х) = \ t(da\x)\q{a)-\-vl (pa)]= j u(a)-[(da\x). Цх) А(х) Чтобы правая часть была равна Vu(x) = supu(a), доста- А(х) точно чтобы распределение ч(-\х) было сосредоточено в какой-либо точке ty(x) множества Ж(х) = {а:а?А(х), u(a)=Vu(x)}; при этом, чтобы фи' было стратегией, нужно выбрать 76 селектор ф соответствия А(х) измеримым. Поскольку и???(Атл1), это можно сделать по теореме А. Из равен- равенства w(x, yn') = Vu(x) и из E) следует, что v=Vu. Мы до- доказали а). Ясно, что селектор ф соответствия А(х) удовлетворяет условию б) тогда и только тогда, когда ф- — измеримый селектор соответствия А(х). Поэтому рассуждения пре- предыдущего абзаца доказывают б) и в). Остается показать, что свойства 1)—3) сохраняются для модели Z. Свойство 3) доказано построением стра- стратегии фя'. Свойство 1) по теореме А вытекает из включе- включения и?3?(Ат+1) и равенства v=Vu. Для доказательства 2) заметим, что если и — равномерно оптимальная стра- стратегия для Z, то у([х)=м7([х, и) = [ w(x,n)p(dx)= \ у (х) \х (dx) = \xv. Как и в § 1.6, результаты а)—б) можно сформулиро- сформулировать с помощью операторов Т^ и Т, преобразующих функ- функции на Хт+1 в функции на Хт по формулам (х)) (8) \ f(y)p(dy\a)]. (9) Ясно, что оба эти оператора имеют смысл для функций / из $?(Хт+1), и из условий З.В, З.Г и теоремы А видно, что Т?(Хт+1)С.$(Хт). В результате а) уравнение A) можно заменить урав- уравнением а в результате б) формулу D) — равенством 7>' = v. Из результатов а)—в) совершенно так же, как в § 1.7, выводятся уравнения оптимальности v=Tu на Х\Хп, A0) v = г на X,.,
существование простой стратегии у-=фта . . .ф , для которой " Tfv = v на Х\Хп, (И) и равномерная оптимальность такой стратегии. * * * В случае обобщенной модели, когда состояние xt_x не определяется однозначно по управлению at (см. §§ 2 и 4), операторы Г и Г, следует определить формулами Tf (х) == ^sup^ | q (xa) -f \f(y)p (dy | xa) и *) = q (-4 (х)) + \ f (у) р (dy | ж=р (х)). A2) A3) При этом уравнения оптимальности и условия для про- простой оптимальной стратегии <р сохраняют вид A0) и (И). * * * Если полунепрерывная модель задается уравнением D.3), то, в силу D.4), ТУ (*) = sup [q (xa) -f ( /\Ft (x, a, s)] П, (ds)\ = a 6 A(x) у ^ | = sup [q (xa) -f M/ [^ (ж, a, S/)J}. Оператор Гф на шаге t записывается в виде Ту (a;) = g (хф (х)) + j / [F, (ж, ф (ж), s)| П, (ds) = A4) A5) * * Вычисление оценки модели и оптимальных стратегий по формулам A0)—(И) представляет собой нелегкую задачу. Существуют методы численного решения с по- помощью вычислительных машин, которых мы касаться не будем. Простые же явные выражения удается полу- получить в примерах, где обнаруживается, что оператор Т преобразует в себя некоторое семейство функций, зави- зависящее от небольшого числа параметров. Мы восполь- воспользуемся этим при разборе конкретных задач в §§ 7—11. 78 В приложениях встречаются случаи, когда модель не полунепрерывна, но явное вычисление показывает, что: А'. Существуют измеримые функции vt на простран- пространствах Xt и измеримые селекторы tyt соответствий А(х) из Xf^ в At такие, что vn=r и T^/;i^Ttvt=vt_1 (t = m-\- 1,. . ., п). Тогда можно утверждать, что vt=vt при всех t и простая стратегия ф=Ф„+1 • • • ф„ равномерно оптимальна. В самом деле, условие А' полностью заменяет теорему А при проведении индукции из первого раздела этого пара- параграфа (в свойстве 1) полунепрерывность оценки v заме- заменяется ее измеримостью). § 6. Теоремы об измеримом выборе Теорема А будет выведена из следующей более общей теоремы. Теорема Б. Пусть каждому х из измеримого про- пространства Е соответствует непустое компактное под- подмножество Qx—Q(x) сепарабелъного метрического простран- пространства Е', и пусть для любого у из Е' функция F(x)= p(Qx, у) измерима п. Тогда соответствие Q (х) допускает измеримый выбор. Соответствие Q(x), удовлетворяющее условию тео- теоремы Б, мы будем называть измеримым по х. Заметим, что когда Q(x) состоит из одной точки Ф(ж), это определение совпадает с обычным определением из- измеримости Т13. Доказательство теоремы Б и вывод теоремы А из тео- теоремы Б основаны на следующем предложении. Критерий измеримости. Для измеримости соответствия Q (х) необходимо и достаточно, чтобы су- существовала последовательность открытых множеств <?г(ж);э<?2(я);э. . .IDQn(x) 2- • -2<?(я) со свойствами: а), при любых п и у измеримо множество 12 Расстояние р (Q, R) от множества Q до множества R определяется, как нижняя грань р (х, у) по всем х? Q, y? R. 13 Действительно, если U есть е-окрестность точки у, то {х : ф (х) ? • ¦U}={x: р(<?я, у) < е}. 79
б) каждая последовательность точек уп ? Q" (х) имеет предельную точку в множестве Q(x). Для доказательства необходимости достаточно поло- жить При этом множество измеримо при любых п и у, а в качестве предельной точки y^Q(x) для последовательности точек yn?Qn(x) можно брать предельную точку последовательности {у'п}, где у'п — ближайшая к уп точка компакта Q (х). Чтобы доказать достаточность, рассмотрим последо- последовательность {ут}, всюду плотную в Е'. Фиксируем у и положим /> Ут) при Тогда ?(у, Q" (х)) = inf ?(У,У') = intp(y,yj=inifma(x). Выберем в Q"(x) точку у'п такую, что Согласно б), у последовательности {г/,,} имеется предель- предельная точка i/, принадлежащая Q (х). Очевидно, р (г/. QJ < р (г/, у) < Нт р (г/, Q" (х)) < Р (у, qx), так что Функции /тя измеримы в силу а). Поскольку измеримость сохраняется при взятии нижней грани и предела после- последовательности функций, то функция p(y,Qx) измерима по х. Это вертго при каждом у, и, значит, соответствие Q (х) измеримо. 80 Следствие. Если соответствие Q(х) измеримо по х, то при любом у' из Е' соответствие Q(х) = {у, y?Q(x), р(у, у') = р(Q(х), у')} тоже измеримо по х. Из компактности Q (х) следует, что Q(x) не пусто и компактно. Положим Очевидно, эти множества открыты, удовлетворяют нуж- нужным включениям и -условию а) признака измеримости. Проверим условие б). Если yn?Q"(x), то в Q(x) найдется точка у'п такая, что р(у„, у'„)<С~. Так как Q(х) — ком- компакт, то последовательность у'п имеет предельную точку у в Q (х). Ясно, что у является предельной точкой и для последовательности уп, и что р(у, y') = p(Qx, у')- Докажем теперь теорему Б об измеримом выборе. Взяв в Е' всюду плотную последовательность {ут}, положим / 19 • -г В силу следствия вложенные друг в друга множества Qm(x) компактны и измеримы по х. Пересечение Q^(x) ¦ этих компактов не пусто. Если точка у принадлежит Q^(x), то Р (Ут> У)==Р(Ут> Qm-l(X)) ( = 1, 2, . . . ). A) Поэтому для любых двух точек у', у" из Q&, (х) Р (Ут> У') = Р {Уmi У") при всех ут, и, значит, у' = у". Таким образом, Q^ (x) состоит из единственной точки, которую мы обозначим ф (х). Поскольку множества Qm_x (x) измеримы по ж и в силу A) р(ут, ty(x)) = p(ym, Qm_i(%)), то функция р (ут, ф (х)) измерима по х при всех ут. Так как из ут~+у следует, что 6 Е. Б. Дынкин, А. А. Юшкевич 81
и {ут} всюду плотно в Е', то функция р(у, ф (х)) измерима по х при любом у из ?'. Согласно замечанию, приведен- приведенному перед критерием измеримости, последнее условие равносильно измеримости функции ф (х). Теорема Б доказана. Выведем из нее теорему А преды- предыдущего параграфа. Прежде всего заметим, что из квазинепрерывности Q(x) вытекает, что любая последовательность yk?Q(x) имеет предельную точку в Q(x). Следовательно, Q(x) компактно. Множество Q (х) из теоремы 5.А непусто, ибо полуне- полунепрерывная функция / достигает на компакте Q (х) своего наибольшего значения g (x). Множество Q (х) компактно, как пересечение замкнутого множества {у : f (y)^ g (x)} с компактом Q(x). Из ограниченности сверху / вытекает ограниченность сверху g. Покажем, что g полунепрерывна., Пусть хп-+ х и g(xn)~^c. Выбирая по точке уп в множестве Q(xn), будем иметь / (г/п) ^ с. В силу квазинепрерывности Q у после- последовательности уп имеется предельная точка y?Q{x). Ввиду полунепрерывности / имеем f(y)^c и, значит, g (x) ^ >f(y)>c. Согласно теореме Б, нам остается проверить, что Q (х) измеримо по х. Из квазинепрерывности Q следует, что при любом у из Е' функция F (х) = —?{y>Qx) полунепре- полунепрерывна и, стало быть, измерима. Значит, Q (х) измеримо по х. Чтобы вывести измеримость Q (х) по х из измери- измеримости Q (х), воспользуемся критерием измеримости. Пусть /я — непрерывные функции на Е', монотонно сходящиеся сверху к /. Открытые множества Q"(х)={у.р(у, Qs)<i, L(у)>8И—i вложены друг в друга и содержат Q(x). Они удовлетво- удовлетворяют условию а) критерия измеримости, так как отобра- отображение Q (х) и функция g (x) измеримы. Проверим усло- условие б). Пусть yn?Qn{x) и у'п — ближайшая купточка ком- компакта Q (х). Тогда р(уп, ^)_>0. Поэтому точка y?Q(x), предельная для {у'„}, является предельной и для {уп}- При re ^> m Полагая п заключаем, что При т-+ со получаем, что/ (у) ~^ g (x), и, значит, у при надлежит Q(x). Итак, условие б) признака измеримости тоже выполнено, и доказательство теоремы А закончено. § 7. Модель распределения ресурса между производством и потреблением Вооруженные общими результатами о полунепрерыв- полунепрерывных моделях, продолжим теперь изучение поставленных ранее конкретных задач (см. введение и § 1.2). Начнем с задачи распределения одного продукта между производством и потреблением. В этой задаче выпуск xt связан с затратами at уравнением xt = F(at, st) A) (st — случайный параметр). В качестве Xt и At можно принять полупрямую [0, -\-со). По смыслу задачи управ- управление at можно брать из отрезка [0, xt_v], так что слоем А(х) Рис. 2.1 А (х) служит отрезок [0, х], а множеством At — угол между прямыми а=0 и а=х (см. рис. 2.1). Условия А и Б из § 4 выполнены (квазинепрерывность соответствия А (х) следует из компактности объединения А (х) по всем х ^ с < оо). Доход за п шагов равен 9i (хо — ai) + 4i (xi — а-г\ + • • • + д„ (х„-1 — а„)- Согласно сказанному в конце § 4, для полунепрерывно- полунепрерывности модели достаточно потребовать, чтобы функции qt 6* 83
были полунепрерывны и ограничены сверху, а функция F — измерима по совокупности а и s и непрерывна по а. Естественно считать, что если затраты не превосходят константы с, то при любой случайной ситуации выпуск не может превысить некоторую константу Ф (с). Другими словами: функция F (a, s) ограничена на каждом мно- множестве [0, c]xSr При этих условиях можно отказаться от требования ограниченности сверху функций q,. В самом деле, рассмотрим последовательность со==жо, с;=Ф (c^j). Очевидно, при начальном состояний х0 и любом управле- управлении выполняется неравенство xt ^ ct, и мы можем за- заменить пространство состояний в момент t на отре- отрезок ^=[0, ct]. При этом множество А заменяется на тре- треугольники Л(={(а, х) : 0 =^ а ^ х <1 ct}, и ограничен- ограниченность функции qt на At вытекает из ее непрерывности. Применим к нашей задаче общие результаты § 5. Пусть vt — оценка модели на интервале [t, n]. Согласно формулам E.10) и E.14) °t-\ И = Ttvt (х) = max to (* — Простая оптимальная стратегия <р= ср^фа- • -Фя получа- получается, если определить <\>t (x) как то значение а, при котором достигается максимум в формуле B). Проведем выкладки для одного специального, но ин- интересного для экономики случая. Пусть дДс) = са @<с<оо) C) при некотором а из интервала @, 1), s^ — положительные случайные величины с одним и тем же распределением вероятностей и F(a, s) = as. D) (Формула C) описывает все однородные вогнутые функ- функции. Формула D) выражает предположение, что при любой случайной ситуации выпуск пропорционален за- затратам). Наша модель однородна. В силу B) где Tf (x) = max [(х - af + M/ (a*,)] (x > 0). 0^< E) Имеем ГО (х) = max (x — а)" = а:01 0< < И Следующий шаг должен был бы состоять в применении оператора Т к функции /=жа. Мы решим несколько более общую задачу и вычислим T(bx"), где 6^0. Имеем Т фх") (х) = max [(х — af -f ^bef], F) где Исследуя задачу на максимум F) обычными средствами дифференциального исчисления, находим, что этот макси- максимум достигается в точке I (b) x и равен ^ ф) хл, где G) 1 + Следовательно, Фи-fc (Ж) ~ ^4Ж> где числа Ьк и dfc находятся из соотношений (8) (9) A0) 1 + (эти числа не зависят от п). Из (9) вытекает, что числа °к — ик (И) 14 Предполагается, что это математическое ожидание конечно. 85
связаны соотношением где Стало быть, при й = 1, 2,... A2) A3) В силу A0) и (И) коэффициенты Ьк и d7(. выражаются ф у () () через ск по формулам A4) Формулы (8) и A2)—A4) дают полное решение задачи. Посмотрим еще, как меняется оптимальное управле- управление ^ на фиксированном шаге t при неограниченном увеличении времени управления п. Согласно (8) и A4) Если р. <1, то ск -> j—— при й;->ао, и в пределе так что нужно вкладывать в производство постоянную долю {* произведенного продукта. Если же ^ ^ 1, то ск ->¦ со и ф, (ж) -* х. Это значит, что в начале периода управления нужно почти всю продукцию использовать для расширения производства (в конце периода управле- управления доля потребления резко возрастает). Не следует, впрочем, переоценивать практического значения послед- последнего результата. Он получается за счет вклада слагае- слагаемых, отвечающих очень большим значениям с, а оценка полезности таких значений с с помощью неограниченной функции q(c) = c* достаточно сомнительна. Явное решение последней задачи было получено бла- благодаря тому, что нам удалось угадать с самого начала простое множество if функций / (х), инвариантное отно- относительно операторов Тг и содержащее финальную плату г. 86 Такое множество, очевидно, содержит все функции vt = Tt+1 Tt+2 . . . Тпг, и поэтому, решая задачу оптималь- оптимального управления, мы можем рассматривать только функ- функции из «$?. (В нашем случае X состояло из функций операторы Tt не зависели от t и г=0). Этот прием поможет нам и при решении других конкретных задач. § 8. Задача о регулировании водоснабжения В этой задаче (см. введение и § 1.2) t L t-X t I f> -I' \ / где xt — количество воды в водохранилище в конце пе- периода t, at — потребление воды за этот период, st — слу- а а U О X х( Рис. 2.2 чайный приток воды и U — объем водохранилища. Целе- Целевая функция имеет вид ?К) + ?Ц)+ ••• +?(«„)• Если считать, что st — независимые случайные величины с одним и тем же распределением П, то мы получим одно- однородную модель. Пространством состояний X является здесь отрезок [0, U], такой же отрезок служит и пространством управ- управлений А. Слой А(х) состоит из точек [0 ^ а ^ х], мно- множество А представляет собой треугольник (см. рис. 2.2). Поскольку функция A) непрерывна по xt_x и at при каж- 87
дом значении st, то для полунепрерывности модели до- достаточно, чтобы функция q была полунепрерывна и ог- ограничена сверху. Выпишем для этой модели оператор Т. Так как mini-a + s, U)= х — a-\-s при — х4-а, U при s>U —x то формула E. 14) принимает вид [U-x+a ?(«) + ( /(s-a + «)II(ds) + /)П(С7—аг + о, +ооI @< ж< f/), а уравнения оптимальности обращаются в г г/+^-о »<-1 (ж) = max g (а) + [ wf (а; — о + s) П (ds) + I -x + a, +оо) § 9. Задача о распределении ставок в игре Согласно § 1.2 эта задача описывается рекуррентным уравнением -«,№,-!, A) xt-\==atxt-iJt~{^—at)xt-i — распределение . ставок ire t, at и it — случайные коэффициенты отдачи. Будем считать, что все пары (а1; -с,), (а2, т2), . . ., @<1 it) независимы, и их распределения вероятностей не зависят от t. Целевая функция совпадает с финальной платой г(хп). Модель однородна и пространствами состояний X и управлений А служат, соответственно, полупрямая [О, оо) и отрезок [0,1] (см. рис. 2.3). Все слои А(х) совпа- совпадают с А. Пространства X и А удовлетворяют условиям 88 где ti на шаге t, at и 4.А и 4.Б, а функция F, заданная формулой A) — тре- требованию непрерывности по at и xt_v Поэтому модель будет полунепрерывна, если финальная плата г полу- полунепрерывна сверху и ограничена сверху. Как и в случае однопродуктовой модели, условие ограниченности платы г сверху можно заменить предположением, что случайные величины о{ и it ограничены. Оператор Т в этом примере имеет вид Tf(x)= sup М/[азж + A — a) xx] B) (мы опускаем индексы t при случайных величинах at, it, так как по предположению написанное справа выражение не зависит от t). Оценки vt модели на интервалах времени [t, n] находятся из соотношений vn = r> vt-\ = Tvt (t = i, 2, ..., п). * * * Как и в § 7, оператор Т сохраняет инвариантным мно- множество X функций вида f(x) = bx« (Ь>0) C) (а — фиксированное положительное число). В самом деле, для функции C) Г/ (х) = sup Mb [aax + A — a) xxf = Ibx", D) где X — верхняя грань на отрезке [О, 1] функции Ф (а) = М [аа + A - a) tf. E) Поэтому легко получить решение задачи для финальной платы г, принадлежащей ?. Из D)—E) следует, что при финальной плате C) оценка нашей модели на интервале времени [t, n] равна vt (х) = bln'*x\ Предположим, что интеграл E) и интегралы, получаю- получающиеся из него двукратным дифференцированием по а, сходятся равномерно по а. (Достаточно, например, по- потребовать, чтобы о и т принимали значения из некоторого отрезка [е, — ], где е > 0). Тогда функция Ф (а) непре- 89
рывна, достигает максимального значения X в некоторой точке а* и Ф' (а) = аМ [ас -f A - a) if (с — т), Ф" (о) = о (о - 1) М [ао + A - а) if (с - тJ. F) Ясно, что на каждом шаге оптимальное управление со- состоит в выделении одной и той же доли а* имеющихся средств в первую отрасль (и доли A—а*) — во вторую). Рис. 2.4 Из F) следует, что Ф"(а) < 0 при 0 < а < 1 и Ф (а) ^ 0 при а ^ 1. Во втором случае функция Ф(а) выпукла (при а=1 линейна) и достигает наиболь- наибольшего значения на конце отрезка [0, 1]. При этом а*=0 или 1 в зависимости от того, которая из величин Ф @) = Л#т", или больше. В первом случае (при 0 < а < 1) функция Ф (а) во- вогнута и положение точки а* зависит от знаков первых производных Ф' @) = аМ (от"-1 — т") ж Ф' A) = аМ (а* — а*!). Поскольку Ф"<-0, то Ф'A)< Ф'@). Если 0<Ф'A), то а* = 1, если Ф'@) < 0, то а*=0, наконец, если Ф'A) < < 0< ф'@), то 0 < а* < 1 (см. рис. 2.4). В этом по- последнем случае точка а* находится из уравнения Ф'(а)=0 или, в развернутом виде, 90 а)тГ>-т)} = 0. G) Отметим частный случай, когда коэффициент отдачи т не случаен. Тогда двойное неравенство Ф'A) < 0 < <; Ф'@), при котором следует направлять средства в обе отрасли, принимает вид Мз" — тМа* < 0 < т'-ЧМЬ — ха или Ма« (8) * * Предположим теперь, что желательно с максимальной вероятностью достичь некоторого уровня накоплений с, причем нас одинаково устраивает любая сумма, большая или равная с, и не устраивает меньшая сумма. Не огра- ограничивая общности, можно считать, что с=1 и функция г имеет вид О при 0<ж<1, при 1 X. (9) Мы разберем только простейший случай, когда коэф- коэффициент т равен 1, а коэффициент а принимает два зна- значения: 2 и 0 с вероятностями р и q=l—р. Можно пред- представить себе игру, где с вероятностью р выигрыш равен поставленной сумме денег и с вероятностью q ставка теряется. Игрок, располагающий наличностью х, вы- выбирает на каждом шаге размер ставки ах @ <Г а <Г 1). Его цель — с максимальной вероятностью получить в конце игры сумму, не меньшую 1. Оптимальное поведение игрока существенно зависит от соотношения между р и q. Если р > q, то условия игры благоприятны для игрока; в силу закона больших чисел при большом числе игр с малыми ставками игрок достигнет точки х=1 с вероятностью, близкой к 1. В пре- пределе при п -> оо оценка v будет равна 1 для всех х > 0 (в точке 0, очевидно, v=0). При фиксированном числе шагов п задача определения оценки v и оптима_льной стратегии остается, но мы ею заниматься не будем, а перей- перейдем к случаю р ^ q, нетривиальному и при допущении сколь угодно длинного промежутка игры. 91
В случае р <^ q по тому же закону больших чисел малые ставки с большой вероятностью приведут игрока к разорению. Поэтому возникает предположение, что нужно делать возможно большие ставки, совместимые с наличными средствами (избегая бесцельного риска). ото значит, что при ж^у следует ставить на игру весь имеющийся капитал х, при у^ж<Г1—ставить недо- недостающую сумму 1—х, при 1 ^ х — вообще ничего не ста- ставить. Соответствующая стратегия задается на всех шагах одним и тем же селектором 1 1 при 0« 1-х 1 при -^-; X о при 1 х <; -^ х. A0) условимся называть ее дерзкой стратегией. Будет по- показано, что дерзкая стратегия оптимальна при любом числе шагов п. Оценка v модели равна Т"г, оценка w( •, ф) дерзкой стратегии ф равна Г$г15. Поэтому дело сводится к до- доказательству равенства Цг = Гг. (И) Оператор Т в данном случае действует по формуле Г/ (х) = sup [pf (x + ах) -\-qf(x— ах)} = - A2) = sup [pf {x + у)-\-qf (x — у)), получающейся из B) при рассматриваемых коэффициен- коэффициентах а и х. Оператор Т. согласно A0) дается формулой pf Bx) -\- qf @) при 0 < х <; у, / (х) при -| при 1 A3) х. 15 Формула A. 7. 5), будучи непосредственным следствием фунда- фундаментального уравнения, верна и для общих моделей. 92 Мы будем доказывать A1) индукцией по п. При тг=О равенство A1) тривиально: г=г. При и=1, исходя из (9), прямым вычислением находим, что Т.г{х)=Тг{х) = о при о < -^, р при "<>< 1, 1 при 1 ^ х (см. рис. 2.5). Предположим теперь, что A1) чверно для О Гг-гп г / Рис. 2.5 О некоторого п^1 и докажем, что тогда A1) верно и для числа тг+1. Положим для сокращения записи /, = Zy. • A4) В силу предположения индукции fK= T"r и потому нужное нам соотношение Т$+1г = Тп+1г сводится к равенству ftt+1 = = Tfn. Поскольку /„+1=Гф/к < Г/„, то достаточно дока- доказать неравенство /я+1 J> Tfn, которое в силу A2) в под- подробной записи имеет вид *). A5) A6) Из (9), A3) и A4) немедленно вытекает, что 0</,<1. /<@)=0, Д(а;)=1 при а;>1 (f = 0, 1, 2, ...). Следовательно, при х ^ 1 неравенство A5) справедливо, и в дальнейшем мы можем ограничиться значениями ж^1. Далее легко видеть, что оценка v(x) = T"r (x)=fn(x) — неубывающая функция х: при большем капитале всегда можно достичь не худшего результата, чем при меньшем 93
(достаточно делать те же ставки). Значит, если х-\-у > 1, а х+у' = 1, то Поэтому неравенство A5) будет верно при х+у > 1, если только оно верно при х-\-у=1. Итак, можно считать Из предположения индукции следует, что A5) верно при замене п на п— 1: fn(x)>Pfn-i(x + y) + Qf«-i(x-y) @<*/<*) A7) (в этом месте используется, что п~^\). Чтобы перейти от A7) к A5), заметим, что согласно A4) ft+1= TJt. Учи- Учитывая A3) и A6), в подробной записи имеем ( PftBx) ПРИ °<Ж<Т' [p + qftBx-i) прит<Ж<1.. Далее для вывода неравенства A5) придется рассмот- 1 1 реть четыре возможных случая: 1) .к-)-2/<^у > 2)х^.-^^ 1 1 <^ х -j- ц, 3) х — у < y < х, 4) у < х — у <; ж (во всех слу- случаях О ^ ж <; у,~)к-\-у -^ 1). В перЁЪм случае согласно A8) /и+1 И = р/„ Bл;)' /. (х±у) = p/«-i Bл; + 2г/) и A5) получается из A7) заменой х и г/ на 2х и - 2г/, и умножением на р. Второй случай сложнее. Неоднократно применяя A8), имеем (здесь учтены неравенства 1 о 1^-1 -г-, 2ж—т<;-^-, выте- кающие из условий второго случая). Поэтому нужное нам неравенство A5) сводится к 1п-Л2* или, в обозначениях z — 2х—х-, и= 2у—-т- fn B) > Р [/„.! B + В) + /„_! B - В)]. A9) Поскольку q^p, последнее неравенство вытекает из A7) (проверяется, что u^.z при уt^x я -х В третьем случае из A8) получаем -! B* 1), A 1 здесь использованы неравенства 2х — 1 ^ -^ ^ 2х—j, справедливые в условиях третьего случая). Значит, теперь A5) сводится к неравенству или, в тех же обозначениях, что в A9), к /. (г) > Р ~ Ч + qfn-i B + а) + ?/„_! (г - в) B0) (по-прежнему О^гг^г). Поскольку р<Сч и /„.x^l, то Р — ? < (Р — 9) /„-1 (z + к) и, следовательно, правая часть B0) не превосходит правой части A7). Поэтому B0) вытекает из A7). Наконец, в четвертом случае /„ (* ± У) = Р + qfn-г Vx±2y-l) и A5) легко сводится к A7) с заменой х на 2х—1 и у на 2у. Оптимальность дерзкой стратегии доказана. Сделаем одно замечание, которое пригодится при ис- исследовании случая бесконечного промежутка управления. Отметим, что дерзкая стратегия максимизирует ве- вероятность события Cn={xt ^ 1 при каком-нибудь t <^ п}. 95
/ X Рис. 2.6 В самом деле, оценка любой стратегии равна вероятности события {хп ^ 1}. Для дерзкой стратегии ф она равна /я и, по определению ф, совпадает с вероятностью собы- события Ся. Поэтому достаточно доказать, что для любой стратегии п Пусть к — стратегия, которая получается из тс следую- следующей естественной модификацией: мы перестаем делать ставки, как только достигаем какого-нибудь состояния у 5> 1. Очевидно и ввиду оптимальности дерзкой стратегии правая часть не превосходит fn{x). Поскольку Сп (п=1, 2, . . .) образуют расширяю- расширяющуюся последовательность событий, то из сделанного за- замечания, в частности, вытекает, что последовательность функций /я не убывает и, следовательно, имеет предел / * /я * * Формула A8) показывает, что график функции /к+1 получается из графика /„ следующим образом: нужно сжать график /я вдвое по оси х и сжать его по оси у, во-первых, в р, во-вторых, — в q раз; полученные два графика следует затем разместить в ле- левом нижнем и правом верхнем углах единичного квадрата (обе части сомкнутся в точке х = ~2 , У = Р — см. рис. 2.6, где для наглядности fn представлена непрерывной выпуклой линией). 96 Индукцией по п устанавливается, что функция /я будет по- стоянна на каждом полуинтервале [""ой"" > 9") (k = i, 2, ..., 2К) и что величина каждого скачка функции fn будет заключена между рп и qni Далее при дерзкой стратегии из двоично-рацио- k йального напитала ^п через п шагов получится либо 0, либо 1; дальнейшее продолжение игры напитала не изменит, и, следова- следовательно, /со B») = In ( у)' Отсюда легно вывести, что функция /со (х) строго возрастает на отрезке [0, 1] и непрерывна. § 10. Задача о распределении ресурса между потреблением и различными отраслями производства В задаче о распределении ресурса между двумя от- отраслями и потреблением где x^1—it+ct — распределение ресурса в периоде t на производство и потребление, f/ и U—Т/) — доли ре- ресурса it, направляемые в первую и вторую отрасли, at и х(- случайные коэффициенты отдачи (мы считаем, что все пары случайных величин (ot, tt) взаимно незави- независимы). Доход в этой модели измеряется величиной Qi (хо — h) За Xt здесь естественно принять луч [0, -fyoo), за At — прямое произведение /^хГ=:[0, +оо)х[0, 1J. Так как it <C xt_v то слоем А (х) является [0, ж]х[0, 1]. Легко видеть, что пространства Xt и At удовлетворяют усло- условиям З.А—З.Б, и так как функция A) непрерывна по at = (it, ~(t)> т0 Для полунепрерывности модели достаточно, чтобы функции qt были полунепрерывны и ограничены сверху (как и в § 7, вместо ограниченности сверху функ- функций qt можно потребовать ограниченности случайных величин а^ и it). Операторы Tt в этой модели определены формулами 97 = sup {qt(x- 1 Е. Б. Дынкин, А. А. Юшкевич
Рассмотрим подробнее однородный случай, когда qt и распределения пар (at, тЛ, а, следовательно, и опера- операторы Tt не зависят от t. Если q(c) = c« @<а<1), D) то эти операторы снова (как и в §§ 7 и 9) оставляют ин- инвариантным множество !? функций вида f(x) = bxa (Ь>0). E) Действительно, для функции E) имеем Г/ (х) = sup {(x - If + sup МЫ" [То + A ~ Т) 'П = = sup [(x-t)' где F) G) (мы опускаем индекс t у случайных величин at и т,, поскольку математические ожидания в формулах F) и G) от t не зависят). Выражение F) было вычислено нами в § 7. Там было установлено, что и что супремум в F) достигается при I __ j /?( х\ __ g ПЛ Ж) /д\ где х(&) и ?(&) Даются формулами G.7). Выражение G) исследовано в § 9. Мы видим, таким образом, что наша задача распада- распадается на две уже решавшиеся задачи. Оптимальные доли Y* и 1—т* каждой из производственных отраслей и число \ вычисляются, как в § 9 (независимо от распределения ресурса между потреблением и производством и момента времени t). Затем, как в § 7, находится оптимальное рас- пределение ресурса между производством и потребле- потреблением; при этом две отрасли с коэффициентами отдачи о и т заменяются одной отраслью с коэффициентом отдачи s таким, что Ms" = M [f с + A - f) if == X (или Mg (s) = Mg [fa + A - f) x]). 98 В силу формул G.8) и G.12)—G.14) имеем 2 j -. -ч I *"" W*4. К—Z—1 * 1"" 4- . .. 4- X 1~а J хл; оптимальный размер вложении в производство на шаге t при ресурсе xt^x равен оптимальные доли f*t и 1—fj первой и второй отраслей равны у* и 1—т*> и вычисляются, как в § 9. * * * Описанное распадение задачи сохранится также в не- неоднородном случае в предположении, что qt (c)=Btc* (разумеется, при различно распределенных коэффициен- коэффициентах отдачи at или it оптимальные доли -\t первой отрасли уже будет зависеть от t). Оно имеет место также, если рассматриваются не две, а произвольное число отраслей. § 11. Задача о стабилизации В задаче о стабилизации xt = xt-i at ~г sf> (xt-iat) = ~—ъ (xt-i — atf саЬ где Ь ж с — положительные постоянные и s — независи- независимые случайные величины с одним и тем же распределе- распределением вероятностей (финальная плата равна 0). Мы рас- рассмотрим только случай, когда Ms^=0 (т. е. когда отсут- отсутствуют систематические возмущения). Модель однородна, и за пространства X и А мы примем прямые — оэ < х < оо и — оэ<^а-<оо. Модель не яв- является полунепрерывной, так как слои А (х) не компактны (и нарушается условие квазинепрерывности 4.Б). По- Поэтому мы не можем заранее утверждать, что оценка модели удовлетворяет уравнениям оптимальности, и тем более, что существует оптимальная стратегия. Однако мы по- покажем, что применимы утверждения последнего раздела § 5 (выполняется условие А')- 7* 99
Оператор Т в данном случае задается формулой Tf{x) — sup [—Ъ{х — aJ — ca2-\~Mf(x — a-\-st)]. Покажем, что множество ?? функций вида A) B) инвариантно относительно оператора Т. Имеем Г/(ж) = sup {—b(x — aJ — ca2 — M[l(x—a-{-stf-{-m\} = а = sup [—(Ь + 1){х — аJ - са2 — к2 - т], п где — дисперсия случайных величин st. Дифференцируя по а, находим, что максимум достигается при  + c + Z C) и равен где -¦ га Отсюда следует, что оценка vt модели на промежутке управления [t, n] равна ), D) где коэффициенты 1к и тк вычисляются рекуррентно по формулам 1=0 I = cZfc+bc E1) и что простая стратегия а . . а оптимальна на отрезке управления "[Э,- п]. 100 G) Остается выразить 1к и тк из уравнений E) и (Q). За- Заметим, что lk+i, = g(lk), где w=g(z)—дробно линейное преобразование w cz -\- be Преобразование (8) имеет неподвижные точки zi, з = =~2 и его можно записать в виде w — z2 z — гг ' где _ с — zt Ь + 2с — У^2 + 46с с za 6 -f^ 2c -j- vba -\- Abe Поэтому формуле E) можно придать вид и, стало быть, ' к ' zi у к о zi у к zi (-^. ^2 fc0 ^2 ^2 Отсюда н \к\ z Из F) следует, что Поскольку |Х|<[1, то в пределе при п — ?_==&-»-оо '¦ + Abe — Ъ 2 » (И) а оптимальное управление на каждом фиксированном шаге i обращается в 1<х>-\-Ъ ,л^\
Глава 3 ОБЩИЕ (БОРЕЛЕВСКИЕ) МОДЕЛИ § 1. Введение. Основные результаты Теория меры и интегрирования по Лебегу выглядит одинаково просто в любом измеримом пространстве Е. Однако более тонкие конструкции (условные распреде- распределения, построение мер в бесконечных произведениях и др.) осуществимы не в каждом измеримом пространстве. По- Поэтому появляется потребность в понятии «хорошего» измеримого пространства. Это понятие должно быть до- достаточно узким, чтобы исключить возможность патоло- патологических примеров, и в то же время достаточно широким, для того чтобы переход к измеримому подмножеству и перемножение пространств не выводили за класс «хо- «хороших» пространств. Два измеримых пространства Е1 и Е2 называются изоморфными, если существует взаимно однозначное из- измеримое отображение Ег на Е2 такое, что обратное ото- отображение тоже измеримо. Измеримое пространство Е называется борелевским, если оно изоморфно измеримому подмножеству полного 1 сепарабельного метрического пространства (последнее принято коротко называть поль- польским пространством). Очевидно, измеримое подмножество борелевского пространства также является борелевским пространством. В добавлении 1 доказывается, что всякое борелевское пространство изоморфно либо конечному множеству, либо счетному множеству, либо единичному отрезку (в первых двух случаях а-алгебра измеримых множеств совпадает 1 Метрическое пространство называется полным, если в нем лю- любая фундаментальная последовательность сходится. Последова- Последовательность {хп} называется фундаментальной, если р (хт, хп) -> О, когда тип независимо друг от друга стремятся к оа. 102 с системой всех подмножеств, в третьем случае — с а-ал- геброй борелевских подмножеств отрезка). Отсюда легко следует, что произведение борелевских пространств — борелевское пространство. Б этой главе мы будем изучать общие модели (см. § 2.2) при единственном дополнительном предположении, что пространство состояний X и пространство управлений А борелевские {такие модели будем называть борелевскими). В этом случае условие у) измеримости диагоналей из § 2.2 вы- выполняется автоматически. В силу изоморфизма борелевских про* странств достаточно ограничиться случаями конечного множества, счетного множества и отрезка. Для конечного и счетного про- пространств измеримость диагонали тривиальна (ибо все множества измеримы), для отрезка она доказана в § 2. 4 (петит). Для дискретных и полунепрерывных моделей нами были установлены три основных результата: I. Оценка модели v удовлетворяет уравнениям оптималь- оптимальности v=Vu на X \ Хя, A) и— Uи на А, где операторы U и V определены формулами Uf(a) = q(a)+\p(dx\a)f{x) (а?А), B) х Vg {x) == sup g (a), C) и граничному условию v — r иа Хп. D) II. Для каждого е > 0 существует простая равно- равномерно г-оптималъная стратегия (в конечном и полуне- полунепрерывном случае это верно и при е=0). III. При фиксированном начальном распределении р для каждой стратегии п найдется не худшая простая стратегия у (в конечном и полунепрерывном случае этот результат является тривиальным следствием II, так как за <? можно принять простую равномерно оптимальную стратегию), Мы уже говорили в § 2.3 о трудностях, препятствующих перенесению методов главы I на общие модели. Но может быть можно достичь тех же результатов другими методами? 103
Пример 1. Рассмотрим одношаговую Модель Z, изображенную на рис. 3.1. Здесь Хо — это отрезок О <^ х <^ 1, А-Ах — борелевское подмножество квадрата XoxY, где Y — отрезок 1 <^ у ^ 2, j — ортогональное проектирование А, на Хо [предполагается, что / (А)=Х0], Хг состоит из одной точки. Переходная функция одно- однозначно определяется условием р (Х1\а) = 1, а?А. Платеж- Платежные функции можно задать как угодно. ж gffji Рис. 3.1 Простыми стратегиями являются здесь измеримые се- селекторы tp соответствия j'1. Если к — ортогональное про- проектирование Хо X Y на Y, то для любого такого селектора сложная функция у=к (<f (ж)) будет измерима и будет иметь график, принадлежащий А. Между тем известно, что существует такое борелевское подмножество Q квад- квадрата XoxY, которое проектируется на Хо и не содержит графика ни одной измеримой функции y=f (х) (х?Х0) со значениями в У2. Если A—Q, то в нашей модели нет простых стратегий, и для нее утверждение II неверно. Будет доказано следующее. Предложение 1. Если в модели Z отображение j'1 не униформизуемо, то в этой модели вообще нет стра- стратегий. Иными словами, существование простых стратегий равносильно существованию каких-либо стратегий. Модели, в которых нет никаких стратегий, мы назовем тривиальными. Для таких моделей теряет смысл сама постановка задачи управления, и мы их исключим из рас- рассмотрения. См. добавление 3, § 3. 104 Далее, выражение B) для оператора U имеет смысл только для измеримых функций /. Между тем в уравне- уравнения оптимальности A) входит Uv, а функция v может быть неизмерима, как показывает следующий Пример 2. Рассмотрим одношаговую модель Z с теми же элементами Хо, Y, Xlt j и р, что в примере 1, и с A=XoxY (рис. 3.2). Выберем в А борелевское под- подмножество D и положим текущую плату q равной 1 при Рис. 3.2 /СО) J(D) Г и равной 0 при a?D. Финальную плату г положим для определенности равной 0. Очевидно, если х0 не при- принадлежит проекции /(?>) множества D на Хо, то v(xo)—O. Если же в точку х0 проектируется точка о0 = (ж0, у0) мно- множества D, то w(x0, <f) = l при простой стратегии <р (х) = = {х, уа) @ < х ^ 1) 3, и поэтому v(xo) = i. Таким образом, @ при x?j(D), щ)и x?j(D). Известно 4, что существует борелевское подмножество D квадрата XoxY, у которого ортогональная проекция j(P) на сторону Хо не является борелевским множест- множеством. При таком D оценка v будет неизмерима. К счастью, выражению B) для оператора U можно придать смысл и для более широкого класса функций. Дело в том, что если задана какая-нибудь мера ц на из- измеримом пространстве Е, то интеграл по этой мере можно определить не только для измеримых функций, но и для 3 Предоставляем читателю проверить в качестве упражнения, что такое отображение у отрезка Хо в квадрат А является измеримым. 4 См. добавление 2, § 5. J05
всех функций /, обладающих следующие свойством (мы на- назовем их ^-измеримыми): существует измеримая функ- функция / такая, что /=/ (п. н. р.M. Хотя / строится по / не- неоднозначно, но интеграл р-f не зависит от выбора /, и его можно принять за значение p-f6. Множество Г называ- называется fi-измеримым, если ^-измерима его характеристи- характеристическая функция ^г- Нетрудно проверить, что функция / fi-измерима тогда и только тогда, когда для любого числа с fi-измеримо множество {х : f(x) > с}7. Если функция / fi-измерима относительно любой веро- вероятностной меры A, то она называется универсально из- измеримой. Это равносильно требованию, чтобы при любом с множество {х : f (х) > с} было универсально измеримо, т. е. ^-измеримо при любой р.. Если функция / универсально измерима, то для нее имеет смысл интеграл по любой мере, а значит, и выра- выражение B). Будет доказано, что в нетривиальной модели оценка v универсально измерима, и что в такой модели справед- справедливы результаты I и III. Результат II в общем случае неверен. В самом деле, в примере 2 оценка любой стратегии к, очевидно, равна w(x, «) = 1 • к (D | х) -f 0 • к (А \ D | х) (х ? Хо) и является измеримой функцией, не превосходящей функ- функции v(x) (см. рис. 3.3). При любом е из интервала @, 1) измеримое множество Т={х:х?Х0, w(x, я) ^ 1—е} содержится в неизмеримом множестве {х : х ? Хо, v (x) ^ ^>1 — е}=/ (D). Поэтому в / (D) найдется точка х0, не при- принадлежащая Г, и в этой точке w (х0, к) < 1 — e = v (x0) — е. Таким образом, ни одна стратегия тт не является s-on- тимальной ни при одном е <С 1. 5 Если / (х) — некоторое свойство точки х, то запись / (х) (п. н. fx) означает, что существует измеримое множество Г такое, что [д. (Г)=0 и / (х)' верно при всех х (< Г. 6 Подразумевается, что хотя бы одно из чисел jJ-/+=y-/+, или ц./_= —р-I- конечно (см. § 2.1). 7 Если Е — и-мерное арифметическое пространство и jj. — мера па борелевских подмножествах Е, равная для любого и-мерного параллелепипеда его объему, то (i-измеримость множества или функции — то же самое, что измеримость по Лебегу. 106 Мы докажем следующий ослабленный вариант ре- результата II: II а. В нетривиальной модели для каждого е ^> 0 и каждого начального распределения р. существует про- простая е-оптимальная (п. н. р.) стратегия <р. Рис. 3.3 [Мы говорим, что стратегия к г-оптимальна (п. н. р.), если при почти всех х (по мере р) она s-оптимальна для Zx, т. е. если w(x, n)~^v(x) — e (п. "н. р.).] В гл. 1—2 результат II был расчленен на два утверждения: Пх. Для любого е > 0 существует простая стратегия ср такая, что 7>>1;-е на Х\Хп, E) где оператор Г„ определен формулой (в конечных и полунепрерывных моделях это верно и при е=0). П2. Если простая стратегия ср удовлетворяет условию E), то она е'-оптимальна при е' = (п—т)е. В общих моделях утверждение 11г несправедливо (пример 2) и результат Па мы докажем, не опираясь на Н2. Поэтому в общих моделях утверждение Н2 в значительной мере теряет свою ценность, хотя и остается верным (см. петит в § 7). i 107
§ 2. План вывода основных результатов Чтобы доказать предложение 1, достаточно по произ- произвольной стратегии п построить простую стратегию <р. Это делается в два этапа. Сначала строим марковскую стратегию а, полагая О(. !*) = «(. |А), где h = ?°„а°„+1 -. . tf-^x и х°та°т+1 . . . х°п — какой-нибудь фиксированный путь (x?Xt, m^ti^n — 1). Ясно, что вместе с л (• \h) также и о (• \х) является распределе- распределением вероятностей на At, сосредоточенным на А (х). Измеримость о (Г\х) по х при Г (< S3 (At) следует из того, что множество {х:а(Т\х)>с}- является сечением измеримого множества {xmam+i ¦ ¦ ¦ xt-iatx '¦ л (г I zm<Wi ¦ • • xt-\a-tx) > с) при жт = х^' am+i = 0»1+1' •¦¦! ж/-1 = а:?-1' at = at< известно, что сече- сечения измеримого множества в произведении пространств являются измеримыми множествами в соответствующих пространствах-со- пространствах-сомножителях. Второй этап — построение простой стратегии <р по мар- марковской стратегии а — опирается на следующую общую теорему об измеримом выборе, доказанную в добавлении 3, § 2. Теорема А. Пусть i — измеримое отображение бо- релевского пространства Е на борелевское пространство Е', и пусть v (. \х') (х' ? Е') — конечная мера на Е такая, что 1) величина v (Г \х') является измеримой функцией на Е' при каждом измеримом множестве Г из Е; 2) мера v (. |л;') сосредоточена на слое Е (x') = i~1(x') и у{Е\х') >0 при всех х' из Е'. Тогда соответствие i допускает измеримый выбор, т. е. существует такое измеримое отображение tp' про- пространства Е' в пространство Е, что i(y(x'))—x' при всех х' из Е']. Эта теорема применяется к Е=А, Е'=Х\Хп, i=j, V=o. * * * Доказательство универсальной измеримости функции v(x) основано на следующем ее представлении: v (х) = sup w (х, тг) = sup Р/ (х ? Хт), 108 где / — оценка пути, a S (х) — совокупность Мер в странстве путей, отвечающих всевозможным стратегиями и начальному распределению \±, сосредоточенному в точке х. Положим кР=х, если Р принадлежит S (х). Этим определено отображение к множества S0=\jS(x) на Хт8. Универсальная измеримость функции v вытекает из следующей общей теоремы: Теорема Б. Если i — измеримое отображение борелевского пространства Е на борелевское простран- пространство Е', и f — измеримая функция на Е, то функция универсально измерима. Мы хотим применить эту теорему к E=S0, E'—Xm, i—k, /(Р)=Р/. Для этого мы выделим в ^0 а-алгебру @3 (So) так, что So станет борелевским пространством, /(Р) = Р/ — измеримой функцией ш к — измеримым ото- отображением (см. §§ 3—6). Теорема Б является следствием еще более общего ре- результата. Теорема В. При измеримом отображении боре- борелевского пространства Е в борелевское пространство Е' измеримые множества пространства Е переходят в уни- универсально измеримые множества пространства Е'9. Теорема В доказана в добавлении 2. Чтобы вывести из нее теорему Б, достаточно заметить, что для любого числа с При построении е-оптимальных стратегий общего вида мы опираемся на следующую общую теорему об измери- измеримом выборе (она доказана в добавлении 3, § 1). 8 Отображение к связано с системой S (х) в точности так же, как отображение / с системой А (х). 9 Пример 2 из § 1 показывает, что образ измеримого множества при измеримом отображении может не быть измеримым. 10
Теорема Г. Пусть i — измеримое отображение борелевского пространства Е на борелевское пространство Е', IX — вероятностная мера на Е'. Тогда существует измеримое отображение ф пространства Е' в пространство Е такое, что 10 i (ф (х')) = х1 (п. н. р.). A) Такое ф мы будем называть измеримым (п. н. \х) селек- селектором соответствия t-1. Пусть f* — произвольное начальное распределение, е — произвольное положительное число. Ввиду универ- универсальной измеримости функции v найдутся измеримая функ- функция v и измеримое подмножество Е' множества Хт такие, что р. (Е') = { и v (x)=v (х) при всех х из Е'. Обозначим через Е совокупность всех мер Р из So, удовлетворяющих условиям kP?E', Р/>г;(ЛР)—е. B) Ясно, что Е' принадлежит М (Хт) и Е принадлежит <ffl (?„), и поэтому Е и Е' можно рассматривать как борелевские пространства. Отображение к индуцирует измеримое ото- отображение i пространства Е в пространство Е'. По опреде- определению vvlv, для каждого х из Е' найдется мера Р из S (х), для которой Р/ > v (х) — е = v (х) — s = v (кР) — s, т. е. мера Р из S (х), принадлежащая Е. Следовательно, i отображает Е на Е'. Положим Рж=ф(ж), где ф — измеримый (п. н. р.) селектор из теоремы Г. В силу A) и B) РЧ > v (kPx) -z = v(x) — s = v{x)-s (п. п. р.). C) Формула Р (Г) = определяет вероятностную меру Р в пространстве путей L. Мы докажем в конце § 6, что 1) мера Р может быть полу- получена по формуле B. 2. 3) из начального распределения р. 10 Из примера 1, § 1 видно, что теорема Г перестает быть верной, если потребовать, чтобы A) выполнялось при всех х' из ?". 110 и некоторой стратегии л; 2) стратегия % является (п. н, (*)- сочетанием стратегий ттж, отвечающих мерам Рх, в том смысле, что Р| = Р* (П. Н. |Х), D) где PJ — мера в пространстве L, отвечающая начальному состоянию х и стратегии п. Из C) и D) видно, что я яв- ^ляется е-оптимальной (п. н. р.) стратегией. Зная, что существуют е-оптимальные (п. н. fi) стратегии, можно вывести уравнения оптимальности (результат 1) примерно так же, как в счетном случае; однако теперь этот вывод не приводит к построению простой е-оптимальной стра- стратегии (см. § 7). В общем случае результат На выводится из резуль- результата III. Как и в счетных моделях, результат III является следствием двух предложений: II 1.1. Для любого начального распределения р. и любой стратегии к существует марковская стратегия а, равносильная тс в процессе Z^. III.2. Для любой марковской стратегии а существует простая стратегия tp, равномерно мажорирующая а. Оба эти предложения доказываются так же, как и для счетных моделей, но при доказательстве II 1.1 использу- используется более общая концепция условных вероятностей, а при доказательстве III.2 специального внимания тре- требует вопрос об измеримости <р (см. § 8). Чтобы вывести Па из III, мы должны по простой стра- стратегии, г-оптимальной для процесса Z , построить про- простую стратегию, е-оптимальную (п. н. р.). Это делается в § 9 с помощью леммы, позволяющей по любой последо- последовательности простых стратегий <pfc и любому е ]> 0 строить простую стратегию tp, для которой w (х, <?)~^яо (х, <fk)— — е (х?Хт, k=i, 2, . . .).Там также приводится пример, показывающий, что в общих моделях (в отличие от счет- счетных) из существования какой-либо равномерно оптималь- оптимальной стратегии не вытекает существование простой (а сле- следовательно, и марковской) равномерно оптимальной стра- стратегии.
§ 3. Пространство мер Чтобы довести до конца доказательство универсальной измеримости функции v, проведенное в начале § 2, нам нужно исследовать класс So мер в пространстве путей L, состоящий из всех мер Р, отвечающих начальным распре- распределениям, сосредоточенным в одной точке, и всевозмож- всевозможным стратегиям. Предварительно изучим некоторые об- общие свойства класса всех вероятностных мер на любом борелевском пространстве. Класс оМ=еМ (Е) всех вероятностных мер fi на любом измеримом пространстве Е мы будем рассматривать как измеримое пространство: за <Ш \<гМ) принимается мини- минимальная а-алгебра, относительно которой измеримы все функции где / — произвольная ограниченная (либо неотрицатель- неотрицательная) измеримая функция на Е, В добавлении 5, § 2 дока- доказан следующий результат: Теорема 1. Если пространство Е борелевское, то. класс qM (E) тоже является борелевским пространством. § 4. Меры в произведениях пространств и переходные функции Прежде чем двигаться дальше, нам придется остано- остановиться на общих вопросах о задании мер в произведении пространств с помощью переходных функций. Задать переходную функцию для последовательности измеримых пространств Ео, Еи . . ., Ев — значит задать для каждого ?=0, 1,. . ., s—1 переходную функцию из Е0ХЕ1Х. . .XEt в Ei+1 (см. § 2.2). Другими словами, это значит сопоставить каждому h=xox1 . . .xt (х0 ? Ео, хх ? Elt. . . , xt ? Et) вероятностную меру v (• \h) в простран- пространстве Ei+1 так, чтобы v (Г | •) было измеримой функцией от h, если Г — измеримое подмножество пространства Е/+1. Заметим, что любую вероятностную меру Р в произве- произведении ЕОХЕХХ. . •ХЕг можно рассматривать и как ве- вероятностную меру на произведении ЕОХЕХХ. . .XEt (t <^ s), полагая для каждого измеримого множества С из ЕохЕхХ. . .XEt 112 'f Следующие две теоремы устанавливают связь между переходными функциями и вероятностными мерами в про- произведении пространств. Теорема Д. Пусть v — переходная функция для последовательности измеримых пространств Ео, Еи . . ., Es и пусть р. — вероятностная мера на Ео. Тогда суще- существует и притом только одна вероятностная мера Р в произведении ЕохЕхХ. . -XEg такая, что Г{с1хо) = ц(<1хо), A) Р (dxodx1 . . . dxtdxf+1) = = v {dxt+11 хохг . . . xt) P (dxQdxx . . . dxt) (* = 0, 1, ..., s-1). B) Обратное утверждение требует более жестких ограни- ограничений на пространства Ег йЛ Теорема Е. Для любой вероятностной меры Р в произведении борелевских пространств ЕохЕхХ. . .X X Ег существуют вероятностная мера ц на Ео и переход- переходная функция v такие, что выполняются равенства A)—B). Для доказательства теоремы Д заметим, что мера Р, определенная формулой Р (dxodx1 . ., dxt) = = V- (dx0) v (dxx | xQ) . .. v (dxs | xoxx , .. x,^), C) удовлетворяет условиям A)—B). С другой стороны, из A)—B) следует C), и поэтому мера Р определяется усло- условиями теоремы Д однозначно. Теорема Е доказана в добавлении 4. * * * Пусть В — измеримое подмножество в произведении ЕохЕхХ. ¦ .XES. При каких условиях на начальное распределение и переходную функцию соответствующая мера Р сосредоточена на В? Пусть t<^ s. Отнесем набор хохх. . . xt (х0 ? Ео, хг ? Ех,. .., xt ^Et) к множеству Bt, если некоторое его продолжение xoxv . . xtxt+1. . .xs принадлежит В {Bt есть проекция В на произведение ЕохЕ1Х. . -XEt). Для каждого h из Bt обозначим через Е [h] совокупность тех х из Ef+1, при которых hx принадлежит Bt+1. Теорема 1. Предположим, что все множества Bt измеримы. Чтобы мера Р в пространстве EqXEj^X. . .X 8 Е. Б. Дынкцн, А. Д. Юшкевич ЦЗ
XES, отвечающая начальному распределению р. и пере- переходной функции v, была сосредоточена на В, достаточно, чтобы р (Z?0)=l и l D) при любом h из Bt B=0, I, . . ., s—1). Положим BS=B и с помощью индукции установим, что Р(Я,) = 1 E) при всех t=0, 1, . . ., s. При ?=0 наше утверждение следует из условия р. (Во) = 1 и формулы A). Пусть E) справедливо при некотором t < s. Согласно формулам B) и D) ~= \ p x! . . . dxtdxt+1) = = J P {dxodx1 . . . dxt) v (E [xoxx ...xt] = j P {dxodx1 ... dxt) = V{Bt), Bt так что E) справедливо и для t-\-i. Обратный результат, как и теорема Е, устанавливается при более стеснительных условиях. Теорема 2. Пусть пространства Ео, Ег, . . ., Es борелевские, множества Во, Вг, . . ., BS=B измеримы и со- соответствие h -> E \h\ допускает измеримый выбор. Для любой вероятностной меры Р в произведении Е0ХЕгХ X. . -XES, сосредоточенной на В, можно выбрать отве- отвечающие ей по теореме Е меру р. и переходную функцию v так, чтобы р. (Во) = 1 и выполнялось условие D). В-самом деле, из равенства Р (Bs) = l проектированием получаем формулы E) для всех ?=0, 1, . . ., s. При ?=0 согласно A) находим, что р.(В0)=1. Далее, из E) и B) следует, что 1=Р(ВМ) = = J P {dxodx1 . . . dxt) v (Е [хохх . . . xt]\ х^хл ... xt). F) Bt В то же время 1 = Р (Bt) = \ Р {dxodxx .. . dxt). G) Вычитая F) из G), находим, что j [1 — v (E Щ | h)} P (dh) = 0. (8) Поскольку v (• \h) — вероятностная мера, то v (E [h]\ h)^ I, и поэтому из (8) вытекает, что y{E[h]\h) = \ (п. п. Р на Bt). (9) Пусть <р — измеримый селектор соответствия h^> E [h] и §д — вероятностная мера, сосредоточенная в точке х. В силу (9) найдется измеримое подмножество Tt множества Bt такое, что РA\)=1 и v(E[h]\h) = \. при всех h из iy Формула lfe) h&Vt или ( , ,,) задает переходную функцию, тождественно удовлетворяю- удовлетворяющую условию D). Так как мера Р в произведении Е0Х хЕгх. .-.xEf сосредоточена на Г,,, то v{-\xoXl...xt) = = v (• | хохх ...xt) (п. н. Р на ?0 X -Е1! X • • • X Et). Поэтому равенство B) не нарушается при замене v на v. Таким образом, переходная функция v удовлетво- удовлетворяет всем требованиям теоремы 2. * * * Общая конструкция меры по переходной функции, изложенная в этом параграфе, может быть использо- использована, в частности, для построения меры в пространстве путей L. В этом случае мы имеем последовательность пространств Хт, Ат+1, Хт+1,. . ., А„, Хп и правила пере- перехода на нечетных и четных шагах поочередно задаются стратегией тс и переходной функцией р модели. На четных шагах для любого набора хтат+1хт+1 . . . at из Хт X Ат+1 X XA v {dxt | xmam+lxm+1 . На нечетных шагах = p {dxt \at) (t = m -f 1, . . ., n). причем последняя формула определяет v только для исто- 8* 115
рий h=xmam+i, ;.., xt [т. ё. наборов, подчиненных усло- условиям j {am+i)=xm,...,; (ai)=xt_1\i доопределим переход- переходную функцию v для остальных наборов h произвольным образом и. Переходная функция v удовлетворяет усло- условиям теоремы 1 при B—L, и ей (при начальном распреде- распределении ;л) соответствует мера Р в произведении ХтхАт+1Х X... X Хя, сосредоточенная на L 12. Легко видеть, что это та же мера на L, что и мера, построенная в § 2.2 [ср. формулу C) с формулой B.2.3)]. Формулы A)—B) для этой меры принимают вид P(dxJ = i^(dxm), A0) Р (dxmdam+1 . . . dxtdaul) = = « (dat+l | хшат+1 ...xt)P (dxmdam+1 . . . dxt), A1) P (dxm . . . dat+1dxt+1) = p (dxt+11 at+1) X X P (dxm .. . dai+1) (t = m, m-i-1,...,» —1). A2) § 5. Стратегические меры Пусть Z — нетривиальная модель. Любую меру Р в пространстве путей L, отвечающую какому-либо началь- начальному распределению fi и какой-либо стратегии п, условимся называть стратегической мерой. В этом параграфе мы докажем измеримость и выпуклость класса S всех стра- стратегических мер. Из измеримости S будет выведена изме- измеримость класса So и отображения So Д. Хт. Выпуклость класса S понадобится нам для того, чтобы распространить на общие модели операцию сочетания стратегий. Свойства класса S стратегических мер выводятся из сле- следующего его описания. Теорема 1. В нетривиальной модели вероятност- вероятностная мера Р в пространстве путей L является стратеги- стратегической в том и только том случае, когда при каждом t=m,. .., п—1 для любой измеримой ограниченной функ- функции f на Hf+1 Р/{haUlxf+1) = Р j f(hat+1x)p{dx\at+1) A) 11 Например, при каждом t можно сосредоточить меру я (• [xma,n+i. . . . . . xt) в фиксированной точке пространства At+1. 12 Множество В/ при t—2k совпадает с пространством Нт+!с историй в момент к; при i=2/c+l Bt состоит из наборов ha таких, что h (*Н,„+!с и/ (а)=х, где х— конец истории h(k=O, 1,. . ., п—т— 1). 116 (h из Ht рассматривается как функция на L, т. ё. как случайный элемент). Можно выбрать счетную систему W измеримых ограниченных функций на HlJrl такую, что если A) выполняется при f?W, то A) выполняется при всех измеримых ограниченных функциях f на Н1+1. Необходимость условия A) вытекает из формулы D.12). Чтобы доказать достаточность, применим к вероятност- вероятностной мере Р, удовлетворяющей условию A), и подмноже- подмножеству B=L произведения ХтхАт+1Х. ¦ -ХХп теорему 2 предыдущего параграфа. Согласно этой теореме Р(&О = |Ч*О, B) Р (dxmdam+1 ... dxtdai+1) = = ^ (dai+11 xmam+1 ...xt)V {dxmdam+1 .. . dxt), C) P (dxm ... dat+1dxul) = = v (dx,+1 \xm... aUl) P (dxm ... dat+1) D) (t~=m, m-f-1, ...,re — 1), причем переходная функция v удовлетворяет условию D. 4). Заметим, что для любой истории h=xmam+1. . . xt множество Е [h], на котором сосредоточена мера v(-|/i), совпадает со слоем A (xt). Стало быть, формула определяет некоторую стратегию п. Формула D) нам не нужна. Вместо неё мы воспользу- воспользуемся вытекающей из A) формулой Р {dxm ... datadxta) = р (dxt+11 аш) Р (dxm ... dat+1). E) Формулы B), C) и E), совпадающие с D.10)—D. 12), показывают, что Р является стратегической мерой, отве- отвечающей начальному распределению fi и' стратегии тт. Мы знаем,, что пространство Hi+1 борелевское. Если оно конечно или счетно, то за W можно принять систему функций, отличных от 0 на конечном множестве и при- принимающих только рациональные значения. Если Ht+1 несчетно, то пусть q — изоморфное отображение Нп1 на отрезок. Положим W={qn} (п=0, 1, 2, . . .). Если A) выполнено всех функций / (h)=qn (h) (h?Hul), то A) справедливо и для любой функции /=<р (q), где <р — много- многочлен, а значит и для функции /=<р (q), где <р — произ- произвольная непрерывная функция (по теореме Вейерштрасса). 117
Так как равенство A) сохраняется при ограниченном По- Поточечном предельном переходе, то оно удовлетворяется при f=tf (q), гДе Т — любая ограниченная измеримая функция на отрезке. В силу изоморфизма Н.1+1 и отрезка, в таком виде представляется любая ограниченная измери- измеримая функция / на Hi+1: f (h) = <? (q (/?)), где tp (y)=f (q-1 (г/)). Теорема полностью доказана. По определению а-алгебры измеримых множеств в про- пространстве мер qAI (L), функции от Р, стоящие в левой и правой частях равенства A), измеримы. Счетное число ус- условий типа A) выделяет измеримое подмножество про- пространства qM (L), и, значит, класс S всех стратегических мер измерим. Далее, из теоремы 1 следует, что класс S является вы- выпуклым, т. е. что если v — вероятностная мера в простран- пространстве S, то мера Р*, определенная формулой тоже является стратегической. Условие A) линейно отно- относительно Р и сохраняется при интегрировании по Р. § 6. Универсальная измеримость оценки модели и почти наверное (п. н.) е-оптимальные стратегии Теперь мы имеем все необходимое для того, чтобы вы- вывести измеримость класса So и отображения S0-+Xm, использованные в § 2 при доказательстве универсальной измеримости оценки v (х) (х?Х). Заметим,- что для принадлежности меры Р из про- пространства оМ (L) классу So, необходимой достаточно, чтобы Р принадлежала классу стратегических мер S, и чтобы для любого рационального числа с P{?(*J<c} = 0 или 1, A) где q — изоморфное отображение борелевского простран- пространства Хт в отрезок. Действительно, A) имеет место тогда и только тогда, когда распределение вероятностей для случайной величины q (хт) сосредоточено в какой-нибудь одной точке у отрезка, а это равносильно тому, что на- начальное распределение \±, отвечающее Р, сосредоточено в точке x=q~x (у). В левой части A) стоит измеримая функ- 118 ция от Р, и поэтому счетное число условий A) выделяет из измеримого класса S измеримый подкласс So. Далее, для любого множества Г из пространства Хт откуда следует, что к~х (Г) измеримо при измеримом Г, и, значит, отображение к измеримо. Лакуны, оставшиеся в доказательстве универсальной измеримости функции у из § 2, восполнены. * * * Переходим к вопросу о существовании е-оптимальных (п. н. fi) стратегий. Здесь нам остается обосновать опи- описанную в § 2 конструкцию для сочетания стратегий. Мы имеем стратегические меры Рх (х ? Хгп) такие, что хт = х} = 1 (П. Н. B) и что х —> Vх есть измеримое отображение пространства Хт в пространство S, и полагаем . (dx). C) Замена переменной преобразует интеграл C) в интеграл JP(.)v(dP), S где v — мера в пространстве S, индуцированная мерой fi на Хт и измеримым отображением х -> Рж. Ввиду выпук- выпуклости класса S, мера Р тоже стратегическая. Из C) и B) следует, что при Г^^ (Хт) Р {хт G Г> = S Рж {хт G Г} V- (dx) = j Zr (x) [x (da:) = р. (Г), так что A является для Р начальным распределением. Пусть к — стратегия, отвечающая Р, и PJ — распре- распределение в пространстве путей, отвечающее начальному состоянию х и стратегии тс. Покажем, что для любой огра- ограниченной измеримой функции ? на пространстве L Р*| = Р*? (п. п. ;*). D) т
Если / — ограниченная измеримая функция на Хт, то в силу C) и B) Р (/ .6) = j Р* (/ (хт) • Е) (i (dx) = j (/ (я) • P-?) (i (d*). E) С другой стороны, имеем Рх (r rl -I r x \xm — x) ~ l при каждом х из Xm, и по формуле B. 2. 3) Р (/ • S) = S Р* (/ (О • I) (i (da;) = J (/ (х) • Р« ?) ц (da). F) Ввиду произвольности / из E) и F) следует D). Ясно, что для любого счетного набора функций {%п} можно выбрать такое множество Г из Хт [х-меры 1, что равенство D) будет выполняться при любом х из Г и любой функции %п. Множество 9? тех функций 5, для которых D) верно при всех х из Г, замкнуто от- относительно линейных операций и ограниченного предельного пе- перехода. Выбрав должным образом систему {%n}=W, получим, что 9С содержит все ограниченные измеримые функции (ср., аналогич- аналогичное рассуждение из § 5). Это значит, что Р* = Vх при х g Г, и стратегия % является (п. н. |л) сочетанием стратегий %х, отвечаю- отвечающих мерам Vх. § 7. Уравнения оптимальности Как и в дискретных моделях (см. §§ 1.4—1.7 и 1.12), выводу уравнений оптимальности (результат 1) предше- предшествует доказательство формулы v (x) A) Поскольку функция v (х) универсально измерима (и вместе с платами ограничена сверху), интеграл в A) имеет смысл при любой начальной мере \>-. При любой стра- стратегии те имеем w (х, л) ^ v (x), откуда W А, те) = \ W (х, те) ;л (dx) <J \ V (х) ;л (dx) = \xv. B) С другой стороны, для любого е ^> 0 существует е-опти- I8Q W л, те) = f w (х, те) [ мальная (п. н. ^) стратегий те, йрй которой w (х, те) ^ ^ v. (х)—е (п. н. ;х) и, следовательно, \ v(x)[>. (dx) — s = [au — s. C). Из B) и C) вытекает A). Из C) видно, что если стратегия те е-оптимальна (п. н. ;х), то она е-оптимальна для процесса Z • зто заме- замечание пригодится нам в § 9. Переходим к выводу соотношений ¦ v=Vu, u = Uv', D) связывающих оценки v и v' модели Z и ее производной Z' [операторы U и V определены формулами A.2) и A.3)]. Так же, как в § 1.6, из фундаментального уравнения B. 3. 1) выводится, что w(х, n)^Vu(x) (х?Хя), E) где u(a) = q(a) + v>(pa) (a?Am+1) F) (те—любая стратегия). Из F), A) и определения A.2) оператора U следует, что u = Uv'. Чтобы вывести уравнения D), нам остается для любого s ^> 0 и любого х из Хт построить такую стратегию я в модели Z, при которой IV (X, Й)>УЦ(Ж) — е. G) [В отличие от дискретного случая (ср. § 1.12), мы не можем теперь выбрать я, так, чтобы G) выполнялось одновременно для всех х из Хт]. По определению супремума, в слое А (%) можно выбрать управление а такое, что u(a)^Vu(x)-j. (8) Пусть у — какой-нибудь измеримый селектор соответ- соответствия х -> А (х) (х?Хт). Ясно, что функция а при х = х, Х(ж) при х=?х, л?Хт 121
тоже измеримый селектор этого соответствия. Далее, пусть те' — стратегия в модели Z', -2~оптимальная при началь- начальном распределении ра, так что и, следовательно, '(Ps, «')>B(e)--J. (9) Тогда стратегия я=фп' в модели Z, состоящая в примене- применении на первом шаге простой стратегии ф, а затем — стра- стратегии те', удовлетворяет условию G). В самом деле, при- применяя к s формулу B.3.1) и учитывая (8) и (9), имеем w(x, it) = q (a) -f w' (pa, Kl)'^?u(a)—-^'^Vu(x)—e. Развернутая форма уравнений оптимальности и их запись с помощью оператора Т, приведенные в § 1.7, по- получается из D) точно так же, как в конечных моделях. * * * Проведенное рассуждение показывает, что если к' — равно- равномерно Ej-оптимальная стратегия в модели Z' и для измеримого селектора ф соответствия А (х) из Хт в Ат+1 имеем T^v'^z v— е2, то w (х, фп') ^ v (ж) —(sx+Sg) при всех ж из Хт. Отсюда очевидной индукцией получается результат П2 из § 1. § 8. Достаточность простых стратегий Покажем, что на общие модели распространяется пред- предложение II 1.1 (см. § 2). Как и в счетном случае, марковская стратегия а, равно- равносильная те при начальном распределении р., строится из условных распределений для управлений at при изве- известных состояниях xt_x (m <^ t <^ п—1). В общем случае существование таких распределений следует из теорем Е и 2 § 4. Эти теоремы применяются при s=l к простран- пространствам E0=Xt, Ег=А{+1, множествам B0=Xf, B1={xa: : х? Xv a?Atn, j (а)=х} и мере Р на XtxAt+1, определен- определенной формулой Р (Г) = Р {хЛ+16 Г} (Г 6 & (Xt X At+1)). 122 Согласно теореме Е Р (dxtdat+1) = P (dxt) A) где о (• | •) — переходная функция из Xt в At+1. Поскольку для любого пути j [at+i)=xti т0 меРа ^ в произведении XtxAf+1 сосредоточена на Вг, и согласно теореме 2 можно выбрать а так, чтобы о(Е[х]\х) = 1 при всех х из Хг В нашем случае Е [х] = (а : а ? At+1, xa G Вг} = {a:j (а) = х) — А (х), так что меры а (• \х) сосредоточены на слоях А (х). Формула A) заменяет использованную в дискретном случае формулу A.13. 3). Вместо формул A.13. 4), A.13. 5) и A.13.6) в общем случае имеем Q (d = Q (dxt) a V(dat+1dxM) Q (datndxM) — Р (dal+1) p (dxi+l \ =-. Q (danl) p (dxt+1 at), B) C) (Q — стратегическая мера, отвечающая ^ и а). Формулы C) и D) получаются из D.12) интегрированием по хтат+1. . . xt, а формула B) — интегрированием по хтат+1.. . .. .at формулы D.11), принимающей в случае марковской стратегии а вид Q (dxmdam+1 . . . dxtdal+1) = = a (duin I Xl) Q (dXmdam+l ¦¦¦dxt). Формулы A)—D) позволяют доказать совпадение рас- распределений at и xt относительно мер Р и Q с помощью такой же индукции, как в счетном случае. Распространим теперь на общие модели доказательство предложения III.2 о существовании простой стратегии <р, равномерно мажорирующей Марковскую стратегию о (ср. §'Д.13). Единственное отличие общего случая от счет- счетного состоит в том, что мыдолжны позаботиться об измери- измеримости селектора ф отображения х -»¦ А (х) (х?Хт) такого, 123
что / (ф (х)) ^ tJ=w (х, а). Это делается с помощью тео- теоремы А из § 2, которая применяется к , / (а) > Ц7 (/ (а), а)}, Я' = Хт, I = /, Е = {а: a Легко видеть, что ? — измеримое подмножество простран- пространства Ат+1 и, стало быть, является борелевским простран- пространством. По лемме 1.13.1 (см. также сноску на стр. 58) tx (Е) ^> О ПРИ всех х из ^Я1 и> значит, все условия теоремы А выполнены. § 9. Простая (п. н.) е-оптимальная стратегия Чтобы установить результат На, нам понадобится следующая Лемма 1. Для любой последовательности {ук} (&=1, 2,. . .) простых стратегий и любого е ^> 0 сущест- существует простая стратегия <? такая, что w (х, ср) > sup w (x, <pk) — е (z?XJ. Доказательство. Покажем, что наше утверждение спра- справедливо для модели Z, если оно справедливо для производ- производной модели Z'. Пусть ср^. обозначает простую стратегию в производной модели Z', к которой сводится cpfc при вычеркивании столб- столбцов Хт и Ат+1. По предположению, в модели Z' существует простая стратегия у' такая, что w'(x, =\, 2,...) A) (w' обозначает оценку в модели Z'). Рассмотрим в модели Z стратегии <|>ft, состоящие в употреблении на первом шаге стратегии ук, а затем — стратегии ср'. По формуле A.7.5), выражающей w через w', из A) следует, что и, значит, sup w (х, k)^$\ipw(x, ?„)_—Т* г Искомая стратегия получится, если применять при на- начальной точке х любую стратегию tpft> Для которой sup и? (ж, B) Нужно лишь позаботиться, чтобы зависимость от х была измеримой. Для этого достаточно брать стратегию с на- наименьшим номером, удовлетворяющую условию B) [су- [существенно, что правая часть B) является измеримой функ- функцией х]. Наше рассуждение применимо и к одношаговой модели, только в этом случае надо начинать сразу с B), заменив фд. на срг Лемма 1 доказана. * * Пусть ;х — произвольное начальное распределение и к — любое натуральное число. Если модель Z нетри- 1 виальна, то существует стратегия, -^--оптимальная для процесса Z . В силу результата III для Z^ существует простая -^--оптимальная стратегия fk. Ясно, что Применяя для оценок v (;*) и w ([x, cpj формулы G.1) и G. 2), имеем < \ [sup и; (ж, f^lv-idx)^ \ v{x)[>.(dx) = v([>.). к При к-^-оэ отсюда следует, что [supи; (ж, y^pfix)— \ v(x)p{dx). D) Из C) и D) вытекает, что sup w (х, fk) — v (х) (п. н. р.). к 125
Применяя к последовательности {<pfc} лемму 1, полу- получаем, что для любого s>0u любого начального распределе- распределения р найдется простая стратегия tp такая, что w (х, ср) ^ v (х) — s (п. н. р.) (результат На). * * * В счетном случае из существования какой-либо стра- стратегии, оптимальной для модели Z, вытекает существование простой стратегии, оптимальной для Z (см. § 1.13). При- Приведем пример, показывающий, что в общем случае такой результат не справедлив. Рис. 3.4 Пример 1. Рассмотрим модель Z, показанную на рис. 3.4. Здесь Хо — такое борелевское множество Q квадрата О^.у^.1, O^z^l, которое ортогонально проектируется на отрезок 0 <^ у ^ 1 и не содержит гра- графика ни одной измеримой функции z—f (у) @ <^ у ^ 1) (ср. пример 1.1). Пространство А1 равно Хо и / (у, z) = — (у, z). Пространство Х1 — это отрезок 0 ^ и ^ 1, пространство А2 — квадрат 0 <^ u <^ I, O^s^l; и j (u, s) = u. Пространство Х3 состоит из одной точки 0. Из каждой точки (г/, z) пространства Ах происходит детерминированный переход в точку и=у, из каждой точки (u, s) пространства А2 — в точку 0, Финальная плата равна нулю. Обозначим через R множество, в которое перейдет Q, если наложить плоскость yz на плоскость us так, чтобы ось у совместилась с осью и, а ось z — с осью s. Текущая плата равна 1 на R и равна 0 на A\R. 126 Ясно, что здесь v (x) = i при каждом х из X. Как ив примере 1.1, простая стратегия <р задается изме- измеримой функцией s=f (и) @ ^ и <^ 1). Значит, для любой простой стратегии ср найдется такое и, что <р (и) не принад- принадлежит R; в таком случае для начальной точки х={у, z) с у=и будем иметь w (x, f)=0. Следовательно, ни одна про- простая стратегия ср не оптимальна (и даже не е-оптимальна при е < 1) для модели Z. Поскольку любую марковскую стратегию равномерно мажорирует какая-нибудь простая стратегия, то в модели Z нет и марковских оптимальных (и е-оптимальных при е < 1) стратегий. Однако немарковская стратегия, опти- оптимальная для Z, существует. Действительно, пусть л предписывает при истории хоа1х=(у, z) (у, z) и выбирать управление а2={и, s) с s=2 @^2/^1> O^z^l, O^u^l) (выбор аг при любом х0 однозначен). Так определенная функция а2 от х^а^х измерима, и, значит, задает детерминированную страте- стратегию. По построению w (х, гс) = 1 при всех х из Хо.
Часть 11 УПРАВЛЕНИЕ НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ Глава 4 ДИСКРЕТНЫЕ МОДЕЛИ § 1. Переход к бесконечному промежутку' управления В тех случаях, когда нет естественного момента окон- окончания процесса, целесообразно рассматривать управление на бесконечном промежутке времени. Задачу оптимального управления на бесконечном про- промежутке времени можно ставить по-разному. Можно до- добиваться максимизации среднего выигрыша за единицу времени. Этому посвящена глава 7. В настоящей главе максимизируется суммарное среднее значение выигрыша з/ за бесконечное время. Такая постановка интересна в пер- первую очередь, когда значения е7 ограничены сверху. В этой главе мы будем заниматься дискретными (т. е. конечными и счетными) моделями. Общий случай, требующий более обстоятельного знакомства с вопросами измеримости, и опирающийся на материал глав 2^3, рассматривается в главе 5. § 2. Суммируемые модели При переходе к бесконечному интервалу управления [т, со) определения управляемого марковского процесса и модели сохраняются, только теперь пространства состоя- состояний Хт, Хт+1,... и управлений Ат+1, Ат+2,.., образуют бесконечные последовательности и не вводится финальная плата. Стратегии приходится задавать для историй h сколь угодно большой длины. 128 В главе 1 оценка стратегии it при начальном распреде- распределении [>¦ задавалась формулой w i т+1 [Р _ мера в пространстве путей, определяемая равенством A. 3. 2)]. В случае бесконечного интервала управления ес- естественно положить fr, ) 2 m\-l При этом Vq (at) можно вычислять по формулам A.3.2) — A.3.3), обрывая траекторию хтат+1хт+1. . .апхп. . . на хп при каком-нибудь п > t [легко видеть, что значение Pg (a,,) не зависит от выбора п]. Вообще говоря, сумма ряда A) может не иметь смысла. Однако всегда существуют конечные или равные +со суммы рядов 2 Pg+(a,) = u>+(jx, «) +i и 00 2 m-1-l (a,) = w (p., it), B) C) где q+ равно q при д^Ои равно 0 при q < 0, а q равно — q при q <; 0 и равно 0 при q > 0 (см. рис. 4.1). Будем говорить, что модель ^суммируема сверху, если w+ ([х, п) < +°° при всех п> и чт0 она Р суммиру- суммируема снизу, если w~ {\х, %) < +°° при всех п. Формули- Формулировки для обоих случаев часто оказываются совершенно сим- симметричными. В подобных ситуациях мы будем говорить о [х-суммируемости, опуская для сокращения слово «сверху» («снизу»). Формулировки этого рода можно понимать дво- двояко: всюду со словом «сверху» или всюду со словом «снизу». Если модель [х-суммируема, то 2 IV Ц) - 2 +1 («Л = 2 fn+1 Ы - Pg- (a,)l = 2 Справедливость этих равенств вытекает из следующего общего свойства числовых рядов: 9 Е. Б. Дынкин, А. А. Юшкевич 129
Рис. 4.1 Свойство S. Если сумма по- положительных или сумма отрицатель- отрицательных членов ряда конечна, то сумма ряда имеет смысл (она может равняться -f-oo или —оо) и не меняется, если чле- члены ряда как угодно переставлять и груп- группировать в скобки (как число скобок, так и число слагаемых в каждой скобке мо- может быть бесконечно). • Поскольку q=q+—q~, то правые части A) и D) совпадают. Таким образом, для [х-суммируемой модели формула A) имеет смысл и w([>., tz) = W+([)., те)—uT(ja, те). E) Модели на конечном интервале [т, п] можно рассматривать как частный слу- случай моделей на бесконечном интервале [т, со): достаточно положить. r{ja) при a?Att+v при а ? Ап+2 U Л+а U • • • q(a) = Для моделей на конечном интервале управления ^-сум- ^-суммируемость сверху вытекает из ограниченности сверху функций q и г (см. условие 1.12. а). На бесконечном интер- интервале это уже не так. Поэтому вводить условие 1.12. а не имеет смысла, и мы исключаем его из исходных предпосы- предпосылок. В силу этого одновременно с переходом к бесконеч- бесконечному интервалу управления будет получено некоторое усиление результатов для конечного интервала. § 3. Фундаментальное уравнение Покажем, qTO сохраняются установленные в 1.5 и 1.12 формулы = 2 W(x, те)= 2 тс (а (фундаментальное уравнение). Точнее, 130 1.4- A) B) а) Если модель ^.-суммируема, то она х-суммиру- ема * при всех х, для которых р. (х) ^> 0, и выполняется равенство A). б) Если модель х-суммйруема, то производная мо- модель ра-суммируема при всех а из А (х), и выполняется уравнение B). \ Рассмотрим сначала случай неотрицательной платы q. Заметим, что если д=0 на всех множествах At с номерами t > п, то выбор управления после момента п не играет роли, и дело сводится к управлению на отрезке [т, п] (при ограниченной снизу плате). Поэтому для платы qn, опре- определенной формулой на Am+i U Ать2 U • • • U Ап на An+1\JAn+2\J .... соотношения A) и B) вытекают из результатов §§ 1.4— 1.5 и 1.12. При и-> оо неотрицательная плата qn моно- монотонно сходится к q. При такой сходимости допустим пе- переход к пределу как под знаком математического ожида- ожидания Р, так и под знаком суммы в ряде B. 1). Значит, для любых ;х и те оценка wn ([x, it) при плате qn сходится, не убывая, к оценке w (;x, п) при плате q, и то же справедливо для производной модели. При такой сходимости допустим почленный переход к пределу под знаком сумм в формулах A) и B), и мы. nonyqaeM, что эти формулы справедливы при любой неотрицательной плате q. Пусть теперь q может принимать значения любого знака. По доказанному формула A) выполняется для оценок w+ и w~, отвечающих неотрицательным платам q+ и q~: ц7+(;л, те) = 2^(ж)ш+(а;, к), C) х те). D) Следовательно, если w+ ([>¦, it) <C +oo, то w+ (x, те) < +оэ при всех х, для которых [х (х) > 0, и то же верно для w~. Вычитая D) из C) и опираясь на свойство S, получаем равенство A). Далее, пусть ц?+ (х, л) <^ +со при всех стратегиях к. Фиксируем произвольный элемент а из А (х) и любую стра- 1 Мы говорим «модель ж-суммируема» вместо «модель ц-суммируема» при распределении pi, сосредоточенном в точка х. 9* 131
тегию к' в производной модели. Пусть фа — селектор ото- отображения у -»¦ А (у) (у ? Хт), сопоставляющий точке х фиксированное управление а. Применяя формулу B) к стратегии ir=<j)e7c' и неотрицательной плате q+, имеем w+{x, те) = ра, теа). Но ira=7c' и, следовательно, w+l (ра, л') < со. Проведя аналогичное рассуждение для w~, получаем первую поло- половину утверждения б). Пусть теперь те — любая стратегия. Применяя формулу B) к платам q+ и q~ и вычитая с использованием свой- свойства S полученные выражения одно из другого, заключаем, что B) выполнено и для платы q. После того, как мы распространили на общий случай фундаментальное уравнение, можно пользоваться и всеми следствиями из этого уравнения. В частности, если мо- модель ^--суммируема и если tyt — селектор соответствия А(х) (x^Xt_^) (?=/n+l,- . .,' п) и к — любая стратегия в производной модели порядка п—т, то (Ср. формулу A. 7. 5).) При этом либо для платы д+, либо для платы q~ величина E). меньше -fee. Для ^-суммируемой модели на конечном интервале [т, п] с платежными функциями q ж г формула E) прини- принимает вид W (Х> tm+ltm+2 • • • t) = ^т+Лт-И • • • УФ/ (Х) или, если вспомнить определение левой части, приведен- приведенное в § 2, V И = 2 {1 (хп), F) где 9—простая стратегия, равная tp = 4)m+i!lW2- • -ф„. Очевидно, формулу F) можно применять и к модели Z на бесконечном промежутке [т, со) при любом п > т и любой функции г на Хп такой, что «укороченная» модель Z" (г), полученная из Z назначением в момент п финальной платы г, остается [л-суммируемой. 132 Заметим далее, что для любой стратегии р на отрезке [т, п] ., р«)= G) Для моделей на конечном интервале зта формула была до- доказана в § 1.8. Переход к бесконечному промежутку управ- управления в случае q J> 0 проводится'так же, как и при доказательстве утверждений а) и б). Наконец, для произ- произвольной платы (при которой модель Z [х-суммируема) фор- формула G) получается вычитанием соответствующих формул для q+ и q~. Применяя формулу G) к плате q+, замечаем, что из fi-суммируемости модели Z следует конечность где Стало быть, соответствующая производная модель v-сум- мируема. § 4. Равномерно s-оптимальные стратегии Оценка начального распределения ^, определенная формулой v ([>¦) = sup w([>., те), имеет смысл, если модель ^-суммируема. При этом сохра- сохраняются определения оптимальных и е оптимальных для процесса Z стратегий (см. §§ 1.3 и 1.12). Равномерно е-оптимальная стратегия (или страте- стратегия, е-оптимальная для модели Z) определялась в главе 1 как стратегия те, удовлетворяющая условию w (|л, те) ^ v (;л) — е для всех начальных распреде- распределений |А. A) Было доказано, что это условие равносильно требованию w (ж, те) ^ v (х) — s для всех х из Хт. B) Теперь условия A) и B) уже не равносильны: если.и; (х, те) имеет смысл при всех х из Хт, то это не значит, что w (p, те) определено для любого р. Поэтому мы примем за определе- 133
ние равномерной ^.-оптимальности условие B), огра- ограничиваясь классом тех моделей, которые х-суммируемы при всех х из Хт. Докажем, что а) Для любого е > 0 существует равномерно ъ-оптималь- ная стратегия it. б) Если модель ^.-суммируема, то оценка v (x) также 1>.-суммируема 2 и n v(V.) = J^V.{x)V{x)(=V.v). C) в) Если стратегия п равномерно ^-оптимальна, то w (ц, %) ^ v (\>) — е для всех jx, при которых модель ^сум- ^суммируема. , ' ¦ Принцип сочетания стратегий (см. § 1.4) позволяет свести доказательство результата а) к построению страте- стратегии it= кх такой, что w (х, it) J> v (x) — s при фиксированном х из Хт. Если v (x) < +со, существо- существование требуемой стратегии л вытекает из определения v (x). Если v (х) = -\-со, то из определения v (x) следует, что для любого натурального числа к найдется стратегия пк, при которой w(x, nft)>2*. ' D) Поскольку мы можем смешивать стратегии (см. § 1.3), существует стратегия л такая, что E) 2 к=1 (мера Р отвечает стратегии к, меры Pft — стратегиям 7tfc;. все процессы начинаются в состоянии х). Из ж-суммируемости модели, свойства 2. 5 и формул B.1), D) и E) следует, что 2 Мы говорим, что функция / pi-суммируема сверху (снизу), если ц/+ < со (р./- < со). Для такой функции |л/=р./+—р./~. Слова «сверху» («снизу») в формулировке б) опущены в соответствии с замечанием, сделанным в § 2. 134 Переходя к доказательству б), обозначим через Q и R подмножества Хт, на которых г;>0 и !)<0. Поскольку и? (х, л) ^ у (ж), —цГ(а:, 7t) < 0 < U7+(ж, it), (jfXJ, —ш" (ж, it) <^ w (х, л) ^ ц;+ (ж, л), с помощью формулы C. 1) получаем, что для любой стра- стратегии 7t ¦=-Si и (ж) ^—2 Iх (х)w (^i n) я < 2 р- И ^ (ж>тс) ^ 2 Iх (ж) w~ (^. "О и для стратегии а из результата а) (все суммы имеют смысл, так как слагаемые одного знака). Из этих неравенств видно, что если модель ц-суммируема' то и функция v (х) [i-суммируема, и, стало быть, имеет смысл [ху= [iy+—f«;~.Вторая половина утверждения б) и ут- утверждение в) доказываются теперь так же, как в § 1.12. Из •¦доказанного вытекает равносильность следующих двух условий: 1°. Модель Z ^-Суммируема сверху. 2°. у ({О- +оо. В самом деле, если v (fi) ¦< Ч0» то v ([x) имеет смысл и, значит, модель [х-суммируема либо сверху, либо снизу. При этом для любой стратегии тс и, следовательно, w+ (;x, л) ¦< +°э. Значит, из 2° выте- вытекает 1°. Наоборот, если выполнено 1°, то v (p.) имеет смысл; если бы v ([x) = -foo, то по доказанному в этом параграфе нашлась бы"стратегия л, для которой w {[>¦, n)=w? (;x, 7t) — —iv~ ([x, it) = + oo, а значит, и iv* (jx, ц) = -|-оо, что проти- противоречит 1°. Таким образом, из 1° следует 2°. Покажем, что условия 1°'и 2° равносильны также следующему: 3°. 135
Рассмотрим для этого модель Z+, получающуюся из Z заменой текущей платы q на q+. Очевидно, модель Z ;л-сум- мируема сверху тогда и только тогда, когда тем же свой- свойством обладает и модель Z+. Применяя доказанную равно- равносильность условий 1° и 2° к модели Z+, получаем, что модель Z суммируема сверху тогда и только тогда, когда оценка начального распределения [х в модели Z+ конечна. Но эта оценка равна sup w+ ([>., те) 1С и, значит, 1° равносильно 3°. Аналогично устанавливается эквивалентность условий: 1а°. Модель Z- ^-суммируема снизу; 2а°. inf w (;л, те) ]> —со; я За°. 2 p{v\a)f{y) {a § 5. Уравнения оптимальности Для конечного интервала управления (и ограниченной сверху платы) в §§ 1.6 и 1.12 были получены следующие результаты: а) оценка v модели Z выражается через оценку v' про- производной модели Z' формулами v=Vu, u = Uv', A) где Vg{x)= sup g(a) (x?X), B) C) б) при Любом х > 0 существует селектор ф отобра- отображения х -> А (х) (х? Хт) такой, что и (ф (х)) ~^>v(x) — х при всех х из Хт; D в) пусть г и у. — любые неотрицательные числа. Если стратегия те' е'—оптимальна для модели Z' и селектор ф удовлетворяет условию D), то стратегия фтг' (е'~\-х)-оптималъна для модели Z. Чтобы обобщить эти результаты, необходимо прежде всего позаботиться, чтобы были определены функции v и v'. Существование v вытекает из условия ж-суммируе 136 мости модели Z при любом х из Хт, введенного в предыду- предыдущем параграфе. Начиная с этого места и до конца главы, мы будем предполагать, что указанным свойством обладает не только Z, но и все производные модели Z', Z", . . . (будем говорить при этом, что модель Z суммируема). Можно всегда добиться, чтобы это дополнительное требо- требование выполнялось, исключив из Xt (при t > т) все со- состояния х, для которых, нарушается условие ж-суммируе- мости соответствующей производной модели. Такая чистка пространства состояний не влияет на управление моделью Z, ибо в силу 2а—26) исключенные состояния недостижимы ни при какой стратегии. При сделанных предположениях конечные или бесконечные оценки v определены для модели Z и всех производных моделей. Рассмотрим сначала случай, когда модель суммируема сверху и, следовательно, v ¦< +оо. В этом случае справед- справедливость результатов а)—в) устанавливается так же, как в § 1.12. Возможность применять оператор U к функции i/ и равенство вытекают из 36) и 46). Неравенство w' (pa, n') J>i/ (ра) — е (где те' — стратегия, е'-оптимальная для Z') следует из 4в). Пусть теперь модель суммируема снизу. Пример, при- приведенный в конце § 1.13, показывает, что утверждение б) может быть неверным для точек х, в которых v {x) — = + со. Однако справедлив следующий ослабленный ва- вариант результата 6): б) При любых х > 0 и К^>0 существует селектор <|> соответствия А (х) (х ? Хт) такой, что и (ф (х)) ^> v (х) — х при v (х) <+со, u{if{x))^K при v{x) = -\-ai. В, самом деле, при v (х) <С +оо сохраняют силу преж- прежние аргументы. Если же v (ж) = + оо, то в силу фундамен- фундаментального уравнения формулы D.3) и определения и (а), содержащегося в A) и C), +oD=:supu;(a;, те)< sup [q(a) + w1 (ptt, те')]< 137 < sup [q (a) + v' (pa)] = sup и (а). еЦ) &Л{)
Из б) следует а): при v (х) <С +°° сохраняется прежнее доказательство, а при v {x) = -\-co в силу B) Vu(x) = = -{-°О.= У (а;). Результат в) и его доказательство не зависят от того, суммируема модель сверху или снизу. Для дальнейшего нам удобно переписать уравнения A) и условие D) с помощью операторов 7V и Т, определенных формулами E) -' ' F) suvT f(x)=VUf(x) (см. конец § 1.6). Кроме того, как ив§ 1.7, будем считать, что то=0 и обозначим модель Z и ее последовательные про- производные через Zo, Zlt Z2) . . ., а их оценки — у0) у1; у2, . . . Из результата а) следует, что в суммируемой модели оценки vt связаны рекуррентными соотношениями Из результата б) вытекает, что в суммируемой сверху мо- модели для любой последовательности положительных чисел хъ х2, . . . можно выбрать селекторы фх, <]>2, . . . соответствий так, что (8) 't и s-оптимальной Наконец, из результата в) следует, что при таких при любой s'-оптимальной стратегии я в модели произведение фхф2. . . ф„тс- является стратегией в модели Z при е = х1+'х2+. = 1, 2,. . .). Из G) следует, что при любом п > О Щ=Т\, ' (9) В следующем параграфе мы выведем, что при некоторых дополнительных ограничениях Наглядно это означает, что управление на конечном, но достаточно длинном интервале [0, п] может дать почти 138 столько же, сколько и управление на бесконечном интер- интервале времени. Пусть, далее, ф = ф1ф2 • • -IV • •., где селекторы tyt удовлетворяют условию (8) и пусть e = x1-j-x2+. . .+ -\-x.t-{-. . . В § 7 будут выяснены условия, при которых простая стратегия ср равномерно s-оптимальна. § 6. Выражение для оценки модели Рассмотрим суммируемую модель Z. Очевидно, при любом п суммируема модель Z", которая получится из Z, если заменить нулем плату q на всех пространствах At Рис. 4.2 с t ^> п. Оценки v и w в модели Z" будем обозначать через у" и wn. Ясно, что у"=0 на Хп, так что в силу D.9) уя=Г на Хо. Согласно A.1) w(x, ir) = lim w" (х, л) (ж?Х0) A) И->00 и, стало быть, v (х) — sup lim uf (x, те).. Переставив знаки sup и lim, мы получим B) Однако этот вывод несостоятелен, так как, вообще говоря, знаки предела и супремума переставлять нельзя. «Выведен- «Выведенное» нами равенство в действительности может не иметь места, как показывает следующий пример. Пример 4. Рассмотрим однородную модель, в ко- которой все Xt (и А,) совпадают друг с другом. Простран- Пространство Xt состоит из точек х и ук, к=1, 2,... (см. рис. 4.2). 139
Из ук+х происходит детерминированный переход в ук, состояние ух — поглощающее. Из х за счет выбора управ- управления мы можем перейти в любое из состояний ук с номе- номером к ^ 2. Плата q равна 0 всюду, кроме стрелки, веду- ведущей из у2 в ух; здесь q=—1. Отправляясь из х, мы рано или поздно пройдем из у2 в ух, поэтому v (#) =— 1. Однако v" (а;)=0 при любом натуральном п, так как можно пе-. рейти из х в ук со столь большим номером к, что п шагов не хватит для достижения • х. Из равенства A) вытекает только, что у<Шпу". C) н->со В самом деле, фиксируем х и выберем произвольное число с, меньшее v (х). Заметим, что w (х, л) > с для некоторой стратегии я, и, в силу A), w" (х, л) > с, начиная с некоторого номера п. Начи- Начиная с этого номера if (х) > с. Стало быть, lim vn (х) > с. Чтобы v равнялось пределу v", нужно исключить воз- возможность существенных убытков в сколь угодно далеком будущем. Пример 1 показывает, что суммируемости снизу для этого недостаточно. Для того, чтобы выполнялось равенство B), доста- достаточно, чтобы величина t—u+1 удовлетворяла соотношению lim inf wn (x, u)^0 (x ^ E) Действительно, положим zn(x) = infwn(x, я). При лю- тс бой стратегии я wn(x, тс) -f- zn(ж)< w"(x, ¦n)-\-wn(x, n) = w(x, k)z^v{x) и, следовательно, В силу E) имеем 0 s^ lim zn ^ lim (v — vn) = v —Tim if. W->CO K->CO B->CO В соединении с неравенством C) это дает нам формулу B). 140 Неравенство E), очевидно, выполняется, если плата q неотрицательна. Оно выполняется также, если существуют положительные функции bt (x) (х?Х0), такие, что со F) и при достаточно больших t ^I9(at)>-bt(x) G) для любого х из Хо и любой стратегии п. Действительно, из D) и G) следует, что при любых жили достаточно большом п ¦ ' ,{ )> SM) () я+1 и, значит, E) вытекает из F). Суммируемые модели, удовлетворяющие подчеркну- подчеркнутому требованию, условимся называть ограниченными снизу. Таким образом, для любой ограниченной снизу модели Тп0 -> v. , ' Любая суммируемая модель на конечном промежутке, очевидно, ограничена снизу. С другой стороны, если не- неравенства G) выполнены при всех t, то модель я-сум- мируема при любом начальном состоянии х. Произведя чистку пространства X, описанную в § 5, можно считать^ что модель суммируема. Очевидно, она ограничена снизу. § 7. Простые s-оптимальные стратегии В этом параграфе изучаются стратегии вида <р = ф1Ф2- • • ... фг . ., где tyt — селектор отображения х->А (х) (х? Xt_x) (простые стратегии). Наша цель — показать, что если Tiftvt^vt_x—y.t A) то w (x, <?)~^v (x) — е, B) т. е. стратегия <р равномерно s-оптимальна. Мы увидим, что это утверждение справедливо только при некоторых дополнительных предположениях о модели Z. Пусть модель Z суммируема. Согласно формулам C. 5) и C.7) для любой стратегии ¦к в производной модели Z" vf (х, <р) + Р|шк (хк, «) = Гф,Г*, • ¦ • П„шп {х, и). C) 141
Из определения операторов Т. видно, что они сохраняют неравенство между функциями, и что для любой постоян- постоянной с имеем 7\, (c+f) = c-{-TJ (постоянное слагаемое можно выносить за знак оператора). При любом s > 0 существует стратегия пе, для которой Поэтому из справедливости C) для всех стратегий us вы- вытекает, что w" (х, <р) + Гря {хп) = Т^Ть . .. 7>Л (х). D) Из неравенств A) и отмеченных свойств операторов Т^ следует, что • е. Поскольку w (х, ср) = lim w" (x, cp) E) F) (см. F. 1)), то для получения из D) и E) неравенства B) достаточно потребовать, чтобы Остановимся подробнее на случае, когда v (x) конечно. Из формулы D) вытекает, что при этом существует предел 3(*) = ПтР^я0О- (8) И-)-СО В самом деле, из трех членов, входящих в формулу D), первый имеет в силу F) предел w (х, ср), а третий — монотонно не возрастает в силу неравенств и,- стало быть, также имеет некоторый предел \ (х) ^ ^ v0 (x)=v (x). Поэтому предел (8) существует и равен Z(x) = l(x)-w(x, <?), (9) если хотя бы один из членов в правой части конечен. 142 Конечность А следует из неравенств y_s<^A<y A0) (оценка снизу получается предельным переходом из E)). В силу (9) и A0) V (х) — W (Х, ср) — ? ^ S (X) ^ V (х) — W (X, ср). Из этих неравенств можно сделать ряд интересных вы- выводов: 1) Всегда 8 ^ —е (ибо w (х, ср) ^ v (x)). 2) Если 8^0, то стратегия ср s-оптималъна (это вытекает также из сопоставления G) и (8)). 3) Если' стратегия у s-оптималъна, то Ь^г. Применяя 2) и 3) к случаю, когда е=0, приходим к сле- следующему результату: Пусть оценка v конечна и селекторы tyt удовлетворяют условиям 7V; = <Vi (*=1, 2,...) и пусть предел ф1ф2. б Тогда существует неотрицательный для оптимальности простой стратегии ср необходимо и достаточно, чтобы этот предел был равен нулю. Аналогично классу моделей, ограниченных снизу (см. § 6), можно ввести класс моделей,ограниченных сверху. Суммируемую модель будем называть ограниченной сверху, если существуют положительные функции ct (х) (х ? Хо) такие, что и при всех достаточно больших t P«g(a,)<c,(aO • A2) для любого х из Хо и любой стратегии п. Докажем, что для таких моделей выполняется условие G) и, следовательно, стратегия <р е-оптималъна. 143
Установим сперва, что в ограниченной сверху модели Ъ при достаточно больших п A3) для любого х из Хо, любой простой стратегии tp в модели Z и любой стратегии к в производной модели Zn. Q О1 Рис. 4.3 Пусть * р — произведение первых п сомножителей фхф2. . .фя стратегии tp на стратегию п. Очевидно, величина, стоящая в левой части A3), не зависит от значений платы q на пространствах Аъ. . ., Ап; полагая q=0 на этих мно- множествах, по формуле C. 7) получаем *-. «) = 2 <1 («,) = 2 +1 Ы- Отсюда и из A2) следует A3). Применяя неравенство A3) к равномерно е-оптималь- ной стратегии пг в модели Zn, получаем, что - со и+1 ввиду произвольности числа s ]> 0 отсюда следует, что 2 я+1 A4) Из A4) и A1), очевидно, вытекает G). Отметим, что ограниченными сверху (а также снизу) являются, в частности, все суммируемые модели на конеч- конечном промежутке времени [т, п]. Для ограниченных сверху моделей при фиксированном начальном состоянии можно пренебречь положительным вкладом, который вносится в математическое ожидание выигрыша после достаточно далекого момента. Следующий пример показывает, что это условие лежит в существе дела. 144 Пример 1. Рассмотрим однородную модель с двумя состояниями, показанную на рис. 4.3. В состоянии х воз- возможны два управления, переводящие нас, соответственно, в х и в у, состояние у — поглощающее. Очевидно, v (x) = l и v (у)=0. Стратегия tp, состоящая в бесконечном возвра- возвращении в х, удовлетворяет неравенствам A) при х^=0, но не является оптимальной, так как w (x, tp)=O. Если в определении модели, ограниченной снизу (или сверху), ряд 1>Ъ{(х) (или Hct (x)) состоит из констант, то будем называть модель равномерно ограниченной снизу (или сверху). Если модель равномерно ограничена и сверху и снизу, то для получения стратегии, близкой к оптимальной, до- достаточно конечного числа условий A). Точнее, мы дока- докажем, что если Tbvt'>vt-x — '*-t (* = 1, 2, ..., га), то любая стратегия я, совпадающая на первых п шагах с произведением (р = фхф2. • .фя, является s-оптималъной при = 2 х< + 2 (Ь* + ct) 1 t>n A5) (в предположении, что, начиная с п, выполнены неравен- неравенства F. 7) и A2)). Выбирая достаточно большое п и доста- достаточно малые хх, х2). . ., хя, можно сделать s сколь угодно малым. Для доказательства заметим, что uf (x, u) = w" (x, tp) и, значит, согласно формуле D) W (X, Я) = И7" (X, U) -f Wn {X, и) = Гф, Гф, . . . Т^п (X) - Из неравенств E), A4) и F. 8) вытекает, что правая часть не меньше, чем v (x)—е. § 8. Достаточность марковских и простых стратегий В какой мере переносятся на рассматриваемый случай результаты § 1.13 о марковских и простых стратегиях? Результат 1.13.1 о существовании марковской страте- стратегии а, равносильной стратегии ¦к при начальном распреде- Е. Б. Дышшн, А. А. Юшкевич 145
лении ji (т. е. такой, что w (ja, o)=w (ja, и)), остается спра- справедливым для любой ^.-суммируемой модели. Действи- Действительно, определим з той же формулой A.13.3), что в главе 1 (но теперь для всех t > 0). Как показано в § 1.13, при лю- любом t распределения вероятностей для at относительно мер Р* и Р^ совпадают. Значит, 00 =2 00 =2 р;? к)= =о- Иначе обстоит дело с результатом 1.13,2 о существова- существовании простой стратегии <р, равномерно не худшей, чем мар- марковская стратегия о (т. е. такой, что w (х, ср) ^ w (х, а) при всех х из Хо). Если у=-|-со, то этот результат неверен (см. пример 1.13.2). Неизвестно, справедлив ли этот ре- результат для произвольной суммируемой сверху модели. Его удается доказать лишь для суммируемых сверху моде- моделей с неположительной платой q или несколько общее для моделей Z, суммируемых сверху и ограниченных сверху (см. § 7). Для любой суммируемой сверху модели мы можем, как и в § 1.13, выбрать при каждом ?=1,2,. . . селектор ф^ отображения х -»¦ А (х) (х? Xt_i) так, чтобы Wt_1(x, ПРИ ВСвХ Х И3 A) t (о' — сужение а на Z'). Из этих неравенств мы хотим вы- вывести, что w{x, о) B) для простой стратегии ср = фхф2. . . С помощью операторов 7\ неравенства A) записываются в виде Tbwt{x, o*)>u;(_1(*,V-1) ' (i=l, 2, ...). Отсюда и из формул C. 5) и C. 7) w(х, о)<Т^юх(х, а1)< Гф.Уф.Юа(х, о2)< . .. C) при любом n"s> О, J46 Поскольку и;" (;г, <р) -> и? (ж, <р), то B) вытекает из C), если дополнительно потребовать, чтобы Это условие несколько слабее неравенства G. 7) и, значит, выполняется, если модель ограничена сверху. Близкий, но более слабый результат можно получить для моделей, равномерно ограниченных снизу (см. § 7). Именно в таких моделях по любому начальному распре- распределению (л (при котором модель ^-суммируема сверху) произвольной марковской стратегии а и любому числу е ^> 0 можно построить простую стратегию <р такую, что u?(ji, ср)>ш([л, а) —е. D) Прежде всего заметим, что, поскольку мы интересуемся только процессом Z и модель Z fi-суммируема сверху, то в силу результатов § 3 можно, не ограничивая общности, считать модель Z просто суммируемой сверху (ср. аналогич- аналогичное замечание из § 5). Так как E) то при достаточно большом п В силу равномерной ограниченности модели снизу при достаточно большом п w F) для любой стратегии и. Задавшись числом п, при котором верны оба неравенства E) и F), заменим плату q нулем на множествах Af с t > п. Тогда оценка w" прежней мо- модели превратится в оценку w новой модели. Так как новая модель, будучи суммируемой сверху, также и ограничена сверху, то в ней найдется простая стратегия ср, равномерна- не худшая, чем а, и при такой стратегии <р)>и>*(ц, о). G) Из E), F) и G) следует D). 10* 147
Итак, имеем следующие результаты: а) В ^-суммируемой модели для любой стратегии к существует марковская стратегия а такая, что w (ja, а) = =w (ц, u). б) В суммируемой сверху ограниченной сверху модели для любой марковской стратегии а существует простая стратегия ср такая, что w (x, y)~^w {х, о) при всех х из Хо. в) В равномерно ограниченной снизу модели для лю- любого начального распределения fi, при котором модель ^-суммируема сверху, любой марковской стратегии а и любого числа s > 0 существует простая стратегия ср такая, что w (fi, ср) ^ w (fi, а)—е. Учитывая замечание, с которого мы начали доказатель- доказательство результата в), а также формулу C. 1), получаем сле- следующий вариант результата б), аналогичный результату в): б') В ограниченной сверху модели для любого началь- начального распределения fi, при котором модель ^суммируема сверху, и любой марковской стратегии о найдется простая стратегия ср такая, что w (fi, ср) ^> w (fi, a). Из а), б) и в) следует г) Пусть модель ^-суммируема сверху и т. — любая стратегия. Если модель ограничена сверху, то найдется простая стратегия ср такая, что w (ja, ср) ^ ц> (ja, u); если модель равномерно ограничеиа снизу, то для любого s ^> 0 существует простая стратегия ср такая, что Вопрос о возможности распространить результаты б) либо в) (а с ними и г)) на произвольные суммируемые сверху модели остается открытым. Г л а в а 5 БОРЕЛЕВСКИЕ МОДЕЛИ § 1. Основные результаты Эта глава находится в таком же отношении к главе 3^ в каком предыдущая — к главе 1. Как и в главе 3, мы будем изучать общие модели с бо- релевскими пространствами состояний и управлений и будем предполагать, что множество стратегий непусто (условие нетривиальности § 3.1). В отличие от главы 3 про- промежуток управления считается бесконечным и снимается требование, что плата q ограничена сверху (в полунепре- полунепрерывных моделях предположение ограниченности сверху платы на каждом шаге сохраняется). Из нетривиальности модели следует, как и в 3.2, что непусто множество простых стратегий. Оценка w (fi, u) стратегии к при начальном распределе- распределении {л определяется, как и в главе 4, формулами D. 2. 1) или D. 2. 5) в предположении, что ряд D. 2. 2) или D. 2. 3) сходится (fi-суммируемость модели сверху или снизу х). Разумеется, при вычислении Vq+ (at) и Pq~ \at) теперь надо пользоваться формулой B. 2. 4). В главе 3 для общих моделей на конечном интервале управления мы получили следующие три основных резуль- результата: I. Оценка v модели удовлетворяет уравнениям опти- оптимальности. Па. Для каждого s ]> 0 и каждого начального распре- распределения {а существует простая ^-оптимальная (п. н. у) стратегия. III. При фиксированном начальном распределении р для каждой стратегии к найдется простая стратегия <р такая, что w ({л, ср) ^ w (p, п). См. замечание о терминологии на стр. 129. 149
Справедливы ли эти результаты в случае суммируемой модели на бесконечном промежутке управления (и при не- неограниченной сверху плате)? Мы покажем, что результат 1 сохраняет силу и дока- докажем следующие ослабленные варианты результатов Па и III: П'а. Если ^-суммируемая сверху модель ограничена сверху, то для любого числа е ^> 0 существует простая s оптимальная (п. н. fi) стратегия. III'. Пусть модель ^-суммируема сверху. Если она ограничена сверху, то для каждой стратегии п найдется простая стратегия <р такая, что w {\x, <p) J> w (\x, n); если модель равномерно ограничена снизу, то для любой стратегии п и любого числа s ^> 0 найдется простая стра- стратегия <р такая, что w (p, <р) ^ w (fi, n)—в. При v (fjt) = + oo результат III, вообще говоря, неверен (см. пример '1.13.2). Вопрос о справедливости Па и III в произвольной (^.-суммируемой сверху модели остается открытым. Чтобы доказать I, П'а и III', необходимо сначала рас- распространить на общие модели результаты главы 4. Это бу- будет сделано в § 2. Мы вернемся к доказательству предложе- предложений I, П'а и 1.11' в § 3. § 2. Распространение на борелевские модели результатов главы 4 Сведем воедино результаты главы 4, записывая суммы по пространствам состояний и управлений в виде интег- интегралов: а) Если модель ^-суммируема, то она ж-суммируема (п. н. р.) и w (р., и) = \ w (х, ¦к) p. (dx). б) Если згодель ж-суммируема, то производная модель ра-суммируема при всех а из А(х) и w{x, n)= J ¦K(da\x)[q{a)-\-w'{pa, nj\ А(х) (фундаментальное уравнение). 150 в) Если модель г-суммируема, ^ —измеримые1 селек- селекторы отображений у -> А {у){у<с Хг^) (t = m-\-\, . ¦ ., п) и я — любая стратегия в производной модели порядка п — т,, то где операторы *. Л)' 0) определены равенством Ф, (*)) / (г/) Пусть Z" (г) —; модедь, полученная, если ввести в момент п финальную плату г, и sp = (J>m+1(J)m+2 ... фя — стратегия на отрезке [т, п]. Если Z" (г) ж-суммируема, то ?^Л№ ¦ • • ПЙг (х) = 2 Vlq (a,) + J»r (хя). tm+l A') t=m+l г) Если модель ^суммируема и р — какая-либо стра- стратегия на отрезке [т, га], то производная модель порядка п—т v-суммируема, где v — распределение на Хп, задан- заданное формулой v(r)=p^{^er} (г е^? («„)); при этом для любой стратегии п на промежутке [п, со) п w (р., ртт) = 2 P?g (a Далее предполагается, что модель х-суммируема при любом х из Хт, и, следовательно, определена оценка v (х) (х?Хт). По определению оценка v (fi) имеет смысл тогда и только тогда, ¦ когда • модель ^-суммируема. д) Для любого е ^> 0 существует стратегия и такая, что w (x, n)~^v{x) — е при всех х из Хт (равномерно s-оптимальная стратегия). е) Если модель ^-суммируема, то оценка v тоже {х-сум- мируема и = J ¦B) 1 Для дискретных моделей слово «измеримый» можно опустить, так как все селекторы измеримы. Однако в общем случае без условия измеримости tyt формула A) просто не имеет смысла. 151
ж) Если стратегия к равномерно е-оптимальна, то u?(ji, Tt)>y(jJ.) — г для всех начальных распределений ц, при которых модель fi-суммируема. з) Следующие три условия равносильны; 1°. Модель Z ц-суммируема сверху. 2°. у^Хоо. 3°. supw+([A, u)<+oo. В формулировках и)—р) мы считаем, что т=0, и что модель Z и все ее производные х-суммируемы при любом начальном состоянии х {модель Z суммируема). и) Оценки v=v0, vu va,. . . модели Z=Z0 и ее последо- последовательных производных Zx, Z2>. . . связаны рекуррентными соотношениями vt_1=Vat, ut==Uvt или B=1,2,. . .). где операторы V, U и Т определены форму- формулами Vg(x)= s4P?(e) ' Uf (a) = q(a) + J p(dy \a)f {y) {a?A), к) В суммируемой сверху модели для любой последо- последовательности положительных чисел хи х2,. . . можно вы- выбрать измеримые селекторы фи ф2,. • • соответствий х-+А(х) {x?Xt_u t=\% 2,. . .) так, что л) Если неравенства C) выполнены при t=\, 2,. . ., п, для измеримых селекторов ф^ ф2,. . ., фи^и неотрицатель- неотрицательных чисел хъ х2,. . .,, х,„ то при любой стратегии к, е - оптимальной в модели Zn, стратегия ф1фа- • •№ является е-оптимальной в модели Z при е = х1++- • •+хя+е • м) Если модель ограничена снизу (см. § 4.6), то 152 н) Если модель ограничена сверху (см. § 4.7) и измери- измеримые селекторы ф^ (t=\, 2,. . .) удовлетворяют условиям C) с %t ^ 0, то простая стратегия (р = ф1ф2. . . равномерно s-оптимальна при e = x1-fx2-)-. . .; если модель равно- равномерно ограничена и снизу, и сверху, то при достаточно большом п любая стратегия п, совпадающая на первых п шагах с произведением фхфг. . .фя, является е-опти- е-оптимальной при 2,+2(, + /) 1 t>n [числа bt и ct берутся из формул D. 6. 7) и D. 7. 12)]. о) Если модель {л-суммируема, то для любой стра- стратегии п найдется марковская стратегия о такая, что W (fx, k) = W (fi, о). п) Если модель суммируема сверху и ограничена сверху, то для любой марковской стратегии а существует простая стратегия «р такая, что w (x, cp) ^ w (х, о) при всех х из X. р) Если модель {л-суммируема сверху и равномерно ограничена снизу, то для любой марковской стратегии о и любого числа е > 0 найдется простая стратегия ср та- такая, что w ({л, ср) ^ w (fi, a)—s. Что же меняется, если пространства Xt и At несчетны? Утверждения д) и к), вообще говоря, неверны, как это мы видели в § 3.1 (в примере 3.1.2 при s <С 1 нет равно- равномерно е-оптимальных стратегий). Мы докажем, что все остальные утверждения сохраняют силу в общем случае, и что справедлив следующий ослабленный вариант пред- предложения д): д') Функция v (х) универсально измерима. Для любого s ]> 0 и любого начального распределения \х существует стратегия я такая, что w(x, k)~^v(x) — s (п. н. ja) (стратегия, е-оптимальная (п. н. у.)). В общей теории без к) от предложений л) и н) мало толку. Однако они окажутся нам полезны в § 6, при ис^ следовании полунепрерывных моделей, а также в кон- конкретных примерах гл. 6. Результаты а), б) устанавливаются с помощью тех же рассуждений, что и в дискретном случав, только надо опи- опираться на § 2.3, а не § 1.12. В дискретном случае мы поль- 153
зовались тем, что если сумма Положительного ряда ко- конечна, то и все его члены конечны, а также свойством S (см. §§ 4.3—4.4)). В общем случае аналогичную роль играют следующие утверждения: 1) Если интеграл неотрицатель- неотрицательной функции конечен, то эта функция конечна почти всюду; 2) если функции /х и /2 неотрицательны и хотя бы один из интегралов \xfx или fi/2 конечен, то интеграл {л (Д—/2) имеет смысл и ja {fx—/2) = fi/i—p-fi- Оба они выте- вытекают из приведенного в § 2.1 определения интеграла. Кроме того, при доказательстве б) нужно позаботиться об измеримости селектора фв. Достаточно положить а при у = ж, (у) при j,^^ i где y — произвольный измеримый селектор соответствия А (у) <J/?XJ. Вывод утверждений в) и г), не отличается от дискрет- дискретного случая (марковское свойство справедливо в силу § 2.3). Доказательство д') основанона совершенно иных идеях, нежели доказательство утверждения д) в главе 4. В нем приходится использовать общие теоремы главы 3. Мы про- пропустим сейчас это доказательство и посвятим ему пара- параграфы 4 и 5. Первая половина утверждения е) ([л-суммируемость функции v) доказывается, как в § 4.4. Отличие состоит лишь в том, что вместо самой функции v берется еэ измеримый вариант v такой, что v—v (п. н. \х), а вместо равномерно s-оптимальной стратегии — стратегия п, s-оптималь- йая (п. н. fi) (ее существование следует из д')). Ясно, что fi-суммируемость v равносильна ji-суммируемости v. Фор- Формула B) выводится из д') так же, как в § 3.7. Результат ж) является очевидным следствием а) и е). Для доказательства з), как и в дискретном случае, нужно из равенства у(р)=-|-оо вывести существование такой стратегии к, что w (f*, л) = -(-оо. Это делается с по- помощью д'), а) и е). Результат и) выводится из б) и е), как в § 3.7 (при v (х) = + оо задаемся сколь угодно большим числом К и, как в § 4.5, находим такое а из А (ж), что и (а) > К). Утверждение л) следует из формулы A), неравенства wn (х> и) ^ Чг (х)—s'> монотонности операторов I1^ и воз- 154 можности выносить постоянное слагаемое за знак этих опе- операторов. Результаты м) и н) доказываются, как в главе 4, только изменяется вывод формулы D. 7. 4): вместо равномерно s-оптимальных (по отношению к модели Zn) стратегий пе приходися брать такие стратегии, что w,^vn—s (п. н. v), где у — распределение соостояния хп при.начальном состо- ¦янии х и стратегии ср. . Утверждения о), п) и р) устанавливаются, как в § 4.8 (вместо § 1.13 нужно использовать § 3.8). § 3. Доказательство основных результатов Результат I из § I совпадает с предложением 2и). Ре- Результат ПГ вытекает из утверждений 2о), 2п) и 2р). В главе 3 результат Па был получен из утверждения III с помощью леммы 3.9.1, утверждающей, что для любой последовательности, ср1, ср2,. . . простых стратегий и лю- любого s > 0 найдется простая стратегия ср, при которой w(x, cp)>sup(.r, .A) Распространению этой леммы на случай бесконачного промежутка управления посвящена вся остальная часть этого параграфа. При этом нам придется предположить, что модель суммируема сверху и ограничена сверху. Лемма применяется так же, как в § 3.9, только сперва нужно удалить из Хо множество [л-меры нуль, содер- содержащее все состояния х, при которых нарушается я-суммируемость сверху [такое множество можно выбрать в силу 2а)]. Ограниченные снизу модели приходится исклю- исключить при переходе от ПГ к Н'а, так как на такие модели не удается распространить лемму 3.9.1. * * * Перейдем к доказательству сформулированной леммы. Будем обозначать оценки стратегий в производной модели порядка п через wu и сужения простых стратегий tp на производных моделях по-прежнему через ср. Каждая из данных простых стратегий ср& разлагается в бесконечное произведение ¦ <р* = деде ... де ... .измеримых селекторов ф* соответствий А (х) (х ? X t_ г 155
f. Положим для сокращения записи (ж = 0, 1, 2, Поскольку rt^ut, то и, следовательно Ф,{х) = su Поэтому при некотором со. Обозначим через k(t, x) наименьший из этих номеров и положим - <!>,(*) = #«•*'(*) (*ex,-i, « = 1-2, ...)• Так как верхняя грань счэтного множества измеримых фун- функций измерима, то г(иФ,— измеримые функции. Поэтому к (t, х) измерима по х и фг — измеримый селектор отобра- отображения х -> А (х) (zf I^J. Мы докажем, что стратегия ср^= фхфа- • -Фг • • удовлетворяет неравенству A). Мы получим A) предельным переходом из B. 1') при г=гп. Чтобы пользоваться формулой B. 1'), надо согласно 2в) убедиться в ^-суммируемости сверху модели Z" (гя), . т. е. в том, что 2pU+K) + p^,K)<+°° для любой стратегии р на отрезке [0, га]. Конечность чле- членов, стоящих под знаком суммы, вытекает из суммируе- суммируемости сверху данной модели Z. Поскольку rn ^ vn, то и ft <! vt. Поэтому достаточно проверить, что Заметим, что где 156 Из предложения 2г) следует, что производная модель Zn v-суммируема сверху. Опираясь на предложение 2е) заключаем, что функция vn тоже v-суммируема сверху, т. е. что vy? <^ -\-со. Итак, ж-суммируемость, сверху модели Z" (rj доказана. По формуле B. 1'), примененной к функции гп и стра- стратегии (р, 2 Кч К) + р>я (« = ЧТь ... zv. (*)• B) Эту величину мы оценим снизу с помощью неравенств Ti^t>rt.t-jt. C) Последние неравенства вытекают из цепочки соотношений следующих из определения ift, определения rt и фундамен- фундаментального уравнения. Из B) и C), как в § 4.7, получаем Ввиду ограниченности модели сверху (см. § 4.7). Учитывая, что rn^vn, и переходя к пределу в D), замечаем, что со w (х, ср) == 2 К9 (at) > го (х) - в 1 при всех х из Хо, и лемма доказана. § 4. О мерах в бесконечных произведениях При доказательстве предложения д') из § 2 нам придется действовать в пространстве L бесконечных путей, чего мы до сих пор избегали. Нам понадобятся результаты о мерах в бесконечных произведениях пространств, аналогичные результатам для конечных произведений, описанным в § 3.4. 157
Пусть даны произвольные множества Ео, Ev. . . . . ., Et,. . . Точками пространства Е—ЕОХЕ1Х. . ,EtX. . . являются последовательности х=^хохг. . .xt. . . (xt^Et, t=0, 1,. . .)• Если Ео, Еи. . ., Et,. . . — измеримые про- пространства, то и ? можно считать измеримым простран- пространством, определяя q$ (E) как минимальную а-алгебру, содержащую при любом t=0, 1, 2,. . . все множества х С X Et+1 X X ••• X Еп X . . • ЕХХ ... XEt)]. A) Доказывается, что если все-пространства Et борелевские, то и пространство Е тоже борелевское (добавление 1, § 4). Заметим, что любую вероятностную меру Р на Е можно рассматривать и как вероятностную меру на конечном про- произведении EoxEtX. ¦ -XEt, полагая Р (С) равным мере множества A). . Теоремы Д и Е из § 3,4, устанавливающие связь между переходными функциями и мерами в произведениях про- пространств, сохраняют силу и для бесконечных произведе- произведений. Однако теорема Д теперь становится вовсе нетриви- нетривиальной. Она впервые была доказана Ионеску Тульча и ее доказательство приведено, например, в учебнике Неве 2. Теорема Е доказывается так же, как и для конечного числа сомножителей (добавление 4). Теоремы 1 и 2 из § 3.4 переносятся на бесконечные про- произведения пространств для множеств В, удовлетворяющих следующему дополнительному требованию. Бесконечная последовательность хохх . . .xt. . . при- принадлежит В, если при каждом t ХдХх. . . xt принадлежит Вг (Проекция Bt множества В на произведение ЕохЕгХ X. . ¦XEi определяется так же, как в § 3.4.) Из сформулированного условия вытекает, что B=(\(BlXEt+1XE1+iX ...) и, стало быть, Р (В) = 1 тогда и только тогда, когда PEf) = l при всех t=0, 1, 2. . . Поэтому из справедливости тео- 1 Множество A) состоит из всех последовательностей хох1. xt € С, xt+\ € Ei+1, xt+2 ? E таких, что хох1. .,. x, ..., xn ?En,. . . 2 Ж. Неве [1], § 5.1. 158 рем, 3.4.1—3.4.2 для конечных произведений ЕохЕхХ X . . . X Ej вытекает их справедливость и для бесконечного произведения ЕохЕхХ. . . § 5. Универсальная измеримость оценки модели и существование (п. н.) е-оптимальных стратегий Доказательство предложения д') из § 2 проводится по тому же плану, что в главе 3, §§ 2—6. Прежде всего мы вводим пространство путей беско- бесконечной длины L, состоящее из всевозможных последова- последовательностей {хп ? Хп, а„ ? Ап) таких, что На^ = х. (п = т, ш + 1, ...). A) Поскольку все пространства Xt и At считаются борелев- скими и каждое из счетного числа условий A) выделяет измеримое подмножество бесконечного произведения ^mX^m+ix-^m+iXi ¦ •» то ^ также является борелевским пространством. Согласно § 3.3 класс аМ всех вероятностных мер на пространстве L тоже образует борелевское пространство. Теорема 2 из §§ 4 и 3.4 сопоставляет каждым началь- начальному распределению \>- и стратегии и стратегическую меру Р? в пространстве путей L. В силу формул C. 4. 10)— C. 4. 12) при любом п~^ т распределение Р71 для истории в момент п дается тою же формулой B. 2. 4), что распреде- распределение для путей в модели на отрезке [т, п), т. е. согласу- согласуется с определениями §§ 4.2 и 5.1. Подкласс So класса S стратегических мер и отобра-г жение^ Д. Хт определяются, как в § 3. 2 и 3. 5. Описание класса S по-прежнему дается теоремой 3.5.1, только те- теперь соотношения C.5.1) пишутся для всех^^яг+1. Из теоремы 3.5.1, как в § 3.5, выводится измеримость и вы- выпуклость класса S. Измеримость класса So и отображения к устанавливаются, как в § 3.6. * * * Чтобы распространить на рассматриваемый случай до- доказательство универсальной измеримости оценки v (x), проведенное в § 3.2, нам остается представить оценку 159
w (x, тс) стратегии тс как измеримую функцию / (Р) от меры Р ? So. В отличие от главы 3 теперь функция / (Р), вообще говоря, будет принимать не только конечные зна- значения, но и значение +со или —со (в зависимости от сум- суммируемости модели снизу или сверху). Понятие измери- измеримости и универсальной измеримости очевидным образом распространяются на такие функции. Легко видеть, что теорема Б из § 3.2 и ее доказательство также сохраняются для таких функций. Для определенности предположим, что модель сумми- суммируема снизу. Пусть Р — мера из класса So, отвечающая начальному состоянию х и стратегии тс. По определению, данному в §§ 4.2 и 5.1, •w{x, тс) = Р/+ — РГ, где Р/-<+оо. B) Каждая из функций /, (Р) = Р/+, /, (Р) = РГ (Р G So) измерима в силу § 3.2, из B) следует, что измерима и их разность. * * * Чтобы распространить на бесконечный промежуток управления доказательств» существования е-оптималь- ной (п. н. [*) стратегии, проведенное в §§ 3.2 и 3.6, нужно внести в это доказательство следующие два дополнения. Во-первых, в § 3.2 мы исходили из того, что при любом х из Хт и любом s ^> 0 найдется стратегия тс= тсж такая, что w (х, тс) ^ v (х)—е. Это утверждение, тривиальное при v (х) <С + оэ, мы должны распространить на случай, когда v (х)==-\-со. Из установленного выше свойства выпуклости стратегических мер следует, что эти меры можно смешивать так, как мы смешивали стратегии в § 1.3. Зна- Значит на общий случай переносится изложенное в § 4.4 по- построение, дающее при v (ж) = + оо такую стратегическую меру Р из S (х), при которой математическое ожидание дохода тоже равно +оо. 160 Во-вторых, мы должны перенести на случай простран- пространства L путей бесконечной длины формулу р. \ * х {-*1 \P*X)i \Oj использованную в конце § 3.6 (см. C.6.6)). Это делается с по- помощью теоремы Д из §§ 3.4 и 5.4, согласно которой из сов- совпадения распределений историй любой длины относительно двух мер Р и Q следует совпадение мер Р и Q на всем про- пространстве L. § 6. Полунепрерывные модели Перейдем теперь к исследованию полунепрерывных моделей, которыми мы занимались (при конечном отрезке управления) в главе 2. Изучим, при каких условиях на бесконечный интервал управления переносится основной результат главы 2 — существование равномерно оптималь- оптимальной стратегии и возможность ее нахождения из уравне- уравнений оптимальности. В определении полунепрерывной модели (см. § 2.4) все пространства Xt и At предполагались сепарабельными метрическими пространствами. Чтобы иметь возможность опираться на результаты о борелевских моделях, доказан- доказанные в предыдущих параграфах, мы предположим дополни- дополнительно, что все пространства Xt и At борелевские х . Основной результат этого параграфа следующий; если как сама полунепрерывная модель Z, так и все ее производ- производравномерно ограничены и сверху, и снизу, ные Z', Z' то существует простая стратегия у = ф1ф2< • -Фг • -такая, что и эта стратегия равномерно оптимальна. Из теоремы 2.5.А, примененной к пространствам Е=Х(_г, Е'=А и функции /=0, следует, что соответствие х-+А(х) (х ^Xt_^) допускает измеримый выбор (t=l, 2,. . .). Значит, модель нетривиальна, так что применимы резуль- результаты предыдущих параграфов. Из ограниченности сверху платы q на каждом шаге (см. условие 2.4.Г) и ограниченности сверху модели Zi 1 Для этого достаточно, например, чтобы они были полными или были борелевскими подмножествами в своих пополнениях. 11 Е. Б. Дынкин, А. А. Юшкевич 161
вытекает суммируемость этой модели сверху. Значит, все оценки vt ограничены сверху и для них выполняются уравнения оптимальности vt__x=Vut, ut = Vvr Чтобы получить из теоремы 2.5.А существование се- селекторов tyt, удовлетворяющих уравнениям A), нужно знать, что функция vt полунепрерывна. В случае конеч- конечного промежутка управления это свойство оценок vt устанавливалось по индукции от t к t—1. Теперь у нас нет начала индукции и придется обратиться к формуле vt=\\va. Tn0, доказанной в предположении ограниченности модели снизу (см. § 2), предложение л)). Функция Т полунепрерывна в силу результатов главы 2. Чтобы вы- вывести из этого факта полунепрерывность v, приходится допустить, что модель равномерно ограничена и снизу, и сверху. Тогда Тп0 сходится к v равномерно на всем Хо, а при такой сходимости полунепрерывность функции со- сохраняется. В суммируемой модели, ограниченной и сверху, и снизу, для любого е > 0 найдется номер N такой, что при п > N \w (х, тс)— —wn (х, тс) | < е для всех х из Ха и любой стратегии тс. Значит, w (х, тс) sS w" (х, it) + s < и» (ж) + s = Т»0 (х) + е, откуда v (х) < Г {х) + е. И наоборот, w" (х, тс) < w (х, тс) + г < v (х) + s, откуда Тп0 (х) = и" (х) < и (х) + е. Согласно условию 2.4.В из полунепрерывности и ограниченности сверху функции vt вытекает, что такими же свойствами обладает и функция Щ (а) = (Uvt) (а) = q(а) + \ vt (у)р(dy \a) (a? At). Применяя теорему 2.5.А к пространствам E=Xt_x, E'—At и функции f=ut, заключаем, что существует изме- измеримый селектор ^ соответствия А(х) (x^X{_j) такой, что Щ (Ф< (ж)) = SUP Щ (а) — (Vut) (х) — vt-i И» т. е. удовлетворяющий уравнению A). Из предложения 2н) следует, что простая стратегия <р = ф1^2. . . равномерно оптимальна. Глава 6 ОДНОРОДНЫЕ МОДЕЛИ § 1. Введение Однородная модель задается отображением j простран- пространства управлений А на пространство состояний X, пере- переходной функцией р из А в X и текущей платой q на А (ср. § 1.2). Чтобы применять к однородным моделям те- теорию, построенную в предыдущих главах, достаточно рассмотреть бесконечное число экземпляров Хо, Хх, . . ., Xt, . . . пространства X, бесконечное число экземпляров Аг, . . . ,At, . . . пространства А, перенести на них /, р и q, считая что j отображает А( на Xt_u ар — переход- переходная функция из At в Хг Эту конструкцию можно на- назвать разверткой однородной модели во времени. Исполь- Используя развертки, мы можем применять к однородным моделям введенные ранее понятия (история, стратегия, суммируе- суммируемость и т. д.). В теории однородных моделей особое место занимают простые стратегии фхф2. . .фг . . , для которых фх == фа= = . . . = <j^ = . . . (стационарные стратегии). Центральный результат этой главы утверждает, что при определенных условиях можно без ущерба ограничиваться стационар- стационарными стратегиями. Роль стационарных стратегий сохраняется и для не- несколько более широкого класса моделей, в которых те- текущая плата в момент t равна |3' -1 q(at) (|3 — произволь- произвольное положительное число). Оценка стратегии л при на- начальном распределении fi определяется формулой w[ A) Подобная ситуация получается, например, если выигрыш оценивается тем ниже, чем к более отдаленному будущему И* 163
он относится. Если внести сегодня в сберегательную кассу х рублей, то через t лет можно получить \*х рублей (А= = 1,03 при срочном и 1,02 при обыкновенном вкладе). Естественно поэтому оценивать q рублей через t лет, как х = —( рублей сегодня. Число C = у- называется коэффи- коэффициентом дисконтирования. Условимся и такие модели на- называть однородными. Итак, каждая однородная модель определяется эле- элементами X, А, /, р, q, [3 (случай, описанный в начале параграфа, получается при [3=1). Ее развертка строится так же, как и при [3=1, за исключением текущей платы q, которая определяется формулой q (a) = p' xg (а) при B) На первый взгляд может показаться, что при [3 ^ 1 в нетривиальных случаях ряд A) будет расходиться. На самом деле это не так: для сходимости ряда A) при любом [3 >• 0 достаточно, например, чтобы при любой стратегии система за ограниченное число шагов попадала в состояния, после которых можно получать только нулевую плату. § 2. Применение результатов главы 4 Как и в предыдущих главах, мы начнем со случая дискретных (т. е. конечных или счетных) пространств X и А. Пусть Z — развертка однородной модели Z. Ее про- производная Zn порядка п отличается от Z только тем, что текущая плата умножается на число [3". Символически Zn= ffZ. Отсюда следует, что и;>, rc) = p'Wf*, «), vn{x) = \inv{x) A) (стратегии в модели Ъ~м естественно отождествляются со стратегиями в модели Z; wn, vn — оценки в модели Ъп, a w, v — оценки в модели Z). Мы не станем переписывать для однородных моделей все результаты главы 4. Отметим только изменения в фор- формулах, появляющиеся при переходе от Z к Z. 164 Фундаментальное уравнение (§ 4.3) переписывается в виде W(X, П)= (Ра> Па) B) (предполагается, что модель ж-суммируема, и утверж- утверждается, что она ра-суммируема при всех а из А (х)). Формула D. 3. 5) остается без изменения, если поло- положить V (*) = q (ф И) + р 2 / Ы Р (У I Ф (*))• х Формулы D. 3. 6) и D. 3. 7) принимают тогда вид C) E) При этом из [х-суммируемости модели Z следует ее v суммируемость, где v (г/)=Р^{хя=г/} (у?Х). Суммируемость однородной модели Z в смысле § 4.5 сводится к х суммируемости Z при каждом х из X. Оценка v суммируемой модели удовлетворяет уравнениям оптимальности u=Vu, u=Uv [или v=Tv], F) где V имеет прежний смысл, а оператор U определен формулой Uf (a) = q (а) -\- f3 2j f (у) р (у \ а) (а ? А) G) х (см. § 4.5). Связь между операторами V, U, Т и Гф оста- остается прежней. Если в суммируемой модели селекторы ф^фа, . . . ,фя ото- отображения х —*¦ А(х) (х? X) удовлетворяют неравенствам (8) xj, x3, . . . ,хя — неотрицательные числа) и если стра- W5
тегия п s'-оптимальна, то стратегия тимальна при 9-оп- в At. Условие можно запи- (9) В самом деле, согласно A.2), A) и D) неравенства (8) равносильны неравенствам Тaj v ^> v В'-1х A0) где Tqt — оператор в модели Z, отвечающий селектору отображения х -> А(х) пространства Xt^x s'-оптимальности стратегии п в силу A) сать в виде так что по отношению к производной Zn стратегия и CV- оптимальна. Таким образом, сформулированное утверж- утверждение сводится к доказанному в § 4.5. В определениях моделей, ограниченных снизу и сверху, неравенства D.6.7) заменяются на Р'-ЧР?д К) > — bt (x) A2) и неравенства D.7.12) — на ft-Wlq (at) < ct (х). A3) При {3 <С 1 для равномерной ограниченности модели снизу (сверху) достаточно, чтобы плата q была ограничена снизу (сверху). (В частности, если плата q ограничена, то модель равномерно ограничена и сверху, и снизу.) Для моделей, ограниченных сверху, из неравенств (8) при t=l, 2, . . . (х/ — неотрицательные числа) следует, что простая стратегия tP = (})i^2- • • равномерно е-оп- тимальна, где . — V R<-1> A4) Для моделей, равномерно ограниченных и сверху, и снизу, из неравенств (8) при ?=1,2, . . . ,п (п достаточно велико) следует, что любая стратегия к, совпадающая с фхфг- • -ф„ на первых п шагах, является s-оптималь- ной при И A5) Чтобы свести эти результаты к доказанному в § 4.7, нужно лореписать неравенства (8) в виде A0). В отличие от неоднородных моделей, где мы имели бесконечную систему уравнений оптимальности, связы- связывающих между собой оценки производных моделей раз- разного порядка, теперь у нас имеется одно уравнение опти- оптимальности v= Tv для единственной неизвестной функции V. Естественно возникает вопрос о единственности решения этого уравнения. Нетрудно показать, что если плата q ограничена и коэффициент дисконтирования [3 меньше 1, то уравнение v=Tv имеет единственное ограниченное решение. Доказа- Доказательство этого факта опирается на оценку I77-7VKN/-H A6) где 1/I = sup|/(*)|. Чтобы вывести A6), заметим, что для любых двух ограни- ограниченных функций / и g на X М66 и, следовательно, Неравенство A6) вытекает из A7) и соотношения, получае- получаемого заменой в A7) функций / и g друг на друга. Если v и » — два решения уравнения оптимальности, то со- согласно A6) \\v—v\\ = \\Tv—Tvl^$\\v—v\\, откуда || v — v || = 0 и v = v. § 3. Стационарные оптимальные стратегии Займемся теперь вопросом о существовании стацио- стационарных оптимальных стратегий. Напомним, что простая стратегия ср = ф1ф3. . .фг . . называется стационарной, если Ф1=(Ь=> • • — $t~- ¦ -Ф (условимся писать сокращенно 167
<ря=фт). Покажем, что если фю — стационарная малъная стратегия в суммируемой однородной модели, то ф удовлетворяет уравнению T^ = v, A) Действительно, для стратегии (р = ф°° стратегия уа сов- совпадает с tf при любом а из А, и потому фундаментальное уравнение B. 2) принимает вид W (X, ср) = Поскольку то ?) = 2р (у IФО*))«>(г/, ?). ср) B) (см. B. 3)). Если <р оптимальна, то w (x, y)—v(x) привсехж, и B) обращается в A). Таким образом, все стационарные стратегии порож- порождаются решениями уравнения A). Поэтому вопрос о су- существовании таких стратегий можно расчленить на два вопроса: 1. Существуют ли решения уравнения A)? 2. Всякое ли решение уравнения A) порождает стацио- стационарную оптимальную стратегию! Чтобы ответить на первый вопрос, удобно переписать уравнение A) для селектора ф в виде ц(ф(а;))= sup и (а) (х?Х), C) где (равносильность A) и C) вытекает из равенства T=VU и формул B? 3) и B.7)). Из C) видно, что это уравнение la значит, и уравнение A)] имеет решение тогда и только тогда, когда функция и(а) достигает максимума на каж- каждом слое А(х). Достаточно, например, чтобы все слои А (х) были конечны. Ответ на второй вопрос может быть и отрицательным, как это видно из следующего простого примера. Пример 1. Рассмотрим однородную модель, опи- описанную в примере 4.7.1 (рис. 6.1). Очевидно, здесь есть только два различных селектора отображения х -> А(х): один из них ф^ предписывает оставаться в В, а второй, ф3 — переходить из В в С (в состоянии С есть лишь один способ поведения — оставаться в С). Оценка v модели равна 1 в состоянии В и равна 0 в состоянии С, и оба селектора фх и ф2 удовлетворяют уравнению A). Однако при этом стратегия ф™ оптимальна, а стратегия ф,т — нет. О О Рис. 6.1 Пример 1 побуждает нас видоизменить постановку второго вопроса и спросить: 2а. Существуют ли решения уравнения A), по рождаю- рождающие стационарные оптимальные стратегии? Оказывается, и на этот вопрос приходится дать отри- отрицательный ответ. Рис. 6.2 Пример 2. Пусть состояния х занумерованы чис- числами 0, 1, 2, ... (см. рис. 6.2). Состояние 0 — поглощаю- поглощающее. В каждом из состояний к (&=1, 2, . . .) возможны два управления: первое — переводит нас из А; в /с—f-1 и при- приносит нулевой доход, второе — переводит нас из ft в О и приносит доход—;—. Очевидно, v=l во всех состояниях, /с кроме ?=0, и единственным решением уравнения A) является селектор ф, предписывающий переходить из к в к-\-1 (А=1, 2, . . .). Однако соответствующая стацио- стационарная стратегия фт никогда не приведет нас из состоя- состояния к ^ 1 в состояние 0, и, значит, w(k, фоэ)=0 при всех к ^ 1. Отметим, что в обоих примерах мы имеем дело с мо- 168 169
делями, неограниченными сверху (так как можем обеспе- обеспечить себе конечный положительный доход в сколь угодно далекий будущий момент времени). Если модель ограничена сверху, то всякое решение уравнения A) порождает стационарную оптимальную стратегию (так что ответ на второй вопрос получает положительный ответ). Это сразу следует из формул B. 8) и B. 14), если положить в них ^ = ф, х^=0 при всех t. Откажемся теперь от требования ограниченности свер- сверху и предположим лишь, что модель суммируема сверху (т. е. v <С +оо на всем X). Покажем, что если модель Z конечна, то найдется решение уравнения A), порождаю- порождающее оптимальную стратегию (и, стало быть, имеют поло- положительные ответы вопросы 1 и 2а). Идея доказательства состоит в следующем. Для каж- каждого у > О рассматривается однородная модель Z(y), получающаяся из Z заменой коэффициента дисконтиро- дисконтирования C на у. Из суммируемости сверху модели Z=Z( |3) выводится ограниченность сверху моделей Z(y) при у <С р. По доказанному, в модели Z(y) существует стационарная оптимальная стратегия <р(у) = ф (т)т- Но ввиду конеч- конечности пространств X и А(х) имеется лишь конечное число различных селекторов соответствия А(х) (х?Х), и по- потому найдется селектор ф такой, что ф(у„) = ф для не- некоторой последовательности уя|[3. Очевидно, при у=ув (г)СО) 7Г) ПРИ всех (индекс у означает, что оценки берутся в модели Z(y)). Мы докажем, что при любой стратегии я w^ (х, п) — lim w (x, л). 1 ттР Поэтому из D) следует, что Wg (х, ф00) ^> Wo (x, тс) при всех я, E) F) т. е. что стационарная стратегия фот оптимальна для мо- модели ZC)=Z. Остается доказать ограниченность сверху моделей Z(y) при у < C и вывести формулу E). Заметим, что согласно доказанному в конце § 4.4 суммируемость сверху модели 170 Z(ri) равносильна тому, что величина1 ограничена сверху при каждом х. Ввиду конечности пространства X эта величина не превосходит некоторой конечной постоянной К при всех х из X и всех стратегиях и. Отсюда Т'-Ч*? К) < G) ?д* (а,) < Я (j и ряд из чисел, стоящих справа, сходится. Чтобы доказать E), вспомним, что где и w~ аналогично выражается через q (см. §§1 и 4.2). В обоих рядах можно почленно перейти к пределу при у f p, так как все члены этих рядов неотрицательны и являются неубывающими функциями от у. Поскольку wt < +со, из G) и из формулы Wo=wi—W7 следует E). Слегка варьируя рассуждения, проведенные в на- начале параграфа, нетрудно показать, что существование решения у уравнения A) необходимо для наличия в однород- однородной суммируемой сверху модели не только стационарной, но и какой угодно оптимальной стратегии. В самом деле, для оптимальной стратегии я в силу фундаментального уравнения B. 2) и уравнений оптималь- оптимальности B. 6) V{X) = W{X, Я)= 2 ТС (« I X) [Q (а) + $W (Pa' Л«)К < 2 «(fl|*) а?А{х) < sup [g (a) + ?v (ра)) = Tv (х) = у (х) при каждом х из X. Значит, 2 я (а И [g (a 171
Применяя к распределению вероятностей тс( • | х) и функ* ции f(a)=q(a)-{-§v(pa) на пространстве А(х) лемму 1.13.1, заключаем, что найдется такое управление ф(;с) из слоя А(х), при котором /1ф(х)] ^ v(x). Последнее неравенство показывает, что для селектора ф т. е. Tbv ^ v. Поскольку T^v <I Tv=v, то ф удовлетво- удовлетворяет уравнению A). Комбинируя этот результат с ответом на вопрос 2, приходим к такому следствию: если в ограниченной сверху однородной модели Z имеется какая-нибудь оптимальная стратегия тс, то в модели Z есть и стационарная опти- оптимальная стратегия. § 4. Задача о выборе транспорта Вернемся теперь к задаче о выборе транспорта из § 1.10, считая число шагов неограниченным. Мы имеем конечную однородную модель с неположительной платой q и коэффициентом {3=1 (см. рис. 1.10). Такая модель огра- ограничена сверху, ее оценка у удовлетворяет уравнениям оптимальности B. 6) и уравнение C. 1) определяет в ней селектор ф, порождающий оптимальную стратегию фт. Обозначая, как и в § 1.10, через <х — управление «идти пешком», через {3 — «ехать на автобусе», через у — «ехать на трамвае», через 8' — «ждать» в состоянии 0, через 8" — «ждать» в состоянии D и через е — фиктивное управление в состоянии В, можем записать уравнения v=Vu, u—Uv в виде v @) = max [и (а), и (§')}, v(B) = u(e), в(о) = — 20-f v(B), A) = v(B). Очевидно^ и (s) = v {В) = 0, так что из системы A) сразу находим ц(а) = —20, иф) = —3, ц(т) = —10, B) у(С)=—3, и(Ъ') = и(о"). Поскольку и(Ь') и и(Ь") совпадают, мы можем их общее значение обозначить просто через и(8), понимая под 8 ожидание в любом из состояний 0 и D. После этого для v@), v(D) и и(Ь) остаются уравнения и @) = max {—20, и{Щ), y(D) = max{—10, и (8)}, C) —cd — 3d + cv (D) в(8) = : с + Полученная система содержит два символа максимума. Мы исследуем ее, делая различные предположения о том, на каких управлениях достигаются эти максимумы. Очевидно, имеются три разных возможности: 1) м(8) ^ <^ _20, 2) -20 < гг(8)< -10, 3) -10 < и(Ь). Рассмот- Рассмотрим каждую из них в отдельности. В первом случае имеем max {и (а), и (8)} = max (—20, и (8)} = —20 = и (а), тах{ц(т), и(8)} = max {—10, и(Щ =—10 = и(Т), так что условиям C. 3) удовлетворяет селектор ф(О)=сс, ф (С) = C, ф (В) = е, ф (D) — "f, и оптимальна стационарная стратегия, предписывающая идти пешком, не ожидая транс- транспорта, и ехать трамваем или автобусом, если его не при- приходится ждать *. Система C) в этом случае обращается в i.@). = —20, = —10, — cd — 3d — Юс ... D) ill 1 В нашей модели вероятность состояний С и D в начальный мо- момент равна нулю, но в реальных условиях это не так, поскольку трамвай и автобус находятся на остановке в течение некоторого промежутка времени. 173
I и, значит, определяющее первый случай неравенство и($ <; —20 сводится к неравенству Во втором случае тах{ц(а), и (8)} = max {—20, ц(8)}=ц(8), max {и (у), и (§)} — max (—10, и (§)} = —10 = и (у). Значит, условия C.3) выполняютс для селектора ф@)=8, ф(С)=|3, фA)) = у, фE)=б и оптимальна стационарная стратегия, рекомендующая ждать до подхода первого трамвая или автобуса и на нем ехать. Система C?) в этом случае принимает вид и(8) = -10, — ~cd ~ 3d — 1Oc ~~ c + d и определяющие данный случай неравенства сводятся к 10 < cd+e3^+1Oc <20. F) В третьем случав max {и (а), и (§)} — max {—20, ц (&)} — ц (8), max {и (у), ц(8)} = тах{—10, и (8)}= и (8) и уравнениям C.3) удовлетворяет селектор ф@) = 5, фф)=8, ф(С) = у, фE) = е. Здесь оптимальная стацио- стационарная стратегия предписывает при всех обстоятельствах ждать автобуса. Система (^) записывается теперь i;@) = о (8), в (8) = откуда в(8) = - 174 — cd — 3d — Юс -с —3 и задающее третий случай неравенство обращается в или, что равносильно, ей + 3d + Юс ^лп G) Сопоставляя E), F) и G), видим, что три возможных случая определяются значениями числа 1= X. При х <1 10 нужно ждать автобуса, при 10 ^ х ^ 20 — ехать на первом подошедшем транспорте, при 20 ^ х — идти пешком. Эти условия имеют простой наглядный смысл. Согласно рис. 1.10, математическое ожидание времени, затраченного на дорогу, если ехать на первом подошедшем трамвае или троллейбусе, равно _d_ с~ с 4- d Если это время больше времени пешего пути, то нужно идти пешком, если нет — то ехать. Ждать автобуса сле- следует в том случае, когда это время меньше времени поездки на трамвае. § 5. Задача о замене оборудования Обратимся к задаче о замене оборудования (см. §§ 1.3 и 1.11). Переходя к бесконечному промежутку управления [0, со), мы введем дисконтирование, чтобы обеспечить конечность суммарного дохода. Таким образом, мы рас- рассмотрим однородную счетную модель с состояниями 0,1, 2, . . . , х, . . . , двумя управлениями с и d в каждом состоянии, переходной функцией р(х-\-\\хс) = ря, p@\xc) = l—px = qx, p@\xd) = l (x = 0, 1, 2, ...), A) текущей платой q{xc) = pjix, q(xd) = * (x = 0, 1, 2, . . .) B) и коэффициентом дисконтирования [3 < 1; здесь \>'h> 4->K> ...>a>0, C) 175
(В соответствии с замечанием из § 1.11 мы считаем пара- параметр у равным 0; при р <С_1 это не уменьшает общности, так как изменение всех плат на константу не нарушает сходимости суммарного дохода. В главе 1, чтобы не выходить за рамки конечных моделей, мы считали, что вероятность поломки qx равна 1 при достаточно больших х. Теперь в этом ограничении нет необходимости.) Модель ограничена сверху и все слои А(х) конечны. Поэтому оценка модели удовлетворяет уравнению опти- оптимальности v=Tv, существует селектор ф с Tifv=v, и ста- стационарная стратегия (р = фт оптимальна. Поскольку плата ограничена и [3 < 1, то v — единственное ограниченное решение уравнения v=Tv. Поскольку пространство управлений состоит из двух элементов с и d, то функция ф определяется заданием множества С, на котором она принимает значение с (это те состояния, где эксплуатация оборудования продолжа- продолжается; на дополнительном множестве D=X\C произво- производится замена оборудования). Оператор Г. действует по формуле РЛ + Р Ш (* + 1) + Ч (*) / @)] при х е С, при Оператор Т определен формулой Г/ (х) = шах {рА + ПРХ1 (x E) а + C/@)}. F) Введем оценки управлений с и d в произвольном состоя- состоянии х: G) и (хс) = p]ix + р [/у; (х + 1) + qx v @)], Так как T^v=v-=Tv, то из E)—G) следует, что C = {x:u(xc)~^u(xd)}, D = {x:u(xc)<.u(xdj} (8) (как и в § 1.11, мы относим состояние х к множеству С, если безразлично, каким управлением в нем пользоваться). Решать систему v= Tv «в лоб» затруднительно. Восполь- Воспользуемся сперва тем, что i>=lim Т (см. § 4.6). Функция y*=y»Q — это оценка нашей модели на интервале управ- Щ ления [0, п] при нулевой финальной плате. К конечному интервалу [0, п] и плате г=0 применимо проведенное в § 1.11 рассуждение, устанавливающее, что if(x) — не- возрастающая функция х (в соответствующих формулах нужно лишь заменить vt на $ut; конечность пространства X в доказательстве не использовалась). Поскольку vn -> v, то и v(x) — невозрастающая функция х. Зная, что оценка v монотонна, так же, как в § 1.11, устанавливаем, что если некоторое состояние х принадлежит множеству С, то и(х—1, с) ^ и(х, с) ^ и(х, d)=u(x—l, d) и, следовательно, (х—1)?С. Значит, аналогично случаю конечного интер- интервала управления множества С и D имеют вид = {0, 1 А— 1}, D=(k, (9) (одно из множеств С, D может оказаться пустым и тогда А;=0 или со). Поэтому построение стационарной оптималь- оптимальной стратегии сводится к нахождению числа к. Таким образом, чтобы найти оптимальную стратегию, остается выбрать наилучший среди селекторов фт, опре- определенных формулой с при х <i m d при x^m (ДО) (т=0, 1, 2, . . . , со). Фиксируем какое-либо тп <С со. Оценка w=wm стратегии <р = ф" удовлетворяет фундамен- фундаментальному уравнению w=T^,mw. Согласно формулам E), в развернутом виде это уравнение представляет систему - w @) = рХ + P/V" A) + Р A - Ро) и> @). w A) = рЛ + ?Plw B) + р A _ Pl) ц, @), _xw (m - pm^) w @), A1) (аргумент tp у стратегии w(x, 9) опускаем). Полагая для сокращения записи ^ = Р"РоР1 • • • Р* (* = 0, 1, 2, .. .), A2) умножая уравнение для w A) на [3L0, уравнение для w B) 12 Е- Б. Дынкин, А. А. Юшкевич J77
на $LV . . . , уравнение для w(x— 1) на $LX_% и склады- складывая их, получаем ( > t -и*) ">„ I(i-P)+P(i-?)(?o + i X wm @) - (Loho + , —il X ж-1 A3) {x = \, 2, ..., m) Приравнивая выражения для w(m) из A1) и A3), находим ,„ /г\\ Loho -}- i^ifei -f- ¦ ¦. -f- Lm_1hm_1 -\- 8^т-1а Из A1) и A3) видно, что если A5) то одновременно и wk (х) = sup м;т (ж при всех х и соответствующая стационарная стратегия ф = ф™ рав- равномерно оптимальна. Итак, число к находится из A4) и A5) (в силу нашего соглашения пользоваться управлением с при u(xc) = u(xd) берется наибольшая из точек максимума). Рассуждением от противного легко проверяется, что если супремум в A5) не достигается, то к= со и множество D пусто (нужно продолжать эксплуа- эксплуатацию сколь угодно старого оборудования). Покажем, что если ^(OK^ox.-.^^o) A6) wm@)>wm+1{0), A7) то стратегия <р = ф™ оптимальна (так что при конечном к для нахождения оптимальной стратегии не придется сравнивать между собой бесконечно много чисел). В силу единственности решения уравнений оптималь- оптимальности достаточно проверить, что wm=Twm. Поскольку Wm^TyjVm, это уравнение можно переписать в виде Ту ющ= 178 = Twm. Последнее соотношение, согласно формулам E) и F), эквивалентно системе неравенств >» @) > я + Ри>- @) (х = 0, 1, .... то —1), A8) m @)< а + В^т@) (x = m, m-f-1» • • ¦)¦ A9) Если подставить в A8) значение wm(x+1) из формулы A3), то после простых преобразований, использующих фор- формулу A4), неравенство A8) сведется к условию wm@)^ ^5? wx(O), содержащемуся в A6). Неравенство A9) с учетом формул A1) приводится к виду р А + Ре**» @) < [«+Р^да @)j A - ppj. Это последнее соотношение легко получается из A7) и A4) и равенства Lx= $pxLx_x. § 6. Стационарные е-оптимальные стратегии Когда уравнение C. 1) (или C. 3)) не имеет решений, оптимальные стратегии не существуют. Естественно искать в этом случае стационарные s-оптимальные стратегии (при s >• 0). Пусть (р = фт является s-оптимальной стратегией. В силу фундаментального уравнения < v (х) — s < w {х, ср) = q (ij) (х (г/, ср) р (г//!)) (х)) — Таким образом, все стационарные s-оптимальные стра- стратегии ф порождаются селекторами ф, удовлетворяющими неравенству 2>>*-е. , A) Неравенство A) равносильно неравенству и(ф(ж))> sup>u(a) — e B) (ср. формулы C.1) и C.3)). Если модель суммируема сверху, так что v(x)= sup ц(а)<4-со, авА(х) то неравенство B) (в отличие от уравнения C. 3)) имеет решение при любом в > 0. Поэтому из двух вопросов, 12* 179
йсследойанных в § 3, остается только второй. Естественно" поставить его в следующей форме: Для всякого ли в > 0 найдется х > О такое, что из неравенства Т^о-х C) вытекает в-оптималъностъ стационарной стратегии ф00.3 Пример 3.1 показывает, что для неограниченных сверху моделей ответ на поставленный вопрос может быть отри- отрицательным. В самом деле, селектор tylt предписывающий оставаться в состоянии В, удовлетворяет этим неравен- неравенствам при всех х ^ 0, а w(B, ty?) = i;(B)-\, так что стационарная стратегия ф™ не является s-опти- мальной ни при одном е < 1. Названный пример можно исключить, предположив, что модель ограничена сверху. В этом случае мы можем воспользоваться формулами B. 8) и B.14), полагая в них Фг = ф и xf=x. При р < 1 ряд B.14) сходится к хA—Р), и мы приходим к следующему результату: если модель огра- ограничена сверху и р < 1, то всякий селектор ф, удовлетворяю- удовлетворяющий (I) при х=еA—Р), порождает е-оптималъную стра- стратегию. Таким образом, в этом случае ответ на поставлен- поставленный вопрос положителен. Ответ остается положительным и при р ^ 1, если модель равномерно ограничена сверху и снизу. В самом деле, согласно заключительному результату § 2, страте- стратегия ф00 будет е-оптимальной при 2Г+ 2 & + ,) Выбирая сначала достаточно большое п, а потом доста- достаточно малое х, можно сделать е сколь угодно малым. Предыдущие рассмотрения оставляют открытым вопрос о существовании стационарных е-оптимальных стратегий в моделях, ограниченных только сверху (при Р ^ 1) или только снизу. Нижеследующие два примера показывают, что в обоих случаях стационарных е-опти- е-оптимальных стратегий может не существовать. 180 Пример 1 (модель, ограниченная снизу). Пред- Представьте себе игорный дом со следующими правилами. Игра идет до первого проигрыша игрока или до момента, когда он захочет уйти, причем в последнем случае с него взимается сбор в размере 1 рубля. Ставка в первой партии произвольная, в каждой последующей она удваивается. Вероятность выигрыша в каждой партии равна -=-. Рис. 6.3 Построим отвечающую этой игре модель (см. рис. 6.3). Состояние 0 «вне игры» является поглощающим. В со- состоянии Вт — «с капиталом т» — игрок решает, делать ли ему ставку т или уйти (соответствующие управления изображены на рисунке стрелками). В первом случае он переходит (с нулевой платой) в состояние Ст, во вто- втором — с платой т—1 — в состояние 0. В состоянии Ст игрок не управляет: идет игра, которая с равными вероят- вероятностями (и нулевой платой) переводит его в состояния 0 и ВЪт. Рассмотрим стратегию пк — «играть к раэ подряд (если не проиграем раньше)». Начиная в состоянии Вт, мы получим т2к —1, если все к партий выиграем, в про- противном же случае не получим ничего. Поэтому l. и ввиду произвольности к I Стратегии кк не стационарны. Пусть теперь <р — про- произвольная стационарная стратегия. Либо найдется со- 181
стояние Вт, в котором <р предписывает уйти, и тогда w (вт> <Р) = т — ! > либо <р предписывает играть во всех состояниях Вт, и тогда w(Bm, <p) = 0. В обоих случаях стратегия tp не является равномерно е-оптимальной при в < 1. С С 4 Рис. 6.4 Пример 2 (модель, ограниченная сверху, C=1). Мы изложим его сначала в шуточной форме. Преступник, скрывающийся от правосудия, каждый день выбирает для ночлега одну из счетного числа квартир. Вероят- 1 ц. ность, что его задержат на m-w квартире, равна -^. пак ему действовать, чтобы минимизировать вероятность ареста? Введем три состояния: А — «свобода», В — «арест» и С — «тюрьма» (рис. 6.4). В состоянии А имеется счетное число управлений (выбрать квартиру 1,2,3, . . .). При управлении т происходит переход в В с вероятностью 1 1 ^г и в Невероятностью 1—^. Соответствующие платы равны нулю. Из состояния В возможен переход только в состояние С, причем плата равна —1. Оценка w (А, тс) стратегии тс равна взятой с минусом вероятности ареста, так что задача состоит в максимизации w (А, тс). Рассмотрим стратегию тст:.проводить t-ю ночь в квар- квартире t-\-m. Ясно, что и эта величина стремится к 0 при т -> со. Поэтому 182 v(A)=0. В то же время любая стационарная стратегия <р предписывает ночевать все время в одной и той же квар- квартире т, и, очевидно, w(A, <p)=—1. § 7. Распространение результатов на борелевские модели Откажемся теперь от предположения, что простран- пространства состояний X и управлений А конечны или счетны; как и в главах 3 и 5, будем считать их произвольными борелевскими пространствами. Пользуясь тою же разверткой однородной модели, что и в § 2, но опираясь на § 5.2, а не главу 4, можем распро- распространить результаты § 2 на общий случай. Фундамен- Фундаментальное уравнение принимает вид w(x, n)-= J тс (da | х) [q {a) -f pu; (pa, тсй)] A) (модель Z предполагается ^-суммируемой). Операторы 7V (ф — измеримый селектор соответствия А (х) из X в А), Т, U, V действуют по формулам )> B) C) Vg (x) = sup g (x) E) и по-прежнему Т= VU, Гф/ (х) = Uf (ф (ar)), Tf [х) = sup T^f(xf. Tf(x)= sup Гд(а) + Р \f(y)p(dy\a)] , 1-Х J Последняя формула утверждает, что sup и (a) =sup и (ф (х)), ?А() ф A) где u=Uf. Поскольку ф (х) ?А (х), то левая часть A) не меньше правой. Чтобы доказать обратное неравенство, нужно проверить, что и (а) ^ sup и (ф (х)) (а^А(х)). B) Так как модель нетривиальна, то существует некоторый изме- 183
Формулы B. 4) и B. 5) и уравнения оптимальности B. 6) остаются без изменения. Формулировки § 2, касающиеся е-оптимальных стратегий, ограниченных сверху и снизу моделей и единственности решения уравнений оптималь- оптимальности, также сохраняют силу. # * * С очевидной заменой сумм интегралами переносится на общие модели вывод уравнения T,v = v, (Q) как необходимого условия того, что стационарная стра- стратегия ф00 является оптимальной (§ 3). Но в общем случае не приходится ожидать, чтобы уравнение F) имело реше- решение, и поэтому естественно искать не оптимальные, а s-оптимальные стационарные стратегии. Впрочем, результаты § 3 об ограниченных сверху мо- моделях, утверждающие, что всякое (измеримое) решение уравнения F) порождает стационарную оптимальную стратегию, и что из существования какой-нибудь опти- оптимальной стратегии следует наличие стационарной опти- оптимальной стратегии, сохраняют силу. Доказательство пер- первого из них не меняется, доказательство второго — опи- опирается на теорему 3.2.А вместо леммы 1.13.1. * * * Исключение составляют полунепрерывные модели (в ко- которых, как и в § 5.6, мы считаем пространства X и А борелевскими). Применяя результаты § 5.6 к развертке такой модели, заключаем, что в равномерно ограниченной сверху и снизу однородной полунепрерывной модели су- существует измеримый селектор ф отображения х -> А (х), удовлетворяющий F) и, стало быть, порождающий ста- стационарную оптимальную стратегию. В частности, доста- достаточно, чтобы плата q была ограничена и коэффициент |3 был меньше единицы. римый селектор фх отображения у ->¦ А (у)(у ? X). Поскольку в борелевском пространстве одноточечные множества измеримы, селектор ( | фх (у) при у ф х, \ а при у=х тоже измерим. Для него и (а)=и (ф (х)), и неравенство B) дока- доказано. 184 Все выводы § 6 о стационарных е-оптимальных стра- стратегиях также сохраняют силу с одной оговоркой: по- поскольку приходится рассматривать лишь измеримые се- селекторы ф, то перестает быть тривиальным ответ на вопрос о существовании ф, удовлетворяющего неравенству Более того, вообще говоря, ответ на этот вопрос оказы- оказывается отрицательным. Рис. 6.5 П р и м е р 1. Пусть А — единичный квадрат, X — его основание, j — ортогональное проектирование А на X, мера р(- \а) -при^любом а сосредоточена в точке х=1 (см. рис. 6.5). Плата q равна 1 на Q и равна 0 на A\Q, где Q — борелевское подмножество квадрата А такое, что Q проектируется на все X и ни один измеримый селектор ф отображениям -> А (х) не удовлетворяет .условию < ф (х) g Q при всех х из Х^> (ср. пример 3.1.1). Пусть коэффициент дисконтирования Р = -у. Очевидно, при любом начальном состоянии х мы можем на первом шаге получить доход 1, а затем, попав в состояние х = 1, собрать доход -j -|—™-f- + . . . = 1 (а больше получить не можем). Значит, здесь г; {х)=2 (х?Х). В то же время для любого селектора ф и если селектор ф измерим, то хотя бы при одном у из X 185
имеем tj) (y)? Q и, стало быть, д(ф(г/))=О. Но тогда Гфу (у) = —V (у)—1 и, значит, при е < 1 неравенство не выполняется ни для одного измеримого селектора ф. Поскольку неравенство G) является необходимым условием е-оптимальности стратегии ф00, из приведен- приведенного примера следует, что, вообще говоря, е-оптималь- ные стационарные стратегии могут не существовать. По аналогии с неоднородным случаем естественно воз- возникает вопрос о существовании стационарных е-опти- мальных (п. н. (л) стратегий, т. е. стратегий ф00 таких, что w(x, f°)~^v(x)-— в (п. н. у.) (ср. § 3.1). Этому вопросу посвящается следующий пара- параграф. § 8. Стационарные (п. н.) е-оптимальные стратегии В отличие от дискретного случая, где мы сразу стро- строили желательную стационарную стратегию, здесь при- придется прибегнуть к окольному пути: сперва строить нестационарную простую е-оптимальную (п. н. р) стра- стратегию <р, а затем по <р строить такого же качества стацио- стационарную стратегию фот. Первый шаг был проделан в главе 5. Там было дока- доказано существование е-оптимальных (п. н. ja) простых Стратегий при любом е ^> 0 в предположении, что мо- модель ^-суммируема сверху и ограничена сверху. В этом параграфе мы покажем, что если в однородной модели Z плата q является ограниченной функцией и коэффициент дисконтирования [3 меньше 1, то для любой простой стратегии <р и любого числа е ]> 0 найдется стационарная стратегия фта такая, что w(x, <^co)^w{x, tp)—s при всех х из X. A) Поскольку из сделанных предположений вытекает огра- ограниченность сверху модели и ее ^-суммируемость сверху при любом }*, то в итоге мы установим, что при тех же условиях для любого s)>0 u любого начального распреде- распределения }* существует стационарная ^.-оптимальная (п. н. (л) стратегия. 186 * * * Итак, пусть в однородной общей модели Z sup \q (а) |< +оо, |3<1 и пусть <р=ф1фз- • •${• • • и f1—произвольные простая стратегия и начальное распределение. Сопоставим стра- стратегии <р оператор S, определенный формулой t Существование измеримого селектора ф, удовлетворяю- удовлетворяющего A), очевидным образом вытекает из следующих трех предложений: 1°. Уравнение Sh = h имеет единственное ограниченное измеримое решение h. 2°. Для любого я > 0 существует измеримый селек- селектор ф отображения х -> А (х) такой, что C) 3°. Если измеримый селектор ф удовлетворяет не- неравенству C), то A) справедливо при е= __в. Положим для сокращения Т, = ТЬ (/=1,2,...). Доказательство 1° основано на оценке gl D) которая выводится также, как в конце § 2,— аналогичная оценке B.16) для оператора Т. Из D) следует, что 5я/ равномерно сходится к решению h уравнения Sh=h, и что это решение единственно в классе ограниченных измеримых функций (теорема о неподвиж- неподвижной точке сжимающего оператора 3). Докажем 2°. Поскольку h = Sh = sup T{h, то для всякого х Tth (х) > h (x) — х 3 См., например, А. Н. Колмогоров и С. В. Фомин [1]. E) 187
I при некотором t. Обозначим через t(x) наименьший из этих номеров и положим *(*) = *«,>(*); F) тогда Чтобы убедиться в измеримости ф, обозначим через Yt множе- множество всех х, удовлетворяющих неравенству E). Множества Yf измеримы, и для любого Т(~с?8{А) {х : ф ^ Остается доказать 3°. По формуле B. 4), примененной к г = h, ...Tnh (x) = *„)¦ Поскольку функция /г ограничена и C<1, последний член стремится к 0 при п -*¦ оо; сумма по определению, стре- стремится к w(x, <p) и> значит, 7^... Г.Л(х)^»(х, ?). ' G) Но ТХТ%... Tnh^S"h — h и, значит, w (x, tp) ^ /г (аг). (8) С другой стороны, поскольку Гф (/ -|- с) = Гф/ -f- [Зс для любой постоянной с (см. определение оператора Т^ фор- формулой B. 3)), то из неравенства C) вытекает T\h > Г-Г1 (Л - х) = Г^й - р-1* > Г-Г» (й - х) - р-1^ = Тn~2h - Значит, при любом п 188 х > ... Но в применении к стратегии ф00 формула G) дает Tlh{x)-*w(x, ф») и потому (9) Сравнивая (8) и (9), получаем 3°. § 9. Распределение ресурса между производством и потреблением Продолжим изучение примеров, рассмотренных для конечного интервала управления в §§ 2.7, 2.9—2.11. Чтобы применить результаты настоящей главы к за- задаче из § 2.7, будем считать, что qt= p'-1g, где коэффициент дисконтирования р заключен между 0 и 1. Оценка стра- стратегии тг при начальном состоянии х дается формулой со Здесь xt_x — ресурсы в начале периода t ж at — средства, направляемые в этот период в производство. Переход от xt_x к xt задается рекуррентным уравнением xr-=F(at, st), B) где st — независимые случайные величины с одинаковыми распределениями. Если функция q ограничена сверху, то наша модель суммируема сверху, и согласно § 2 оценка г; удовлетво- удовлетворяет уравнению оптимальности v—Tv или v{x) = sup [q(x-a) + №v(F(a, st))] C) @<z<oo). При сделанном предположении модель также и ограни- ограничена сверху. Если супремум в C) достигается в точках а = ф(г) (и функция ф измерима), то T^v=v и согласно § 3 стационарная стратегия <р=фсо является оптимальной стратегией. Если функция q ограничена снизу, то модель ограничена снизу и v = Hm Ги0 (§ 4. 6). и->со Функцию q обычно предполагают вогнутой. Отсюда не следует ее ограниченность сверху, но вытекает, что 189
г она мажорируется некоторой линейной функцией: q(c)^Kc + L D) (К, L — положительные постоянные). В этом случае для суммируемости и ограниченности сверху модели доста- достаточно, чтобы при некотором положительном числе у, удовлетворяющем условию для всех а выполнялось неравенство MF(a, st)^7a-\-N @<a<oo) (N — произвольная положительная постоянная). F) В самом деле, поскольку 0 < at_^ xt_t, то из B) и F) следует, что условное математическое ожидание xt при известной истории xuaxxx . . . at_xxt_x не превосходит у (x^j+iV). Отсюда по индукции легко получить, что при любой стратегии тс ?lxt < 1*х + N A + ^ + f + ¦ • • + I*'1) < У (* + Nt) G) (не ограничивая общности, можно считать у > 1). Из D), G) и не- неравенств 0 < xt—at+1 < xt вытекает, что + Nt) + LUl, (8) и, следовательно, ряд A) мажорируется сходящимся положитель- положительным рядом, не зависящим от стратегии тс (но, вообще говоря, за- зависящим от начального состояния х). Продолжим рассмотрение частного случая, в котором (см. § 2.7). При этом модель равномерно ограничена снизу. Условие D) для функции q выполнено, а условия E)—F) для функции F принимают вид Имеем Tf{x)= sup L(a:-a)" В § 2.7 мы исследовали этот оператор при 190 (9) A0) = 1 и уста- повили, что Он оставляет инвариантным множество функ- функций вида f(x) = bx' F>0). A1) Этот результат сохраняется и в общем случае, только формулы B. 7. 7) заменяются на щ= 1 + A2) *(Ь) = где по-прежнему Х = ] Чтобы функция A1) удовлетворяла уравнению оптималь- оптимальности уг=Гу, необходимо и достаточно, чтобы 6 = ; Последнее уравнение имеет единственный корень 1 A3) Заметим, что Следовательно, уравнение v — Tv имеет решение v{x) = b*x' A4) и при такой функции v селектор ^ (х) ¦= фХI-" х , A5) удовлетворяет уравнению У.у=у. Полученные формулы имеют смысл (и дают решение соответствующих уравне- уравнений) при рХ <^ 1, или, согласно A2), при условии м*"<4- A6) более широком, чем условие (9) 4. 4 В силу известного неравенства между моментами (М«,)« > М (si) @ при 0 < а < 1 (см., например, Б. В. Гнеденко [1 ], § 28). Это ча- частный случай неравенства Йенсена: М/ (st) =g / (Ms^) для вогну- 191
Поскольку мы не знаем, единственно ли решение уравнения v=Tv, то пока можем лишь предполагать, что функция A4) является оценкой модели и, следовательно, стратегия ф=фс° — оптимальной стратегией. Мы до- докажем это, перейдя к пределу в формулах, полученных в § 2.7 для конечного интервала управления. В силу ограниченности модели снизу v = Тп0. Согласно формулам B.7.8) и B. 7.12)—B. 7.14) (дисконтирование приводит к замене в этих формулах X ] на [&). Переходя к пределу, получаем, что неравенство ' (ЗХ < 1 (или условие A6)) необходимо и достаточно для конечности оценки v (т. е. суммируемости модели сверху), и что при выполнении этого условия оценка v действи- действительно дается формулой A4). Если выполнено условие (9), то оптимальность стра- стратегии <р=(|)°° следует из общего результата, сформули- сформулированного в начале параграфа. При более общем усло- условии A6) приходится непосредственно подсчитать Щ0(х) = } =w"(x, <p) и убедиться, что предел этой величины совпа- совпадает с функцией A4). Оператор ?\ действует по формуле (*) = [*-<!> (*)Г + Р/ (Ф И *,) = где и последовательное вычисление показывает, что A7) В пределе правая часть, с учетом A7) и условия |ЗХ < 1, совпадает с правой частью формулы A4). тых функций /; здесь / (s)=sa (Г. Харди, Д. Е. Литтлъеуд, Г. По- лиа [1], теорема 86). Из (9) и (s) следует, что 192 § 10. Распределение ставок в игре В задаче о распределении ставок (см. § 2.9) доход состоит только из финальной платы, и для бесконечного промежутка управления эта задача, вообще говоря, теряет смысл. Однако в частном случае, когда требуется, имея начальное состояние х, с возможно большей вероятностью достичь состояния, большего или равного 1, задача со- сохраняется и для неограниченного интервала времени. Мы рассмотрим тот же вариант этой задачи, что и в § 2.9: игрок с вероятностью q теряет ставку и с вероятностью р < q получает удвоенную ставку (p-\-q=l). Формализация этой задачи, использованная в § 2.9, не годится для бесконечного интервала управления, так как мы не можем пользоваться понятием финальной пларты. Мы построим другую модель, введя дополнительное со- состояние А и считая, что из состояний х ^ 1 и А происхо- происходит обязательный переход в А. Плата равна 1 при переходе из а; в А и равна 0 при всех остальных переходах (вклю- (включая переход А -> А). Каждый путь содержит не более одного перехода х —> А и соответствующий этому пути суммарный доход / равен 1 тогда и только тогда, когда такой переход имеется (в остальных случаях доход равен 0). Первоначально нас интересовало событие C={xt ^ 1 при некотором t). Очевидно, оно совпадает с событием {/=1}. Поэтому вероятность события С равна вероятности со- события {/=1), которая, в свою очередь, равна математи- математическому ожиданию величины /. Поэтому наша задача сведена к стандартной задаче максимизации ожидаемого суммарного дохода. Пусть 1П — доход за время [0, п]. Очевидно, событие Ся= {"/„=1} совпадает с [событием {xt J> I) при некотором {t ^ n—1}. Поэтому оценка v" нашей модели натпроме- жутке [0, и] равна функции fn_x, вычисленной^в^ § 2.9 (см. замечание в.конце этого параграфа). Очевидно, наша модель неотрицательна и суммируема. Поэтому, согласно общему результату 5.2.м, оценка v модели на бесконеч- бесконечном интервале управления равна v = Пт ул= lim /я = /от. ?г->оо я->аэ В § 2.9 была описана дерзкая стратегия <р, состоящая в том, чтобы делать максимальную возможную ставку х 13 Е. Б. Дынкин, А. А. Юшкевич 193
при х ^ -ту , ставку 1 — х при тт-^ х ^ 1 и нулевую ставку при х ^> 1. Ей соответствует стационарная стратегия ф в новой модели, предписывающая то же поведение при х <С 1 (при а; ^ 1 и в состоянии Д у нас теперь нет выбора). Оценка стратегии ф на отрезке [0, я+1] совпадает с оцен- оценкой /я стратегии <р на отрезке [0, га]. Поэтому оценка ф на бесконечном интервале управления равна lim jn—v и, следовательно, ф — оптимальная стратегия. Отметим, что наша модель не ограничена сверху. В самом деле, при любом х из интервала @,1) найдется стра- стратегия тс такая, что w (х, тс) > 0, и, значит, PJ q (at) > 0 для неко- некоторого t. Пусть яя — стратегия, состоящая в том, что на первых п шагах делаются нулевые ставки, а затем применяется стратегия тс. Ясно, что Р?9 («„+<) = PS? К) > 0. Между тем, если бы модель была ограничена сверху, то левая часть не превосходила бы cn+t {х), где "^ct (х)<С оо. t Поэтому из общих результатов этой главы нельзя заклю- заключить, что селектор ф порождает стационарную оптималь- оптимальную стратегию, если Т^ v=v. (Легко видеть, что и на са- самом деле селектор ф, предписывающий при любом х < 1 делать нулевые ставки, удовлетворяет уравнению Т^ v=v, но приводит при х <i 1 к нулевому доходу.) Далее, уравнению v=Tv удовлетворяет функция, равная 0 в точках 0 и А и равная 1 в остальных точках, которая не является оценкой модели (хотя и удовлетворяет условию равенства 0 в поглощающих состояниях). По- Поэтому уравнение v= Tv не позволяет вычислить v (его ре- решение неединственно). § 11. Распределение ресурса между потреблением и различными отраслями производства В этой задаче, с учетом дисконтирования, оператор Т действует по формуле Tf(x)= sup {g(s-O + PsupM/[«p, + '(l—Т)*Л) A) 194 (см. формулу B. 10. 3)). В однородном случае распределе- распределение пары ot, т( не зависит от t. Для суммируемости и ограниченности сверху доста- достаточно, чтобы функция q была ограничена сверху, а коэф- коэффициент р был меньше 1. Вместо ограниченности q сверху можно предположить, что q мажорируется линейной функ- функцией и выполняются условия ЙЦ<1, Мт,<-1. B) В самом деле, модифицируя рассуждение, напечатанное пе- петитом в § 9, легко получить из условий B). что при любых t, x и любой стратегии тс где 8 — максимальное из чисел Мо^, Шх/. Так как 5C < 1, то от- отсюда, как в § 9, выводится ограниченность и суммируемость сверху модели. * * * Рассмотрим подробнее частный случай q(c)=<? (О<><1) (см. § 2.10). При коэффициенте дисконтирования р опера- оператор Т по-прежнему оставляет инвариантным множество X функций вида только теперь коэффициенты % (Ь) и х(&) в формулах B. 10. 6)—B. 9. 10) определяются соотношениями (9. 12), а не B. 10. 7). Используя найденное в § 9 решение урав- уравнения b=x (b), получаем, что уравнение оптимальности v=Tv имеет то же решение (9. 13)—(9. 14), что и в § 9, но + (l-T)T,r. C) Х= sup Это решение по-прежнему имеет смысл при РХ<1. " D) Супремум C) был исследован в § 2.9. Если он достигается при значении т=т*» то селектор ф (х) = {t (х), т (х)) = W~*. f) E) удовлетворяет уравнению v=7\t> (при найденной .функ- .функции v). 13* 195'
Поскольку мы не знаем, единственно ли решение урав- уравнения v=Tv, и не знаем пока, суммируема ли (и ограни- ограничена ли) сверху модель при условии D), то оптимальность найденной стационарной стратегии E) еще требует обо- . снования. Это делается дословно, как в § 9. При этом вы- выясняется, что условие D) необходимо и достаточно для суммируемости модели сверху. § 12. Задача о стабилизации Наконец, рассмотрим на бесконечном интервале вре- времени задачу о стабилизации (см. §§ 1.2 и 2.11). По смыслу задачи оценка uf на промежутке управления [0, п] стре- стремится к —оо при п ->оо, и поэтому мы введем коэффициент дисконтирования [3 <С 1 (в § 7.12 будет исследована дру- другая, быть может, более естественная постановка задачи). Оператор Т здесь действует по формуле Tf(x)— sup |— b(x—aJ — ca2+ |3M/(z — a + st)]. —oo<a<;-j-co A) Текущая плата отрицательна, поэтому модель суммируема и ограничена сверху и оценка v удовлетворяет уравнению v—Tv. Выкладки §^2.11, с учетом коэффициента C, по- показывают, что при неотрицательной I где C) m ' = причем максимум в A) достигается при Приравнивая I к V и тп к тп' (и оставляя только положи- положительный корень /), находим »t, ; 1 __ ^2 + <? A ¦"¦ РJ + 2Ьс C — Р) — Ь - A — р) с — 1 _ а • При этих значениях функция 196" E) F) инвариантна относительно оператора Т. Остальная часть параграфа посвящена проверке того, что v представляет собой оценку модели и стационарная стратегия !р = ф°° юптимальна. (.Согласно § 4.6 оценка модели не превосходит функции ,у°° = lim TnO ^большего мы утверждать не можем, так как наша модель неограничена снизу). С другой стороны, эта оценка не меньше,- чем w(x, ?) = 1ш1Гф0(*). Я->00 Поэтому достаточно проверить, что Vе0 — — lx2 —m = w(x, <p). (8) Из формул B) и C), очевидным образом видоизменяя выкладки § 2.11, получаем где. 1я = с-1 с —I ;а I <^1—корни квадратного уравнения ^совпадающего с уравнением, из каторогв получено чиело I "в формуле E). Поскольку |Х|<1 и 0<р<1, из (9) сле- следует, что 1п -> I, мп -* т, и левое из равенств (8) доказано, Далее, -Ту (х) — —Ь [х — ф (х)]2 — сф (xf -f РМ/ [х — ф (х) -f s{], и из D) легко выводим, что -М', (И) где 197
Поскольку отсюда следует, что w(x, f) = —Lx2 — M, где L и М удовлетворяют уравнениям, -получающимся приравниванием L и V, М и М'. Из A2) получаем + 6 + c)« - I Bea? A3) A4) Для доказательства второго из равенств (8) нужно пока- показать, 410 L = l и М = т. Нетрудно убедиться в справед- справедливости тождества И В силу A0) и A3) отсюда вытекает, что L = l Из F) и A4) следует, что М— т. ' Г л а в а 7 МАКСИМИЗАЦИЯ СРЕДНЕГО ДОХОДА ЗА ЕДИНИЦУ ВРЕМЕНИ § 1. Введение. Канонические стратегий В предыдущих главах мы оценивали стратегии по суммарному доходу за все время управления. Если до- доход эа промежуток времени [0, п] неограниченно растет при п -> оо, то естественно предпочесть ту из двух стра- стратегий, для которой этот рост быстрее. В §§ 1—7 строятся оптимальные с этой точки зрения стратегии для одно- однородных конечных моделей (без дисконтирования). Именно, мы построим стационарную стратегию <р такую, что для любого начального распределения [* и произвольной стратегии тг , A) B) где С — постоянная (не зависящая от п, fi и п) и — оценка стратегии тг на отрезке [0, п]. Стратегия <р, ко- которую мы построим, обладает и другими замечательными свойствами. Введем в момент п финальную плату г. Тогда оценка uf (fi, тс) заменится на К S Я (хп) j = ;(^л). C) Оказывается, при надлежащем выборе г стратегия <р оп- оптимальна в задаче управления с финальной платой г на всех конечных отрезках [0, и]; другими словами, при любых п, fi и и 199
Ясно, что (i) вытекает из D). Далее, мы покажем, что v(x) {х?Х), ¦ E) где v — некоторая функция на X. Из E), C) и A) видно, что при любой финальной плате / = lim ¦>lim F) так что стратегия tp максимизирует (в пределе) средний доход за единицу времени. [Отметим, что в силу. D) при /=г стратегия tp максимизирует средний доход при каж- каждом фиксированном п.] Тройку (v, tp, r), удовлетворяющую условиям D) и E), будем называть канонической тройкой модели Z. Здесь <р — стационарная стратегия (ср = фсо, где ф — се- селектор соответствия х -> А (х)), v и г — функции на X. Стационарную стратегию tp назовем канонической, если она входит в какую-нибудь каноническую тройку. Согласно F) каноническая стратегия tp асимптоти- асимптотически оптимальна в том смысле, что при произвольном на- начальном распределении {* -^—-^шп— ¦ ¦ ' (тс— любая стратегия). G) т.— lim Функция v, входящая в каноническую тройку, однозначно определяется по модели Z\ в силу F) имеем v(x) = sup lim- (8) Эти равенства оправдывают для функции v (x) (x Q X) название асимптотической оценки модели. Заменяя в (8) состояние х начальным распределением (д., получим асимп- асимптотическую оценку v (р\ начального распределения (д.. Из F) следует, что v (^)={xy." Согласно G) и (8) стратегия л асимптотически оптимальна тогда и только тогда, когда для любого начального распределения (д. предел ..w(p., тс) = lim—KJ-L-1 п существует и равен v (рI. 1 Формула (8) и все последующие формулы сохраняют силу и в том случае, если в G) заменить верхний предел нижним. Ясно, что 200 Наша цель — доказать существование канонических стратегий и получить метод их построения. § 2. Канонические уравнения В этом параграфе мы докажем, что тройка (и, ф00, г) является канонической тогда и только тогда, когда вы- выполнены следующие уравнения: v{x)=^v{y)p(y\^{x))= sup 2 v (у) р {у | а)," = sup \q (a) + 2 г (У) Р (У-1 «Л ' .(*€ X) {канонические уравнения). В более компактном виде их можно записать так: ^ . A) г + у = 7у = Тг, B) где соответствующие операторы определяются формулами 2 = 2х / (у) р (у IФ. И) = п/ (* (*)) X* .D) E) Vg(x)= sup g(a) (a?A), F) Tf (x) = У (? + ПЛ И = SUP V (*) <* С *) ¦ ; G), (ср. формулы A.1.5), A.6.10), A.6.11)). ' . Чтобы прийти к каногшческим уравнениям, восполь- воспользуемся результатами §1.7. Согласно формуле A.7.5) правая часть (8) в этом случае не превосходит v (х). С яругой стороны, она не меньше v (x), ибо в силу F) wn(x,f) wn(x,< lim—^—=lrm—^г~ goi
Из A.7. 9)—A.7. 10) следует, что suj>w"r(x, n) = T"r(x), Поэтому условия A-4) и A.5) равносильны требованию r4-™ = zy = ry (» = i; 2, ...). (8) Полагая здесь га = 1, получаем уравнение B). Далее, заменяя в (8) п на п-\-\, имеем Г 4- (Я 4" 1) V = Г;+1Г = ГЯНГ. Подставляя сюда значения 7^г и Г"г из (8), приходим к равенствам r + v + nv^T^r + nv):=T(r + nv). (9) Из E) и B) находим T^r+nv) = Tir + nP^v = r + v + nPi/v. A0) Сравнивая (9) и A0), получаем уравнение P.v=v, Согласно G) T(r + nv)=V(q + ur-t-nnv) и потому из (9) вытекает, что ) Пусть с — наибольшее значение функции [g+Пг |. Вы- Выражение в скобке отличается от Пу не более чем на — . п Поэтому при га -*¦ со правая часть стремится к УПу, и мы получаем уравнение у=УПу. Остается показать, что (8) вытекает из A) и B). При п=1 уравнение (8) совпадает с B). Допустим, что (8) верно при некотором га, и докажем, что тогда оно верно и при га+1. Применяя к обеим частям равенства r-\-nv=Tir оператор Т^ и используя уравнение A), находим, что Ц+1 Т ( nv) = Tj + Рф (nv) = r + v 4- nP^v = + l)v. (И) Если применим к обеим частям равенства r-\~nv=T"r оператор Т, то получим ГН1г = Т (г + пи) = V (q 4- Пг 4- «Пу)< F (q -j- Пг) + f гаУП Г4 4D-1)у A2) = Т^ (г I (см. A) и B); очевидно, V (j+g) ^ Vf+Vg для любых функций f ш g на А). Поскольку Tr ^ Т^г и, стало быть, Tn+1r ^ 7*! г, из A1) и A2) следует, что на самом деле A3) Равенства A1) и A3) показывают, что уравнение (8) спра- справедливо и для п-\-1. Итак, чтобы построить каноническую тройку, доста- достаточно решить уравнения A)—B). Мы исследуем сперва более простую систему уравнений w =^, A4) считая ф произвольным селектором соответствия А(х). (Канонические уравнения сводятся к уравнениям A4), если в каждом состоянии % имеется единственное управ- управление а=ф {х}.) Учитывая E) и опуская индекс ф, можем переписать систему A4) в виде Pw, A5) где q — функция на X, равная q(x) = q®(x)). A6) Уравнения A5) (а также A4)) мы будем называть уравне- уравнениями Ховарда. Удобно рассматривать уравнения A5) как матричные равенства: wf f и g истолковываются как векторы-столбцы, а Р — как квадратная матрица с эле- элементами Р(х, у) = A7) Элементы Р неотрицательны и сумма элементов любой строки равна 1. Матрицы с такими свойствами называются стохастическими. Наша ближайшая цель — доказать, что для любой стохастической матрицы Р и любого век- вектора q система Ховарда A5) имеет решение. § 3. Решение уравнений Ховарда Итак, пусть Р — произвольная стохастическая мат- матрица и q — какой-нибудь вектор. Мы хотим построить 203
пару векторов (w, /), Удовлетворяющую соотношениям w = Pw, A) f-+w = q+Pf. B) Заметим прежде всего, что если эти соотношения вы- выполнены, то n— 1 w = lim — C) В самом деле, умножая B) на Р1 и учитывая A), имеем P'f -f w = Pbq + Pt+1f. Суммируя эти равенства по t от 0 до п—1, находим я—1 D) 1=0 Легко проверить, что произведение стохастических матриц тоже является стохастической матрицей. Значит, все элементы векторов P"f (п=0, 1, 2,. . .) ограничены, и C) вытекает из D). Формула C) является отправным пунктом для построе- построения решения системы A)—B). Чтобы ей воспользоваться, надо сперва убедиться в существовании предела в правой части C). Все элементы матриц заключены между 0 и Л. Поэтому для некоторой подпосле- подпоследовательности тг2 <С п2 <С • • • существует предел М~ lim Ank. fc-»co Остается проверить, что последовательность Ап не может иметь других предельных точек. Пусть для другой под- подпоследовательности т1 <С т2<^. . . lim Amk = M'. Имеем пк — -™-пк* —* пк "Т~ —Е {Е — единичная матрица) й в пределе РМ=МР—М. Отсюда следует, что А,„ М=МАт —М и в пределе М'М— =ММ' =М. Аналогично получаются равенства ММ' = =М'М—М' и, стало быть, М=М'. Итак, мы доказали, что существует предел м = причем ' = М', М2 = М. В силу F) формула ¦ ¦+Р"-1), E) F) G) (8) (равносильная C)) действительно дает решение уравнения A). Учитывая (8), можем переписать уравнение B) в виде (E-P)f = (E-M)q. (9) Остается найти решение / этого уравнения. Заметим, что к—1 (Е -M)q= lim ±S(E-P*)q= lim (E - P)fn, A0) где f*=i 2{E + p pt'X) Допустим на минуту, что fn имеет предел /. Тогда lim (E—P)fn=(E—P)f, равенство A0) сводится к (9), и нужная нам функция / построена. В действительности дело обстоит сложнее. Из формулы E) видно, что выраже- выражение в скобках в формуле A1) при t-+ да ведет себя, как tM. Поэтому вместо векторов /в (которые, вообще говоря, не- ограничены) лучше рассмотреть A2) t=o 204 В силу F) разность /в—gn переводится оператором Е—Р 205
в нуль, так что A0) равносильно равенству (Е - М) q = Km (E-P)g,, A3) r{x) + v (ж) = q (ф (х)) = max \q (a Обозначим через ||g|| максимум абсолютных величин координат вектора g. Покажем, что последовательность \\gn{\ не может стремиться к бесконечности. Действительно, допустим, что ||gj| вытекает, что \im(E — P)hH = 0. ' A4) оо, и положим /г)г — ,.8п,. . Тогда из A3) II 8п II Из ограниченной последовательности hn можно выбрать сходящуюся подпоследовательность, и согласно A4) ее предел h удовлетворяет уравнению h=Ph. Отсюда и из E) вытекает, что h=Mh. С другой стороны, из F) и A2) следует, что MgM=0, а значит, и Mh=0. Получается, что h=Q, а это невозможно, поскольку ||АЯ|| = 1. Поскольку ||gj| не стремится к бесконечности, из по- последовательности gn можно выбрать сходящуюся подпо- подпоследовательность gn . Ее предел / удовлетворяет уравне- уравнению (9). Мы доказали существование решения у уравнения (9), а значит, и у системы A)—B). Отметим, что построенный нами вектор / удовлетворяет дополнительному условию М/ = 0 A5) (ибо Mgn = 0 при любом п). Мы уже видели, что вектор п) определяется уравнени- уравнениями A)—B) однозначно (он дается формулой C) или (8)). Покажем, что / также определяется однозначно при до- дополнительном условии A5). В самом деле, если какая- нибудь пара (w, /') удовлетворяет этим уравнениям, то f-f=P (/-/')¦ Отсюда в силу E) и A5) / _ f ^ м (/ — /') -— Mf — Mf = 0. § 4. Модификация канонических уравнений Перед нами стоит задача перейти от уравнений Ховарда к каноническим уравнениям B. 1)—B. 2). Последние можно записать в виде и (ж) = Ш (ф (х)) = max Пу (а), A) 200 ¦(ф(*)) = Пг(а)] {х?Х). B) Удобнее решать модифицированную систему у (ж) = Пу (ф (ж)) = max Ш (а), C) r(x) + v (ж) = q (ф (ж)) + Пг (ф (ж)) = = тах[9(а) + Пг(аI (х^Х), D) где А, (ж) = (а: а ? А (ж), Пу (а) = v (ж)}. E) Для решения системы C)—D) в следующем параграфе бу- будет указана рекуррентная процедура, которая неприме- неприменима к системе A)—B). Покажем, что если (у, ф, г) — решение системы C)—D), то тройка (у, ф, г'), где r'=r-\-cv, удовлетворяет системе A)—B) при любой достаточно большой постоянной с. Уравнение A) совпадает с C). Поскольку Пг' = Пг + сПи, то из C) и D) вытекает, что г' (ж) -j- ^ (ж) = г (х) -{- v (ж) 4- cv (х) = = q (ф (ж)) + Пг (ф (ж)) 4- cllr (ф (ж)) = = 9(ф(а;))+Пг'(ф(х)) и мы имеем левое из уравнений B). Остается показать, что при каждом ж д(аL-Пг»<г'(*L-1>(:с) (а?А(х)) или, что то же самое, q {а) ~\- Пг (а) 4" сПи (а) < г (ж) 4- у (ж) 4~ си (ж) (а ? А (ж)). F) Если а принадлежит At (x), то в силу D) и E) имеем q (а) 4~ Пг (а) <1 г (ж) 4- v (x)i Пу (а) = v (ж), и для такого а F) выполняется при любом с. Если а из А (ж) не принадлежит Av(x), то Пу (a)^=v (ж) и в силу C) Пу (a) <Cv (ж). Ясно, что тогда F) выполняется для дан- данных ж и а при достаточно большом с. Поскольку число §07
всех пар (х, а) конечно, то при большом с F) будет выпол- выполнено одновременно для всех а из А (х) и всех х из X. Из доказанного результата следует, что если (v, ф, г) — любое решение модифицированной канонической системы C)—D), то v является асимптотической оценкой, а <р — =ф°° — канонической стратегией. § 5. Усовершенствование стратегии по Ховарду Возьмем произвольный селектор ф и вычислим соот- соответствующие решения w и / уравнений Ховарда {)ЪЩ{ A) B) (х) = q (ф (х)) + П/ (ф (х)) (х в X), удовлетворяющее условию C. 15). Для того, чтобы тройка (w, ф, /) была решением модифицированной канонической системы D. 3)—D. 4), необходимо и достаточно, чтобы C) w {х) = max TLw (а) (х ? X), авА(я) = max D) где 0). E) Поскольку ф (х) ? А (х), то Ни? (ф (х)) не превосходит максимума Tiw (а) на слое А (х), и в силу A) w (х) г^ max Hw (a). F) а?А{х) Согласно A) ф (х) ? Аа (х). Поэтому из B) вытекает не- неравенство max [g(а а)]. G) Если нарушено уравнение C), то найдутся хй и а^ из А (х0) такие, что w (х0) < Пи; (о0). Если же уравнение C) выполняется, но не выполнено уравнение D), то рассмотрим х0 и ай ^ А (хй), для которых 208 Определим новый селектор х формулой у (а:) = при при Переход от ф к % называется усовершенствованием страте- стратегии по Ховарду. Повторяя эту процедуру, мы либо через конечное число шагов получим тройку (ш, ф, /), удовлетворяющую мо- модифицированной канонической системе, либо построим бесконечную последовательность селекторов фя, в которой каждый следующий селектор является усовершенствова- усовершенствованием предыдущего. В первом случае мы получим кано- каноническую стратегию (р = ф°°. Чтобы доказать невозможность второго случая, со- сопоставим каждой стратегии те функцию wQ t=\ (8) (оценку стратегии те при управлении на бесконечном ин- интервале времени с коэффициентом дисконтирования |3). В следующих двух параграфах мы покажем, что если х является усовершенствованием ф, то при |3, достаточно блиЖОМ К 1, Wq {X, X) > W? {Х, ф) U Wg (ХО, X) > Щ (ХО, ф) при некотором х0 (это одно из оправданий термина «усовершенствование»). Поэтому никакие две функции Wp (x, фЛ) не могут совпадать между собой. Поскольку мно- множество всех селекторов конечно, то процесс усовершенство- усовершенствования обязательно оборвется. § 6. Асимптотика дисконтированного дохода Мы получим следующее выражение для дисконтирован- дисконтированного дохода при стационарной стратегии ср = ф°% когда |3 f -1:. A). . A) Здесь w и / — решение системы Ховарда w = Pw, ¦ B) f + w = q + Pf, C) Mf = 0 . . D) (матрица Р и вектор q, отвечающие селектору ф, опреде- 14 Е. Б. Дынкии, А. А. Юшкевич %Щ
лены формулами B, 16) и B. 17), а матрица М — фор- формулой C. 5)). Преобразуем формулу E. 8) для ю? (х, <р). Вероятности P(t, х, y) = Vi{xt=y), очевидно, удовлетворяют соотношению Р(Н-1, х, у)=2Р(«, х, z)P{\, z,y). Стало быть, они образуют матрицу Р* 2. Имеем 2 21. х> У)Я(У) ? и для стационарной стратегии tp равенство E. 8) в мат- матричной форме принимает вид со t=0 (w? (cp) — вектор-столбец с координатами w? (x, tp)). Выразим q из уравнения C) и подставим в E). Учи- Учитывая, что Pw=w, имеем после простых преобразований где F) Чтобы прийти к выражению A), остается убедиться, что g -> 0 при р f 1. Уравнение D) означает, что где G) (8) (см. определение C. 5) матрицы М). Из G) следует, что для любого е > 0 найдется номер Т такой, что ||sj<e* при О?1- (9) 2 Случайная последовательность состояний хйхгхг. . . является однородной цйпью Маркова с переходной матрицей Р. а из (8) — что* IIstII^$II/II* всех A0) (под нормой вектора, как и в § 3, понимается максимум из абсолютных величин его координат). Чтобы использовать (9) и A0) для оценки g, выразим коэффициенты степенного ряда E) через их суммы st: A М ) Za Pi/. I 1 1 ) *=1 ' ' (В силу A0) ряд s1+ps2— p.s\4-- • • абсолютно сходится, поэтому проведенное нами преобразование законно.) Из (9), A0) и A1) следует, что Т+1 12*- . V; и это выражение не превосходит 2s при |3, достаточно близ- близком к 1. § 7. Возрастание дисконтированного дохода при усовершенствовании Ховарда Чтобы доказать существование канонических страте- стратегий, нам остается проверить, что усовершенствование Хо- Ховарда не уменьшает оценки w^ (x, tym) и увеличивает эту оценку хотя бы в одном состоянии (при J3, близком к 1). Для сравнения оценок w^ (x, фго) и w^ (x, xm) удобно ввести последовательность нестационарных стратегий п0, п17 тг21. . . Стратегия кю состоит в том, что на первых п шагах мы управляем с помощью селектора х, а на всех последующих шагах — с помощью селектора ф. Оценки ?«(*) = ">„ (а:, к„) связаны простым рекуррентным соотношением 14* A) 211
(см. фундаментальное уравнение (б. 2. 2)). Заметим, чтб |Н И силу A) и того же асимптотического выражения В самом деле, в силу E. 8) и правая часть мажорируется суммой стремящейся к 0 при ге -> оо. Нужный нам результат вы- вытекает из следующих двух предложений: а) Если селектор % является усовершенствованием се- селектора ф, то So(x) = gi{z) при if{x go(x)<gi(x) ПРИ ty(x б) ?слн. g0 <: g1? иго Поскольку оператор {x), B) x) и р, близком к 1. C) gn+1 при всех п > 1. сохраняет неравенство между б) ф у рр Гх сохраняет неравенство между функциями, то утверждение б) сразу следует из формулы A). Равенство B) также очевидно, так как если начальное состояние а; удовлетворяет условию <[> [х)=х (х), то стра- стратегии те0 и тгх приводят на всех шагах к одним и тем же управлениям. Если же х (хо)=ао^=^ {х0) при некотором х0 из X, то согласно § 5 либо (аа) либо - D) (а0) + П/(а0 ^), E) где (и;, /) — решение системы Ховарда F. 2)—F. 4) для селектора ф. Согласно асимптотическому выражению F. 1) F) Поскольку х (а:о)=ао> то Для любой функции h имеем T%h {xo)=q (a^+TLh (a0) (см. определения соответствую- соответствующих операторов в § 2). .Значит, ] К) = (хо) = Я («о) + П[пг «о) + Л/ К) - Ш (а0)) + o(i). G) 212 Если имеет место случай D), то неравенство C) для со- состояния х0 вытекает из сравнения первых членов раз- разложений F) и G). Если выполняется случай E), то стар- старшие члены в этих формулах совпадают, и нужное нам неравенство получается из сравнения вторых членов. § 8. Переход к бесконечным моделям Сопоставим две задачи: (А) максимизировать суммар- суммарный доход за п шагов, (Б) максимизировать средний до- доход за единицу времени. i \ Конечно, задача (Б) не отличается от задачи. (А), если среднее берется за п шагов, так что задача (Б) пред- представляет самостоятельный интерес лишь для бесконечного интервала управления. В случае конечных моделей за- задача (Б) получила столь же полное решение, как задача (А) (хотя для этого и потребовались более тонкие рассмо- рассмотрения). Место простых стратегий заняли при этом ста- стационарные стратегии. Можно было бы надеяться, что ана- аналогия между двумя задачами . сохраняется и для неко- неконечных моделей. Однако эти надежды разрушаются примерами. Начнем с полунепрерывных моделей, для которых за- задача (А) решается так же хорошо, как и для конечных моделей. Следующий пример показывает, что для задачи (Б) положение совершенно иное: не существует стратегии, максимизирующей средний доход (даже если допустить нестационарные стратегии). Пример 1. Пространство X состоит из трех состоя- состояний х, у и z, причем состояния у и' z — поглощающие, т. е. в них имеется единственное управление, и оно остав- 213
ляет нас в том же состоянии (см. рис. 7.1). Множество уп- управлений в состоянии х — это некоторый отрезок А положи- положительной полуоси, содержащий точку 0. Переходная функция для каждого управления S из А задается формулами /¦/-/' В момент выхода из х мы с положительной вероят- вероятностью попадаем в z. Поэтому либо Р{т-<оо}=0, либо Р{т ¦< со, a;T=z} У> 0. В обоих случаях р = Р(т<со, г, = у}<1. С другой стороны, для стационарной стратегии 8°° P{x = t, х, = у} = A^Ъ-&у-Ч. Поэтому р (х 18) = 1 - 8 - 82 о л / (чтобы эти формулы имели Рис 7#j смысл, нужно потребовать, чтобы 1 — 8— S2 ]> 0 для всех S из А). Текущая плата q равна 1 в состоянии у и во всех остальных случаях равна 0. Нетрудно убедиться, что эта однородная модель полу- полунепрерывна (на отрезке А используется обычная метрика прямой, управления в состояниях у и z — это две изоли- изолированные точки пространства управлений А). Мы будем считать х начальным состоянием. Фиксируем некоторую стратегию и и обозначим через Р соответствую- соответствующую меру Р*. Рассмотрим момент т первого выхода из состояния х: если т <С со, то хо—х1=. . . =хт_1=х и жт=а;т+1=. . . равно у или z; если т=оэ, то xt=x при всех t. Поскольку текущая плата равна 1 в состоянии у и равна 0 в остальных состояниях, то n-v w" (х, «) = Ро + Pi где pi='P{xt=y}. Но Поэтому р( при t -> со стремится к т. е. к вероятности когда-нибудь попасть в у. В силу A) существует предел w(x, n)= lim 7t) 0 при 8 — 0, = 1 при 8>0. При достаточно малом положительном S средний доход w (х, 8°°)=/? сколь угодно близок к 1, но ни при какой стра- стратегии л он не равен 1. * * * Задача (А) для счетных моделей рассматривалась в §§ 1.12—1.13, где было доказано существование рав- равномерно е-оптимальных простых стратегий при любом е > 0 (ослабленный вариант этого результата для общих моделей с борелевскими пространствами управлений и состояний был выведен в главе 3). Как видно из следую- следующего примера, для задачи (Б) и стационарных стратегий аналогичный результат несправедлив. О Рис. 7.2 т 7-/ Пример 2. X состоит из двух состояний, х и у, причем состояние у — поглощающее (см. рис. 7.2). В а; име- имеется счетный набор управлений Ь1, Ь2,. . . , Ът,. . . , и переходная функция задана формулами _1_ т 214
Текущая плата равна 1 в состоянии х и равна 0 в состоя- состоянии у. Рассуждение, подобное проведенному в примере 1, показывает, что для любой стратегии к асимптотическая оценка w (х, тс) существует и равна вероятности р никогда не выйти из х. Каждая стационарная стратегия «р задается выбором какого-то управления Ът. При такой стратегии вероятность pt оставаться bib течение первых t шагов равна A J и, следовательно, w (х, ср) = lim pt = 0. В то же время нестационарные стратегии позволяют сделать средний доход р сколь угодно близким к 1. Дей- Действительно, если стратегия тс состоит в выборе на шаге t управления ЬтШ, то При т (t) = 2 будем иметь w (х, тс) -- (А —произ- —произвольное натуральное число). Итак, пользуясь стационарными стратегиями, мы в этой счетной модели не можем подойти к асимптотической оценке v (x) ближе чем на единицу. В примерах 1 и 2 нарушалась аналогия между зада- задачами (А) и (Б). Другое осложнение, возможное в беско- бесконечных моделях, связано с самим определением асимпто- асимптотических оценок. В общем случае нам приходится иметь дело с нижними оценками w(p., тс) = lim w" n и верхними оценками _ / . т:— w" lu.. w ((х, тс) = lim п у (|J.) = sup w ((x, тс) V (|л) = SUp W ((X, тс). B C) 3 Неравенство A — ос1)A — а2) . . . (Г— ап) > 1 — аг— а2— . . . —а„ при положительных at легко доказывается по индукции, (Для конечных моделей оценки у ъ v совпадали и можно было ограничиться такими стратегиями, для которых совпадали w и w.) Следующие два примера показывают, что оценки у и v действительно могут быть различными и что при этом теряются некоторые привычные нам свойства оценок и стратегий. Рис. 7.3 Пример 3. Пусть X состоит из состояния х и двух последовательностей состояний {j/x, i/2,. . . } и {zx, z2,. . .} (см. рис. 7.3). В х имеется два управления, а и Ъ, ведущие в ух и z1. Из ут мы детерминированно переходим в ут+1, из zm—B zm+1 (m=l,2,. . .); соответствующее управление обозначаем той же буквой, что и состояние. Текущая плата равна -1 при 1 при -1 при 1 при причем последовательность целых чисел 1 <тох <^т2 <\ ... растет столь быстро, что mi ~\~ т2 ~\~ ¦ ¦ ¦ ~Ь тп == ° (тп-и) ПРИ п "^ °° • Ясно, что здесь v (ут) - у (zm) = —1, v (ут) = v (z J = 1 D) и, значит, v=f=V. При начальном распределении р. с р.{у1) = р, (zx) = y 217
плат и q (ym) и q (zm) будут взаимно погашаться и получим vf (р., тс) = 0 при всех п. Следовательно, тогда как в силу D) Итак, здесь [W =^= у (ц), р.0 т4 *>(е-). При начальном состоянии х обе простые стратегии, а и Ь, имеют нижние оценки, равные —1, а марковская стратегия а, заключающаяся в выборе а и Ъ с вероятно- вероятностями 1/2, приводит к тому же результату w (х, о)=0, что распределение ц. Значит, марковская стратегия может быть существенно лучше простых стратегий (если руко- руководствоваться нижними оценками) 4. Пример 4. Видоизменим пример 3, исключив состояние х и введя в каждом состоянии ут и zm еще одно управление, по-преж- по-прежнему переводящее в ут+1 и zm+1, но дающее при любых т плату — 1. Тогда стратегия, состоящая в получении всюду платы —1, бу- будет (с точки зрения нижних оценок) асимптотически оптимальна при каждом начальном состоянии, но не будет оптимальна при на- 1 • чальном распределении р. (уг) = p. (zx) = у . Если поменять здесь q на —q, то v станет равным 1 для всех начальных распределений. Пользуясь стратегией у, предписывающей везде, где можно, брать—1, мы будем иметь w (х, f)=l = v (x) при всех начальных состоя- состояниях, но w (р., <р)=0 < 1 = 5 (|л) для того же начального распреде- распределения (J.. Значит, и при пользовании верхними оценками асимпто- асимптотическая оптимальность при всех начальных состояниях не обеспе- обеспечивает асимптотической оптимальности при произвольном началь- начальном распределении. Какие положительные результаты для задачи (Б) все же сохраняются в бесконечных моделях? При исследовании конечных моделей основным ин- инструментом служили канонические уравнения E) Мы показали, что а) Тройка (v, Ф, г) удовлетворяет этим уравнениям тогда и только тогда, когда для любой стратегии ъ и любого п wnr{x, iz)^r{z) + nv{x)^w«(x, ф05). F) Соответствующая стационарная стратегия ср = фсо асимп- асимптотически оптимальна, а функция v является асимп- асимптотической оценкой модели: й>([1, п) <: p.v = w (p., ср) G) (fi — произвольное начальное распределение, тс — любая стратегия). б) Канонические уравнения имеют решение и его можно найти с помощью процедуры усовершенствования стра- стратегии по Ховарду. В § 9 будет показано, что при определенных условиях ограниченности и измеримости результат а) справедлив и для общих моделей. Этот результат будет распространен и на случай асимптотической Е-оптимальности. Чтобы спасти в той или иной форме результат б), нужно наложить на модель условия совсем иного характера. Одно из таких условий рассматривается в § 10. § 9. Канонические и s-канонические тройки и системы для общих моделей При переходе к общим моделям нужно ввести опреде- определенные условия измеримости и ограниченности (которые выполняются автоматически в конечном случае). Мы пред- предположим, что одноточечные множества в пространстве X измеримы5, что существует хотя бы один измеримый се- селектор соответствия А(х) из X в А, что текущая плата q ограничена, и будем рассматривать только тройки (и, «р, г), где v и г—ограниченные измеримые функции ср = фга, и ф — измеримый селектор. С этими оговорками для об- общих моделей справедлив результат а) предыдущего па- параграфа. Чтобы избежать повторений, мы докажем этот результат сразу в несколько более общей форме. 4 К верхним оценкам эти соображения неприменимы. Верхние оценки играют ту же роль в задаче минимизации ш, которую имеют нижние — в задаче максимизации. 213 6 Для этого, например, достаточно, чтобы пространство X было бо- релевским (см. Добавление 1). 219
Пусть s — любое положительное число. Стратегию а назовем асимптотически е-оптималъной, если для любого начального распределения jx и произвольной стратегии л Скажем, что тройка (v, (р, г) является е-каноническощ если при любом i; из I и всех ге=1, 2, ... К(х> *)<> (ж) + «у (ж) <и? (ж, ср) + е B) (л — любая стратегия). Назовем е-канонической системой соотношения v = VUv = P^v, ¦ C) ZY<r + y<Zy + e. D) (Операторы, входящие в эту систему, задаются теми же формулами, что в § 2, только суммы заменяются интегра- интегралами 6. При е=0 мы возвращаемся к понятиям, введен- введенным в § 1 и § 2.) Будет доказан следующий результат: а') Если тройка (v, <р, г) удовлетворяет s-каноническоц. системе, то эта тройка является е-канонической; при 6=0 справедливо и обратное. Если (v, <р, г) —&-кано- ническая тройка, то стратегия <р асимптотически, t-оптималъна и функция v удовлетворяет при любом, начальном распределении р. неравенствам sup Я; ([Л, п) ^ [W ^ sup w ([л, п) -\- е. ¦ . E). Интегрируя все члены неравенства B) по начальному распределению jx, деля на п и переходя к пределу, полу- получаем, что ([A, K) , <p)-f-e (при переходе к пределу ограниченную функцию,г можно заменить нулем). Отсюда следует как A), так и B). Оста- Остается доказать, что B) вытекает из C)—D), и что при 8=0," наоборот, C)—D) следует из B). Пусть выполняется система C)—D). Докажем B) индукцией по п. При га=0 условия B) справедливы, так как г^ (х, тг)—иРг (х, ср)=г (х). Предположим, что B) вы- a Равенство обоих выражений B. 7) для оператора Т в предполо- предположения измеримости одноточечных подмножеств пространства X доказано в § 6,7 (сноска на стр. 183), 220 полнено для некоторого п. Согласно фундаментальному уравнению и предположению индукции для произвольной стратегии я о'+г(х, я)= j «(da|a;) Гд(а)+ \ p(dy\a)w?(y, na) Цх) L х < j п(йа|а;)Гд(а)+5р(йу|а)(г(у)+п%)) = J u(da|a;)fg(a) + nr(aL-lb(a)]< А(х) F) Учитывая, что супремум суммы не превосходит суммы супремумов, а также левые из формул C)—D), имеем V (q -J- Пг -f пЩ < V (q + Иг) + rcFy = ¦ . = Гг + ny < г + (n + 1) у и, значит, левое из неравенств B) выполняется также для значения re+l. Далее, по фундаментальному уравнению и предположению индукции для стационарной стратегии <р H7JI+1 (Ж, ср) = g (ф (х)) ~\- [ р (dy | ф (ж)) Wnr (у, tp) ^ Используя правые из формул C)—D), получаем так что и левое из неравенств B) справедливо для зна- значения п-\-1. . . Наконец, пусть B) выполнено для е = 0: w?(x, тс)<С г (х) -\-nv(x)^.w? (х, ср) (я — любая стратегия, п=1, 2,...) или, что то же самое, дирш»(ж, п)=г(ж)-(-геу(ж)^=^(ж, ер) (ге=1,2, ...). G) 224;
Как и в конечном случае, мы хотим переписать G) в виде ТЧ- = г + пи = Цг (п = 1,2,...), (8) из (8) каноническая система выводится так же, как в § 2. Равенство wi I есть га-кратная итерация фундаментального уравнения для стационарной стратегии <р и справедливо в общих моделях. Остается убедиться, что при условии G) верна также формула sup wnr (х, я) = Т"г (х), (9) равносильная уравнению оптимальности (см. § 1.9; для произвольных общих моделей уравнение оптимальности нами не установлено). Формула (9) выводится из G) индукцией по п. При п=0 она обращается в тождество г=г. Пусть (9) верно при не- некотором п. Учитывая левое из равенств G), мы можем по- повторить выкладку F), которая показывает, что <+1 (а:, я) < V (q -f- llr -f nllv) {x) = T (r + nv) (x). По предположению индукции и по G) r~\-nv=T"r и, зна- значит, ' w«+\(x, n)^Tn+1r(x). ¦ . (Ю) С другой стороны, в силу предположения индукции и фор- формулы G) _--.... ¦ , - T"+1r(x) = Tw-{x, <p) = sup T u>; (z, ?). г * Но по фундаментальному уравнению ~ Txw«(x, cp) = w^+1 (ж, о), где о — простая стратегия, состоящая в использовании на первом шаге селектора %, а затем — селектора ф. Знаиит, откуда вместе с A0) следует, что формула (9) верна и для Значения л-J-tr- - . - . - - , - Результат а') полностью доказан. 222 | 10. Модели с минорантой Рассмотрим наиболее простое из условий, восстанав- восстанавливающих аналогию между задачами (А) и (Б) в бесконеч- бесконечных моделях 7. Будем считать пространства X и А в модели Z борелевскими. Скажем, что переходная функция р модели Z имеет миноранту v, если v — мера на X такая, что 0 <С v (X) <С 1 и v (Г) ^ р (Г | а) при любом управлении а и любом из- измеримом множестве Г из X. Положим |3=1 —v (X) и определим новую переходную функцию р формулой ^ (Г | а) = -|- Гр (Г | а) — v (Г). Рассмотрим модель Z, получающуюся из Z заменой р на р и введением коэффициента дисконтирования J3 (см. § 6. 1). Поскольку плата q ограничена и |3 < 1, модель Z ограничена и ее оценка v является ограниченной функцией. Мы установим теперь, что если оценка v модели Ъ из- измерима и стационарная стратегия ср = фсо ^-оптимальна в модели Z, то число w, стратегия ср и функция v обра- образуют г-каноническую тройку в модели Ъ. Достаточно проверить, что тройка (w, <p, v) удовлетво- удовлетворяет s-канонической системе (9. 3) —(9. 4). Соотношение (9. 3) выполняется для любой константы v и, в частности, для v=w. Для проверки (9. 4) заметим, что соответствую- соответствующие операторы в моделях Z и Z связаны формулами (x) = q (ф (х)) + ЗП/ (ф (х)) = q (ф (х)) + = V[q (a) + П/ (а) - v/] = Tf (x) - v/ A) B) C) 7 Относительно других условий см., например, Л. Г. Губенко а д. С. ШтатландЦ]. 223
(выражения операторов для модели с дисконтированием взяты из § 6.7). , ]&, Согласно результатам §§ 6.6 и 6.7 оценка v модели Z и е-оптимальная стационарная стратегия ср удовлетворяют условиям Учитывая B) и C), приводим их к виду т. е. получаем для тройки (w, срд v) соотношения (9. 4). Отметим, что если в модели Z стационарная е-опти- е-оптимальная стратегия (р существует при любом е > 0, то число v=w будет асимптотической оценкой модели Z (ибо из справедливости неравенства (9. 5) при всех е > 0 выте- вытекает равенство A. 8)). * * * Из A) видно, что если модель Z полунепрерывна, то этим же свойством обладает и модель Z. В однородной полунепрерывной модели Z с ограниченной платой и ко- коэффициентом дисконтирования {3 < 1 оценка v измерима и существует стационарная оптимальная стратегия. По доказанному, эта стратегия будет канонической в мо- модели Z. Итак, если в полунепрерывной модели переходная функция имеет миноранту, то существует каноническая (а значит, стационарная асимптотически оптимальная) стратегия. * * * Если модель Z счетна, то счетна и модель Z. В счетной модели Z с ограниченной платой q и коэффициентом дис- дисконтирования р <С 1 для любого s > 0 существует е-оптимальная стационарная стратегия. По доказанному, зта стратегия асимптотически е-оптимальна для модели Z. Следовательно, если в счетной модели у переходной функции имеется миноранта, то для любого е ^> 0 существует ста- стационарная асимптотически е-оптималъная стратегия. Число v=w равно при этом асимптотической оценке мо- модели Z. Отметим, что в счетном случае существование мино- миноранты равносильно следующему требованию; для некото- 224 рого состояния у и некоторого числа с > 0 имеем р{у\а)^с при всех а из А. В частном .случае, когда все слои А (х) конечны, можно выбрать селектор ф так, чтобы Т^ v=v. Значит, при этом дополнительном предположении в счетной модели с ми- минорантой существует каноническая стратегия. § 11. Задача о замене оборудования В качеетве примера рассмотрим .задачу о замене обо- оборудования (см. §§ 1.2, 1.11 и 6.5). В этой счетной модели легко удается найти каноническую тройку и, значит, ста- стационарную асимптотически оптимальную стратегию. От- Отметим два частных случая, в которых существование ка- канонической тройки следует из общих результатов зтой главы. Первый иэ них — когда при некотором сроке службы К вероятность рк исправной работы оборудования обращается в 0, так что получается конечная модель с пространством состояний {0, 1,2, . . ., К). Второй слу- случай — когда уже при нулевом сроке службы вероятность поломки q0 положительна; поскольку переходная функция в этом случае имеет миноранту и можно воспользоваться заключительным замечанием § 10. Результаты §§ 1.11 и 6.5 заставляют думать, что ка- каноническая стратегия задается при некотором т селекто- селектором ( с при х<~т, ф(ж) = Ф (х)= , ^ A) YV ' TmV ; { d при x>m. v ' Подсчитаем асимптотический средний доход w при стра- стратегии ^р = фсо. При этой стратегии мы попадаем не более чем за т шагов в состояние 0 и затем навсегда остаемся в конечном множестве состояний {0, 1, 2,. . ., т]. Отсюда следует, что, во-первых, w (x)=w @), так что w (x) — кон- константа, и, во-вторых, что применимы результаты § 3 и число w может быть определено из системы уравнений Ховарда 15 Е. Б. Дынкин, А. А. Юшкевич
(см. формулы C. 1)—C. 3)). Заметим, что при ж, • C) и поэтому второе из уравнений B) равносильно системе / (т - 1) + w = »-i + p»-i/H+(?»-i/@). E) (первое из уравнений B) выполняется для любой кон- константы w). Вместе с / системе D)—E) удовлетворяет лю- любая функция /-j-const. Отражая зависимость ф, w и / от номера т (см. A)), будем писать теперь ф1В, wm и fm. Можно считать, что /-@) = 0. , F) ...=a-wm. G) Из E) получаем Полагая ?* = PoPi.--P« (^-i = l). (8) умножая уравнения D) поочередно на 1, Lo, . . ., Lin_2 и суммируя их от 1-го до (х—1)-го, находим 8 f ,„\_ A + Lo -| + Lx_2) wm — (Loho ¦+ Lxhx + • • • + Ae-A-i) J [X) j— (x = 0, 1, . . ., (9) 8 Мы предполагаем, что все вероятности рх отличны от нуля, так что ЬХ_ХФ§. В противном случае модель по существу конечна и нужно рассматривать только числа х и к, не превосходящие но- номера К, при котором впервые Рк=0. Окончательные результаты формулируются при этом так же, как в случае не равных 0 ве- вероятностей рх. 226 Приравнивая два значения fm (m), получаемые из G) и (9), имеем Система уравнений B) для селектора фот решена. Предположим сначала, что существует наибольшее из чисел w0, wu . .'., wm, .... Пусть это будет wk. Покажем, что (у, (р, r) = (wk, ф^3, /J —каноническая тройка, и, стало быть, стационарная стратегия <р = ф™ асимптотически оптимальна. Из G) видно, что функция /д. ограничена. Согласно ре- результатам §§ 2 и 9, достаточно проверить, что выполняются канонические уравнения B. 1)—B. 2). Уравнение B. 1) верно для любой константы v, в частности, для v=wk. Левое из уравнений B. 2) совпадает со вторым из уравне- уравнений системы Ховарда B) и, значит, тоже выполнено. Оста- Остается убедиться в справедливости правого из уравнений B. 2): = Tfk. . (И) Оператор Т на функции, удовлетворяющие F), действует по формуле Tf{x) = max[pJix-\-pJ(x~\-l), a]. Сравнивая это выражение с C) (где теперь считаем m=k), видим, что уравнение A1) сводится к системе неравенств рА + рЛ(* + 1)>а (о<*<*), A2) рА + рЛ (*+*)<« №<*)• A3) Из (9) и A0) нетрудно вывести, что неравенства A2) рав- равносильны неравенствам Щ>"> @<г<й). " A4) Щ>">* @<<) Из G) вытекает, что A3) равносильны неравенствам A5) Поскольку i>0z функции hx и рх — невозрастающие, то система неравенств A5) сводится к одному неравенству 1 — Pk 15* 227
Элементарная выкладка, использующая формулы (8) и A0), показывает, что это неравенство эквивалентно ус- условию () Но неравенства A4) и A6) выполняются ввиду выбора номера к. Значит, справедливы и соотношения A2)—A3), и наше утверждение доказано. Более того, мы видим, что оптимальный номер к можно определить как первый номер т, для которого wm+l Остается случай, когда w при всех т. A7) Мы покажем, что в этом случае является канонической тройка • - V , • A8) при х = 0, (х) = с 'при всех х, @ г=0 ГфИ Для этого достаточно проверить, что /» + «>» = ZWc = 27» B0) и что функция /т ограничена. Первое из уравнений B0) получается предельным пе- переходом из соответствующего уравнения для wm, ф,„ и fm (см. B) или, в развернутом виде, D)—E)). Второе урав- уравнение B0) равносильно системе неравенств « (* = 0, 1, 2,...) (ср. переход от A1) к A2) —A3)). В силу A0) и A9) зти 8 При предположениях A7) все Lx отличны от нуля, ибо если Lx-\>Lx=0, то согласно A0) L ,а 0. неравенства эквивалентны неравенствам "><»>">* (ж = 0, 1, 2, . ..). Последние верны ввиду A7) и A8). При доказательстве ограниченности функции /га при- придется рассмотреть два случая: 1) когда среди чисел рх хотя бы одно меньше 1 и 2) когда все рх равны 1. В первом случае, в силу монотонности рх, числа Lx x стремятся к 0 не медленнее членов сходящейся геометри- геометрической прогрессии, и из A0) следует, что B1) где * = 2Х- B2) о -1 Подставляя эти значения в B0), имеем после упрощений ж-1 B3) Из формулы (8) и монотонности р^ следует, что Кроме того, по условию задачи Поэтому и из B3) имеем Во втором случае Lx—\ при всех 1,я формула A0) обращается в ц,я=А + *1 + -у+йи_1 + «< . B4) 229
Поскольку hx — невозрастающая функция от х и, следо- следовательно, существует предел hw =¦¦ lim hx, ж-* со то из B4) вытекает, что "'со = ^со- При этом для /от (х) из B0) получается выражение = —1(Ло - Лсо) + (fei - Л») + . • ¦ + (Vl - Ml- B5) Условие A8) при значениях wm, определенных форму- формулой B4), обращается в (К - К) 4- {К - hm) + . . . + (hm^ - AJ < hm - a. Переходя к пределу при wi -* оо, получаем ю <Ле а, так что написанный ряд сходится. Значит, его частные суммы, фигурирующие в B5), ограничены. § 12. Задача о стабилизации В этой задаче (см. §§ 2.11 и 6.12) плата q неограниченна снизу, и поэтому результаты § 9 неприменимы. Однако в § 2.11 мы видели, что оптимальная стратегия на про- промежутке времени [0, п] при п -^ оо переходит в стацио- стационарную стратегию ср = фго, порожденную селектором 10 Законность этой операции следует из общей леммы о предельном переходе под знаком бесконечной суммы: если ах (т) > 0 и ах (го) f со со t ах(<х>) при т-+ <ю, то ^ ах (™) t ^ ах{сс)- (Эта лемма аналогична известной теореме о монотонном переходе к пределу под знаком интеграла.) Чтобы применить эту лемму к интересующему нас ряду, нужно положить ах {m)~hx—hm при х < т и ах (го) = 0 при х > т. 230 где I — положительный корень квадратного Уравнения Ъс = <д. B) Та же самая стратегия получится, если перейти к пределу при р \ 1 в формулах F. 12. 4)—F.12. 5). Естественно ожи- ожидать, что эта предельная стратегия асимптотически опти- оптимальна. Покажем, что так и есть на самом деле. Фиксируем начальное распределение р и докажем, что lim ., ф) ,. vn -L' = bm — п (о) где if (fi) — оценка начального распределения ft на про- промежутке управления [0, п] Из равенства C) вытекает асимптотическая оптимальность стратегии ср; для любой стратегии л имеем vf (рш u) ^ if (jx) и поэтому выполня- выполняется неравенство A. 7). Согласно § 2.11 vn(x) = ~ lnx2-mn, ¦ D) причем нт гя = г, В силу D) E) F) где +СО а = ( x2[i (dx), и мы имеем —°2^. 6сли lim^^Z = ^ - ' G) „^со п [ —оо, если a = оо. Вычислим uf (х, <р) = Г?О (х). Из формул F.12.11) — F.12.12) при C=1 имеем w"(x, <p).= — Lnx*-Mn, (8) где Ln = 0, (9) 231
¦ M0.= 0, _ _ (И) Mn* = *K + Mn. A2) Вычитая почленно из равенства A0) аналогичное соотно- соотношение между Ьп и Ь„_г, имеем . г г __ с' ,г г ,  "« (Z + 6+cJ ^~4-l)- Коэффициент справа меньше 1, и, стало быть, разности 4+i—4 убывают достаточно быстро, чтобы существовал конечный предел L последовательности L . Переходя к пределу в уравнении A0), находим В конце § 6.12 было показано, что последнее выражение равно I. Итак, HmLB = Z. A3) Из A1) и A2) имеем Из формул (8) и A3)—A4)-вытекает, что lim w"^' 9) п -оо при <х= оо. ' ' Из G) и A5) следует C). Отметим, что в силу C) и G) асимптотическая оценка модели равна v (х) = —аЧ. Часть III НЕКОТОРЫЕ ПРИМЕНЕНИЯ Глава 8 МОДЕЛИ С НЕПОЛНОЙ ИНФОРМАЦИЕЙ § 1. Описание модели До сих пор считалось, что мы полностью наблюдаем траекторию управляемого процесса йт+1 am+i - ¦ at t л \ Хт * Хт+1 > • • ¦ Xt-1 * х( ~* • • • (>¦) Предположим теперь, что состояние системы в момент t описывается парой xtyt, причем первая из этих компонент становится нам известной, а вторая — нет. Таким образом, действительное течение процесса задается траекторией х,пУш +\Ут+1 щ B) а наблюдаем мы по-прежнему цепочку A). Управления at и наблюдаемые состояния xt_u как и раньше, связаны между собой проекцией /. Ненаблюдаемые состояния yt — это элементы каких-то множеств Yt. Они влияют как на механизм перехода к оче- очередному состоянию, так и на получаемый доход. Переход- Переходная функция р задает теперь распределение вероятностей для состояния xtyt из произведения пространств Xt X Yt в зависимости от yt^ и at (поскольку xt_x=) (at), введение дополнительного аргумента xt_x не дало бы ничего нового). От той же пары y,^at зависит и текущая плата q на t-n шаге (финальная плата в момент п зависит от пары хпуп) х. 1 Более общий случай, когда плата на шаге t зависит от элементов xt-iVt-\atxtyti сводится к рассматриваемому введением новой платы, равной математическому ожиданию q..(xt-\Mt-\atxt)li) от- относительно распределения р (-|Ула<)- 233
При этом подразумевается, что доход q{yt^at) на t-мшаге выплачивается по окончании процесса управления. Если бы мы получали этот доход немедленно, то его численное значение давало бы дополнительную информацию о не- ненаблюдаемых состояниях системы, и элементы модели нужно было бы перестроить так, чтобы включить число q {yt_xat) в наблюдаемое состояние х{2. Чтобы определить меру в пространстве траекторий, необходимо задать начальное распределение р. и стра- стратегию л. Роль распределения р. теперь несколько иная, чем в моделях с полной информацией. Считая известным [а, мы тем самым предполагаем известным и распределение вероятностей для ненаблюдаемого начального состоя- состояния ут (хотя значение ут нам и не дано). В математической статистике различают байесовский подход, при котором для неизвестного параметра у вводится некоторое «априор- «априорное» распределение вероятностей, и минимаксный под- подход, когда статистические решения оцениваются по «худ- «худшему» из возможных значений у. Предполагая, что \х известно, мы избираем байесовский подход. Стратегия г. не может зависеть от ненаблюдаемых зна- значений уп„ ут+1 Однако она может учитывать, по- помимо наблюдаемых состояний хт, хт+1, ... и уже ис- использованных управлений ат+1, am+i, . . . также начальное распределение. Поскольку значение хт становится нам известным, для выбора управлений существенно не сов- совместное распределение р. начальной пары хтут, а лишь условное распределение vm для ут при наблюденном хт. Мы включаем распределение vm в наблюдаемую историю, от которой зависит выбор очередного управления. Пара xmvm играет роль начального состояния. При этом хт — любая точка пространства Хт, a vm — любая вероятност- вероятностная мера на У'т. Пары хт, р. и х,„, чт тесно связаны между собой, но не вы- выражаются друг через друга однозначно. Со второй парой иметь дело значительно удобнее. Оценки w (р, г.) и v (р) определяются обычным образом через меру Р?. Не меняется и постановка задачи опти- оптимального управления. 2 И мы имели бы тогда частный случай ситуации, о которой гово- говорится в предыдущей сноске: q (xt^xyt-i){) 234 Отметим, что еслк все пространств* Yt ео&тоят и» оД- ной точки, то мы получаем изучавшуюся в предыдущих главах модель с полной информацией. § 2. Сведение к модели с полной информацией. Конечный случай По каждой модели с неполной информацией мы построим некоторую модель с полной информацией так, чтобы оценки соответствующих стратегии в них совпадали. Применяя затем результаты предыдущих глав, мы полу- получим теоремы о существовании оптимальных стратегий в моделях с неполной информацией. Наш замысел состоит в том, чтобы ввести новые про- пространства состояний, рассматривая как состояние в мо- момент t всю существенную для дальнейшего управления информацию, которой мы располагаем в это время. В на- начальный момент т эта информация описывается наблю- наблюдаемым состоянием хт и априорным распределением vjn для ненаблюдаемого состояния ут. В любой момент t ^> m ее естественно описывать парой xt4t, где v, — «апостери- «апостериорное» распределение вероятностей для состояния yt, вычисленное с учетом всей наблюденной к этому моменту истории. Начнем со случая, когда все пространства Xt, Yf и А, конечны. В этом случае вероятность цепочки 1 = =х,пУшат+1хт+1Ут+1- • -aA#» ПРИ начальном распределе- распределении ц. и стратегии к определяется формулой3 @ {ат +11 КI р {т+т1 утат+1). .. ¦ • • a«-A~i) Р (хпУ« I Уп где распределение vm вычисляется по формуле rAym) = vm(ym\xm)=^fz) A) B) (если знаменатель равен 0, то можно принять за vm (. | хт) любую вероятностную меру на Ym, например, некоторую раз навсегда выбранную меру v*n). 3 В определение стратегии я добавляется требование измеримости по аргументу vm. 235
Построение вспомогательной модели с полной инфор- информацией начинается с выбора пространств состояний Хг Положим Xt — XlxNt, где Nt — совокупность всех ве- вероятностных мер на множестве Yt (из Nt принимают зна- значения распределения v^). Управления в новой модели остаются прежними. Одно и то же управление at возможно теперь при различных состояниях xt_1=xt_1\t_1, отличающихся распределени- распределениями v, х. Если мы хотим, чтобы слои А (х) не пересека- пересекались, то должны считать «управлением» пару vtlat—at (ср. аналогичное замечание в § 1.2) Чтобы задать новую переходную функцию р, мы дол- должны сопоставить каждой паре v,_A распределение веро- вероятностей в пространстве XtxNt. Исходная переходная функция задает распределение в пространстве Xt xYt, как функцию от j^-A* Фиксируем ^t_1ar- Естественно сопоставить этой паре распределение в пространстве ~Х( X xYt, определяемое формулой VA) = 2 I Vt-iat) v;-i C) Это распределение расщепляется на распределение в Xt и условное распределение в Yt: Р{xtVtIVA) = S(xt\ VA)vt {У11 VA^i)! D) здесь p (xt I va) =2? (щ I va) E) a x ) — A**; — I *<-! p{Xt F) (если знаменатель обращается в 0, то принимаем за ч{ некоторую фиксированную меру м° на Yt). Формула F) определяет отображение xt -*¦ \t, и мы можем задать рас- распределение в пространстве XtxNt, принимая для первой компоненты распределение E) и считая вторую компо- компоненту функцией первой по формуле F). Мы определили распределение вероятностей в пространстве XtxNt = Xt, зависящее^ от 4txat=at, т. е. переходную функцию р из At в Хг По нашему замыслу распределения v; должны быть «апостериорными» распределениями для yt с учетом всех 236 наблюдений, сделанных к моменту t. Другими словами, должна выполняться формула < (у) = . . . atxtyt) 2 РЪ {xmam+lxm+l ¦ ¦ ¦ atxtz) При t=m это верно в силу формулы B), при t > т про вернется по индукции с помощью A) и C)—F). Новая текущая плата задается формулой Я (VA) = 2 Я BVA) Vi (J/<-i)> S>t-x?Tt-, новая финальная плата •— формулой G) (8) * * * Мы построила по конечной модели Z с неполной инфор- информацией новую модель Z с полной информацией, в которой пространства состояний и управлений несчетны. Пока- Покажем, что модель Z полунепрерывна (см. § 2.4). Вероятностная мера v на множестве из s точек описыва- описывается набором из s неотрицательных чисел, в сумме рав- равных 1. Это ограниченное замкнутое множество в s-мерном арифметическом пространстве и, следовательно,, ком- компакт. Поэтому все пространства Xt = XtxNt nAt=Nt_1xAt компактны и, значит, удовлетворяют условию 2.4.А. Проверим квазинепрерывность соответствия х-*А(ж) (условие 2.4.Б). Пусть последовательность состояний хп = xnvn сходится к состоянию х = xv и управления а^ принадлежат слоям А (хп). В таком случае хп~*х, v,,-*v и ая = чпаи, где ап?А(хп). Ввиду конечности слоя А(хп) некоторая подпоследовательность аП]с имеет предельную точку а в А(хя). Ясно, что а„к-* va^A(x). Условие 2.4.В требует, чтобы переходная функция р переводила непрерывные ограниченные функции / на Xt в непрерывные функции g на At (см. также 2.4.В7). По Построению переходной функции р имеем ?(VA)= .2 (9) где меры vt вычисляются но формуле F). Поскольку мно- 237
жества At и Xt конечны, нужпо лишь Проворить, что каждый член суммы (9) непрерывно зависит от меры v? r Мы "имеем произведение двух функций, из которых вто- вторая— P{xt\vt-iat)—непрерывна всюду (см. E) и C)), а первая—f{xtvt)— ограничена и непрерывна всюду, где вторая отлична от нуля (см. F)). Ясно, что такое произ- произведение является непрерывной функцией. Непрерывность и ограниченность плат (условие 2. 4. Г) видны из формул G) и (8). Если модель Z однородна во времени, то модель Z тоже однородна. Начальное распределение \х в модели Z расщепляется на распределение в Хт и условное распределение в Ym: где = 2 (И) a vm находится по формуле B). Зададим распределение \х в пространстве Xm = XmXNm, принимая для первой ком- компоненты распределение A1) и считая вторую компоненту функцией первой, вычисляемой по формуле B). Меру \х можно рассматривать как начальное распределение в мо- модели Z, отвечающее начальному распределению [л в мо- модели Z. Имея произвольную историю ft = хт^тат+1хт+1ат+2х^+2. . . . . .atxt в модели Z, мы можем по формуле F) рекуррентно> вычислить vm+1, vmt2, . . ., v^ и получить соответствующую' историю ft = a;mvmam+1xm+1vm+1 . .. a^v, для модели Z4. Это- позволяет сопоставить каждой стратегии тс в модели Z стратегию й в модели Z: вычисляя ft no ft и подставляя: ft в тс (-(ft), мы получаем распределение вероятностей ft (• | ft) для очередного управления. Ясно, что таким образом получается любая стратегия ft в модели Z: достаточно положить тс {хтУтат+1хт+1^т^ . .. atxtvt) — = ffi B:mVmam+l;rm+l • • • atXt) @!1У°КаЯ В ПраВОЙ ЧЭСТИ Эргу- менты vmi, ... v.V 4 Формально следовало бы каждое vg(s < г) писать здесь два раза' как компоненту состояния xs и как компоненту управления as+1. 238 Чтобы свести задачу управления в модели Z с непол- неполной информацией к аналогичной задаче для модели Z, нужно показать, что оценка w (fi, ft) стратегии ft в мо- модели Z совпадает с оценкой ге($-, л) стратегии к в мо- модели Z. Для этого достаточно убедиться, что П? () Ffi/ (^J/J. A2) Пй Km) { Обе эти формулы вытекают из следующего общего факта: для любой функции /, любого начального распределения jj. в модели Z и любой стратегии п в модели Z где ht = x^mam+1 . . . atxt (наблюдаемая история в мо- момент t) и S )^{yt). A4) Согласно формуле A.3.2) X ям Хтс m+1 J тс (am+11 a;mv J p {хю+ X X A5) Из определений ji и р следует, что эта вероятность может быть отлична от нуля только в случае, когда мера vm есть функция от р. и хт, вычисляемая по формуле B), и vg при s^>m является функциями от v4 x, as и хе, задан- заданными формулой F). Учитывая определение стратегии ft, для таких «допустимых» цепочек можем переписать фор- формулу A5) в виде ) л+1 I Жт^) Р (Xml vmam+l) Й («т+а! ^»тй ai) ffi (a^+l I Ж»Чт««А+1 • • • а/ЖЛ- • Сопоставим ее с вытекающей из A) формулой , (ХтУтат+1Хт+1Ут+1ат+2 ¦ • • ЪУРнд = ¦¦¦P{xt\ A6) ренте предшествующего состояния xsvg. 239'
= Р- (ХтУт) ffi («m+l I 3mvJ P (хт+1Ут+1 | Утат+1) X X « (am+21 xmvmam+1xm+1) ... p{xtyt\ yt_xat) X X ft (am | з^А+А-ц • • • «A)- A7) (vm — та же функция от ци хт). Опираясь на A6) и A7), мы докажем формулу A3) индукцией по t. При t=m нужно показать, что 4f {^шУтат+1) = VI , 2 / (хтчтутат+1) vm (ym). A8) Ут&Ут В силу B) для любой . допустимой цепочки хт\гутат j имеем V- (хтУт) « (am+i | xmvm) = p. (zj я (яет+11 з;Л) vm (ym); умножая обе части этого равенства на / (xmvmymam+1), суммируя по хт, ут и атП и учитывая формулы "A6) и A7), получаем A8). Далее, согласно A7), левая часть формулы A3) равна где /i (Vi^-A) = 2 Р {x,yt | yt_jat) ft (a<+11 ht) f (htytal+1), xtytat+i а правая ее часть, в силу A6), сводится к Р|/, (fy_iVia*)> где xt"t+i Чтобы получить A3) иэ предположения индукции, оста- остается проверить, что Л (ViVA) = 2 /i (Vi^-A) Vi (y<-i) A9) (т. е. что выполнено A4) с заменой t на t—1). Поскольку мы имеем дело только с допустимыми цепочками, в кото- которых vf связано с 4t_! формулами C)—D), то 2 Р (xt{Jt I Vt-iat) yt-i (Vt-i) = P(xt\ vt-iat) Ь iVt)- 340 Умножая обе части на ft {ut+1\ht) fi(htyta(+1) и суммируя по ж^ ^ и at+1, приходим к A9). * * * . Подведем итоги. Мы имеем отображение п -> % мно- множества стратегий модели Z на множество стратегий Z та- такое, что ц?([х, n) = w(\±, n) B0) при любом начальном распределении {д. и соответствую- соответствующем начальном распределении ji. Отсюда следует, что v (^)=г5 (ji), и что стратегия ft оптимальна для процесса Z^ тогда и только тогда, когда стратегия ¦к оптимальна для процесса Zp.. Следовательно, для равномерной оптималь- оптимальности стратегии ft в модели Z достаточна равномерная оптимальность п по отношению к модели Z 6. Мы проверили, что модель. Z полунепрерывна. Если промежуток управления [т,п\ конечен, то согласно ре- результатам главы 2 в модели Z существует простая равно- равномерно оптимальная стратегия tp = <lVn4>,n+2 • • • Ф«' гДе Ф/ — (измеримое) отображение пары хг_^A в A(xt_1). Иными словами, существуют (измеримые) функции сопоставляющие каждому наблюдаемому состоянию xf и любому распределению вероятностей v^ для ненаблюда- ненаблюдаемого состояния yt очередное управление at+1 независимо от всей прочей информации о предшествовавшей истории и такие, что стратегия 43 = Ф,ипФт+2 • • • фи равномерно опти- оптимальна в модели Z. Для модели с неполной информацией получается следующий способ построения стратегии, являющейся оптимальной при всех начальных распре- распределениях [J.: надо на каждом шаге выбирать управление B1), где xt — наблюдаемое состояние, а . vt — распределение вероятностей для ненаблюдаемого состояния yt, которое определяется по ^_г с помощью формулы F) {начальное или «априорное» распределение vm определяется по у. с по- помощью формулы B)). В случае промежутка управления [0, со) для сущест- существования в модели Z простой оптимальной стратегии <р = 6 Обратное утверждение v (ji) = \iv (не каждое распределение вероятностей на Х,„ X Nm получается из некоторого распределе- распределения (х на Хт X Ym). > Е. Б. Дынкин, Л. А. Юшкевич 841
= ф1ф2. . . tyf. . . достаточно дополнительно потребовать, например, чтобы сходился ряд B2) (см. § 5. 6). Этот- ряд сходится, в частности, если модель Z однородна и коэффициент дисконтирования р <С 1. Согласно § 6. 6 в этом случае в модели Z существует стационарная опти~ малъная стратегия (в которой селектор <\>t один и тот же для всех моментов времени t). В конкретных задачах часто приходится иметь дело со случаем, когда слои А (х) при разных х пересекаются, а переходная функция и текущая плата на шаге t зависят, кроме y(_i и at, и от xt_x. Это случай сводится к разобран- разобранному введением новых управлений a't=xt_xat (ср. § 1.2). Предположим теперь, что слой А (х) не зависит от х, переходная функция р (x(yt | xt^yt_xa^) и текущая плата q (xt^xyt_xa^) не зависят от xt_x, т. е. что наблюдаемое состоя- состояние не влияет ни на возможности управления, ни на даль- дальнейшую эволюцию системы и_ дальнейший доход. В этом случае оператор Т в модели Z переводит любую функцию от х, v в функцию от одного v. Поэтому оценка v (x, v) модели Z не зависят от х. Легко видеть, что и селекторы ф<+1 в формуле B1), задающие оптимальное управление, можно выбрать не зависящими от хг § 3. Задача о двуруком бандите Одна из наиболее простых задач управления по непол- неполным данным известна в литературе как задача о двуруком бандите. Это — название игрального автомата, имею- имеющего «две руки», куда можно опускать монеты одного и того же достоинства. Монета либо теряется, либо возвра- возвращается с определенным выигрышем, не зависящим от руки. Для одной руки вероятность выигрыша равна рх, для другой — р2. Мы будем считать, что р1 > р2. Если бы мы знали, является ли выгодной правая или левая рука, то могли бы играть все время с выгодной рукой. Суть задачи состоит в том, что положение выгодной руки неизвестно, (Так как оно не меняется, то скрытая информация мини- минимальна и составляет один бит.) Выигрыш или проигрыш становится немедленно известным, и этим исчерпывается вся информация, приобретаемая за один шаг. В начальный момент задается распределение вероят- вероятностей для положения выгодной руки (оно суммирует всю информацию, которая имеется до начала игры). Учитывая результаты игры, можно вычислить в каждый момент «апостериорное» распределение. Замечательный по простоте и наглядности окончательный результат состоит в следующем: независимо от продолжительности игры нужно каждый раз иметь дело с той рукой, шансы которой оказаться выгодной представляются в этот момент выше. Чтобы получить этот результат, построим соответ- соответствующую нашей задаче однородную модель с неполной информацией. Ненаблюдаемое состояние yt не зависит от t. Припишем ему значение 1, если выгодная рука левая, и значение 2, если она правая. Будем считать на- наблюдаемое состояние х) равным 1 в случае выигрыша ж равным 2 в случае проигрыша на шаге t. Управление в каждый момент состоит в выборе левой или правой руки. Мы положим аг = 1, если выбирается левая рука, a at=2, если правая. Таким образом, пространства наблюдаемых и ненаблюдаемых состояний и пространство управлений состоят каждое из двух элементов X=Y=A={i, 2}. Переходная функция р определяет распределение веро- вероятностей для xtyt в зависимости от значений yt_xat 7. Чтобы короче записать переходную функцию, удобно обозначить через рх (х) вероятность исхода х для выгодной руки и через р%{х) — для невыгодной, так что РД1) = Р,. Р4B) = 1-р, 0 = 1,2}. A) Переходная функция выражается через р( (х) формулой р1 (х) при у' =у=а, р (ху' | уа) = р2(х) при у' = у 0 при у1 -фу. B) ' Поскольку пространства управлений (слои) А [х] в разных со- состояниях х пересекаются (они даже совпадают), то распределение вероятностей для xtyt могло бы зависеть не только от yt_1 а/, но и от xt_x (ср. соответствующее замечание в § 2). В нашем случае значение a^-i* очевидно, не влияет на это распределение. 16* 243
Доход от каждой игры может принимать два значения, зависящие от устройства автомата. Обозначим их через dx и d2, причем будем считать, что d1 ^> d2. В соответствии со сноской на стр. 233 можно заменить доход на шаге t его математическим ожиданием относительно распределения Р (" I Vt-\at) и ввести текущую плату 2A при у = а, Pi(z)dx, где * = |2 ^fl. О) Значения dx и d2 для анализа задачи несущественны. Наиболее компактные формулы получаются, если выбрать их так, чтобы q (ya) — Pi — Р2 — Pi П1)И У (для этого достаточно положить dt=2—р1—р2, d2=—p1— —р2). Финальная плата равна нулю. Согласно общим результатам § 2, нужно перейти к мо- модели Z с полной информацией. Мы имеем дело со случаем, когда слой А(х), переходная функция р {• \ хуа) и плата q {хуа) не зависят от х. Поэтому применимо замечание в конце §_2, и при построении оптимальных управлений в модели Z мы можем рассматривать действие оператора Т на функции в пространстве N. Согласно формулам §§ 2 и 1.6 имеем 77 (v) = max [?/,/(>), )], где UJ(v) = q(va) + jlp(x\,a)f (v') (a = 1, 2) F) и v' — распределение для ненаблюдаемого параметра У}=у0, в которое переходит распределение v при управ- управлении а и наблюденном значении х. По формулам B. 3) — B.6) и B)—D) имеем 244 р« П ¦* (у) q (va) = (Pl — p2) [v (я) — v (a)]. (Мы полагаем a = l при a = 2 и a = 2 при a=l.) Распределение v однозначно задается числом . 8 = v B) — v A); в самом деле, 2 (8) (9) Поэтому пространство Лт распределений на Y можно отож- отождествить с отрезком [—1 ^ 8 г^ 1]. Учитывая формулы G)—(9), можем в новых обозначе- обозначениях переписать формулу F), определяющую операторы Ua, в виде A0) UJ (§) = 2Л8 где Pl Р2 Pi A) -РгУ)_ Р2 B) 2 — B) 0 • (И) (в правых частях выражений для UJ аргумент v' заме- заменяется на 8' = v' B) — v' A), вычисляемое с помощью G)). Мы хотим доказать оптимальность стационарной стра- стратегии, определяемой селектором 1 при Ъ< О 2 при В>0 A2) (для определенности мы считаем, что при 3=0 выбирается 245
правая рука). Для этого нужно проверить, что при h r«0 = r. A3) Заметим, что в силу A2) A4) A5) при A6) U2f C) при 3 > 0. Положим Для доказательства A2) достаточно убедиться, что при любом п Положим gn = UJn-UJ,, A7) Согласно A4) и E) формула A6) будет доказана, если мы установим, что к„(Щ>0 (-1<8<1). A8) Это совсем легко доказывается в частном случае, когда р2=1—р1 (т. е. вероятность выигрыша при выгодной руке равна вероятности проигрыша при невыгодной руке). В самом деле, из (I) и (II) видно, что в этом случае Q1=Q2, и из A0) следует, что 8#и (§)=4Д82. В общем случае удобнее доказывать индукцией по п несколько более силь- сильное утверждение, а именно: (A) gn— неубывающая функция и *я@) = 0. A9) Для проведения индукции нам понадобятся следую- следующие свойства операторов Ua: а) UJJ^UJJ^ б) оператор С/2 переводит неубывающие функции в не- неубывающие. Утверждение а) проверяется элементарной выкладкой с использованием формул A0). Оно имеет следующий на- наглядный смысл: если мы играем дважды, опуская монету сначала в одну, а затем в другую руку, то результат не зависит от порядка этих рук. 246 Поскольку функция 2R § — неубывающая, то доста- достаточно проверить утверждение б) для оператора Sf C) = С/3/ (S) - 2ЛЗ = X (S) / [а C)] + ? (S) / [0 (§)], где а(8) = : Р(8) = -Д MS) ' Непосредственно убеждаемся, что на отрезке [—1, 1] функции X, аи р — возрастающие, что а ^ 8 и -/i Рис, 8.1 (графики функций а и 8 показаны на рис. 8.1). При -1<§1<§2<1 имеем X(82)-X(81) = fi(81)-p(8^ и, следовательно, Sf (8,) - Sf (80 = [X C2) - X (801 {/1« (S2)] - / [р (8a)J} + Если / — неубывающая функция, то все квадратные скобки неотрицательны, так что функция Sf — тоже неубывающая. Вернемся к доказательству предложения (А). При п=0 имеем /0=0 и go=Ui0—U10=ARb; эта функция удовлетворяет (А). Допустим, что (А) справедливо при некотором п ^ 0, и докажем, что тогда оно верно и при п+l. Из A0) видно, что 317
поэтому, используя а), можем переписать функцию gn+1 = = U2fn+1 - UJn+l = UJfn - V\Tfn в виде gn+, = U^ + U1W, . B0) где O = Tfn-Uj., V = UJn-Tfn. B1) Из предположения индукции и формул E) и A7) сле- следует, что @ при § <;о, Ч B2> и что функция Ф — неубывающая. Из B2) и A0) выте- вытекает, что U1W(b) = — изФ(—8), и, следовательно, формула B0) принимает вид ё„п(«)=и2Ф(Щ-и,Ф(^>). B3) В силу б) функция С/2Ф — неубывающая, и из B3) следует, что этим свойством обладает и функция gll+1. При 8=0 получаем из B3), что glHl C)=0. Итак, предложение (А) верно и для номера п-\-1. Оптимальность стационарной стратегии, порожденной селектором A2), доказана. § 4. Сведение к модели с полной информацией. Общий случай До сих пор мы предполагали, что пространства состоя- состояний и управлений конечны. Это предположение слишком стеснительно, так как наиболее естественные приложения приводят к более общим пространствам (в частности, та- таково большинство примеров., рассмотренных в предыду- предыдущих главах). Основная идея § 2 состояла в том, чтобы рассматривать как состояние пару a;v, где х — наблюда- ембе состояние, a v — распределение вероятностей в про-' странстве ненаблюдаемых состояний. Эта идея применима и в общем случае, но ее реализация технически сложнее, так как вместо элементарных выкладок с условными вероятностями в конечных пространствах приходится иметь дело с более громоздкой теорией условных распре- распределений, изложенной в добавлении 4. Итак, предположим, что Xt, 7(и At — произвольные борелевские пространства, что переходная функция pt(dxtdyf | yt^xat) и текущая плата q {у^а}) измеримы по совокупности yt_x(it, а финальная плата г {хиу,) измерима по совокупности хпуп. Будем также считать, что эти про- пространства и функции обладают всеми остальными свой- свойствами, содержащимися в требованиях 2.2 а)—2.2е). Стра- Стратегия п теперь, помимо наблюдаемой истории, зависит от начального распределения vm на множестве Yт и должна быть измерима по совокупности всех этих аргу- аргументов. Распределение в пространстве путей, отвечающее на- начальному распределению \х и стратегии it, задается фор- формулой Р; (dxmdymdam+1dxm+1dym+1 . .. dand = [л (dxmdym) n (dam+11 ajmvm) p (dxm+1dym+11 ymam+1) ... ... n {da, 1 xmvmam+1xm^ . .. a^Vi) P K^xndyn \ yn^an). A) Здесь vm — условное распределение ут при заданном хт. Это — измеримая функция от хш, удовлетворяющая ра- равенству V- (dxmdym) = [д, (dxm) vm (dym \ xm) B) (см. добавление 4; формула B) не определяет функцию vm однозначно, но мы фиксируем какой-нибудь вариант этой функции). Пространство Nt вероятностных мер на Y( тоже явля- является борелевским пространством (см. добавление 5). Как и в дискретном случае, новая переходная функция сопоставляет каждому значению at — vtlat распределение в пространстве XtxN(, сосредоточенное на парах xtvn где ч(. является однозначной^ функцией от xt (вид этой функции зависит от а(). Как и в § 2, мы отправляемся от распределения в пространстве X(xY( at)= j p {dxtdyt C) (ср. формулу B. 3)).' Формулы B. 4)—B. 5) заменяются на Р (dxfdyt \at)—p (dxt \ at) v, (dyt \ atxt) D) Yt\ut). E) 249
Ёместо элементарной формулы B. 6) для определения мер v, (• | atxt) мы должны теперь воспользоваться резуль- результатами добавления 4. Согласно лемме 2 из § 1 добавления 5 мера C), а значит и мера E) зависит измеримым об- образом от аг Поэтому v^ (• \afxt) можно считать измери- измеримым по совокупности atxt (см. сноску на стр. 309). Отсюда легко выводится, что мера в пространстве XtXNt, зада- задаваемая парой р (dxt | at), vt (¦ | a~txt), также измерима относительно аг Пусть jAa (dx) — мера на X, измеримо зависящая от а, и % (х) —- измеримое отображение произведения А X X в пространство Е. Тогда образ |Ха меры jx при отображении <ря зависит измеримо от а. Действительно, если / — любая измеримая функция в пространстве Е, то / [% (х)] измерима по совокупности ж и а и согласно лемме 2 из § 1 добавления 5 функция F(a, a')= dx) F) V измерима по совокупности а и а'. Следовательно, F (а, а') измерима по а. Но при /=Хг имеем F (а, а)=?в (Г). Текущая и финальная платы в новой модели задаются формулами G) Нетрудно проверить, что функции р, q и ^обладают свойствами 2.2а)—2.2.е). Обозначим определяемую ими борелевскую модель с полной информацией через Z. Если Z однородна, то однородна и модель Z. Предостав- Предоставляем читателю убедиться, что из нетривиальности мо- модели Z вытекает нетривиальность Z. « * * Каждому начальному распределению р в модели Z мы ставим в соответствие начальное распределение в мо- модели Z следующим образом. Пусть vm (• | х,„) — мера в про- пространстве Ym, введенная формулой B). Измеримое ото- отображение 250 пространства Хт- в пространство Nm индуцирует измери- измеримое отображение ХтУт -* *Л ( ' I Хш) (8) произведения XmxYm в произведение XmxNm. Образ р, меры {л при отображении - (8) служит начальным распре- распределением в модели Z. ^ Отображение тс -> й стратегий в модели Z в стратегии модели Z делается, как в § 2, только 4t теперь находятся рекуррентно из разложения D). Для получения основ- основного равенства W(ii, й) = й;(A, тс) (9) нужно показать, что для любой ограниченной измеримой ФУНКЦИИ / И ЛЮбыХ [I, ТС ;«т). A0) где ht и . .. atx txt A1) Это доказывается так же, как и аналогичное утверждение в § 2, нужно только всюду заменить суммы интегралами. Из равенства (9), как в § 2, следует, что если страте- стратегия тс оптимальна во вспомогательной модели Z с полной информацией, то соответствующая стратегия й опти- оптимальна в модели Z. То же верно и для е-оптимальных стра- стратегий. Для оптимальности (е-оптимальности) страте- стратегии й при начальном распределении \х необходимо и достаточно оптимальности (е-оптимальности) тс при соответ- соответствующем начальном распределении ft. Если тс стацио- стационарна, то и ft стационарна. Мы доказали соотношение (9), считая промежуток управления конечным и платы q и г ограниченными сверху. Легко видеть, что (9) сохраняет силу при неограниченных сверху неотрицательных платах и бесконечном проме- промежутке управления. Если плата принимает значения раз- разных знаков, то полезно рассмотреть ее положительную 251
и отрицательную части. Заметим, что для любой функции q ?+<<Г+, Г<<Г. A2) где волна обозначает операцию, определенную форму- формулой G). Поэтому из fi-суммируемости сверху (снизу) мо- модели Z следует fl-суммируемость сверху (снизу) мо- модели Z. Начальные состояния модели Z — это пары a;v, где х — наблюдаемое начальное состояние в модели Z, v — априорное распределение для ненаблюдаемого началь- начального состояния. _ Поэтому для суммируемости сверху (снизу) модели Z достаточно, чтобы при любых х и v модель Z была ^-суммируема сверху (снизу). Учиты- Учитывая неравенства A2) и формулу B. 12), замечаем, что из ограниченности сверху_ (снизу) модели Z следует ана- аналогичное свойство модели Z; при этом под ограниченностью сверху модели с неполной информацией понимается су- существование положительных функций ct (xv) таких, что при достаточно больших t для любой стратегии ft и ряд 2с, сходится в каждой точке хч (ограниченность снизу модели Z определяется аналогично). Комбинируя эти результаты с результатами глав 3—6, можно получить те или иные условия существования опти- оптимальных стратегий в Z. Например, из результата П'а § 5.1 следует, что если модель Z р.-суммируема сверху и огра- ограничена сверху, то для любого е ^> 0 найдется простая стратегия ср (в модели Z) такая,что w (p., ср) ^ v (р.)— е. Или из § 6.8 вытекает, что если в однородной модели Z плата q ограничена и коэффициент дисконтирования 8 меньше 1, то для любого е j> 0 и любого начального рас- распределения {1 найдется стационарная стратегия tp такая, что w ({л, ф) J> v (p.)—s. § 5. Задача о стабилизации Вернемся к задаче о стабилизации (см. §§ 1.2, 2.11, 6.12 и 7.12) и будем считать, что в каждый момент t состоя- состояние системы наблюдается с некоторой ошибкой %г Как всюду в этой главе, обозначим наблюдаемое состояние через хг Оно связано с истинным состоянием yt формулой '¦¦'t — Vf+h- (* = 0' 1, 2, ...) • ' ' *1) 252 Управления и случайные возмущения системы обозна- обозначаются, как и ранее, через at и sr Таким .образом, рекур- рекуррентное уравнение, описывающее фактическую (ненаблю- . даемую) эволюцию системы, теперь имеет вид а текущая плата равна = 1, 2, . ..) C) (в случае полной информации yt—xt). Необходимо ввести еще дополнительные предположения относительно начала процесса. Мы будем считать, что управление начинается в момент, когда система выведена из состояния равнове- равновесия случайным возмущением s0, так что U0 = s0, D) Законченные результаты получаются только в пред- предположении, что все случайные -величины s0, |0, slt llt . . . распределены нормально. Предположим, кроме того, .что они взаимно независимы, и пусть Ms, = М^ = 0, Ds, — a2, DE< = xa. ' E) Не ограничивая общности, можно считать, что т=1 (этого всегда можно достичь с помощью выбора единицы измерения). Линейные операции A) и B) не выводят за класс нор- нормальных распределений. Если (%, tj2) — нормальный случайный вектор с параметрами -ci){tlj-cJ) = biJ (i, 7 = 1. 2), то условное распределение tj2 при известном значении тоже нормально с параметрами48 F) Поэтому мы будем иметь дело только с нормальными рас- распределениями v, для ненаблюдаемых состояний уг Нор- Нормальное распределение определяется двумя парамет- параметрами—математическим ожиданием т и дисперсий D — « См., например, Г. Крамер [1], глава 21, пункт 12. 253
и поэтому пространства Nt можно отождествить с полу- полуплоскостью N={(m, D) : D "^ 0). Опишем остальные элементы вспомогательной модели Z, с которой мы имели дело в §§ 2 и 4. Начальное распреде- распределение ji в пространстве XxN строится по совместному распределению р. пары (х0, jyo) = (so+?<и so)- Последнее нормально и в силу E) имеет параметры Уо=-°Я- G) Отсюда согласно формулам F), условное распределение v0 (¦ | х0) имеет параметры (8) ) .2 I А Х(\> Переходная функция /5 сопоставляет каждой паре ( A) ("Vi> распределение вероятностей для xt и (| ) ( () D ()) С t условное распределение v, (-| а^) = (mt (xt), Dt (xt)). Согласно формулам A)—B) и E) нормальное распределение р (-| ) пары xtyt имеет параметры = М^ = m t_1 М (ж, - Mxt) {yt - Myt) = Dt_x + a2. Параметры нормального распределения р [dxt | v^) содер- содержатся в формулах (9), а параметры нормального распре- распределения wt (dyf | vt-iatxt) согласно формулам F) и (9) равны Д'-1+°2 '" - ' ,), A0) - m t-i n _ A1) 4-02+1 • Формулы A0)—(И) верны и при t = 0, если положить m^ = ao = D_1 = 0. A2) Для текущей платы q по формулам D. 7) и C) имеем выражение Я (VA) = % (///-Л) = —bDt-i- -b(mt-i — atf—car A3) По общей теории для управления в момент t сущест- существенно только знание as, хг, ms и Ds (s <Ct). Дисперсии Dt 254 вычисляются по формулам (8) и A1) независимо от на- наблюдений. С другой стороны, по формулам (8) и A0) можно выразить х0, хх, xt через т0, ти т, и аи . . ., аг Поэтому достаточно следить только за эво- эволюцией тг Из формул A), B), (8), A0) и A1) вытекает, что mt = mt_1 — at-\-st (? = 0,1,2,...), A4) где = 0, 1, 2; ...) A5) (мы считаем, что jy_i=O). Поскольку постоянные слагаемые в текущей плате не влияют на разность оценок w (x, я)— —w (х, р) двух любых стратегий, то при отыскании опти- оптимальной стратегии эти слагаемые можно отбросить и за- заменить текущую плату A3) на = —Ъ {mt_x — atJ — са\. A6) Формулы A4)—A6) определяют модель с полной ин- информацией, в которой состояниями служат числа mt\ это — изученная ранее задача о стабилизации с полной информацией, только с другими случайными возмуще- возмущениями §(. В предыдущих главах предполагалось, что случайные возмущения независимы, одинаково распре- распределены и имеют нулевые математические ожидания. Мы покажем, что для st выполняются все эти свойства, кроме равнораспределенности. Разность zt~yt—mt имеет нормальное распределение с параметрами. @, Dt). В самом деле, поскольку v^ —это условное распределение для yt при наблюденной истории h, то mt = M(yt | h), Dt = U[{yt- mtf \ A]. Стало быть, Mmt = MM(yt\h) = Myl A7) и D( = MM[(yf - mtf \h] = M(yf- mtf = MzJ. A8) Формулы A7)—A8) нетрудно вывести и по индукции из 255
рекуррентного соотношения для zt, вытекающего из AЫ2) и (Ю)-(И): г_! = D B0) t.t = {\—Dt)st — Dtlt. B1) Опираясь на формулы A7)—B1), покажем, что случай- случайные величины §t некоррелированы и, следовательно, не- независимы. Положим где и 1 при s > t. Из A9) легко выводится, что при B2) -1^-1. B3) Из A5), A7) и E) следует, что Ms, = 0. ' B4) Из A5), B1) и B3), используя ортогональность zt_v st, Ср st+1, . . ., sT_v г,т_х и формулы E), получаем при 0 <[ t < Т ЙМ (Sf -f I,) С, = = Q1& [(I - Д,) Д^ + A - /),) с2 - /),]. В силу A1) квадратная скобка равна 0. Из A5), A8) и E) имеем (см. (И)). Первоначальная задача свелась к задаче управления cw стемой, заданной рекуррентным уравнением A4) с неза- независимыми случайными возмущениями 8Г При постоянной дисперсии возмущений последняя задача была решена в §§ 2.11 (для конечного интервала управления), 6.12 (для бесконечного интервала управления и дисконти- дисконтированного дохода) и 7.12 (для среднего дохода за один шаг). 256 Легко видеть, что и в общем случае, Когда случайные воз- возмущения имеют различные распределения, оптимальные стратегии остаются теми же, а оценка модели изменяется на константу. Например, в задаче максимизации среднего дохода за единицу времени асимптотическая оценка v дается формулой o4, B6) где I — положительный корень уравнения /я + Ы — Ьс = 0, B7) a D=\imDt — положительный корень уравнения t -> со /J ^_ 02D _ 02 = 0 . B8) (ср. формулу G.12.16); проверку предоставляем читателю). Условное математическое ожидание mt случайной ве- величины yt является естественной оценкой yt по наблюден- наблюденной истории h (оно представляет собой функцию от h, для которой величина М [у(—/ (К)]2 минимальна). В этом параграфе мы на простом примере получили теорему разделения, утверждающую, что при весьма общих усло- условиях оптимальное управление линейной гауссовой систе- системой с квадратичным функционалом потерь расщепляется на 1) вычисление наилучших оценок ненаблюдаемых пара- параметров по наблюдаемым, 2) оптимальное управление си- системой, полученной из данной заменой ненаблюдаемых па- параметров их оценками. 17 Е. Б. Дынкин, А. А. Юшкевич
Глава 9 ВОГНУТЫЕ МОДЕЛИ. МОДЕЛИ ЭКОНОМИЧЕСКОГО РАЗВИТИЯ § 1. Модель Гейла Вернемся к модели Гейла, описанной во введении к книге. В этой модели мы имеем дело с неотрицательными векторами m-мерного арифметического пространства: ?-я координата описывает количество г-го продукта. Производственный процесс С характеризуется парой (?, tj) (? —вектор затрат, tj — вектор выпуска). Указывается начальный запас продуктов rj0 и для каждого t=\, 2, ... . . ., п задается множество 0Тt производственных процессов, технологически осуществимых в период t {технологическое множество). Планом называется последовательность про- производственных процессов С,, = (^, t\t), удовлетворяющих условиям Q с ff ; \ <; т) (?=12 . п) A) Целью управления является выбор плана с максимальным значением полезности У- B) выпукло 1, замк- Предполагается, что при каждом t а) Технологическое множество СТt нуто и содержит элемент @, 0). б) Множество oft компактно не содержащим элементов @, т или ) с является конусом, Множество о?" в линейном пространстве называется выпуклым, если вместе с любыми векторами С и С" оно содержит все их вы- выпуклые комбинации at,' +рС" (а > 0, р > 0, а+C=1). Оно на- называется конусом, если, кроме того, вместе с С еУ содержит все век- векторы а? (а > 0). Функция q (?), заданная на о^, называется вогнутой, если (при тех же условиях на а и Р) 258 в) Функция полезности qt вогнута и полунепрерывна сверху на S*t ^> Свойства вогнутости и полунепрерывности сохраня- сохраняются, если распространить функцию qt на множество Щш всех неотрицательных 2щ-мерных векторов, полагая qt = = — оо вне оГг Условие A), определяющее план, можно переписать в виде Ч б < C) где ?Гt (с) обозначает множество производственных про- процессов (I, rfi ? с?") с затратами ?, не превосходящими с. Предположим теперь, что технологические возможности и оценки полезности подвержены влиянию случайных факторов. Действие их в период t описывается парамет- параметром st принимающим значения из некоторого борелевского пространства St. Множество 0Tf и функция qt зависят от «истории» st=sos1. . .sr Мы' предполагаем, что эта за- зависимость измерима 3, что при каждом значении s' выпол- выполняются условия а)—в) и что функции qt (sl, (/) ограничены сверху. Совместное распределение su s2, . . ., sn считается известным. Набор измеримых функций ?t=tyt (s1) называется пла- планом, если при всех значениях параметров slt s2, . . .,sn выполняются условия A). План оптимален, если на нем достигает максимума математическое ожидание суммы B). Существование оптимального плана будет выведено в сле- следующем параграфе из одного более общего результата. Из того же результата вытекает существование оптималь- оптимального плана в незамкнутой модели Гейла. В такой модели помимо множеств (?Гt и функций qt заданы измеримые функции At (s1) (t=l, 2, . . ., п), значениями которых являются неотрицательные m-мерные векторы. Эти век- векторы истолковываются как ресурсы, поступающие извне. 2 Если вогнутая функция q определена на выпуклом замкнутом мно- множество оТ", то она непрерывна во всех впутренпих точках <2Г, но может быть разрывна на границе о7\ Если df — отрезок, то q обя- обязательно полунепрерывна снизу, по уже в двумерном случае это не так (см., например, Р. Рокафеллар [1], § 10). 3 В .соответствии с § 2.6 мы говорим, что мпожество <^{s) измеримо зависит от s, если расстояние <&~(s) от любой фиксированной точки является измеримой функцией от s. 17* 259
В определении плана условия заменяются на ^ (*') < 1,-1 (О rf- Д. (**) (* = 1, 2, • • ., п) существовала подпоследовательность (Ъ„ к, ), сходящаяся к точке D) (при ?=1 под rj0 (s°) понимается неслучайный начальный запас продуктов rj0). В частности, при At=0 получается исходная (замкнутая) модель Гейла. § 2. Вогнутые модели Рассмотрим модель управления, описываемую сле- следующей схемой. Заданы множества Со, Clf . . ., Св и каж- каждому С из С^_! сопоставлено непустое подмножество. Z) (С) множества Сг Фиксировано начальное состояние Со из Со и задана функция qt на множестве Ct (t=l, 2, . . ., п). Среди наборрв d, С2, . . ., Ск, удовлетворяющих условиям требуется выбрать такой, для которого сумма достигает наибольшего значения. Мы будем говорить, что эта модель вогнута, если а) Со, Сх, . . ., Ск — выпуклые замкнутые множества в конечномерных векторных пространствах. б) Функции q( вогнуты и полунепрерывны сверху. ¦ в) Множества пар (Сг_1, С^), удовлетворяющих усло- условиям . квазинепрерывны выпуклы. г) Соответствия Z^ (С); (С 6 С (см. § 2.4). Модель Гейла является частным случаем вогнутой мо- модели: роль Со играет вектор начальных ресурсов щ, а роль С, при if > 0 — производственный процесс (?t, ^). При этом Ct=R\m и Условия а), б) и в) выполняются очевидным образом. Уело вие г) требует, чтобы при 260 Неравенство ?<•»]' получается предельным переходом из ?„ < ij^, принадлежность (^, т]) множеству <&"{ — из замкнутости е^^. Суще- Существование сходящейся подпоследовательности (?nfc, 1B.) триви» .ально, если <&"t компакт (см. условие б) из § 1). Предположим те- перь, что tftf — конус, не содержащий элементов @, г\) при т]=И=О. Достаточно проверить, что последовательность (?„, •»]„) ограничена, Ограниченность %п вытекает из A). Рассмотрим векторы Если последовательность гДе |1| —длина вектора -ц. t\n не ограничена, то найдется ее под" последовательность ijn , для которой | t\n —* <х> и i)° имеет\ пре- предел ij*. Очевидно, ?2—^0. Так как конус а^^ содержит все элементы (?Jj, 1Й), то он содержит и предельный вектор @, г\*). Поскольку |т]*| = 1, это противоречит условию б) из § 1. Предположим теперь, что задано распределение веро- вероятностей в произведении борелевских пространств StX XS2X. . .XSnviчто функции qt и соответствия Zt зависят (измеримым образом) от истории si—s1st . . ,sr Пусть при каждом значении s* выполнены условия а)—г) й функции qt (s(Xt) ограничены сверху. План — это после- последовательность измеримых функций Сг (s*), удовлетворяю- удовлетворяющая при всех значениях случайных параметров условию rt {st)^Zt {s\ (^(O) (t= 1, 2, . . ., п). B) Стохастические варианты модели Гейла (замкнутой и незамкнутой) являются частными случаями вогнутых моделей: формулы A. 4) получаются из B), если положить Z((s', ¦Q) = <rt{s\ ч +Ms')). ¦ C) Мы будем называть марковским случай, когда %, $а, . . ., $п — цепь Маркова и когда qt и Z, зависят лишь от st (и не зависят от su . . ., st_i). Общий случай легко сцодится к марковскому: достаточно принять историю s* = =sx s2 . . . st в качестве характеристики ситуации в мо- момент t, заменяя таким образом пространства St на S* — =S1xS2x. . .xSt. В силу добавления 4 существуют рас- распределение f* (dsj) и условные распределения pt (dd+l \s*). Это — начальное распределение и переходная функция марковской цепи s1, s2, . . ., sn. В атом и следующем пара- параграфах мы будем иметь дело только с марковским случаем. 261
Чтобы включить описанный управляемый процесс в об- общую схему, рассмотренную в предыдущих главах, будем считать в цепочке CqSjC,^ . . . C^s,^ нары ^st+1 состоя- состояниями х,, а пары sfit — управлениями а(. Точнее, класс V возможных в состоянии xf , =С_iSf, управлений А I состоит из управление xt — ^tst+v ГД' раторы Ut и формулами пар а, =s?t, где С, G ,_iSt), причем :f = st^t переводит систему в состояние s st+1 имеет распределение pt (dst+1\ s(). One- Vt (см. § 2.5) задаются в нашем случае UJ (s = qt ) Pt 1 sf), E) (финальная плата равна 0). Каждому плану соответствует некоторая стратегия в смысле предыдущих глав. Это — стратегия специального вида, сопоставляющая каждой истории fe=C0s1C1s2. . . ^t-ist не распределение вероятностей в пространстве управлений, а однозначно определенное управление at=sf,r С другой стороны, каждой стратегии указанного специального вида отвечает план, получаю- получающийся, если последовательно исключить С1? . . ., ^_х из выражения С^ через историю h- Мы построим для нашей модели простую равномерно оптимальную стратегию <р = =фхф2. . . фв. Здесь ф/ —измеримый селектор соответствия #._! -*¦ А (х,^). Всякий такой селектор имеет вид т< v*t~ist) == str t \^i-ist)' где Ft — измеримый селектор отображения C<_1s/ Формулы F) G) определяют оптимальный план. Мы будем называть марковскими планы, которые определяются формулами G) с помощью некоторых измеримых функций Ft. Таким об- образом, из существования простой оптимальной стратегии вытекает существование марковского оптимального плана. Доказательство существования простой оптимальной стратегии основано на той же главной идее, которая была использована в главе 2. Именно, на каждом из пространств 262 Af — SjXCj и Xt = CtxSt+i ёудет выделен класс функций L (At), L (Х() со следующими свойствами: A)UtL(Xt)?L(At), Vt{At)?L{Xt_i) (t = 1, 2, . . ., п). Б) Если gt?L (At), то существует измеримый селек- селектор ^ отображения х -> А (х) (х ^ Xt_^) такой, что Опираясь на эти свойства, можно построить простую оптимальную стратегию следующим образом (cpi § 2.5): вычисляем функции щ и vt по рекуррентным формулам »п = 0' ut = Utut, vt_x—Vtut (f=l, 2, . п), (8) а затем находим селекторы <]^ из уравнений == vt (существование измеримого решения обеспечивается свой- свойством 2)). Интегрируя оценку vQ (C0Sj) по начальному распределению \х для slt получаем выражение Щ (So) = \ vo (^osi) Iх (9) для максимального дохода, возможного при начальном СОСТОЯНИИ Со (ср. формулу V (fx) = fjLL? ИЗ § 2.5). Пространства L вводятся в следующем параграфе. § 3. Пространства L Доказательство утверждений А)—Б) предыдущего па- параграфа опирается на ряд лемм, которые удобнее форму- формулировать в нейтральных обозначениях. Пусть М — выпуклое замкнутое множество в /е-мерном евклидовом пространстве, Е — произвольное измеримое пространство. Обозначим через L=L (ExM) совокупность ограниченных сверху числовых функций / (у, z) (у ? Е, zf M), измеримых по у, вогнутых и полунепрерывных сверху по z. Лемма 1. Если f (z) — вогнутая' функция на М, то верхняя грань f на М совпадает с верхней гранью f на любом всюду плотном в М множестве М'. В самом деле, пусть / — верхняя грань / на М'. Достаточно доказать, что / =С / всюду на М. Во внутрен- 263
них точках множества М это неравенство выполняется, поскольку внутри М функция / непрерывна (см. сноску на стр. 259). Если z0 лежит на границе TV/, то отрезок [z0, zx), соединяющий z0 с внутренней точкой z1( лежит внутри М (если не считать точку z0). Поэтому / ^ / во всех точках этого отрезка, кроме, быть может, z0. Но во- вогнутая функция на отрезке полунепрерывна снизу (см. ту же сноску). Поэтому и f iz0) <^ /. Лемма 2. Каждая функция / из класса L является пределом невозрастающей последовательности функций, непрерывных по z и измеримых по у. Выберем в М всюду плотную последовательность {zm} и положим fmn(lJ> 2) = /(У» Zm)-n\Z-Z fn = SUP L- где \z\ обозначает длину вектора z. Ясно, что и что fn измеримы по у. Поскольку | z — zn ' — \7.l К |z — г' то n\z-z и, следовательно, n\z Это неравенство вместе с неравенством, полученным из него перестановкой z и z', показывает, что функция /я непрерывна по z. Легко видеть, что —\z—z'\ — вогнутая функция z' 4. Поэтому функция }(у, z')—n\z—z'\ вогнута по z' и в силу леммы 1 fn(y, z) = snv[f(y, z>)-n\z-z<\]^f(y, z). г' Фиксируем z и у и для каждого га выберем zm (я, так, чтобы ' Zm<»>) - П \-Z - Z^ I > fn (У' 2) > / (У, Z). A) Так как / ограничена сверху, то | z — z mtn) О при и -> оо. 4 В самом деле, полагая z*= azj + pzjj, где a > 0, Р > О, о+ 8=1, имеем | z - z* | = | а 3 (z - а | г - г - 264 Используя полунепрерывность сверху / и неравенства A), имеем /О/, Z). Значит, /я сходится к /. Лемма 3. 5се функции из класса L измеримы по со- совокупности у и z. Это следует из леммы 2 и того факта, что функция двух переменных, измеримая по одному из них и непре- непрерывная по другому, измерима по их совокупности 5. Лемма 4. Пусть Q (у) (у(^Е) — непустое компакт- компактное выпуклое множество в М, измеримо зависящее от у. Если ff^L, то а) функция = sup f{y, z) измерима; б) множество ), f(y, z) = компактно, непусто и измеримо по у; в) соответствие у -> Q (у) допускает измеримый выбор. Для доказательства выберем в М всюду плотную по- последовательность {zm} и рассмотрим открытые множества Q" (у) \ Q (у)-> построенные в критерии измеримости (см. § 2. 6). Положим _т при ZmEg.(y)> Г (у) = sup А (у). Из 2. 6 а) следует, что функции /^ измеримы, и поэтому для доказательства пункта а) достаточно убедиться, что ?(y) = \\mf'(y). ' B) 6 В самом деле, / (у, z) является пределом измеримых функций /я (j/> z)> определенных формулой при 2i +1 = O, +1, +2, ...}.
Очевидно, f" Ы= sup /(у, zj, тогда как в силу леммы 1 / (У) = sup / (у, zJ. 6 9 Из сравнения этих выражений, используя 2. 6. б) и полу- полунепрерывность /, легко получаем B). Непустота множества Q (у) и его компактность выте- вытекают из компактности Q (у) и полунепрерывности / по z (см. начало § 2.4). Для доказательства измеримости со- соответствия у -> Q (у) рассмотрим построенные в лемме 2 непрерывные по z функции /„ | / и положим :ly fn(y, Нетрудно проверить, что эти множества удовлетворяют всем условиям критерия измеримости из § 2.6 (условие 2. 6. а) вытекает из измеримости функций /й и / и соответ- соответствия Q; условие 2. 6. б) выводится из компактности Q {у), непрерывности /я по z и соотношения fn | /. Пункт б) доказан. Пункт в) следует из б) и теоремы 2. 6. Б. * * * Перейдем теперь к выполнению программы, намечен- намеченной в предыдущем параграфе. Примем за L (Af) класс L(ExM) с E=St, M=Ct и за L (X,) — классL (ЕXМ) с E=St+1, M=Ct (в соответствии с обозначениями пре- предыдущих параграфов у функций / ? L (Xt) на первом месте будем писать аргумент С( ? Ct, на втором — Докажем утверждения 2. А—2*. Б. Пусть f^L(Xt). Тогда / (Со st+i) ограничена сверху и измерима по st+1, так что интеграл в формуле B. 4) имеет смысл. Поскольку qt и pt измеримы по st, то этим свойством обладает и функ- функция Utf. Вогнутость Utf по аргументу ^ и ее ограничен- ограниченность немеделенно следуют из аналогичных свойств qt и /. Далее, пусть Cj! -> r-,t. По лемме Фату в для любой огра- ограниченной сверху последовательности измеримых функ- 6 См., например, Ж. Неве [1], глава II, пункт^.3, 266 ций Fп и вероятностной меры странстве S v на измеримом прО- Ига \ Fu (s) v (ds) < \ -lim Fu (s) v (ds). Применяя эту лемму к функциям Fn(st+1) = /(s?s(+1) и мере /э( ( • |s() и опираясь па полунепрерывность функций / и qt но имеем Стало быть, функция UJ полунепрерывна сверху по С^ и принадлежит L (A.t). Далее, пусть g?L(At). Мож^но рассматривать g как функцию трех переменных С^-дС^, не зависящую от ^(_г. Очевидно, g?L (ЕхМ) при E = Ct_1xSt, M=Ct. Мно- Множества Q (y)=Zl (C^! sf), где у=^{_лзп выпуклы и ком- компактны в силу условий 2а) и 2в). Рассмотрим функцию где ^ — любая фиксированная точка множества Сг Ввиду измеримости Zt по st и / измерима по st. Из 2г) легко выводится, что / полунепрерывна Сверху по ^_1? а из 2в) — что / вогнута по С^. В силу леммы 3/изме- 3/измерима по совокупности ^(^1 = у, т. е. соответствие у -> Q (у) измеримо по у. Применяя к этому соответствию и функции g лемму 4, получаем, что vtg&t-ist)=8(st> Ft^i-v st))> C) где F — некоторое измеримое отображение Ct_xX.St в Ct, удовлетворяющее условию Определяя <\>t формулой B. 6), получаем результат 2. Б). Остается показать, что Vtg? L {Xt^). Ограниченность сверху этой функции очевидна, ее измеримость по st видна из леммы 4а) либо из формулы C) и леммы 3. Из C)—D), условия 2г) и полунепрерывности g по Сг легко выводится, что Vtg полунепрерывна сверху по См, а из C)—D), условия 2в) и вогнутости g по ^ — что Vtg вогнута по ^f_x. Утверждение 2. А) полностью до- доказано. 267
§ 4. Стимулирующие цени От общих вогнутых моделей мы возвращаемся теперь к стохастической модели экономического развития, вве- введенной в § 1 (модели Гейла). Эта модель позволяет понять значение целенаправленно выбранной системы цен, как мощного инструмента управления экономикой. С помощью цен удается заменить глобальный критерий максимиза- максимизации математического ожидания суммарной полезности М2?Л^) . - A) более простым и наглядным локальным критерием: «дей- «действовать в каждый период t в каждой случайной ситуации s', руководствуясь непосредственной пользой». При этом «непосредственная польза» измеряется так называемой приведенной полезностью производственного процесса, равной сумме его полезности и ожидаемой прибыльности. Введем необходимые определения. Пусть n=(ivl, ... . . ., кт) — неотрицательный тп-мерный вектор. Под сто- стоимостью набора продуктов %=(&, . . ., ?'") в ценах тс понимается скалярное произведение тг | = тг151 -[- . . . -{-тст?т. Прибыльность производственного процесса С = ( ?, у\) равна разности тег; — тс? между стоимостями выпуска и затрат. В эту формулу, однако, нужно внести две поправки. Во-первых, цены меняются со временем. Если производ- производственный процесс (?, ?j) ведется в период t, то, относя затраты к началу, а выпуск к концу этого периода, есте- естественно записать прибыль в виде nt+1rt — u^. Далее, цены nt должны зависеть от случайной ситуации sK Поскольку в начале периода t еще неизвестно значение st+1, то не- неизвестна и прибыль nt+1 (st+1) т\ — nt (s') ?. Заменяя цену r.tA_x ее прогнозом зависящим только от s1, вводим ожидаемую прибыль Чтобы формула B) имела смысл, надо предположить, что функции теДв') — измеримые. Черев pt (-Is') обозна- обозначена переходная функция из S* в St+1; ее существование доказано в добавлении 4.) Назовем приведенной полез- 268 ностъю производственного процесса С —(I, vj) в период i сумму II, (С) = II, (sl, С) =-- qt (s*, С) + «<+1 («*) -п - nt (sf) 5 C) полезности и ожидаемой прибыли (для сокращения записи мы часто будем опускать аргумент s'). Условимся, говорить, что цены тч (sl) стимулируют план С* (s')> если с вероятностью 1 А. Для всех t и всех С ? oTt (s1) = 0. Б. Для всех t izt (s*) [^ (s') - Условие А означает, что нельзя увеличить «непосред- «непосредственную пользу», отступая от плана 'Qt (даже если мы не связаны ограничением \t ^ ritl, а можем приобретать по ценам nt любое количество нужных нам продуктов). Условие Б требует, чтобы были равны нулю цены на из- избыточные продукты (т. е. на продукты, которые исполь- используются при плане ?* не полностью). Наша цель — построить цены, стимулирующие оп- оптимальный план. При этих ценах достигается упомяну- упомянутая выше согласованность между глобальным критерием A) и непосредственной пользой в каждый момент t при почти всех случайных ситуациях s*. Если все функции qt строго вогнуты, то можно утверждать большее: макси- максимизируя приведенную полезность в каждой случайной ситуации, мы неизбежно придем к плану, оптимальному с точки зрения глобального критерия. Таким образом, стимулирующие цены не только локализуют во времени задачу оптимального планирования, но и позволяют при планировании очередного шага в ситуации s( учитывать лишь сложившиеся цены п( и прогноз я<+1 цен на один шаг вперед. Нет надобности ни в более подробном ана- анализе ситуации s\ ни даже в знании вероятностного ме- механизма явлений. В этом смысле tzt и %t+1 — достаточные статистики задачи. Существование цен, стимулирующих оптимальный план, будет доказано в следующем параграфе. Предва- Предварительно докажем простую лемму, из которой, в част- частности, вытекает, что не оптимальный план не может стимулироваться никакой системой цен. 269
Под системой цен мы понимаем набор измеримых функ- функций пг (s1), . . ., па (s") со значениямив Щ\ (В формулу C) при t=n войдет еще яя+1. Мы будем считать по определе- определению, что \+1, а, следовательно, и яя+1 равны нулю 7.) Заметим прежде всего, что если С, (s*) == (%t (s1), i\t (s1)) ? G <3~t (s0 (^=1J, . . ., и) — любой набор производственных процессов (измеримо зависящих от случайной ситуации) и то п п М 2 П, = М 2 [qt (S) + к( (т) _ % )] - t=l t-1 В самом деле, из C) вытекает, что ¦П п чет ~-^ -^i „ Поскольку то математическое ожидание суммы E) совпадает с правой частью D). Теперь покажем, что если система цен nt стимули- стимулирует какой-нибудь план то она стимулирует все опти- оптимальные планы и только оптимальные планы (и, следо- следовательно, можно рассматривать стимулирующие цены, не связывая их с определенным планом). Действительно, пусть цены izt стимулируют план Положим . m=nt{Q). F) Применяя формулу D) к плану С* и используя Б, имеем П 11 М 2 Ш = М 2 W M t=l qt W) - 7 Это условие надо опустить, если считать, что в конце планового периода должен остаться определенный задел т)я, или, говоря фор- формально, что' рассматриваются только планы с фиксированным значением1 т)я (в этом случае приходится допустить свободный вы- выбор функций п„+1 (sK+1), включаемых в систему цен). 8 Использованные здесь и в § 5 свойства условных математических ожиданий изложены в § 2 добавления 4. 270 Из D) и F) следует, что для любого набора производ- производственных процессов Сг (s1) ?¦ oTt (s*) м 2 [q, (ф - qt (У1 = м 2 (П* - п, G) Если набор ^ является планом, то последняя сумма не- неотрицательна и из G) и А мы получаем, что (8) Это означает, что план Ct оптимален. Если ^ — другой оптимальный план, то (8) выполняется со знаком-равен- знаком-равенства. Из этого равенства и из G), учитывая А и неотрица- неотрицательность 7tt (tj^j—~%t), получаем, что с вероятностью! П^ = П^ и nt (•»),_!— У=0; но это значит, что план Сг оптимален. § 5. Существование стимулирующих цен Чтобы построить стимулирующие цены, нам понадо- понадобятся два условия. Их экономическое содержание сле- следующее: а) Можно ввести штраф за срыв поставок, пропорцио- пропорциональный стоимости непоставленной продукции и ком- компенсирующий во всех случаях необходимую вследствие срыва ломку производства. б) Оценка убытка от ломки производства учитывает возможное при этом уменьшение полезности. Чтобы перевести эти условия на язык математики, предположим, что вместо набора продуктов т) поставлен набор продуктов if. Рассмотрим вектор (rj—т)')+ непо- ставленных продуктов (индекс + означает, что надо заменить нулями все отрицательные координаты) и из- измерим его стоимость 8G,, т,') = с(т|-У)+ A) в некоторых неизменных ценах с. Предположим, что за- затраты на переход от производственного процесса С к про- производственному процессу С равны d (С2 С')- В эту оценку 371
наряду с расходами на переоборудование и т. п. входят убытки 8(т), т]') от изменения выпуска. Поэтому естест- естественно считать, что d(C, С')>8(т), V) при С =--(?, т)), С' = (Е', V). B) Естественно также принять, что d(C, С) = 0. . C) Дадим теперь точную математическую формулировку условий а) и б). Можно ввести цены с и неотрицательную функцию d (С, С) (С, С ? 7?|т) тпак, чяго выполняются условия A)—C) и А. Каковы бы ни были t, s* и f ^>0, для каждого С = = (?, •»)) 6 оТ^ (s*) найдется ?' = (!', Ti') б g^^ (s#, I) такое, что d (С, С) ^ .ЙГ8 (?, |), где .ЙГ — некоторая постоянная, не зависящая от t, s1 и %. Б. Для любых С, C'^gT,,^) и любого sf Очевидно, из А вытекает, что sup inf Помимо условий А и Б нам понадобится еще одно техническое требование: В. Найдутся функции jt (sf) такие, что Mjt (s*) <^co и \^\<Cit(st) пРи всех ^?<&'t(si)- Цель этого параграфа — доказать, что если выполнены условия А, Б, В, то существуют ограниченные стимули- стимулирующие цены. Доказательство основано на изучении изменения мак- максимальной полезности при вариации ресурсов. Пусть изменение ресурсов в период t в ситуации s* описывается вектором Д^ (sf). Набор Д={А1, . . ., Дге} отнесем к множеству Q, если функции Д,, (sl) измеримы и E) Условимся называть ^-планами наборы измеримых функций ^ {^) — {lt (tf), i\t (s()), удовлетворяющие при всех значениях s* условиям f(A (.6) 373 Положим Д ? Q, если множество Д-планов непусто. Обозначим через А (Д) (Д (^ Q) супремум полезностей по всем Д-планам {С^}. Используя предположения а) и в) из § 1, легко проверить, что Q —¦ выпуклое множество и А — вогнутая функция 9. Доказательство теоремы расчленяется на три шага: 1. Доказывается оценка Х(Д)-Х(О)<ЬЦД|| (де<?), G) где Ъ — некоторая постоянная. 2. Из E) выводится существование в пространстве Q линейного функционала 110 такого, что (8) (9) A0) Устанавливается, что I можно представить в виде где ¦геДя') — ограниченные измеримые функции со зна- значениями из R™. 3. Наконец, доказывается, что -t — стимулирующие цены. 1 ш а г. Заметим, что. всякий Д-план является Д+- планом и, следовательно, X (Д) ^ \ (Д+) (Д ? Q). С дру- другой стороны, ||Д+|| <J |[Д||, и поэтому достаточно доказать оценку G) для неотрицательных наборов Д. При Д ^ 0 мы получаем незамкнутую модель Гейла, рассмотренную в §§ 1 и 2, и для вычисления А (Д) можно воспользоваться формулой B. 9), где ji — начальное распределение пара- параметра sx и где начальное состояние Со описывается век- вектором начальных ресурсов г;о. Входящая в B. 9) функ- функция v0 может быть выражена по формулам B. 8) через 9 Множество Q является линейным пространством относительно естественных операций сложения и умножения на числа. 10 Числовая функция I в линейном пространстве Q называется ли- нейнмм функционалом, если I (с1/14-с2/2)=с1^ (/х) -\-c2l (/2) для лю- любых чисел съ с2 и любых f1: /2 из Q. 18 Е- Б. Дьшнин, А. А. Юшкевич 273
операторы Ut и Vt, задаваемые формулами B. 4)—B. 5). Учитывая, что эти формулы написаны для марковского случая, а мы сейчас имеем дело с общим случаем, нужно перейти во всех формулах от параметров st к параметрам sl. Используя B. 3), мы приходим к рекуррентным со- соотношениям ^ = 0, A1) A3) (Отражая зависимость ut и vt от А, мы пишем А в качестве индекса. Поскольку множество Zt зависит только от rj^ (и не зависит от it^), то тем же свойством обладают и функции yj.) В силу B. 9) для доказательства неравен- неравенства G) достаточно проверить, что у о С»), s1) ~ yo от ( к (— 1 более общее нера- нераМы докажем индукцией венство „л (С, si+l) - v, (С, sm) < const Lrf (С, С) + mi (I4) где .(setts'). A5) При t~n A4) справедливо, поскольку ув = г;? = 0. Далее, в силу A3) ^_г(С, )^-iK. ) = • sup inf K(s', C;)-w где C=(l, 7)), ?'=-($', 7)'). Согласно A2) A6) Из A7), предположения индукции A4) и Б, учитывая ра- равенство M(^+1i|s')=^+1(s'), имеем ^ (s*. 'Q't) - Щ («', С,) < const [d (С', С) + ft+1 (s')|. A8) 274 Из A6), A8) и D) следует, что vLt-i (С *') - ^-i (С «' «') < const [8 (У + Д, (s')f т)) -f A9) Используя A), B) и неотрицательность Д^, получаем 3(У + ДДД 71)< const[|ДД«') + |8(У, г,)]< B0) Из A9) и B0) следует, что vU С, s') -¦«,_! (С, «') < const [d (",', + p'(+1 (s') + |Д, и для получения оценки A4) для значения I — 1 остается заметить, что j^+1 -f- |Д^| = ft- 2 ш а г. Теперь мы воспользуемся следующей общей теоремой из функционального анализа; если В ж С — непересекающиеся выпуклые множества в банаховомu пространстве L и В открыто, то существуют ненулевой линейный функционал I в пространстве L и число а такие, что I (/) ^ а на В и I (/) <С а на С. Множество Q с нормой E) можно рассматривать как банахово про- пространство, если отождествить наборы А, А', такие, что ||А —А'||=0. Обозначим через Qt прямую сумму Q и чис- числовой прямой R и рассмотрим в Qr выпуклые множества В = {(\, г):6||ЛЦ<г}, С = {(Д, г): Д G Q, X (Д) - X @) > г} (напоминаем, что Q выпукло, функция X — вогнута на Q).. В силу G) множества ВиСне пересекаются. Множество В открыто. Поэтому найдутся число а и ненулевой линей- линейный функционал lt в пространстве Qt такие, что 1г ^ а на В и lt ^ а на С. Функционал 1Х имеет вид 11 Линейное пространство L называется банаховым, если каждому / из L отнесено неотрицательное число ||/||, причем: а) для любого числа с ||е/||=|е| ||/||, б) формула р (/, g)=\\f—g\\ определяет в L метрику, относительно которой L — полное метрическое про- пространство. Подробнее о банаховых пространствах можно прочесть в любом учебнике функционального анализа (см., например, А. Н. Кол- Колмогоров и С. В. Фомин [1] или Н. Данферд и Дж. Т. Шварц [1 ]). Доказательство сформулированной теоремы есть, например, в Н. Бурбаки [1], глава 2, § 3, предложение 1. 18* 275
где l0 — линейный функционал в Q и а — число, ^ак как (О, 1)?5, то ^ (О, 1)=а ^ а. При любом A ? Q имеем (Д, Х(Д)- и поэтому *о(Д) + а[Х(Д)-Х@)]<а (Де<?). . B1) Аналогично, из того, что (А, Ь||Д|| + е) («5 при любом е > 0, вытекает, что го(Д) + аЬЦД||>а (Д60- B2) Множество E содержит все неотрицательные элементы (?. Полагая в B1) и B2) А=0, убеждаемся, что а=0, и, следовательно, а ^ 0. Если а=0, то из B1) и B2) следует, что 10—6. Но это противоречит тому, что Z^O. Значит, а > 0, и мы можем положить 1=—IJa. Из B1) — B2) вытекает (8)—(9). Всякий линейный функционал в пространстве Q, удовлетворяющий неравенству (9), записывается в виде A0), где izt=izt (s') — измеримые векторнозначные функ- функции, причем ||тг(|| ^ Ъ 12. 3 ш а г. Пусть {^} — оптимальный план и (?(} — произвольный А-план. Из определения функции л(А) и формул (8) и A0) следует, что t=l B3) Нулевые векторы С,, образуют А-план при любом А 3> 0 из Q. Поэтому из ограниченности функций qt и B3) сле- следует, что MS u^A^ ограничено снизу на множестве не- неотрицательных элементов пространства Q. Отсюда вы- вытекает, что ti{ (sl) ^ 0 с вероятностью 1. Поскольку на множестве меры нуль значения функции nt можно произвольно изменить, можно считать, что эти функции неотрицательны. Пусть теперь {(?,}= {(?,, ^)} —произвольный набор производственных процессов. Положим В силу условия 4.В набор Д={Д^} принадлежит Q. Оче- 12 См. Н. Данфорд и Дж. Т. Шварц [1J, глава 4, § 8, теорема 5. 276 видно, набор {?,,} является А-планом, и значит дли него выполняется неравенство B3). Перепишем его в виде М 2 qt (Ч) + М 2Х (т,,., - lt) < M 2 qt (Q). Полагая C,.=s*, мы приходим к неравенству B4) Поскольку -rfi^'^Vt и nt~^-0, отсюда следует условие 4.Б. Докажем теперь 4. А. Из D. 4) и B4) следует, что 4I >0. . B5) В подробной записи П<(С) = П((в', С) = д,(С, s') + «m(s')ti-^(s')?- Эта функция принадлежит классу Ь(ЕхМ) при E = Sl, М — В\т (см. § 3), а отображение Q (у) = <?Гt (sl) удовле- удовлетворяет условиям леммы 3.4. По этой лемме можно вы- выбрать измеримые функции ^ = ^ (sl) ^ dTt (s{) так, чтобы Щи1, СД^))=_ su?llt{s', С). B6) Неравенство B5) выполняется и для этого набора {Сг}. Из B5) и B6) вытекает, что с вероятностью 1 П(8/, С!)= sup n^s', С) (f = l, ..., и), а это есть условие 4.А.
Добавление 1 БОРЕЛЕВСКИЕ ПРОСТРАНСТВА § 1. Введение Измеримое пространство В называется борелевским,. если оно изоморфно измеримому подмножеству поль- польского (т. е. полного сепарабельного метрического) про- пространства Е. (Напомним, что а-алгебра ^ (Е) измеримых множеств в Е — это минимальная а-алгебра, содержащая все открытые множества.) Примерами борелевских про- пространств являются- 1. Конечное или счетное пространство S с о-алгеброй всех подмножеств. 2. Единичный отрезок / с а-алгеброй всех борелев- борелевских множеств. Эти пространства являются польскими относительно метрики р (х, г/) = 1 при х=/=у в случае S и метрики р{х, у)=\х—у\ в случае /. Наша цель — доказать, что всякое борелевское про- пространство изоморфно либо S, либо I. Для конечных и счетных пространств В это утвержде- утверждение тривиально: в метрическом пространстве Е одно- одноточечные множества замкнуты и поэтому измеримы, сле- следовательно, измеримы все подмножества В. Таким обра- образом, достаточно доказать, что все несчетные борелевские пространства изоморфны между собой. При доказатель- доказательстве этого утверждения особую роль играют два про- пространства: произведение II счетного числа отрезков / (гильбертов кирпич) и произведение М счетного числа двухточечных множеств {0, 1}. Мы докажем, что а) Любое борелевское пространство допускает изомор- изоморфизм в Н (т. е. изоморфно измеримому подмножеству пространства Н). 278 б) Пространство М можно изоморфно отобразить в любое несчетное борелевское пространство. в) Существует изоморфизм II в М. Утверждения а)—в) будут доказаны в §§ 2—4. Из них следует, что любые два несчетные борелевские простран- пространства можно изоморфно вложить друг в друга. Этого до- достаточно, чтобы утверждать их изоморфизм. Именно, имеет место следующее общее предложение: Пусть Е и Е' — произвольные измеримые простран- пространства. Если существуют изоморфизм / пространства Е в Е' и изоморфизм g пространства Е' в Е, то Е и Е' изоморфны. Для доказательства рассмотрим множества X—g (?") и Y=gf (Е). Очевидно, YQ.XC.Evl отображение <p=g/ есть изоморфизм Е на Y. Поскольку Е' изоморфно X, достаточно проверить, что X изоморфно Е. Рассмотрим две последовательности измеримых мно- множеств Хо = X, Хп+1 — ср (Хп) и доложим Ясно, что • • • 2 и потому Ет=Хоэ. Нужный изоморфизм ф пространства Е на пространство X определяется формулой при {Х) = х при z G U (X. \ En+l) U Ею. м § 2. Вложение борелевского пространства в гильбертов кирпич Борелевское пространство В, по определению, изо- изоморфно измеримому подмножеству польского простран- пространства Е, и, значит, достаточно изоморфно вложить Е в Н. Пусть {г„} — последовательность, всюду плотная в Е. 279
Функции Llx) = . !{х; %п) , A) непрерывны и, следовательно, измеримы. Поэтому фор- формула задает измеримое отображение Е в Я. Если / (x)=f {у), то р (ж, zK)—p (у, z~) при всех и, откуда легко выводится, что х=у. Таким образом, / отображает Е взаимно одно- однозначно в Я. Остается проверить, что / перевидит измеримые мно- множества пространства Е в измеримые множества простран- пространства Я. Покажем, что дело сводится к проверке измери- измеримости множества / (Е). Положим A ^S, если АС.Е mf(A) измеримо. Если Е ? е#, то е# является а-алгеброй. При любом s из интервала @, 1) образ множества иг {zn) = {x:p (х, zH) < е) = [х: /„ (х) < -j-^ равен пересечению / (Е) с совокупностью точек h= = h-Ji^... — пространства IIтаких, что h№ <^ , _ . Поэтому при / (Е)?о$ все множества Ue (zj тоже принадлежат^. Но эти множества порождают Q% (E) и, стало быть, Переходим к доказательству измеримости / (Е). Введем в Я метрику по формуле Р(А, й') = ¦JO B) Эта метрика согласуется с измеримой структурой Я, как .произведения отрезков 1. 1 Действительно, пространство Н сепарабельно в метрике р и функ- функция р измерима по каждому аргументу. Значит, все открытые мно- множества, как счетные объединения сфер, измеримы. С другой сто- стороны, все прямоугольники вида (%, Ь^ X (а2, Ь2) X ... (а,„ Ь„) X I X I X . . . открыты в метрике р и порождают J8 (Я). Отметим, что пространство Н полно в метрике B) и, стало быть, является, польским пространством. 280 Отображение / 1 непрерывно на / (Е) в метрике B). Действительно, если / (хт) -> / (х), то р (хп, zj -н>. р(х, zj при каждом п. Выбирая точку zn в малой окрестности точки ж, из неравенства р (хт, х) ^ р (хш, zB)+p(z«» x) легко выводим, что р (хт, х) -^ 0. Для каждой точки / (ж) из / (Е) и любого целого т найдется открытая сфера S в пространстве Я с центром в точке / (х) такая, что диаметры S и /^(S) меньше —. Построим для каждой точки / (ж) из / (Е) такую сферу и обозначим через Gm их объединение. Множество Gm открыто и содержит / (Е). Докажем, что пересечение мно- жеетв Gm по всем т совпадает с / (Е). В самом деле, если точка h принадлежит такому пере- пересечению, то для каждого т найдется накрывающая h сфера Um с центром hm=f (xm) такая, что' диаметры Um и Vm = f'1(Um) меньше—. Ясно, что hm-^h, и, значит, h принадлежит замыканию множества / (Е). Поэтому для любых к и т в окрестности Ukf\Um точки h найдется точка ti, принадлежащая / (Е). Тогда точка ж'=/"х (Ы) принадлежит Vkp\Vm и Отсюда следует, что последовательность {хт} является фундаментальной и, значит, сходится к некоторому пре- пределу ж в полном пространстве Е. Из A) и B) вытекает, что отображение / непрерывно, и поэтому / (ж) = =Иш / (жт)=Нт hm=h. Следовательно, h принадлежит / (Е). Итак, множество / (Е) совпадает с пересечением от- открытых множеств Gm и, стало быть, измеримо. § 3. Вложение пространства двоичных последовательностей в несчетное борелевское пространство Как и в случае пространства Я, удобно трактовать измеримые множества пространства М как борелёвские множества относительно метрики B.2). В зтой метрике пространство М компактно. 281
Мы покажем, что а) Пространство М можно взаимно однозначно и не- непрерывно отобразить в любое несчетное польское про- пространство Е. б) Произвольное борелевское пространство В является взаимно однозначным и непрерывным образом некоторого польского пространства Е 2. Из а) и б) вытекает, что М можно взаимно однозначно и непрерывно отобразить в любое несчетное борелевское пространство В. При таком отображении / образы и про- прообразы компактных множеств компактны. Поскольку М — компакт, системы замкнутых множеств в М ив/ (М) совпадают с системами компактов. Значит, отображения / и f'1 переводят замкнутые множества в из- измеримые, и, следовательно, / есть изоморфизм М в В. Переходим к доказательству пункта а). Выберем в Е всюду плотную последовательность {zk} и положим Vkn= = {х : р (ж, zk) <[ —}. Рассмотрим те из сфер Ukn, которые содержат не более счетного числа точек, и обозначим через Y их объединение. Множество Y счетно, следова- следовательно, множество X=E\Y измеримо и несчетно. Любая окрестность U произвольной точки х из X содержит несчетное число точек, принадлежащих X. Действительно, в противном случае U было бы счетным множеством, и тогда точка х накрывалась бы одной из сфер Ukn, входящих в дополнение Y множества X. Возьмем в X две произвольные точки ж0 и х1 и окружим их непересекающимися сферами Uo и U1 радиуса меньше 1. Выберем в несчетном множестве Uof\X две точки хт и ж01 и окружим их непересекающимися и содержащимися в Uo сферами Uoo и U01 радиуса меньше -^-. Аналогично возьмем точки ж10 и жп и в U1 — сферы U10 и t/n. Про- Продолжая это построение, мы для всевозможных наборов Ап=т1тг. . ,тп нулей и единиц длины п получим 2" отвечающих им точек хап в множестве X, окруженных по- 2 По определению, В изоморфно вкладывается в какое-то польское пространство Е', и в В рассматривается метрика, индуцированная метрикой Е'. Легко видеть, что а-алгебра измеримых множеств в В порождается замкнутыми (или открытыми) подмножествами пространства В. 282 парно непересекающимися сферами UAn радиуса меньше - (га=1, 2, . . .), причем если набор Ак совпадает с началом набора Ап, то UА)г С И Ак. Пусть т=т1т2. . .т„ . . . — произвольная точка про- пространства М, и пусть 4я=пг1пг2. . ,тп. Тогда последова- последовательность центров ха„ вложенных друг в друга сфер UАп является фундаментальной и имеет в полном простран- пространстве Е предел х, который мы и примем за образ / (пг) точки т. Очевидно, f(m!)^f(rn) при т' =^т и p{f(m), /(иг'))< — при р(т, те')<од. Следовательно, отображение / про- странства М в пространство Е взаимно однозначно и не- непрерывно. Утверждение а) доказано. Рассмотрим теперь произвольное польское простран- пространство Е' и обозначим через 0Т класс всех его подмножеств, являющихся взаимно однозначными непрерывными об- образами польских пространств. Очевидно, предложение б) будет доказано, если мы убедимся, что а-алгебра ffS (?") содержится в системе е?. Прежде всего, оГ содержит все открытые множества B(zE'. Действительно, за пространство Е в этом случае можно принять само множество В с новой метрикой где S (х> У) = х, Е'\В) р (у, Е'\В) (неравенство треугольника для р вытекает из очевидного неравенства треугольника для g и выпуклости вверх функции z—¦¦ f_ при g^O). Легко видеть, что если х и хп принадлежат Лир (хи, х) -^. О, то также и р (хи, х) -> 0; поэтому пересечение В с всюду плотной в Е' последова- последовательностью {zm} представляет собой последовательность, всюду плотную в Е, и пространство Е сепарабельно. Наконец, если {хп} — фундаментальная последователь- последовательность в Е, то в силу неравенства р ^ р эта последователь- последовательность фундаментальна и в Е' и, следовательно, имеет в Е' предел х; полнота пространства Е будет доказана, если мы убедимся, что х принадлежит В. Если бы х при- принадлежало Е'\В, то мы имели бы. р..(^,.„?'\В).->,0, 283
откуда g (хк, жв) —*¦ эо при п -> со и любом фиксированном к и, значит, р (жд, жв)-> 1+р (жЛ, ж),'что противоречит предположению о фундаментальности последовательности {хп} в метрике р. Итак, пространство Е — польское. Тождественное отображение / (ж)=ж пространства ? на множество Б непрерывно, так как р (ж, г/) ^ р (ж, г/). Далее, рассмотрим последовательность множеств Вп из класса & и пусть /я — взаимно однозначное непрерыв- непрерывное отображение польского пространства Еп на Вп. По- Покажем, что пересечение Вп, а также сумма Вп (если Вп цопарно не пересекаются) тоже принадлежат Jr. Легко видеть, что прямое произведение Е^—Е^Х X ЕгХ. . . тоже является польским пространством в рике о(хх ж и и и ) — S 1 P{xlx2...xii...,y1y2...yn...) — 2i2« I+ ?»{», У») Ввиду непрерывности всех отображений /я подмножество пространства Z?ra, на котором f1 (x1)=f2 (x2) = . ¦ ¦ . ,.=fn(xl) = . . . замкнутой, значит, также является поль- польским пространством. Формула / (х^, ... хп . . .)=/i (#i) задает взаимно однозначное непрерывное отображение пространства Ет на пересечение Вп. Пусть теперь множества Вп не пересекаются. Не огра- ограничивая общности, можно считать, что диаметры всех пространств Еп не превосходят 1 (этого можно достичь, введя новое расстояние по формуле р'—: '' j ¦ Обозна- Обозначим через Е объединение пространств Ен, считая, что р (ж, у)—2, когда х и у принадлежат разным Еп. Формула /(*)=¦/.(*¦) пРи ^б^и (» = 1, 2, ...) определяет взаимно однозначное непрерывное отображе- отображение Е на сумму Вп. Включение М (E')C.<f вытекает теперь из следующей леммы. Лемма. Если класс & множеств метрического про- пространства X содержит все открытые множества и ин- инвариантен относительно счетных пересечений и счетных объединений непересекающихся множеств, то ffi содержит все измеримые множества в X. 284 Докажем эту лемму. Любое замкнутое множество яв- является пересечением счетного числа своих открытых е-окрестностей и, значит, принадлежит g?". Следовательно, класс sf у множеств Г таких, что как само Г, так и его дополнение Г=Х\Г принадлежат $~~, содержит все от- открытые множества. Если мы покажем, что класс $"х ин- инвариантен относительно счетных объединений и пересе- пересечений, то получим, что М (•Х')С<^С(^*, и лемма будет доказана. Бели 1\, Га, ..., G cfv то Г = П Гя G сГ и так что F?d?V Аналогично и Д= так что и § 4. Вложение гильбертова кирпича в пространство двоичных последовательностей Легко видеть, что если tp есть' изоморфизм X в Y, то формула определяет изоморфизм произведения Х^ — ХхХх. . . в произведение Yco=YxYx. . .. Поскольку H=Icoi до- достаточно а) построить изоморфизм <р отрезка / в,пространство М, б) доказать, что пространства М и М°° изоморфны. Формула 2" определяет измеримое отображение пространства М на / (каждое слагаемое написанного ряда, очевидно, измеримо). Это отображение не взаимно однозначно: каждому дво- двоично рациональному числу из интервала @, 1) отвечают две последовательности m=mirn2. . . —одна, оканчиваю; щаяся нулями, а другая"— единицами. "Положим т?М', 285
если последовательность т=т1т2. . . содержит нули и притом лишь в конечном числе. Множество М' счетно, поэтому множество N=M\M' измеримо. Легко видеть, что ф взаимно однозначно и измеримо отображает Л^ на /. Докажем, что обратное отображение <р= ф отрезка / на Л^ тоже измеримо. Для этого достаточно проверить, что измеримы прообразы = {т:тк=0, m?N). Но Г 1 р A\) = интервалов Г п п —, 1 И + 1 A\) = 6 A\) множеств ГЛ= этот прообраз равен сумме где п пробегает четные значения [ ) от 0 до 2к—1. Итак, <р есть изоморфизм / в пространство М. Построим теперь изоморфное отображение F про- пространства Мт на пространство М. Каждая точка про- пространства Мт является последовательностью т}тг. . ., где т", в свою очередь, есть последовательность т"т". . . нулей и единиц. Записывая последовательность тп в форме прямоугольной таблицы : m\mhn то 2 z= составим диагональным процессом элемент т = т\т\т\т\т\т\ . . . пространства М. Очевидно, мы получим таким образом взаимно однозначное отображение F пространства ЛГ° на М. Обозначим В\ подмножество пространства Мт, определенное условием ml=0. Очевидно, множества В\ порождают а-алгебру М (М02), а множества F (B'l) о-ал- гебру SS (М). Поэтому отображения F и F~l измеримы, так что F является изоморфизмом. * * * Из полученных результатов легко выводится, что прямое произведение Е=ЕохЕгХ. . . счетного числа бо- релевских пространств тоже является борелевским про- пространством (этим обстоятельством мы пользовались в главе 5, § 4). В самом деле, каждое из пространств Еп можно интерпретировать как борелевское множество в пространстве М. Тогда Е будет измеримым множеством в произведении fylm, изоморфном М и, стало быть, будет, борелевским.- пространством, . Добавление 2 АНАЛИТИЧЕСКИЕ МНОЖЕСТВА § 1. Введение Пусть- В ж В' — борелевские пространства и / — из- измеримое отображение В в В'. Главная цель этого добав- добавления — доказать использовавшийся в главе 3 результат: образ измеримого множества универсально измерим. Чтобы доказать это утверждение, достаточно ввести в каждом борелевском пространстве В класс множеств оЯ? (В) со следующими свойствами: 1) Если Т?^(В), то /(ГNс*ИЯ'). 2) а$ {В) содержит все измеримые множества про- пространства В. 3) Все множества класса е# (В) универсально изме- измеримы. За о# нельзя принять класс всех измеримых мно- множеств: для него не выполнено свойство 1) (см. § 5). Нельзя принять за oj<f и: класс всех универсально измеримых мно- множеств: П. С. Новиков построил универсально измеримое множество на плоскости, для которого невозможно до- доказать универсальную измеримость его проекции на пря- прямую, применяя общепринятые в настоящее время аксиомы теории множеств и средства вывода х. Нужный нам класс о# (В) составляют так называемые аналитические мно- множества. Их можно определить как измеримые образы 1 См. П. С. Новиков [1 ]. С другой стороны, в свете недавних резуль- результатов Р. Соловья [1], по-видимому, невозможно (в том же смысле) опровергнуть, что класс всех универсально измеримых множеств обладает свойством 1). Таким образом, для гипотезы о том, что класс всех универсально измеримых множеств удовлетворяет условию 1), положение представляется аналогичным ситуации со знаменитой континуум-гипотезой Гильберта о равномощности всех несчетных множеств действительных чисел. Гедель пока- показал, что гипотеза Гильберта не может быть опровергнута, а Коэн— что нельзя опровергнуть ее отрицание. 287
борелевских Пространств в других борелевских простран- пространствах. Ясно, что при этом выполнены свойства 1) и 2), и дело сводится к проверке свойства 3). Покажем, что аналитические множества борелевского пространства В можно определить так же, как образы польских пространств при их непрерывных отображениях в В. Пусть А — аналитическое множество пространства В и, стало быть, А есть образ борелевского пространства В' при измеримом отображении /. Вложим В ж В' в со- соответствующие польские пространства Е и Е' с метри- метриками р и р'. Прямое произведение измеримых пространств ЕхЕ' становится польским пространством в метрике d х2у2) = р (xv x2) -f p' (yv г/2) X Рассмотрим в ЕхЕ' график Г отображения /: Легко видеть, что г= П U\unkxr(Unk)}, fc=l я=1 где {Ulk, U2lc, . . .}— разбиение множества В на изме- измеримые множества диаметра меньше -у. Следовательно, Г измеримо и, будучи борелевским пространством, яв- является непрерывным образом некоторого польского про- пространства X (см. добавление 1, § 3, пункт б). Но А есть образ графика Г при проектировании ЕхЕ' на Е. Про- Проектирование является непрерывным отображением. По- Поэтому А есть непрерывный образ X г. Универсальная измеримость аналитического множе- множества будет доказана в § 3, после того как мы предвари- предварительно установим, что всякое аналитическое множество можно получить с помощью так называемой ей?-операции. Цель § 4 — доказать, что взаимно однозначное измеримое 2 В § 3 добавления 1 было установлено, что пересечение непрерыв- непрерывных образов польских пространств тоже есть непрерывный образ польского пространства (вывод сохраняет силу и без предпола- предполагавшейся там взаимной однозначности отображений). Стало быть, пересечение аналитических множеств снова является аналити- аналитическим множеством. Это замечание будет использовано в § 5. 288 отображение борелевского пространства на борелевское пространство является изоморфизмом. Этот результат выводится из возможности отделить два непересекающихся аналитических множества борелевскими множествами. В § 5 приводится пример неизмеримого аналитического множества. § 2. о^-Операция Пусть в множестве F выбрано счетное число подмно- подмножеств Fv Fv . .., F,h, ..., в каждом множестве Fni — счет- счетное число его подмножеств Fna, Fnii, .. ., F,hn2, ... и т. д. до бесконечности, так что множества F,hn^__nk определены для любых конечных наборов натуральных чисел щп^ . .. пк Тогда говорят, что множества Fn%n%__nh образуют таблицу а?. Любой последовательности натуральных чисел п = = п1п2... отвечает последовательность вложенных друг в друга множеств F%1 D FMin% 3 . .. таблицы^". Их пере- пересечение обозначим Fn. Объединение множеств Fn по всем последовательностям натуральных чисел п называется результатом esf-операции, примененной к таблице аГ: мы будем обозначать это множество <&eF• Покажем, что любое аналитическое множество А бо- борелевского пространства В есть результат о$-опера- ции, примененной к некоторой таблице &', составленной из измеримых множеств пространства Bs. Пусть / — непрерывное отображение польского про- пространства Е на А. Зададим в Е таблицу <§, разбивая Е на счетное число множеств Ещ диаметра меньше 1, каждое Еп> — на счетное число множеств Еп,пг диаметра меньше -=-, каждое Е„1Щ — на счетное число множеств В„1%Из диаметра меньше -я- и т. д. до бесконечности (такое разбиение воз- возможно ввиду сепарабельности пространства Е). При этом каждой точке х пространства Е будет соответствовать единственная последовательность п = п (х) такая, что х = Еп (и, наоборот, каждое Еп будет одноточечным или 8 Обратное утверждение тоже справедливо, но оно нам не понадо- понадобится (см. К. Куратовский [1], § 38, раздел IX). 'А 19 Е- Б. Дынкин, А. А. Юшкевич 289
пустым множеством — в таблице могут быть и пустые множества). Далее, определим в В таблицу #', полагая FBlf,Ji<pnfc равным замыканию образа f{Enin^_4,lk). Множества таб- таблицы еГ измеримы, и мы покажем, что о$эГ' = А. Любая точка у из А имеет хотя бы один прообраз х в пространстве Е, а точке х отвечает последовательность п такая, что х = Еп. Тогда y = f(x) = f {En) (ZFnd orfcf и, значит, 4Ceif<f. б у принадлежит о$$", то существует n = n-ji2. .. такая, что J/fi51»,»,...^ ... Так как РЩщ...пк есть замыкание „к), то можно выбрать в /(#KlBji-.nfc) отстоящую от у на расстояние, меньшее -j-. , Наоборот, если последовательность при всех &=1, 2, множества f (Е»л. точку !/fc Пусть хк — один из прообразов точки ук. Точки хк при- принадлежат вложенным друг в друга множествам ЕП1„г_,_„к со стремящимися к 0 диаметрами и образуют поэтому фундаментальную последовательность. Эта последователь- последовательность имеет _в полном пространстве Е предел х и по не- непрерывности отображения / имеем / (х) = lim / (хк) = = lim yk = у. Значит, y?f(E) — A и orf^ С А. § 3. Универсальная измеримость аналитического множества Для доказательства универсальной измеримости ана- аналитического множества достаточно проЁерить, что если & — таблица, составленная из измеримых множеств изме- измеримого пространства В, то множество q^S" ^-измеримо для любой вероятностной меры [J. в пространстве В. Введем для любого множества А пространства В внеш- внешнюю и внутреннюю меры v (A) = inf p. (Г), up ГО» A) (Г пробегает измеримые множества). Заметим, что нижняя грань в A) обязательно достигается: если Гя D A, [J. (Гя) < <Ч(у1)-| , то для пересечения Г множеств Гя имеем ГЗА, [л(Г)<^>(.А) и, следовательно, _л,(Г) =v (А). Ана- Аналогично достигается и верхняя грань в определении X. 290 Поэтому для [л-измеримости множества А достаточно, чтобы \(A) = v(A). ' B) [Очевидно, условие B) также и необходимо.] Отметим следующие свойства внешней меры: а) Если Аг с Аг, то v (Аг) ^ v (Л2). б) Если 41c4aC...c4c..-Hi=U^,, то vD)=limvD,). C) Первое из этих свойств очевидно, Для доказательства второго рассмотрим измеримые множества Гя такие, что Ап С Тп и [i. (Гя) = v (Ая), и положим r=U П Г». п=1 гп=п ¦п, то Ап С Г и, значит, ;ih^!.(rj = limvD). Поскольку Ап С Тт при Л С Г. Поэтому у(Л)О(Г) = 1ш1| и->оэ Но в силу а) lim v (Ая) < v (А) п^усо и C) доказано. Переходим к доказательству соотношения B) для мно- множества А = <2#эГ- Очевидно, достаточно для любого е > О построить измеримое подмножество Г множества А такое, что fi(r)>vD)-e. D) Обозначим через Fmim*---mk объединение множеств Fnith_^n]e по всем значениям п^^щ, п2^т2, .. .,пк^.тк, и пусть Атьт*---тк = A nF"!""'"*. Ясно, что А= U Ащ 19 Е. В. Дынкин, А. А. Юшкевич 291
и по свойству б) для любого s ^> 0 найдется номер mi такой, что -1. Далее, и Г«1 1 4- = и Ш Л.,,, и по свойству б) найдется номер т2 такой, что Продолжая это построение, получим бесконечную После- Последовательность т1т2 ... натуральных чисел такую, что D) -. Обозначим А (к) = Am*mf"i>, F(k) = р«>1>п1...»17сш Из D) следует, что v (А (к)) ^> v (А) — г при любом к. Мно- Множества F (к) измеримы, A(k)^F(k) и поэтому p. (F (к)) = v (F(k)) > v (А (к)) > v (А) - е. Очевидно, F(l)Di?B)D и, значит, их пересечение Г удовлетворяет неравенству D). Остается показать, что Г содержится в А. Если х ?• Г, то ж? .F (/с) и, следовательно, x?.Fnin2... nfc для некоторого набора пгп2. . .пк, подчиненного условию ni ^ mi> W2 ^ w2, . . ¦, пк ^.тк (к=1, 2, . . .). Назовем такие наборы и1?г2. . ,пк ж-наборами. По определению таблицы #*, любое начало п{пг. . .nt ж-набора пхпг. . . . . .пг . .пк A ^ I <^ к) тоже является ж-набором. Со- Согласно сказанному, существуют ж-наборы произвольной длины к. Назовем набор хорошим, если он служит на- началом ж-наборов сколь угодно большой длины. Сущест- Существует хотя бы один хороший набор пх длины 1, так как иначе длины всех ж-наборов были бы ограничены. Ана- Аналогично, у хорошего набора пх имеется хотя бы одно хорошее продолжение n-jb% длины 2 и т. д. до бесконеч- бесконечности. Получающаяся таким образом бесконечная по- последовательность п^щщ. . ,=п обладает тем свойством, 292 что все ее начала являются ж-наборами. Нотогдаж^/ — C\Fn,n1...nJe и, значит, х?А. Следовательно, Г С А Итак, все множества, которые получаются о^оера цией из измеримых множеств, являются ^-измеримыми. По существу мы доказали общую теорему о продолжении ем- емкостей. Пусть С — некоторый класс множеств, замкнутый отно- относительно объединения конечного числа множеств и пересечения счетного числа множеств, и пусть функция v определена для всех множеств, удовлетворяет условиям а) и б) и условию в) v (F (k)) -*¦ v (Г), если F A) 2 F B) э ¦•• принадлежат системе Z и Г= Л *"(*). ft Если о?" — таблица множеств, принадлежащих Z, и А=о&<&~, то v (А) равно супремуму v (С) по всем содержащимся в А мно- множествам С ? Z. В нашем случае Z — это система всех измеримых Множеств, а свойство в) следует из того, что v на Z совпадает с мерой jj.. § 4. Отделимость аналитических множеств Докажем, что два непересекающихся аналитических множества Ах и А2 отделимы некоторыми измеримыми множествами Вх и Б2 (это значит, что Ах С Bv A2 Q Вг и В^ не пересекается с В2). Прежде всего заметим, что если каждое множество последовательности Ат отделимо от любого множества последовательности Сп, то сумма А= \jAm отделима от т суммы С = U Сп. В самом деле, если Ттп и Д^я — пара и измеримых множеств, отделяющих Ат от Сп, то множества г = и пгии и д=и лдм m и п т отделяют А от С. Допустим теперь, что непересекающиеся аналитиче- аналитические множества Аг и А2 неотделимы, и придем к противо- противоречию. Согласно § 1 Ax = f (Е2), Аг = g (E2), где Ех и Е2 — польские пространства, / и g — непрерывные ото- отображения. В пространствах Ег и Ея возьмем таблицы ?Г 19* 293
и $, составленные из замкнутых множеств, и такие, что при любом к и диаметры множеств Fm^,.%mk и G,,A...Mfc меньше-^- Поскольку то из неотделимости 4Х и wl2 следует неотделимость какой-то пары f(Fm) и g- (GBl). Так как / (FmJ = U / (^»2), g (G,,) = U g (G,,O. то из неотделимости f {Fmi) и g-(G%) следует существо- существование неотделимой пары / {Fmitn2) и g (GMlBj). По индукции получаем две последовательности m^nz .. . =т и п^- • • . .. = п такие, что множества f(Fmimi...mje) и g (Gre,%...«fc) неотделимы при любом /с. Замкнутые вложенные друг в друга множества Fmim^_m]c и G,Hn2...nk со стремящимися к 0 диаметрами стягиваются в полных пространствах Ег и Е2 к некоторым предель- предельным точкам жиг/. Поскольку / (ж) ? Л^ g (г/) ? Л2, то f(x)^=g (у) и точки /(ж) и g (у) можно окружить непере- непересекающимися открытыми сферами Ux и f/2. Из непрерыв- непрерывности отображений / и g следует, что при достаточно большом к образы f{Fmitn^_,mk) и g(Gnia,...nk) будут со- содержаться, соответственно, в 1}г и С/2> т. е. будут отде- отделимы, что противоречит определению этих множеств. Из доказанной отделимости следует, что если анали- аналитическое множество А имеет аналитическое дополнение В\А, то А измеримо. Действительно, А и В\А должны быть отделимы, а отделяющими их измеримыми множе- множествами могут быть только сами А и В\,А. Теперь легко установить, что если f — измеримое взаимно однозначное отображение борелевского простран- пространства Ви на борелевское пространство В2, то обратное отображение /-1 тоже измеримо (так что / является изо- изоморфизмом). В самом деле, если Г — измеримое мно- множество в Ви то / (Г) и / (S1\F) — аналитические мно- множества в В2, являющиеся дополнениями друг друга, и, следовательно, / (Г) измеримо. 294 § 5. Пример неизмеримого аналитического множества В примере используется аналитическое множество А плоскости Оху такое, что среди его х-сечений содержатся все борелевские подмножества прямой. (В конце пара- параграфа будет объяснено, как построить это множество, опираясь на сведения из теории функций действитель- Рис. Д2.1 ного переменного, излагаемые в учебниках.) Пересече- Пересечение D множества А с диагональю х=у является анали- аналитическим множеством, следовательно, аналитична и его проекция И на ось Оу (см. рис. Д2. 1). Докажем, что множество Н неизмеримо. Достаточно проверить, что неизмеримо дополнение Н' множества Н (до оси Оу). Ввиду свойства универсаль- универсальности множества А, для этого достаточно убедиться, что ни одно из ж-сечений А (ж) множества А не проектируется на Н'. Для любого х рассмотрим точку М на диагонали с координатами (ж, ж) и ее проекцию JV на ось Оу. Воз- Возможны два случая: 1) М принадлежит А (ж), 2) М не при- принадлежит А (х). В первом случае М принадлежит мно- множеству D и, следовательно, проектируется в множество Я. Стало быть, проекция множества А (ж) на ось Оу отлична от Н'. Во втором случае М лежит на диагонали х=у вне множества D и поэтому проектируется в Н'. Значит, снова проекция А (х) на ось Оу не совпадает с Н'. 295
Построение множества А опирается на бэровскую классифика- классификацию функций и теорему Лебега об универсальной функции. Позна- Познакомиться с классификацией Бэра можно, например, по учебнику И. П. Натансона 4. Там же доказана и теорема Лебега, по которой, в частности, существует измеримая функция y=F (х, z) @ < х, z < 1) такая, что всякая функция y=f (z) класса < 2 получается из F фиксированием некоторого хъ. Проекция графика функции F на плоскость Оху представляет собой нужное множество А. Чтобы это доказать, надо убедиться, что любое борелевское множество В на прямой может быть представлено как множество значений некоторой функции y=f (z) @ < z < 1) класса < 2. Сна- Сначала доказывается, что В есть непрерывный образ множества а/У всех иррациональных чисел отрезка [0, 1]. В силу § 3 б) добавления 1 для этого достаточно показать, что всякое польское пространство Е является непрерывным образом а/У. Каждое число z (• а/У одно- однозначно представляется в виде бесконечной цепной дроби 1 1 где rajre2. . . ¦— последовательность натуральных чисел 6. Совокуп- Совокупность таких последовательностей отображается на пространство Е с помощью е>/-операции, примененной к последовательности покрытий Е замкнутыми множествами с диаметрами, стремящи- стремящимися к 0. Нужная нам функция / в иррациональных точках построена. Остается доопределить ее в рациональных точках отрезка [0, 1], не увеличивая области ее значений и не выходя за пределы вто- второго бэровского класса. Обозначим через / (z) @ < z < 1) верхний предел f (и), когда и стремится к z по иррациональным точкам. Функция / совпадает с / на множестве а/У. Она может иметь раз- разрывы только в рациональных точках и поэтому принадлежит бэ- ровскому классу < 17. Не выйдет она за пределы класса 1 и при изменении ее значений в конечном числе точек (так как разры- разрывов будет снова не более чем счетное число). Поочередно исправ- исправляя значения / во всех рациональных точках, мы получим по- последовательность функций класса sj 1, которая сходится к функ- * И. П. Натансон [1], гл. 15. 8 Там же, гл. 15, § 3, теорема 4. 6 А. Я. Хинчин [1], гл. II, § 5, теорема 14. \И. п. Натансон [1], гл. 15, § 3, пример И. 296 ции /, отображающей отрезок [0, 1] на В. По определению класс этой функции не превосходит 2. В главе 3 мы использовали существование плоского борелевского множества В с неборелевской проекцией на прямую. Существование такого множества вытекает из существования неизмеримого аналитического множе- множества Н и того факта, что любое аналитическое множество на прямой есть проекция некоторого плоского борелев- борелевского множества В. Последний факт устанавливается следующим образом. Из опре- определения аналитического множества и изоморфизма борелевских пространств следует, что любое аналитическое множество является измеримым образом отрезка [0, 1]. Если В — аналитическое мно- множество на прямой Оу и y=f (x) — измеримое отображение отрезка {0 < х < 1] на В, то В есть проекция на ось Оу графика функции /, а этот график является борелевским множеством на плоскости Оху (в более общей форме это было доказано в § 1).
Добавление 3 ТЕОРЕМЫ ОБ ИЗМЕРИМОМ ВЫБОРЕ § 1. Лемма Янкова Пусть У _4 X — измеримое отображение измеримого пространства Y на измеримое пространство X. Сопостав- Сопоставляя каждому х из X его прообраз или слой Y(x)=f~1(x), получаем соответствие /-1 из пространства X в простран- пространство У. Отображение X Д. У называется селектором соот- соответствия/, если/(<р(ж))=ж [т. е. у(х) ?У(ж) при каждом х]. Измеримый селектор <р определяет униформиэацию соот- соответствия Z или измеримый выбор. Б случае произвольного измеримого отображения f бо- релевского пространства Y на борелевское пространство X соответствие f~x может не допускать измеримого выбора (см. § 3). Однако имеет место следующий результат (лемма Янкова): для любой вероятностной меры р. на X сущест- существует измеримое отображение X Л-Y такое, что f (<р (х)) = х (п. н. |х). Докажем это утверждение. Покажем, что всегда можно метризовать X и Y так, чтобы: а) измеримые множества в X и Y совпадали с боре- левскими множествами; б) Y стало польским пространством; в) отображение / являлось непрерывным. По определению борелевских пространств X и Y их можно метризовать так, чтобы выполнялось условие а). Произведение X X Y также является метрическим пространством, а график Г отображения У J*. X — изме- измеримым множеством в XxY (см. добавление 1, §1) и, значит, борелевским пространством. В силу пункта б) § 3 добавления 1, пространство Г является взаимно одно- однозначным образом некоторого польского пространства Е 298 при непрерывном отображении g. Рассмотрим диаграмму X*-- где hx и h2 — проектирование графика Г на простран- пространства X и У. Очевидно, hj^h^ Отображения g, h^ и h2 непрерывны и, следовательно, измеримы. Измеримые ото- отображения g шТъг взаимно однозначны и являются поэтому изоморфизмами (см. добавление 2, § 4). Отождествим пространства Е и У с помощью произведения этих изо- изоморфизмов. Тогда отображению У 1* X перейдет н непре- непрерывное отображение Е9^Х польского пространства Е на X. Отождествление Е и У равносильно введению в У новой метрики, которая (вместе со старой метрикой в X} удовлетворяет условиям а), б) и в). Из условий б) и в) следует, что все слои У (ж) замк- замкнуты. Пусть sre = —. Мы построим измеримые множества УХСУ и Хх С Этакие, что Xx=f (Уд), fi (Хх) = 1 и все слои Ух (ж) = У1р|У (ж) (ж ? Хх) замкнуты и имеют диаметр меньше ех. Повторяя эту конструкцию, получим после- последовательности У 2 Yx 2 Y2 2- • . hXD ZjD^S- • • такие, что Хя=/ (Уя), fi (Хя) = 1 и все слои Уя (ж) = У„Л У (ж) замкнуты и имеют диаметр меньше ея. Обозначим через Ут пересечение множеств Уя и через Х^ — пересече- пересечение Хп. Ясно, что У^ и Хт измеримы, р. (Хоо) = 1 и / (Уоо) ^ Хт. Для любого ж из Хга слой Ут (ж) = = Усо П У (х) равен пересечению вложенных друг в друга замкнутых подмножеств Уя (ж) полного пространства У с диаметрами, стремящимися к 0, и, значит, состоит иа одной точки. Стало быть, / (Yco) = Xca и измеримое ото- отображение Усо _4 Хга взаимно однозначно. Согласно § 4 до- добавления 2, обратное отображение Хю Д» У^ тоже изме- измеримо. Доопределяя отображение <р на множестве Х\Хт. формулой ср (ж) = у0 (у0 — фиксированная точка простран- пространства У), получим измеримое отображение ХД> У, удовле- удовлетворяющее требуемым условиям / (<р (х)) = х при х ? Хсо, в) 1 Остается описать построение Ух и Хх. Покроем про- пространство У счетным числом замкнутых сфер Fn диаметра 29»
меньше ех. Образы Ап={ (Fn) этих сфер — аналитические, а значит, ^-измеримые множества в пространстве X {см. добавление 2). Поэтому в каждом Ап можно выбрать измеримое подмножество Сп с f» (С„) = р (Ап) *. Положим DX=CX и обозначим через Dn совокупность точек из Сп, не входящих в Cx\jC2\J.. .\JCU_V МножестваDnизмеримы, не пересекаются и с точностью до множества меры О локрывают все пространство X. Полагая |так что при x?Dn слой Yt (x) равен Fnf\Y (x)], получим множества Хг и Ylt обладающие всеми нужными свой- свойствами. § 2. Теорема Блекуэла—Рылль-Нарджевского Если Y-*X — измеримое отображение борелевского пространства У на -борелевское пространство X, и для каждого х из X определена конечная мера v (• | х) на У, причем 1) функция ч(Г\х) измерима по х при любом измери- измеримом Г из У; 2) для любого х мера v (• | х) сосредоточена на слое Y (x)=f-i (х); 3) v (У | х) ;> 0 при всех х, тогда соответствие f'1 допускает измеримый выбор. Этот результат доказывается по тому же плану, что и лемма Янкова в § 1, но с тем отличием, что теперь Х= ~\Т XT' XT' Л \ -Л- 2 • • • "Л. QQ* Множество Ух строится следующим образом. Рассмат- Рассматриваем счетное покрытие {Fn} пространства У замкнутыми ¦сферами диаметра меньше ех и полагаем В силу 1) множества Сп измеримы, в сллу 3) они покры- ъают все пространство X. Множества Dn и Хг строятся 1 Меру (л можно считать продолженной на все ^.-измеримые мно- множества. 300 по Сп так же, как в § 1, причем теперь \JDn — X. В силу A) и B) при B) и, значит, все слои Yx (x)=Y1f\Y (x) не пусты. Очевидно, мера v (• \х) сохраняет свойства 1) и 2) при замене пространства У его измеримым подмножеством Ух; согласно B) она сохраняет и свойство 3). Поэтому к Yt можно применить ту же конструкцию, но с числом е2, и т. д., как в § 1. § 3. Пример соответствия, не допускающего измеримого выбора Строится борелевское множество D в пространстве Oxyz, проектирующееся на всю плоскость Оху и не содер- содержащее графика ни одной измеримой функции z=y(x, у) (—оо <^ х, у <^ +оо). Это построение опирается на тон- тонкие результаты дескриптивной теории функций, и мы лишь коротко изложим основную его идею. Известно, что любая измеримая (=борелевская) функ- функция tp (x, у) принадлежит одному из классов Бэра. Среди этих классов нет наивысшего. Все а;-сечения функции <р класса а имеют класс не выше а. Поэтому в множество D нельзя вписать графика измеримой функции двух пере- переменных, если среди а;-сечений множества D содержатся графики измеримых функций одной переменной z=/ (у) сколь угодно высокого класса. Последним свойством обладает борелевское множе- множество Т = {(х, у, z):O<a;< 1, —оо<г/<+оо, 0<z<l, y = F{x,z)}, где F — универсальная функция, рассмотренная в § 5 добавления 2. В самом деле, можно построить функцию z=/ (у) сколь угодно высокого класса, взаимно одно- однозначно отображающую прямую на отрезок [0, 1] и такую, 301
что обратная функция y=g (z) будет иметь класс Стало быть, найдется х такое, что F (х, z) = g (z). х — сечение множества Г равно {{у, z):y = F{x, z)) = {{y, z):y = g(z)} = = {{y,z):z = ^ 2 2. Тогда Однако множество Г плохо тем, что оно проектируется в неборелевское множество плоскости Оху (см. § 5 добав- добавления 2). Используя так называемую теорему о природе множества точек единственности, можно заменить Г бо- релевским множеством D, проектирующимся на всю плоскость и имеющим одинаковые с Г сечения при всех хг при которых уравнение y=F (x, z) определяет взаимно однозначное соответствие между у и z 3. Изоморфное отображение плоскости Оху на отрезок /=[0 ^ и <^ 1] переводит D в борелевское множество Н квадрата /xtO^z^l], проектирующееся на / и не содержащее графика ни одной измеримой функции z=z (и). При этом слои Н (u)=Hf\(uxlO, 1]) не униформизуемы [ибо, если ф — измеримый селектор этих слоев, а к — про- проектирование на z, то график измеримой функции z=fc<|> (и) принадлежит Н]. а Именно, берется разбиение прямой на два несчетных борелевских множества В и В' наперед выбранного класса а и рассматривается непрерывное взаимно однозначное отображение / множества ир- иррациональных чисел отрезка 0, -^ на .В\5 и множества иррацио- иррациональных чисел отрезка -s-, 1 b&B'\S' , где S и S' — счетные под- Lz J множества В я В' (доказывается, что любое несчетное борелевское множество есть сумма счетного множества и непрерывного взаимно однозначного образа пространства иррациональных чисел — см. К. Куратовский [1], § 36, IV, теорема 2). Затем / доопределяется в рациональных точках так, чтобы взаимно однозначно отобразить их на iS и iS'; те же соображения, что в § 5 добавления 2, показывают, что получится функция / (z) @ < z < 1) класса < 2. 3 См. Н. Н. Лузин [1], стр. 216—221. Добавление 4 УСЛОВНЫЕ РАСПРЕДЕЛЕНИЯ § 1. Введение В зтом добавлении будет доказано, что если Р — вероят- вероятностная мера на произведении борёлевских пространств XxY и f» — индуцированная ею мера на X, то найдется переходная функция v (dy \х) из X в Y такая, что ). A) Точнее, будет построена функция v {Г\х) со следующими свойствами: а) v есть вероятностная мера на Y при каждом х\ б) v есть измеримая функция х при каждом Г; в) для любой измеримой ограниченной функции f на пространстве XxY B) f(x,y)P{dxdy)=\v.{dx)\f{x,y)y(dy\x) XXY X Y Свойства а) и б) составляют определение переходной функции, свойство в) является развернутой записью фор- формулы A)]. Фукция v с указанными свойствами называется условным распределением вероятностей на Y относи- относительно X. v В случае конечного или счетного пространства л условиям а)—в) удовлетворяет ,(ГИ 1^ \ р(Г) ;где В — произвольная фиксированная вероятностная мера ша Y (проверку предоставляем читателю). Построение условных распределений для несчетного пространства X «будет проведено в § 4. Это построение опирается на поня- . 303
тие, условного математического ожидания и некоторые его свойства, а также на существование в борелевском пространстве так называемой опорной системы функций; зтим вопросам посвящены §§ 2 и 3. Из теоремы об условных распределениях легко полу- получаются разложения вероятностных мер на произведениях пространств, использованные в главах 3 и 5 (теоремы К из §§ 3.4 и 5.4). Пусть Р — вероятностная мера на ко- конечном или бесконечном произведении борелевских про- пространств Обозначая индуцированные ею меры на произведениях меньшего числа множителей тоже через Р и применяя наш результат к Х=ЕохЕхХ. . •XEt_1 и Y=Et, получим фор- формулу Р (dxadxx . .. dxt) = Р (dxodx1... dxt_x) v (dxt | xoxx.. . xt_x), где v (dx( \xoxx. . . xt^) — переходная функция из Ео X XEX X . . .XE(_X в Er Из D) очевидной индукцией по I выводится, что Р [dxudxx... dxt) = p. (dx0) v (dxx | x0)... v (dxt \ xoxx.. . xt_x)r где \x (dxo) = P (dx0) [t — любое натуральное число, мень- меньшее чем число сомножителей в C)]. § 2. Условные математические ожидания В добавлении 4 мы будем рассматривать, не оговаривая этого каждый раз особо, только измеримые ограниченные функции /. Пусть Р — вероятностная мера в измеримом простран- пространстве Е. Произвольному разбиению пространства Е на попарно не пересекающиеся измеримые множества соответствует зависящая от точки х простран- .304-' ¦ ' ' ' ства Е вероятностная мера v*, определенная формулой при Р(?,) = B) где номер k=k (x) выбирается из условия, чтобы х при- принадлежало множеству Ек, и у — произвольная фикси- фиксированная вероятностная мера на Е. Интеграл \xj функции / по этой мере является условным математическим ожида- ожиданием / относительно разбиения A). Функция / (x) = vxf постоянна на каждом множестве Ек, и еслжА=Ек, то C) \f(x)P(dx)=\f(x)P(dx). Эта формула сохраняет силу и для множеств А, равных сумме нескольких элементов разбиения. Такие суммы образуют а-алгебру (М, все элементы которой — изме- измеримые множества пространства Е. Пусть теперь с# — произвольная а-алгебра, состав- составленная из измеримых множеств. Условным математическим ожиданием функции / относительно о$ называется любая функция /, измеримая относительно ^ и удовлетворяю- удовлетворяющая соотношению C) при каждом множестве А из <М. Этому определению удовлетворяет вместе с функцией / любая функция, измеримая относительно о$ и отличаю- отличающаяся от / на множестве меры нуль. Мы будем обозначать любую из таких функций через М(/|з$). Из определения легко выводятся следующие свойства условных математических ожиданий: 1) Для любой постоянной с = с (п. н.). ) -fMte|Gtf) (п. н.). 3) Если / измерима относительно <М, то М(/?И) = /М(?|с^) (п. н.). 4) Если Л С <М — две о-алгебры, то # ?f /) (п. н.). Пусть g — произвольная функция и пусть (Мд — мини- минимальная <з-алгебра, содержащая все. множества вида 305
{x : g (z) < с}, где с — любая постоянная. Функция F измерима относительно а-алгебры о$.д тогда и только тогда, когда она представила в виде F (х) = у (g (x)), где (р — функция, измеримая относительно борелевской измеримой структуры на числовой прямой (это легко вывести из леммы 1 добавления 5). Если g измерима, то <Мд состоит из измеримых множеств и под М (/ \g) по- понимается условное математическое ожидание М (f\okg). * * * Далее, пусть <^1 С. с$2 С ... — последовательность а-алгебр, состоящих из измеримых множеств, и gJ^oo — ми- минимальная а-алгебра, содержащая все <Мп- Пусть функ- функция /я является условным математическим ожиданием функции / относительно <Мп (ге=1, 2, . . .). Обозначим через С множество тех точек х, для которых существует предел и через /о, — функцию, равную этому пределу на С и равную нулю вне С. В теории мартингалов доказывается, что Р (С)==1, и что функция /га является одним из вариан- вариантов условного математического ожидания / относи- относительно Аю1. § 3. Опорные системы функций В каждом борелевском пространстве Е существует не более чем счетная система W ограниченных измеримых функций, обладающая следующими, свойствами: 1) если для последовательности вероятностных мер чп на Е существует предел интеграла \J при всех функциях f из W, то найдется вероятностная мера v на Е такая, что v,/-> v/ (f?W); 2) любая система Ж функций, содержащая W и замк- замкнутая относительно сложения, умножения на константы и ограниченного предельного перехода2, содержит все 1 См. Дж. Л. Дуб [1], глава 7, § 4, теорема 4.3. 2 Мы говорим, что последовательность функций /„ ограниченно сходится к функции /, если fn(x) -> / (х) при каждом х и все функ- функции /„ ограничены общей константой. 306 ограниченные измеримые функции (такие системы мы на- называем опорными). Если пространство Е конечно, то опорной является система функций, состоящая из индикаторов всех точек. В случае счетного пространства Е опорную систему об- образуют индикаторы всех точек, кроме некоторой выде- выделенной точки, и функция, всюду равная 1 (проверку пре- предоставляем читателю). Бели пространство Е несчетное, то в силу изоморфизма борелевских пространств можно считать Е единичным отрезком. Покажем, что в этом случае за опорную систему можно принять последова- последовательность функций 1, х, х2, . . . х1", .... Пусть \ — вероятностные меры на [0, 1]. Если схо- сходятся интегралы по этим мерам для всех степеней х1", то сходятся и интегралы от любого многочлена. Используя теорему Вейерштрасса о равномерном приближении не- непрерывной функции многочленами и оценку I \/ — v,? К sup | / (ж) — ff (ж) |, X легко убедиться, что предел существует для всех непрерывных функций /. Очевидно, Z(/i+/2)=4/i)+J(/2). ИФ=е1Ц) (с - постоянная) и I (/) ^ 0 при / ^ 0. По теореме Рисса (об общем виде поло- положительного линейного функционала от непрерывных функций на компакте8) найдется мера v такая, что I (/)=v/ для всех непрерывных функций / и, в частности, для всех степеней хт. Поскольку vl=Z A)==1, то мера v — вероят- вероятностная. Значит, свойство 1) выполнено. Свойство 2) вытекает из леммы о мультипликативных системах (см. Добавление 5, § 1), если положить ($=W и учесть, что а-алгебра на отрезке [0, 1], относительно которой измерима функция / (х)=х, содержит все боре- левские множества. § 4. Существование условных распределений В силу теоремы об изоморфизме достаточно рассмот- рассмотреть случай, когда X равно полуинтервалу @, 1]. Обо- 8 См. П. Халмош [1 ], § 56, теорема 4. 307
значим через Рп полуинтервал следовательность разбиений , |П и 2й ifc=l рассмотрим по- поA) пространства XxY. По формуле B. 2) каждому разбиению отвечает мера на X X Y, зависящая от точки пространства. Обозначим через vj* меру, отвечающую разбиению A). Легко видеть, что она в действительности не зависит от у, и мы будем писать поэтому v*. Пусть о$п — о-алгебра в пространстве XxY, порож- порожденная разбиением A). Согласно § 2, за условное матема- математическое ожидание функции / (х, у) относительно <з-ал- гебры е$я можно принять функцию /я (х, y)=fn (х) — v?/. Легко видеть, что &$г С с^2 С . • .С скп С ... и что о-алгебра о$ю, порождённая объединением всех о$п, сов- совпадает с совокупностью множеств BxY (B?S§ {X)). Положим (х, у) (] Сj,, если существует предел lim fn (x) B) и обозначим через /га функцию, равную пределу B) на С f и равную нулю вне Cf. Согласно § 2 Р (Cf) = l и /ш явля- является условным математическим ожиданием / относитель- относительно Gi^oj. Фиксируем в пространстве XxY опорную систему W (ём. § 3) и рассмотрим пересечение С множеств Cf по всем / (< W. Ясно, что С принадлежит о-алгебре е^га и что Р (С) = 1. Следовательно, C=X'xY, где X'' ?<Ш (X) и V-(X') = l. C) По свойству 1) опорной системы при х ? X' найдутся вероятностные меры v* на пространстве XxY такие, что Искомое условное распределение можно задать, полагая при х?Х', Р(Г) — некоторая фиксированная вероятностная мера на Y). 308 3? Действительно, свойство а) из § 1, очевидно, выпол- выполнено. Согласно E) для любого измеримого множества Г про- пространства Y fv*/ при х?Х' '<rW=W> op» . F> где / — индикатор множества ХхГ. Свойство б) будет доказано, если мы покажем, что для любой измеримой ограниченной функции / функция v*/ измерима по х на X'. По свойству 2) опорной системы достаточно проверить это для функций f?W. Но при W v*/=.lim/„(*)= lim v*/ {x?X') я->-со я->-со (см. D) и определения функций /га и /и). Мера v* отвечает по формуле B. 2) разбиению A) пространства E=XxY, и из формулы B. 2) видно, что функция v$ измерима 4 но г Чтобы вывести свойство в), заметим, что соотношение B. 3), определяющее условное математическое ожида- ожидаб # 6 ) ние, в случае о-агебры принимает вид 4 Пусть каждому z из измеримого пространства Z отвечает вероят- вероятностная мера Р (-|z) на X X У, причем для любого измеримого множества А в X X Y величина Р (A \z) является измеримой функ- функцией z. В разложении A. 1) мера ц определена формулой ц, (В |.z)= ==Р (В X У |z) и, стало быть, зависит измеримым образом от z. По- Построенное нами условное распределение v(-|x) также зависит от z. Покажем, что для любого измеримого множества Г в У ус- условная вероятность v (Г la;, z) измерима по совокупности х, z. Вместо множеств Cf и С в пространстве X X Y рассмотрим ана- аналогичные множества Df и D в произведении X X Y X Z. Мно- Множество D имеет вид Q X Y, где Q — измеримое подмножество в X \Z. Пусть Qt — z-сечение множества Q. Тогда Р (Qs\z)=i при ,всех z. Формулы D), E) и F) сохраняются с заменой х на пару х, гиХ'на^.и рассуждения, проведенные в тексте, показывают, что v (Г|х, z) измеримо по совокупности х, z при Г (; ой? (У). 6 Ибо BXY В f Для индикаторов измеримых множеств это сротношение сводится к определению (д., как меры, индуцированной на X мерой Р. Лю- [бая ограниченная измеримая функция получается из индикаторов измеримых множеств с помощью линейных операций и равномер- 'ного предельного перехода. 20 Е- Б. Дынкин, А. А. Юшкевич 309
/ (х, у) P (dxdy) = J /ra (ж) [i (da;) BXY В Положим / (] Ж, если /(*, y)P(da:dy)= j(v*/)i*(da:) G) (8) BXY В силу C), D) и G) опорная система И7 принадлежит Ж. Из второго свойства опорной системы вытекает, что Ж содержит все ограниченные измеримые функции. Далее, покажем, что при почти всех х мера v* в про- пространстве XX Y сосредоточена на слое xXY. Для этого применим (8) к индикатору множества (X\I*)xY и мно- множеству В=1*. Мы получим, что 0=5 f{(X\I*)XY)v.(dx). тк Так как подынтегральная функция неотрицательна, то множество XI = {х: х ? /?, v* ((Х\/*) х Y) > 0} имеет меру 0. Поскольку множество тех х, для которых покрывается суммой X* по всем п и к, то его мера также равна 0. Теперь для любых измеримых множеств В С X и ГСУ имеем Р (ВХГ)= j v*(?xr) [х (da:) = в = \v(T\x)p.(dx). (dx) = (9) Первое равенство вытекает из (8), второе — из того, что мера vx почти наверное сосредоточена на слое xXY, третье — из E) и C). Если / — индикатор прямоуголь- прямоугольника ВхТ, то A. 2) совпадает с (8). Чтобы перейти в ра- равенстве A. 2) к любым ограниченным измеримым функ- функциям /, достаточно применить лемму из § 3 к системе <$, состоящей из индикаторов всех измеримых прямоуголь- прямоугольников ВхТ. Добавление 5 НЕКОТОРЫЕ ЛЕММЫ ОБ ИЗМЕРИМОСТИ § 1. Лемма о мультипликативных системах Часто бывает нужно установить, что из имеющегося запаса функций можно получить все измеримые функции с помощью линейных операций и предельного перехода. Различные предложения, позволяющие это сделать, содержатся в книгах Дж. Л. Дуба [1], Е. Б. Дынкина [1], П. Мейера [1]. Мы приведем формулировку Мейера г. Лемма 1. Пусть Ж— какая-нибудь система огра- ограниченных функций на пространстве Е, замкнутая отно- относительно сложения, умножения на константы и ограни- ограниченного предельного перехода. Пусть *$ — система функ- функций на Е, замкнутая относительно умножения, и а (^) — минимальная а-алгебра в Е, относительно которой измеримы все функции из ^. Если система Ж содержит ЧЦ и константы, то Ж содержит все ограниченные функции, измеримые относительно о ($). Отметим одно из. следствий этой леммы. Лемма 2. Пусть Ег, Е2, Es — измеримые простран- пространства^ (хг, xs) — измеримая ограниченная функция на Егх хЕ3^и f» (dxs, x%) — мера на Es, зависящая измеримым образом от х2. Тогда формула Ф (xv x2)=^F (хг; х3) [1 (dxs, х2) A) определяет измеримую функцию на Е1ХЕ2. Для доказательства достаточно применить лемму 1 к системе ^ всех функций вида F (*i, *,) = 1А (Хг) Хв (*з) (A G Ш (Ех), В. G 35 (Е3)) 1 См. П. Мейер [1], глава 1, теорема 20. 20* 311
и системе Ж ограниченных измеримых функций F {xx, xs), для которых интеграл A) измерим по совокупности хг и х2. Легко видеть, что а {с?)=33 (EJxSH {Es)=38 (ЕгхЕ3). § 2. Измеримая структура в пространстве вероятностных мер Пусть оМ — совокупность всех вероятностных мер на измеримом пространстве Е. Мы будем рассматривать оМ как измеримое пространство, вводя измеримую структуру S" с помощью функций 2 F (|j.) = |i/ (p^oM) A) (/ — произвольные ограниченные измеримые функции на пространстве Е). Покажем, что если пространство Е -— бо- релевское, то <?М также является борелевским простран- пространством. Рассмотрим в пространстве Е опорную систему функ- функций W={fx, /2 , - • • ,/„, • • •}, где все /я ограничены чис- числом 1 (см. § 3 добавления 4). Функции F (р.) = р./я ([а ? оМ~) B) порождают а-алгебру $". В самом деле, пусть &'—<з-ал- гебра, порожденная функциями B). Очевидно, &' С &. Обозначим через Ж систему всех функции /, для которых A) измерима относительно Ж'. Из свойства 2) опорной системы следует, что Ж содержит все ограниченные изме- измеримые функции на пространстве Е. Значит, <^"' = с^~. Сопоставляя каждой вероятностной мере fi последо- последовательность hi— fi/x, fej= f»/2, . . ., hn=-p.fn, . . ., определим отображение <|> пространства qM в произведение ^f счетного числа единичных отрезков. Согласно § 2 добавления 1 -ff можно считать польским пространством. Из свойства 1) опорной системы (§ 3 добавления 4) вытекает, что образ H' = ty(oM) пространства оМ замкнут в Я. Из свойства 2) легко выводится, что отображение ф взаимно однозначно. 2 Пусть X — произвольная система функций на каком-нибудь мно- множестве X и пусть о?" — минимальная а-алгебра в X, относи- относительно которой измеримы все функции системы Ж. Мы будем го- говорить тогда, что X порождает а-алгебру <&~. Ввести в X из- измеримую структуру с помощью системы функций X — значит при- принять за измеримые множества элементы а-алгебры о?". 312 При отображении <|> множества {?¦ •¦ V-U < с} переходят в множества {h:h?H>, hn<c). Первые порождают а-алгебру &Г, а последние—а-ал- последние—а-алгебру S3 (¦#')• Следовательно,. <|> — изоморфизм <J{ на Н'. Следовательно, Р/Ц — борелевское пространство.
ИСТОРИКО-БИБЛИОГРАФИЧЕСКАЯ СПРАВКА Эта справка не ставит своей целью дать полную библио- библиографию или исчерпывающую оценку роли отдельных ав- авторов. Как правило, мы указываем только работы, сыг- сыгравшие основную роль в развитии теории, а также статьи, которые явились для нас источниками. Максимизация суммарного дохода (общая теория гл. 1 и 3—6) В предисловии уже говорилось об основополагающей роли идей Вальда [1, 2] в создании методов последователь- последовательного принятия решений в стохастической ситуации, а также о значении работ Беллмана [1, 3], в которых сформули- сформулированы принципы динамического программирования и про- продемонстрирована их полезность при решении многочис- многочисленных прикладных задач (исследования Беллмана стали распространяться и оказывать свое влияние за несколько лет до опубликования первой монографии [1]). Управляемые марковские процессы с конечным числом состояний и управлений появились в печати впервые (под названием «марковские процессы решения») в работах Беллмана [1,2]. Еще ранее Беллман*и*Блекуэл*[1] и Шепли [1] изучали так называемые стохастические игры, которые представляют собой^марковские ^процессы, уп- управляемые двумя лицами ^противоположными интере- интересами. С другой стороны, Эрроу, Харрис, Маршак [1] и Дворецкий, Кифер, Вольфовиц [1] развивали теорию управления запасами, где возникают управляемые мар- марковские процессы с недискретными пространствами со- состояний и управлений. Первая попытка дать описание 314 общей модели с произвольными основными пространствами была предпринята Карлином [1]. Интерес к управляемым марковским процессам, как самостоятельному объекту исследования, стимулировала книга Ховарда [1], посвященная конечным однородным моделям. В ней, в частности, доказано существование (и указаны алгоритмы для нахождения) наилучших среди стационарных стратегий как для дисконтированного сум- суммарного дохода, так и для среднего дохода за единицу времени. Современный вид теория приобретает в работах Бле- куэла и Штрауха. Конечные однородные модели с дискон- дисконтированием изучены Блекуэлом в [2]. Здесь впервые доказано существование стационарной оптимальной стра- стратегии (ср. § 6.3). Трудности, связанные с переходом к об- общим моделям, исследованы Блекуэлом в [3, 4]. Показано, что их можно преодолеть, пользуясь теоремами измери- измеримого выбора и переходя от оптимальных стратегий к стра- стратегиям, е-оптимальным (п. н.). На текущую плату накладываются при этом условия, обеспечивающие абсо- абсолютную и равномерную сходимость суммарного дохода. Модели с произвольной положительной платой изучены Блекуэлом в [5], а с произвольной отрицательной пла- платой — Штраухом [1]. Наше изложение общей теории в § 1.13, главе 3, § 4.8, главе 5 следует в основном Штрауху [1], в §§ 6.3 и 6.8 — Блекуэлу [2, 4]. Независимо от Блекуэла и пользуясь другими мето- методами, Крылов [1] доказывает существование стационар- стационарной s-оптимальной стратегии для моделей со счетными пространствами состояний (при более слабых, чем у Бле- Блекуэла, условиях на текущую плату). Тем же методом в [2] он выводит существование стационарной оптимальной стратегии для конечных моделей. Счетным моделям посвящены также работы Дермана [2] и Маитры [1]. Остановимся подробнее на вопросе о существовании стационарных п. н. s-оптимальных стратегий. Положи- Положительный ответ на него дан в § 6.8 в предположении, что плата q ограничена и коэффициент дисконтирования Р < 1. Этот результат был впервые доказан Блекуэлом в [4]. При р=1 положение сложнее. Как показал Бле- куэл в [5], даже в случае, когда д^О и оценка i; всюду 315
конечна, стационарной п. н. s-оптимальной стратегии может не существовать. В [5] было высказано предпо- | ложение, что для существования такой стратегии доста- § точно ограниченности v (х) (и неотрицательности q). Спра- Справедливость этой гипотезы вытекает из следующего ре- результата фри а [1]: если q ^ 0 и v всюду конечно, то для любого А <^ 1 существует стационарная стратегия tp такая, что w (x, <p) ^ lv (х) (п. н.). Отметим еще работу Блекуэла [6], где устанавливается, что если пространство состояний счетно; д^Оии^оо, то из существования какой-нибудь оптимальной стратегии | следует существование стационарной оптимальной стра- стратегии. Аналогичный результат доказан у нас в §§ 6.3 и 6.7; для борелевских моделей, ограниченных сверху, и охва- охватывает случаи, разобранные Блекуэлом в [4] и Штрау-, хом [1]. Во всех упомянутых работах исследуются только! однородные модели. Неоднородный случай рассматри- | вался Фурукава [1] и Хиндерером [1]. Последний ввбл также обобщения классов положительных и отрицатель- j ных моделей, аналогичные нашим ограниченным снизу !| (сверху) моделям. Суммируемые модели, по-видимому, рассматриваются впервые. Полунепрерывные модели (общая теория гл. 2, §§ 5.6 и частично 6.7) Класс полунепрерывных моделей с конечным интер- интервалом управления (в несколько иной форме) изучен Ду- бинсом и Сэвиджем [1, глава 2, раздел 16]. В рамках теории Блекуэла этот класс рассмотрен Мантрой [2, 3]. Теорема измеримого выбора из § 2.6 принадлежит Куратовскому и Рыль-Нарджевскому [1]. Доказательство этой теоремы и ее следствий заимствовано нами из работы Дынкина [5]. Максимизация среднего дохода за единицу времени (общая теория главы 7) Процедура усовершенствования стратегий в конечных моделях, описанная в § 7.5, предложена Ховардом в мо- j нографии [1]. Там было доказано, что эта процедура после? конечного числа шагов приводит к асимптотически наи- 316 лучшей среди стационарных стратегий. При этом оста- оставался открытым вопрос, не существует ли лучшая не- нестационарная стратегия. Отрицательный ответ был по- получен независимо Вагнером [1], Дерманом [1], Висковым и Ширяевым [1] (этому вопросу посвящена также работа Романовского [1]). Асимптотическая формула из § 7.6 принадлежит Блекуэлу [2]. -Счетные модели с постоянной асимптотической оцен- оценкой v рассматривали Дерман [3] и Росс [1], общие модели с постоянным v'— Тейлор [1], Росс [2], Губенко и Штат- ланд [1] и с произвольным v — Губенко [1] (у последнего впервые для общего случая выписана каноническая си- система уравнений (ср. §§ 7.2). Понятие канонической стра- стратегии предложено Юшкевичем [1] (в случае конечных моделей к этому понятию близко подходили Денардо и Фокс [1]). Модели с минорантой и некоторые их обобще- обобщения рассмотрены Губенко и Штатландом [1], их частные случаи исследованы в цитированных работах Тейлора, Дермана и Росса. Там же выведены и некоторые другие условия, обеспечивающие существование асимптотически оптимальных стратегий. Пример из § 7.8, в ко'тором состояний конечное число, множества управлений компактны и нет асимптотически оптимальной стратегии, содержится в обзоре Бейзера [1]. Мартин—Лёф [1] доказал для таких моделей существо- существование стационарной асимптотически оптимальной стра- стратегии в предположении, что при любом выборе управлений все состояния образуют один эргодический класс (и вы- выполнены определенные условия общего характера). Файн- берг [1] другим методом распространил этот результат на случай, когда допускаются невозвратные состо- состояния. Большое число работ посвящено более детальному исследованию конечных моделей: изучению более тонкого поведения дохода за время [0, п\ при и->оо (с этим свя- связано исследование асимптотики суммарного дохода за бесконечно^ время при [В -> 1), созданию алгоритмов для вычисления асимптотической оценки модели и стационар- стационарной оптимальной стратегии (в частности, методами линей- линейного программирования) и другим вопросам. За дальней- дальнейшей информацией по этому поводу мы отсылаем читателя к книге Дермана [4], специально посвященной конечным моделям. , 317
Модели с неполной информацией (общая теория гл. 8) Общая схема управления по неполным данным пред- предложена Ширяевым [1, 2] и Дынкиным [2]. Сведение к мо- моделям с полной информацией проведено для моделей со счетными пространствами состояний и борелевскими мно- множествами управлений Савариги и Йошикава [1], для общих борелевских моделей — Юшкевичем [2]. Вогнутые модели и модели экономического развития (введение, гл. 9) Модель Гейла [1] является естественным обобщением модели развивающейся экономики, предложенной Ней- Нейманом [1]. В модели Неймана имеется конечное число базисных производственных процессов, которые можно вести с произвольными интенсивностями (ее частный случай — модель Леонтьева, где каждый производствен- производственный процесс приводит к выпуску только одного продукта и каждый продукт получается в единственном производ- производственном процессе). Оптимальные планы в детерминиро- детерминированном случае исследовались Гейлом [3]. Доказатель- Доказательства Гейла усовершенствованы Броком [1]. Стохастический вариант модели Гейла и вогнутая модель на конечном интервале изучены Дынкиным [4, 5, 6]. Изложение этих работ и составляет содержание главы 9. Случай бесконечного интервала времени исследован в ра- работах Евстигнеева [1, 2], Кузнецова [1] и Таксара [Ц. Другой вариант моделей экономического развития в ус- условиях неопределенности разрабатывается Раднером и его сотрудниками (Раднер [2]). Значение цен для задач оптимизации было замечено еще в 1940 г. Канторовичем [2]. Дальнейшее развитие этих идей представляет собой известная теорема Куна- Таккера [1]. Подробнее о (детерминированных) многосекторных ма- математических моделях экономического развития см. об- обзорную статью Гейла [4], а также книги Гейла [2] и Ни- кайдо [1]. 318 Задача о распределении ресурса между производством и потреблением (введение, §§ 2.7 и 6.9) Односекторная модель производства и потребления с учетом случайного риска впервые изучена Фелпеом [1], отправлявшимся от идей Рамсея [1] и разобравшим случаи степенной и логарифмической полезности. Более тонкие вопросы исследованы в работах недавнего времени (Брок и Мирман [1, 2], Мирман [1, 2], Бекман [2]), там же см. более подробную библиографию. Задача о регулировании водоснабжения (введение, § 2.8) В более развернутой постановке эта задача имеет большое практическое значение (см., например, Моран [1]). Задача о распределении ставок в игре (введение, §§ 2.9 и 6.10) Оптимальность дерзкой стратегии для игрока, кото- которому требуется набрать определенный капитал в неблаго- неблагоприятной игре, установлена Дубинсом и Сэвиджем [1]. Их монография [1] сыграла важную роль в развитии тео- теории управляемых случайных процессов. Выше упомина- упоминалось о содержащихся в ней результатах относительно полунепрерывных моделей. Наше доказательство из § 2.9 заимствовано из главы 5 названной книги. Случай благоприятной игры исследовался Брейма- ном [1]. Задача о распределении ресурса между потреблением и двумя отраслями производства (введение, §§ 2.10 и 6.11) Эта модель изучена Самюэльсоном [1], считавшим прирост в одной из отраслей неслучайным. Задача о замене оборудования (введение, §§ 1.11, 6.5 и 7.11) Различным вариантам этой задачи посвящена обшир- обширная журнальная литература. Численные примеры обсуж- 319
даются в книге Беллмана и Дрейфуса [1]. Отметим также монографию Йоргенсена, Маккола и Раднера [1], содер- содержащую, в частности, подробную библиографию. Наше изложение не опирается на эти источники. Задача о стабилизации (введение, §§ 2.11, 6.12, 7.12 и 8.5) Задача об управлении одномерной линейной стохасти- стохастической системой при квадратичном критерии (и полной информации) первоначально рассмотрена Саймоном [1], показавшим, что для оптимального управления доста- достаточно знать только средние значения и дисперсии случай- случайных колебаний. Тейл [1] распространил этот результат на многомерный случай, а Кальман и Кепке [1] разра- разработали соответствующий алгоритм. Случай управления гауссовой системой по неполным данным был рассмотрен Джозефом и Ту [1], установив- установившими один из вариантов теоремы разделения (алгоритм для наилучшей оценки ненаблюдаемого состояния был предложен ранее Кальманом [1]). Приведенный нами ва-* риант теоремы разделения изложен также у Де Гроота [1, § 14.11]. Описанная задача и ее обобщения имеют многочислен- многочисленные важные приложения, и им посвящена огромная лите- литература. Упомянем лишь книги Фельдбаума [1], Аоки [1], Савариги, Сунахара, Никамидзо [1], Острема [1]. Задача о выборе транспорта (§§ 1.10 и 6.4) Обобщения этой игрушечной задачи можно найти в жур- журнальной литературе (см., например, Амбарян [1]). Задача о двуруком бандите (§8.3) Наше изложение представляет собой упрощенный ва- вариант статьи Фельдмана [1]. Та же работа использована Де Гроотом [1, §§ 14.5—14.7], у которого читатель найдет историческую справку и ссылки на другую литературу. Отметим работу Кавера и Хеллмана [1], в которой находится наилучшая из стратегий, реализуемых q по- помощью автомата с фиксированным объемом памяти (там 320 же можно найти ссылки на работы, в которых проводится аналогичный подход к другим задачам оптимального управления). Борелевские пространства (добавление 1) Изоморфизм борелевских пространств (их иногда на- называют стандартными борелевскими пространствами) до- доказан в монографии Куратовского [1]. Наше изложение 'опирается на Куратовского и на книгу Партасарати [1], глава 1. Аналитические множества (добавление 2) о$-операция была введена П. С. Александровым в 1916 г. Затем Н. Н. Лузин сформулировал задачу: всякое ли множество, получающееся из интервалов при помощи. о$-операции, является борелевским? М. Я. Суслин дал отрицательный ответ на этот вопрос и тем самым открыл новый класс множеств, которые теперь называют анали- аналитическими (этот термин введен Лузиным). Теоремы об отделимости аналитических множеств и об их измеримости относительно меры Лебега доказаны Лузиным. Теория аналитических множеств изложена Лузиным в моногра- монографии [1], оттуда, в частности, заимствованы примеры, приведенные в § 5 добавления 2 и § 3 добавления 3. Дока- Доказательство универсальной измеримости аналитических множеств, приведенное в добавлении 2, основано на рас- рассуждении, с помощью которого Шоке доказал, что всякое аналитическое множество обладает емкостью. Об es^-one- рации. и аналитических множествах см. также Сакс 11]. Более современное изложение см. у Мейера [1, глава 3]. Теоремы об измеримом выборе (добавление 3) Теорема об измеримом выборе из § 1 добавления 3 впервые доказана Янковым [1] (для проектирования плоского аналитического множества на прямую и меры Лебега). Через 9 лет она была передоказана Нейманом [2, лемма 5], который, по-видимому, не знал работы Ян- кова. Нейман рассматривает более общий случай непре- непрерывного отображения произвольного аналитического мно- множества в прямую. Однако, в силу изоморфизма борелевских 321
пространств, этот случай, как и еще более общий случай, разобранный в § 1 добавления 3, сводится к ситуации, рассмотренной Янковым. Многие авторы также, видимо, незнакомы с работой Янкова и ссылаются на его резуль- результат, как на лемму Неймана. Доказательство, которое мы % приводим, отличается от предыдущих. Более общая теорема измеримого выбора, когда про- произвольное пространство с мерой измеримо отображается в борелевское пространство, доказана Ауманном [1, тео- теорема 2]. Другой вариант доказательства приведен в моно- монографии Хильденбранда [1]. Там же можно найти ссылки на дальнейшую литературу. Теорема из § 2 добавления 3 принадлежит Блекуэлу и Рыль-Нарджевскому [1], ее доказательство упрощено благодаря использованию универсальной измеримости аналитических множеств и проводится по тому же плану, что и доказательство теоремы из § 1. Условные распределения (добавление 4) Теорема о существовании условных распределений по существу есть уже в книге Дуба [1, глава 1, § 9]. В нуж- нужной нам форме она доказана у Партасарати [1, глава 5, § 8], наше доказательство несколько иное. Понятие опор- опорной системы введено Дынкиным [3]. Существование условных распределений, как и ряд других хороших свойств борелевских пространств, со- сохраняется для более широкого класса пространств Лу- Лузина, введенного Блекуэлом [1]. ЛИТЕРАТУРА * Амбарян С. Л. [1, 1967] Выбор оптимальных трасс движения пассажиров при за- заданной транспортной сети города. — «Экон. и мат. ме- методы», 3, 862—871. Аоки (Aoki M.) [1,1967] Оптимизация стохастических систем. М., 1971. Арис (Arts R.) [1, 1964] Discrete dynamic programming (An introduction to the optimization of staged processes). N. Y. Ay манн (Aumann R. J.) Г1, 1969] Measurable utility and the measurable choice theorems. La Decision, 2 (Actes Coll. du CNRS 1967), 15-26. Бейзер (Bather J. A.) [1, 1973] Optimal decision procedures for finite Marcov chains. I : Examples «Adv. Appl. Prob.» 5, 328—339, II: Commu- Communicating systems, ibid. 521—540, III: General convex systems, 541—553. Бекман (Beckmann M. J.) [1, 1968] Dynamic programming of economic decisions. Heidelberg N. Y. [2, 1974] Resource allocation о ver time. Some dynamic program- programming models. «Mathematical models in Economics», 171—178. Amsterdam—London—N. Y.—Warszawa. Беллман (Bellman R.) [1, 19571 Динамическое программирование. М., 1960. [2, 1957] A Markovian decision process. — «J. Math. Mech.», 6, 679— 684. [3,1961] Процессы регулирования с адаптацией. М., 1964. Беллман и Блекуэл (Bellman R., Blackwell D.) [1, 1949] On a particular non-zero sum game, Rand McNally. Chi- Chicago. Беллман и Дрейфус (Bellman R., Dreyfus S.) [1, 1962] Прикладные задачи динамического программирования. М., 1965. Блекуэл (Blackwell D.) [1, 1956] On a class of probability spaces. — «Proc. 3-rd Berkeley Sympos. on Math. Stat. and Prob. 1954—1955», v. 2, 1—6. * В квадратных скобках первая цифра — номер отсылки в тек- тексте, вторая — год выхода оригинала в свет. 323
[2,1962] Discrete dynamic programming, «Ann. Math. Stat.», 33,' 719-726. [3,1964] Memoryless strategies in finite-stage programming. — «Ann. Math. Stat.», 35, 863—865. [4, 1965] Discounted dynamic programming. — «Ann. Math. Stat.», 36, 226—235. [5, 1967] Положительное динамическое программирование. — Сб. «Математика», 13, 5, 103—106 A969). [6, 1969] О стационарных стратегиях. — Сб. «Математика», 14, 2, 155-159 A970). Влекуэл и Рыль-Нарджевский (Blackwell D., Ryll-Nardzewski С.) [1, 1963] Non-existence of everywhere proper conditional distri- distributions. — «Ann. Math, Stat.», 34, 223—225. Болтянский В. Г. [1, 1973] Оптимальное управление дискретными системами. М. Брейман (Breiman L.) [1, 1961] Optimal gambling systems for favourable games. — «Proc. 4-th Berkeley Sympos. on Math. Stat. and Prob.», v. 1, 67— 78. Брок (Brock W. A.) [1, 1970] On existence of weakly maximal programs in a multisector economy. — «Rev. Econ. Studies», 37, 2, 275—280. Брок и Мирман (Brock W. A., Mirman L. J.) [1, 1972] Optimal economic growth and uncertainty: the discounted case. — «J. Econ. Theory», 4, 3, 479—513. [2, 1973] Optimal economic growth and uncertainty: the no discoun- discounting case. —• «International Economic Review», 14, 3,560— 573. Бурбаки (Bourbaki N.) [1,1951] Топологические векторные пространства. М., 1959. Вагнер (Wagner H. M.) [1, 1960] On the optimality of pure strategies. — «Management Sci.», 6, 268—269. [2, 1969] Основы исследования операций, т. 1—3. М., 1973. Валъд (Wald A.) [1, 1947] Последовательный анализ. М., 1960. [2, 1950] Статистические решающие функции. — Сб. «Позиционные игры», 300—522. М., 1967. Висков О. В. ш Ширяев А. Н. [1, 1964] Об управлениях, приводящих к оптимальным стационар- стационарным режимам. — «Труды МИАН им. Стеклова», 71, 35— 45. Гейл (Gale В.) [1, 1956] Замкнутая линейная модель производства. — Сб. «Ли- «Линейные неравенства и смежные вопросы». М., 1959, 382— 400. [2, 1960] Теория линейных экономических моделей. М., 1963. [3, 1967] On optimal development in a multisector economy. — «Rev. Econ. Studies», 34, 1—18. [4, 1968] Математическая теория оптимального экономического развития. — Сб. «Математика», 14, 6', 160—17,5 A970). Гнеденко Б. В. [1,1950] Курс теории вероятностей. М.—Л. 324 Губенко Л. Г. [1, 1972] Управляемые марковские и полумарковские модели и некоторые конкретные задачи оптимизация стохастических систем. Канд. дисс. Киев. Губенко Л. Г. и Штатланд Э. С. [1, 1972] Об управляемых марковских процессах с дискретным временем. — Сб. «Теор. вер. и мат. стат.», 7. Киев, 51 — 64. ' , [2, 1972] Об управляемых полумарковских процессах. — «Кибер- «Кибернетика», 1972, 2, 26—29. Данфорд и Шварц (Dunford N., Schwartz J. T.) [1, 1962] Линейные операторы. Общая теория. М. Дворецкий, Кифер иВольфовиц (Dvoretzky A., KieferJ., Wolfowitz J.) [1,1952] The inventory problem, p. 1, 2. — «Econometrica», 20, 187—222, 450—466. Де Гроот (DeGroot M. H.) [1, 1970] Оптимальные статистические решения. М., 1974. Де Леве (De Leve G.) [1, 1964—1970] Generalized Markovian decision processes. I: Mo- Model and method. Amsterdam, 1964, II: Probabilistic back- background. Amsterdam,, 1964, III: Applications (together with H. G. Tijms and P. J. Weeda). Amsterdam, 1970. Денардо и Фокс (Denardo E. V., Fox B. L.) [1, 1968] Multichain Markov renewal programs. —«SIAM J. Appl. Matin», 16, 468—487. Держан (Derman C.) [1, 1962] On sequential decisions and Markov chains. — «Management Sci.», 9, 16—24. [2, 1965] Markovian sequential control processes — denumerable state space. — «J. Math. Appl.», 10, 295—302. [3, 1966] Denumerable state Markovian decision processes — ave- average cost criterion. —«Ann. Math. Stat.», 37, 1545—1553. [4, 1970] Finite state Markovian decision processes, N. Y. — London. Джозеф и'Ту (Joseph P. D., Той f. T.) [1, 1961] On linear control theory. — «AIEE-Trans. 80, 2 : Applica- Applications and Industry, 193—196. Дуб (Doob J. L.) [1, 1953] Вероятностные процессы. М., 1956. Дубине и Сэвидж (Dubins L. Е., Savage L. J.) [1, 1965] How to gamble if jou must. N. Y. Дынкин Е. Б. [1, 1959] Основания теории марковских процессов. М. [2,1965] Управляемые случайные последовательности. — «Теор. вер. и ее примен.», 10, 1, 3—-18. [3, 1969] Пространство выходов марковского процесса. — «Успехи мат. наук», 24, 4 A48), 89—152. [4, 1971 ] Некоторые вероятностные модели развивающейся эко- экономики. — «ДАН СССР», 200, 3, 523—525. [5, 1972] Вероятностное вогнутое динамическое программирова- программирование. — Мат. сб. 87 A29), 4, 490—503. [6, 1974] Optimal programs and stimulating prices in probabili- probabilistic models of economic development. — «Mathematical 21 E. Б. Дынкин, А. А. Юшкевич 325
Models in Economics», 207—218. Amsterdam—London— N. Y. — Warszawa. Дынкин E. Б. и Овсеевич А. И. [1, 1975] Об отношениях предпочтения в условиях неопределен- неопределенности. — «Экон. и мат. методы», 11, 2, 393—395. Евстигнеев И. В. [1, 1974] Оптимальное экономическое планирование с учетом ста- стационарных случайных факторов. — «ДАН СССР», 206, 5, 1040—1042. [2, 1974] Optimal stochastic programs and their stimulating pri- prices. — «Mathematical Models in Economics», 219—252. Amsterdam—London—N. Y. — Warszawa. Йоргенсен, Маккол u Раднер (JorgensonD. W., McCall J. J., Rad- ner R.) [1, 1967] Optimal replacement policy. Amsterdam. Kaeep u Хелман (Cover T. M., Hellman M. E.) [1, 1970] The two-armed bandit problem with time-invariant fi- finite memory. — «IEEE Trans, on Inform. Theory», IT— 16, 2, 185—195. Кальман (Kalman R. E.) II, 1960] A new approach to linear filtering and prediction prob- problems. — «J. of Basic Engeneering», 82D, 35—44. Кальман u Кепке (Kalman R. E., Kopcke R. W.) [1, 1958] Optimal synthesis of linear sampling control systems using generalized performance indexes. — «ASME Trans.», 80, 1820-1826. Канторович Л. В. • [1, 1939] Математические методы организации и планирования производства. Л. [2, 1940] Об одном эффективном методе решения некоторых клас- классов экстремальных проблем. — «ДАН СССР», 28, 212— 215- Карлин (Karlin S.) [1,1955] The structure of dynamic programming models. —«Na- —«Naval Res. Logistic Quart-», 2, 4, 285-294. Колмогоров А. Л. и Фомин СВ. [1, 1968] Элементы теории функций и функционального анализа. М. Крамер (Cramer H.) [1, 1946] Математические методы статистики. М., 1948. Крылов Н. В. [1, 1964] О существовании е-оптимальных однородных марковских стратегий для управляемой цепи. — «ДАН СССР», 155, 4, 747-750. [2, 1965] Построение оптимальной стратегии для конечной управ- управляемой цепи. — «Теор. вер. и ее примен.», 10, 1, 54—60. Кузнецов С. Е. [1, 1974] Weakly optimal programs in models with changing tech- technology. — «Mathematical Models in Economics», 259— 270. Amsterdam—London—N. Y.— Warszawa. Кун и Такер (Kuhn H. W., Tucker A. W.) [1, 1951] Nonlinear programming. —«Proc. 2-nd Berkeley Sympos. on Math. Stat. and Prob.», 1950, 481—492. 326 Куратовский (Kuratowski C). [1, 1966] Топология, т. 1. M. (первое издание 1933). Куратовский и Рыль-Нарджевский (Kuratowski С, Ryll-Nard- zewski С.) . [1, 1965] A general theorem on selectors. —«Bull. Acad. Polon. Sci. Math. Astr. Phys.», 13, 397-^403. Кушнер (Kushner H.) [1,1971] Introduction to stochastic control. N. Y. Лузин H, H. [1, 1930] Лекции об аналитических множествах и их приложе- приложениях. — «Собр. соч.», т. 2, 9—269. М., 1958. Маитра (Maitra A.) [1, 1965] Dynamic programming for countable state systems. — «Sankhya», Ser. A, 27, 241—248. [2, 1968] Discounted dynamic programming on compact metric spaces. — «Sankhya», Ser. A, 30, 211—216. [3, 1969] A note on positive dynamic programming. — «Ann. Math. Stat.», 40, 316—319. Мартин (Martin J. J.) [1, 1967] Bayesian decision problems and Markov chans. N. Y. Мартин-Лёф (Martin-Lof A .) [1, 1967] Existence of a stationary control for a Markov chain ma- maximizing the average reward. — «Operations Res.», 15, 866-871. ' Мейер (Meyer P. A.) [1, 1966] Вероятность и потенциалы. М., 1973. Мине и Осаки (Mine Н., Osaki S.) [1, 1970] Markovian decision processes. N. Y. Мйрман (Mirman L. J.) [1,1971] Uncertainty and optimal consumption decisions .—«Eco- nometrica», 39, 179—186. [2, 1973] The steady state behavior of a class of one-sector growth models with uncertain technology. — «J. Econ. Theory», 6. Моран (Moran P. A* P.) [1, 1959] The theory of storage. London. Натансон И. П. [1, 1950] Теория функций вещественной переменной. М.—Л*. Неве (Neveu J.) [1, 1964] Математические основы теории вероятностей. М., 1969. Нейман (von Neumann J.) [1, 1937] Ueber ein okonomisches Gleichungssystem und eine Ver- allgemeinerung des Browerschen Fixpunktsatzes. — «Er- gebnisse eines mathematischen Kollocraiums», 1935 — 1936, 8, Leipzig—Wien. Английский перевод: A model of general economic equi- equilibrium. — «Rev. Econ. Studies», 13, A945—1946). [2, 1949] On rings of operators. Reduction theory. — «Ann. Math.», 50, 2, 401—485. Никайдо (Nikaido H.) [1, 1968] Выпуклые структуры и математическая экономика. М., 1972. 21* 327
Новиков П. С. [1, 1951] О непротиворечивости некоторых положений дескриптив-. ной теории множеств. — «Труды МИАН им. Стеклова», 38, 279—316. Острем (Astrom К. J.) > [1, 1970] Введение в стохастическую теорию управления. М., 1973. Партасарати (Parthasarathy К. R.) [1, 1967] Probability measures on metric spaces. N. Y.—London. Раднер (Radner R.) [1, 1967] Dynamic programming of economic growth. London. [2, 1973] Optimal stationary consumption with stochastic produ- production and resources. — «J. Econom. Theory», 6,1, 68—90. Рамсей (Ramsey F.) [1, 1928] A mathematical theory of savings. —«Econ. J.», 38, 543— 559. Рокафеллар (Rockafellar R. T.) [1, 1970] Выпуклый анализ, 8c M., 1973. Романовский И. В. [1, 1965] Существование оптимального стационарного управления в марковском процессе решения. — «Теор. вер. и ее прим.», 10, 1, 130—133. [2, 1967] Оптимизация стационарного управления дискретным де- детерминированным процессом. — «Кибернетика», 1967, 2, 66-78. [3, 1971] Детерминированные процессы динамического програм- программирования с дополнительными ограничениями. -— «Ки- «Кибернетика», 1971, 5, 69—71. Росс (Ross S. М.) [1, 1968) Non-discounted denumerable Markovian decision models. — «Ann. Math. Stat.», 39, 412—424. [2, 1968] Arbitrary state Markovian decision process. — «Ann. Math. Stat.», 39, 2118—2122. [3, 1970] Applied probability models with optimization applica- applications. San Francisco. Савариги и Йошикава (Savarigi У., Yoshikawa Т.) [1, 1970] Discrete time Markovian decision process with incomplete state observation. — «Ann. Math. Stat.», 41, 78—86. Савариги, Сунахара и Никамидзо (Savarigi Y., Sunahara Y., Na- kamizo T.) [1, 1967] Statistical decision theory in adaptive control systems. N. Y.— London. Саймон (Simon H. A.) [1, 1956] Dynamic programming under uncertainty with a quadratic criterion function. — «Econometrica», 24, 1, 74—81. Сакс (Saks S.) [1, 1937] Теория интеграла. М., 1949. Самюэлъсон (Samuelson P. A.) [1, 1969] Lifetime portfolio selection by dynamic stochastic program- programming». — «Rev. Econ. 8c Stat.», 51, 3, 239—246. Соловей (Solovay R.) [1, 1970] A model of set theory in.which every set of reals is Lebesgue measurable. «Ann. of Math.», 92, 1—56. 328 Таксар М. И. [1, 1974] Optimal planning over infinite time interval under ran- ч dom factors. — «Mathematical Models in Economics», 289—298. Amsterdam—London—N. Y.—Warszawa. Тейл (Theil H.) [1, 1957] A note on certainty equivalence in dynamic planning. — «Econometrica», 25, 2, 346—349. Тейлор (Taylor H. M., Ill) [1, 1965] Markovian sequential replacement processes. — «Ann. Math. Stat». 36, 1677-1694. Файнберг Е. A. ' [1, 1975] Об управляемых марковских процессах с конечным мно- множеством состояний и компактными множествами управле- управлений. — «Теор. вер. и ее примен.» 100, 20. Феллер (Feller W.) [1, 1950] Введение в теорию вероятностей и ее приложения, т. 1. М.; 1952, 1964. Фелпс (Phelps E. S.) [1, 1962] The accumulation of risky capital: a sequential utility analysis». — «Econometrica», 30, 4, 729—743. Фельдбаум А. А. [1, 1966] Основы теории оптимальных автоматических систем. М. Фельдман (Feldman D.) [1, 1962] Contributions to the «two-armed bandit» problem. —«Ann. Math. Stat.», 33, 847—856. Фрад Е. Б. [1, 1970] Об одной задаче Д. Блекуэлла из теории динамического программирования. — «Теор. вер. и ее примен.», 15, 4, 740—745. Фурукава (Furukawa N.) [1, 1968] A Markov decision process with non-stationary laws. — «Bull. Math. Stat.», 13, 41—52. Халмош (Halmos P. R.) [1, 1950] Теория меры. М., 1953. Xарди,Литтлъвуди Полиа (Hardy G.H.,Littlewood J. E., Polya G.). [1, 1934] Неравенства, TVI., 1948. Хилъденбранд (Hildenbrand W.) [1, 1974] Core and equilibria of a large economy. Princeton. Хиндерер (Hinderer K.) [1, 1970] Foundations of non-stationary dynamic programming with discrete time parameter. Berlin—Heidelberg.—N. Y. Хинчин А. Я. [1, 1935] Цепные дроби. М.—Л. Ховард (Howard R. А.) [1, I960] Динамическое программирование и марковские процессы. М., 1964. rv у [2,1971] Dynamic probabilistic systems, v. 2: Semi-Markov and decision processes. N. Y. Шепли (Shapley L. S.) [1, 1953] Stochastic games. — «Proc. Nat. Acad. Sci. USA», 39,1095 — 1100. 329
Ширяев А. Н. [1, 1964] К теории решающих функций и управлению процессом наблюдения по неполным данным. — «Trans. 3-rd Prague Confer, on Inform. Theory etc.», 1962, 657—681 (Prague). [2, 1967] Некоторые новые результаты в теории управляемых слу- случайных процессов.— «Trans. 4-th Prague Confer, on In- , form. Theory etc.», 1965, 131—203 (Prague). [3, 1969] Статистический последовательный анализ. М. Штраух (Strauch R. E.) [1, 1966] Отрицательное динамическое программирование. — Сб. «Математика», 13, 5, 107—127 A969). Эрроу (Arrow К. J.) [1, 1971] Essays in the theory of risk-bearing. Chicago. . Эрроу, Карлик и Скарф (Arrow К. /., Karlin S., Scarf И.) [1, 1958] Studies in the mathematical theory of inventory and pro- production. Stanford. [2, 1962] Studies in applied probability and management science. Stanford. - Эрроу, Харрис и Маршак (Arrow К. J., Harris Т., Marschak J.) [1,1951] Optimal inventory policy. — «Econometrica», 19, 250— 272. Юшкевич А. А. [1, 1972] Об одном классе стратегий в общих управляемых мар- марковских моделях. — «Теор. вер. и ее примен.», 18, 4, 815-817. [2, 1975] Сведение управляемой марковской модели с неполными •данными к задаче с полгюй информацией в случае боре- левских пространств состояний и управлений. — «Теор. вер. и ее примен.», 20. Янков В. [1,1941] Об унификации А-множеств. — «ДАН СССР», 30, 7, 591-592. ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Аналитическое множество 287— 288, 321 <d — операция -289, 321 Асимптотическая оценка мо- модели 200, 216, 219 — — начального распределе- распределения 200 Асимптотически оптимальная стратегия 200, 213—215 — е-оптимальная стратегия 220 Банахово пространство 275 Бесконечное произведение про- пространств 158 Борелевская модель 103, 149 Борелевское множество 62 — — в й-мерном простран- пространстве 63 — — — метрическом простран- пространстве 71 — пространство 102, 278 Вектор выпуска 258 — затрат 258 Вероятностная мера 63 Верхняя оценка 216 Внешняя мера 290 Вогнутая модель 260 — функция 10, 258 Всюду плотное множество 71 Выпуклое множество 258 Гильбертов кирпич 278 Дерзкая стратегия 92, 194 Достаточность марковских стра- стратегий 56, 111, 122—123, 126— 127, 148, 153 — простых стратегий 56, 60, 103, 106, 111, 123—124, 126— ¦127, 148, 150, 153, 218 " — стационарных стратегий 172, 181—182, 184, 216 Задача о двуруком бандите 242— 248, 320 — — выборе транспорта 43— 49, 172-175, 320 — — замене оборудования .12, 25-26, 49-51, 175-179, 225-230, 319 — —¦ распределении ресурсов 7—10, 26—27, 83—87, 97— 99, 189-193, 194-196, 319 ставок 9—11, 26, 88— 97, 193—194, 319 — — регулировании водоснаб- водоснабжения 9—11, 26, 87, 319 — — стабилизации 12, 27, 99— 101, 196—198, 230—232, 252— 257, 320 t Измеримая функция 63, 106, 160 Измеримо зависящее от пара- параметра множество 259 Измеримое метрическое про- пространство 71 — множество, 62, 106 — — в fc-мерном простран- пространстве 63 — — — метрическом про- пространстве 71 — отображение 62 — пространство 62 — соответствие 79 331
Измеримый выбор 74, 298, 301 — почти наверное селектор 110 Изоморфизм борелевских про- пространств 278 Изоморфные измеримые про- пространства 102 Интеграл 84 История 28 Каноническая тройка 200, 219 — стратегия 200, 219, 224, 225 Канонические уравнения 201, 218 Квазинепрерывное соответ- соответствие 72 Класс S (Е) 71 Классификация Бэра 296 Конечная модель 23, 51 Континуум-гипотеза 287 Конус 258 Коэффициент дисконтирования 164 Критерий измеримости соответ- соответствия 79 Лемма Неймана 321 — Фату 262 — Янкова 298, 320—321 Линейный функционал 273 Мажорирующая простая стра- стратегия 56, 111 Марковская вогнутая модель 261 — стратегия 28, 66 Марковский оптимальный план 262 — план 262 Марковское свойство 41, 133 Математическое ожидание 29 Мера 63 Мера Р? 29, 65, 235 — Pi 29, 65, 235 Метрическое измеримое про- пространство 71 — пространство 70 Миноранта 223 Множества А 15, 22, 64, 71 — Af 67 — Аш 17, 22, 28, 71—72 — Xt 15, 22, 64, 71 - — yt 233 Множество А 22, 64, 71 — L 29, 64 — X 16, 64, 71 Модели экономического плани- планирования 7—10 Модель 23, 51—52, 66—67, 128, 130 — Гейла 9—10, 258 — Леонтьева 318 — Неймана 9, 318 — с неполной информацией 233, 248—249 (^-измеримая функция 106 |л-измеримое множество 106 Наблюдаемая история 234 Начальное распределение (j. 22— 23, 234 Незамкнутая модель Гейла 259 Неизмеримое аналитическое мно- множество 295 Ненаблюдаемое состояние 233 Не худшая стратегия 56 Нижняя оценка 216 Общая борелевская модель 103 — — — с неполной информа- информацией 249 — модель 64—66, 73, 219 Ограниченная сверху (снизу) мо- модель 141, 143, 166 — — — — с неполной инфор- информацией 252 Ограниченный предельный пере- переход 306 Однородная модель 24, 163—164 Оператор Р& 201, 220 — П 201, 220 — Г 37, 77, 78, 165, 183, 201 — Г„ (Гф) 37, 77, 78, 165, 183, 20Г Т — U 19, 69, 165, 183 — V 18, 183, 201 Опорная система функций 307 Оптимальная стратегия 30, 32, 38-40, 133, 171, 241, 251 Оптимальный план 259 — путь 14, 16 Отделимые множества 293 Оценка модели v 33, 234 — начального распределение v(ix) 29 — процесса 29, 234 — пути 14, 16, 23 — состояния v (х) 30 332 — стратегии w (¦, it) 29, 129— 130, 149, 234 • — стрелки 19 — точки 16 — управления и (а) 35 Переходная функция р 22, 27, 66, 67, 72, 112-116, 158, 233, 249, 303 из Е в Е' 66 План 258—261 Поглощающее состояние 44 Полезность 258 Полное метрическое простран- пространство 102, Полунепрерывная модель 71, 74, 149, 161, 184 — функция 70 Польское пространство 102, 278 Порожденная о-алгебра 312 Почти наверное сочетание стра- стратегий 110—111, 120 — — е-оптимальная стратегия 111, 119-120, 153, 160-161 Приведенная полезность 268 Принцип динамического про- программирования 42 Проекция ; 22, 65 Произведение пространств 63 — стратегий 36, 40 Производная модель 33 Производственная функция 8 Производственный процесс 258 Простая оптимальная (равно- (равномерно оптимальная) стратегия 38—40, 75, 143, 161, 241, 262 — почти наверное е-оптималь- е-оптимальная стратегия 107, 126, 150, 155 — стратегия 28, 66 — е-оптимальная стратегия 55-56, 107, 112, 141-145, 166, 184, 252 Пространства Лузина 322 — состояний 22, 64, 71, 219 — управлений 22, 64, 71 Пространство мер 112 Пространство путей 64, 159 Путь 15, 23 Равномерно мажорирующая стратегия 56 — ограниченная (сверху, снизу) , модель 14, 166 — оптимальная стратегия 30, 32 — е-оптимальпая стратегия 53, 134, 153 Равномерные стратегии 56, 111 Развертка однородной модели 163, 164 Распределение вероятностей 22, 63 Расстояние 70, 79 Рекуррентное уравнение 26, 67, 74, 78 Свойство S 130 Селектор 28, 298 Сепарабельное метрическое про- пространство 71 Система цен 270 Слой 22, 298 Случайная плата 24, 31, 233 Смешение стратегий 30—31 Соответствие 28 Сочетание стратегий 33, 111, 119, 120 Стационарная асимптотически оптимальная стратегия 200, 224, 225 — — е-оптимальная стратегия 224 — почти наверное е-оптималь- е-оптимальная стратегия 186 — оптимальная стратегия 168— 172, 184, 242 — стратегия 163, 167 — е-оптимальная стратегия 179—182, 185—186, 252 Стимулирующие цены 269, 272 Стохастическая матрица 203 Стратегическая мера 116 Стратегия 28, 66, 128, 234, 235, 249 Суммируемая модель 129, 131, 137, 165 — — с неполной информацией 252 — сверху (снизу) модель 129 — функция 134 Сходимость в метрическом про- пространстве 70 Счетная модель 51—52 о-алгебра 62 33,3
Таблица множеств 289 Текущая плата д 18, 22—23, 52, 66, 72, 130, 149, 219, 233, Теорема Блекуэла— Рыль— Нарджевского 300, 322 — Ионеску Тульча 158 — Лебега об универсальной функции 296 — о природе множества точек единственности 302 — — продолжении емкостей 293 — разделения 257, 320 — Рисса 307 Теоремы об измеримом выборе 75, 79, 108, 110, 265, 298, 300, 321-322 Технологическое множество 258 Тривиальная модель 104 Универсальная измеримость оценки борелевской модели 106, 109, 118-119, 159-160, 167, 184 — функция 296 Универсально измеримая функ- функция 106, 160 — измеримое множество 106, 109 Униформизация 74, 298 Управление а 22, 24 Управляемый марковский про- процесс 22, 128 Уравнения оптимальности 38— 39, 42, 55, 77, 79, 103, 106, 120—122, 136—138, 149—150, 152-153, 161, 165 Ховарда 203 Условное математическое ожи- ожидание 305—306 — распределение вероятностей 303 Усовершенствование стратегий по Ховарду 209, 211—213 Финальная плата ч 18, 22—23, 52, 66, 72, 233, 249 Финальное множество 15 Фундаментальная последова- последовательность 102 Фундаментальное уравнение 34, 38, 39, 54, 68, 130, 150-153, 165, 168, 183 Функция полезности 259 Характеристическая функция Целевая функция 10 Цены 268 е-каноническая система 220 — тройка 220 е-оптимальная стратегия 53, 55—56, 133, 251 ОГЛАВЛЕНИЕ ПРЕДИСЛОВИЕ 3 ВВЕДЕНИЕ 7 Часть I. УПРАВЛЕНИЕ НА КОНЕЧНОМ ¦ ИНТЕР- ИНТЕРВАЛЕ ВРЕМЕНИ Глава 1. Конечные и счетные модели § 1. Управляемый детерминированный процесс 14 § 2. Управляемые марковские процессы и модели 19 § 3. Стратегии 28 § 4. Существование равномерно оптимальной стра- стратегии. Сочетание стратегий -. 31 § 5. Производная модель. Фундаментальное урав- уравнение ' 33 § 6. Сведение задачи оптимального управления к аналогичной задаче для производной модели 35 тг § 7. Уравнения оптимальности. Построение про- °°, стых оптимальных стратегий 38 § 8. Марковское свойство 40 § 9. Принцип динамического программирования 42 § 10. Задача о выборе транспорта . 43 § 11. Задача о замене оборудования 49 § 12. Счетные модели: уравнения оптимальности и е-оптимальные стратегии 51 § 13. Счетные модели: достаточность простых стра- стратегий 56 Глава 2. Полунепрерывные модели § 1. О понятии измеримости 62 § 2. Общее определение модели 64 § 3. Переносятся ли на общие модели методы, применявшиеся для изучения конечных и счет- счетных моделей? 68 § 4. Определение полунепрерывной модели ... 70 § 5. Уравнения оптимальности и простые опти- оптимальные стратегии- 74 § 6. Теоремы об измеримом выборе ....... 79 § 7. Модель распределения ресурса между произ- производством и потреблением 83 335
§ 8\. Задача о регулировании водоснабжения . . 87 § 9. Задача о распределении ставок в игре ... 88 § 10. Задача о распределении ресурса между по- потреблением и различными отраслями произ- производства 97 § И. Задача о стабилизации 99 Глава 3. Общие (борелевские) модели § 1. Введение. Основные результаты 102 § 2. План вывода основных результатов .... 108 § 3. Пространство мер 112 § 4. Меры в произведениях пространств и переход- переходные функции 112 § 5. Стратегические меры 116 § 6. Универсальная измеримость оценки модели и почти наверное (п. н.) е-оптимальные стра- стратегии 118 § 7. Уравнения оптимальности 120 § 8. Достаточность простых стратегий 122 § 9. Простая (п. н.) е-оптимальная стратегия . . 124 Часть И. УПРАВЛЕНИЕ НА БЕСКОНЕЧНОМ ИНТЕРВАЛЕ ВРЕМЕНИ Глава 4. Дискретные модели § 1. Переход к бесконечному промежутку управ- управления 128 § 2. Суммируемые модели ...... 128 § 3. Фундаментальное уравпение 130. § 4. Равномерно е-оптимальные стратегии.... 133 § 5. Уравнения оптимальности 136 § 6. Выражение для оценки модели 139 § 7. Простые е-оптимальные стратегии 141 § 8. Достаточность марковских и простых стра- стратегий 145 Глава 5. Борелевские модели § 1. Основные результаты 149 § 2. Распространение на борелевские модели ре- результатов главы 4 150 § 3. Доказательство основных результатов . . . 155 § 4. О мерах в бесконечных произведениях . . . 157 § 5. Универсальная измеримость оценки модели и существование (п. н.) е-оптимальных страте- стратегий 159 § 6. Полунепрерывные модели 161 Глава 6. Однородные модели § 1. Введение 163 § 2. Применение результатов главы 4 ...... 164 § 3. Стационарные оптимальные стратегии ... 167 § 4. Задача о выборе транспорта 172 § 5. Задача о замене оборудования 175 § 6. Стационарные s-оптимальные стратегии . . . 179 336 § 7. Распространение результатов на борелевские ' модели j 183 § 8. Стационарпые (п. н.) е-оптимальные стратегии 186 § 9. Распределение ресурса между производством и потреблением 189 § 10. Распределение ставок в игре 193 § 11. Распределение ресурса между потреблением и различными отраслями производства . . . 194 § 12. Задача о стабилизации 196 Глава 7. Максимизация среднего дохода за единицу времени § 1. Введение. Канонические стратегии 199 § 2. Канонические уравнения 201 § 3. Решение уравнений Ховарда ....... 203 § 4. Модификация канонических уравнений . . . 206 5. Усовершенствование стратегии по Ховарду 208 § 6. Асимптотика дисконтированного дохода . . . 209 § 7. Возрастание дисконтированного дохода при усовершенствовании Ховарда 211 § 8. Переход к бесконечным моделям 213 § 9. Канонические и е-канонические тройки и системы для общих моделей : . 219 § 10. Модели с минорантой 223 § 11. Задача о замене оборудования 225 § 12. Задача б стабилизации 230 Часть III. НЕКОТОРЫЕ ПРИМЕНЕНИЯ Глава 8. Модели с неполной информацией § 1. Описание модели 233 § 2. Сведение к модели с полной информацией. Ко- Конечный случай 235 § .3. Задача о двуруком бандите 242 § 4. Сведение к модели с полной информацией. Об- Общий случай -• 248 § 5. Задача о стабилизации 252 Глава 9. Вогнутые модели. Модели экономического раз- развития § 1. Модель Гейла . . , 258 § 2. Вогнутые модели 260 § 3. Пространства L 263 § 4. Стимулирующие цены 268 § 5. Существование стимулирующих цен .... 271 Добавление 1. Борелевские пространства §" 1. Введение 278 § 2. Вложение борелевского пространства в гиль- гильбертов кирпич 279 § 3. Вложение пространства двоичных последова- последовательностей в несчетное борелевское простран- пространство 281 § 4. Вложение гильбертова кирпича в простран- пространство двоичных последовательностей 285 337
Добавление 2. Аналитические множества § 1. Введение 287 § 2. е^-операция 289 § 3. Универсальная измеримость аналитического множества 290 § 4. Отделимость аналитических множеств . , . 293 § 5. Пример неизмеримого аналитического мно- множества 295 Добавление 3. Теоремы об измеримом выборе § 1. Лемма Янкова 298 § 2. Теорема Блекуэла и Рылль-Нарджевского . 300 § 3. Пример соответствия, не допускающего изме- измеримого выбора 301 Добавление 4. Условные распределения § 1. Введение 303 § 2. Условные математические ожидания .... 304 § 3. Опорные системы функций 306 § 4. Существование условных распределений . . 307 Добавление 5. Некоторые леммы об измеримости § 1. Лемма о мультипликативных системах . . 311 § 2. Измеримая структура в пространстве вероят- вероятностных мер 312 Историко-библиографическая справка 314 Литература 323 Предметный указатель '331
Евгений Борисович Дынкин Александр Адольфович Юшкевич УПРАВЛЯЕМЫЕ МАРКОВСКИЕ ПРОЦЕССЫ И ИХ ПРИЛОЖЕНИЯ Утверждено к печати Центральным зкономико-матеметическим институтом Редактор издательства Г. Е. Филиппова Художник А. Г. Кобрин Художественный редактор А. Н. Жданов Технический редактор В. Д. Прилепская Сдано в набор 26/11 1975 г. Подписано к печати 22/V 1975 г. Формат 84х108"/зг- Бумага 3Ys 2. Усл. печ. л. 17,85. Уч.-иЗд. л. 15.7. Тираж 4000. Т-07079. Тип. зак. № 154. Цена 95 коп. Издательство «Наука» 103717 ГСП. Москва, К-62, Подсосенский пер., д. 21 1-я типография Издательства «Наука» 199034, Ленинград, В-34, 9 линия, д. 12 ОПЕЧАТКИ Стра- Страница 49 49 80 97 104 i46 191 195 195 241 246 275 293 305 332 332 Строка 18 сверху 19 » 13 снизу 2 сверху 3 » 2 снизу 7 сверху 12 снизу И » 3 » 1 сверху 5 и 6 сверху 6 сверху 3 снизу 7 » 6 » Напечатано qK_i*i qK hK_x г/€ (k — 1 V 2" ' А-Ах Pfw ( f-L B.10.6)—B.9.10) B.10.7) утверждение при п + 1 С = М [М (/ | d) \ d] А At Должно быть «К-1 ^ ЧК hK-l Ут? L 2я • А = Аг Pfw ( Jl- B.10.8)—B.10.9) B.7.7) утверждение верно, если при любом п + Z = М [М (/1 d) d] At d t E. Б. Дынкин, А. А. Юшкевич