Text
                    Ю. Б. ГЕРМЕИЕР
ИГРЫ
С НЕПРОТИВОПОЛОЖНЫМИ
ИНТЕРЕСАМИ
ИЗДАТЕЛЬСТВО «НАУКА»
ГЛАВНАЯ РЕДАКЦИЯ
ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ
МОСКВА | 97»

518 Г 38 УДК 519.95 Игры с непротивоположными интересами. Гер- ме й е р Ю. Б., Главная редакция физико-матема- тической литературы издательства «Наука», 1976. Книга содержит результаты исследований, про- водившихся в последние годы по играм с непротиво- положными интересами, занимающим важное место в теории принятия решения. Значительное место уде- ляется принципам принятия рационального решения, вопросам субъективности и информированности при принятии решения, принципу гарантированного ре- зультата в неантагонистических играх и т. п. Изу- чаются проблемы, связанные с передачей информации, с порядком ходов, характерным для иерархических систем и соответствующим расширением понятий стра- тегии анализируется влияние совместных ограниче- ний. Излагаются основные результаты для игр двух лиц с фиксированной последовательностью ходов и учетом разной степени информированности. На основе принципа гарантированного результата обсуждаются некоторые специальные игры п лиц. Библ. 87 20204—142 Г 053(02)-76 66-76 (6) Главная редакция физико-математической литературы издательства «Наука», 1976
ОГЛАВЛЕНИЕ Предисловие редактора серии.......................................................................... 7 Предисловие автора................................................................................... 9 Глава I. Общее описание модели с несовпадающими интересами............................................ 13 § 1. Характерные примеры игр с непротивоположными интересами......................................... 13 § 2. Общее описание обстановки бескоалиционной игры с учетом взаимной информированности об инте- ресах ............................................. 23 § 3. Ситуации, стратегии и взаимная информирован- ность игроков о «ходах»............................ 32 § 4. О задаче рационального выбора стратегий ... 38 § 5. Обмен информацией и расширение понятия стра- тегии ............................................. 45 § 6. Формализованное описание компромиссов и коа- лиций ............................................. 50 Глава II. Некоторые принципы выбора рациональных стратегий............................................. 61 § 7. Оптимизация и осреднение... 61 § 8. Максимин. 65 § 9. Абсолютно оптимальные стратегии и стратегии наказания.................................................................................. 73 § 10. Принцип наилучшего гарантированного резуль- тата при обмене информацией в играх с фикси- рованным порядком принятия решений......................................................... 83 § 11. Ситуации равновесия.... 93 § 12. Преимущества и недостатки коалиций. 107 § 13. Устойчивость коалиционных решений в повторяю- щихся играх....................................... 130 Глава III. Принцип гарантированного результата в иг- рах двух лиц......................................... 151 § 14. Игры качества............................................................................ 151 § 15. Игры с запрещенными ситуациями........................................................... 165 § 16. Игры с фиксированной последовательностью хо- дов без запрещений................................ 176 § 17. Неточная информация об интересах второго игро- ка при точной информации о его выборе ... 192 § 18. Отсутствие у первого игрока информации о ходе втероге ........ 204
6 ОГЛАВЛЕНИЕ § 19. Корректность задачи о максимальном гарантиро- ванном результате и аппроксимация игр .... 224 § 20. Другие случаи информированности. Метаигры . . 231 § 21. Игры со вспомогательными критериями эффектив- ности ............................................ 240 § 22. Динамика в играх двух лиц.......... 249 § 23. Замечания................................... 262 Глава IV. Некоторые игровые модели для многих лиц . 274 § 24. К теории игр трех лиц....................... 274 § 25. Ситуации равновесия и устойчивые совместные решения в повторяющихся играх..................... 290 § 26. Побочные платежи как средство управления в иерархических системах...................... 307 Литература............................................ 321 Предметный указатель.................................. 326
ЮРИЙ БОРИСОВИЧ ГЕРМЕЙЕР (1918-1975)
ПРЕДИСЛОВИЕ РЕДАКТОРА СЕРИЙ Автор настоящей монографии, Ю. Б. Гермейер, внес выдающийся вклад в развитие математических основ тео- рии принятия решений и сыграл большую роль в стано- влении советской школы теории исследования операций. Уже первая монография Ю. Б. Гермейера, вышедшая в этой серии, была крупным шагом в направлении фор- мализации процедур принятия решения. Первостепенное значение было придано содержательной стороне процес- са принятия решений. Первый тезис, который активно развивал и пропаган- дировал Ю. Б. Гермейер, состоял в том, что исследование операции проводится в интересах оперирующей стороны. Математически ее интересы описываются с помощью функции цели (или критерия эффективности), зависящей не только от ее активных действий, но и от неконтроли- руемых факторов, среди которых могут быть и действия других активных участников операции. Подготовка же решения, т. е. подробный предварительный анализ раз- личных альтернатив производится исследователем опе- рации, причем информированность исследователя опе- рации и оперирующей стороны может и не совпадать. Второй тезис состоял в том, что основным принципом анализа эффективности стратегий оперирующей стороны является гибко понимаемый принцип наилучшего гаран- тированного результата. Первая книга Ю. Б. Гермейера явилась естественным завершением этапа формирования основ теории исследо- вания операций. В последовавших затем работах Ю. Б. Гермейер все больше обращается к переосмыслению клас- сического наследия теории игр. В них с позиций обоб- щенного принципа гарантированного результата им раз- вит целый ряд новых направлений, важных как с методи- ческой так и с практической точек зрения. Данная книга суммирует исследования последних лет жизни автора.
8 ПРЕДИСЛОВИЕ РЕДАКТОРА СЕРИИ Охватываемые ею модели можно условно разбить на два класса: принятие решений равноправными участниками и управление в системах, характеризующихся фиксиро- ванной последовательностью ходов (иерархические струк- туры). Что касается первого класса, то несмотря на боль- шие успехи классической теории игр, здесь остаются недостаточно разработанными многие важные для практи- ки вопросы, такие как возможность добровольного обме- на информацией, устойчивость коллективных решений и т. п. В работах Ю. Б. Гермейера и его учеников получен в этом направлении ряд оригинальных результатов (мо- дели, сочетающие «общественные» и «личные» интересы, компромисс при метацели, устойчивость решений при пов- торениях игры, модификация решения Нэша и т. п.). Впервые выдвинут важный класс игр с приоритетом в действиях у управляющего центра, получивший название иерархические игры Гермейера. Этот класс является хоро- шей методической основой для анализа механизмов управ- ления в централизованной экономике. Можно с уверенно- стью сказать, что мы явились свидетелями создания новой школы в исследовании операций, основателем которой был профессор Гермейер. Как и первая монография автора, эта книга содержит большой задел оригинальных постановок задач и смелых решений. К сожалению, Юрий Борисович безвременно ушел от нас, не завершив многих интересных замыслов. Его уче- ники в организованной им лаборатории исследования опе- раций Вычислительного центра АН СССР и на одноимен- ной кафедре факультета вычислительной математики и кибернетики МГУ, возглавлявшейся им в течении 5 лет, продолжают начатое дело. Значение данной монографии трудно переоценить. Но- визна и теоретическая глубина содержащихся в ней ре- зультатов, их практическая значимость позволяют утвер- ждать, что после успехов 40-х годов книга Ю. Б. Гер- мейера является следующим важным этапом в развитии теории игр. В заключение я считаю нужным отметить большую работу, которую провели редакторы книги И. А. Ватель и Ф. И. Ерешко. Н. Н. Моисеев 1976 г.
ПРЕДИСЛОВИЕ АВТОРА Окружающая нас действительность постоянно и мно- гообразно демонстрирует физические и общественные про- цессы, в которых интересы участников не носят антагони- стический характер, хотя отнюдь и не всегда совпадают. Изучение таких процессов (интересное и само по себе) в основном необходимо для выработки их участниками способов принятия решений по выбору тех или иных па- раметров процессов, которые находятся в их распоря- жении. Если f-й участник выбрал (по каким-то соображениям) значение параметра равным х^, то его действия формаль- но могут быть описаны как стремление к максимизации функции —-1|— х^ ||. Поэтому любое принятие ре- шений г-м участником процесса может трактоваться (хотя бы апостериори) как целеустремленное, направленное к увеличению значения некоторой величины W; (крите- рия эффективности, платежа, выигрыша и т. п.), завися- щей в общем случае от выборов всех п участников процес- са, т. е. иц = A (^iv • •, * = !,.• п- Описанный таким образом процесс со многими участни- ками, преследующими различные интересы и ограничен- ными в свободе выбора Xi GE Хи и носит название игры (термин укоренившийся, хотя и яв- но неудачный). Игру, рассматриваемую только с позиций одного из участников-«игроков» (или с позиций всех тех, у кого ин- тересы, т. е. критерии совпадают), целесообразно на- зывать операцией этого «игрока», а его самого — опери- рующей стороной [6]. Такое выделение подчеркивает один
10 ПРЕДИСЛОВИЕ АВТОРА из п субъективных подходов к объективно существующей игре; во многих случаях этот субъективизм просто неиз- бежен и хорошо отражает реальное положение дел. Обычная оптимизация соответствует либо п = 1, либо случаю совпадения интересов всех «игроков», = Д, i == 1,. . ., п. Антагонистическая игра получается при п = 2, если Д = — /2- Оба этих, в некотором смысле про- тивоположных, варианта достаточно хорошо разработа- ны и могут быть использованы для рекомендаций по при- нятию решений в соответствующих процессах. Однако ясно, что как тот, так и другой случаи в чистом виде на практике относительно редки. Успехи теории игр, конечно, значительны и для более общих постановок задач. Однако, к сожалению, тот раздел теории игр, который по традиции можно назвать класси- ческим [1] — [5], не может пока считаться достаточно хо- рошей основой теории принятия решений. Он далек от рас- смотрения конкретных практических задач, хотя это и не соответствует устремлениям родоначальников теории игр. Исключительное внимание, уделяемое в теории бес- коалиционных игр ситуациям равновесия и смешанным стратегиям, далеко не всегда соответствует практической возможности или целесообразности их использования; кроме того, само понятие ситуаций равновесия в беско- алиционных играх несколько противоречиво, если его рас- сматривать как основу для принятия решений игроками. С другой стороны, классическая теория игровых коалиций фон Неймана и Моргенштерна, вводящая понятие дележа для всех участников, по существу не использует ни си- туаций равновесия, ни смешанных стратегий; основой рас- смотрения являются формальные построения «справед- ливых» дележей без учета реальной их ограниченности и возможности нарушения договоров. Кроме того, игнори- руется такой вопрос, как информированность игроков об интересах партнеров, в то же время, как известно, истин- ные интересы зачастую скрываются. Даже роль взаимной информированности о ходах (т. е. о решении игроков) по-настоящему не обсуждается, хотя все построение тео- рии позиционных игр предназначено, казалось бы, имен- но для этого. В результате кажется, что классическая тео- рия игр, во всяком случае в части теории принятия реше- ний, преждевременно и чрезмерйр заформализована.
Ш>ЕДИСЙОВЙЕ АВТОРА 11 В последнее время предпринят ряд попыток изменить положение дел. Эти попытки пока увенчались успехом только в относительно простых случаях. Тем не менее они позволяют надеяться на прогресс и в рассмотрении общих ситуаций, характерных для жизни большого общества. Учитывая все сказанное, в предлагаемой книге изла- гаются некоторые новые точки зрения (дополняющие тра- диционные) и ряд соответствующих результатов, претен- дующих на достаточную конкретность рекомендаций и практическую реализуемость. Особое внимание уделено результатам исследований по играм двух лиц, связанным с теорией иерархических систем. Здесь выясняется зна- чение порядка ходов при возможности добровольной отда- чи информации о ходе, роль точности знания интересов партнера и, особенно, совместных ограничений. По-но- вому проявляется значение смешанных стратегий; наме- чается разговор о роли блефа и т. п. Существенными ока- зываются вопросы математической корректности прини- маемых решений. По-новому используется повторяемость игр. Основными участниками исследований, материалы ко- торых ниже используются, были И. А. Ватель, В. А. Го- релик, Ф. И. Ерешко, А. Ф. Кононенко, Н. С. Кукушкин, Д. А. Молодцов, С. А. Орловский, В. В. Морозов,‘К. К. Мо- севич, В. В. Федоров и, разумеется, автор. Значительно участие, особенно в вопросах теории иерархических си- стем, чл.-корр. АН СССР Н. Н. Моисеева. Большую рабо- ту по приведению рукописи в относительный порядок проделала Е. М. Гермейер. В настоящей книге прежде всего хотелось изложить положение дел в теории игр с тем, чтобы активизировать как разработку ее самой, так и, в особенности, ее прило- жений на практике. Поэтому мы не стремились излагать имеющиеся материалы во всех подробностях и со всей строгостью. Список литературы поможет желающим по- лучить более подробные сведения по ряду конкретных задач. В заключение отметим, что хорошим и кратким изло- жением традиционной теории игр является переведенная у нас книга Г. Оуэна «Теория игр» [5]. Знакомство с этой книгой рекомендуется для углубленного изучения многих
a ПРЕДИСЛОВИЕ АВТОРА вопросов, которые здесь, по существу, только упоми- наются. Основой предлагаемой читателю книги явился курс лекций, прочитанный и изданный в МГУ в 1972 г. под тем же названием. Однако в книгу включено много новых ма- териалов, появившихся с тех пор. Популярно и четко изложены исходные идеи разви- ваемой теории и некоторые экономические модели в бро- шюре И. А. Вателя и Ф. И. Ерешко «Математика конфлик- та и сотрудничества» [46]. 1975 г. Ю. Б. Гермейер
ГЛА|ВА I ОБЩЕЕ ОПИСАНИЕ МОДЕЛИ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ § 1. Характерные примеры игр с непротивоположными интересами Пусть в операции присутствуют п игроков, каждый из которых стремится увеличивать свой критерий эффек- тивности Wi (rft, . . rrn), i = 1, . . ., n, осуществляя вы- бор вектора из некоторого множества Несколько обобщая сказанное в предисловии, прежде всего отметим простейшие виды связи между этими кри- териями (интересами). 1) Совпадение интересов, когда тождественно Wi = == Фг (ш), где (ft (t) — монотонно растущие функции, а w — величина, одинаковая для всех игроков. 2) Противоположность интересов, когда п = 2 и = ф (—»1), (1.1) где ф (t) — также монотонно растущая функция. Антагонизм соответствует случаю = с — w±. 3) Заслуживает специально быть отмеченной и ситу- ация полной независимости интересов, когда и)^ = fi (#$), (ЕЕ Хг. (1*2) В общем случае связи между интересами игроков, ко- нечно, не исчерпываются отмеченными простейшими си- туациями. Приведем ряд характерных примеров игр с непроти- воположными интересами. I И г р а с природой. Во многих книгах по теории игр и статистике под игрой с природой понимается процесс, в котором имеется единственный «настоящий» игрок (оперирующая сторо- на), стремящийся к увеличению критерия w = f (х, у), где у — факторы, не выбираемые им и описывающие
14 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ 1ГЛ. I некоторые объективные явления, влияющие на величи- ну w. Обычно интересы природы считаются неизвест- ными или несуществующими, а при выборе вектора х в расчете на наихудший случай принимаются антагони- стическими по отношению к интересам оперирующей стороны. Однако более правильным моделированием по- ведения природы (при гипотезе отсутствия у нее интере- сов) является ее описание с помощью критерия «безраз- личия»: WN — {я(х, У) — const. (1.3) В целесообразности такого описания можно убедиться хотя бы на следующем примере. Пусть имеется два иг- рока и одна и та же «природа», выбирающая у, тогда «интересы» последней нельзя считать одновременно про- тивоположными интересам (х19 х2, у) и w2 ~ = fz (xi> х29 У) обоих игроков, за исключением случая их совпадения. Во многих случаях интересы природы могут считать- ся реально существующими, известными, не противо- положными интересам оперирующей стороны и не опи- сывающимися (1.3). Именно, разумно полагать, что «ин- тересы природы» состоят в выполнении тех или иных физических законов. Если эти законы даны в вариацион- ном виде (закон неубывания энтропии, принцип Ферма в оптике и т. п.), то описание природы как игрока с впол- не определенными интересами непосредственно дано. Ес- ли же закон природы имеет вид равенства (р (х, у) = О, определяющего величину у при любых заданных х, то введение критерия эффективности для природы Wn = — <р2 очевидно, вполне заменяет этот закон, если дополнительно предположить, что выбираемое опе- рирующей стороной значение х обязательно становится известным «игроку», который моделирует природу. Имен- но, в этом случае стремление к увеличению ivn & при- ведет к условию <р (х, у) = 0. Типичным примером та- кого подхода является представление дискретной зада- чи оптимального управления max / (х1, . . - я”), где яЛ1 == <р* (х1,. . х1, иг), i = 1,. . ., п — 1,
15 ИГРЫ G НЕПРОТИВОПОЛОЖНЫМИ ИНТЕРЕСАМИ § И в виде игры с критериями: w = / (я1,. . ., хп), п—1 WN = — У [#i+1 — ф*^1, ...Я*, И*)]2, г=1 причем первый игрок выбирает и = (и1,. . ., и”-1), второй игрок (природа) выбирает х = (х1,. . хп). Аналогично, наличие ограничения ф (х, у) > 0, не- однозначно описывающего выбор у, легко моделируется критерием эффективности природы: wN = — {min [ф (я, у), О]}2. (1.4) Введение критерия эффективности типа (1.4) означает просто снятие связей между х и у и должно сопровождать- ся указанием на обязательную информированность при- роды о выборе х. Снятие «внутренних» ограничений типа ф (х) > 0 возможно и другими способами, из которых наиболее известным является использование формы Лаг- ранжа w* = f (х) + Аф (х), заменяющей исходный мак- симизируемый критерий w = / (х). При этом % > 0 вы- бирается фиктивным игроком, имеющим противополож- ный интерес = — w*. По данному вопросу достаточ- ный материал содержится в [6] и [76]. Аналогично можно поступать и в играх многих лиц. Тесно связана с этим способом и идея введения штрафа за нарушение огра- ничений, о чем будет говориться подробнее в § 2. Не продолжая очевидных обобщений, в том числе и на случай законов дифференциального вида, и не на- стаивая именно на таком, как в (1.4), описании крите- рия эффективности, отметим лишь еще раз следующее. Отнюдь не всегда интересы природы следует считать антагонистическими интересам оперирующей стороны; их можно описать, в частности, указанными способами. II Антагонистические игры с зап- рещенными ситуациями. Рассмотрим игру с критериями “’i = / (xi, = — / (хи х2) (1.5) при наличии общих ограничений <р (хи х2) > 0 или (»lt х2) е Р- Эту игру с помощью естественного штрафа формально можно привести к игре с непротивоположными
16 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I интересами * ( / (#ь #2), ( — оо, (*1, «а) G Р, (&1,г,)ЁЛ — оо, (#1, ^2) s р, (^,%)еР. (1.6) Невозможность того, что (хг, Gz Р, моделируется здесь крайней нежелательностью этого. В качестве простого примера приведем случай, когда / = и Р = {(#!, #2)ki + #2^1; xi 0; х2 0}. Этот пример можно трактовать как модель экономичес- кого соревнования двух стран, использующих общее мировое сырье. Для нее характерна сильная неустой- чивость в выигрыше по отношению к порядку ходов. А именно тот, кто первым делает ход, т. е. выбирает значение своего xt, может положить xt — 1 и тем самым не оставить сырья для партнера. Итак, любая антагонистическая игра с запрещенны- ми ситуациями (1.5) сводится к игре с непротивополож- ными интересами типа (1.6). Далее будет видно, что в некотором смысле верно и обратное утверждение. Ни- же, в § 10, будет также продемонстрирована и важность порядка ходов в общем случае игры двух лиц. III Обобщенная задача Гросса [7]. Довольно типичным примером «военной» антагонисти- ческой игры является игра «нападение — защита», где it У, х’ = а, У у’ = Ь, 3=1 j=i к Wi = Vi V max [х} — pjyj\ 0] = — u?2, i=i причем первый игрок («нападение») выбирает (х\. . ., #*)> ^0, а. второй («защита») — (г/1, . . ., у*) 0. В этой задаче А? имеют смысл «веса» объекта с номером у. Однако совершенно не обязательно, чтобы нападение и защита придавали один и тот же «вес» данному объек- ту. Более типичным представляется различие во взгдя- (1.7)
17 § 1] ИГРЫ С НЕПРОТИВОПОЛОЖНЫМИ ИНТЕРЕСАМИ дах. Так, если (1.7) выражает интересы нападения, то для защиты критерий эффективности может быть рав- ным к w2 = —- 2 И7 тах — pV‘, 0], (1.8) i=i причем р? =# V. Таким образом, даже в военных операциях интересы противников не обязательно противоположны, и учет этого, как увидим в § 18, может существенно изменить рекомендации по поведению защиты. IV Конкуренты на рынке [6], [8]. В несколько упрощенном виде эта игра выглядит сле- дующим образом: ( (р —я)# при р<^£, U?1 = { . ГГГ 1 ( mm [С — qy, р.г] — ах при р > q, (1-9) ( (q — а) у Р, ш2 = г/1 , \ ( mm [С — рх, qy] — ay при # > р. Здесь х и у — объемы продукции, выпускаемой конкурен- тами, а р и q — назначаемые им цены, С — общее коли- чество денег у покупателей, а — себестоимость продук- ции. Установлен максимально возможный объем продук- ции обоих конкурентов К и максимальные цены 6, так что 0 х К, 0 у К, 0 р 6, 0^7^ Ь. Кроме того, конечно, выполняются ограничения рх С и qy < С. Неантагонистичность игры (1.9) видна хотя бы из того, что при у = 0 изменение w1 за счет вариации х или р не влечет за собой никакого изменения w2. Отме- тим также, что игра (1.9) легко обобщается на любое число игроков. V Непротивоположность интере- сов как следствие применения принципа гарантированного результата. Пусть = У) —^2, (1.10) причем либо у природный неопределенный фактор (так что по (1.3) — С), либо у выбирается третьим игроком,
18 МОДЕЛЬ G НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I интересы которого одинаково неясны первым двум иг- рокам. Тогда довольно естественно для каждого из них придерживаться принципа гарантированного результа- та по отношению к у, т. е. заменить свои критерии на гр* = minу), v (1 И) = min{—/(^i,^2Л)} = — max f (лгьx2, у). V У Непротивоположность интересов игроков после этого непосредственно видна из (1.11) и особенно ярко прояв- ляется на примере / (xlf х2, у) = (хг — х2) у, причем |г/| 1. Здесь = ]хг — гг2| ~ т. е- интересы первого и второго игроков из антагонистических ста- новятся совпадающими. Столь же любопытно и то, что применение обоими иг- роками в игре = / (^1? гг2) — —принципа гаранти- рованного результата означает переход к zz?* = min / (х1ч х2) = ф (яД х2 = min {— / (хъ х2)} = ф (ж2), Xi т. е. к игре с независимыми интересами типа (1.2). VI Игры типа «соревнование». Пусть экономический потенциал двух стран выражается соот- ветственно функциями rt (хг, t), i = 1, 2, где t — мо- мент времени, в который «игроки» интересуются потенциа- лом, a xt — способы использования ресурсов (т. е. сырья, рабочей силы и т. д.). Тогда довольно естественно выра- зить интересы соревнующихся в виде = Ф1 Pl (Xi, fj) — г2 (х2, ^)], (1.12) w2 — <р2 [г2 (х2, t2) — (х1( *2)], где ф! (и) и ф2 (и) — монотонно возрастающие функции. Очевидно, что при tr = t2 интересы игроков в (1.12) противоположны. Однако они перестают быть таковыми, если =/= t2. В этом случае игра (1.12), несмотря на ее кажущуюся простоту, обладает многими свойствами игр общего вида. *В частности, казалось бы, очевидная ре- комендация по выбору X} из реализации max (х19 ^)
§ 1] ИГРЫ С НЕПРОТИЁ0ПОЛОЖЙЬ1МИ ИНТЕРЕСАМИ 10 не исчерпывает проблему прогноза результата игры. Отметим еще, что в случае, когда игроки не имеют чет- кого представления о желаемых t± и Z2, эти величины должны рассматриваться как природные неопределен- ности. Применяя тогда принцип гарантированного ре- зультата, придем к играм типа (1.11), где интересы со- ревнующихся могут оказаться даже близкими. Игра (1.12) легко обобщается для произвольного чис- ла игроков, если положить, например, при неубываю- щих функциях и Wi = фг {п (xh ti) — фг [rx (xlt tj),. . t(.J, П+1 (%i+U ^г+1), • • •> rn (^n> г = 1, . . П. Особенно интересными являются два частных случая (О <9< 1): = фг[Гг(£гЛ)~ 6шаХГу(Ж;, /,)], t = 1, . . . , П, (1.12') п «’г = фг Иг (%i, ti) — 6 S Г, (Xf, tj) 1 , 1 = 1,...,П. (1.12") L 3=1 J Первый из них отражает обычное понимание соревнова- ния, а второй означает стремление игроков получить ре- зультат, сравнимый с суммарным результатом всех парт- неров. В дальнейшем мы будем иногда рассматривать простой, но поучительный и любопытный частный слу- чай (1.12"), а именно игру + 0 Л (1—#;), 0<#j<l, i = 1,.. . , п. (1.13) 1 VII Иерархические системы [10], [46], [87]. Пусть имеется «центр», управляющий деятельно- стью п «производителей». Для простоты примем, что производители не зависят друг от друга, а только от цент- ра и выбирают соответственно векторы выражающие их технологическую и ассортиментную политику. Фак- торы, выбираемые центром, обозначим вектором и = = {их,. . ., ип} GE U, где ut есть воздействие центра на f-го производителя (выделение ресурса, установление цен на продукцию, штрафы и поощрения и т. д.).
20 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I Если в достаточном соответствии с реальностью счи- тать, что центр сам ничего не производит, но интересует- ся неким совокупным результатом производства, а про- изводители интересуются лишь своим результатом, то в получающейся игре можно выразить критерий эффек- тивности для центра в виде = /о U, (1.14) и для производителей Wi = ft (^, ut), i — 1,. . П, xt G Xi. (1.15) He изменяя существенно задачи, можно, конечно, счи- тать и что = /о (^i,. . хп, и). (1.16) Существенным свойством модели иерархии (1.14) — (1.15) является то, что критерий центра не зависит от собствен- ных стратегий; это обстоятельство, как увидим в § И, делает нерациональным использование ситуаций равнове- сия в этой задаче. Важнейшая особенность иерархических систем со- стоит в том, что первый ход (выбирая свое поведение) делает центр. Во многих случаях это обстоятельство до- полняется и возможностью для центра следить за дей- ствиями производителей, т. е. иметь информацию о xh Казалось бы, право первого хода отрицает возможность получения информации о xt. Но именно разрешение этого кажущегося противоречия и приводит, как будет видно, к наиболее эффективному поведению центра. В качестве одного из примеров задач типа (1.14) — (1.15) можно указать на случай, когда производители интересуются линейными критериями типа т (1.17) Z—1 т при ограничениях 2J где х[ — компоненты i^=i вектора продукции f-ro производителя xh а К1 — ве- совые коэффициенты важности (цены). В то же время ♦) Далее будет показано, что этот случай сводится к записи (1.15) введением штрафа за нарушения ограничений.
§ 1] ИГРЫ С ^ПРОТИВОПОЛОЖНЫМИ ИНТЕРЕСАМИ 21 центр, выбирая распределение ресурсов uh естественно, хочет некоторой комплектности общей продукции, что легко описать стремлением к увеличению критерия типа 1 VI I wQ = mm — xi9 (1.18) где набор b1,. . ., bm задает желательный для центра комплект продукции. На примере модели (1.17) — (1.18) легко увидеть, к каким ошибкам может привести забвение истинных ин- тересов производителей (1.17). Если ограничиться слу- чаем п== т = 2 при а\ ~ а1 и иг + == Щ то, исходя из собственных интересов, центр будет решать обычную оптимизационную задачу max (1.18) при ограниче- ниях а^х} + &М ui9 i = 1, 2, + и2 = и (т. е., по существу, задачу линейного программирования), ко- торая приведет его к решениям, обеспечивающим w0 = = • Однако на самом деле при любых щ и и2 аЧ)1 + а262 л. л оба производителя будут выпускать только тот вид / продукции, для которого отношение M/а? будет наиболь- шим. Тем самым может оказаться нарушенной комплект- ность продукции, и истинный результат центра может быть w0 ~ 0. Разумеется, на практике подобные ошибки смягчаются рядом обстоятельств, не учитываемых в дан- ной модели (например, ограниченностью спроса, кото- рая повлияет на критерии (1.17)). Однако эти обстоятель- ства не меняют существа указанной критики тривиаль- ной оптимизации. Стоит отметить еще, что во многих случаях интересы центра можно выразить в виде zz?0 = Ф (^i,. • и>п, и)- (1.19) Здесь центр не интересует технология и иные подробности производства, а только результаты деятельности произ- водителей. На первый взгляд (1.19) существенно отлич- но от (1.14) и даже от (1.16). Однако если вспомнить (1.15) и подставить эти выражения в (1.19), то мы, оче- видно, придем снова к выражению типа (1.16). Нужно лишь заметить, что переход от (1.19) к (1.16) требует точ- ного знания центром выражений (1.15), т. е. как раз тех
22 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ интересами [гл. t подробностей производства, от которых его «спасает» выражение (1.19). Важным свойством модели (1.19) является также то, что возможная неединственность вы- боров Xi производителями несущественна для центра (легко видеть, что модель (1.17)— (1.18) этим свойством не обладает). Заметим еще, что пример (1.17) —(1.18), очевидно, не подходит под форму (1.19). VIII Векторный критерий оптими- зации. Во многих задачах принятия решений при- сутствует один «игрок» (оперирующая сторона), выбираю- щий вектор х из множества X и интересующийся целым набором критериев (что может быть следствием просто его нерешительности) = fs (х), 8=1,.. ., S. (1-20) При этом игроку хотелось бы увеличить значения всех ws, что, как правило, невозможно. Задача (1.20), часто называемая задачей векторной оптимизации, легко сво- дится к обычной игре, но с наложенными общими огра- ничениями (запрещенными ситуациями). Для этого до- статочно рассмотреть игру с S фиктивными игроками W’s = fs (я8), xs^X, 8=1,..., S, (1.21) в которой, однако, необходимо х± == х2 ==... = xs или, что все равно, S 8=2 В свою очередь эта задача приемом, аналогичным (1.6), сводится к игре без ограничений (кроме xs€E X), но со штрафами: S W, = fs («1, . . . , XS) = fs (Хх) при 2 II Xi — xiII2 = °> i=2 S — ©о при 2ki-^i||2^o. i=2 Отметим, что задача (1.20) может рассматриваться и как игра с природой. При этом нерешительность опери- рующей стороны* трактуется как возможность выбора природой одного из критериев w8 (1.20). Именно с такой точки зрения рассматривался этот вопрос в [6].
§ 2] БЕСКОАЛИЦИОННАЯ ИГРА С ИНФОРМИРОВАННОСТЬЮ 23 IX Сообщество с согласованным вектором интересов [54]. У каждого игрока предполагается векторный критерий, состоящий из об- щего для всех игроков критерия wQ и индивидуального Wi, определяемого усилиями только данного игрока: = / (^1,. • Хп), 0 < Xi < ait Ц 22) = Фг («г — %1), г = 1,. . п. Здесь под аг О понимается ресурс, имеющийся у г-го игрока, a xt —его часть, направляемая на общую цель — увеличение критерия Эта модель может неплохо от- ражать основные вопросы, которые возникают, напри- мер, при рассмотрении межгосударственных отношений по охране природы. Как и в случае (1.20), здесь возникают вопросы на- хождения компромиссов между составляющими вектор- ного критерия; в данной модели это компромисс между коллективной составляющей и индивидуальной для каждого игрока. Отметим, что частным видом такого компромисса может быть введение критерия игрока по формуле Щ = (1 — + KtWi. Если Хг- малы, то такой случай можно назвать игрой с близкими интересами. Он изучается в [9]. § 2. Общее описание обстановки бескоалиционной игры с учетом взаимной информированности об интересах Достаточно общее описание исходной игровой обста- новки для бескоалиционной игры должно включать в се- бя наряду с критериями эффективности также и ограни- чения, которые наложены на всех^игроков с точки зре- ния морали или жизненной необходимости каждого г-го игрока, и, кроме того, природные факторы как неопре- деленные, так и случайные. Это общее описание разумно давать в двух вариантах: объективное описание (зачастую неточно известное игро- кам) и субъективное описание, соответствующее информа- ции об интересах и возможностях игроков, которая есть у того или иного игрока, например первого. Если этот
24 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I игрок — оперирующая сторона, в интересах которой про- изводится исследование игры, то считается, естественно, что исследователь операции знает об игре не больше, чем оперирующая сторона. Эта субъективная информация со- ответствует исходной позиции при исследовании вопроса о принятии решений оперирующей стороной. I. Объективное описание. Игра задается критериями эффективности (которые соответствующие иг- роки стремятся увеличивать): Wi = Fi (xr, . . ., хп, i = 1, . . п, (1.23) причем pj GE В; суть природные случайности или неопре- деленности. Последним также можно сопоставить крите- рии эффективности, например, типа (1.3) и игроков, стре- мящихся к их увеличению. Что касается вектора контро- лируемых игроками факторов х = (хг, . . ., хи), то i-й иг- рок может налагать на него ограничения, обязательные с его точки зрения: х ЕЕ Pi (например, <рг- (х) > 0), (1-24) и с учетом этого ограничения выбирать xt. Будем полагать, что все заведомо принадлежат не- которому Xi X . . .X XQn, причем Xi е Xt Важно под- черкнуть, что ограничения Pi на один и тот же вектор мо- гут быть различными у различных игроков. Примером этого служат, например, отличпя в этических и правовых нормах в разных религиях и у разных пародов. Несколько детализируя (1.24), можно выделить мно- жество Рф, выход за пределы которого физически невоз- можен. Ясно, что такое ограничение является общим для всех игроков (включая и природу). Обозначая через Pi множество, выход за которое нежелателен для i-ro игро- ка, имеем Pi — P't 0 Рф. Введением штрафа и соответствующих разрывных критериев эффективности [11] для разумных игроков иг- ра (1.23) —*(1.24) может быть заменена игрой без ограни- чений Pt (без связей между хь т. е. без запрещенных си- туаций): I, оч ( ЛРИ Wi = fi (X, Pl) = 1 -- n ' ' ' I — оо при XGEPl- (1.25)
§ 2] БЕСКОАЛИЦИОННАЯ ИГРА С ИНФОРМИРОВАННОСТЬЮ 25 Разумеется, вместо —оо можно взять любые числа, мень- шие inf Р^ев{ но форма (1.25) более выразительно подчеркивает край- нюю нежелательность выхода из Pi для г-го игрока. Ес- ли х ё -Рф, то игра не может состояться; это трактуется как получение сразу всеми игроками —оо. Однако накладывание штрафа сразу на всех игроков может быть и просто результатом их неразумного поведе- ния, особенно ясно проявляющегося при Q Рг = ф. По- i этому при использовании (1.25) необходимо не забывать о различии между физической невозможностью и край- ней нежелательностью. Для того чтобы подчеркнуть этот факт, можно записать вместо (1.25) несколько более дета- лизированные критерии эффективности: = fi (я, Pi) = Fi (х, Pi) при х s Pi, 7?i^> — оо при Х€=.РФ\Рг, — эо прИ X Р . (1.25') Наконец, при снятии ограничений (1.24) можно оставлять в (1.25) требование хЕЕ Рф, если это почему-либо удобно. Относительно простым случаем является совпадение ограничений для всех игроков, т. е. Pt = Рф (Z = 1, . . . . . ., п). Именно его обычно называют играми с запрещен- ными ситуациями. Другим важнейшим крайним случаем является распадение ограничений на отдельные независи- мые Xi Xi (i = 1, . . ., п). Однако формально можно и здесь ввести общее для всех ограничение вида х GE Х± X X Х2 X ... ххп. Описание (1.25) намного удобнее, чем (1.23) — (1.24), хотя и является более (формальным. Действительно, при использовании (1.25) как бы нивелируется обособленная роль отдельных множеств Рр все полностью характеризу- ется заданными на едином множестве функциями(#,pf), а множества Pt просто являются элементами определения этих функций. Именно поэтому модель (1.17) — (1.18) есть частный случай модели (1.15) — (1.16). Наряду с использованием штрафов для удобства и единообразия описания игровых моделей целесообразно
26 МОДЕЛЬ С ЙЕСОВПАДАЮЩИМЙ ИНТЕРЕСАМИ (ГЛ. 1 также введение фиктивных игроков. Так, если у реаль- ного игрока есть вектор критериев, то введением фиктив- ных игроков по числу компонент векторного критерия мы приведем модель опять к виду (1.23), что продемонстри- ровано уже на примере VIII § 1. Однако при этом неиз- бежно появятся и новые связи на вектор х типа (1.2Г). Может использоваться и описание обстановки с по- мощью природных неопределенностей [6], которые моде- лируют, например, нерешительность игрока в выборе кри- терия эффективности (в частности, упоминавшуюся много- критериальность) и даже самих ограничений ЕГпослед- нем случае достаточно считаться с наличием зависимости Pi (?г)> где разброс уг моделирует нерешительность иг- рока. Использование (1.25) опять приводит игру к стан- дартному виду, с той лишь несущественной разницей, что фактор заменяется на (0Ь Yi), а именно: Wi =fi (£,₽i,Yi) = | _oo (1.25") Общее объективное описание игры не будет полным, если не указать степень ее обязательности для игроков. Формально любую игру, конечно, можно «замкнуть», рассмотрев в качестве возможных ее исходов отказ от ее проведения или продолжения теми или иными игроками, в том числе и всеми. Для этого множества Pi должны быть дополнены точками, отражающими такие вольные или не- вольные отказы от начала игры или от ее продолжения. Заметим, что, например, продолжительная нерешитель- ность в выборе xt должна быть приравнена к отказу от игры. На расширенных таким способом множествах Рг- должны быть доопределены и критерии Д, как это, напри- мер, происходит в шахматных турнирах, где отказ от иг- ры обоих партнеров означает ничью, а одного — его про- игрыш. Такое доопределение отнюдь не всегда просто и во многих случаях решается субъективной оценкой прием- лемости капитуляции самим i-м игроком. Так, некоторые шахматисты, видимо, предпочитают иметь побольше вре- мени для ознакомления с новой страной, даже за счет про- игрыша. Это означает, что они проигрыш оценивают до- вольно положительно, хотя организаторы турнира и ду- мают иначе.
§ 2] БЕСКОАЛИЦИОННАЯ ИГРА С ИНФОРМИРОВАННОСТЬЮ 27 Многие построения и рекомендации теории игр связа- ны с повторяемостью игры, т. е. с тем, что задача выбора х многократно повторяется в условиях, описываемых (1.23) — (1.24). При этом вектор 0, вообще говоря, меня- ется от партии к партии (хотя множества Вг и не меняются) и модель N раз повторяющейся игры может довольно гиб- ко отражать динамику процессов, в которых участвуют игроки с несовпадающими интересами. Сама гипотеза о дискретности принятия решений в большинстве случаев в точности соответствует реальности, а в других может считаться (при большом N) хорошим приближением к ней. Не развивая эти тезисы, обратим внимание на то, что N раз повторяющаяся игра может быть сведена к однократ- но проводимой игре типа (1.23) — (1.24). Для этого опять достаточно ввести фиктивных игроков путем TV-кратного «размножения» каждого реального игрока с сохранением для фиктивного игрока записи (1.23) — (1.24) его интере- сов и ограничений; одновременно «размножаются» и неоп- ределенные факторы 0г с сохранением, однако, множеств В^. Увеличивая в N раз число игроков и неопределенных факторов, можно, конечно, еще более расширить приводи- мые к (1.23) — (1.24) модели, если не требовать неизмен- ности Pi и Bf. При увеличении N становится ясной и од- на из причин целесообразности рассмотрения игр с бес- конечным числом игроков. Отмечая общность описания (1.23) — (1.24), не следу- ет, конечно, забывать о конкретных проблемах, связанных со спецификой повторяющихся игр. Эта специфика преж- де всего связана с отношением игроков к будущему при принятии решения в каком-то повторении. Содержание соответствующих предположений (например, дисконти- рование в математической экономике) мы обсудим в § 13 при общем рассмотрении вопроса о компромиссе между многими критериями. Для этого, равно как и для многих других целей, необходимо четко определить понятие одно- типных (или сравнимых) критериев эффективности. Интуитивно ясно, что однотипность критериев и Wj отнюдь не означает обязательного их совпадения или даже более общего совпадения соответствующих интере- сов. Дело не в одинаковости «способа производства» вели- чин критериев ft и //, а в качественном совпадении содер- жания величин W} и Wj. Для простейших «физических»
28 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ (ГЛ. I видов критериев свидетельством однотипности может слу- жить совпадение размерности, однако, например, для пи- щевых продуктов такое понятие однотипности вряд ли окажется удобным и достаточно гибким. Поэтому целесо- образно использовать идею побочных платежей, впервые, видимо, сформулированную в [1]. Мы будем считать кри- терии Wi и Wj однотипными, если какие-то порции зна- чений Wi можно превращать в пропорциональные части значений Wj и наоборот. Таким образом, для однотипных критериев wt и Wj существуют величины Awf 0 и kw; =# #= 0 такие, что, уменьшив wt на Агрг, можно за этот счет увеличить на kwj = кцкир значение wp Величины Awf и называются побочными платежами между г-м и /-м игроками. Если возможен обмен любыми величинами Awf, то побочные платежи будем называть неограничен- ными. Если же невозможны ненулевые побочные платежи, то критерии Wi и Wj будем называть неодинаковыми или несравнимыми. Все сказанное примерно соответствует основным по- нятиям, используемым в «классической» теории игр, где негласно принимается, что игроки сколь угодно чувстви- тельны к изменениям Wp т. е. что каждый игрок будет активно стремиться (путем выбора xt или других дейст- вий) получить Wi + &Wi вместо сколь бы мало ни было \Wi. Такая «безинерционность» вряд ли всегда хорошо отражает реальное положение вещей, особенно если за- пись игры не учитывает реальные физически0 и психиче- ские затраты на отыскание путей получения добавка Aw^. В некоторых же случаях (как это будет видно из дальней- шего) сколь угодно большая чувствительность будет при- водить к некорректным постановкам задач (см., например, §§ 16, 17). Даже обычное понимание е-оптимального ре- шения оптимизационной задачи требует конкретизации е, т. е. указания на приемлемую точность или, что то же самое, указания на зону нечувствительности по оптимизи- руемой величине. Исходя из этого, мы будем далее при необходимости учитывать реальную нечувствительность игрока по критерию wtj указывая величину 6г такую, что значения wh отличающиеся между собой не более чем на для этого игрока равноценны. Если 6$ не оговаринает- ся, то принимается = 0. Введение > 0 немедленно приводит к соответствующим изменениям в политике
§ 2] БЕСКОАЛИЦИОННАЯ ИГРА & ИНФОРМИРОВАННОСТЬЮ 29 штрафов за отказ от игры. Например, числа Rt в (1.25') нужно выбрать так, чтобы Rt + 6^ было меньше, чем inf Ft (я, Pf). Становится более ясным теперь и xePi,pieBi удобство штрафа, равного —оо. Даже поверхностное обсуждение общего описания иг- ры типа (1.23) — (1.24) или (1.25) сразу вскрывает огра- ниченность и неудобство многих принятых в классической теории игр терминов и подходов. В первую очередь это относится к термину антагонистические игры, под кото- рым часто понимают случай двух игроков при Ft = —F%. Однако, если в (1.24) множества таковы, что Рг Р2, и не являются параллелепипедами, то в записи (1.25) ни- когда нельзя указать множество X Z2 А такое, что на нем F± + F2 = 0; всегда будет существовать область, в которую оба игрока одинаково не хотят попадать, и, значит, их интересы в этой области совпадают. Наоборот, если Pi П Р2 — Ф1 то» каковы бы ни были Fr и Р2, ин- тересы игроков действительно несовместимы, даже если Ft = F%. В первом из приведенных примеров игроки долж- ны как-то договориваться, чтобы не попасть вне Рх, и это означает, что чисто бескоалиционные (независимые) дей- ствия, вообще говоря, бессмысленны. II Субъективное описание с точки зрения первого игрока. Здесь мы хотим от- разить возможную (а в большинстве реальных случаев и неизбежную) неполноту информированности первого иг- рока об интересах и ограничениях остальных. Используя способ записи (1.25), можно представить игру с точки зрения первого игрока критериями эффективности: для первого игрока г / а ч Г Fi (*» 01)» pi, (1.26) причем Pi е Вх, и для остальных = fn (*, «а), «ц е Afl, i - 2, . . ., п. (1.27) Здесь факторы afI отражают как реальные природные не- контролируемые факторы Pi, так и неточность представ- ления первого игрока о критерии эффективности i-го иг- рока. Множество значений ® и таких, что = —оо, дает представление первого игрока об ограничениях /-го
30 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I игрока, которые, естественно, неопределенны вслед за неопределенностью ап. Предполагается, как видно из (1.26), что представления первого игрока о себе самом пол- ностью объективны; от этого предположения в случае не- обходимости, разумеется, можно также отказаться, ис- пользовав и для w1 запись типа (1.27) ♦). Субъективное представление (1.27) не противоречит объективному (1.25) (хотя и не совпадает с ним), если су- ществует такое множество В* CZ Ац, что при некотором взаимнооднозначном соответствии В| и Bf, когда pt <-> <-» аг1 ЕЕ Въ имеем для всех х hi (?, a/i) = ft pz), (1-28) где fi задается формулой (1.25). Объективно рассуждающая оперирующая сторона и тем более исследователь должны добиваться выполнения (1.28), хотя бы ценой значительного расширения множеств Аг1, так как иначе в рассмотрение вводится риск, который не может быть никак оценен. Иногда описание неточности знания игры с помощью функций /г1, зависящих от afl, может быть неудобно. В таких случаях можно использовать произвольный класс функций fa (х, Р^). При этом вместо (1.27) следует пред- полагать возможность любого равенства = h (х, Pi) при ft (х, рг) е Фг. Непротиворечивость объективному описанию означает здесь справедливость условия ft (х, рг) е ф«. Весьма важной составной частью субъективного опи- сания является и представление о величинах Sf, характе- ризующих инерционность (нечувствительность игроков к изменению своих критериев). По определению субъек- тивное представление о них — не будет противоречить объективному описанию, если 6} 6$. Субъективное описание игры может не совпадать с объективным также, например, по числу игроков или ♦) В дальнейшем мы будем в записи (1.27) иногда опускать индекс 1, если это не приводит к недоразумениям.
§ 2] БЕСКОАЛИЦИОННАЯ ИГРА С ИНФОРМИРОВАННОСТЬЮ 31 числу повторений игры. Игнорирование ряда игроков (или повторений игры) не всегда допустимо даже в тех случа- ях, когда их действия не сказываются непосредственно на результате первого игрока. Действительно, их дейст- вия могут сказаться на выборах xt тех игроков, от которых непосредственно зависит w1 = /х (х, рх). Хорошим при- мером такого рода являются циклические игры, рассмот- ренные в [77] и [78]. Игнорирование каких-либо игроков в этих играх приведет к разрыву связей и к неправильным рекомендациям. Такого рода ошибки довольно типичны при исследовании сложных общественных взаимоотно- шений. Конечно, при моделировании нетрудно формаль- но избежать подобных ошибок, взяв достаточно большое число игроков и описывая неизученных партнеров неоп- ределенными интересами типа (1.27) или (1.3). Однако расчеты по таким моделям невозможно будет выполнить даже на^перспективных ЭВМ. Именно поэтому особенно возрастает роль общих качественных аналитических ис- следований различных типов игр с изменением числа и ха- рактеристик игроков. Но именно таким исследованиям не уделяется пока должного внимания; не составляет исключения и эта книга, где мы только еще ставим ряд вопросов. Разумеется, каждый Z-й игрок имеет свое субъективное описание игры, аналогичное (1.26) и (1.27). Это субъектив- ное описание может быть известно, неизвестно или неточно известно первому игроку. Такое вторичное отражение объективности (1.25) имеет, так же как и (1.27), существен- ное значение для принятия решения первым игроком. Из сказанного ясно, сколь сложна и многообразна реальная обстановка принятия решений. Тем самым ясна необ- ходимость точной фиксации соответствующих предполо- жений об информации в каждом конкретном случае исле- дований; постараемся в дальнейшем не забывать необхо- димые оговорки. В традиционной теории игр не делается различий между субъективным и объективным описани- ем и тем самым, по существу, полагается точной информа- ция всех игроков об интересах других. Это обстоятельст- во, несомненно, сильно ограничивает ее применимость на практике. Излагая субъективное описание, мы не различали мно- жества Pi и Рф. Это можно сделать, использовав форму
32 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I записи типа (1.25'). Здесь серьезно встанет вопрос о том, точно ли знает, например, первый игрок физические огра- ничения Рф. При неточном знании множества Рф у разных игроков может быть и разное о нем представление. Напри- мер, представление игрока о нижних и верхних границах (Рн, Рв) не противоречит истине, если Рн CZ Рф (Z Рв- § 3. Ситуации, стратегии и взаимная информированность игроков о «ходах» В теории игр ситуацией (исходом) называется сложив- шееся значение вектора (ж, р), где Р = (₽1э . . рп). Вы- бору (решению) г-го игрока подлежат значения хг. Трудно- сти принятия этого решения состоят, как мы отметили, в недостаточной обычно информированности принимающих решения игроков о значениях р, критериях wi и решени- ях партнеров о выборе своих Неточность информации у первого игрока о wt, i = 1, . . ., п, отражается в субъ- ективном описании игры и означает отсутствие точного представления об игре, в которой он участвует. Незнание конкретных р и Xj при / > 2 означает отсутствие возмож- ности у первого игрока достаточно точного прогнозирова- ния результирующей величины w1 при том или ином выбо- ре хг. Таким образом, недостаточная информированность первого игрока ставит его перед хаосом будущих значе- ний при данном х19 и этот хаос тем больше, чем меньше информированность. Поэтому только четкая фиксация ожидающейся информации игрока и путей ее увеличения создает правильное представление о трудностях и спосо- бах принятия решений. Мало того, даже само понятие решения (предмета вы- бора) меняется в глазах исследователя с изменением уров- ня информированности. Это связано с динамикой полу- чения информации по мере развертывания процесса игры уже после проведения исследований по принятию ре- шений. То, что неизвестно в момент исследования, может стать известным потом как в результате определенных усилий данного игрока, так и в результате его взаимодей- ствия с другими. Фиксация различного содержания этой будущей информации приводит к тому или иному широ- кому понятию объекта выбора на этапе исследований, обычном называемому стратегией игрока (или игроков).
§ 3] СИТУАЦИИ, СТРАТЕГИИ 33 Под стратегией Z-ro игрока далее понимается правило его поведения, т. е. правило выбора конкретного xt в за- висимости от содержания и конкретного значения инфор- мации, которую он получит. Это общее определение весьма емко, и мы будем постепенно его раскрывать в этой гла- ве, начав со стратегии, традиционной для бескоалицион- ных игр [1], [3], [5], [6]. Поведение первого игрока является, естественно, функцией той информации, которой он может распола- гать, о значениях £ и xt для г > 2. Под обстановкой для первого игрока будем понимать ситуацию без хх. Таким образом, стратегия оперирующей стороны (с точки зре- ния исследователя), обозначаемая через £х, является не- которой функцией Жх = хг (х2, . . ., яп, Р), осуществимой в силу имеющейся и предполагающейся информации о ве- личинах х2, . . хп, р. На вид функции могут накла- дываться некоторые ограничения из-за возможности ее практической реализации, в частности из-за наличия Рф. Учет возможной информации и практической реализуе- мости ограничивает множество или пространство возмож- ных стратегий Х± первого игрока, соответствующее дан- ному уровню информированности о х2, . . хп, р. Приве- дем несколько примеров. Если не ожидается никакой информации, то соответ- ствующее множество X? состоит только из функций-кон- стант *), т. е. из гх = xt. Если не учитывать трудностей практической реализуемости, то при полной информации о величинах я2, . . ., хп, р соответствующее множество Xf состоит из всевозможных функций ос1=х1 (х2, . . ., хп, Р) таких, что хг GE X?. Если будет точно известно х2, но неизвестны xi<t i = 3, 4, . . ., п, и р, то стратегиями явля- ются функции вида хг (х2). Практически любая информа- ция не может быть безошибочной. Поэтому, если обозна- чить вектор ошибки в определении х = (х2, . . Р) че- рез т), то множество стратегий будет состоять из функций ♦) В дальнейшем формально считается, что любые векторы Xi GE X® могут выбираться i-м игроком независимо от действий партнеров. На самом деле это верно лишь для векторов х^ принад- лежащих проекции Рф на пространство изменения х[. Реализация всех таких х\ возможна, например, если i-й игрок первым делает СВОЙ ВЫбор 2 Ю. Б. Гермейер
34 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ (ГЛ. I (х + Л), гДе Л ~ случайный или неопределенный фак- тор, информации о значении которого уже не ожидается. Естественным требованием при исследованиях ко вся- кому множеству стратегий Хг является Х19 (1.29) т. е. в Хг содержатся и все функции-константы. Расшире- ние и уточнение информации об х и р приводит и к рас- ширению множества стратегий и, вообще говоря, к уве- личению эффективности действий оперирующей стороны; последнее является следствием естественного предполо- жения о возможности неиспользования дополнительной информации, если она не приносит пользы. Разумеется, все сказанное о стратегии первого игрока целиком относится и к остальным игрокам. В связи с этим опять возникает проблема субъективного представ- ления первого игрока о стратегиях остальных игроков. Мы будем далее полагать, что все множества Х°, харак- теризующие области заданий функций известны всем игрокам *), в остальном же информация о стратегиях мо- жет быть достаточно разнообразной и должна оговари- ваться так же, как и информация об интересах. Объектив- ная обстановка характеризуется при этом совокупностью заданных множеств Xi9 которые, вообще говоря, должны не противоречить друг другу и порядку ходов, т. е. порядку принятия решений об xt. Так, если первым принимает ре- шение второй игрок, то он не может иметь информацию о конкретных значениях хг или х3, хотя и может знать стратегию хг, если она не сводится к константе! Одновре- менное знание первым игроком х2 и вторым хг может, правда, означать одновременное и совместное принятие ими решений, т. е. фактическое объединение в одного но- вого игрока (коалиция). Если для всех i заданы Xt и выполнены условия, ана- логичные (1.29), то применяемые одновременно стратегии Xi в совокупности с (3 должны определять конкретную си- туацию (х, р) и значения критериев всех игроков. С уче- ♦) Если Рф известно точно всем игрокам, то за X® естественно брать проекцию Рф на пространство изменения a?i. Можно также полагать, что Рф ZD X® X ... X X®.
§ 3] СИТУАЦИИ, СТРАТЕГИИ 35 том обязательности проведения игры ситуация (я, Р) должна всегда быть однозначной. Действительно, если бы какие-то xit, . . xik не определились однозначно, то соответствующие игроки ix, . . ik не приняли бы тем самым участие в игре. Но после указанного выше «замы- кания» игры это невозможно. Множества Хг определяют новую игру с критериями wi = h fo, . . 2n, РО, е Хг. (1.30) В игре (1.30) ситуациями уже является набор стратегий . . ., и р. Осложнением при рассмотрении этой игры является возможная неточность информации игроков о множествах Хь заменяющих теперь X?. Для игры (1.30) опять может быть поставлен вопрос о стратегиях — пра- вилах поведения, которые уже превращаются в абстракт- ные функции (операторы) (#2, . . ., £n, PJ. Априори этот процесс может неограниченно продол- жаться и имеет много общего с психологическими процес- сами отражения, рассматриваемыми Лефевром [12], и с так называемыми метаиграми Ховарда [13]. В теории игр особое место занял частный случай (1.30), называемый игрой с полной информацией, когда вектор Р отсутствует и полное решение каждого игрока разбито на части, соответствующие некоторой последовательности хо- дов всех игроков. При этом частные решения, принятые во время предыдущих ходов, считаются известными иг- року, делающему какой-то ход (т.е. принимающему дан- ное частное решение). Простейшей игрой с полной инфор- мацией является, например, случай, когда первым делает ход п-йдигрок, выбирая хп, затем (п — 1)-й выбирает Хп-г, зная хп, и т. д.гВ этом случае Xt состоит из стратегий вида =>г (хг+ь •»’ хп). 1 Как уже сказано, всякое увеличение информирован- ности игрока расширяет пространство стратегий, и это выгодно ему, поскольку увеличивает ожидаемый им ре- зультат. Однако расширение множества стратегий мо- жет быть достигнуто, конечно, не только за этот счет. Здесь необходимо прежде всего отметить смешанные стратегии, применение которых в традиционной теории игр счита- ется всегда допустимым и теоретически необходимым. Под смешанной стратегией i-ro игрока понимается искусствен- 2*
36 МОДЕЛЬ G НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ 1ГЛ. I но вводимая случайность выбора величины хг в соответ- ствии с некоторым выбираемым законом распределения (0$ в теории обычно смешанной стратегией называет- ся сам закон распределения (#г). Чистая стратегия xt является при этом частным случаем смешанной страте- гии, когда закон распределения разрешает только данное значение хг. Если все игроки применяют те или иные сме- шанные стратегии, то значения всех критериев эффектив- ности становятся, вообще говоря, случайными, и это даже в антагонистических играх весьма осложняет выбор стра- тегий и оценку ожидаемых результатов, поскольку вводится дополнительный хаосДПоэтому наряду с примене- нием смешанных стратегий производится и изменение кри- териев эффективности на математическое ожидание вели- чин т. е. в качестве критериев эффективности берутся § wtd®! (rri)... dan (хп). (1.31) п Предположение о допустимости использования (1.31) и является первым камнем преткновения на пути практи- ческого использования смешанных стратегий, поскольку при малом числе повторений игры вносит неоцениваемый элемент риска, на который в серьезных общественных процессах вряд ли кто пойдет. Во всяком случае для вве- дения гипотезы о возможности использования в исследова- нии функции сох (а^) необходимо специальное разрешение оперирующей стороны. Что касается остальных игроков, то по поводу использования (1.31) нужно или принимать общее решение (а это противоречит стремлению к беско- алиционное™, характерному для теории применения сме- шанных стратегий), или же использование (1.31) г-м иг- роком нужно рассматривать лишь как возможность, учи- тываемую первым игроком и увеличивающую множество АГ1 возможных ац в субъективном представлении (1.27) одновременно с расширением множеств X? до множеств всех смешанных стратегий. Введение (1.31) покоится и еще на одном предположе- нии, обычно молчаливо допускаемом или даже объявляе- мом естественным следствием использования смешанных стратегий, а именно, на предположении о независимости xi между собой; последнее, в частности, подразумевает,
$ 3] СИТУАЦИИ, СТРАТЕГИИ 37 что каждый /-й игрок не имеет никакой информации о кон- кретной (пусть даже случайной) ситуации, т. е. об осталь- ных Xf. Невыполнение этого (отнюдь не обязательно соот- ветствующего реальности) предположения в антагонисти- ческих играх, например, может привести к тому, что применение смешанных стратегий перестанет быть целесооб- разным, если даже замена (1.31) формально одобрена все- ми игроками. Весьма важной является, наконец, возможность рас- ширения множества стратегий за счет использования уже упоминавшихся в § 2 побочных платежей между однотип- ными критериями. Обозначая передаваемую долю от /-го критерия к /-му через ztj, можно преобразовать игру (1.25) к виду Wi-fi — 2 zij + (1-32) 3=1 Здесь коэффициенты показывают ценность для /-го игрока единицы побочного платежа, передаваемого ему /-м игроком; разумеется, кц = 1. Таким образом, выби- раемый /-м игроком вектор z'i = {zil9 . . ., zin} становится частью общей стратегии (правила поведения) /-го игрока. Конкретные условия могут ограничивать и даже за- прещать те или иные побочные платежи, и это мы будем записывать в виде требования GE Z' (х, р), (1.33) где Z' (х, р) — множество побочных платежей, разрешен- ных в ситуации (х, р). В частности, невозможность по- бочного платежа от /-го игрока к /-му формализуется в виде требования z^ = 0. Обозначая вектор {xi9 z^j вновь через xi9 мы, конечно, включаем (1.32) в общую запись (1.25); однако в конкрет- ных задачах целесообразно выделять запись (1.32) из-за относительной простоты исследований (линейность по zl). Важным свойством побочных платежей является также то, что они реально выплачиваются уже после того, как вы- браны Xi и определились pf, т. е. в условиях информиро- ванности о реализовавшихся значениях При исследовании игр с побочными платежами целесообразно выделить класс игр, удовлетворяющих
38 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I условиям — 1, A/j = (1.34) Первое условие содержится во втором из-за = 1. Ис- ходя из экономических аналогий, первое условие можно назвать отсутствием ростовщичества, а второе — отсут- ствием спекуляции. Именно в этих условиях и ведутся пока основные рассмотрения в теории игр с побочными платежами, хотя это и не всегда отвечает реальности. Как мы увидим далее, расширение стратегий с помощью побочных платежей дает весьма удобный инструмент в тео- рии принятия решений. Отметим еще, что при использо- вании побочных платежей возникает, конечно, необходи- мость различать «физические» (неизбежные) и иные огра- ничения. Поэтому здесь явно целесообразнее форма (1.25') по сравнению с (1.25). § 4. О задаче рационального выбора стратегий В простейшем случае полной независимости игроков: Wt = ft (Xi) при Pi = Рф = Xl X . . . X X® (в том числе и при п = 1), понятие рационального выбора ситуации (х1ч . . ., хп), очевидно, полностью описывается стремлением i-ro игрока к оптимизации своего критерия Wt, и отыскание этой ситуации сводится к решению п оптимизационных задач тахД (яг). Столь же просто обстоит дело и в случае совпадающих интересов, Д (х) = = • • • = fn (я), когда разумные игроки должны стре- миться к совместной оптимизации единого критерия эф- фективности, а потому и добровольно обмениваться информацией. Целесообразно использовать термин опти- мальный выбор и в случае седловой точки (если она су- ществует) в антагонистической игре (п = 2, Д = —Д). В остальных случаях даже в предположениях классической теории игр ([4], [5], [11]) з настоящее время не существу- ет единого понятия рационального выбора стратегий оперирующей стороны в игре с непротивоположными интересами. В связи с этим стоит, наверное, исключить из обраще- ния в теории игр термин «оптимальный выбор», хороший
S74] О ЗАДАЧЕ РАЦИОНАЛЬНОГО ВЫБОРА СТРАТЕГИЙ 39 для случая одного игрока и приемлемый в случае анта- гонистических игр двух лиц. Это стоит сделать еще и по- тому, что традиция, связанная с данным термином, дает возможности для необоснованных спекуляций на практи- ке. При этом одни считают (без всяких к тому оснований), что существует какое-то объективное общее понятие оп- тимальности, а другие, наоборот, говорят о почти полной произвольности этого понятия, сводя дело к тем или иным довольно произвольным аксиомам оптимального выбора. Разумеется, второе направление математически безупреч- но, однакЬ вряд ли при этом стоит использовать сам тер- мин «оптимальность». Мы будем пользоваться термином «рациональный выбор» и указывать каждый раз смысл этой рациональности и условия, в которых тот или иной выбор заслуживает термина «оптимальный». Следует подчеркнуть, конечно, важное практическое значение того факта, что современная теория игр, особен- но кооперативных, фактически указала на отсутствие единого и объективного понятия оптимальности, а тем самым и на невозможность полной формализации выбора стратегий в процессах с нетождественными интересами. В настоящее время можно исходить [14] из этой невозмож- ности полной и однозначной формализации и обратить, наконец, основное внимание, с одной стороны, на раз- работку частных случаев игр, где эта формализация воз- можна, а с другой — на разработку способов частичной формализации процесса выбора с целью достижения мак- симально возможного единообразия и взаимопонимания. Переходя теперь к описанию основных тенденций в воп- росе рационального выбора, необходимо прежде всего подчеркнуть, что в играх нет однозначной связи между прогнозированием результатов (исходов) и проблемой при- нятия решений. Действительно, уже говорилось о том хао- се возможных результатов, с которым сталкивается при- нимающий решение; в то же время решение должно быть принято, а оно в конечном итоге должно быть однозначно. Важно обратить внимание и на то, что даже математически и информационно задачи прогнозирования и принятия решения обычно не совпадают. Это обстоятельство также отличает игры п лиц при п 2 от случая п ~ 1, где име- ются естественные и связанные понятия оптимального выбора и оптимального результата.
4:0 модель с несовпадающими интересами tra. i Приведем несколько примеров разделения задач ра- ционального выбора и оценки ожидаемого результата. 1. Пусть + 0,5^2, =: Х^ > о 1, о < < 1- Здесь в силу разделимости обоих платежей никто обычно не сомневается в том, что рациональным выбором игроков является соответственно максимизация хг и х2, причем этот вывод не меняется (не зависит) от того, знает ли пер- вый игрок интересы и стратегии второго или не знает (рав- но как и наоборот). Оценка же ожидаемого результата са- мым серьезным образом зависит от того, что первый игрок знает о втором. Так, если он знает w2, то будет уверенно ожидать результата 1,5 для себя и 2 для партнера; в про- тивном случае он лишь может указать диапазон (1; 1,5) для себя и в худшем случае будет рассчитывать на 1. Так же и в общем случае игр с распадающимися интере- сами, когда Рф=7\ = X . . . X Хп и ~ fi (#i) Ч" (*^1? • • •? • • •» #n)> рациональным выбором (как и в случае назависимости игроков) обычно *) считают оптимизацию max Д (zf). При этом рациональное поведение г-го игрока опять не зависит от поведения остальных и не требует поэтому для своего определения знания i-м игроком не только ин- тересов и выборов остальных, но даже функций <рг-. В то же время для оценки ожидаемого результата игры для f-ro игрока (а тем более для игры в целом) необходимо, очевидно, знание cpf и фиксация степени информирован- ности о поведении и интересах других игроков; более точ- ная информация позволяет и более точно оценить ожидае- мый результат игры при рациональном поведении игроков, особенно если соответствующий выбор не единствен. Уже из этого примера видно, что задача точного про- гнозирования результата игры при рациональных дейст- ♦) Далее, в § 9, мы, однако, убедимся, что это отнюдь не всегда лучший способ действий.
§4] О ЗАДАЧЕ РАЦИОНАЛЬНОГО ВЫБОРА СТРАТЕГИЙ 41 виях требует или высокой самостоятельной информиро- ванности игроков, или же (что проще) обмена информа- цией. 2. Рассмотрим антагонистическую матричную игру 1 О 0»5 0,8 0 0,9 в которой для первого игрока, выбирающего строку, не разрешены смешанные стратегии. Тогда традиционным принципом рационального выбора для первого игрока является принцип максимина, рекомендующий выбор второй строки; эта рекомендация не зависит от того, бу- дет второй игрок применять смешанные стратегии или нет и какова его информированность о действиях первого. Однако ожидаемый результат существенно зависит от этой информации. Так, если второй игрок будет знать правило выбора первого, то ожидаемый для первого результат сов- падет с максимином и будет равен 0,5. Если же первый игрок знает, что второй не использует смешанных страте- гий и придерживается своего максимина, то, очевидно, второй выберет второй столбец и, значит, первый уве- ренно ожидает результата 0,8 вместо 0,5. 3. Рассмотрим произвольную игру двух лиц, в кото- рой йервый игрок (с критерием эффективности / х2)) будет иметь информацию о ходе второго, т. е. об х2. Тог- да естественной рекомендацией по рациональному выбору его действий будет реализация max / (хъ х2) при каждом х2, что дает абсолютно оптимальную стратегию xf (х2); эта рекомендация никак не зависит от информации об интересах второго игрока, его разумности и т. п. и озна- чает необходимость решения задачи параметрической оп- тимизации. Однако ожидаемый результат существенно за- висит от перечисленных факторов. Если, например, ин- тересы второго игрока антагонистичны или неизвестны, то оценка ожидаемого результата потребует вычисления min max / (хг, х2), т. е. решения совершенно иной матема- Xi Xi. тической задачи. Если же интересы антагонистичны и су- ществует седловая точка (х^ х%), то ожидаемый результат
42 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I равен / (xi, х2) и, кроме того, можно рекомендовать совер- шенно другую рациональную стратегию х± = х[, которая не обязана даже совпадать с х[ (х2) в точке х2 — х2, хотя и даст тот же ожидаемый результат. Последний пример отнюдь не является вырожденным. Подобного рода ситуации типичны для игр с постепенно притекающей информацией, где часто во множестве стра- тегий, реализующих наилучший гарантированный результат, существуют стратегии, использующие отклоне- ние поведения противника от наихудшего для оперирую- щей стороны. Читатель без труда далее заметит, что раз- деление вопросов выбора и прогнозирования особенно характерно для коллективных решений. Какие же общие принципы формирования рациональ- ного выбора известны в настоящее время? Прежде чем пе- речислять их, заметим, что все они основаны, конечно, на стремлении уменьшить неопределенность в получае- мых результатах. Первый принцип можно с большой степенью общности свести к рекурренции с помощью введения новых крите- риев эффективности. Именно, путем какой-то замены на новые (разумным образом связанные с ггг) пытаются уменьшить неопределенность в игре, т. е. уменьшить чис- ло игроков или существенных переменных хь а может быть, и свести дело к случаю, в котором уже имеется приемле- мый принцип рационального выбора. При этом наблюда- ются [14] две основные тенденции, которые могут присут- ствовать и совместно. 1) Изоляционизм — замена г-м игроком только своего критерия так, чтобы уменьшить количество переменных X], влияющих на i-й критерий эффективности, и в идеале свести его к критерию типа fi (xf), который уже и будет оптимизироваться независимо от того, что делают осталь- ные игроки. Такой способ действий общепринят при на- личии случайных факторов, когда критерий эффективнос- ти заменяют его математическим ожиданием. Аналогично обстоит дело и при ориентации на худший случай в анта- гонистических играх, когда функция / (х17 х2) фактически заменяется на min / (хг, х2) = / (xf), которая затем опти- ке мизируется. Таков же смысл и суммирования (с весами) Критериев в многокритериальных операциях,
§4] О ЗАДАЧЕ РАЦИОНАЛЬНОГО ВЫПОРА СТРАТЕГИЙ 43 2) Коллективизм, т. е. введение единого общего кри- терия (общей цели) для группы игроков. В этом случае говорят о создании коалиций или компромиссе между иг- роками (критериями эффективности). В качестве широко известных из теории игр примеров можно привести ар- битражную схему Нэша и вектор Шепли [5]. Реально могут одновременно присутствовать обе тен- денции в виде коалиций части игроков или частичной коа- лиции всех, состоящей во введении общих для всех игро- ков ограничений, например, на результаты по прежним критериям. Такой частичной коалицией является, ска- жем, соглашение ограничиться лишь неулучшаемыми зна- чениями векторов {wn . . ., wn} (так называемыми век- торами Парето [6]). Результатом всех таких коллективных действий явля- ется, по существу, преобразование игры к виду, «более удобному» для выработки рационального поведения игро- ков; это преобразование может захватить и сами мно- жества Pt путем, например, объединения ресурсов игроков и т. п. Второй принцип формирования рациональных страте- гий состоит в стремлении к надлежащей взаимной информированности, позволяющей при неизменных крите- риях эффективности формировать рациональные страте- гии типа (х2) в примере 3. В стремлении к информиро- ванности также можно отметить тенденции индивидуа- лизма и коллективизма; здесь коллективизм выражается в добровольном обмене информацией, а индивидуализм — в самостоятельном ее добывании (может быть, вопреки же- ланиям других игроков). Стремление к информированности как основа рацио- нального выбора поведения, разумеется, отнюдь не проти- воречит первому принципу, а дополняет его. Так, напри- мер, коалиция немыслима, по существу, без коллектив- ного обмена информацией, а индивидуально добываемая информация уменьшает объем необходимого свертывания индивидуального критерия отдельного игрока. Третий и очень существенный принцип выработки ра- ционального поведения состоит в стремлении к устойчи- вости, понимание которой варьируется весьма широко. Здесь прежде всего заслуживает специального упомина- ния принцип гарантированного результата, призывающий
44 модель с йесойпадающйми интересами [гл. i оперирующую сторону при недостаточной информи- рованности базироваться на рассмотрении наихудших возможных игровых ситуаций с учетом имеющейся информации о поведении других игроков. Так широко понимаемый принцип гарантированного результата может применяться и при выборе рациональных стратегий, и при оценке ожидаемого результата. Этот принцип содержит, конечно, обычный максимин, используемый в антагонисти- ческих играх и «играх с природой», но отнюдь к нему не сводится, позволяя, как это будет далее показано для игр двух лиц, учитывать информацию о непротивоположнос- ти интересов. Весьма популярным принципом рациональных дейст- вий, обеспечивающих устойчивость, является и принцип равновесия [2], [4], рекомендующий игрокам исполь- зовать так называемые ситуации равновесия, если они существуют. Ситуации равновесия обладают тем свойст- вом, что отклонение от них одного игрока не может при- нести ему пользы. Целый ряд принципов рационального выбора в теории кооперативных игр [5] также основан на стремлении к устойчивости результатов. Наконец, последним приемом выработки рациональ- ных действий является очень часто используемая на прак- тике та или иная фиксация выбора xt при i>2, т. е., по существу, предположение о том, что окончательный вы- бор остальных игроков известен. Этот прием крайне не- осторожен и может привести к плачевным результатам, если, конечно, нет достаточно твердых оснований для та- кой фиксации. Формально он может рассматриваться как частный (и неразумный) случай изоляционистского изме- нения критерия. Следует подчеркнуть, однако, что разумное умень- шение числа принимаемых во внимание значений xt является целесообразным и даже неизбежным этапом. Такой способ именуется обычно методом тестов, а сам выбор учитываемых величин яг,как правило, производит- ся с помощью экспертных процедур. Рассмотрение этих вопросов выходит за рамки книги.
$ 5j Расширейиё понятия стратегий 45 § 5. Обмен информацией и расширение понятия стратегии [8], [15], [16], [17] Понятие стратегии, изложенное в § 3, соответствует аналогичным представлениям теории позиционных много- шаговых игр и поэтому, казалось бы, является достаточно общим и хорошо учитывающим взаимную информирован- ность участников. Однако введенные там пространства стратегий относились к случаю фиксированных информа- ционных возможностей игроков. Между тем существует способ варьирования информированности, не требующий каких-то существенных затрат со стороны игроков,— добровольный обмен информацией. Этот обмен может рас- сматриваться в качестве самостоятельного способа дей- ствий игроков, т. е. составной части стратегии, меняющей сами Информация может касаться как самих значе- ний выбираемых xt, так и правилах выбора в зависимости от обстановки. Обмениваемая информация может содер- жать и сведения о действиях других игроков, в особенно- сти природы, и о самих интересах игроков, т. е. величи- нах Wi и их зависимости от ситуации (х^. . ., хп, Р). Могут, наконец, передаваться сообщения о своих информационных возможностях, например о множествах Xi. Все это игрок (например, первый) может сообщать совершенно добровольно и независимо от действий других игроков. Этот отнюдь не традиционный для теории игр прием дает возможность увеличить информированность (и расширить пространство стратегий) других игроков и тем самым сделать их действия более точно прогнози- руемыми. Уменьшение хаоса может создать и более выгод- ные условия для самого отдающего информацию первого игрока. Приведем несколько простых примеров, когда обмен точной информацией может принести явную пользу. Это особенно ясно в случае совпадающих интересов. Пусть имеется игра двух лиц: wi — wz = 1 — (xi — я2)2, О 1, О < < 1. (!• Абсолютно лучший результат может быть получен при любых хг = х2; его легко добиться первому игроку, если он возьмет любое х± и точно сообщит свое решение второму
46 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ £ГЛ. I игроку. Если же второй не будет знать решения первого, то результат первого может принять любое значение от 1 до 1 — max [ат?; (1 — ^)2]. Приведем теперь пример, когда обмен точной информа- цией может принести пользу и при несовпадающих ин- тересах. Пусть /х = хг/2 (я2, 0) при —1 хг 1, и пусть первый игрок будет знать и х2 и 0, в то время как второй не имеет информации о 0. Пусть, далее, второй игрок при- держивается принципа максимального гарантированного результата. Последнее означает, что, не зная 0, он будет выбирать х2 из реализации max min /2 (х2, 0). Это обеспе- Х2 0 чит первому игроку результат mm|/2(a^, 0)| 0 при соответствующем выборе хг = ±1. Однако, если пер- вый игрок своевременно сообщит значение 0 второму, тот в свою очередь выберет ^2(0)» реализующее max f2(x2, 0). Xi Соответственно и первый игрок, выбирая подходящее к конкретной обстановке хг = ±1, получит |тах/2 (х2, 0) |, х2 что в наихудшем случае гарантирует ему min| max /2 (я?2,0) |. 0 хг Взяв /2 (х2, 0) = х2-$ при ~ 1 х21, 0 = ±1, будем иметь в первом случае (без передачи информации) для обоих игроков результат 0, а во втором 1. Заметим, что априори их интересы отнюдь не совпадают, ибо для второго игрока предпочтительнее /2 = 0, чем /2 = —1, а для первого наоборот. В этом примере вместо природы можно взять третьего игрока с w3 = — /2 (х2, х3), где его выбор х3 играет роль величины 0; указанные выводы останутся без изменения, хотя третий игрок имеет здесь интересы, не противоположные первому. При обсуждении пользы передачи информации нельзя не обращать внимания на сознательный обман, т. е. пере- дачу неправильной (искаженной) информации. Понятно, что наибольшего* эффекта от неправильной информации (блефа) нужно ожидать в случае антагонистических игр, если, конечно, у обманываемого игрока нет самостоятель-
§ 51 РАСШИРЕНИЕ ПОНЯТИЯ СТРАТЕГИИ 47 ных источников информации и он доверяет (неосторожно!) сообщаемой ему информации. Блеф может иметь значение при любой степени информированности первого игрока об х2. Если он полностью информирован о величине х21 то, не блефуя, он может, как всегда, рассчитывать на ре- зультат min max f х2). Сообщая же, что он выбирает некоторое значение х^, он заставляет второго игрока (до- верчивого) реализовать min / я2), взяв точку из соот- Х2 ветствующего множества Е (х[) = {х21 min / («', х2) = f (s', s2)}. Х2 Тогда первый игрок, зная х2, может реализовать max /(^i, х2). Окончательный результат (наилучший, га- Х1 рантированный в силу доверчивости второго) первого, очевидно, равен max min max/^, х2). х* x2GE(xp Если первый игрок не имеет информации о величине х2, то, не применяя блефа, он получит max min / (^1? х2), Xi х2 а с блефом max- min / (xlf х2). Если рассчитывать на не Хр Х1 Xz^EtX}) очень доверчивого второго игрока, то, конечно, нужно брать Xi из множества неподозрительных стратегий. Та- ковым, видимо, является множество стратегий, реализую- щих с некоторой точностью max min / (xr, х2). Xi х2 Легко увидеть на примерах, что блеф может дать зна- чительный выигрыш. Особенно хорошо это видно в зада- че Гросса (пример III § 1) с противоположными интереса- ми. Если в качестве первого игрока (оперирующей сто- роны) взять нападение, то блеф при X? — 1, Pi = Рф (J — 1,2,. . ., к; i = 1,2) дает возможность получить про- сто максимально возможный результат а. Блеф состоит здесь в создании у защиты представления об ударе всеми силами нападения, скажем, на первом пункте, в то время как на самом деле удар будет нанесен в каком-либо дру- гом месте,
48 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I Оценивая общий смысл обмена информацией, нужно отметить, что он должен способствовать уменьшению не- определенности в игре, оставлять более узкие пределы варьирования выбора для разумных игроков — одним словом, делать ситуацию более определенной. В этой связи стоит обратить внимание на то, что в обоих примерах передачи информации (истинной или ложной) передающий знал точно функцию /2, т- е- интересы второго игрока. В то же время, если интересы второго игрока неизвестны и могут быть близки к виду (1.3) (безразличие), то передача первым информации (ложной или истинной) не имеет смысла. Далее, естественно возникает вопрос о возможности проверки игроком истинности предлагаемой ему инфор- мации. Для такой проверки в свою очередь нужна, ко- нечно, информация, но уже добываемая самостоятельно. Это опять будет информация о величинах и об интере- сах игроков. Не имея возможности заниматься этим труд- ным самостоятельным вопросом, ограничимся в основном рассмотрением блефа, который мы назовем корректным. Под этим будем понимать сообщение, не соответствующее истине, но не сопровождающееся обманом в обещаемых результатах игры. Так, в примере (1.35) при объективном совпадении интересов, но незнании вторым игроком инте- ресов первого первый может сообщить (вопреки истине), что он будет знать выбираемые и если я2 #= то его интересы будут состоять в минимизации критерия вто- рого игрока (второй обман). В этих условиях второй игрок (доверяющий сообщению) выберет, конечно, х2 = я?, что при выборе (настоящем) первым хг = х± обеспечит обоим максимум возможного. И это при двойном обмане! Таким образом, в отличие от некорректного, коррект- ный обман не может быть обнаружен по результатам игры, если не ставить специального эксперимента, априори про- тиворечащего непосредственным целям игроков. Поэтому корректный обман может повторяться сколько угодно раз, если повторяется игра. Что касается передаваемой ин- формации без блефа (этому далее уделим основное внима- ние), то мы будем считать ее или точной, или хотя бы не противоречащей щетинному положению вещей. Итак, целесообразно ввести в рассмотрение информацию, передаваемую данным игроком другим игрокам. Какую
§ 5] РАСШИРЕНИЕ ПОНЯТИЯ СТРАТЕГИИ 49 именно информацию следует передавать? Это есть содер- жание дополнительного решения каждого игрока. Но ведь игрок может в свою очередь запрашивать те или иные дан- ные у партнеров. Какую информацию запрашивать — это также часть стратегии игрока. Учитывая сложность изображения стратегий с переда- чей информации, мы в дальнейшем тексте не будем поль- зоваться формальной ее записью, давая необходимые пояс- нения каждый раз отдельно. Однако здесь попытаемя дать представление о возможном виде такой формализации. Ограничимся стратегиями без запросов, которые могут делаться друг другу. Желание дать общую запись величин, подлежащих вы- бору, приводит к необходимости введения, кроме хь еще и вектора уг-7-, описывающего информацию, сообщаемую 1-м игроком /-му. Эта информация может содержать как сведения о величине хг (или о стратегии и критерии Wi = h (#i,. . ., хп, pf), так и сведения об аналогичных переменных для других игроков, которые имеются у j-ro игрока и которые он хотел бы передать /-му. Короче, вектор ytj содержит все сведения (точные, неточные и лож- ные) об игре в целом, которые i-й игрок сообщает /-му. Конечно, о каких-то параметрах игры сообщение может и вообще не передаваться. Если это априори ясно, то со- ответствующие составляющие можно просто опускать. В противном случае отсутствие сообщения целесообразно обозначить каким-либо дополнительным символом для соответствующей составляющей вектора можно, на- пример, воспользоваться обозначением -у, показывающим полную неопределенность передаваемой информации. Пос- ле введения такого обозначения можно считать, что вектор формально содержит все составляющие, достаточные для рассмотрения той или иной конкретной задачи. Итак, в игре (1.25) полный вектор, выбираемый f-м игроком, имеет вид = (*«, Ун, . . Ущ-!, yi,Hi, • • •, Ут)- (1-36) Тогда и общий вид стратегии i-ro игрока следует записать в виде Wi = Wi (^i,. • ., . ., хп, Ухь* • •> Z/i+i,b • • •> УпО’ (1*37)
50 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I В случае необходимости соответствующие множества стра- тегий будем обозначать Векторы уи не входят непосредственно в (1.25) и, сле- довательно, могут определять значения wt только благо- даря тому, что в силу (1.37) значения xt могут от них за- висеть. Если какой-то из игроков не верит сообщаемой ему информации или не учитывает ее, то (1.37) определяет xt только в виде как в § 3.; В качестве примера использования записи игры с век- торами Xi отметим, что в антагонистической игре без об- мена информацией будем иметь у12 = у21 = , т. е. = (^1,-0-) , «52 = (ж2,-у) . тт ~ / 0 \ ~ При этом, конечно, х± = х± (х2, -q-1 и х± состоит, по сущест- /л 0 \ ву, из ^1, 1. Указанный выше, на стр. 47, блеф можно представить в виде хг — (#!, х[),х2 = (хъ, . При этом Xi = (X! (х2), х[), Х2 = (х2 (xj. Здесь, как видно, х2 отнюдь не превращается в #2. После введения (1.36) и (1.37) игра с добровольной передачей информации по-прежнему имеет вид, данный.в § 2, но уже в новых «переменных». § 6. Формализованное описание компромиссов и коалиций Интуиция и практика говорят о разумности коллек- тивных решений. Можно различать три ступени коллек- тивных действий т (т^п) игроков (будем считать, что в коалицию входят первые т игроков): а) обмен информацией об игре и обстановке; б) совместный выбор вектора хс = (ггх,. . ., хт) на ос- нове совместной» информации; в) объединение ресурсов и последующий выбор совмест- ного способа действий, исходя из объединенных ресурсов.
§ 6] ОПЙСАЙИЁ КОМПРОМИССОВ И ЙОАЛЙЦЙЙ М Ясно, что каждая последующая ступень создает боль- шие возможности координации действий. Те возможности создания правил поведения, которые обеспечиваются толь- ко обменом информацией, уже обсуждались в предыдущем параграфе. Возможности же объединения в рамках вто- рой или третьей ступени и есть, собственно, коллективные правила поведения, коллективные стратегии. Объедине- ния, вырабатывающие такие стратегии, по традиции бу- дем называть коалициями. Весьма распространенным видом коллективных стра- тегий следует считать совместные смешанные стратегии — законы распределения <ос (яс), зависящие, вообще говоря, от выборов Xj игроков, не вошедших в коалицию, и при- родных неопределенностей р (в силу той информации, ко- торой располагает о них коалиция). Таким образом, здесь можно ввести 5С так же, как ранее определялась Использование смешанных стратегий связано и с вве- дением, аналогично (1.31), осредненных критериев коа- лиции: (*c), Z = 1, . . . , 7П. Что касается критериев игроков, не входящих в коалицию, то их осреднение может обсуждаться лишь в качестве од- ного из возможных вариантов. Отметим, что чистые стра- тегии коалиции имеют вид хс (xmiL , . . ., хп, 0) = хс. Множество допустимых стратегий коалиции будем обоз- начать через Хс; все эти обозначения могут сопровождать- ся номером I коалиций, например Xci. При обсуждении коалиционных возможностей нельзя забыть о побочных платежах как между членами коалиции, так и между коалиционерами и остальными игроками. Хо- тя побочные платежи можно считать уже включенными в хс, в дальнейшем, учитывая их важность, будем, как правило, их выписывать отдельно. Поэтому наряду с хс мы будем рассматривать и вектор zc = {zcl,. • •, Zcm}, представляющий собой побочные платежи коалиции как целого. Упростим теперь запись (1.32). Для этого введем при i т т п п ® == j=l 7=1 i=m+l
S2 моДелЬ с ДесоЬпаДаюЩими ийтёрёсАмй [гл. I а при i т п п ;=m4-l j=i т ~ .S ^jiZji* 3=1 Тогда имеем вместо (1.32) wt = fi (#, 0) + %i + Щ, г = 1,. . ., т, (1.38) Wi = ft Р) + ti + Ъ, г = zn + 1,. . п, где коалиция выбирает zt и щ, a vt и tt определяются дей- ствиями остальных игроков. Если коалиция обменивается побочными платежами только между своими членами, то Wt = fi 0) + Zi, i = 1,. . т, Wi = ft (я, 0) + ti, t = m + 1,. . n, где теперь m m n n Zi = 2 hjiZji Ztj И 7=1 7=1 j=wifl j=m+l Однако запись (1.38) оставляет открытым вопрос об ограничениях на щ и г^, поскольку они, вообще го- воря, не являются исходными переменными. Во многих случаях их приближенно считают исходными величинами с непосредственно данными ограничениями. Необходимо, однако, не забывать об известной связанности их между собой. Эта связь хорошо прослеживается при выполнении п условий (1.34). Вводя здесь %, = 3 убеждаемся, что j=i т п 2 (zi + ui) + 3 (ti + = 0. (1.39) i=l i=m-|-i В традиционных исследованиях по теории игр и упот- ребляется «коалиционная» запись эффекта побочных пла- тежей (1.38) при.непременном условии (1.39), выражающем как бы «закон сохранения» платежей. Такая трактовка особенно хорошо оправдана, если все исходные заменить на kiWi = Wt (что, конечно, не изменит задачи принятия
$ 61 ОПЙСАЙИЁ ЙОМПЁОМЙССОЁ Й КОАЛИЦИЙ 53 решений). Тогда, очевидно, приходим к случаю “’i («, ₽) + Z{ + йь i = l,.. т, (1.40) ™t = ft fa, P) + It + vt, i = m + 1,. . n, причем должно быть m n 2 (я* + S<) + 2 (^i + *4) = 0* (1.41) 1=1 i=m-|-l Вектор {й^,. . ., wn} часто называют вектором дележей. Он, очевидно, удовлетворяет условию «сохранения» 3 Д(х,₽), (1.42) 1=1 1=1 как раз и послужившему причиной его названия. Хоте- лось бы, однако, заметить, что условие сохранения (1.42) справедливо при выполнении (1.34). В течение длительного времени исследования теории игр по рациональному выбору венграх п лиц были сосредо- точены на случае, когда побочные платежи между игро- ками ограничены только (1.41) или, что то же, (1.42). В дальнейшем такой случай будем называть случаем не- ограниченных побочных платежей. Если коалиция не обменивается платежами с другими игроками, то, есте- т т ственно, 2^1= 3 71(^, Р)« Основные традиционные ис- 1=1 i=i следования проводились при фиксированных и извест- ных (х. Р), при этом формулировались способы поиска рациональных дележей (й\,. . ., ып) при фиксированной их сумме. Возможности каждой отдельной коалиции вы- ражались при помощи так называемой характеристичес- кой функции, определяемой обычно как максимальное 7П гарантированное математическое ожидаение от 71 (*> Р) i=i на множестве смешанных стратегий коалиции [1]. В даль- нейшем будут кратко охарактеризованы соответствующие постановки вопроса и результаты. Пока же отметим толь- ко существенную неоднозначность этих результатов и в то же время недостаточную общность из-за фиксации х и р
54 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. 1 и ограниченности описания игры с помощью характери- стической функции. Поскольку традиционные исследования не привели к обозримым и однозначным рекомендациям, будем, как уже говорилось, исходить из невозможности полной фор- мализации проблемы рационального выбора, в том числе и выбора коалиций. Представляется, что сейчас необхо- димо изучение игр сравнительно частного вида, но иссле- дование процессов рационального выбора в них должно быть по возможности исчерпывающим. Кроме того, необ- ходим анализ вопроса о выгоде вступления в объединения разного вида с учетом возможного изменения взаимной информированности игроков. Этот анализ, может быть, позволит уменьшить количество рассматриваемых коали- ций и тем самым сделает задачу рационального выбора более обозримой. Для всех этих целей желательно создать достаточно гибкое формализованное описание поведения коалиции, похожее на реальность и все же сравнительно простое. Представляется, что одним из способов такой формали- зации является введение общей цели коалиции, отражаю- щей какой-то компромисс между соответствующими ха- рактеристиками игроков. Тем самым коалиция превра- щается как бы в одного игрока. Этот прием (обратный по смыслу приему введения фиктивных игроков) может спо- собствовать упрощению вида игры, во всяком случае, если коалиции фиксированы. Разумеется, критерий эффективности коалиции может быть любым. Однако если исходить из этого, то трудно бу- дет ввести исследование коллективных действий в какие- либо обозримые рамки. Желательно разумно ограничить вид компромиссного критерия, исходя из здравого смысла и возможностей математического исследования. При этом, конечно, должно оставаться достаточно простора для не- формального выбора характеристик компромиссного кри- терия. Не останавливаясь подробно на том вопросе, огра- ничимся только ссылками на [49], [6], [11]. Что касается ограничений Pf, то разумно объединять их по формуле Рс= П Л, (1-43) т. е. считать, что коалиция удовлетворена только тогда,
§ 6] ОПИСАНИЕ КОМПРОМИССОВ И КОАЛИЦИЙ 55 когда все они выполнены. Отметим, что если множества Pt задаются в виде q)f (х, р) 0, то Рс (1.43) можно пред- ставить следующим условием: min ргф; (х, Р) > О, (1.44) где pf — произвольные положительные числа. Представляется разумным и поведение коалиции оха- рактеризовать стремлением к увеличению коалиционного критерия эффективности, получаемого с помощью следую- щей операции свертки: wc= min [Pi(w>i — W»)]. (1.45) 1<г<тп Здесь wt задаются исходными формулами (1.38), aw? — нижняя грань результата, на который еще может согла- ситься игрок, не выходя из коалиции, pf — весовые коэф- фициенты. Векторы р = (рх, . . ., pm), wQ = (wj, . . . . . ., zPm) — элементы формализации принципа компро- мисса между интересами отдельных игроков; именно эти характеристики и подлежат неформальному выбору уча- стниками коалиции. Коалиция действует как один игрок со стратегиями, зависящими от совокупной информирован- ности игроков коалиции. Форма записи (1.45), несомненно, может считаться гиб- ким выражением идеи компромисса, поскольку при ргО положительное значение wc может быть достигнуто только при wi > wl для всех i, а увеличение wc при подходящих Pi будет означать и увеличение иц. Стоит также отметить, что при Pi 0, известных р и Xj, j > т, максимизация критерия (1.45), очевидно, обеспечивает получение век- тора результатов иц (1 i тп), который невозможно улучшить сразу по всем компонентам; во многих случаях его невозможно улучшить ни для одного г, не уменьшая остальных. Далее будут приведены и другие свидетельст- ва гибкости предлагаемой унификации, а сейчас изложим только несколько примеров использования формулы (1.45) и ее связи с другими представлениями о коалиционных критериях. 1) Если в (1.38) ограничиться только векторами = О и ut =0, то с помощью (1.45) мы получим коалиции без побочных платежей, или компромисс между критериями
56 МОДЕЛЬ G НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I в задаче VIII § 1. Последний вид коалиции особенно есте- ствен, так как объединяются фиктивные игроки; коалиция сводится к компромиссу между критериями. В рассмат- риваемых случаях весовые коэффициенты рг можно при- нять в виде ———- ,где(г^1, . . w™) — вектор, который хотела бы получить коалиция для своих членов. Если при определении достижимого wc получится значение, не меньшее 1, то желание коалиции будет выполнено. В противном случае она, увеличивая по возможности wc, может рассчитывать на довольно «равномерное» прибли- жение к желаемому результату. Если же окажется wc < 0, то коалиция существовать не будет. В таком истол- ковании торг при образовании коалиции сводится к выбору (г^1, . . ., Wm)- 2) Положим в (1.40) — (1.41) йг- = ti = vt = 0 и возьмем Zi удовлетворяющим только (1.41). Пусть также 0 и Xj при / т фиксированы или известны в момент пе- редачи платежа Тогда коалиция может оптимизировать критерий (1.45) по Zf. Легко убедиться, что оптимум будет достигаться при необходимом условии Pi If i (®. Р) + Zi — W?] = Pi [fi (х, Р) + ZX — = С, (1.46) I — 2,. . ., т. Отсюда и в силу (1.42)? т т т с 3 — = 3 7г (я, Р) — 3 wi, г=1 Hj i=i i=1 и, наконец, й?г = 7г(^, Р) +2г = т гп = Wi~\------т---| 3 7? (М) ~ .3 1 = 1,...,П. Yl 1 ^7—1 7—1 р« .3 к 7=1 Н7 Отсюда следует, что вектор р определяет принцип дележа 7П между игроками общего выигрыша коалиции У 7г(*, Р),
§ б! ОПЙСАЙИЁ КОМПРОМИССОВ Й ЙОАЛЙЦЙЙ 57 а деятельность коалиции как единого целого сводится т к стремлению увеличить У /^(rr, 0)и выбору затем zi так, чтобы обеспечить (1.46). Имеем, следовательно, пол- ное смысловое совпадение с коалицией фон Неймана [1], [5], дополненное очевидной возможностью формирования игры коалиции с остальными игроками с учетом той или иной информированности о них и о 0. Варьируя вид множества допустимых побочных платежей, можно, очевидно, получать формы коалиционных критериев типа г+Дг min У Д (х, 0) и т. п. Видно также, что часто исполь- т г=г т зуемая форма объединения критериев 2 Д (я, 0) предпола- i—1 гает однотипность критериев коалиционеров, т. е. широ- кую возможность пользования побочными платежами. 3) В тех случаях, когда игроки не приходят к согласию в выборе pf, они могут обратиться к арбитру, который, конечно, предполагается объективным, т. е. одинаково расположенным ко всем игрокам. Математическая теория арбитража была предложена в работе Нэша (см. [5]). Ис- ходя из ряда аксиом арбитража, он пришел к форме т = П (1-47) i=1 но одна из его аксиом слишком жестко связывает между собой арбитражные решения для различных случаев зада- ния Эта аксиома критикуется в ряде работ (см., на- пример, [49]). В работе [48] в связи этим показано, что за- мена указанной аксиомы на несколько иную, требующую лишь симметричности арбитражного решения при одина- ковом интервале достижимых для игроков результатов, приводит для т = 2 к арбитражному решению о критерии wc вида (1.45), гдегр1! = max wi i Z, j =1,2 при условии > w®, / Z. Существенно и то, что такой вид арбит- ража часто дает одинаковые результаты с арбитражем (1.40) Нэша; так обстоит, например, дело в играх с не- ограниченными побочными платежами. О бсуждение формализации коллективных действий не будет достаточно полным, если не отразить возможность
58 МОДЕЛЬ С НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ [ГЛ. I частичного объединения игроков. Таковым, несомненно, следует считать добровольное принятие на себя совмест- ных обязательств, т. е. совместных ограничений Рс. При этом ограничения удобно записывать в виде ф (xlf. . жт) > 0. В ряде случаев можно считать, что это будут ограничения на получаемые значения т. е. ф (wx>. . wm) 0. Все такого рода частичные соглашения могут описываться с помощью введения дополнительных критериев эффек- тивности: Г 1 при'ф(гг1,. j ( —оо при (г^!, •, > 0, • •, wm)<_ 0. Тогда частичная коалиция может трактоваться лексико- графически, т. е. как договоренность стремиться прежде всего к достижению максимума ггд, а уж только затем за- ниматься «своими делами» (критериями г^). Такая частич- ная коалиция есть аналог введения множества Рс, но при этом Рс зависит от информированности объединения и поведения других игроков. Теперь мы в состоянии сделать определенный шаг в рассмотрении модели IX § 1. Действительно, согласно обсужденным только что рекомендациям следует для каж- дого игрока устроить компромисс между компонентами wQ и Wi (1.22) по формуле (1.45). Положив для простоты wl = 0, получим для каждого игрока (i = 1, . . ., п) Wi = min [f (^1?. . ., хп), $i {at — х^]. (1.48) Здесь коэффициент при f (xr,. . ., xn) для удобства при- нят равным 1 для всех игроков. Интересующая нас игра с векторными критериями свелась, таким образом, к игре (1.48) со скалярными критериями, в которой, однако, каж- дый игрок произвольно выбирает свое 0. Как уже говорилось, более высокой ступенью объеди- нения игроков является коалиция с объединением ресур- сов (полное объединение). Естественно, что для этого вида коалиции объединение интересов опять может даваться формулой (1.45). Таким образом, специфика состоит здесь
ОПИСАНИЕ КОМПРОМИССОВ И КОАЛИЦИЙ 59 § 6] только в изменении множества допустимых хс но сравне- нию с Рс, определяемым (1.43). Запись факта объединения ресурсов зависит, конечно, от смысла, вкладываемого в xt. Если это и есть сам вектор ресурса f-го игрока, то, допол- нив в случае необходимости его нулями до полного век- тора, учитывающего всевозможные составляющие ресурсов наших т игроков, можно общий ресурс полного объеди- т нения выразить в виде У» хг = Хс. При этом, если пере- г=1 распределение Хс между игроками ничем не ограничено, то каждый игрок может рассчитывать на использование векторов x'v так, что 771 = (1.49) 1=1 лишь бы соответствующий вектор хс = (х1,. . ., хт) до- пускался ограничением Рс, данным (1.43). Множество до- пустимых х'т, xm+V). . ., хп) вместе с соот- ветствующими р составит полное множество допустимых действий коалиции ?с — {^1, • . Хт+1). . ., Хп, Р) | (#!, . . ., Хп, Р) £= PJ. (1.50) Очевидно, конечно, что Р' о Рс, и это включение обеспе- чивает более гибкие возможности полного объединения по сравнению с раздельным использованием ресурсов. Есте- ственным обобщением сказанного может явиться частич- ное объединение ресурсов. В заключение этого параграфа приведем простой при- мер, показывающий явную выгоду коллективных решений даже в довольно неожиданных случаях. Рассмотрим игру с противоположными (см. (1.1)), но не антагонистически- ми интересами: = 4 (^ х2), w2 — х2 — х^, 0 1? 0<>2<1. (1.51) Эта игра имеет точку равновесия, которая реализуется при ^ = #2 = 1, и дает обоим игрокам по w? = w2 = 0. Пусть теперь в этой игре допустимы побочные платежи,
60 МОДЕЛЬ G НЕСОВПАДАЮЩИМИ ИНТЕРЕСАМИ |ГЛ. I удовлетворяющие (1.41). Тогда она может быть записана в виде = 4 (хх — х2) ~ z, w2 = х2 — + z; (1.52) z > 0 означает здесь побочный платеж первого игрока второму, a z < 0 — наоборот. Если игроки будут исходить из осторожного индиви- дуального решения (изоляционизм), то они придут к слу- чаю z = 0 (каждый не рассчитывает, естественно, что ему заплатят, а самому платить вроде бы невыгодно), т. е. к игре (1.51) с уже указанным решением и результа- тами. Однако, если они при w? = 0 и pf = 1,1 = 1,2, создадут коалицию (1.45), то их общее рациональное решение будет означать оптимизацию (см. (1.46)) Д + /2 = 3 (хг — х2) при условии 4 (я?! — х2) — z = х2 — х± + z, определяю- щем z. Тогда рациональным решением окажется xt = 1, х2 = 0, z = 2,5, что обеспечит обоим результатам w1 = = w2 = 1,5 вместо нуля при индивидуальных действиях! Объединение ресурсов (если оно возможно) дает об- ласть хг > 0, гг2 > 0, хг + х2 2. Находя опять рацио- нальное коалиционное решение, получим х± = 2, х2 = 0, z® = 5, что обеспечит обоим уже по = w2 = 3. Разу- меется, конкретные результаты игроков сильно меняются при изменении pf, что и отражает влияние конкретизации компромисса.
ГЛАВА II НЕКОТОРЫЕ ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ § 7. Оптимизация и осреднение Как уже говорилось, оптимизация есть естественный принцип рационального выбора, если в игре (включаю- щей и природу в число игроков) присутствует всего один игрок или если интересы игроков совпадают. Аналогично обстоит дело и в случае, если все игроки (кроме природы) объединились в одну коалицию, а природные факторы в критерии фиксированы и известны этой коалиции в ре- зультате соответствующего обмена информацией о Р$. В этих условиях (см. (1.45) и (1.38)) рациональное поведе- ние коалиции можно охарактеризовать как стремление к реализации max min {р| [/; (х, ft) — и$ + (2.1) xgp„ 1«<п zgZ Здесь Рс определяется или по (1.49) (если ресурсы объеди- нены), или же по (1.43). Множество Z описывает ограниче- ния на побочные платежи z = (z1?. . ., zn). Если других ограничений на z, кроме (1.39), нет и = 1, то, как уже отмечалось, оптимальные z опреде- ляются из условия (1.46), а оптимальные х — из условия max 3 fi (х, р{). (2.1') хеРс 1=1 Относительно #= 1 см. стр. 52. В общем случае задача (2.1) может быть приведена (ес- ли это полезно) к отысканию максимума с ограничениями [6]. Для этого достаточно ввести дополнительную пере- менную и так, чтобы Pi Ifi (®, Pi) — W? 4- 2tl — и > 0, i = 1,. . ., и. (2.2)
62 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II Тогда (2.1) оказывается, очевидно, эквивалентом задачи max и z^Z^u при дополнительных ограничениях (2.2) и х ее Рс. Если теперь Z определяется линейными ограничения- ми, то эта задача для фиксированных х и при ограниче- ниях (2.2) оказывается просто задачей линейного програм- мирования. Отметим еще, что обычно в определение Z включаются и условия ft(x, р;) - гр? + гг > О, г = 1,. . п, (2.3) которые являются условиями существования коалиции. Из (1.41) и (2.3) с необходимостью следует (2-4) г=1 г-1 Однако очевидно и обратное: если выполнены (2.4) и (1.41) и больше априори нет ограничений на побочные платежи, то при 2/, вычисляемых по (1.46), необходимо выполне- но (2.3). Предположение о точном знании рг, заложенное в (2.1) и последующие построения, не всегда достаточно точно отражает реальность. Значительно более реалистично пред- положение о случайном характере р с известным законом распределения ф (Р). При этом для отыскания рациональ- ного поведения критерии эффективности заменяются их математическим ожиданием, т. е. используется осреднение критерия. Если побочных платежей нет (zi = 0, i — 1,. . . . . ., п), то отыскание рациональных стратегий сводится к оптимизации по х математического ожидания min {Р;[А(я, РО—w?]W(P)- Однако здесь необходимо учесть еще и следующее: условия (2.3) или zt = 0 остаются по-прежнему условиями суще- ствования коалиции, и поэтому рассмотрение для коали- ции тех р. для которых нарушено хоть одно из условий (2.3), лишено смысла. Если ввести множество Я. = {rr| Р [fi (х, pf) > i = 1,. . ., п] > 1 — е},
ОПТИМИЗАЦИЯ Й ОСРЕДЙЕЙПЁ 63 i 7] где Р можно назвать вероятностью «жизнеспособности» коалиции, то задача определения рациональной страте- гии коалиции (без побочных платежей) представляется в виде стремления к реализации sup ^max{0; min р* [/Дя, fo) — (р). (2.5) Х(=РСГ) н£ d Ki >n Здесь интегрирование ограничено, по существу, областью выполнения (2.3) при zt = 0. Если речь идет о коалиции с побочными платежами, то следует различать два случая их практической реали- зации. 1. Платежи фиксируются заранее, т. е. тогда, когда конкретная реализации 0 еще неизвестна. В этих усло- виях выбор рациональных z ничем, по существу, не отли- чается от выбора рациональных х и осуществляется сов- местно с последним. Тогда вместо множества Rz нужно рас- сматривать точки (х, z), для которых Р [ft (х, Pi) + Zi > wl i = 1,. . n] > 1 — e. Вместо (2.5) будем иметь при этом sup \max{0; min p; [fi (x, 0{) — Wi + zt]} dty (0). (x,z)e(PcxZ)QRs 2. Побочные платежи производятся уже после реали- зации 0 и с учетом его конкретного значения. Тогда оче- видно, что рациональные zt становятся функциями р (в полном соответствии с общим пониманием стратегии), реализующими max min {рЛ/{(ж, ~ *4 +г»]} == Ф(а?, 0), (2.6) ZGZQZ'(x,3) 1<Сг^п где Z' (х, Р) — множество векторов z, удовлетворяющих (2.3). Как и ранее, если Z описывается линейными неравен- ствами (Z' (х, Р) заведомо таково), то (2.6) есть задача линейного программирования. Что касается рациональ- ных х, то здесь прежде всего нужно ввести множество точек X = {х ] Р [Z' (х, Р) П Z / 0] > 1 - е}
64 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. И и затем уж стремиться к реализации sup max [0, Ф(х, Р)] di|?(P). хеРсП R't (2.1) Задача (2.6) — (2.7) представляет собой частный случай двухэтапных задач стохастической оптимизации. Если описание Z исчерпывается (1.41) и (2.3), поиск рациональ- ных Zi осуществляется согласно (1.46), условия (2.3) автоматически следуют из (2.4) и множество Rz записью вается в виде R', = {ж | Р [ 3 fi (X, Pi) > ij > 1 — е} . i=l 1=1 Рациональные я находятся из решения задачи sup хенсП Rs (2.8) п п Наконец, если Д (х, р^) > Л wf при х е Рс = Рс П X 1=1 1=1 для всех рь то (2.8) обращается в Пример (2.6) — (2.7) вновь демонстрирует различие задач рационального выбора поведения и оценки ожидае- мого результата. Если, скажем, Рс состоит только из одной точки, то рациональное поведение определяется вектором z (х, р), реализующим (2.6). Для этого не нужно знать ip (Р). В то же время для оценки ожидаемого результата по (2.7), а также суждения о жизнеспособности коалиции необходимо знать ip (р). Из сказанного ясно видна область применимости опти- мизации и осреднения для выработки рациональных стра- тегий — коалиция всех игроков, кроме природы, и слу- чайность выбороц последней с известным законом распре- деления. Однако очень часто использование этого приема выходит далеко за указанные рамки.
МАКСИМИН 65 § 8] Например, иногда проводится оптимизация при фик- сированных (3 (параметрическая оптимизация) без на- дежд на получение достаточно точной информации о зна- чении р. Столь же часто природе приписывается некий за- кон распределения ф (Р) при отсутствии информации о нем. Еще более удивительно, когда случайностью (с фиксирован- ным законом распределения) пытаются априори описать поведение всех игроков, не входящих в рассматриваемую коалицию, пренебрегая их интересами и возможным взаи- модействием. Во всех этих случаях рассматриваемый прин- цип рациональности следует считать некорректным. Более корректно выглядит использование осреднения для предварительной модификации исходной игры с по- следующим ее исследованием. В этом случае информация о законе ф (§) используется для замены критериев всех игроков на = У Л (г, ₽/) <Ш0)- (2.9) После такого осреднения из рассмотрения исключается игрок — природа, и это может упростить игру. Однако использование (2.9) подразумевает, что все игроки готовы заменить исходный критерий эффективности на его мате- матическое ожидание. Для оперирующей стороны (пер- вого игрока) это предположение естественно, поскольку является лишь реализацией ее свободы выбора критерия. Почему же и остальные игроки будут обязательно к этому склонны? Если же и склонны, то всегда ли есть информа- ция об этом у оперирующей стороны? Ну, а если инфор- мации нет, то и принятие (2.9) становится лишь частным видом возможных критериев в случае неполной информа- ции об интересах других игроков. В заключение отметим, что анализ и обзор основных численных методов локальной оптимизации дан в [26]. Следует также обратить внимание и на ряд методов глобаль- ной оптимизации, см., например, [27], [28], [29], [30], [50]. § 8. Максимин Если использование осреднения всегда связано с из- вестным риском (особенно в случае малого числа повторе- ний игры), то максимин, наоборот, есть проявление осто- рожности в оценке возможных ситуаций и интересов 3 Ю. Б. Гермейер
66 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II игроков (в том числе и природы), не входящих в какую- либо коалицию с оперирующей стороной. В частности, слу- чайные природные факторы с заданной доверительной ве- роятностью могут быть приравнены к неопределенным факторам, изменяющимся внутри некоторых доверитель- ных границ. Формально принцип максимина состоит в минимизации критерия (1.26) оперирующей стороны по рх и х2,. • лп при известных Вх и и последующей максимизации по- лученного выражения по стратегиям^, т. е. в реализации Lx [Хх] = max min min /х(£х, х2, . . хп, 0Х), (2.10) xiGXt xtex? ₽ieBi г>2* где есть множество стратегий, соответствующих ожи- даемой информации о xt и рх. Напомним, что мы полагаем Хг X? и что игра замкнута, т. е. в XJ входят и выборы, отражающие сознательный отказ от проведения исход- ной незамкнутой игры. Максимин является частным случаем изоляционист- ских действий. При этом опять формально предполагает- ся, что первый игрок может независимо выбирать любое хх из X?. На самом деле такая возможность имеется разве лишь при использовании точек, принадлежащих соответ- ствующей проекции Рф. Реализация таких х± возможна всегда, если первый игрок первым же и выбирает конкрет- ное значение хх. Реализация более сложных гх возможна, конечно, и в иных случаях. Даже для реализуемых £х максимин (2.10) не всегда правильно оценивает максимальный гарантированный ре- зультат, поскольку в (2.10) не учитывается физическая невозможность выхода х за пределы множества Рф. Тем самым этот результат, вообще говоря, занижается, если о Рф имеется достаточно точная информация. Такого недо- статка лишены более общие рассмотрения § 10. Заниже- ния заведомо не происходит, если Рф Xj X ... X Хп (что может быть плодом частичных коллективных действий, означающих отсутствие чистого изоляционизма). Если предполагать уже выполненным сформулирован- ное условие, то разумным основанием для использования (2.10) является достаточная широта множеств Afx в субъ-
§ 8] МАКСИМИН 67 ективном описании (1.27), свидетельствующая о весьма не- точном знании (или даже незнании) интересов других игро- ков (в том числе и множеств Pf). Кроме того, показанием к применению (2.10) является близость критериев других игроков к случаю «бесцелевой природы», описываемому формулой (1.3) § 1. Наконец, принцип максимина дает дей- ствительно оптимальные результаты при фиксированном Pi для случая независимости интересов, указанного в § 1 и § 4, а также, конечно, и для случая обычных антагони- стических игр. С другой стороны, ясна и бессмысленность такого спо- соба действий, если величина (2.10) мало отличается от min min w14 что может особенно часто наблюдаться при невыгодных Рь как, например, в модели II § 1. Отметим, что L± = — оо означает невозможность гарантированного попадания в Рг. В силу самого определения стратегии, выбранные в со- ответствии с (2.10), не зависят от интересов (и ограничений) других игроков (устойчивы по отношению к ним), равно как и сам наилучший гарантированный результат Lr [XJ. В то же время этот результат гибко изменяется в зависи- мости от информации, заложенной в ХР Так, при Хг = = Xj (2.10) превращается в обычный максимин Li= max min min /1(^1, x2, . . ., xn, px), (2.11) 3t<=Bt i^>2 а при Xx = Xf и при отсутствии информации о рх — в минимаксимин Li = min max min /1(^1, x2, . . ., xn, px). (2.1Г) XjGXj PiGE Bi Если же ожидается полная информация и о рх, то получим минимакс Li = min min max x2, . . ., xn, pi). (2.1Г) Еще один характерный пример дает случай, когда *1 = (ж}, xi, . . Х1), 3*
68 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II так что при выборе известны xj I + 1, а при вы- боре х* — еще и тогда имеем Li = min max min max • • • X2CA2 Xj. Хз^ЕХд Xj • • • min тахД(4 . . ., x™, x2, . . ., #n, Pi). (2.12) PieBi n X1 При этом рациональная стратегия имеет вид {#1 (^2)»’ • fer • •> ^п)> (^2>* • •> Р1)} • Аналогично записи (2.10) определяются и для осталь- ных игроков максиминные стратегии и результаты Важным свойством совокупности величин Lt [XJ являет- ся то, что эти результаты игроки могут обеспечить себе сами, невзирая на действия и интересы других игроков. Следовательно, невозможно существование коалиций, не обеспечивающих каждому своему участнику результата не менее L/, а практически, конечно, большего, чем Li, если каждый игрок знает эту величину. Поэтому опреде- ление Li [XJ является необходимым этапом любых дей- ствий по созданию коалиций. В частности, в рассмотре- ниях § 7 можно полагать w? > Lt [XJ. Не менее важно и определение множества - {xi\w^Li [XJ, Xj X°j, 7=1,..., п, j ф i, Pi S Bl} стратегий $i, которые реализуют соответствующие мак- симины, поскольку это множество описывает неопределен- ность действий i-го игрока, если он не может получить бо- лее Li с этой неопределенностью необходимо должны считаться остальные. В формуле (2.10) в общем случае все максимумы и мини- мумы должны быть, конечно, заменены на sup и inf со- ответственно и рекомендации по выбору рациональных стратегий зависят от некоторой заданной величины так, что рациональны х*, для которых inf inf /1 (^1, х2, . . ., хп, Pi) >Li [XJ — вр (2.13) XyGE-Xj piGBi j>2
МАКСИМИН 69 § 8] Это обстоятельство в связи с неопределенностью для разных игроков, а значит, и неопределенностью соответ- ствующих множеств Et [Хг, е,] = {£г| Lt [Хг] — ег, Xj е X?, / = 1,. . п, J ф i, Pi е Bi}} может еще более затруднить исследования, если игрокам не обеспечивается результат, больший Lt [XJ. Проблеме практического определения максиминов (в основном для Xt = X?) посвящено уже много работ, сре- ди которых отметим, например, [18], [19], [20], [21], [22], [59]. Основательно продвинут вопрос о необходимых ус- ловиях [66]. Покажем теперь, что задача (2.10) или (2.13) может быть сведена к обычной оптимизационной задаче с ограни- чениями. Для этого целесообразно предположить замкну- тость множества Pr X Вг и непрерывность Д на Pr X Вх в выражении (1.26), а также непрерывность стратегии = xt (х2,. . ., rrn, рх) (или хотя бы их кусочную непре- рывность внутри области X? х . . . X Хп X Вх и непре- рывность на границе). Даже без предположений о непре- рывности, введя дополнительную переменную и, выра- жение (2.10) можно записать в виде max и при условии и, Х1 U Д (#1, #2,- • хп-> Р1Д которое должно выполняться для каждого данного хх при всех х2 GE Х2, . . ., хп GE X® и всех рх 6= Вх. В условиях, наложенных на Д и Д, можем заменить при и — оо тождественное по (х2,. • хп, Pi) неравен- ство единственным условием на и и: Ф(#1, и) = 5 [min(/i — и, Q)]2da2(x2)... PiG=Bi ХгСХ2 ...Хп^Х^ . . •dan(xn)da^1) = 0, (2.14) где ог- (г = 2,. . ., п) и о — меры, обладающие тем свой- ством, что каждая непустая порция множества Х2 х X . . . X Хп X Вх и проекции множества Pt X Вх на про- странство (X® X . . . ХХ®) имеют положительную меру.
70 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II Действительно, если и — оо таково, что есть зна- чения х2,. . . , хп, рх, для которых Д < и, то или Д= = — оо, или (£х, я2,. . ., хп)’ ЕЕ Рх. В первом случае име- ется целая окрестность, в которой Д = — оо для всех Рх и, значит, Ф 0; во втором из-за непрерывности Д на Рх X Вх и кусочной непрерывности имеется множе- ство положительной меры, на котором Д — и < 0, а зна- чит, и Ф^>0. Наоборот, если Д и для всех я2,. . ., хп и рх, то и Ф = 0. Итак, поскольку и = — оо не может реа- лизовать max и (кроме случая Lr = — оо), то задача вы- числения (2.10) и отыскания рациональных хх (или 8-ра- циональных по (2.13)) эквивалентна вычислению sup и при условии Ф(#1, и) = 0. (2.15) и, .TiGrAi В свою очередь задача (2.15) в случае непрерывной Ф и компактного Хх, согласно теореме о штрафных функциях [6], приближенно эквивалентна задаче вычисления max [и — СФ (^i, м)] (2.16) и, xiG Xi при больших С. Тем самым максиминные задачи (2.10) и (2.13) сведены к задачам на оптимум, сложность которых целиком определяется сложностью структуры Хх и функ- ционала Ф. Можно дать еще и следующую трактовку задачи (2.15) в случае Хг = X?, предложенную в [23] («метод невязок»). Лемма 2.1. Верхняя граница значений и, удовле- творяющих условию min Ф(г15 и) = 0, (2.17) хк= Xi есть Li [Хх], а минимуме (2.17) при и = Lx [XJ — г реа- лизуется на стратегии удовлетворяющей (2.13). Д о к а з а т е л ь с т в о. Действительно, если и < Lx [XJ, то в силу (2.10) существует стратегия тх такая, что inf inf /i piSBt а значит, Д — и > 0 при любых xh i 2, и px. Но тогда
МАКСИМИН 71 § 8] и Ф (^i, и) = 0, а тем более (в силу неотрицательности Ф) выполнено (2.17). । Наоборот, если и Lr [Xi] и есть стратегия реа- лизующая минимум (2.17), то существуют (I > 2) и Pi такие, что для них и имеем Д — и < 0. Но тогда в си- лу предположений о кусочной непрерывности xj и непре- рывности Д имеется целая область (ненулевой меры) та- ких xi {I 2) и Pi. Отсюда очевидно, что Ф(£?, и) = = тшФ(^1, и)^>0. Х1 Если теперь реализует (2.17) при и = Lr [XJ — 8, то если бы для было inf inf Д и, то точно так же мы piGBi i>2 показали бы, что Ф ($J, и) > 0, а это противоречило бы определению Лемма доказана. Как видно из доказательства, при любых u<Lt ми- нимум (2.17) достигается всегда (без требования компакт- ности). Наоборот, любая реализация равенства Ф (#х, и) = 0 удовлетворяет условию inf inf Д и. Таким об- fteBi г>2 разом, лемма верна и без предположения о компактности Х±. Нужно лишь, увеличивая и, убеждаться в реализации (2.17), а не соотношения inf Ф (£ь и) = 0; последнее может иметь место и при и Lr. Снятие предположения о ком- пактности увеличивает возможности решения задачи (2.10). Кроме того, в «методе невязок» не возникает затруднений, связанных с использованием больших констант С, как это может иметь место для (2.16); верхнюю границу и легко находить методом половинного деления. Что касается оты- скания и, реализующих (2.17), то здесь, видимо, сущест- венно могут помочь необходимые условия минимума. Принцип максимина может, конечно, разнообразно со- четаться с коалиционными действиями и осреднением. Так, если образована коалиция всех п игроков (кроме природы), то при наличии побочных платежей наивЫгод- нейшие zi9 если они определяются после игры, даются опять формулами (1.46). Что же касается наивыгоднейших
72 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II то они определяются из реализации п max min У fi(x, Pi). хеРс • 1-1 Если же Zt определяются априори совместно с гг, то сле- дует исходить из реализации sup min min {pj [Д (x, pi) — 4- zi]}* x&pc i<«n PieBi zez Точно так же принцип максимина легко сочетается с осреднением по случайным факторам, если законы рас- пределения последних известны. Именно, прежде чем при- менять принцип максимина, все или часть критериев эф- фективности можно заменить их осредненными выраже- ниями (2.9). Вообще, мы далее будем считать, что все осреднения, которые целесообразно проводить, уже про- ведены, а все факторы, по которым осреднения не произ- водилось, неслучайны. Это позволит нам в дальнейшем не говорить о случайных составляющих ситуации. Разуме- ется, такое рассмотрение оставляет в стороне ряд игр, в которых случайные реализации становятся известными, когда произведены еще не все выборы (так, например, может обстоять дело с побочными платежами). При необ- ходимости такие игры нетрудно рассмотреть так же, как это сделано в § 7. Отметим также, что если законы распре- деления случайных факторов известны неточно, то прин- цип максимина можно использовать и по отношению к неопределенности в этих законах распределения [6]. В заключение отметим следующее. 1. Применение максиминных решений никак не проти- воречит применению смешанных стратегий оперирующей стороной. При этом переход к осредненному критерию есть личное дело оперирующей стороны. Относительно ос- тальных игроков необходима только уверенность в том, что никто из них не узнает конкретной реализации слу- чайного выбора. Учет возможности применения осталь- ными игроками смешанных стратегий при максиминных решениях не нужен (см. [6]). 2. Любая коалиция, исходящая из принципа макси- мина, не будет, очевидно, отдавать побочные платежи
§ 9] АБСОЛЮТНО ОПТИМАЛЬНЫЕ СТРАТЕГИИ 73 участникам вне коалиции, и поэтому, если внутри этой коалиции (например, первых т игроков) выполнены (1.34), т т то при будет выполнено = 0, а также и 3=1 г—1 условия, аналогичные (1.46). 3. В обобщенной задаче Гросса (модель III § 1) ис- пользование нападением или защитой принципа макси- мина возвращает к рекомендациям, имеющимся, например, в [6], в том числе и по применению смешанных стратегий. 4. В модели VI § 1 при фиксированных ti максиминное решение состоит в максимизации каждым игроком своего ri *<)• Если же tt являются неопределенными факто- рами, то необходимо реализовать max min rt (хь tj). * xi Ч 5. В модели VII § 1 центр по максиминной стратегии в случае (1.14) может выбирать с равными основаниями любой вектор и. 6. В модели IX § 1 после принятия (1.48) максиминное решение, например, первого игрока состоит в максимиза- ции ПО Xi min [/ (xi, 0 ... 0), р1ф1 (th — а?1)]. Если / (0 . . . 0) = ф (0) = 0, то максимум реализуется при / (xi; 0 . . . 0) = Р1Ф1 (ai — л?1). Если все игроки бу- дут здесьпридерживаться максимина и р^^> 0 (i = 1,... . . ., п), то все выбранные хГ{ окажутся положительными и для всех i = 1, . . ., п будет выполнено Wi = min [/(#£,..., Хп), Ргфг («f — #i)] = Ргфг («г “ ^i)« Таким образом, «общественный» критерий примет на самом деле большее значение, чем рассчитывает каждый игрок; значения индивидуальных критериев будут прог- нозироваться точно. § 9. Абсолютно оптимальные стратегии и стратегии наказания К названию абсолютно оптимальные стратегии, ис- пользованному уже ранее, нужно относиться, как к не слишком удачному. Лучше было; бы называть их абсо- лютно доминирующими стратегиями. Стратегия Я*
74 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II называется абсолютно оптимальной в Xi, если для лю- бых возможных х2 , . . ., хп и Pi /1 (*д, ^2, • • ®n, Pi) = max fitfi, х2, . . хп, Рх). (2.18) Стратегия Я™ называется s-абсолютно оптимальной, если для любых х2 , . . ., хп и Pi /1 (*1е, *2, • • м Pl) > ~sup Л (£1? Х2, . . ., Хп, Pi) — 8. X1G: Х1 (2.18') В тех случаях, когда такие стратегии существуют, они могут считаться идеалом изоляционизма. Очевидна их рациональность (и даже оптимальность) в случае, когда оперирующая сторона никак не может влиять на ситуа- цию, которая может сложиться в игре, т. е. на стратегии остальных игроков. Так обстоит дело, например, если она делает свой ход последней. Важно, что определение и при- менение %* при этом не требует знания интересов других игроков, устойчива относительно интересов других иг- роков. Очевидно, что дает действительно оптимальное решение в случае игры двух лиц с совпадающими инте- ресами, если первый игрок имеет возможность сообщить выбранную им стратегию второму игроку. Если Xi существует, то она реализует и L± [Xi], причем у критерия Wi есть седловая точка на соответствующих множествах стратегий, т. е. Lx [Xi] = min max fi(#i, х2, . . ., хп, Pi). (2.19) №,---,3Cn,PtxieXi Оба этих обстоятельства следуют из того, что левая часть (2.19) всегда не превышает правую, и, кроме того, в силу (2.18) и G= Хх min max Д (#i, x2, . . ., xn, Pi) = , *nA XiGlt = min x2, . . xn, 0i)< ...xn’₽* max min Д (fi, x2, . . xn, 0j) — Lx [Tj]. X1G: Xi X?, ...,
АБСОЛЮТНО ОПТИМАЛЬНЫЕ СТРАТЕГИИ 75 § 9] Если для любого 8 существует то равенство (2.19) также имеет место, но max и mln должны быть заменены здесь на sup и inf. Разумеется, наличие равенства (2.19), т. е. седловой точки, не гарантирует еще существова- ла НИЯ Хг. Абсолютно оптимальные стратегии для Хх = X? су- ществуют, например, в случае, когда в (1.26) = /1 (*i) + /Г (я2 , • • •> хп, Pi) при всех ЕЕ X®. В частности, это выполнено для линей- ных В общем случае зависимости от х и 01 страте- гия х* в X?, как правило, не существует. Наоборот, в Xf, т. е. в случае полной информированности оперирующей стороны о ситуации, стратегия (или хотя бы %™ при любом е) существует всегда, поскольку она определяется из решения параметрической задачи оптимизации sup A (Xi , . . ., хп, рх). Xi Общие условия существования х* и и способ их нахождения ясны из следующей простой теоремы, в которой предполагается, что X? СЕ Х± & что х± ЕЕ X? при G Х±. Теорема 2.1. Имеют место следующие утверж- дения. 1а) Абсолютно оптимальная стратегия xjE Xi су- ществует тогда и только тогда, когда max inf [Д (^, х2, . .., хп, 0Х) — Д (уъ х2,.. ., хп, 01)] =0. PiGBi (2.20) 16) Стратегия тогда и только тогда является аб- солютно оптимальной когда она реализует максимин (2.20). 2а) ъ-абсолютно оптимальная стратегия %™ сущест- вует тогда и только тогда, когда sup inf [А (^, х2, . . ., хп, 01) — xiGXi Vt.X2, Pt (2.20')
76 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II 26) Стратегия тогда и только тогда является ^-абсолютно оптимальной когда inf [A х2, . . хп, Pi) — Vi, х2, ...,хл,Р1 — /1(Уь х2,. . хп, pi)]> — е. (2.21) Доказательство. Прежде всего, из свойств Xi следует sup /1 (хх, х2, . . хп, 01) < sup /1 (Ж1, х2, . . хп, pi) < XiSxJ 3C‘eX1 < sup sup /1(ЯГ1, X2, . . Xn, Pl), XiCAi XiGE t. e. sup /1 (Xi, x2, . . xn, Pl) = sup /1 (xlt X2, . . ., Xn, Pl). x,e>: j x»s (2.22) Заметим также, что при любых Xi с учетом (2.22) inf [/i (xi, х2, . . ., хп, Pi) — /1 (т/i, х2, .. ., хп, Pi)] = ViSXi **...жп,₽« = inf [/1(Ж1, х2, хп, Pi)— sup /i(yi, ж2,—,^п,Р1)] = x2)....x„,fh VlSX» = inf 1/1(Ж1, х2, . . ., хп, Р1) — — sup /1(У1, х2, . . ., хп, Р1)] <0. (2.23) V1SX1 Используя (2.23) и (2.18) для х*, имеем inf [А (Ж?, х2, . . .,хп, Pi) — /1(У1, х2, . . .,хп, Pi)] = VtGxJ JC2,...,Xn, = inf [/i (^ia, x2, . . ., xn, Pi) — Х2,...,Хп,^ — .sup /1(^1, x2, . . ., xn, Pl)] = 0. Но в силу (2.23) отсюда получаем, что выполнено (2.20)
§ 9] АБСОЛЮТНО ОПТИМАЛЬНЫЕ СТРАТЕГИИ 77 и реализует соответствующий максимин. Если сущест- вует я*8, то из (2.22) и (2.18') следует inf [/1(^\ Р1)“ Vl,X2,...,Xn,Pi — /1(Уь ^2, • • •, Р1)1 > — 6, т. е. выполнено (2.21) и (2.20'). Наоборот, пусть теперь выполнено (2.20) и ЕЕ Хх реализует этот максимин. Тогда в силу (2.22) min [/i(^, х^ . . ., хп, 01) — *2.. — jsup А(У1, х^ . . ., хп, pi)] = 0. Поскольку выражение в квадратных скобках неположи- тельно при любых х2 , . . ., хп, 01, то А (^, х2, • • •, 0i) = _sup /1(уъ х2, . . ., хп, 01). Vi&Xi Это и означает, что стратегия ^удовлетворяет (2.18), т. е. является абсолютно оптимальной Ж?. Если же выполнено (2.20'), то всегда существует стратегия #i, удовлетворяю- щая (2.21), откуда следует, что при любых х2 , . . ., хп, 01 /1 х2, . . ., хп, 0i) > sup (г/i, x2i . . ., хп, 00 — е, vicxj а это в силу (2.22) равносильно (2.18'). Тем самым теорема полностью доказана. С помощью теоремы 2.1 поиск 3% и сводится к реализации sup inf, т. е. к задаче типа изложенной в § 8, которая, как уже указано, в свою очередь сводится к обычной оптимизации. При этом стремление к увеличе- нию (по возможности до нуля) этого максимина и есть стремление к реализации абсолютно оптимальной страте- гии. Приближение к желаемой стратегии осуществляется в процессе поиска максимина (2.20), и степень этого при- ближения оценивается достигнутым значением левой час- ти (2.21). Как уже ясно из сказанного ранее, расширяя Хг от Xi до Xi, всегда можно добиться достаточно малых е. Это
IS ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II обстоятельство можно выразить в виде экстремального по Хх свойства: sup sup inf x2, . . xn, Pi) — Xi — /1 (yi, x2, . . xn, Pi)] = 0. (2.24) Стоит отметить, что образованный из исходного критерий = /1 (Х, Р) — sup /i (7/i, Х2, . . Х,г, Р) vex’ тесно связан с широко используемым в статистике крите- рием Сэвиджа. Для краткости назовем его также критери- ем Сэвиджа. Если в игре с исходным критерием существует абсо- лютно оптимальная стратегия, то она, по теореме 2.1, обеспечивает достижение абсолютного максимума крите- рия Сэвиджа и тем самым является действительно опти- мальным решением для первого игрока в любой игре, где является критерием первого игрока. Этот факт не за- висит ни от интересов других игроков, ни от степени ин- формированности о них первого игрока. Несмотря на кажущуюся привлекательность свойств «абсолютно доминирующих» стратегий xf (2.18), они от- нюдь не всегда могут быть признаны достаточно рацио- нальными. Так, в известной биматричной игре «дилемма заключенного» (первый игрок выбирает строки, второй — столбцы, первые элементы биматрицы — выигрыши пер- вого игрока, вторые — второго) II (5; 5) (0; 10)11 ||(10; 0) (1; 1) II у каждого из игроков вторая стратегия является абсолютно доминирующей. Однако соответствующий результат (1; 1) вряд ли очень желателен, поскольку (5; 5) лучше для обоих. Для его реализации нужно, очевидно, коллектив- ное решение, далекое от изоляционизма абсолютно до- минирующих стратегий. Еще более показательным примером неэффективности абсолютно оптимальных стратегий является игра (1.13) из модели VI § 1. В этой игре у каждого игрока в X? су- ществует xi = 1. Если все игроки будут придерживаться
§ 9] АБСОЛЮТНО ОПТИМАЛЬНЫЕ СТРАТЕГИИ 79 этих стратегий, то результат каждого будет Wi = 1. В то же время коллективное поведение, состоящее в максимизации (1.45) при wj = 1 и = 1, приведет при использовании, например, приема (2.2) к задаче линейно- го программирования, которая имеет решение, зависящее от п. Именно, если п то решением является опять- таки = х2 = . . . = хп = 1. Если же п —g—, то наи- лучшим коллективным решением становится уже хг = х2= = . . . = хп = 0, обеспечивающее получение всеми иг- роками Wi — (п — 1)0, т. е. результата, большего 1. С увеличением п растет и выгода использования этого кол- лективного решения по сравнению с абсолютно оптималь- ным поведением. При 0 > 1 стратегии х* выгодны только при п = 1, т. е. в игре с одним игроком. Этот пример од- новременно показывает ограниченность использования параметрической оптимизации, которая в данном случае а И приводит К Xi. Практически важным примером неэффективности стра- тегий являются также иерархические системы, харак- теризующиеся критериями (1.14) и (1.15). Здесь, очевидно, любая стратегия и ЕЕ Xj центра является абсолютно оп- тимальной, поскольку wQ1 по (1.14), не зависит от и. Но даже если заменить (1.14) на (1.16), то при естественном требовании невозрастания wQ по и (поощрения идут за счет центра) абсолютно оптимальной стратегией окажется и = 0. Это явно не соответствует рациональному поведе- нию, как оно понимается на практике. Так, если и — за- траты на сырье, то и = 0 означает прекращение снабжения производства. Следовательно, в описанных моделях иерар- хических систем абсолютно оптимальные стратегии не мо- гут считаться рациональными для руководителей, хотя могут быть разумными для подчиненного. Попутно заме- тим, что специфика иерархических систем состоит в фик- сации порядка ходов — первый ход за руководителем. Как будет показано ниже, это обстоятельство дает воз- можность сформулировать принципиально иные, чем рациональные стратегии руководителя. Легко объединить принцип максимина с идеей абсо- лютно оптимальных стратегий в случае, когда абсолютное
80 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II доминирование имеет место не по всем игрокам. При- числяя для упрощения записи природу к обычным игро- кам, будем называть стратегию максиминнойпоа;т+1,... . . . , хп и абсолютно доминирующей по х2, . . если выполнено для любых х2 , . . хт inf /х (х1? х2,.. хп) = max inf х2,. .., хп). (2.25) xi XiSXi xi Аналогично определяется и соответствующая е-стра- тегия. Рассматривая игру с критерием эффективности пер- вого’игрока inf /1 (£ъ х2, . . ., хп) и используя теорему ,хп 2.1, легко получим условие существования стратегии из которого она и может быть определена: max inf [ inf /1 (#i, x2l . .., #n) — Xm+V”*xn — inf /1(^1,^,...,^)]== xn = max inf sup [Д (£i, x2,..., xn) — xn Zm+V..., zn fl (2/1, #2, • • •> хтч zm+l, • • •> zn)l = 0. (2.26) Аналогично происходит и объединение абсолютного до- минирования с осреднением по природным неопределен- ностям. Объединяя, наконец, все три рассмотренных приема, можно получить уже достаточно гибкий способ выработки рациональных стратегий в схеме полного изоляционизма первого игрока. Объединение его с каким-либо игроком в коалицию по существу ничего не меняет в этой схеме. Нужно лишь ввести общий критерий коалиции по форму- лам, указанным в § 6. Введенную по (2.18) абсолютно оптимальную страте- гию точнее было бы назвать абсолютно оптимальной в X-l по отношению к Х2 X . . . X Хп X В1в Аналогично абсолютно оптимальной в Xt стратегий по отношению к
§ 9] АБСОЛЮТНО ОПТИМАЛЬНЫЕ СТРАТЕГИИ 81 X . . . X Xn X Bt следовало бы назвать 4, для кото- рой fi (4, %п, Pi) = max Л (5*!, Ж2,..Pt) (2.27) xiEzXi при любых GE Xt (г = 2, . . n) и Pi G Bi. Если Хг=)Х?, то, очевидно, абсолютная оптималь- ность по (2.27) влечет за собой абсолютную оптимальность по (2.18). Обратное, разумеется, вообще говоря, неверно. Так, в указанной уже «дилемме заключенного» для пер- вого игрока абсолютно оптимальна по (2.18) вторая стра- тегия. Однако она отнюдь не реализует максимум (2.27) при стратегии второго игрока £2 = (^i) = #1* Сущест- вование абсолютно оптимальной стратегии по отношению к Х2 X . . . X Хп X В1? очевидно, обеспечено для пер- вого игрока в множестве стратегий вида = х± . . . ...»Pi) (см. §3). Выражаясь языком [12], можно сказать, что существование у первого игрока абсолютно оптималь- ной стратегии требует, вообще говоря, более высокого уровня рефлексии у него по сравнению с остальными игроками. Совершенно аналогично можно ввести понятие абсо- лютно оптимальной стратегии по отношению к Х2 X . . . ... X Хп х Bi (см. стр. 50). Теорема 2.1 и в этих слу- чаях остается верной, если везде заменить xt на или xt (в том числе и yi). Стоит отметить еще возможность использования частич- ной абсолютно оптимальной стратегии. Именно, пусть = (#и, #12)• Тогда, например, х^ можно называть час- тичной абсолютно оптимальной стратегией, если для всех (ж12, ж2, . . хп, Рх) /1 (41, £12, £2, • • £п, Р1) = max fi (xlt, х12, хг,..хп, Р1). Хн Так, невыплата коалицией побочных платежей другим игрокам есть частичная^ абсолютно оптимальная страте- гия коалиции. В дальнейших исследованиях важную роль будут иг- рать так называемые стратегии наказания i-м игроком 7-го игрока. Под стратегией наказания мы будем пони- мать абсолютно оптимальную стратегию f-ro игрока, если
82 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ, II бы его критерием эффективности был Wi = — Wj, т. е. если бы его интересы были противоположны интересам /-го игрока. Заменяя во всех предыдущих рассуждениях и утверждениях на — Wj, мы автоматически получим аналогичные утверждения для стратегий наказания. В частности, верно, что в X* всегда существуют страте- гии наказания (или хотя бы ^-стратегии наказания для любого в). Невыплата коалицией побочных платежей другим игрокам оказывается не только частично абсо- лютно оптимальной стратегией коалиции, но и частичной стратегией наказания любого игрока, не входящего в коалицию. Аналогично стратегиям наказания можно ввести и по- нятие стратегии наибольшего поощрения i-м игроком /-го игрока. Для этого достаточно рассмотреть абсолютно оптимальную стратегию i-ro игрока относительно кри- терия Wj. Оставляя на дальнейшее выявление роли стратегий наказания, укажем только на то, что разница результатов, даваемых стратегиями наибольшего поощрения и наказа- ния, Д{1 = max/i^i,.. ., хп, pi) — min/i^,. .., хп, pi) Xj Xi характеризует возможное влияние первого игрока на ре- зультат i-го при данном (х2, . . хп, рх) = х'. Если при всех возможных х' величина Afi не превосходит порога чувствительности г-го игрока 6г- (см. § 2), то первый игрок не может оказать единоличного влияния на действия г-го. Если первый игрок не может оказать влияния ни на кого из игроков (на «природу» с критерием (1.3) оказать влия- ние невозможно), то абсолютно оптимальная стратегия (если она есть) становится наиболее рациональным (оп- тимальным) индивидуальным способом действий. Улуч- шения результатов можно при этом ожидать только за счет коллективных действий; отметим, что увеличение размера коалиции увеличивает, конечно, и размеры ее влияния на остальных "игроков. Заметим, наконец, что реализуемости формально построенных абсолютно оптималь- ных стратегий и стратегий наказания могут опять препят- ствовать «физические» ограничения, задающие множество Рф (см. стр. 24).
§ 10] ПРИНЦИП НАИЛУЧШЕГО РЕЗУЛЬТАТА 83 § 10. Принцип наилучшего гарантированного результата при обмене информацией в играх с фиксированным порядком принятия решений Перейдем к изложению принципа принятия решений, являющегося индивидуальным, но имеющего тем не менее активный характер. Идея его состоит в том, что игрок может воздействовать на игроков, принимающих решения после него, сообщая им некоторую информацию. В част- ных случаях этот принцип четко сформулирован в [6], [8], [15]. Здесь дадим довольно общую формулировку, не претендуя, однако, на максимальную общность. Предположим сначала, что первый игрок первым же и делает ход, т. е. выбирает стратегию Xi = хг (х2 , . . . ..хп) ЕЕ Xi — правило поведения, состоящее в указании вектора х± = (х19 у12, . . ., у1п), включающего ту инфор- мацию, которая будет получена об х2, . . ., хп)- Тем самым он реализует право первого хода. Здесь природа считается одним из перечисленных игроков с учетом, конечно, специфики реакции на информацию. Информацию первого игрока о поведении остальных игроков после выбора стратегии х^ будем характеризо- вать заданием множества Е (х±) ситуаций х = {хи . .хп}, в которых может оказаться игра в результате выбора пер- вым игроком xt. Множество Е (хх) дает обобщенное га- рантированное описание последствий выбора хг и может учитывать все сведения об интересах и взаимоотношениях игроков, которые имеются у первого игрока. Естественно, что описание Е (5ci) представляет собой основную пробле- му и может уточняться только при конкретизации инфор- мированности первого игрока об игре и правилах поведе- ния (в частности, доверии к информации) других игроков в зависимости от обстановки, в которую они попадают. Огромное многообразие возможных правил как раз и делает невозможным определение Е (xi) вне достаточно конкре- тизированной задачи. Ясно, однако, что чем более тонкая информация будет привлекаться, тем сложнее будет опи- сание Е (xi), и с определенного момента эта сложность ♦) Напомним, что обозначение уц описывает всю информацию, которая сообщается i-му игроку первым (см. стр. 49).
84 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II станет препятствием к получению конкретных рекомен- даций. Поэтому практически правила поведения долж- ны описываться довольно грубо, но зато с макси- мальной достоверностью. Сложность определения множества Е (хх) является естественным аргументом к рассмотрению игры с малым числом игроков; более громоздкие игры, видимо, следует сводить к ним путем фиктивного объединения игроков в малое число коалиций с недостаточно известными крите- риями эффективности коалиций. Такое фиктивное описа- ние в целях сохранения гарантированного результата должно делаться так, чтобы Е (хх) не преуменьшалось. Именно поэтому систематическое изучение игр с 2—3 иг- роками является первоочередной задачей; этому будет уделено должное внимание в главах III и IV. После того как множество Е (хг) в тех или иных кон- кретных условиях описано, принцип наилучшего гаран- тированного результата уже легко выражается в виде стремления к реализации sup inf хп). (2.28) «tex, хеЕй) Таким образом, общий принцип гарантированного резуль- тата (2.28) отличается от максимина (2.10) «только» уче- том связей, задающих множество Е (xi); однако это об- стоятельство во многих случаях весьма важно. Ясно, что не очень точные сведения о поведении других игроков, т. е. достаточно широкое Е (5сх), превращают (2.28) в (2.10). Возможность же радикального сужения Е (хх) хорошо видна на играх с запрещенными ситуациями. Так, если в (1.6) Р = {(#i, х2) | + х2 = 1}, то в условиях, когда первый игрок не обманывает второго, а второй ему дове- ряет, можно взять х-х = (хх, Хх), и тогда множество Е (хх)= = {(^х, 1 —#1)} состоит из одной точки. Здесь (2.28) превращается в max f (хх, 1 — Хх), в то время как (2.10) дает — оо. В этом же примере абсолютно оптимальной стратегией в Хх является хг = 1 — х2. В силу интере- сов второго такая стратегия обеспечивает первому ре- зультат min / (1 — х2, х2) = min / (а^, 1 — Хх). Х2 Xt
ПРИНЦИП НАИЛУЧШЕГО РЕЗУЛЬТАТА 85 § ю] Это, конечно, лучше, чем то, что дает (2.10), но значи- тельно хуже того, что обещает (2.28). Тем самым дан убе- дительный пример преимущества активного поведения перед «абсолютной оптимальностью». Пусть теперь оперирующая сторона (к-й игрок) имеет очередность хода к. Тогда к этому моменту уже будут оп- ределены Ж1, . . ., и к-й игрок, кроме собственной ин- формации, получит сообщение Уп, • . В этих ус- ловиях существует объективное множество Е (хь . . .,3^), состоящее из возможных ситуаций х после фиксации и хк. В силу замкнутости игры Е (5^, . . ., х^) Ф ф. При этом объективный наилучший гарантированный резуль- тат /с-го игрока есть sup inf A(^i, • .(2.29) Однако субъективное описание гарантированного мно- жества возможных ситуаций может исходить только из той информации, которой располагает сам к-й игрок, т. е. (l/ifc, • • •> Z//c-i,fc), и собственной информации о возможных Xt при i к — 1. Не забывая о неполноте последней ин- формации, соответствующее множество можно обозначить через Е (жх, . . хк_1, у1к, . . хк) = Ек (хк). Тогда наилучший гарантированный результат, основан- ный на субъективной оценке, очевидно, равен sup inf /fc(^i,. . хп). (2.30) жк^Хк х^Ек(хк> Эта величина является объективно гарантированным ре- зультатом, если к-й игрок не ошибается в своей оценке, т. е. если Eft (^к) Е (хп. .., хк). (2.31) При этом, конечно, величина (2.30) не превосходит (2.29). Гибкое использование (2.29) позволяет отразить общий случай динамики принятия решений, когда решение о векторе Xi принимается постепенно, по мере уточнения информации об обстановке. Для этого достаточно ввести столько фиктивных игроков вместо одного (но с одним и
86 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II тем же критерием w), чтобы каждый принимал решение только один раз об одной компоненте вектора хг. Фикси- руя теперь порядок ходов всех игроков в соответствии с порядком передачи и получения информации, можно оп- ределить рациональное поведение i-ro игрока как сово- купность решений (2.29) или (2.30) для всех тех номеров к фиктивных игроков, которые заменяют рассматриваемого Z-ro игрока. Приведем несколько примеров определения множест- ва Е (S?i) в конкретных условиях. I. Пусть первый игрок точно знает множество Рф и ничего более. Тогда он может передать информацию дру- гим игрокам как о Рф, так и о своем выборе При этом Е (#i) = {х | хг = z? (z2, . . ., zn); х ЕЕ /х1)} и результат Lr [А\] должен заменяться соответствующим значением (2.28), вычисленным с учетом «физических» огра- ничений игры. Если относительно Рф первому игроку известна лишь оценка Рн cz Рф с: Рв, то в определение Е (Жг) нужно включить Рв вместо Рф. Наоборот, при выяснении реали- зуемых следует исходить из Рн. п—1 II. Пусть #х == (ii, х±,.. ., .Fi), т. е. первый игрок точно сообщает всем остальным (доверяющим ему игрокам) свой выбор х±, ~ #£. Предполагается, что эти игроки могут образовывать любые коалиции (без побочных платежей и объединения ресурсов) и Рф 3 X} X . . . . X при- чем первый игрок не будет знать их способы действия; предполагается также, что каждый из остальных игроков может реализовать максимин с ошибкой, не большей е. Первый игрок точно знает все критерии грг-. В этих усло- виях Е (#г) = Е (5Х) и единственным ограничением на поведение игроков является получение ими результатов не менее своего максимина за вычетом 8. Таким образом, здесь благодаря тому, что х± фиксировано и всем извест- но, имеем £* (#1) = {(^1» #2» • • •, *^n) I fi (^1,^2» • • •, %п) > Е> sup inf fi (£х, х2,..., хп) — 8; i2}. (2.32) XjGXj x-^Xj Mb I
§ 10] ПРИНЦИП НАИЛУЧШЕГО РЕЗУЛЬТАТА 87 Если известно, кроме того, что у г-го игрока имеется ин- формация, позволяющая реализовать стратегии из неко- торого множества то (2.32) изменится только за счет введения максиминов по Xi вместо X?. Однако это обстоя- тельство иногда может существенно сузить Е (xi). Без су- щественных изменений сказанное переносится на случай, когда Xi = (Tt, . . ., ^t), ЕЕ Хх. Если теперь считать, что субъективное описание игры для первого игрока состоит в знании (х, а^), где S Е Аь то, очевидно, Z?(xi) = U Е а2, • • •, «п), (2.33) агеАг 1^>2 где Е (#!, а2, . . ., ап) при фиксированных определя- ется по (2.32). Если Е (Ж1)= X Х% X , . . X Хп, то (2.28), очевидно, совпадает с обычным максимином для первого игрока и, следовательно, право первого хода и передача точной информации не имеют значения. III. Пусть все условия сохранены теми же, что и в при- мере II, за исключением того, что остальные игроки могут еще образовывать произвольные коалиции с побочными платежами при = 1. Тогда, очевидно, вместо (2.32) будет п Е (#1) = ](^2, • • •, ^n) I S fi (^1, • • •, ^п) > 1 1=2 > У1 supinf/j^i,..хп) — (п — 1) е}. (2.34) г=2 х- J В остальном все выглядит аналогично. Разумеется, мно- жество Е (#i), определяемое по (2.34), содержит множество (2.32), и это ухудшает (2.28). IV. Если первый игрок знает, что все остальные игроки осторожны, не имеют информации о других игроках и не знают, будет ли первый игрок информирован об то появляется большой простор для блефа со стороны пер- вого игрока. Это особенно хорошо видно на примере VII § 1 иерархической системы (1.14) — (1.15). Центр может использовать стратегию, состоящую, при фиксации
88 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II (я£,..Яп), в сообщении каждому производителю функции и? (а^), которая максимизирует по uf, если Xi = я?, и минимизирует по щ, если xt У= х(. Сам же выбор и пока оставим в этой стратегии произвольным. Обозначим те- перь через Dt множество точек х( таких, что max fi (xi, max min fi (xi9 щ) + иг xi ui u^TJ Если ф для всех г, то в силу принятых условий при доверии производителей сообщению центра множество Е (u, и? (#1), . . Un (хп)) СОСТОИТ ТОЛЬКО ИЗ ОДНОЙ ТОЧКИ (Uy X^f • . ., Хп)• Итак, если #= ф для всех г, то первый игрок, бле- фуя, может произвольно выбирать (я?, . . х„) из D± X X . . . X Dn и тем самым получить по (2.28) результат, равный максимуму /0 в области Dr X ... X Dn. При этом блеф центра состоит в несовпадении истинного выбора и с сообщаемыми стратегиями и? (xf). Этот блеф, как правило, некорректен, если реально выбираемое и не обеспечивает одновременной реализации всех’обещанных max (я?, uf). иг u^U Но некорректный блеф легко обнаруживается, и потому его уже вряд ли можно использовать при нескольких повторениях. Можно превратить блеф в корректный, если под х9 = (я?, . . ., Хп) понимать точки, для которых найдется и° такое, что для всех i fi и®) max min fi (xif щ) + xi ui Обозначим множество таких x9 через D. Выбирая uQ и сообщая производителям стратегии u? (xt), равные и? при Xi = 4 (а в остальном те же), центр может обеспечить себе даже максимум /0 в области D (в предположении D Ф ф). В данном случае блеф уже корректен и перестает во- обще быть блефом, если у центра будет необходимая ин- формация об Xi и.если совместимы все и® (xi), т. е. если все min fi (xt, ut) реализуются при одних и тех же и. Пос- iq
§ 10] ПРИНЦИП НАИЛУЧШЕГО РЕЗУЛЬТАТА 89 леднее не так уже редко может наблюдаться в иерархи- ческих системах, поскольку указанные минимумы реали- зуются обычно при = 0 (когда величины щ имеют смысл каких-либо доплат или премий). Можно грозить также и нулевыми ценами К1 в (1.17), если они не фиксируются за- ранее, а объявляются в виде функций того, что будет прои- изведено. Как видно, обсуждаемый принцип выбора не приводит в иерархических системах к абсурду, харак- терному для абсолютно оптимальных стратегий. В дальнейшем будет представлено еще много выводов и примеров, относящихся к принципу максимального га- рантированного результата. Сейчас же обратим внимание на то, что, судя по последнему примеру, блеф весьма эф- фективен для первого игрока. Однако, к счастью, это от- нюдь не является абсолютно общим утверждением. Преж- де всего, ясно, что некорректный блеф вряд ли можно считать эффективным при многократном повторении игры. Кроме того, имеет место и следующее важное утвержде- ние. Теорема 2.2. Если первый игрок располагает мно- жеством стратегий Х^, но не знает степени информиро- ванности остальных игроков об игре и степени их коллек- тивности, то, не проигрывая с точки зрения наилучшего гарантированного результата, он может сообщать всем игрокам точную информацию о стратегии Доказательство. При фиксированной Xi га- рантированный результат первого игрока является, ко- нечно, нижней гранью соответствующих гарантированных результатов, получаемых при всевозможных случаях ин- формированности остальных игроков. Поэтому, какие бы выводы ни сделали остальные игроки из точной информа- ции первого игрока, полученный вариант будет опять со- держаться в перечисленных всевозможных вариантах. Поскольку точное сообщение заведомо не увеличит число вариантов информированности, то и гарантированный ре- зультат от точного сообщения не уменьшится. Теорема доказана. Заметим, что сообщение неправильной информации мо- жет привести к новым вариантам информированности иг- роков. Сообщение неполной, но не противоречащей ис- тине информации также, конечно, не может ухудшить гарантированный результат в указанных в теореме
90 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II условиях. Выигрыш же от блефа будет наблюдаться тогда, когда первый игрок уверен, что остальные игроки мало информированы. Именно этот случай и рассматривался в примере III. Отметим еще одну общую теорему. Теорема 2.3. Пусть при образовании всех Х^ фик- сировано содержание передаваемой информации. Если у k-го игрока есть абсолютно оптимальная стратегия по отношению к Х± X ... X Х^ X X . . . . X ХП1 то она реализует (2.29). Доказательство. Совокупность стратегий из Xi (г = 1, . . ., п) предполагает, конечно, использование любой зависимости от получаемой от остальных игроков информации. Поэтому абсолютно оптимальная стратегия реализует максимум результата k-ro игрока при всевоз- можных зависимостях поведения других игроков от полу- чаемой информации, значит, в том числе и тех, которые реализуют нижнюю грань в (2.29) для данной абсолютно оптимальной стратегии. Но такое поведение априори имеет место и при других А тогда и нижняя грань при лю- бой другой стратегии не может дать большей величины, чем максимум результата по при упомянутом поведении. Здесь мы, по существу, имеем обобщение свойства (2.19). Теорема доказана. Покажем теперь, что на множестве Х± = Xf в «дилем- ме заключенного» (см. стр. 78) гарантированный резуль- тат первого игрока есть 5. Действительно, выбирая стра- тегию (х2) = х2 и сообщая ее второму хг = (£?, £?), первый игрок сводит множество Е к единственной точке xr = 1, х2 = 1, что и обеспечивает результат (5; 5). Заметим, что абсолютно оптимальная в Xf стратегия х* = 2 (относительно Х°) не реализует гарантированный результат 5. Таким образом, теорема 2.3 не переносится на обычные стратегии Приведенные примеры не должны создать впечатление, что принцип (2.28) может считаться рациональным во всех случаях. Так, в модели соревнования VI § 1 при любой фиксированной последовательности принятия решений и соответствующей передаче информации, если исходное множество стратегий есть X?, наилучшее по (2.28) поведе- ние, очевидно, есть максимизация rt («rf, ^), т. е. абсолю-
§ 10] ПРИНЦИП НАИЛУЧШЕГО РЕЗУЛЬТАТА 91 но оптимальная стратегия. Результат (2.28), очевидно, будет равен (2.10), несмотря на совершенно однозначное поведение всех игроков. Это происходит потому, что в формуле (1.12) (и ее обобщениях) абсолютно оптимальные стратегии являются в то же время и стратегиями наказа- ния остальных игроков. В данной игре интересы всех в определенной степени противоречат друг другу. Тем не менее мы уже знаем, что коллективные решения здесь могут дать совершенно иные результаты. К похожим послед- ствиям приводит и замена X? на другие множества страте- гий. Так,'при п = 2и0^>1 в (1.13) наблюдается карти- на, аналогичная только что указанной для «дилеммы за- ключенного». Задача (2.28) приобретает аналитический вид, если множество Е можно описать условиями ф (5^, х19 . . . . . ., хп) 0. При этом мы приходим к выражению max inf /1(^1,..., хп)9 ф (х19х19 . . ., хп) 0, называемому в литературе максимином со связанными пе- ременными. Покажем теперь, что любая такая задача сводится к игре двух лиц с фиксированным порядком хо- дов и фиксированными множествами стратегий. Действительно, пусть игроки имеют критерии эффек- тивности = /1 •• • •> ^2 = {min [ф (®i, х); О]2} и делают выборы соответственно хг ЕЕ и х ЕЕ X? X X .... X Х°. Первый игрок первым делает свой выбор и передает о нем точную информацию второму. Зная хх, второй, естественно, максимизирует свой критерий по х, что означает взятие в качестве решения любой точки, удовлетворяющей условию ф {х19 х) > 0. Если принять 62 = 0, то это и описывает множество Е (5^) в указанной игре двух лиц. Тем самым максимальный гарантирован- ный результат первого игрока в данной игре как раз и задается исходным максимином со связанными пере- менными. Если отказаться от хороших аналитических свойств, то любое множество Е (й2) представимо с помощью харак- теристической функции ф (Жх, х) в пространстве (х19 х).
92 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II Тогда в качестве функции <р можно взять ф (х1У х) — 1, и мы имеем следующее утверждение, интересное, правда, только с общеметодологической точки зрения. Теорема 2.4. С точки зрения максимального гаран- тированного результата первого игрока любая игра с фик- сированным порядком ходов и фиксированным множеством Jij эквивалентна некоторой игре двух лиц с множеством стратегий и Х^Х . . . X Хп и 62 = 0. Это обстоятельство усиливает интерес к общим исследо- ваниям игр двух лиц. Характерно еще, что в указанной игре двух лиц первый критерий не зависит непосредствен- но отЖ1? т. е. эта игра имеет вид простейшей модели иерар- хической системы (1.14) — (1.15). Основная сложность игры заключена здесь в виде критерия второго игрока и множества Задачи типа (2.28) являются, вообще говоря, гораздо более сложными, чем задачи (2.10). Это хорошо видно из попытки сведения (2.28) к задаче оптимизации путем вве- дения дополнительной переменной и. Так же, как и для (2.10), задачу (2.28), очевидно, можно записать в виде стремления к увеличению критерия и по переменным и и при обязательном выполнении ограничений Д (^1?. . . . . .,. хп) — и 0 при всех (^, . . ., хп) ЕЕ Е (3^). Одна из трудностей состоит здесь в записи совокупности ограничений в виде одного. В случае фиксации хг (напри- мер, как в (2.32)) так, что7? (rrj = {(£i,#2> • • •, ^п)}, можно, например, полагать, что пересечение множества Е (5Х) с любой областью пространства (^i,rr2, . . ., хп) или пусто, или имеет положительную меру. Тогда, как и ранее, ука- занную совокупность ограничений можно представить в виде условия Ф* (хг, и) = § [ft — и — | ft — и |]2 dx2... dxn = 0. (2.35) •E(xi) Внешнее сходство (2.35) и (2.14) не должно обманывать; область интегрирования в (2.35) зависит от хг. Поэтому, если применить метод штрафных функций, как в (2.16), то отыскание максимума по ху будет существенно затруд- нено из-за указанной зависимости; так, например, даже при дифференцируемой функция Ф* может и не иметь градиента. Сказанное относится, конечно, и к использо-
§ 11] СИТУАЦИИ РАВНОВЕСИЯ 93 ванию леммы 2.1. Еще более сложно положение дел для произвольных когда даже мера на Е используе- мая для образования Ф*, должна зависеть от вида х±. Все эти затруднения требуют разработки приемов решения задач типа (2.28) в конкретных условиях. Некоторые час- тные результаты, полученные в данном направлении, будут далее приведены. Трудности полного решения задач (2.28) (впрочем, как и (2.10)) заставляют часто отказываться от точного поиска глобального максимума. В качестве замены может рас- сматриваться и локальный максимум вблизи какой-то данной стратегии. Если и эта задача сложна, то целесооб- разен переход даже к выбору из нескольких заданных стратегий. Однако во всех случаях нижняя грань в (2.28) должна быть глобальной и вычисляться достаточно точ- но. Таким образом, весьма существенными становятся методы поиска глобального экстремума. § 11. Ситуации равновесия Рассмотрим случай отсутствия природных неопреде- ленностей в игре. Тогда, согласно Нэшу [2], ситуации равновесия (^f, . . ., ^) относительно Хг X . . . X Хп при определяются (если они существуют) сле- дующими условиями, выполненными для всех i = 1, . . ., п: $%) = max y.i, £гр+1,..<). (2.36) Уг^-^i Ситуация равновесия называется строгой, если максимум в (2.36) реализуется в единственной точке для всех i = 1,... . . . , п. В противном случае ситуация равновесия нестро- гая. Аналогично определяются ^-ситуации равновесия (^, . . ^): /1 (Ж1, . . fn) >_sup fi (Ж', . . yi, $+1, — g. У (2.37) Из самих определений *) следует, что ситуации равновесия *) Благодаря приему штрафования (1.25) при наличии сложных множеств Pi нет необходимости во введении иных определений [53].
94 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II осмыслены для объективного описания игры или для случая точной информированности оперирующей стороны об интересах других игроков. В современной теории бескоалиционных игр считается рациональным выбором для всех игроков — придерживать- ся ситуации равновесия, т. е. выбирать Рацио- нальность такого поведения видится в том, что отход од- ного игрока от ситуации равновесия (в то время как ос- тальные ее придерживаются) не сулит ему выгоду, а в случае строгой ситуации приведет к уменьшению для него результата игры. Отметим взаимосвязи между этим спо- собом рационального выбора и стратегиями §§ 8, 9, 10. 1) Если все игроки придерживаются одной и той же ситуации равновесия, то Z-й игрок получит результат, не меньший Lt [XJ. Действительно, из (2.36) следует для любого А (??, • • • Лп) > /г (^1, • • •, АР-1, у f?+1, . . £п) > > Jnf /,(«!, . . Ж{-1, У I, ?i+i, • • - , Хп). Далее, в силу произвольности yt имеем /г ?n) >_SUp Jnf yit . . Яп) = Li [X;]. XjfEzXj Однако при Xt = Xi даже строгость ситуаций равновесия не гарантирует, вообще говоря, получения результата большего, чем Д-, как это хорошо видно, например, для случая независимых интересов Д = если все <pz строго вогнуты. 2) Если ситуация равновесия нестрогая для f-го игро- ка и все игроки, за исключением г-го, ее придерживаются, то этот игрок, ничего не теряя, может взять любую другую стратегию, реализующую максимум в (2.36). При этом другие игроки могут и проиграть. Если для i-ro игрока А (^?, • • .,^п) ~ LilXiJ, то для него естественнее упо- требить максиминную стратегию, чем придерживаться ситуации равновесия. 3) Если ситуации равновесия на X? X ... X Хп стро- гие, а у г-го игрока есть какая-то стратегия rf из Xt zd
§ 11] СИТУАЦИИ РАВНОВЕСИЯ 95 zd Xi, то, применяя xf, он получит ровно столько же, как и в ситуации равновесия; другие игроки при этом ничего не проиграют, а i-й получит гарантированный результат. Действительно, пусть (rrf, . . ., х^, . . ., х%) — ситуа- ция равновесия. Очевидно, из определения xf (2.18) и из (2.36) следует А (*1, • • ,, • • •, хп) = = sup А (х%,.. ., х^, х{,..,, = fi (rrf,. .,,xf, ..., х%). xi^Xi Отсюда в Силу строгости ситуации равновесия имеем, что в точке (rrf, . . ., х^, af+1, . . ., х%) значение функции xf равно х^, а это и означает справедливость сделанных выше утверждений. 4) Если в игре двух лиц у одного (например, первого) из игроков есть £= Хг, то в игре существует ситуация равновесия на Xr X Х%, если только функция /2 (Зс*, #2) непрерывна по х2. Действительно, выберем х2 так, чтобы /2 (^i, Х1) = пхах A (#!, х2\ х2 Тогда в силу определения ситуация х^) есть, оче- видно, ситуация равновесия. 5) Пусть в игре существует несколько ситуаций рав- новесия на Xt X . . . X Хп и известно, что все игроки придерживаются выбора только из ситуаций равновесия. Пусть, далее, фиксация х± ЕЕ Х± однозначно определяет конкретную ситуацию равновесия. Тогда, если первый игрок имеет право первого решения, то его максималь- ный гарантированный результат равен результату, кото- рый дает наилучшая для первого игрока ситуация равно- весия. Действительно, он обеспечит себе этот результат, выбрав соответствующую этой ситуации равновесия, и точно сообщив свой выбор остальным. Лучшего же ре- зультата он достигнуть не может, ибо сам придерживается ситуаций равновесия. Если в этой же игре первый игрок перестанет придер- живаться ситуаций равновесия, а будет исходить из мак- симального гарантированного результата при передаче
96 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II остальным точной информации, то он не может проиграть по ожидаемому результату. Это следует из того, что ука- занный выше его выбор есть один из сравниваемых при использовании принципа максимального гарантированно- го результата. Пример биматричной игры 2; 2 3; О 0; 0 1; 1 с единственной на Х° X Х% ситуацией равновесия х± = 2 = х2 показы- вает, что решение по принципу максимального гарантиро- ванного результата (хг = 1) может дать результат, луч- ший равновесного (даже для обоих игроков). 6) Если в игре только что рассмотренного типа фикса- ция еще не фиксирует ситуации равновесия, то резуль- тат (2.28) будет не меньше, чем наилучший по xf из наи- худших при данном результатов, которые обещают первому игроку ситуации равновесия. Ясно, что он может быть и хуже, чем тот, что максимально могут обеспечить первому игроку ситуации равновесия. 7) В играх с побочными платежами ситуациями рав- новесия на X? X ... X Хп могут быть только ситуации с ztj = 0. Это ясно из определения (2.36), поскольку мак- симум wt по Zij в (1.32) достигается только при Zij = 0, каковы бы ни были х и |3. Добавим еще два свойства, связывающих ситуации равновесия между собой. 8) Если (#i, х2) есть ситуация равновесия в игре двух лиц на Х± X Xl, то она остается ситуацией равновесия и относительно любых Х± X Х% и X® х %2- Действительно, rrf ЕЕ Хг и для любой ЕЕ Х± имеем /i (^i, 4) < max Л 4) = А (^Г, xl), Х1 а потому и /1 (Xi, xf) = max /х(5*1, xlY что в совокупности с /2 (^1, ^2) = max /2 (rrf, х2) и доказывает утверждение.
§ ii] СИТУАЦИИ РАВНОВЕСИЯ 97 9) Если {ref, . . Хп} является ситуацией равновесия на Х± X . . . X Хп, то она является и ситуацией равно- весия на ij X . . X Хп, если, конечно, все Xt ~Э Х\. Условия существования ситуаций равновесия, равно как и способ их нахождения, могут быть сведены к вы- числению максимина, аналогично теореме 2.1. Совокупность множеств стратегий Xt (i = 1, . . ., п) будем называть регулярной, если для всех I = 1, . . ., п Xt ZD XQi и если она обладает следующим свойством. Пусть совокупности {£п . . ., %п} (Xi е= Xi), в силу зам- кнутости игры, отвечает ситуация {х19 хп}. Тогда со- вокупности {х19 . . ., Xj, %j+lf . . %п} отвечает та же ситуация {х19 . . ., хп}. Примером регулярной сово- купности является система, в которой Xt состоит только из стратегий вида хг (х19 . . ., яи1) (и, в частности, систе- ма Xi, i == 1, . . ., п). Тео рема 2.5. Ситуация равновесия в игре п лиц с регулярной совокупностью множеств {Хх, ...» Хп} су- ществует тогда и только тогда, когда max inf { min [ft (£ь..., $n) — l<i<n - ft (^,..., yi9 Xi+1,..., O) = 0- (2.38) При этом каждая ситуация равновесия реализует макси- мин (2.38) и, обратно, каждая реализация этого макси- мина есть ситуация равновесия. Доказательство. Прежде всего, из Х1аХг следует, что sup Л(^,..., yi, £i+1,.. ., тп)< < sup Д (^,. . .., £п). Но, и обратно, поскольку в силу замкнутости игры любая ситуация . . ., $п} определяет некоторую ситуацию {х19 . . ., хп}, то вследствие регулярности ft (^19 • • ^19 • • •» #п) И® fi (^1» • • %i9 %i+i9 • • *9 %n)- 4 Ю. Б. Гермейер
98 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II Поэтому А (*^1, • • •, • • •, *^n) Slip f j (Xj;, . . ., %i—lt • • •, *^n)» xieXi и, следовательно, sup fi (£n.. г/i, zi+1,..%n) Vi^i = sup £n). (2.39) Пусть теперь {^f, . . есть ситуация равновесия; тогда из (2.36) и (2.39) следует для всех i fi (®1...®п) — — sup fi (rf,..yi 4+i,..хр) = 0. (2.40) ViSX® С другой стороны, для всех ситуаций и любых i из (2.39) имеем А (#1, . . тп) — sup fi (^1, . . Xi-!, ^i+i, . 4)<0. (2.41) Из (2.41), очевидно, получаем min inf [A(^i> • • •, #n)— — A (^i, • • •, A-i, Уь ^i+i, • • •> $n)l < °, (2.42) в то время как (2.40) означает, что при = £f, / = !,... . . п, выражение (2.42) равно 0. Но из этого немедленно следует и (2.38) и то, что {^f, . . .,#£} реализует этот максимин. Пусть теперь выполнено (2.38) и {®х, . . ., ^п} — ситу- ация, реализующая максимин. Тогда в силу (2.39) получаем min [А(^ь ..^п) — 1<г<п * — sup ft (ici,..жг‘_ь %г, 4+i,..4)j=о.
СИТУАЦИИ РАВНОВЕСИЯ 99 § И] Отсюда в силу неположительности выражения в ©кобках имеем для всех i fi (Й, • • •> ^n) = sup fi (^, ..Сь #i+D • • •, ^п)« А это и означает, что . ., Гп} есть ситуация равно- весия. Так же, как и в случае стратегий £*, теорема 2.5 позволяет сводить проблему отыскания ситуаций равно- весия к обычной оптимизационной задаче. Замечания. п 1) Основная идея этого результата с операцией 2 i=l вместо min и первое его доказательство в частном случае принадлежат Никайдо и Исода [24]. Его значение было подчеркнуто в работе [25]. Результат [24] широко используется для создания алгоритмов [53]. 2) Заменяя (2.38) на неравенство, аналогичное (2.20'), можно говорить о 8-ситуациях равновесия и даже просто о стремлении к чему-то, похожему^ на равновесие, если реализовать максимин (2.38), невзирая на его величину. 3) Если множества Xt не образуют регулярной сово- купности, то, как легко видеть из доказательства, теорема 2.5 остается справедливой, если вместо inf рассматри- вать inf . Однако практическое применение теоремы при этом, конечно, весьма затруднено из-за невозмож- ности использования представления типа (2.14). Покажем теперь, что всегда мыслима такая взаимная информированность, что для любого 8 0 существуют е-ситуации равновесия на соответствующих Xt. Это спра- ведливо, например, когда множества X?, i ~ 1, . . ., п, состоят из любых функций вида (х17 . . ., Дей- ствительно, выберем (xlt . . ., хп_г) из условия fniXll •••» ^П-1? %п (#Ь •••? ^п-1)) > sup /п(^, ...,ЯГП) —8 = sup /п(^1, ...,^п-1,^п) —8. ,4*
100 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II Но фиксация = xv £п_х последовательно оп- ределяет некоторые хи . .., хп^, и потому для спра- ведливо при любых тх, . . ., хп_г •••, ^п-1, ^п8) > sup /п(^1, 2П) — 8. (2.43) £пех£ Фиксируя х^ (#!, . . ., хп_^) и обозначая /п-1 (^1» • • •» ^71-15 ~ f П-1 (#!> • • •» ^П-1)> можем для fn_t определить %n-i (совершенно аналогично причем будем иметь /п-1 (^1? #п-2? #п-1, ) = /п-1(#1> •••, ^п-2, ^п-1) > SUp /П-1 (%!, %П-2, ^п-1) — 8 = = SUp /п-1(5*1, •••» ^п-2» ^п-1» %п ) — 8 (2.44) хп-1^^п-1 ДЛЯ ЛЮ6ЫХ £х, . . ., 5?п—2* Определив так последовательно все £р8 и подставив их в (2.43), (2.44) и аналогичные неравенства вместо произ- вольных убедимся в том, что (5^е, . . ., £р8) действи- тельно е-ситуация равновесия. Если множества X? сос- тоят из конечного числа точек, то указанное построение позволяет получить и точные ситуации равновесия. Проанализировав данную процедуру, легко убедиться, что на самом деле построена ситуация равновесия, обла- дающая особыми свойствам, аналогичными свойствам аб- солютно оптимальных стратегий. Именно, верна Теорема 2.6. Если Xf, i = 1, . . ., и, состоят из всех функций вида хг (хг, . . ., ^г-_х), то для любого ъ существует такая ^-ситуация равновесия {'гр8}, что при любых для j <Z.i filfr,Hi-lt С, Cv ...,%¥)> > sup fi (3flt Xi-lt yit Xi+!, Xn*) — 8. (2.45) Таким образом, стратегия Xn* e-абсолютно оптимальна для n-го игрока на Х? X ... X Аналогично при фик-
§ 11] СИТУАЦИИ РАВНОВЕСИЯ 101 сированных xf+1, . . х\ стратегия абсолютно опти- мальна с точностью 8 на Xf X ... X Xf_x. Для построе- ния х* Z-му игроку не нужно знать интересы и стратегии предыдущих игроков; достаточно знать стратегии пос- ледующих игроков (/ г), не обязательно зная их кри- терии Решение последнего игрока о применении своей абсолютно оптимальной по существу, предопределяет и решение (п — 1)-го игрока о Й-i» если только n-й игрок заранее сообщит свою стратегию х^. Точно так же процесс принятия решения может про- текать и дальше. Интересно сравнить его с аналогичным процессом, использующим подход (2.28) — (2.29) в со- четании с процедурой типа динамического программиро- вания. Ограничимся для простоты случаем совпадения объективного и субъективного описаний игры и передачи Z-м игроком точной информации о хг последующим игро- кам. Тогда для n-го игрока при = хг, = xt (rr1? . . . . . ., xt_-^ фиксация всех xt при I п — 1 полностью задает обстановку в виде (х^ х2, . . x^-^ и ему, естест- венно, следует максимизировать /п (xv. . ., хп_±, хп) по хп. Максимизация с точностью 8 приводит к множеству Е* (%19 . . ., %n-i) векторов хп (и к стратегии х%* (х19... . . ., хп_г)), которое и определяет, очевидно, Е (х^ . . . . . ., ^n-i) в (2.29) при к == п — 1. Но реализация с точ- ностью до 8 (2.29) при фиксированных . . ., $п_1 (т. е. при фиксированных (х±, . . хь . . ., хп_2)) определяет соответствующее множество Е* (хг, . . ., хп_2) векто- ров Хи-^. Множество Е (х17 . . ., хп^2) равно при этом (J Е (£1? . . ., хп_2, хп_^). Продолжая этот процесс, мы определим последовательно все Е (х17 . . . . . ., соответствующие рациональные стратегии игро- ков, и результаты (2.29), пока не дойдем до (2.28) — наи- лучшего гарантированного результата первого игрока. Можно убедиться, сравнивая только что описанную процедуру с процедурой, соответствующей теореме 2.6, в их значительном сходстве. Разница состоит лишь в том, что в условиях теоремы 2.6 г-й игрок, выбирая свое по- ведение, знает уже все при / > г, т. е. все выборы
102 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. П после него. Это обстоятельство и позволяет получить всем игрокам в условиях теоремы 2.6 выигрыши заведомо не худшие, чем обещает принцип гарантированного резуль- тата без такой информированности. Пусть теперь дана произвольная игра с полной инфор- мацией, т. е. игра, в которой определена последователь- ность ходов игроков, причем выбор на каждом ходу де- лается по получении информации о предыдущих выборах. Введем дополнительных фиктивных игроков так, чтобы каждый ход делал отдельный игрок, а критерий эффек- тивности его совпадал с критерием эффективности настоя- щего игрока, который делает рассматриваемый ход. В ре- зультате этого преобразования мы сведем общую игру с полной информацией к только что рассмотренной, введя Xf. Используя доказанное утверждение, получим в ка- честве следствия известный результат. Теорема 2.7. Всякая игра с полной информацией имеет г-ситуацию равновесия на соответствующих мно- жествах Xi, 1 = 1,..., п, при любом 8 0. Если мно- жество альтернатив на каждом ходу конечно, то имеется и точная ситуация равновесия. При этом существует ситу- ация равновесия, обладающая по последовательности ходов всех игроков свойствами, аналогичными (2.45). Для полного доказательства этой теоремы необходимо лишь обратить внимание на должное использование (2.45); именно, если (^ , . . ., х^ ~ — полная стратегия г-го игрока, делающего ходы ir, . . ., ik, то по (2.45), очевидно, в частности, имеем А(^, ..., ..., х^,^, 5*+1, ..., xlR, £?+1, ..., ^) > Sup (Xi, ..., Х^—i, Xfa, ..., У ip *** Viz C,e 'Xt. \ ..., ^i+l> •••> %n) Зададим теперь произвольную стратегию xt. Используя указанное выше неравенство, убедимся, что дает ре- зультат разве лишь на s лучший, чем ’ * * *’ £tfc). Последняя в свою очередь дает результат разве лишь на 8 лучший, чем (£ft , . . .,^_2, и т. д. В итоге
§ iii Ситуаций равновесия 103 убедимся, что любая при фиксированных (/ ф I) даст результат разве лишь на к& лучший, чем дает В силу произвольности е отсюда и следует, что {%[, . . . . . -,^п} есть 8-ситуация равновесия. Отметим еще несколько результатов о существовании ситуаций равновесия. Прежде всего, известно, что если в п (1.25) fi (х) непрерывны (причем У| Д = 0), вогнуты по xt i=i И выпуклы ПО (#х, . . ., Xi^ ^г+1, . . #п)> ТО СуЩвСТВуЮТ, ситуация' равновесия относительно Xj X . . . X Хп- Доказательство данного утверждения содержится в [53] вместе с итеративными алгоритмами поиска этих ситуа- ций. Сам Нэш [2] показал существование ситуаций равно- весия относительно смешанных стратегий в конечных од- ношаговых бескоалиционных играх. В работе Куна [3] показано, что применение смешанных стратегий даже в многошаговых играх с конечным мно- жеством альтернатив на каждом ходу и произвольной взаимной информированностью также обеспечивает суще- ствование ситуаций равновесия. Все сказанное выше относилось к случаю отсутствия природных неопределенностей или случайностей. Если же таковые имеются, то ситуации равновесия могут рас- сматриваться при любых фиксированных и, следова- тельно, будут, вообще говоря, функциями этих неопреде- ленностей. Однако тогда необходима информация о кон- кретных значениях Если же таковой не будет, то мож- но говорить о ситуациях равновесия, предварительно осреднив критерии по случайным факторам или взяв от них минимум по неопределенным факторам и объявив по- лученные функции новыми критериями. Во всех этих слу- чаях, по существу, принимаются коллективные решения всеми игроками (кроме природы) о новых критериях эф- фективности или же происходит обмен информацией о pz. Тем самым предельно ясно, что ситуации равновесия не могут, вообще говоря, являться бескоалиционными ре- шениями (как это обычно считается), а основаны хотя бы на коллективном обмене информацией. Коллективность равновесных решений на самом деле имеет место и в случае, если природных неопределенностей нет, что хорошо видно из следующих соображений.
ioi ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II а) Точное знание всеми игроками всех критериев эф- фективности практически невозможно без соответствую- щего обмена информацией. Если же Wi не точно известны игрокам, то они не могут самостоятельно определить объек- тивные ситуации равновесия (даже в случае их сущест- вования), а значит, и принять правильное решение по выбору стратегий на основе принципа равновесия. б) Как правило, ситуации равновесия не единственны и не эквивалентны с точки зрения интересов разных игро- ков. Так, в игре 11(4; 1) (0; 0) 11(0; 0) (1; 4) существует две ситуации равновесия на X? X Х%, дающие результаты игры (4; 1) и (1; 4); первая ситуация более выгодна первому игроку, а вторая — наоборот. Ясно, что если они не договорятся о том, какую ситуацию выбрать, то, по-видимому, первый выберет свою первую стратегию, а второй — свою вторую. В результате оба получают по 0 *). В качестве еще одного примера неединственности си- туаций равновесия можно снова указать на иерархические системы (1.14) — (1.15), где любой вектор и порождает ситуации равновесия (п, яр, . . ., х%), как только xf реа- лизует максимум fi U}). Замена (1.14) на (1.16) не при- водит к большей осмысленности ситуаций равновесия, поскольку в качестве рациональной стратегии центру бу- дет рекомендовано и = 0, так же как и при использова- нии абсолютно оптимальных стратегий. в) Множество ситуаций равновесия, вообще говоря, расширяется при обмене информацией. Так, из свойства 8) (стр. 96) следует, что ситуации равновесия на X? X X Х% остаются таковыми и на X? X X*. Но в последнем случае есть и свои е-ситуации равновесия, полученные по (2.43). Еще хуже обстоит дело с неединственностью ситуаций равновесия, если при разговоре о принципе равновесия не фиксируются конкретные множества а рассматри- ♦) Эти принципиальные затруднения были достаточно ясны уже самому Нэшу.
§ И] СИТУАЦИИ РАВНОВЕСИЯ 105 ваются всевозможные ситуации равновесия при всевоз- можных XL. Наконец, при рассмотрении метаигр [13], [68] (см. также главы III и IV), основанных на многократ- ной рефлексии [16], реализуемой при соответствующем обмене информацией, выясняется, что существуют ситуа- ции равновесия, дающие в качестве вектора результатов любые векторы, не противоречащие соответствующим мак- симинным результатам. Из сказанного ясно, что ситуация равновесия может служить основой бескоалиционного принятия решений, вообще говоря, лишь при выполнении совокупности условий: субъективные описания игры совпадают с объек- тивным, фиксированы множества Хь ситуация равнове- сия единственна. В остальных случаях принцип равнове- сия есть коллективный принцип, требующий определен- ного обмена информацией. Именно из этого тезиса мы и будем исходить в дальнейшем. Наиболее яркое выражение эта коалиционность находит как раз в теореме 2.5, сог- ласно которой принятие решений на основе принципа рав- новесия эквивалентно созданию коалиции с общим кри- терием (который отличается от предложенных в § 5 лишь переменностью ш?): min [f^, — max ..., ..., тп)]. Но в таком случае принцип равновесия следует сравни- вать с другими видами коалиций. Недостатки принципа равновесия уже видны из при- мера с иерархической системой, где он оказывается заве- домо менее разумным, чем (2.28) и, как легко проверить, чем (1.45). Далее, пример игры «дилемма заключенного» ||(10-0) (Г 1^| с еДинственн°й на * X® ситуацией равновесия, соответствующей результату (1; 1), также по- казывает, что другое коалиционное решение (5; 5) может быть значительно выгоднее. Результат (5;’5) получается в (1.45) при рг- -1, Wi = 1. К аналогичным результатам приводит и сравнение ситуаций равновесия и принципа (1.45) в модели соревнования IV § 1, особенно для (1.13). В то же время в модели IX § 1 (см. [54]) использование ситуаций равновесия приводит к весьма рациональным
106 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II решениям. Это хорошо видно после перехода к игре (1.48), еслиф/ (0) = 0 ир^ таковы, что РгФ/ (а,)^> /(<И, • • ai+1, . . ., an) для всех i. Тогда максимум w\ (1.48) по xt при фиксированных остальных выборах достигается (см. принцип уравнивания в [6]) при 0<#i и удовлетво- ряет условию / («1, . . •> • • М ®п) = Pi<pf (а{ — Xi). (2.46) В ситуации равновесия относительно X . . . X условия (2.46) должны выполняться для i = 1, . . ., п. Если ресурсы at — скаляры, то, и обратно, любое решение {х?, . . ., Хп} системы уравнений (2.4(f) явля- ется ситуацией равновесия. Действительно, отклонение какого-либо Xi от х% немедленно приведет или к умень- шению /, или к уменьшению а значит, по (2.46), и к уменьшению (1.48). Если теперь имеется (например, при векторных af) несколько ситуаций равновесия, то в них в силу (2.46) и (1.48) результаты всех игроков опре- деляются значениями одной и той же функции / (х19 . . . ..., хп). Но тогда есть ситуация равновесия, которая явля- ется лучшей одновременно для всех игроков, а потому и при неединственности ситуаций равновесия может явля- ться бесспорной основой принятия решения. Это решение совпадает, как нетрудно видеть, с решением по (1.45) (при одинаковых в этой формуле) и будет обладать тем свойством, что нельзя улучшить одновременно все дос- тигнутые здесь результаты игроков. Кроме того, можно проверить и тот факт, что и группам игроков невыгодно отступать от наилучшей ситуации рав- новесия. Действительно, нри таком отступлении (af — скаляры) или хотя бы один из отступивших увеличит свое xif а значит, и уменьшит (pf (аг — xt) и тем самым свой выигрыш или же все они уменьшат хь а тем самым и / (xt, . . ., хп), а значит, уменьшат и все свои выигрыши по сравнению с равновесными. Таким образом, ситуации равновесия обладают здесь и весьма высокой устойчиво- стью. Сказанное, правда, может несколько измениться при использовании побочных платежей между индиви- дуальными критериями, но тем не менее ясна высокая рациональность использования в модели IX § 1 (при кон-
I 12] преимущества И НЕДОСТАТКИ КОАЛИЦИЙ 10? кретизации (1.48)) ситуаций равновесия. Это обстоятель- ство, безусловно, является следствием существования об- щей составляющей интересов всех игроков. Общие достоинства ситуаций равновесия наиболее яс- ны в случае игр двух лиц, когда ситуации равновесия (во всяком случае, строгие) создают уверенность у каждого из игроков в том, что партнер не будет отступать от соот- ветствующего коллективного решения. При увеличении числа игроков значение устойчивости, обеспечиваемой си- туациями равновесия, естественно, уменьшается, ибо ста- новится весьма вероятным отход от ситуации равновесия сразу нескольких игроков, что может уже быть этим игро- кам выгодно. Поэтому (хотя это нужно уточнять отдельно в каждом конкретном случае) принцип равновесия, ви- димо, имеет смысл в основном для малого числа игроков. Следует, однако, обратить особое внимание на случай, описанный теоремой 2.6. Указанные там специальные ситуации равновесия обладают в силу (2.45) весьма зна- чительной устойчивостью (но требуют для своей реали- зации должного обмена информацией об используемых стратегиях). В заключение параграфа обратим опять внимание на возможности сочетания разных принципов рационально- сти. Так, «равновесие» внутри коалиции может, естест- венно, сочетаться с принципом гарантированного резуль- тата или абсолютно оптимальными стратегиями по отно- шению к природе или остальным игрокам. § 12. Преимущества и недостатки коалиции Как уже говорилось выше, игроку есть смысл вступить в коалицию только тогда, когда ему будет обеспечен в коалиции хотя бы при известном |3 результат больший, чем Li [XJ, где — множество стратегий, соответству- ющих ожидаемой игроком информации о ситуации. Если побочные платежи и объединение ресурсов не предусмат- риваются, то естественно назвать множество sn (Р) -= {(.гъ • • хп) е Рс I /;. Cq, . . хп, р) > > Lt [XJ, i = 1, . . п} (2.47)
108 ЙРЙЙЦЙПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II областью возможных коалиций (или компромиссов) всех игроков при данном 0. В случае, когда возможны побочные платежи и = 1, аналогичное множество есть $»(₽) = {(*!, .... Os Pel S /{(^, .... хп, ₽)>i Li [Xi]} • i=l i=l (2.38') Множества Sn (0) и Sn (P), очевидно, не расширяются при расширении множеств т. е. при росте ожидающейся информированности игроков. Психологически, следова- тельно, более информированные игроки будут менее склонны к объединению. В этом смысле преувеличения своей информированности в субъективных описаниях игро- ков могут послужить определенным препятствием к объ- единению их в коалицию. Формально такое препятствие к объединению всех игроков в одну коалицию можно запи- сать в виде Sn = ф или Sn = ф• Такая ситуация в случае (2.38') кажется весьма вероятной, если 0 фиксировано и в составе игроков есть игроки, придерживающиеся про- тивоположных или «почти противоположных» интересов. Если, например, п — 2, интересы игроков антагони- стичны, причем существует седловая точка, то невозмож- но одновременное выполнение Lr и А2 и, зна- чит, Sn — ф. Если седловой точки нет и у обоих игроков не ожидается информации о ходе партнера, то Sn Ф ф и компромисс в принципе возможен, поскольку [X?] < L± [X?] - —Л2 (Х2°). Если же каждый из игроков (субъективно) ожидает полной информации о другом, то компромисс невозможен, ибо Lr [X*] + Z2 [Х2и] - Lr [X*] - Lr [X?l > 0, в то время как 0. В последнем случае невозмо- жен, конечно, и компромисс на основе побочных платежей, если 'ки = 1. Если кроме этих игроков есть и другие, то даже при отсутствии побочных платежей положение дел может
§ 12] ПРЕИМУЩЕСТВА И НЕДОСТАТКИ КОАЛИЦИЙ 109 измениться. Так, при = х3 (х2 — х^ = —w2l w3 = xt 4- х2 4- х3, 0 < < 1, -0,5 < х2 < 0, -1 < х3 < 1, (2.48) имеем, очевидно, Lr [Xf] = -0,5, L2 [Х2и] = -1, L3 [Xf] = 0,5. Точка (0, 0, 1) принадлежит Sn и дает всем игрокам ре- зультат лучший, чем гарантированный при абсолютно оптимальных стратегиях. Особенно показателен пример (1.13) при 0 = 1. Здесь интересы любых г-го и /-го игро- ков антагонистичны, если фиксированы остальные xt. Кроме того, имеются и абсолютно-оптимальные стратегии. Тем не менее Sn ф при п 3 и = Х°, так как X} = . . . = хп = 0 обеспечивает получение всем игро- кам Wi 2 при Li = 1. Еще большие возможности компромисса создают, ко- нечно, побочные платежи. Так, в примере (2.48) точка (1, 0, 1) дает w1 = —1, w2 = 1, w2 = 2, что при побочных платежах (см. (1.38)) zx = 1, 3, z2 = —0,65, z3 = —0,65 обеспечивает игрокам получение величин 0,3; 0,35 и 1,35. Впрочем, здесь непустота 5°, очевидно, следует прямо из определения (2.47). Столь же показателен и упоминавший- ся выше пример (1.51) — (1.52). Компромисс возможен, как правило, и в игре с нулевой суммой нескольких лиц, если игроки не имеют информации о ходах друг друга. Действительно, пусть все Li [X?] реализуются и х\ — соответствующие максиминные стра- тегии; тогда, очевидно, ft (4, . . ., х») > Li [X?], причем, как правило, хоть одно из неравенств строгое. Но тогда применение побочных платежей позволяет обес- печить Sn ф. Однако даже и в отсутствие побочных платежей и при использовании Xf компромисс часто возможен. Так, при = w2 = х3 (х2 — х^) = —0,5ш3. 0 < < 1, —0,5 х2 0,5, 0,5 х3 1 М [ХЛ = -0,5 = L2 [Х?1 и Дз [Xf] = -0,5.
НО принципы йыёора рациональных стратегий [ГЛ. п Точка (0, 0, 0) дает всем результаты, значительно превы- шающие Lt [Xf]. Существенным элементом, способствующим созданию коалиций, несомненно является наличие множеств Pt, накладывающих совместные ограничения на все Xt (если, конечно, р Pt ф ф). Это особенно ясно, например, если множество «физических» ограничений Рф таково, что при любом Xi есть такие х19 . . х^ Х{+19 . . хП9 для кото- рых (х19. . хп) её <РФ. В этом случае (1.25) или (1.25') дают Li [X?] = — оо и, если Q Pi Ф ф9 то не пусто и Sn. Именно это имеет место в модели VIII § 1 после вве- дения ограничений (1.21'), что является формальным под- тверждением естественности коалиционных действий в слу- чае, когда игрок на самом деле один, но располагает век- торным критерием. Аналогично обстоит дело и в случае, если «физические» ограничения отсутствуют (Рф = Xj X X ... X Х£), но при любом хг существуют такие х19... . . ., Xi-.19 #i+1, . . ., хП9 что полный вектор (х19 . . .9 хп) попадает за пределы Рг«. Такое положение вещей возникнет при полном объединении ресурсов всех игроков, если счи- тать, что попадание любого игрока в запрещенную для него ситуацию соответствует тому, что ему не выделен объединенный ресурс. Все сказанное буквально переносится на случай, когда обсуждается вопрос о необходимых условиях объединения в коалицию т <1 п игроков. Для этого достаточно причис- лить вектор, выбираемый остальными игроками, к неопре- деленным факторам р. Целесообразность объединения лишь части игроков становится естественной, если Sn = ф или если Sn = ф, причем побочные платежи невозможны. Появление частичных коалиций возможно из-за того, что некоторые игроки могут пытаться получить в меньшей коалиции побольше. Такой мотив в поведении игроков при определенных условиях будет обсужден в этом же параграфе. Однако прежде остановимся на довольно есте- ственных требованиях к любой коалиции, требованиях, которые связаны с понятием о неулучшаемых значениях вектора критериев эффективности. По традиции ограни- чимся случаем, когда предполагается получение точной информации о р.
§ 12] ПРЕИМУЩЕСТВА И НЕДОСТАТКИ КОАЛИЦИЙ 111 Неулучшаемым вектором результатов [Д (я0, |3), . . . . . ., fn (#°, Р)] (вектором Парето) при данном Р и f Е ЕЕ pPf = Рс будем называть такой вектор, для которого ИЗ X ЕЕ Рс и fi (*°, ₽) < fi (х, Р) следует Г/г (*, ₽) = h (А 0). Соответствующий вектор х9 часто называют эффективным вектором. Множество неулучшаемых векторов обычно называется множеством Парето. Мы сохраним это назва- ние для подмножества неулучшаемых векторов, которые удовлетворяют естественному дополнительному условию fi СА Р) Pi t^zl> 1 п. Только такие неулучша- емые векторы могут появиться в результате создания ра- зумных коалиций (они образуют переговорное множество [1 ]). Часто считается, что только такие коалиции (компро- миссы) рациональны, в которых результаты участников суть векторы из множества Парето. Дадим один из возмож- ных способов отыскания векторов Парето [55]. Теорема 2.8. Пусть на множестве Рс все fi (х, Р) непрерывны по х и вектор р 0. Решение задачи max У, fi(x, 0), Тр = {х е Рс | rnin Pi (fi (х, 0) — w°i) > 1<г^п max min pt (Л (х', 0) — и%)} (2.49) x'gp i<i<n есть эффективный вектор. Наоборот, любой эффективный вектор х9 может быть по учен как решение задачи (2.49) при некоторых р 0 и ft (#?> |3), i — 1, . . ., п. Доказательство. Пусть х9 есть решение задачи (2.49) и существуют х ЕЕ Рс и 10 такие, что fi (хг, |3) > ft (х°, 0) при г =# i0 и fia (х, 0) > fi, (хй, 0). Тогда min рг (fi (х', 0) — Wi) min pi (fi (хй, 0) — w?) > max min p^ (/^ (xr, |3) ip?), т. e. x’ EE Tp. x'EPr
112 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II п п Но тогда неравенство 2 fi(x', ₽)> Л(я°, 0) противо- i=l i=l речит свойству х°. Противоречие доказывает, что ж0 — эффективный вектор. Пусть теперь х° — эффективный вектор; тогда согласно условию теоремы (xQ, 0) — 0. Возьмем Pi = 1/[/г (я°, 0) — иД]. Пусть х' — любой вектор из Рс. Тогда из-за эффективно- сти xQ найдется хотя бы один номер г0, для которого fi (х\ 0) < /го (*% 0), а значит, Pi [fi (х', 0) — < Pi [/г (*°, 0) — *4] = 1- Но тогда и min рЯЛ (х, 0) — wl] < 1 = min pj [fa (xQ, p) — w?], l<i<n l<i<n что означает выполнение условия х° ЕЕ Гр,. Пусть теперь х' ЕЕ ТР', тогда fi (х, 0) Д (xfa 0). Действительно, если бы существовало г0, для которого fi9(xfa 0) < fi (я0, 0)> т°, рассуждая так же, как и выше, мы получили бы min р^ [fi (х\ 0) — wl] 1 = max min p$ [ю$ (x, 0) — w?J, l<i<n xGPc t. e. x'ze T?’, что противоречит исходному предположению. Но если fi (х', 0) fi (xl, 0), то в силу эффективности xQ имеем fi (хг, 0) = /г- 0), и, следовательно’, х* действи- тельно реализует (2.49) при р = р'. Замечания. 1) Из доказательства второй части теоремы фактиче- ски следует, что всегда существуют такие р, для которых все точки Тр эффективны и дают, конечно, один и тот же данный неулучшаемый вектор результатов. 2) Для практического определения всех векторов из множества Парето лучше использовать wl < изменяя р, получим все множество. Теорема 2.8 еще раз убедительно свидетельствует в пользу записи критерия коалиции в виде (1.45), по- скольку при этом в числе рекомендуемых векторов х
§ 12] ПРЕИМУЩЕСТВА И НЕДОСТАТКИ КОАЛИЦИЙ ИЗ всегда будут и эффективные для коалиции. Более того, за- мечание 1) говорит о том, что pf всегда можно выбрать так, что максимизация (1.45) будет давать только эффективные точки. Однако следует заметить еще, что при выборе коа- лиции (т. е. р) игроки, видимо, будут прежде всего старать- ся, чтобы их результаты были побольше. Поэтому стрем- ление к наретовским векторам не выглядит полностью безусловным. Но уж заведомо безусловно стремление к получению результатов, неулучшаемых сразу для всех игроков. Однако, как это уже упоминалось, максимизация (1.45) всегда дает только такие результаты. Удобство (1.45) заключается еще и в том, что необходимое условие создания коалиции Sn ф при записывается в виде требования, чтобы максимум (1.45) был положи- телен. Перейдем теперь к вопросу о том, имеются ли общие основания для оценки выгодности коалиционных дейст- вий, которые мы теперь уже достаточно уверенно (при математических исследованиях) можем отождествлять со стремлением максимизировать (1.45) при тех или иных век- торах (рх, . . ., рп) и (ipJ, . . ., ip®). По-прежнему будем полагать, что коалиция будет получать достаточно точную информацию о р. В качестве первого подтверждения вы- годности коалиционных действий приведем все ту же тео- рему 2.8, поскольку получение паретовских или неулуч- шаемых по всем компонентам результатов возможно в ре- зультате коалиционных действий. Тем самым, очевидно, что если (й?х, й?2, . . ., wn) — сово- купность конечных результатов, достижимых при каких-то допустимых для всех i векторах (xv . . ., хп, Р), то резуль- тат не хуже этого для всех игроков обеспечен в случае оптимизации (1.45) при том же Р и некоторых р^. Чтобы непосредственно убедиться в этом, достаточно взять zt = = 0 и Р; = тогда при х19 . . хп, (5 критерий (1.45), очевидно, равен 1, а его верхняя грань по х и z будет, конечно, или больше 1, или по крайней мере равна 1 и при этом достижима. Таким образом, всегда существу- ют допустимые и z^ такие, что • - о~ — wi+ zi] > 1 wf— wi
114 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II для всех i, а это и означает, что Wi + zi wit В силу ска- занного оптимизация (1.45) при соответствующих (даже при zt = 0) даст игрокам возможность получать результаты не худшие, чем дают ситуации равновесия от- носительно любых Xt, . . Хп при известных 0г-. На при- мерах мы уже убедились, что коалиция с использованием критерия (1.45) может оказаться и значительно выгоднее, чем ситуации равновесия. Интересно обратить внимание также на то, что (1.45) позволяет с помощью чистых стратегий (т. е. без риска, связанного с использованием смешанных стратегий) по- лучать результаты не худшие, чем дают ситуации равно- весия в смешанных стратегиях. Это обстоятельство оче- видно даже при zt = 0, если п = 2 и интересы игроков противоположны при непрерывных (^ = — w2) на Х[ X Х2 и [XJ] #= Lr [XfL Действительно, пусть цена игры v при этом расположена строго между реализуемыми L± [X?] и Lr [XfL Тогда в силу непрерывности функция принимает все промежуточные значения, в том числе и к; соответствующие х±, х2 реализуют для обоих игроков требуемый результат при использовании (1.45), в котором Р1 = —о , р2 = -—Т , = V И V2 Справедливо следующее общее утверждение (0 фикси- ровано). Т е о р е м а 2.9. При использовании ничем не стеснен- ных (кроме (1.39)) побочных платежей в коалиции всех игроков (1.45) при надлежащем выборе рг- результаты игроков, достижимые в чистых стратегиях, не хуже тех, которые они могут получить, используя любые сме- шанные стратегии, заданные на Рс, в том числе и равно- весные. Доказательство. Действительно, введем лю- бые смешанные стратегии (пусть даже произвольно зави- симые для всех игроков) в игре с иц. При этом заме- нится на математическое ожидание по некоторой вероят- ностной мере o’, т. е. (<у)=Мо (цщ).Введем для игры с кри- териями Wi (o') при любых стратегиях о* коалиционный критерий (1.45), где р{ = —--Поскольку при о = (Оо) — “’i — и Zf. = 0 мы получаем 1, то тем более верхняя грань —V.
§ 12] ПРЕИМУЩЕСТВА И НЕДОСТАТКИ КОАЛИЦИЙ 115 (1.45) по o' и z или больше 1, или же равна 1 и, следова- тельно, достижима. Тем самым, в коалиции достижим результат, не меньший (о^), при любой данной сг0. Но, как мы уже знаем, оптимизация (1.45) при произволь- п ных z (кроме 3 ^=0) эквивалентна оптимизации по о: 2=1 П П 2 (<г) = ма [ S ] • 2=1 2=1 Последняя задача (во всяком случае, с точностью до любого 8 0) решается с помощью чистых стратегий, а п именно тех, которые реализуют sup Но она опять- XG Рс г=1 таки эквивалентна оптимизации (1.45) с указанными выше Рг, но уже в чистых стратегиях; это обстоятельство и ра- венство суммарных результатов и доказывают наше ут- верждение. Поскольку при ivl — Li [X?J для любых р имеет место п а 3 — 3 0 (при разумных стратегиях), то сказанное 2=1 2=1 в § 7 позволяет заключить, что и при неизвестных случай- ных р остается справедливым утверждение теоремы 2.9 о принципиальных возможностях коалиций (1.45). Ана- логичное утверждение, конечно, верно и для неопреде- ленных р, если по отношению к ним применяется принцип гарантированного результата. Если ограничиться коалициями (1.45) без побочных платежей (т. е. при zt = 0), то такие сделанные выше об- щие утверждения перестают быть уже верными. Так, вслед за [31] возьмем (х19 х2) >0 на подмножествах квадрата [0, 1] X [0, 1], определяемых неравенствами 1 1 -----< ^2 — Х1 < 0 И -у < Х2 — X! 1, и положим Ш1 (х1> ^2) = 0 в остальных точках [0, 1] X [0, 1]. Для вто- рого игрока положим w2 (^1, х2) = wr (х2, хг). Тогда имеем в чистых стратегиях Lr [Xj] = L2 [XS] = 0. При любых р/ 0 и любых х19 х2 критерий эффективности (1.45) для--w2 — 0, очевидно, равен нулю, так как и\ — 0 при w2 0 и, наоборот w2 = 0 при w1 0. Таким образом,
116 ЙРИЙЦЙПЫ ВЫБОРА РАЦЙОНАЛЬЙЫХ С^РАТЁГИЙ |ГЛ. II в коалиции (1.45) при использовании чистых стратегий и z = О результаты, большие нуля сразу для обоих игро- ков, недостижимы. В то же время применение первым игро- ком смешанной стратегии в виде равномерного распреде- ления гарантирует ему при любом х2 результат, больший некоторой положительной величины. Аналогично обстоит дело и со вторым игроком. Поэтому применение обоими игроками этих смешанных стратегий дает им одновременно положительный результат, недостижимый в чистых стра- тегиях для коалиции (1.45). В связи с этим возникает вопрос об определении клас- сов игр, для которых (1.45) при z = 0 позволяет обеспечить игрокам результаты в чистых стратегиях (т. е. без риска) не худшие, чем равновесные или максиминные в смешан- ных стратегиях для исходной игры. В работе [31] приведен целый ряд подобных результатов. Так, например, если w2 = / (iTi), где / (t) вогнута, то равновесные результаты в смешанных стратегиях достижимы для коалиции (1.45) при zi == 0 в чистых стратегиях. Теорема 2.9 важна тем, что вполне определенно свиде- тельствует в пользу образования коалиции всех реальных игроков, если, конечно, Sn =# Ф- Использование ее же в случае, когда игроки, не входящие в коалицию, рас- сматриваются как природные неопределенности, показы- вает, что вообще желательно расширение коалиций с по- бочными платежами. Конечно, никак нельзя забывать о случае, когда Рс = П Pi = ф, что препятствует образо- ванию коалиции; возможность появления этого случая возрастает при увеличении числа игроков, вследствие воз- можного различия в представлениях о допустимом поведе- нии. Однако при сравнительно одинаковом представлении множество Рс не пусто, а потому вопрос о целесооб- разности объединения всех игроков во многом опре- деляется возможностью использования побочных пла- тежей. В связи с этим интересно изучить те новые возможности создания коалиций, которые возникают, если рассмотреть повторения игры. Эти возможности связаны, конечно, с тем, что критерий Wi на каждом повторении заменяется средним результатом за 5 повторений. Отметим, что при использовании чистых стратегий и неизменном 0 такой
§ 12] ПРЕИМУЩЕСТВА И НЕДОСТАТКИ КОАЛИЦИЙ результат S 4" •••> х*’ 0) = w‘(xl> -> х‘> 0) (здесь к — номер повторения игры) не превысит для всех I величин J Wi (х, 0) do* = wt (o') при некоторой смешанной стратегии о*. Это следует из того, что если взять дискрет- ное распределение о*, равное частотам появления вектора х в последовательности х1, . . х8, то интегралы (o’) как раз и реализуют w8v Тем самым множество возможных векторов (zz?i, . . ш^) заведомо содержится в множестве векторов результатов, достижимых при использовании смешанных стратегий. Тем не менее в упомянутой же ра- боте [31] показано, что коалиция типа (1.45) без побочных платежей в условиях многократного повторения игры и осреднения результатов позволяет при достаточном числе повторений обеспечить игрокам в среднем результаты, разве только на е худшие, чем любые результаты, дости- жимые в смешанных стратегиях. Дается и оценка числа необходимых повторений. Приведем полностью соответ- ствующую теорему ввиду ее явной методологической цен- ности. Пусть имеется игра при непрерывных критериях Wi (х19 . . ., х1г), xt ЕЕ X?. Рассмотрим игру, получающу- юся при s повторениях первоначальной: #г ($) == (#г > •••» • • •, #г)> ЕЕ -X?, s s 1 V / I I \ — s / , (#!> •••> ^п)> где I — номер повторений. Обозначим через Т множество возможных векторов результатов первоначальной игры в чистых стратегиях, а через Т — выпуклую оболочку Т. В силу непрерывности Wi эти множества компактны. Пусть, далее, R — множест- во точек (ip1? . . ., wn) ЕЕ Т таких, что в Т не существует (и\, . . ., Шп), для которого W{ 4> Wi при всех I. Теорема 2.10. Пусть (^, . . ., tn) ЕЕ Т \ R. Тогда существует s0 1 такое, что для игры с крите- риями w* и стратегиями xt (s)9x\EE в коалиции (1.45)
118 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. П при некоторых рг для каждого игрока в чистых стратегиях достижим результат не хуже соответствующего tt. Доказательство. Очевидно, Т — множество векторов {w^ таких, что = Wi 010 = 5 —> *n)» м где ф — функция распределения. По условию существует ф* (хг, . . ., хп), для которой Wi (ф*) di. Пусть . . ., х1п — случайные векторы, имеющие функцию распределения ф* . . ., х1п)\ вслед за ними случайны и Wi (х{, . . ., х1п) = Wi (Z). Обозначим через дисперсии последних величин, а через Р (Л$) — вероят- ность события 8 л| = У, Wi (4, —, Ж) > di} • 3=1 Из закона больших чисел следует lim Р (Л|) = 1. Для со- S—>оо бытий А{, и А"г имеем Р (О + Р (ЛЭ - Р « и лэ = р (Л?, П ЛЭ- Если Р(ЛЭ>< и Р(Л-,)>*, т0 2^-1<Р(ЛЭПЛЭ. Рекуррентно получим nt-(n-i)<?(Al П - Л Лп). Отсюда, если t (п — 1)/п, то Р (Л^ f] . . . П Л„) 0. Но из закона больших чисел следует существование s0 такого, что Р (Л?’) > Z > (и — 1)/п при всех i. Таким образом, для этого s0 р(л?п... л л?)>о, и, значит, А* П • • • П Лп =# Ф • Поэтому по определе- нию Ар существует стратегия {xi (s0)} такая, что для нее и’? > dj при всех i.
§ 12] ПРЕИМУЩЕСТВА И НЕДОСТАТКИ КОАЛИЦИЙ 119 Полагая в коалиции (1.45), образованной для игры с критериями = —— (где wl’Q есть для zrf), очевидно, и получим требуемое утверждение. Оценку s0 можно, как обычно, получить из неравенства Чебышева PMf)>l- -7 - ,.0 , v v (ф*) —бЛ)2 и, следовательно, D^fl Sq Шах ; । ;п . ккп )-Ч)2 Таким образом, коалиция при достаточном числе повторе- ний игры даже для z ~ 0 оказывается по достижимым ре- зультатам похожей на коалицию с побочными платежами. Повторение игры тем самым также дает как бы некоторый новый вид компромисса между игроками, обладающими достаточным «терпением». Однако теорема 2.9 и последующие комментарии не ос- тавляют сомнения в том, что для коалиции побочные пла- тежи более эффективны, чем повторение игры. Поэтому компромисс с помощью повторения игры следует рассмат- ривать как замену смешанных стратегий, когда разрешен- ные побочные платежи недостаточно эффективны, а риск, связанный со смешанными стратегиями, нежелателен. Следует отметить, что для «терпеливых» игроков осред- нение результатов по повторениям, конечно, не менее допустимо, чем осреднение при использовании рандо- мизации. Все сказанное выше относилось к коалициям без объ- единения ресурсов. Здравый смысл и практика заставляют ожидать еще больших выгод от коалиции с объединением ресурсов. Размер этих выгод зависит, конечно, и от мно- жества допустимых Г и от вида wit Наиболее яркие ре- зультаты получаются при неограниченных побочных пла- тежах, когда оптимизация результата коалиции сводится п к оптимизации 2i Если при этом все по ресурсу вы- г=1 п пуклы, то при объединении ресурсов max^j u>t, как из- i=l
120 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II вестно, достигается на границе. Это означает, что каждая составляющая суммарного ресурса должна использовать- ся концентрированно, т. е. каким-то одним игроком. Та- кой простой вывод отражает известное на практике стрем- ление к специализации при концентрации средств у наи- более квалифицированных (эффективных) игроков. При этом объединение ресурсов будет особенно результативным, если до объединения они в основном находились у игро- ков, которые использовали их малоэффективно. Конкрет- ные примеры легко построить в случае линейных по ре- сурсам Wi (пример (1.51) — (1.52)). Концентрированное использование ресурсов при этом приводит к существен- ному возрастанию результатов игры для неэффективных игроков, поскольку в силу коалиции (1.45) все игроки при данных Pi и оптимальных zt получают результаты тем п большие, чем больше Ji Разумеется, иначе обстоит i=l дело, если побочные платежи сильно ограничены. Как уже отмечалось, при zt = 0 оптимизация (1.45) по Xi и, значит, по распределению объединенных ресурсов эквивалентна нахождению максимального значения и при ограничениях рг (wi — wty — и 0. Если Wi линейны по величинам используемых ресурсов, то мы имеем задачу линейного программирования с п ограничениями. Если размерность вектора ресурсов меньше п, то, как правило, концентрации ресурсов не будет. Таким образом, стремле- ние к специализации и концентрации ресурсов должно быть, видимо, тем больше, чем меньше ограничений нало- жено на побочные платежи. (Разумеется, все это верно в основном для выпуклых платежей.) Довольно естественными ограничениями на z являются связи типа fci to yZi = 0, 2j Zi = 0, и т. д., г=1 что означает разбиение коалиции на части, внутри которых разрешены любые побочные платежи, а между частями они запрещены. При этом внутри частей целесообразна спе- циализация и концентрация, а между частями, как пра- вило, такой тенденции не будет.
I 12] ПРЕИМУЩЕСТВА И НЕДОСТАТКИ КОАЛИЦИЙ 121 Необходимо оговориться, что все указанные свойства распределения ресурсов могут претерпеть существенные изменения при учете природных неопределенностей или возможных противников. Дело в том, что ресурсы обычно распределяются заранее, до получения информации о |3 или об интересах и выборе стратегий других игроков. По- этому распределение ресурсов часто должно производиться на основе улучшения гарантированных результатов, т. е. минимума по |3 или по выборам игроков Xj, не входящих в коалицию. Но операция минимизации переводит линей- ные функции в вогнутые, а для последних максимум чаще достигается внутри области. Таким образом, учет природ- ных неопределенностей и возможных противников должен уменьшать эффективность специализации и концентрации ресурсов и даже делать этот вид использования ресурсов нерациональным. Заметим, что такую тенденцию трудно заметить на традиционных в современной математической экономике линейных моделях при оптимизации их в ус- ловиях полной определенности. Перечисленные положительные свойства коалиций (побуждающие игроков к их образованию) сопровожда- ются, как всегда, целым рядом трудностей, связанных с их организацией, т. е. выбором конкретных (ip? ха- рактеризует минимальные требования отдельного игрока). Относительно просто образование коалиции выглядит в случае, когда цели игроков «качественные», т. е. если их одинаково удовлетворяют любые х из Pt и не удовлетво- ряют х£Ё Pi. Тогда коалиция всех образуется при П Pi ф. Если Wi = 1 при х ЕЕ Pi, то, выбрав = 1 и wl = 0, немедленно получим (1.45) в виде min не- положительность максимума этого критерия (или неуме- ние отыскать положительный максимум) означает, как всегда, что коалиция невозможна. | В иных случаях торг при выборе конкретных рг тре- бует перебора и обследования множества вариантов. При этом могут использоваться соображения типа «угрозы и контругрозы» (см. [5] и [56]), изложение которых выходит за рамки этой книги. Реальное образование коалиций при большом числе игроков требует, конечно, каких-то меро- приятий по сокращению процедуры выбора. Формально
122 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ стратегий [гл. 11 Можно представить себе несколько основных видов таких мероприятий. 1) Диктат некоторой части игроков из коалиции (до- говорившихся уже между собой) над остальными игрока- ми. Тем самым, здесь коалиция в целом образуется как бы в результате активных действий, напоминающих иерархи- ческую систему. Для анализа такой коалиции подходит аппарат § 10. 2) Равновесие между несколькими частями коалиции. Тогда части должны рассматриваться как отдельные, уже сформировавшиеся игроки (см. § 11). 3) Принятие решения по большинству голосов или по какому-то другому признаку силы. Подспудно здесь пред- полагается угроза использования реального диктата. Поэтому этот случай следует, видимо, рассматривать как способ образования части, осуществляющей диктат. 4) Передача решения о выборе на арбитраж неко- торой группе экспертов по выработке «справедливых» величин или других характеристик коалиции. Тради- ционная теория кооперативных игр как раз и представляет собой разновидность попытки такого арбитража на основе проводимых заранее математических исследований. Инте- ресующиеся этими исследованиями могут ознакомиться с ними по исходному труду фон Неймана и Моргенштерна [1] и по книге Оуэна [5]. Здесь отметим лишь весьма крат- ко основные подходы, использующие понятие характери- стической функции v (К), определенной на всех подмно- жествах К исходного множества игроков I = {1, . . ., п}, и являющейся ожидаемым гарантированным результатом деятельности коалиции К. Неопределенности 0 предпо- лагаются отсутствующими. Пусть в игре с побочными платежами коалиция К рассчитывает использовать стратегии соответству- ющие ожидаемой информации об обстановке l(E= I\K), где I \ К обозначает множество всех игроков, не входя- щих в коалицию К. Тогда v {К) = max min У ^i\k)« хк xj\K^K Принципы рационального поведения, основанные на функ- ции v (К), используют только эту функцию, а первоначаль- ные функции выигрыша игроков «забываются».
§ 12J преимущества и НЕДОСТАТКИ КОАЛИЦИЙ 123 Предположив, что любая пара стратегий явля- ется некоторой стратегией легко показать, что функция v (К) является супераддитивной, т. е. V (5) + V (К) < V (S и К), S П - ф. Если функция v (К} дополнительно удовлетворяет ус- ловию v (/) = V (I \ К) + V (К) для любого множества К CZ I, то в этом случае говорят, что игра имеет постоянную сумму и (/). Это, например, имеет место, если все функции (хъ . . ., хп) линейны. Игра называется существенной, если п 1=1 и несущественной, если v(i) = v(I), т. е. 8п = Ф- i=i В последнем случае из свойства супераддитивности выте- кает, что v (i)=v (5) для любого множества 5. Это озна- i£=S чает, что любая коалиция такого вида, по существу, не- целесообразна, и поэтому рассматриваются только суще- ственные игры. Введем следующее определение. Вектор yt, i ЕЕ К, назовем дележом для коалиции К, если выполнены условия: 1) У У1 — и(К), г^К 2) yt v (I), i е к. Условие 1) означает, что выигрыш v (К) целиком де- лится между членами коалиции К. Условие 2) подразуме- вает, что каждый игрок i ЕЕ К может быть в принципе согласен и на выигрыш v (г) (но не меньше!) при вступле- нии в коалицию, т. е. он благожелателен по отношению к коалиции *). ♦) Отметим, что допущение равенства в 2) несколько противо- речит нашим общим высказываниям и суждениям о несущественной игре.
124 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ (ГЛ. И Дележ yi, i 6= К для коалиции К = I будем называть просто дележом и обозначать через у. Задача рациональ- ного поведения неформально состоит в выборе некоторого «разумного» дележа коалицией I. Предварительно вво- дится отношение доминирования между дележами. Говорят, что дележ у доминирует дележ z (обозначение: у >- z), если существует такое множество игроков S, что выполнены условия: 1) Vi> i е S, 2) Здесь условие 1) означает, что игроки из множества S предпочитают *) дележ у дележу z, а условие 2) означает, что дележ у достижим для коалиции S. Интерпретация отношения доминирования состоит в следующем. Пусть коалиция всех игроков решает во- прос, какую из двух альтернатив выбрать: принять у или z. Тогда игроки множества S могут настоять на вы- боре у, угрожая образовать коалицию S и получить вы- игрыш v (S) не меньший, чем 3 У1- ieS Пример. Пусть I = {1, 2, 3, 4, 5}, v (1, 2) == = v (4, 5) = v (I) = 1, v (5) = 0 для остальных мно- (( 1 1 1 \ — , ~, -у’0,0), z = 1 1 1 \ 0, 0, у , у , —) • Видно, что у >- z по множеству S = {1, 2} и z >- у по множеству S = {4, 5}. Этот пример показывает, что отношение доминиро- вания нетранзитивно и по смыслу противоречиво. Определение. Множество С всех недоминируе- мых дележей называется ядром. Джиллис предложил считать «разумным» дележи из ядра [321. ♦) Таким образом, в торге о дележе делается предположение о том, что любому игроку (коалиции) всегда желательно увеличи- вать свою часть дележа. Все существенно изменится, если какой-то игрок обладает определенной нечувствительностью или вообще не етремится к результату, превышающему некоторую границу.
§ 12] ПРЕИМУЩЕСТВА И НЕДОСТАТКИ КОАЛИЦИЙ 125 Теорема 2.11 [33]. Дележ у С С тогда и только тогда, когда TVi>v{S) (2.50) i<=S для любого множества S CZ /. Доказательство. Достаточность утверждения очевидна. Необходимость. Пусть у ЕЕ С. Предполо- жим, что существует множество So CZ I такое, что 3 Уi <V(S0). Покажем, что существует индекс г0 её So такой, что y (U- Действительно, в противном случаеyt = v (i) при i So и = 3 Уг = S Уг+ 5 УгО(Зо)+ У l?(i)<P(/). iei ies0 ieSo ieso Полученное противоречие говорит о том, что требуемый индекс z0 существует. Рассмотрим дележ z: Уг'+Zi. i Е So, Zj — Уг,~2 z = z0, Уг при других i где положительны и 21У г + 21 8г <С v (So), Уч ~ У 8г iGSq i(E~So ifEzSo >f (io). Теперь z >- у, но это противоречит тому, что у ЕС. Теорема доказана. Из этой теоремы следует, что непустота ядра С в игре равносильна разрешимости системы линейных неравенств (2.50). Покажем, что в игре с постоянной суммой система (2.50) не имеет решения. Предположим противное, т. е. что существует дележ у, удовлетворяющий системе (2.50). Из условия постоянства суммы теперь следует, чтоу(5) = = У yi при любом S С /, в частности, yt = v (f). Отсюда les п У yi = 3 что противоречит тому, что у — ie=z i-i
126 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II дележ. Для игр без постоянной суммы ядро С, вообще говоря, не пусто. Условия, необходимые и достаточные для разрешимости системы (2.50), были даны Бондаревой [33]. Итак, основной недостаток ядра — его пустота для многих игр. Изложим теперь кратко введенное фон Нейманом и Моргенштерном понятие решения — исторически первого принципа рационального поведения в кооперативных играх. Определение. Множество дележей V называ- ется НМ -решением, если выполнены условия: а) (внутренняя устойчивость) никакие два дележа из V друг друга не доминируют; б) (внешняя устойчивость) для всякого дележа г/ Е У существует такой дележ z Е V, что z >- у. Недостатком НМ-решения является его неединствен- ность во многихТиграх. Пример. Игра трех лиц с постоянной суммой может быть задана следующим образом: v (1) = v (2) = v (3) = 0, v (1, 2) = v (1, 3) = v (2, 3) - = гл (Z) = 1. Множество дележей 71>е = {у [ уг = е, у2 + у3 = 1 — е} при любом е, 0 е < х/2, является НМ-решением. Не- единственность решения приводит к тому, что игроки должны сначала выбрать некоторое НМ-решение V, а затем — дележ из V. Известно, что НМ-решение существует в любой игре четырех лиц с постоянной суммой. Для игр с любым чис- лом игроков результаты получены только для частных случаев. С большим трудом удалось построить пример игры десяти лиц, не имеющей НМ-решения (Лукас [34]). Недостатки НМ-решения и ядра привели к различным модификациям. Рассмотрим одну из них. Ауман и Машлер предложили [35] в качестве исхода игры вместо дележа рассматривать понятие конфигурации, которое учитывает возможностьТвозникновения коалиционной структуры, т. е. разбиения множества I на коалиции. Определение. Совокупность всех дележей {(уь iE 5); 5 G= U} для коалиций S из некоторой коалици- онной структуры U называется конфигурацией.
§ 12] ПРЕИМУЩЕСТВА И НЕДОСТАТКИ КОАЛИЦИЙ 127 Будем говорить, что конфигурация {(уь i ЕЕ S); S ЕЕ U} доминирует конфигурацию {(гг-, I ЕЕ К); К ЕЕ Q}, если существует коалиция 50 Ez U такая, что щ zt, i G= 50. Нетрудно видеть, что при этом коалиция 50 не может принадлежать коалиционной структуре Q. Множество конфигураций, обладающее свойствами внутренней и внешней устойчивости для отношения доми- нирования, назовем решением в конфигурациях. Вопросы существования и нахождения решений в кон- фигурациях удалось разрешить полнее, чем в классиче- ской теории. Доказано [36], что всякая игра пяти лиц с постоянной суммой имеет решение в конфигурациях. А для игр п лиц указано, как можно произвольно мало изменить значения характеристической функции v (К), чтобы игра имела решение в конфигурациях. Заканчивая краткий обзор классических результатов кооперативной теории игр, отметим, что учет неопреде- ленности |3 или других игроков, заведомо не входящих в /, может весьма существенно изменить все суждения. Так, при одних (3 игра может быть существенной, а при других — нет. Если учесть зависимость дал ежа от р, то доминирование приобретет смысл, похожий на абсолют- ную оптимальность. Но мы уже знаем, что такое поведе- ние не всегда наиболее разумно. Если же принцип дележа брать независимым от |3 (величина и (/) неизбежно зависит от |3), то (из-за зависимости v (5) от |3) неоднозначно по [3 станет выполнение или невыполнение второго условия доминирования. Сказанное означает необходимость (в дальнейшем) ^определенной ревизии основных поло- жений традиционной теории. Обсудив положительные стороны коллективных дей- ствий, перейдем к связанным с ними трудностям. Труд- ности в организации коалиции возникают (даже при уже согласованных pf), если имеется несколько векторов xQ, равноценных с точки зрения (1.45), но не равноценных по критериям отдельных игроков. Эта опасность отсут- ствует при неограниченных побочных платежах, поскольку здесь результат каждого увеличивается с увеличением общего критерия коалиции З^г- Общей трудностью оп- г тимизации критерия коалиции (1.45), как всегда, явля- ется наличие локальных экстремумов. Указанные только
128 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II что трудности не возникают, если критерий (1.45) унимо- дален, например, если он строго вогнут. В этом случае применение осреднения по случайностям и принципа гарантированного результата (т. е. использование опера- ции минимума) не исключает свойства вогнутости и пото- му не создает для коалиции дополнительных затруднений. Существование и оптимизация деятельности коалиции находятся под угрозой возможных сепаратных действий ее участников. В коалиции без побочных платежей та- кая возможность связана с неодновременностью выбора игроками своих составляющих общего вектора х кон- тролируемых факторов коалиции. Так, если хп выби- рается последним и n-му игроку уже известно, что первые п — 1 игроков выбрали rrj, . . ., соответствующие оптимальному для коалиции я0, то последний игрок из эгоистических соображений может выбрать хп, оптимизи- рующий wn (х°, . . ., Xn-i, хп), вместо Хп, оптимизиру- ющего (1.45). Сам он при этом, конечно, выиграет в дан- ном повторении игры, а кто-то из других участников коалиции проиграет и может даже не получить свой гаран- тированный результат [#J. Разумеется, аналогично одному n-му игроку может действовать и сообщество не- скольких игроков, нарушающих ранее достигнутую коа- лиционную договоренность. В связи с этим также неустой- чивы паретовские результаты. Применение побочных платежей с объединением или без объединения ресурсов допускает еще одну возмож- ность сепаратных действий. Дело в том, что при наличии неконтролируемых коалицией факторов выгодно (см. выше) конкретизировать побочные платежи уже после производства игры, когда определится величина Но тогда некоторые из игроков, которые получили боль- шие wt и должны передать побочные суммы другим, могут отказаться это сделать, что, конечно, приведет к неожи- данным потерям для других игроков, в том числе, возмож- но, и тех, кто оказался без ресурсов. Все сказанное не имеет, конечно, отношения к упомянутой выше коалиции игроков с «качественными» критериями, однако это лишь весьма частный случай. Итак, коллективные действия обладают существенной неустойчивостью, связанной с эгоистическими устремле-
§ 12] ПРЕИМУЩЕСТВА И НЕДОСТАТКИ КОАЛИЦИЙ 129 ниями игроков к увеличению своих собственных (инди- видуальных) критериев. Классическую теорию коопера- тивных игр можно в связи с этим обвинить даже в извест- ной непоследовательности; объявляя доминирование по индивидуальным критериям угрозой, которая может быть использована для разрушения коалиции, эта теория счи- тает в то же время устойчивыми дележи из ядра и НМ- решения. На самом же деле каждый игрок, который дол- жен выплачивать побочный платеж в этих «устойчивых» дележах, как уже говорилось, вполне может отказаться это сделать, увеличивая тем самым значение своего кри- терия. Таким образом, все эти построения покоятся на пред- положении о честном выполнении всеми взятых на се- бя обязательств, что вряд ли всегда хорошо отражает реальность. Попробуем перечислить некоторые меропри- ятия, которые могут в пределах даже одного повторения способствовать уменьшению опасности сепаратных дей- ствий. а) Обеспечение одновременности принятия решений обо всех Xi (когда каждый игрок, не имея должной ин- формации, может бояться невыполнения и другими дого- вора о коллективном выборе я0). б) Создание органа, следящего за выполнением усло- вий коалиции и наказывающего за отход от них. Послед- нее означает введение еще одного игрока, хорошо инфор- мированного о действиях участников коалиции и неизмен- но придерживающегося коалиционных интересов. Созда- ние у него возможностей наказания сепаратистов и само его существование требуют, конечно, априорных затрат (выделения части ресурсов), уменьшающих выигрыши коалиционеров. Полученная новая игра будет иметь явно выраженный иерархический характер с использованием принципа § 10. в) Введение хотя бы частичных априорных побочных платежей, основанных на прогнозе (осторожном, конечно) будущих результатов действий коалиции. Вот здесь-то и нужна не только сама рациональная стратегия, но и оценка ожидаемых результатов. Такие априорные побоч- ные платежи могут несколько уменьшить риск для тех из игроков, которые должны получить побочные платежи в соответствии с выбранными pf. 5 Ю. Б. Гермейер
130 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИИ (ГЛ. II г) Ограничение множества точек х, из которого над- лежит делать выбор. Кроме условия 2^1— i i осторожные игроки могут потребовать, например, выпол- нения условий Wi > Li [XJ, которые обеспечивают им некоторый минимум собственного результата даже без побочных платежей. В общем случае такие осторожные коалиции можно характеризовать наличием требований wt > w'i для всех i, где величина может быть как боль- шей Lt [XJ, так и меньшей. Разумеется, такое ограниче- ние выбираемых х, создавая определенную гарантию игро- кам, вместе с тем уменьшает их возможный результат за счет побочных платежей. д) Ограничение объединения ресурсов с целью опять- таки обеспечения собственных гарантированных резуль- татов. е) Переход к использованию коллективных действий, обладающих некоторой устойчивостью к индивидуальным устремлениям. Примером таких действий является при- нятие решений на основе ситуаций равновесия (если они существуют). Однако при их использовании может быть утеряна неулучшаемость результатов. § 13. Устойчивость коалиционных решений в повторяющихся играх Важность проблемы обеспечения устойчивости коллек- тивных решений требует поиска еще и других способов, кроме указанных в конце § 12. Для этого естественно обра- титься к повторению игр,;когд а* действия всех участников на каждом предыдущем шаге становятся известными к на- чалу следующего шага. Тогда обман на каком-либо шаге одного из игроков может быть обнаружен в конце того повторения, при котором имело место нарушение. Это обстоятельство может быть использовано при рассмотре- нии игр с повторениями [471. Излагаемое созвучно некото- рым идеям Шубика [571. Уточним ряд исходных понятий и предположений. Будем полагать, что решения х принимаются по согласо- ванию (далее будем называть его согласованным решением коалиции), которое, однако, может быть и нарушено тем или иным игроком. Игру полагаем повторяющейся, ко-
§ 13] УСТОЙЧИВОСТЬ КОАЛИЦИОННЫХ РЕШЕНИЙ 131 личество повторений оговаривается особо, для нумерации повторений используем индекс /. Будем считать, что при принятии решения в любом повторении, которому мы условно дадим индекс 7 = 1, £-й игрок исходит из крите- рия *) оо w? = 5 (2.51) j=l оо где d{ > 0 и 2 dl<Z 00, причем d} = 1. Если игрок рас- считывает не более чем на N повторений, то, конечно, d{ = 0 при / > N. Предположение (2.51), разумеется, не всегда адекватно реальной действительности, но отвечает традициям теории игр и математической экономики. В эко- номике зависимость d\ от / отражает степень учета буду- щего при принятии решений в данный момент и носит название коэффициента дисконтирования. Прошлое при принятии решений характеризуется некоторой известной к данному моменту аддитивной константой в критерии эффективности повторяющихся игр и поэтому фактически не учитывается. В пределах данного изложения будем полагать, что всякое нарушение согласованного решения в каком-то повторении становится известным всем игрокам уже к сле- дующему повторению игры. Это основополагающее для дальнейшего предположение можно считать достаточно разумным в играх не слишком большой размерности и при достаточно заметных нарушениях. При наличии неопределенного фактора f Е В под со- гласованным решением коалиции в одном повторении сле- дует понимать выбор ее стратегии тс = хс (р) из множе- ства допустимых стратегий X, определяемого ожидаю- щейся информацией о [3 при непременном условии х е Рс = П Pi- Нарушение согласованного решения i-м игроком со- стоит в самостоятельном выборе другой стратегии xi — — Xt (р, £с), основанной на коалиционной и собственной *) Таким образом, критерий эффективности является «сколь- зящим» — меняющимся" от повторения к повторению. 5*
132 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II информации о р и хс и априори ограниченной лишь усло- вием вхождения вектора х в Рг (но не обязательно в Рс). Нарушением согласованного решения считаются и сепа- ратные переговоры вне коалиции, которые могут изменить значение р. В пределах данного изложения не обсужда- ется вопрос о допустимых нарушениях; всякое рассматри- ваемое здесь нарушение считается недопустимым. Возмож- ным мотивом нарушения согласованного решения г-м игроком будем считать стремление к получению в данном повторении результата wf=/f(rc, р), большего, чем — ti (хс (Р)> ₽)• Определение выигрыша может варьи- роваться в соответствии с теми или иными конкретными задачами (далее будут рассмотрены некоторые примеры). Предположим, далее, что коалиция, стремясь обеспе- чить устойчивость согласованных решений, может прибег- нуть к использованию стратегии наказания нарушителя, добиваясь того, чтобы в некотором количестве т\ повторе- ний (следующих за нарушением) результат нарушителя в каждом повторении не превышал некоторого выигрыша = /? р); в последующем коалиция вернется к хс до нового нарушения. Задание конкретной функции wf (вместе с конкре- тизирует то или иное понятие устойчивости согласованных решений и те или иные условия коалиции по обеспечению устойчивости. Вопрос о целесообразности наказания здесь не обсуждается (вместе с вопросом о допустимых наруше- ниях). Можно лишь отметить, что наказание является частью оптимального поведения в ряде игр двух и трех лиц (см. главы III и IV). Таким образом, коалиционное решение для данного повторения в целом состоит из стратегии гс, совокупно- сти wf (и соответствующего поведения коалиции) и ко- личеств наказывающих повторений игры rf. Это общее коалиционное решение принимается заранее на все повто- рения игры и предполагается известным всем игрокам; коалиция заинтересована в том, чтобы все игроки знали общее коалиционное решение. Рассмотрим теперь условия, когда г-му игроку невы- годно нарушать коалиционное решение в рассматрива- емом повторении (условно считаемом первым), за которым могут следовать еще хотя бы rt повторений. Предположим
УСТОЙЧИВОСТЬ КОАЛИЦИОННЫХ РЕШЕНИЙ 133 § 13] пока, что Г/ таковы, что величина | 2j d{ max fi (?), ?) | T пренебрежимо мала с точки зрения интересов t-го игрока, т. е. меньше таким образом, по существу, можно по- ложить dl = 0 при / > rt + 1. Если /-й игрок не будет нарушать согласованных решений, то за + 1 повторе- ние его критерий эффективности будет иметь значение ri+i 2 (хе (ру), ру). Если же он нарушит соглашение, то он может рассчиты- вать на получение гг+х У=2 Запись в этом случае рj вместо ру предполагает возможность связи между неопределенным фактором и поведением коа- лиции (согласованным или нет); такая связь в виде под- держки нарушителя вполне может быть, если р отражает поведение разумных игроков вне коалиции, стремящихся ее разрушить. Если такой связи нет, то целесообразно полагать Р'- = Ру. Еще одно важное предположение состоит в том, что значение неопределенного фактора и поведение игроков после п + 1 повторения не зависят от того, было в первом повторении нарушение или нет. Учитывая это, получаем условие устойчивости решения гс в первом повторении относительно /-го игрока в виде неравенства 7*^+1 7^+1 И (*с (Р,), ₽,) > fi (*e (Pl), ₽1) + 3 (*с (₽;•), в), 7=1 J=2 (2.52) устанавливающего невыгодность для f-го игрока наруше- ния коллективного решения £с. Строгое неравенство со- ответствует и строгой устойчивости. Если условие (2.52) выполнено для всех /, то можно говорить просто об ус- тойчивости ггс в первом повторении. Несколько обобщая, можно требовать выполнения (2.52) только для т п игроков, полагая, например, что последние п — тп игро-
134 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. П ков заведомо не могут нарушать решение £с, например, потому, что их личные интересы Wj совпадают с коали- ционными wc. Условие устойчивости (2.52) само по себе есть апостериорное условие, проверяемое^лишь после того, как определился вектор рг*+1 = (рх, Pi, . . pr.+1, Pr.+i)* Практически же интересно только условие, которое априори позволяет судить об устойчивости. Если пола- гать рг*+1 изменяющимся в множестве Br*+1 (равном пря- мому произведению 2 (rt + 1) множеств В при независи- мых р/ и РЭ, то достаточное условие устойчивости апри- ори можно представить в виде min min (А(хс (Pi), ₽г) — Л(хе (&), -b pri+ieBri+1 ri+1 + з 4 {а (хс (рд р,) - /г (хс (рд р;-)}] > о. (2.53) 5=2 Выполнение этого условия гарантирует (при разумных игроках) выполнение согласованного решения £с в первом повторении, если обеспечено по крайней мере max = 1<г<тп = г' повторений игры. Если общее число повторений игры равняется N, то выполнение (2.53) гарантирует для первых N — г' повто- рений выполнение согласованного тс. Поэтому, если N = = оо или априори может быть любым, то при разумных и осторожных игроках выполнение (2.53) есть достаточное условие устойчивости во всех повторениях. Введенное понятие устойчивости, очевидно, имеет прямую связь с принципом гарантированного результата. Разумеется, если (2.53) не выполнено, то отсюда еще не следует, что будет кем-то нарушено, хотя и возникает соответству- ющая возможность. Поставим теперь п задачу о выборе хс (р) так, чтобы обеспечить «максимальную» устойчивость коалиционного решения, т. е. реализовать max min min Hi Ifi (^c (Pi), Pi) — fi (^e(Pi), Pi) + xc(3) l<i<m pri+isBfi+l -b 3 4 {А (М0АР/)-Ав(*е (₽M1- 5=2
§ 13] УСТОЙЧИВОСТЬ КОАЛИЦИОННЫХ РЕШЕНИЙ 135 Здесь [Xj — коэффициенты, учитывающие относительную важность устойчивости для различных игроков. Сказанное, однако, отнюдь не исчерпывает проблема- тику, связанную с устойчивостью по повторениям. Дей- ствительно, реализация наказания нарушителей коали- ционного решения неизбежно связана с определенными потерями в значениях критериев наказывающих коали- ционеров. Поэтому естественным стремлением коалиции может считаться стремление к уменьшению количества г наказывающих повторений, которое необходимо для обес- печения устойчивости. Это подтверждается еще и тем, что малые потребные г психологически, конечно, более эф- фективны, чем большие (в особенности, если последние сравнимы, например, со сроком жизни игроков или с чис- лом N). К такому же стремлению приводит и естественная неточность знания величин г, вследствие большей неопре- деленности di по мера увеличения номера J. Действительно, если реальное меньше того, на которое рассчитывает коалиция, то выполнение (2.52) отнюдь не гарантирует устойчивости. Таким образом, естественно стремиться к обеспечению устойчивости с помощью возможно мень- шего числа наказывающих повторений, которое к тому же должно быть меньше минимальных ожидаемых г^. Ясно, что для обеспечения таких стремлений необходимо, чтобы используемое число наказывающих повторений rf было связано с величиной только условием rf гЭто воз- можно сделать при определенном предположении о сла- бой^зависимости^р^от поведения коалиции и возможного нарушителя. Именно, будем предполагать, что значение Р; может зависеть только от поведения коалиции (в том числе и нарушителя) в J-м повторении и заведомо не зави- сит от поведения игроков в других повторениях. Такое предположение не отрицает, конечно, связи pj с процессом нарушения и наказания, если он отражается в J-м повто- рении. Принимая его, очевидно, получим, что замена в (2.52) rt на любое rf (при сохранении неравенства) не изменит при этом факта невыгодности нарушения i-м игроком коалиционного решения. Действительно, по- скольку всегда можно произвольно зафиксировать пове- дение игроков (а значит, и Ру) за пределами (г? + 1)-го повторения независимо от того, что происходило в этих
136 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ ГГЛ. П rf + 1 повторениях, то разность правой и левой частей (2.52) показывает одновременно и разность ожидаемых результатов г-го игрока при сохранении верности коали- ции в данном повторении (/ = 1) и при нарушении здесь коалиционного решения. Получим теперь выражение минимальных величин г, независимых от i (предполагая r^minFf), потребных для обеспечения (2.52) при заданных ff и яс(Р). Это выражение, как обычно, зависит от того, какой информа- цией о pr+1 будет располагать коалиция во время повто- рения невозмущенной игры и во время операции наказа- ния. Если такой текущей информации не будет, то мини- мальное необходимое г0 определяется в общем случае как наименьшее г из удовлетворяющих (2.53) при замене гг- на г. Если же такая текущая информация о слагаемых вектора |3r+1 для достаточно большого г будет своевремен- ной и точной, то из (2.52) для любого |3r+1 и i апостериори можно определить наименьшее r0 (Pr+1, i). Тогда, очевид- но, минимально необходимое г?1111 = max г0 (₽r+1, 0 < г0. (2.54) Pr+1, i Дальнейшая конкретизация выражений г0 и Го тре- бует определенных предположений о связи (3; между со- бой и с pj. В наихудшем случае полной независимости между собой всех компонент |3r+1 (2.53) можно переписать в виде min [min fa (хс (0), 0) — max / {(хс (0), 0) + рев рев г+1 + 3 <% {min fi (хе (0), 0) — max ff (xc (0), 0)}] > 0. (2.55) J—2 рев рев В дальнейшем ограничимся (это не принципиально) случаем dl = d 1 при 2 j rt + 1. Отсюда сле- дует, что при min fi (хс (0), 0) > max ff (хс (0), 0) рев рев
§ 13] УСТОЙЧИВОСТЬ КОАЛИЦИОННЫХ РЕШЕНИЙ 137 имеет место $ (%с) + 1 r0 + 1 > max /i(хс (Р), р) — min /. (^с (р), р) d + max ----------- 1<г<т min fi (х (Р), Р) — max (х (р), р) рев ° рев ° = 5(гс). (2.56) Если не обращать внимания на целочисленность r0 + 1, то можно положить r0 + 1 = S (тс). Для строгой устойчивости (когда игрокам невыгодно отступать от со- гласованных решений) следует положить г0 равным целой части от S (гс). Разумеется, большие г будут давать еще больший «запас устойчивости», обеспечивая все большую невыгодность нарушения согласованных решений. Рассмотрим теперь случай, когда рх = рх, Р; = р'-, т. е. случай, когда никакой связи игрока коалиции с иг- роками вне коалиции нет. По-прежнему будем считать все pj, Pj несвязанными. Тогда из (2.53), очевидно, получим min {min [/{(хс (р), р) — fi (хс (р), р)] + 1<г<п рев + dr min [fi (жс (р), р) — ft (жс (Р), р)]} > 0. Отсюда при min [/; (хс (Р), Р) — (хс (Р), Р)] > 0 имеем рев тах[/^с(₽), р)-/.(^с(р), р)] 5' (гс) > г0 > —г тах ---------------й------- = К d К1<ттт[/{(хсда,р)-/«(.с(р),р)] рев ^5'(гс)-1. (2.57) Представляет интерес еще и случай рх — рх, Р7- Ф Р;, когда эти факторы не связаны между собой. Этот случай может описывать ситуацию, когда нарушитель хотя ине име- ет сговора за пределами коалиции, но склонен рисковать, считая, что при наказании ему повезет со значениями рз. Тогда вместо (2.57) при тш/Джс(Р), Р) > тах/?(£с (Р), Р) рев рев
138 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. И имеем max[/.(rJ0),0)-/.(:rc(P),0)] 5" (fc) > го > 4- max --------------------------------= V d min Цх (0), 3) — max fl(x(0), 0) рев с рев = 5'(fc)-l. (2.58), Пусть теперь условия игры во время г + 1 повторений полностью стабильны, т. е. Р/= = Pi =Р. Тогда, очевидно, из (2.52) получаем где 0 я «С 1, и поэтому R (Яс) 4-1 > г0 +1 > * ' й К (v). v) - fT К (v). v) > — max max ----------—--------- d i<i<m гев fi (x (y), y) — fl (x (y), y) =Wc)- (2.59) Отметим еще случай «полустандартности» условий игры в виде pj = р2 и Р,- — Рг при />2 и несвязанности pv р2, р2 и pi между собой. В этих же условиях из (2.52) имеем Го 0 _ 1 Отсюда 1 max ~fi (хс (у), у) — min f. (хс (у), у) 5(5?) > r?ln > — max TgB______________?!=®_________ = ' ’ d i<i<mmin/.(r (у), у) — min/®(х (у), у) уев тев = 5(fc)-l. Поскольку при полностью независимых друг от друга компонентах вектора рк+1'величина'г®1п может быть лишь больше, чем в (2.59), а при полустандартных условиях величина г0 только меньше, чем вычисленная согласно (2.56), то видно, что как в тех, так и в других условиях согласно (2.54) r0 + 1 = гога1п + 1 5* 5 (5-с). (2.60) Это дает нам основание при «малой» связанности рП1
§ 13] УСТОЙЧИВОСТЬ КОАЛИЦИОННЫХ РЕШЕНИЙ 139 считать, что стремление к минимальным величинам г совпадает со стремлением к минимизации *9 (тс). При боль- шей стандартности условий целесообразно уже миними- зировать S" или S' (£с). Если оставить в стороне иные (основанные на много- численных понятиях справедливости) соображения по выбору окончательного вида коалиции, то естественному стремлению к устойчивости с минимальным г может, ви- димо, противостоять лишь столь же естественное стрем- ление неполучению неулучшаемого (сразу для всех игро- ков) вектора значений критериев эффективности Последнее, как уже говорилось, может быть трактовано как стремление к максимизации критерия типа (1.45). Тем самым множество критериев игры как бы сводится только к двум критериям* эффективности: S (£с) и шс. Значения обоих этих критериев зависят от хс и |3. Второй критерий зависит еще и от вектора р, который как раз и может выбираться из стремления к максимальной устой- чивости. В^этой новой игре (как бы игре двух лиц с не- определенностью) могут опять использоваться разные спо- собы компромисса. Общие соображения завершим, обратив внимание на необходимость условия min Д (х. (у), у) > max /? (хе (у), у) при 1 < i < т, теВ -уев (2.61) если компоненты вектора [Зг слабо связаны, или же ус- ловия min [А (хе (у), у) — /“ (хс (у), у)] > 0, (2.61') 7GB V если == Pi» Действительно, по смыслу определений необходимо, чтобы f i (хс (у), у) (хс (у), у), причем обычно должно быть строгое неравенство. Точно так же, если |3 существенно, то max f t (zc (у), у) min Д (#с(у), у). Отсюда в, варианте, соответствующем (2.55), г0 = = = оо при min ft (хс (у), у) = max (хе (у), у). veB
140 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II Это значит, что устойчивость не гарантируется ни при каком числе наказаний. Если же min Д (хс (у), у) < max ff (хс (у), у), то, как •гев ygb легко видеть из (2.55), устойчивость тем более не мо- жет быть обеспечена ни при каком г. И только если min fi (хс (у), у) = max/1 (хс (у), у), то устойчивость мо- тев -те в жет быть обеспечена даже при невыполнении условия (2.61), а именно при г = 0. Аналогично обстоит делои в варианте (2.58), в зависи- мости-от того, больше или равно нулю выражение max [f t(xc(y), у) — fi(xc(y), у)1. Для случая (2.57) из по- 7SB ложительности max (хс (у), у) — /х (хс (у), у)] следует •уев (2.61'). Суммируя сказанное и учитывая, что (2.6Г) следует из (2.61), сформулируем следующее утверждение. Теорема 2.12. Если выполнено условие max [fi (хс (у), у) — (жс (у), у)] > 0, 7(=В то неравенство (2.61') необходимо для того, чтобы при от- сутствии информации об изменениях неопределенных фак- торов в повторениях можно было с помощью наказаний обеспечить устойчивость ^с. При том же условии и фиксированном d неравенство (2.61) гарантирует устойчивость хс при достаточно больших rt. Довольно слабый вариант устойчивости получается, если считать, что возможны только индивидуальные нарушения согласованных решений. При этом на- рушающий может рассчитывать только на выигрыш за счет свои собственных условий, а все остальные игроки остаются в пределах общего коалиционного решения и сообща наказывают нарушителя возможно более строго. Ясно, что в таком случае можно ожидать минимально возможных г0. Будем считать для определенности, что возможный нарушитель делает свой выбор уже после того, как определилось поведение игроков, оставшихся вер- ными согласованному решению, и определилось значение р. Положим для упрощения Pt = Рс для всех г. Тогда
§ 13] УСТОЙЧИВОСТЬ КОАЛИЦИОННЫХ РЕШЕНИЙ 141 имеем /г(*с(0), 0) = тах/Дяс1(0),... ,хи хсп (0), 0), xi (2.62) (Xcl (0)> • • •» • • •, ^сп (Р))^ Л. Аналогично имеем, рассчитывая на информированность коалиции при наказании, соответствующую заданному множеству стратегий X, fi (хс (0), 0) = const = = min max/1(^(7),,£п(Т)л) = L'i\X], Xj(y), x(y)gX vGB,x- j¥=i (2.63) где Xi удовлетворяет условию (xr (у), . . ., xt, . . . ..., xn (у)) ЕЕ Pc. Наряду с этим имеет смысл рассмат- ривать еще один вариант наказания: fi (яс (₽), ₽) = fi (₽) = max min Д (жХ1 ₽), (2.64) Ху, хеРс х^Рс отвечающий случаю, когда первым делает ход нарушитель, а коалиция при наказании знает и 0 и xt. Если коалиция не будет знать конкретный ход нару- шителя, то она должна считаться с возможностью исполь- зования (при наказании) нарушителем смешанных стра- тегий в расчете «на случайное везение». Это означает, что вместо только что указанного ff может быть 7fc(0) = max min f ft (x^ ... , xn, 0) d/ty (xf), (2.64') Ф(х.) x«, xep J XGPC где ф (xt) — всевозможные законы распределения xt. В дальнейшем мы не будем специально рассматривать этот случай, поскольку для него все сводится просто к замене (2.64) на (2.64'). Условие (2.61) в случае (2.63) имеет вид тш/Джс(у), v)>L- [X], (2.65) уе В
142 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II а в случае (2.64) min fi (хе (у), у) > max max min Д (xlt..., хп, у) = Д. ТбВ « тг€=В Х| Xj, j^i Х£РС (2.65') Отметим, что если информация коалиции о Д-, 0£ и xt неполна или неточна, то наказание не может обеспечить результата, не превосходящего Д-. Как уже говорилось, при независимых компонентах 0Г выполнение условий (2.65) или (2.65') не будет нужно, только если для всех возможных нарушителей, т. е. для i тп, min (хс (у), у) = max Д (хс (у), у), те в теВ что в рассматриваемом случае (2.53) означает, что хс (0) есть ситуация равновесия при любом 0, причем fi (хс (у), у) не зависит от у для всех i. Если последнее условие не выполняется и не выполнено (2.65) или (2.65'), то устой- чивость не может быть^обеспечена, если даже хс (0) есть ситуация равновесия для любых 0. В частности, она не может быть обеспечена и при г = 0, т. е. при одном повто- рении игры. Это утверждение, казалось бы, противоречит самому определению ситуаций равновесия, согласно ко- торому каждому игроку нет смысла отходить от согласо- ванного решения. Кажущийся парадокс легко объясня- ется тем, что (2.55) относится к случаю, когда 0Х и 0Х в (2.52) независимы между собой, а наихудший случай состоит в том, что при нарушении согласованного решения не только хь но и 0 максимизирует Этого отнюдь не предполагается при согласованных действиях. Итак, худший случай — это коалиция неопределенного фактора с г-м игроком (если он нарушитель) в интересах послед- него. Такое обстоятельство, как правило, не в интересах остальных игроков, и они должны предусмотреть растор- жение этой коалиции наказанием z-го игрока в повторе- ниях. Но последнее можно сделать только при условии (2.65) (или (2.65')). Сказанное, разумеется, теряет силу при 0х = 0Х, т. е. когда не ожидается никаких побочных коалиций. Однако и здесь (см. (2.58)) необходимость
§ 13] УСТОЙЧИВОСТЬ КОАЛИЦИОННЫХ РЕШЕНИЙ 143 (2.65), (2.65') сохраняется, если при /^>gl все pj и Pj не связаны между собой и max [fi (хс (у), у) — Д (хе (у), у)] > 0. veB Последнее в рассматриваемом случае означает, что хс (Р) хоть при одном р не является ситуацией равновесия. Условия (2.65), (2.65') (т. е. необходимость наказания) сохраняют вполне определенный смысл даже при отсутст- вии р и даже тогда, когда хс по-прежнему есть ситуация равновесия. Действительно, ситуация равновесия может быть нестрогой или может использоваться 8-ситуация равновесия. При этом уже возможны отступления игрока от согласованных решений, которые' не приносят ему вреда, но ухудшают результаты партнеров. В рассматри- ваемом случае такое отступление можно предотвратить, если коалиционное решение выбирается строго устойчи- вым, угрозой последующего наказания. Таким образом, выполнение условия (2.65) всегда желательно, а уверен- ная устойчивость требует r0 > 1 даже в случае, если со- гласованное решение есть ситуация равновесия. Но если считать желательным r0 1, то имеет смысл отказаться вообще от поиска ситуаций равновесия, заменив их ситуа- циями достаточной устойчивости при одном повторении. Соответствующие стратегии хс (р), естественно, опреде- ляются неравенствами (см. (2.55)): [(1 + d) min fi (хе (у), у) — max Д (хс (у), у) — db'i] > уев уев 8d [min fi (хс (у), у) — L\], 1 i п, (2.66) у£В для желательного 8 0. Аналогичное неравенство имеет место и для Li. Соответствующие обобщения могут быть записаны при допустимых г — 2, 3, ... и непременных условиях (2.65), (2.65'). Разумеется, ситуации равновесия при отсутствии р удовлетворяют (2.66) для 8=1. Неравен- ство (2.66) придает и настоящий смысл 8-ситуациям равно- весия даже для 8, не являющихся малыми. Итак, анализ устойчивости коалиций по повторениям дает возможность не только обобщить понятие ситуаций равновесия, но и получить условия (2.65), (2.65') как не- обходимые, вообще говоря, условия устойчивости. Стрем-
144 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II ление к получению ситуаций равновесия заменяется на стремление к минимизации г0 при (2.62), (2.63) или (2.62), (2.64) с оговоркой, что это г0 нужно несколько увеличить для достижения достаточно строгой устойчивости. Как и в случае ситуаций равновесия, это стремление может оказаться противоречащим стремлению к получению не- улучшаемого вектора критериев, но, конечно, это проти- воречие значительно менее остро. На примере игры (1.13) при 0 = 1 легко получить представление о тех возможно- стях, какие создаются заменой ситуаций равновесия на ситуации, устойчивые при г наказывающих повторениях. Здесь Li = Li = 1 и согласованное решение х = 0 дает / i = n при fi (х) = п — 1 (неулучшаемый вектор). Тем самым (2.66) выполнено при s = , что можно счи- тать удовлетворительным уже при п > 4. При безгра- ничном увеличении п в ->1, т. е. точка х = 0 приближа- ется по качеству устойчивости к ситуации равновесия. Условия (2.65), (2.65'), даже при отсутствии неопреде- ленного Р, выполняются отнюдь не всегда, хотя в нака- зании и участвуют все игроки (кроме нарушителя, конеч- но). Выполнению этих условий может мешать антагони- стичность интересов и наличие жестких связей между игроками. Первое хорошо видно в случае игры двух лиц (или когда все игроки разбиваются на две антагонисти- ческие группы). Если /х (х) +/2 (^) — 0 и хг и х2 не свя- заны между собой, то из условия (2.65) для i = 1, 2 сле- дует, что О Lx + Л2 = min max /х (х19 x2) + min max /2 (#x, x2) = X2 Xi Xi x2 = min max /x x2) — max min /x (arx, x2) 0. X2 Xi X1 x2 Это противоречие показывает, что (2.65) не выполняется в антагонистических играх. Если игра имеет седловую точку, то Z/X = Z/x, L2 = L2 и, следовательно, условие (2.65') также невыполнимо (хотя оно здесь и не необхо- димо). Аналогичное положение имеет место, если седловой точки в чистых стратегиях нет, но наказуемый рискует, применяя оптимальную смешанную стратегию. Поэтому в антагонистической игре устойчивый компромисс (при отсутствии седловой точки) может иметь место только при
§ 13] УСТОЙЧИВОСТЬ КОАЛИЦИОННЫХ РЕШЕНИЙ 145 условии (2.65'), т. е. при отсутствии у обоих игроков ин- формации о ходах партнера, например, когда нарушитель ходит первым. Жесткие связи между xt осложняют выбор коалици- онного решения, для которого выполнены (2.65), (2.65'), как это хорошо видно, например, при полностью объединен- п ных (и всем доступных) ресурсах игроков Рс = (х | 2 хг — i=l = X, rq > 0) и при fi (х) = fi (Xi), когда ft (xt) монотонно растет с ростом xt. Здесь, если какой-то игрок добьется права первого хода, то он просто возьмет весь ресурс себе, положив Xi = X. Тем самым будет достигнут абсолютный максимум выигрыша этого игрока, и, значит, условие (2.65) нарушится. В то же время наказание согласно (2.65), наоборот, максимально эффективно, поскольку просто будет равно абсолютному минимуму ft (х]. Несмот- ря на некоторую искусственность этого примера, он, не- сомненно, убеждает в том, что для существования устой- чивых решений, вообще говоря, необходимо: или каждому игроку иметь некоторый собственный ресурс, или же в ко- алиции должны быть обеспечены условия, препятствую- щие самостоятельному захвату игроком права первого хода и доступа ко всему объединенному ресурсу. Разуме- ется, подобного рода утверждения носят ориентирующий характер и должны конкретизироваться применительно к конкретному виду игры; так, в игре с совпадающими интересами указанные предосторожности не нужны. Если число ожидающихся повторений игры не огра- ничено, то можно допустить, вообще говоря, и сколь угодно большое число допустимых наказывающих повто- рений для обеспечения устойчивости. Положительность знаменателя в (2.56) — (2.59), т. е. условие (2.61) или (2.61'), обеспечивает поэтому устойчивость при любых f i. Однако для несколько более подробного анализа во- просов устойчивости целесообразно получить оценку ве- личины г сверху при наказании (2.63) — (2.64). Пусть Pi произвольно, тогда совершенно очевидно, что наруши- тель никогда не может рассчитывать получить более Л(МТ)Л) = max = x^Pi, veB Используя эту величину в соотношениях (2.56) и (2.63),
146 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II получим для случая т = п _ , Я___ 1_____ fi~Li г0 4-1 ~ -у max-----------------т л ккп min/{(x (?),?) — Lt •гев (2.67) Это и есть максимально возможное число г0 при наказании (2.63). Минимизация по хс (Р) величины г0 эквивалентна стремлению к максимизации min min •гев A (Ш Li Последнее эквивалентно (при гарантирующем подходе коалиции к Р) использованию коалицией критерия типа (1.45): . А(^(Р),Р)-х: wc = mm ——=------,----, (2.68) причем здесь w? = и pi = —------—. Мы уже встречались fi~Li с этим вариантом (1.45) при рассмотрении арбитражных схем в § б.ЧИтак, стремление к минимизации максимально возможного г0 при использовании (2.63) само по себе эк- вивалентно использованию частного вида (2.68) критерия (1.45); стремление к неулучшаемости вектора результатов при этом эквивалентно стремлению к минимизации г0. Совершенно аналогично обстоит дело и при использовании (2.68), если базироваться на (2.56). Посмотрим, что получится из (2.66) и (2.67) в случае pt = рс при отсутствии р и при использовании побочных -платежей. Ясно, что максимальный результат, на который здесь может рассчитывать i-й игрок, равняется fi = п п = 3 /j(#°) — 21 т- е- все игроки оставляют себе только ;=1 М* по Lp отдавая остальное г-му игроку. Разумеется, здесь#0 п реализует max 3 При этом (2.68) приобретает вид 1=1 wc = min - n n S 3 L'i Ml Mi (2.69)
§ 13] УСТОЙЧИВОСТЬ КОАЛИЦИОННЫХ РЕШЕНИЙ 147 Таким образом, здесь все рг- совпадают. Оптимизация (2.69) по Zi и х приводит к использованию я® и к тому, что fi + zi — Li ~ fl (^0) + Z1 — Отсюда в силу (2.67) немедленно получаем Го + 1 = п Т' Это равенство показывает, как растет трудность обеспе- чения устойчивости с ростом числа игроков, если коалиция использует неограниченные побочные платежи, а любой игрок, в принципе, может захватить на одно повторение весь суммарный выигрыш. Наказание (2.63) — (2.64) но- сит максималистский характер: все игроки (кроме самого нарушителя, конечно) полностью используют все свои возможности для наказания нарушителя. Если, не вда- ваясь в конкретизацию, оценить возможности наказания «более скромно» в виде вектора w9 — {и%} такого, что wl Lit то вместо (2.68) будем иметь wc — min tj (xe (P). P) — wi J. — w? j г г (2.70) Компромиссный критерий (2.70) уже неоднократно пред- лагался по разным мотивам; теперь ясен еще один его «физический» смысл: он исходит из минимизации г0 -]- 1 согласно (2.67) при замене результата наказания Li на w®. Итак, в повторяющихся играх имеются довольно мощ- ные возможности по обеспечению устойчивости коллек- тивных решений. Разумеется, они нуждаются в серьезных исследованиях при конкретизации игр. Дальнейшие из- менения в постановке задач могут произойти за счет того, что коалиция не будет до конца определенной. Например, если коалиция вообще не собирается согласовывать един- ственное решение х, а согласовывает лишь область D допустимых решений х\ таким образом, любое х ЕЕ D является допустимым с точки зрения соглашения, состав- ляющего суть коалиции. Такое «смягчение» коалиции приводит к следующим изменениям в вопросе об устой- чивости коалиции. 1) Нарушением считается лишь факт х D. При этом зачастую остается неясным, кто именно нарушил коали- цию и кого, следовательно, необходимо наказывать. Тогда
148 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. it требуется включать в описание коалиции способ опреде- ления нарушителя. Будем полагать, что такой способ так или иначе задан, хотя разумный выбор его, видимо, пред- ставляет самостоятельную трудную задачу. 2) Если определение нарушителя (возможно, отнюдь не безусловное) может быть произведено, то необходимо для оценки числа наказаний г соответственно изменить неравенство (2.52), заменив в нем хс (р) на D (р). Если (а это для коалиции естественно) исходить из принципа гарантированного результата, то ожидаемый выигрыш г-го игрока в области D следует, вообще говоря, оценить по минимуму, а результат, получаемый им при отходе от D и при наказании, по максимуму. Тогда имеем fi (Р (0), 0) = min fi (^с (0), 0), хс(3)ес(Р) Д(1)(р),р)= max ДМ0),0), хс(3)е©(|3) 7?(D(p),p)= max /Г (хс (₽),₽). xc((S)eD(P) С введением этих аналогов все остальное, начиная с (2.52), остается без изменения. В частности, если отсутствует 0, D (Р) при использовании (1.45) может задаваться в виде ^е(р) = = {я | min pi (/j (х) — Wi) max min p{ (fi (x') — w?) — e}. x' Неравенство внутри скобок, очевидно, эквивалентно системе неравенств Pi (fi (*) — »“)># (Р) — 8, 1 С I < П, где К (р) — max min р{ (Д (х') — w^). Анализируя измене- х' ния, вносимые в задачу об устойчивости за счет введения согласованной области, следует отметить их аналогию с влиянием неопределенного фактора р; это хорошо видно из сравнения (2.53) для D (р) и (2.56). Роль р играет век- тор х в пределах области D. Итак, «нежесткое» согласование действий коалиции эквивалентно введению неопределенного фактора, роль которого играет вектор х, изменяющийся в пределах об- ласти согласованности. Наряду с возможной неполной
§ 13] УСТОЙЧИВОСТЬ КОАЛИЦИОННЫХ РЕШЕНИЙ 149 договоренностью, одной из естественных причин непол- ного согласования может явиться неточность знания своих критериев Д самими коалиционерами. При этом понятие оптимума (1.45) даже при заданном р становится неопре- деленным. Естественно определяется лишь область воз- можных экстремумов (1.45) без указания априори каких- либо причин для предпочтения тех или иных векторов х из этой области. Если коалиция не проявит здесь реши- тельности, то получающаяся ситуация полностью под- ходит под только что указанное неполное согласование, с вытекающими отсюда трудностями определения нару- шителя. Коалиция может избежать этого затруднения, приняв тем или иным способом определенное согласованное решение хс, не обладающее, однако, свойствами решения, полученного при элементарной оптимизации (1.45). Но даже и после принятия согласованного хс остается неопределенность в и Дн за счет неопределенности Д; эта неопределенность полностью уже эквивалентна нали- чию неопределенного фактора р и снимается минимизацией и максимизацией и ff. Заслуживал бы специального рассмотрения сознательный обман коалиции каким-либо игроком в оценке величин ft (х). Этот случай также можно моделировать неопределенным фактором, но уж, конечно, «действующим заодно» с f-м игроком. Столь же существенной причиной появления неполной согласованности является неточность определения коа- лицией принимаемых игроками решений xt и результатов деятельности коалиции ft (х, р). Действительно, ошибки в определении и xt могут привести к необоснованному объявлению наличия нарушения договора и к ошибкам определения нарушителя; сказанное, разумеется, предпо- лагает возможность малых нарушений при их непроиз- вольности или же желательности для какого-либо игрока. Во избежание подобных необоснованных страхов и обви- нений (могущих разрушить коалицию) коалиции придется ввести зону нечувствительности по малым отклонениям Wi и Х[, т. е. определенные области D, внутри которых все х считаются одинаково допустимыми. Такая неопре- деленность в согласовании уже не может быть просто парирована решительностью коалиции; поэтому здесь затруднения с определением нарушения и нарушителя становятся уже принципиальными. Возможно, что умень-
150 ПРИНЦИПЫ ВЫБОРА РАЦИОНАЛЬНЫХ СТРАТЕГИЙ [ГЛ. II шения их значимости можно достигнуть, если точность определения Wt и xt будет согласована с естественной не- чувствительностью каждого игрока к достаточно малым изменениям wt. Тогда наличие области нечувствительности коалиции не будет, видимо, побудительной причиной для малых нарушений согласованности и эту область можно будет считать отсутствующей. Ошибки в определении xt могут сыграть роль и в эффективности наказания, однако, вводя неопределенную ошибку измерения, этот случай лег- ко свести к случаю наличия неопределенного фактора р. Реальные трудности в определении нарушителя могут привести (даже если это выявление происходит обяза- тельно) к существенному запаздыванию в его наказании. Если это запаздывание выразить в количестве повторе- ний, то неравенство (2.52) естественно заменить на Г+2+1 dl/i (*с (₽;•), ₽/) > 'S' А (&)’ ₽>) + 3=1 3=1 «-Иг+1 j=rT4-2 При отсутствии р и dl = 1 соответственно имеем (г + + 1) fi (хс) > (гс 4- 1) fi (хс) + г/? (хс) и di (*с) - fi <^е>]+ге <*е) - /г (^е) М*е)-/Г(*с) _(г . п АЮ-/Гю г + 1 > Таким образом, увеличивая потребное количество на- казывающих повторений г 4-1, получим, что запаздыва- ние гт не меняет при неограниченном числе повторений самого факта устойчивости или неустойчивости коалиции, который по-прежнему определяется знаком ft (хс) — ff (хс). Не влияет гх и на выбор коалиционного решения из ус- ловия минимума г. Все только что сказанное нуждается, конечно, в кон- кретизации и развитии. Это, несомненно, произойдет, если найдут признание основные постановочные материа- лы данного параграфа.
ГЛАВА III ПРИНЦИП ГАРАНТИРОВАННОГО РЕЗУЛЬТАТА В ИГРАХ ДВУХ ЛИЦ § 14. Игры качества Игры качества обычно задаются в виде двузначных кри- териев эффективности wt = ft fa, *2» 0), 5 = 1,2, х± S Xj, х2 е X®, (3.1) где Wi принимает лишь два значения: 0 и 1 (или — оо и 1). Одной из причин появления таких игр является стрем- ление получить удовлетворительные значения векторных критериев w{ и wl (s = 1, . . Z) для первого и второго игроков, т. е. удовлетворить всем неравенствам при i = = 1, 2 u>i = <Pi (х19 х29 р) > а-. (3.2) При этом, если для 1 = 1 все неравенства выполнены, то = 1, а если хотя бы одно нарушается, то = 0; аналогично обстоит дело с w2. Характерным свойством игр качества является «принципиальность» игроков; им одинаково хороши все случаи выполнения своих неравенств (3.2) и одинаково неприемлемы остальные ситуации. Игру будем предполагать замкнутой, так что в случае, если она не состоится по вине одного из игроков, это дает ему 0, а другому 1; если же от игры отказались (вольно или невольно) оба, то оба и получают по 0. Соответству- ющие «отказы» от игры можно включить в определения Х° и в виде некоторых изолированных или фиктивных точек (см. главу I). Интересы игроков можно, конечно, полностью описать множествами Pi (0) = {(^1, *2) I U>i (*1, *2, 0) = 1}, 5 = 1,2, (3.3) а изучение таких игр сводится к изучению взаимного рас- положения множеств Рг (Р) и Р2 (Р) и принятия решений с учетом информации игроков друг о друге, о векторе р и с учетом последовательности ходов.
152 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. Ш Если вектор р известен обоим игрокам и фиксирован, то игра носит название соответственно игры с противопо- ложными интересами, с непротивоположными интереса- ми и с совпадающими интересами, если Р1 (₽) Г) Ръ (₽) = Ф, Рх (₽) П Р* (₽) =# Ф, Рх (₽) = Р* (₽). При различных р Е В соотношение интересов может раз- личаться. Антагонистическая игра окажется игрой с по- стоянной суммой только в случае Рг (р) = X? X Х% \ \Р. (Р). Если обоим игрокам конкретное значение р остается неизвестным, то, исходя из принципа гарантированного по неопределенности р результата, каждый из них введет гарантирующее множество Р[=ПЛ(₽). (3.4) Зев v 7 Аналогичные указанным выше соотношения между Р* определяют степень несовпадения интересов не информи- рованных о р игроков. Однако здесь нельзя уже отказать- ся и от рассмотрения случаев, когда хоть одно из Р* = ф. В этом случае соответствующий игрок не может до- биться гарантированного успеха. Случай неточного зна- ния г-м игроком значения р можно представить в виде ука- зания множества Вг- (yf) возможного изменения р при полученной информации Тогда при данном г-й игрок имеет возможность ввести гарантирующее множество П Л(Р). (3.5) зев^у.) Субъективное описание игры будет закончено, если указать, что представление о Р\ (yf) у партнера с номером / может быть записано в виде множеств Pi (yj) и Pj (у7), оценивающих Р\ (yf) так, что Pi (?;) С= Pl Ы С Р? (?/), Pf е В; (Yj). Понятно, что* представление о степени несовпадения интересов при субъективном описании игры может суще- ственно отличаться от объективного. Здесь приходится
ИГРЫ КАЧЕСТВА 153 § 14] рассматривать с точки зрения первого игрока следующие случаи: а) непротивоположность интересов (Y1) П Р* (71) 0; (3-6) б) противоположность интересов Pi (Vi) П Ы = 0; (3.6') в) неясность в отношении интересов во всех остальных случаях и особенно, если Р% (ух) = ф и Р2 = Х[ X Х%- Представления первого и второго игроков могут су- щественно отличаться. Так, в случае (3.6) или (3.6') неясность в отношении интересов может быть у второго игрока. Наоборот, неясность у первого может сопровож- даться ясностью у второго; может быть неясность и сразу у обоих. Опишем кратко, что дают чисто изоляционистские дей- ствия. Фиксируем сначала |3 (а значит, и ух) и будем рас- сматривать игру с позиций первого игрока. Если сущест- вует х[ такое, что (х®, х2) ЕЕ Р± (|3) при любом х2 ЕЕ Х%, то, очевидно, х± — реализация максимина, который при этом равен 1. В этом случае х[ является и абсолютно-оп- тимальной стратегией. В остальных случаях максимин равен 0 и потому не может быть приемлемой основой выбора рационального поведения. Рассмотрим теперь X*. Если проекция Рг (|3) на про- странство выборов второго игрока совпадает с Х2, то для каждого х2 существует хг такой, что (х19 х2) ЕЕ (|3). Это и определяет х± (х2), причем L± [Xf] = 1. Если же проекция Рг (р)не совпадает с Х2, то L± [Xi] =0. И, сле- довательно, рекомендовать чисто изоляционистские дей- ствия нельзя, во всяком случае, без учета информации об интересах противника, т. е. без более точного определения максимального гарантированного результата. В случае, когда [X?] = 0 и Lr IXf] = 1, имеет смысл говорить о потребной точности определения х2, т. е. о формирова- нии «минимального» Хг, для которого еще Lr [XJ = 1. Пусть теперь вектор |3 не фиксирован. Тогда, если ин- формация о нем точна, то при каждом |3 дело обстоит, как
154 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III только что описано. При этом, если min Lx [Х“ (0)] = О, то гарантированного шк 0,решения задачи не существует, т. е. невозможно выработать рациональное поведение на основе максимина и абсолютно-оптимальных стратегий. Наоборот, если min Lr [X? (0)1 = 1, то решение задачи существует при независимом от хг поведении х[ (0). На- конец, если min Ьг [XJ (0)] = 0 и min L± [Xf (0)] = 1, то, аналогично указанному выше, решение задачи сущест- вует, но требует достаточной точности определения х2. При отсутствии информации о 0 игрок, исходящий из принципа гарантированного результата, должен исполь- зовать Pi согласно определению (3.4). Если это множество пусто, то не существует максиминной стратегии, решаю- щей задачу при неизвестном 0. Так же обстоит дело и в гораздо более широком случае, когда проекция Р{ на пространство х2 не совпадает с Х2. В остальных случаях рациональное максиминное поведение существует, если имеется достаточно точная информация о ж2. Промежу- точная информированность о 0 приводит к использованию Pi (Vi) согласно (3.5), а далее все аналогично уже рас- смотренному (с заменой 0 на yt). Случайные 0 не вносят, очевидно, в описанную картину ничего нового, если нельзя осреднять результаты игры, т. е. говорить о вероятности успеха, скажем, первого иг- рока. Следует лишь подчеркнуть, что при получении своевременной информации о реализации 0 для каждого конкретного 0 мы по-прежнему имеем рассмотренную игру качества. Если же информации о 0 не будет, то априорное осреднение критерия (3.1) приведет к фактическому отка- зу от игры качества. Рассматривая объективное описание игры, можно ут- верждать, что если интересы противоположны, т. е. Рг (0) П Р2 (0) = ф, то х^ заведомо не существует. Но при этом может все же существовать xf (я2, 0). С другой стороны, и непротивоположность интересов не гаранти- рует еще L [XiJ == 1, этого не гарантирует даже полное тождество интересов, как показывает простейший пример Pi (0) = Р% (0) = {^i, 1 + #2 0,25; Xifz 0}
§ 14] ИГРЫ КАЧЕСТВА 155 при Xi = Х% = [О, 1]. Можно, таким образом, считать, что в играх качества с непротивоположными интересами коалиционные действия или хотя бы обмен информацией всегда желательны, а во многих случаях и необходимы. Посмотрим теперь, что дают ситуации равновесия и ко- алиции. Если при некотором |3 интересы игроков непро- тивоположны, то любая точка из Pr (Р) П Ръ (Р) есть, очевидно, ситуация равновесия, обеспечивающая успех обоим игрокам. Однако при этом могут, вообще говоря, существовать и точки равновесия, обеспечивающие ре- зультаты (1; 0); (0; 1) и даже (0; 0). Примеры этого триви- альны и еще раз подчеркивают необходимость совмест- ного выбора ситуации равновесия при непротивополож- ности интересов. В случае игр с антагонистическими интересами ситуа- ции равновесия могут существовать по-прежнему, однако отсутствие результата (1; 1) делает их, очевидно, непри- годными для выработки рациональных решений; в то же время при Lr [Xj] = 1 существует рациональное пове- дение для одного (первого) игрока. Несоответствие субъективного описания объективному также может быть препятствием к использованию ситуа- ций равновесия даже в случае (субъективной и объектив- ной) непротивоположности интересов и несмотря на пол- ную эквивалентность между собой всех точек с результа- тами (1; 1) для обоих партнеров. Действительно, если Л (Р) Г) X (Р) = ф, р. (V)QPi (Р) =АгФф, но A f| Л2 = ф, то игроки будут априори обязательно придерживаться разных ситуаций равновесия, и только достаточно подроб- ные переговоры, уточняющие интересы обоих, могут при- вести к удовлетворительному результату. Если неопределенный вектор (3 не фиксирован, то в случае даже точной информации обоих игроков о нем ситуация значительно усложняется и требует коллектив- ных действий. Но тогда уже целесообразнее сразу говорить о коалициях (конечно, без побочных платежей). Оптими- зация действий коалиции (т. е. отыскание результата
156 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ ЕГЛ. III (1; 1), если это возможно) удобно аналитически записы- вается для случая (3.2) в виде ориентации на получение (соответствует (1.45) при pf = 1 и Wi = 0) max min [q4 (яъ x2, fj) — a®]. (3.7) (xi, x2) i, s Если при этом максимин (3.7) не меньше нуля, то мы име- ем игру с непротивоположными интересами. Как уже ра- нее показывалось, вычисление (3.7) легко сводится к за- даче обычной оптимизации при наличии ограничений. Коалиции устойчивы, когда а® фиксированы. Если из субъективных описаний обоих игроков сле- дует, что игра характеризуется непротивоположностью интересов, то организация коалиции становится естест- венной и не вызывает затруднений. В остальных случаях коалиция или не состоится, или потребует анализа воз- можного обмена информацией. Если неопределенный век- тор р не фиксирован, это не осложнит создания коалиции и использования (3.7), когда интересы игроков непроти- воположны при каждом р. Иначе коалиция или вообще не будет создана, или будет носить условный характер — объединение лишь при части возможных р. Однако это может иметь, видимо, нежелательные последствия — точ- ную информацию обоих игроков о (Р) в случае анта- гонистических интересов при некоторых р. Неполная ин- формированность о р легко анализируется аналогично вышеизложенному; следует лишь отметить возникающие здесь осложнения в образовании коалиции за счет недо- статочной полноты субъективных описаний. При обсуждении целесообразности коалиционных дей- ствий нельзя забывать о возможностях, создаваемых объе- динением и перераспределением ресурсов. Соответствую- щие примеры особенно наглядны в случае (3.2). Пусть достижение неравенств < <Р1 (*i, *2) = (*i)> ^2 ф2 (*^1? ^2) Ф2 (^2) требует использования ресурсов одного типа, не исполь- зуемого для других s. Пусть ресурсов первого игрока не хватает для обеспечения поставленного требования, а у второго они, напротив, в избытке. Тогда передача части
ИГРЫ КАЧЕСТВА 157 § 14] ресурсов второго первому (т. е. объединение ресурсов) может помочь удовлетворению требований для обоих игро- ков и тем самым сделать их интересы непротивоположны- ми. Разумеется, не обязательно, чтобы у первого совсем отсутствовали ресурсы; если они у него есть, передача ему дополнительных ресурсов может увеличить его Pr (Р) и, значит, привести к согласию. В приведенном примере действия второго игрока были, пожалуй, альтруистичны. Однако противоположная (по обеспеченности ресурсами) ситуация, скажем, для s = 2 приведет уже к обычному взаимовыгодному обмену, до- статочно характерному для весьма обширного класса прак- тических задач. Итак, при обсуждении целесообразности коалиций необходимо учитывать возможность хотя бы частичного объединения (перераспределения) ресурсов. Это означает, что в (3.7) максимум по (а^, х^ должен браться с учетом объединения ресурсов. Перейдем теперь к наибольшему гарантированному ре- зультату (§ 10) при фиксированной последовательности решений. В антагонистической по интересам игре при пе- редаче точной информации этот результат совпадает, оче- видно, с описанным выше максимином. Ограничимся иг- рами с непротивоположными интересами и будем считать пока, что эта непротивоположность соответствует субъ- ективному описанию первого игрока, делающего первый ход, т. е. выполнено (3.6). Взяв тогда любую точку (4, е Pi (Yi) П (Yi), выбрав в качестве своего хода х[ и сообщив это второму игроку, первый игрок, по существу, обеспечивает успех обоих игроков, если только второй игрок не выберет при этом х2 таким, что (х{9 х2) ЕЕ Р2 (Р)> н0 не принадлежит P-i (Р). Последнее может происходить по трем причинам: а) неосведомленности второго игрока о Рх (у1); б) недоброжелательности его по отношению к первому; в) недоверию к точности сообщаемого хх. Первая причина легко устраняется сообщением пер- вого игрока или всего Рх (|3) (т. е. своих интересов), или даже некоторой его части, например просто (^, х^). Вторую причину можно не принимать во внимание, по- скольку мы предположили, что интересы второго игрока
158 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ |ГЛ. Ш исчерпываются стремлением попасть в Р2 (т2), а (Ti) CZ Р2 (ь). Однако даже в случае неосведомленности второго иг- рока о Р± (Р) и с учетом его возможной недоброжелатель- ности первый игрок, сообщая выбранную стратегию, во многих случаях может гарантированно обеспечить себе результат, равный 1. В подтверждение этого приведем одну простую теорему, относящуюся к случаю фиксиро- ванного р (далее его опустим), если первый игрок точно знает Р2. Введем следующие обозначения: (а^) = {х2 | (а^, а?2) GE -Pi}, ^2 (^1) {^2 I (^т> ^г) ^2)9 Е (^1) = {^2 I W2 (#1, ^2) = т&Х ш2 (^, Х2)}. Очевидно, если Р2(^1)#=0, Х2, если Р2 (#i) = ф. Теорема 3.1 *). Если первый игрок знает Р2 и су- ществует точка такая, что Ег (я?) Z) Е (гфЛто х± — оптимальная стратегия, обеспечивающая первому игроку результат 1. При этом, если Е2 (х[) ф, то и второй имеет результат 1; иначе 0. Если же такого х± не сущест- вует, то наибольший гарантированный результат первого игрока равен 0. Доказательство. Если Et (х°) ЕЭ Е (ж?), то, выбрав х± и сообщив этот выбор второму игроку, первый игрок вправе рассчитывать, что второй выберет х2 ЕЕ е Е2 (х°), если Е2 (х°) =# ф. Но из-за Е2 (х°) CZ Ei (аф оба игрока при этом получат по 1. Если же Е2 (х^) = ф, то Е± (xf) ~Э и, следовательно, первый игрок получит 1 и второй 0 (при этом, конечно, [X?] = 1). Наконец, если х° не существует, то для любого хг существует х2 ЕЕ ♦) В этой теореме не предполагается непротивоположность интересов, т. е. что Pr (Р) П Р2 (Р) =f= Ф*
§ 14] ИГРЫ КАЧЕСТВА 159 ЕЕ Е (хх) такое, что (хх, х2) ЕЕ Р±, это означает, что первому игроку гарантируется только 0. Первый игрок может, конечно, опираясь на X?, усилить свою позицию, если Ь2 [Х2] = 0, сообщая второму игроку стратегию ( х[, если х2 = х2, = 1 ~н ( я?!, если х2 причем стратегия наказания реализует min w2 (х±, х2) — 0. «1 (3.8) (3.9) Таким образом, здесь первый игрок сообщает о своем намерении наказать второго игрока, если он не выберет х2 = х2. Для реализации (3.9) первый игрок при любом х2 должен знать хотя бы одну точку (хг, х2) е= Р2. Иначе его сообщение — блеф. Несколько обобщив сказанное, можно сформулировать утверждение, интересное в сравнении с результатами по- следующих параграфов. Для этого введем, наряду с (3.8), еще и множество Е точек х2, реализующих Ь2 [Х21, и стратегию хг = х* (х2)&Цх2), если х2ееЕ если х2ееЕ где Н (ж2) = fa | fa, х2) С Рх}. Теорема 3.2. Если Рг Р2^= ф, Ь2 [Х“] = 0 и первый игрок, зная это, имеет еще и точную информа- цию о х2, то стратегия (3.8) оптимальна и гарантирует первому игроку выигрыш, равный 1. Если же Ь2 [Х21 == 1, но Н (х2) ф при любых х2ЕЕ Е и хоть одна точка из Н (х2) известна первому игроку, то оптимальна и вновь первому игроку гарантируется 1. Почти очевидное доказательство опустим, тем более что в дальнейшем будут даны аналогичные доказатель- ства. Заметим лишь, что если Ь2 [Х21 = 0 или если Е =# =# Х2, то Lr [Xi J не всегда равно 1 при указанных в тео- реме условиях; это указывает на выгоду, создаваемую правом первого хода. Сообщение первого игрока об ис- пользовании (3.8), (3.9) может бытьЛ конечно, и блефом,
160 ГАРАНТИРОВАЙЙЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. Ш если он на самом деле не располагает информацией Xf. Однако повторим, что использование (3.8), (3.9) не явля- ется необходимостью при правильном субъективном опи- сании первого игрока. Недоверие второго игрока может явиться, видимо, только плодом или его неуверенности в непротивоположности интересов (Р2 (у2) Q Рг (у2) = ф), или же его неуверенности в том, что первый игрок знает о непротивоположности интересов; обе эти возмож- ности побуждают второго игрока к попытке обмена информацией, и это выходит за рамки чистого принципа гарантированного результата. Таким образом, гаранти- рованный успех будет лишь в случае доверия второго игрока к сообщению первого, и это, видимо, будет, если (4, 4) е р2 (т2) А Р*1 (?2)- Таким образом, первому игроку следовало бы знать Pi (?1) П ^2 (ъ) Г) Pi (?з) или хотя бы одну точку из это- го множества. Это и предполагает определенный уровень знания субъективного описания игры вторым игроком. Если второй игрок осторожен, то применение (3.8), (3.9) может существенно повысить шансы на успех обоих игроков, так как угроза явного неуспеха должна привес- ти второго к х2 = х'2, где успех возможен. Альтернативой такому рассуждению является лишь уверенность второго игрока в неосуществимости (3.8), (3.9). Все сказанное носило характер обсуждения; однако очевидно, что все рассмотренные случаи превращаются в четкие утверждения, если фиксировать информирован- ность первого игрока и информацию или осторожность второго. Итак, в определенных условиях первый игрок может самостоятельно обеспечить успех обоих игроков, не при- бегая к коалициям и к обоюдному обмену информацией. Ясно также, что если порядок ходов не фиксирован, то обоим игрокам выгоднее, чтобы первым делал ход игрок, достаточно информированный о соотношении интересов. Это легко практически осуществимо, если сомневающий- ся в непротивоположности интересов игрок будет просто выжидать, уступая право первого хода. Такая тактика, однако, не прицесет успеха в случае, если оба сомнева- ются, поскольку тогда ни один из них не сделает хода, и, значит, они оба получат нуль. Некоторая опасность воз-
§ 14] ИГРЫ КАЧЕСТВА 161 пикает и в случае, когда каждый считает интересы непро- тивоположными и поэтому стремится сделать ход первым; одновременные ходы могут привести их к несогласован- ным действиям, т. е. опять к нулям. Вернемся теперь к точной фиксации порядка ходов. Тогда, если первый игрок сомневается в непротивополож- ности или антагонистичности интересов, то, располагая Хх (или блефуя), он может потребовать от второго игрока добровольной передачи информации о желательном для него выборе (^, х£) и согласиться на если (^, х£) ЕЕ ЕЕ Рх (Yi); иначе он угрожает применить согласно (3.9). Ясно при этом, что в случае, если второй игрок знает о непротивоположности интересов, все кончится благопо- лучно для обоих. В антагонистической игре первый иг- рок получит (если он не блефовал) свой гарантированный выигрыш Lx [Xf]. В остальных же случаях (в частности, при неясности соотношения интересов для обоих) второй игрок получит свой максимин, а первый может и не полу- чить его. В этом варианте действий первого игрока оста- ется недостаточно ясным лишь случай малой информиро- ванности обоих игроков о взаимоотношении интересов. Можно указать еще один вариант действий игрока, принимающего свое решение первым и могущего реализо- вать (3.9) или угрожать этим, блефуя, но зная, что Ь2 = = 0 и что второй может реализовать лишь стратегии из X?. Будем предполагать, что второй игрок умеет находить точки из Рх (?1) П ^2 (Та)> если будет знать Рг (ух). Теорема 3.3. Пусть первый игрок знает, что ин- тересы в игре непротивоположны, L2 [Х°] = 0 и что вто- рой игрок не имеет своей информации о хг- Пусть, далее, первый игрок может сообщить информацию второму, реа- лизовать %х и сделать свой выбор хг после ответного сооб- щения второго игрока. Тогда стратегия первого игрокаг состоящая в 1) точном сообщении своего Рг (у^, 2) предложении второму игроку выбрать любую точ- ку (хх, х2) ЕЕ Рх (Yi) и сообгцитъ ее первому, 3) обещании после этого использовать (3.8), если (^1,^) будет выбрана, и rf, если это не будет сделано, гаран- тирует обоим игрокам получение 1. 6 К). В. Гермейер
162 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III Доказательство. Действительно, если вто- рой игрок не произведет нужного выбора (я£, я£)*или затем выберет (вопреки сообщению) х2 =# то он получит 0. Поскольку интересы игроков непротивоположны и второй узнает Рг (ух), то устраивающая обоих точка (xj, су- ществует и, следовательно, будет выбрана; отказ от х29 очевидно, невыгоден для второго игрока. Новым элемен- том в этой стратегии первого игрока является передача права выбора х19 х2 второму игроку. Теорема 3.3 будет далее существенно обобщена для повторяющихся игр. Сейчас же отметим, что практически без всяких изменений она переносится на случай любой /2 (^i, я2), лишь бы Д имела вид (3.1), а стратегия наказа- ния существовала и определялась по (3.9). Итак, если хоть один из игроков точно знает о непро- тивоположности интересов, то или с помощью коалиции, или при односторонней инициативе по обмену информа- цией игроки могут оба успешно закончить игру. Точно так же, если хоть один из игроков точно знает, что интересы антагонистичны, то истинной коалиции или правильного обмена информацией, вообще говоря, состояться не может. Исключением является, пожалуй, лишь случай, когда ис- ходное множество выборов информированного игрока та- ково, что соответствующий ему максимин равняется 1; тогда этот игрок без ущерба для себя может познакомить противника с положением дел. Если же множество Xi игрока не такое, то он может, конечно, использовать не- осведомленность противника для блефа. При использо- вании блефа первый игрок может сообщить второму о вы- боре х°, для которого существует такое х2, что (х±9 х'2) Gz ЕЕ X (?1) П P*i (ь), и принудить второго к выбору х2 путем угрозы (3.9). На самом же деле первый игрок выби- рает вектор х19 причем (х19 х^ €= Рг (ух). Такой блеф воз- можен, если проекции Р2 (у^ f) Р± (у2) и Рх (ух) на прост- ранство х2 пересекаются между собой, хотя Р2 (ух) (") П Pi (?1) = Ф • Для уверенности в успехе такого блефа первый игрок должен знать Рх (у2) или хотя бы быть уве- ренным в принадлежности (х?, к этому множеству; это создает увереннзсть в отсутствии подозрений у второго игрока. В иных случаях блефующий рискует быть раскры- тым. Заметим, что указанный блеф в игре с антагонисти-
ИГРЫ КАЧЕСТВА 163 § 14] ческими интересами всегда некорректен и, значит, в по- вторяющейся игре может быть эффективен, видимо, только в одном повторении. Наиболее сложным случаем, как уже говорилось, яв- ляется случай неуверенности в соотношении интересов у обоих игроков, т. е. когда Pi (?1) П X (?1) = Ф, Ру Ш П X’ (ъ)^ Ф, Л (?г) С р1 (Та) = Ф, Р2 (Тг) П Pi (?г) Ф • Здесь, если изоляционистские стратегии обоих игроков не приносят никому из них успеха, то естественно ожидать от них стремления к уточнению соотношения интересов. Один из игроков «до игры» может потребовать от друго- го сообщения своего Pt (у^) (угрожая иначе наказанием (3.9)) и после этого, веря в точность сообщения, органи- зовать в дальнейшем игру, как было указано выше. Од- нако здесь уже второй игрок может начать блефовать, если это ему выгодно. Можно рассматривать и процедуры переговоров, похожие на теорему 3.3. Например, первый предлагает второму выбрать совместную стратегию из Л (Ух) П Р2 (Т1)- Если второй согласится, значит, имеется игра с не- противоположными интересами (или блеф в антагонисти- ческой игре); если нет, то, безусловно, игра антагони- стична. Во всех этих вариантах поведения ситуация остается неясной и требует дальнейших исследований; возможно, что здесь уже нельзя обойтись без какого- либо компромисса (коалиции). Компромисс может, конечно, быть полезен и в априо- ри антагонистической игре. Одна из таких возможностей, которая появляется при объединении ресурсов, была уже указана выше. С известной натяжкой компромиссом мож- но назвать и применение смешанных стратегий, реализую- щих седловые точки в антагонистических играх. Компро- мисс здесь заключается в том, что определение, кому 6*
164 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III выиграть, предоставляется случаю. Если при этом игра повторяется достаточно многократно, то каждый будет вы- игрывать в соответствующем количестве случаев. Разу- меется, такой компромисс легко записывается в виде (1.45) для осредненных Однако если игра повторяется, то возможна уже и не случайная организация компромис- са, основанная на коалиции игр, подобных wl, указанных в § 12 (теорема 2.10). Действительно, при одном повторении игры (3.1) max + w;2) равен или 1, или 2. Поэтому за $ повторе- (Х1, Х2) ний достижим максимальный суммарный результат s или 2s. Во втором случае каждый все время может полу- чать 1. В первом же каждый уже не может все время вы- игрывать, поэтому в к повторениях 1 получит первый иг- рок, а в (s — к) — второй; выбор /с определяет конкретный компромисс в s повторениях. При двух повторениях, оче- видно, разумно только к = 1/2, если какой-либо игрок самостоятельно не может себе обеспечить выигрыш. Не- трудно убедиться, что рассматриваемый вид компромисса можно записать и в форме коалиции с побочными плате- жами (1.45) при кД = 0 и Pi = ~—, р2 “ , где г — по- ложительное число, не превышающее s — 1. Оптимальное Zt при этом опять определяется по (1.46). Наконец, еще одним видом компромисса является уменьшение величин al в (3.2), что всегда может привести к неотрицательности (3.7). Такой вид компромисса, ес- тественно, не требует повторяемости игр. Итак, все рас- сматриваемые виды компромисса (включая и объединение ресурсов) вновь записываются в общей форме коалиции; при этом только расширяется множество стратегий коа- лиций за счет перераспределения ресурса, или снижения требования al, или же, наконец, за счет побочных плате- жей, появляющихся в результате повторений игры. При- нятие той или иной формы компромисса возможно и в антагонистической игре. Эти возможности позволяют, ви- димо, рассматривать по-новому и дифференциальные игры качества (особенно в случае малой информированности сторон), разумеется, если компромисс имеет какой-то смысл.
§ 15] ИГРЫ С ЗАПРЕЩЕННЫМИ СИТУАЦИЯМИ 165 § 15. Игры с запрещенными ситуациями Игра двух лиц с запрещенными ситуациями в объек- тивном описании задается в виде (#1, #2^ (^1> ^2) I—(^i^2)EX?XX\Pi, (3 10) (F2 (^1, #2), (#1, Х2)^Р2, Л — °°? X Х2\Р2* Приводимые ниже результаты верны при условии Рф Z) ZD X? X Х2, которое предполагается выполненным в ре- зультате соответствующих коллективных действий. Слу- чаи, когда утверждения верны и без этого предположения, будут специально отмечаться. Нетрудно увидеть, что наличие Рг и Р2 создает опре- деленную общность между игрой (3.10) и играми качест- ва, рассмотренными в § 14. Так, настоящую противо- положность интересов в (3.10) можно видеть не в наличии связи FA + F2 == 0 на Рх П Р2, а в равенстве Рг П Р2 = = ф; этот крайний вариант рассматривать здесь не бу- дем, полагая Рх П Р2 = Ро^^* Литература по играм с запрещенными ситуациями [37] посвящена в^основпом случаю Рх = Р2, т. е. случаю совпадающих ограничений. Рассмотрение чисто изоляционистских действий обоих иг- роков, без получения и обмена информацией, оправдано, конечно, лишь тогда, когда [X?] #= —00 хотя бы для одного i; соответствующий игрок имеет при этом по край- ней мере 8-оптимальную гарантирующую стратегию. Ес- ли у обоих Lt —оо, то это означает наличие в Р3 не- пустого максимального подмножества Рх X Х2, где Р\ = = {^1} CZ X?, а в Р2 — максимального непустого Р2 X X X?. В этом случае исходная игра, очевидно, сведется к игре на множестве Р'х X Р'2 cz Ро, т. е. к игре без запре- щенных ситуаций, которая в случае Д + Д == 0 оказы- вается обычной антагонистической игрой, здесь не представ- ляющей для нас интереса. Во всех остальных случаях хотя бы один игрок должен проявить склонность к коллектив- ным действиям или к обмену информацией, в крайнем случае к самостоятельному добыванию ее.
166 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. Ill Пусть, например, Lr — оо, a L2 [Х!!] = —оо. Тогда второму игроку желательно (во всяком случае, ес- ли он не может самостоятельно расширить Х2) вступить в какую-либо коалицию с первым игроком. Ясно, что не- обходимой предпосылкой этой коалиции будет условие (^i, х2) 6= Ро. Но эта коалиция не будет представлять интереса для первого игрока, если не будет выполнено sup (3.11) (Х1, Х2)6РО Пусть (3.11) выполнено. Тогда для первого игрока, если он знает, что L2 = —оо, естественно потребовать полу- чения Кг или достаточно близкой величины, поскольку от- каз второго от этого требования может привести к реши- тельному отказу первого от коалиции, что совершенно неприемлемо для второго игрока. Таким образом, имеем следующий важный вывод. Ес- ли второй игрок хоть сколько-нибудь осторожен и может пользоваться стратегиями только из Х2 при L2 = = -оо и 4 [X?] =7^—оо, то естественным исходом игры для первого игрока будет результат, близкий к Кг. При Л + ^2 = 0 на Ро результат второго будет, конечно, бли- зок к —Кг. Разумеется, если и для первого ЬА = —-оо, то коллективные действия становятся не столь однознач- ными. Игроки без труда договорятся о совместном огра- ничении х2) е PQ (что эквивалентно принятию в (3.10) Рг = Р2). В остальном же потребуется компро- мисс по (1.45), в особенности если игра повторяется неод- нократно и можно использовать соображения §§ 12—14. Разумеется, могут использоваться и ситуации равновесия, в том числе и в смешанных стратегиях. Отметим, что если второй игрок осведомлен об отсут- ствии у первого информации о факте L2 = — оо (при Lr Ф =/= —оо), то это, видимо, не очень увеличивает его шансы в торге о виде коалиции, поскольку первый игрок и здесь все же может грозить изоляционистскими действиями; далее мы увидим, что использование вторым игроком вместо Xl множеств типа Х2 (см. стр. 234) может сущест- венно’изменить положение игроков. Обратим теперь внимание на возможности^ возникаю- щие при получении информации и особенно при обме-
§ 15J ИГРЫ С ЗАПРЕЩЕННЫМИ СИТУАЦИЯМИ 167 нах ею. Для этого рассмотрим игры типа (3.10) при Ft + + ^2 = 0 на PQ и Рг 2D Р2 = Pq с фиксированным по- рядком ходов, полагая, что первый ход делает первый игрок, выбирая стратегию из Xj. Пусть второй игрок име- ет множество стратегий Х2, соответствующее наличной у него информации об хи либо добываемой самостоятельно, либо передаваемой ему первым игроком, и пусть это мно- жество известно первому игроку. Положим, далее, что проекция на равна P2i и также известна первому игроку. Будем полагать 63=6! = 0, если нет специаль- ных оговорок. Теорема 3.4. При указанных условиях наилучший гарантированный результат первого игрока равен T1 = max( sup inf (х19 x2); Lr [Xj]). X1GP21 x2 (Xi, X2)SEP2 Если Tx L± [X?], то наилучший гарантированный ре- зультат второго равен — sup inf Fr (xlf x2) = X1GP21 x2 (Xi, X2)GP2 = inf sup ^2(жг,л:2)>Л21Х2]. x2 X1GEP21 (Xi, x2)EEP2 Эти результаты (при Тг достигаются, например, на последовательности г-седловых точек (г-точек равновесия) в обычной антагонистической игре с критерием f1(x1,x2(x1)) без запрещенных ситуаций, заданным на прямом про- изведении множеств стратегий Р21 X X*, где Х^ — = {х2 (^1) | хг ЕЕ ^21? #2) Доказательство. Прежде всего отметим, что непустота множества Р21 позволяет определить по край- ней мере одну функцию х2 (х^, заданную на Р21 при (х19 х2) ЕЕ P2j таким образом, X* не пусто. Результат гарантирован (хотя бы с точностью до е) первому игроку, поскольку при х1 P2i информированный второй игрок, конечно, максимизирует свой платеж, что означает преж- де всего выбор из Р2 (это возможно по определению Р21). Пусть Тг а х[ е Р2 и реализует с точностью е. Тогда существует, очевидно, стратегия £2 ЕЕ X*, такая,
1в8 ГАРАЙТИРОВАЙЙЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛЙЦ (ГЛ. ТТТ ЧТО Ft (#i, z2) > sup F2 (хи ж2) — e x2; (xi, x2)gP2 при любых xr GE P21. Имеем, очевидно, при любых f2 е £ х“ и е Р21 Fi(^,x2)> inf —е, х2;(хх, x2)g ?2 F2 (Х1, х2) > sup F2 (Ж1, X2) — 8 — Хг;(Хр Хг)еР2 — — inf Fi (ж', ж2) — 8 > — Ti — е. х2;(Хр х2)е .Р2 Но это и означает, что и $ образуют 8-седловую точку в указанной в формулировке теоремы антагонистической игре без запрещенных ситуаций. Разумеется, rf является здесь и 8-абсолютно оптимальной стратегией. Заметим, что в доказанной теореме не предполагалось Lx [Xj] =# — 00, равно как и £2 1^?] ¥= —°°. Если Lr [X?] = Z2 [Х2] = — оо, то достижимость ре- зультата (Д; —Гх) показывает на возможность громадно- го отличия максимальных гарантированных выигрышей для обоих игроков от максиминов, т. е. от результатов, достижимых на основе изоляционизма. В данном случае эти выгоды имеют место в первую очередь из-за того, что первый игрок располагал информацией о Р21 ♦) (т. е. о некоторой характеристике обобщенного критерия w2 вто- рого игрока), в то время как второй знал выбор хг. Оче- видно, что если эта информация не получается самостоя- тельно, то ею во многих случаях, несомненно, целесооб- разно обменяться. При Xj X X” с Рф верно, вообще говоря, лишь ут- верждение о реализуемости гарантированного результата Тг. Однако Тг уже не может считаться наилучшим гаран- тированным результатом из-за того, что при определении ♦) Легко заметить, что если первый игрок не знает ничего о Р2, кроме Р21 и факта Р2 с Р±, то в определении Tt ему следует взять Ра = (Р21 X Х°) П Р\-
ИГРЫ G ЗАПРЕЩЕННЫМИ СИТУАЦИЯМИ 169 § 15] [X?] не учтено Рф. Теорема останется справедливой, если Рф известно и под L± [X?] понимать sup inf F± х2\ XoGEA 2 (Х1, Х2^РФ Аналогично можно уточнить и любое Lr [X?] в виде sup inf ^1(^1, ^2). x2GA2 (xi(x2), Теорема 3.4 в некотором смысле остается верной и для произвольных Fr и F2 и Pv Р2. Для того чтобы дать фор- мулировку в максимально общем виде, возьмем указанное выше максимальное Pt = {xt} такое, что X Х?С Ръ Образуем теперь Р± = Р± -|- Р21 и рассмотрим любые функции х2 (Х|), заданные на Рг так, что rr2 ЕЕ Х2, если Е Pi \ Р21, и ^2) ^2, если £= Ан- Соответст- вующее множество стратегий второго игрока обозначим Хи Теорема 3.5. Если первый игрок знает Р21, а вто- рой имеет информацию о х17 то игра при описании (3.10) для обоих игроков эквивалентна игре на Рх X Х“ с кри- териями wi (^1, ^2) и ^2 (^1, определяемыми согласно (3.10). Последняя игра имеет ^-абсолютно оптимальные стра- тегии для второго игрока и ситуации равновесия. Первая часть теоремы очевидна, так как в новой игре сохранены все стратегии первого игрока, при которых он может "получить больше чем — оо или самостоятельно (^ ЕЕ Р^), или с помощью второго игрока (хг ЕЕ Р21). Точ- но так же для второго игрока сохранены все аналогичные возможности, поскольку полностью сохранено Р2. Суще- ствование 8-абсолютно оптимальной стратегии второго иг- рока и 8-ситуаций равновесия является прямым следст- вием полной информированности второго игрока о хг и доказывается дословным повторением аналогичных ут- верждений §§ 9 и 11,
170 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III Теорема наиболее интересна, конечно, в случае, когда в определенной условиями игре критерии эффективности не принимают значения — оо, т. е. когда гщ (хг, £2) — = F1(j;2,x2) и u?2 (x-l, г2) = Р2{хг, £2). Это заведомо будет, если Р1 = Р21 и Р2 с Рг. При этом игра с запрещенными ситуациями при соответствующем обмене информацией сводится к обычной игре, заданной на прямом произведе- нии множеств стратегий, правда, при специально выби- раемом множестве стратегий Х\ = X*. В связи с этой теоремой, естественно, возникает воп- рос о том, выгодно ли первому игроку передавать точную информацию о ггх, если второй игрок не имеет ее самостоя- тельно. Решение этого вопроса зависит, конечно, от вида конкретной игры, но не следует забывать об общей теоре- ме 2.2 из § 10. Вскоре мы опять увидим, что увеличение информированности первого игрока о возможностях вто- рого делает блеф уже выгодным. Сейчас же обратим вни- мание на выгоды, получаемые первым игроком в ре- зультате увеличения его информированности о х2. Поло- жим по-прежнему Ро = _РХ Г| Р2 =/= 0, и пусть первый игрок, не зная, может быть, /2 я2), точно знает Р2. Теорема 3.6. Если в игре, описанной (3.10), пер- вый игрок располагает множеством стратегий Xf и проек- ция множества Рг\ Р± Г) Р2 на пространство х2 совпа- дает с Х2, то наилучший гарантированный результат пер- вого игрока равен КА (3.11), если Kr Lr [Хх]. Этот ре- зультат с точностью до 8 0 гарантирован при выборе и сообщении первым игроком второму стратегии ~е ( 1 хг (х2), если если х2 = х2, zr2 х2, (3.12) где точка (х[, xl) Е= PQ выбрана первым игроком из усло- вия Fr (#ь К± — 8, а стратегия х± (х2) из условия (я? (ъ), х2) е Л \ Л П Доказательство. Рассмотрим любую страте- гию х^ покажем, что гарантированный результат первого игрока не превышает Kt. Для этого рассмотрим все точки (тх, х2) = (хг (х2), х2). Если множество этих точек не пе- ресекает Р2, то второй игрок, получая только —оо? мо-
§ 15] ИГРЫ С ЗАПРЕЩЕННЫМИ СИТУАЦИЯМИ 171 жет взять с равным основанием любую х2 ЕЕ Х^ но тог- да первый игрок гарантированно получает не более Lr [Xi ] Kt. Такое же положение будет, если второй игрок^не знает Пусть теперь существуют точки (^, я2) €= очевидно, второй игрок, зная выберет одну из таких точек. Если при этом (хх, ЕЕ Р±, то первый по- лучает не более К19 а если (хг, х%) ё= Рг, то получит толь- ко —оо. Остается показать, что стратегия (3.12) гаран- тирует первому К± — 8. Но это так, поскольку, зная х[, второй игрок, приняв х2 — получит F2(^i> — оо, а приняв иное решение, из-за (xf (rr2), ^2) ^2 попада- ет в запрещенную для него ситуацию. Неизбежный, сле- довательно, выбор х2 = xl обеспечит первому игроку Кг - 8. Замечания. 1) При уточненном понимании Lr [Xj1 ] теорема справед- лива для любого Рф. 2) Если L± iXfl > то первому игроку выгоднее, конечно, использовать соответствующую максиминную стратегию, которой, как известно, является и абсолютно оптимальная. В иных же случаях (3.12) выгоднее, чем абсолютно оптимальная стратегия. 3) Применяя (гг2), первый игрок в силу (х* (гг2), х^^ ЕЕ Рх обеспечивает себе попадание в допустимую си- туацию. Это обстоятельство не позволяет второму игроку сомневаться в (^12), если даже он точно знает интересы первого. Вообще же в теореме ничего не предполагается об информированности второго игрока об интересах и дей- ствиях первого. В связи с последним замечанием сразу отметим, что если первому игроку известно, что второй осторожен и не знает Р13 то при />2 [Х2] = —оо, очевидно, верна Теорема 3.6'. Если К± ], то первый игрок гарантирует себе К± — 8, сообщая второму 1S 8 (z2), если если *^2 — *^2» #2 *^2» (3.12') где (#х (#2), ^2) Р
172 £арайтиро£айный результат, ntpbi цёуХ Лиц [гЛ. Ш Существование xi (х2) вытекает из Ь2 [Х®] = — оо. Далее, при доказательстве используется то, что второй игрок осторожен и не знает, возможно или невозможно использование я* (х2), поскольку не знает Рг. Видно, кста- ти, что первый игрок заинтересован в недостаточном зна- нии вторым своих интересов (т. е. запрещений). Блеф пер- вого игрока (он не может выходить из Рх) здесь, очевидно, корректен. Теорема 3.6' уже демонстрирует нам выгоды, создавае- мые блефом в условиях, когда первому игроку ясна недостаточная информированность второго. Однако этим возможности блефа не исчерпаны. Если второй игрок не знает, располагает первый X* или нет, то первый игрок, не располагающий даже информацией о х2 (т. е. имеющий лишь неверно сообщая осторожному второму игроку (3.12'), а на самом деле выбирая х[ ЕЕ Х^ может обеспе- чить себе Кг — 8 ♦). Возможность такого блефа и отра- жена в формулировке теоремы, поскольку в ней отсутст- вует требование о реализуемости (3.12') с точки зрения информированности первого игрока. Уверенность в недо- статочной информированности второго игрока создает пер- вому не только возможности блефа, он может использо- вать и смешанные стратегии. Для этого ему достаточно быть уверенным в том, что второй игрок не узнает кон- кретной реализации х± при случайном выборе его. Изложим в связи с этим результаты [37], относящиеся к «решению» в смешанных стратегиях матричных игр с запрещенными ситуациями при F± F2 = 0 на Рг = = Р2 = Ро. По-прежнему будем полагать, что первый игрок, выбрав свою смешанную стратегию, сообщает ее второму, а второй доверяет точности этого сообщения и исходит из осредненного критерия. Пусть чистые страте- гии первого игрока занумерованы индексами I п, а вто- рого — индексами / = ац = — если (i, j) не запрещено, т. е. (/, /) ЕЕ Ро. Предположим сначала, что в рассматриваемой матрич- ной игре есть хотя бы один столбец /0, не содержащий за- прещенных ситуаций ((г, /0) ЕЕ Ро Для всех 0- Выбросим тог- ♦) Следует еще подчеркнуть, что, блефуя, первый игрок может даже не знать Р2, если только он уверен, что L2 — —оо; при этом он сообщит просто о своем стремлении к реализации w2 = —оо.
§ 15] ИГРЫ с ЗАПРЕЩЕННЫМИ СИТУАЦИЯМИ 173 да из матрицы все столбцы, не обладающие этим свойст- вом, и рассмотрим образовавшуюся антагонистическую игру ||Яг;г||(г= 1, . • к^т) уже без запрещенных си- туаций. Пусть v — цена (значение) этой игры, а {р^} — соответствующая оптимальная смешанная стратегия пер- вого игрока. Введем еще для любого 8 О величины pf = = (1 — е)р°, если pl 0, и pl = при pl = 0; здесь I — число стратегий i, для которых pi — 0. Теорема 3.7. Если к 0, то наибольший гаран- тированный результат первого игрока равен v, а страте- гия {р?} гарантирует получение v — 8 (max | ац | + ^). О,ЦеРо Доказательство. Какую бы стратегию {р^} ни употребил первый игрок, уже в игре || [| эта страте- гия не может дать гарантированного результата более v (по определению цены игры); тем более это верно в рас- ширенной матрице || ац ||. Если же используется страте- гия {$}, то для любого s Л 71 3 aijsPi — (1 — 8) aijsPi + “Г" 3 aijs i =1 1 i—1 L 0 >(1 — 8) v — 8 max | a^ |. Но второй игрок, зная {р?}, не может взять j ф js, по- скольку при любом таком / есть (f, /)(=: Ро и р^^>0 (все чистые стратегии в {р?} берутся с положительными веро- ятностями), а значит, осредненный критерий ш2 равняет- ся — оо. Пусть теперь к =- 0, т. е. нет столбца, целиком незапре- щенного. Очевидно, столбцы, целиком запрещенные, не будут использоваться вторым игроком и потому могут счи- таться уже отсутствующими в || а^ ||. Возьмем первый столбец и вычеркнем все строки, соответствующие запрещенным ситуациям для этого столбца. Полученная матрица ||<zf7-|| х удовлетворяет условиям теоремы 3.7 и определяет поэто- му цену игры иг и соответствующую 8-оптимальную стра- тегию {pl}. Дополним ее, положив остальные р| = 0. Полученная стратегия гарантирует в игре с исходной мат- рицей получение^. Проделав ту же операцию для любого 5-го столбца, получим соответственно vs и {pi}. Максималь-
174 Гарантированный результат, игры двух лиц [гл. ш ный в этом смысле гарантированный результат первого игрока равен max vs = vSQ, а стратегия {р$0}, соответст- вующая номеру $0, который реализует этот максимум, яв- ляется 8-оптимальной стратегией первого игрока. Однако больше, чем pso, первый игрок гарантированно получить не может, ибо любая стратегия {pi}, обеспечивающая для первого игрока попадание в PQ (т. е. =# — оо), хоть для одного столбца s' должна иметь отличные от нуля pi толь- ко для тех z, которые входят в || аг-7 ||s', построенную для столбца s'. Но тогда она не может обеспечить результата, большего vs> р8о. Тем самым доказана Теорема 3.8. Если fc = 0, то, перебрав все под- матрицы || atj ||s, получаемые из |(аг-7|| вычеркиванием тех строк i, для которых (/, 5) Pq, и определив по тео- реме 3.7 соответствующие vs и {р®}, получим*, максималь- ный гарантированный результат первого игрока max vs = = vse; стратегия {ps*} есть s-оптимальная стратегия первого игрока. Если второй игрок не имеет самостоятельной инфор- мации о смешанной стратегии, используемой первым иг- роком, то появляется опять возможность для блефа. На- пример, при к 0 первый игрок, объявив о применении {р\}, на самом деле может использовать {pt}. Это обеспе- чит ему (при осторожном втором игроке) результат, не меньший v. Если величина & значительна, то и выигрыш для первого игрока может быть значительным; однако этот блеф некорректен. Значительная величина & в теоре- ме 3.7 может потребоваться первому игроку для большей гарантии того, что второй не использует / =# /8 (например, если последний готов рисковать в пределах некоторых до- верительных вероятностей). В работе [67] приведен метод решения той же задачи для произвольных биматричных игр с запрещениями. Применение смешанных стратегий в непрерывных ан- тагонистических играх с запрещенными ситуациями до- вольно подробно рассмотрено в [38]. Здесь мы ограничим- ся лишь описанием одного, наиболее любопытного при- мера, обобщенного на случай Р2 и F2 =# — Fv Именно, пусть X? = Х% = [0, 1], а Р2 заключено между прямыми хг — 1 = t (rr3 — 1) и хх = tx2, где t < 0,5. Пусть, да-
§ 15] ИГРЫ G ЗАПРЕЩЕННЫМИ СИТУАЦИЯМИ 175 лее, Рх ZD Р2 и по-прежнему КА — sup Fr (rr1? rr2). (xi, x2)eP<> Второй игрок применяет только чистые стратегии. Первый игрок может взять для любого 8 О произвольную точ- ку (я®, rr2) 6= Р2, для которой F% (х\, гг2) КА (1 — 8). Пусть $1=1 4" t (^2 — 1) и — tx%. Для простоты по- ложим Fr 0. По-прежнему считаем, что второй игрок использует осредненный критерий. Теорема 3.9. Для любого 8 0 и при любых F2 (х1ч х2) первый игрок может обеспечить себе результат не менее Kr (1 — 8)2, выбрав и сообщив второму игроку смешанную стратегию, состоящую из трех чистых зц, Ж1, х\, взятых соответственно с вероятностями 1 — 8, 8/2 и 8/2. Доказательство. Применяя указанную стра- тегию, первый игрок вынуждает второго применить стра- тегию гг2. Действительно, если он возьмет х2 < х%, то с вероятностью 8/2 он попадет в ситуацию гг2), лежащую выше прямой xr = 1 4- t (rr2 — 1), а значит, запрещенную. Если же х% гг2, то запрещенной окажется (х{, х2) (ле- жащая ниже второй прямой), которая также имеет веро- ятность 8/2. Поэтому-то во избежание = —оо второму игроку и остается принять rr2 = гг2. Но это обеспечит пер- вому игроку результат (1 — е) Л xl) + [Fi xl) + (х[, ^)] >(1 — е,)2^. Положим РА = [0, 1] X [0, 1] и возьмем t ->0. Тогда, задавшись произвольным 8 и выбрав достаточно малые t, мы можем обеспечить КА max Fr (xr, rr2) — 8. (Х1,Х2)6Р1 Из теоремы 3.9 следует, что первому игроку гаранти- рован результат не менее [Imax F1(x1,x^ — е](1 — е)2 (хъх2)еР1 при использовании указанной стратегии для любо- го достаточно малого t. Итак, взяв сколь угодно малую (вслед за t) запрещенную область Рг \ Р2, можно тем не менее обеспечить для первого игрока результат, сколь угодно близкий к max Ftfa, .г2), независимо от того, XiG[0, 1] Х2£[0, 1] каковы интересы второго игрока внутри Р2. В то же время
176 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III при F2= — Fr и t = 0 имеем обычную антагонистическую игру, в которой гарантированный для первого игрока ре- зультат есть максимин в смешанных стратегиях, как пра- вило, весьма далекий от указанного максимума. Итак, непрерывность в гарантированном результате при t ->0 отсутствует; первому игроку очень выгодно, чтобы у вто- рого (пусть даже вместе с ним, т. е. при Рг = Р2) была за- прещенная область указанного выше вида. В связи с этим встает интересный вопрос о степени распространенности подобных игр на практике. Здесь мы его обсуждать не будем. Обратим еще внимание на то, что во многих приведен- ных результатах первому игроку нет необходимости знать F2 (х^ х2). Достаточно информации о множестве Р2 при включении Рг 2D Р^ последнее означает, что первый иг- рок менее стеснен ограничениями (запрещениями), чем второй. Все это хорошо отражает ряд практически извест- ных ситуаций. Для обратного включения Р± CZ Р% резуль- таты аналогичны тем, которые будут получены в других параграфах; соответствующие замечания будут сделаны. Случаи же, когда Р2 ¥= Ро Pi, пока еще исследованы недостаточно, хотя и можно указать на работу [73]. Воз- можно, что здесь большое значение приобретут коллек- тивные действия согласно (1.45). § 16. Игры с фиксированной последовательностью ходов без запрещений Пусть = fi («1, ^2), «’г = /2 (*1> (Ж1, х2) < Xi X Х2° и Д (#!, х2) и /2 (х19 х2) — функции, принимающие только конечные значения. Пусть, далее, в распоряжении пер- вого игрока есть стратегии из Xt; о выбранной стратегии он сообщает точную информацию второму. Напомним субъективное представление (1.27) первого игрока об ин- тересах и поведении второго. Введем однопараметриче- ское^семейство фуйкцийЪ* = /2 (^1» ^2, а)> гДе параметр а пробегает некоторое множество А; будем предполагать, что (х}, х%) принадлежит этому семейству. Будем пред-
§ 16] ФИКСИРОВАННАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ ХОДОВ 177 полагать также, что первый игрок знает функцию /2 (я1? х2, а), но не знает, какому значению параметра а соответствует функция /2 (х1ч х2). Для конкретизации множеств Е (^) из § 10 необходимо еще охарактеризовать возможности реализации sup /2(Т1, х2) = sup /2 (х} (х2\ х2) Хг Х> вторым игроком с точки зрения первого. Именно, будем полагать, что существует 82 0, известное первому игро- ку и такое, что второй игрок выбирает заведомо точку гг2, удовлетворяющую неравенству /2(^ь4)> sup /2 (Х1, Х2) — 82. (3.13) xtfEiX2 Ненулевое 82 может появиться не только из-за неумения или невозможности точной реализации sup /2, но и просто из-за естественной неточности определения величины ж2 — /2 (^1, #2) вторым игроком. Это же 82 может символи- зировать и некоторый «порог чувствительности» 62 второ- го игрока к значениям w2, т. е. его безразличие к измене- ниям w2, не превышающим 82. Будем полагать здесь, что если L2 [Х2] реализуемо, то 82 необходимо таково, что пра- вая часть (3.13) не менее L2 [Х2]. Все сказанное следует отнести, конечно, и к любой функции /2 (хъ х2, а), по- скольку все это множество функций соответствует инфор- мированности первого игрока об интересах второго. В описанных условиях выбор и сообщение второму игроку стратегии приводит, с точки зрения первого, к желанию второго реализовать sup /2 (т17 х2, а) при неко- х2 тором а ЕЕ А. Условие (3.13) означает тогда, что при фик- сированном а второй игрок (с точки зрения первого) мо- жет взять любую точку х2 из множества Л2(п,а) — {^2|/2(гьт2, а) > sup /2 (гьгг2, а) — 82}. Х2С=Х2 (3.14) Поскольку относительно а известно лишь, что а ЕЕ А, то первому игроку о выборе х2 гарантированно известно
178 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III только ^ЕЛ2(^1)= и ^е2(^ьа)- (3.15) асА В обозначениях § 10 £'(r1) = {(Zi (а?2), х2)}, РЕг (rj). Тем самым, гарантированный результат первого игрока равен inf~ ж2) = <р(Ы, x2ePe2(xi) а наибольший гарантированный результат в соответствии с (2.28) sup <р(5?1)= sup inf a:2). (3.16) SeXi SeXi ас2ер£2(Й) Все сказанное формально относится к случаю исполь- зования игроками только чистых стратегий. Однако без всяких изменений (3.13) — (3.16) переносится и на сме- шанные стратегии. Для этого достаточно всюду вместо и записать соответствующие смешанные стратегии, a iPj и ip2 заменить на осреднения по этим смешанным стра- тегиям. Разумеется, такое обобщение привело бы и к су- щественному осложнению определения (3.16), в частности, из-за значительного расширения /^Д^). Поэтому, имея ввиду аналогию с обычными антагонистическими играми, целесообразно выяснить, когда можно при определении гарантированного результата для первого игрока не обра- щать внимания на возможность использования вторым игроком смешанных стратегий. Здесь важно прежде всего следующее обстоятельство. Пусть стратегия (смешанная или чистая) не основана на информации об используемой вторым игроком смешан- ной стратегии ф (я2) (хотя и может базироваться на лю- бой информации о реализациях #2), т. е. пусть не зави- сит от ф (#2). Тогда suP \ /2 (^1, ^2, u) dty (#2) = sup /2 (^1, и)- (3.17) ф(х2) J Хг Это равенство является следствием того, что, с одной сто- роны, левая часть (3.17) должна быть не меньше правой, так как множество чистых стратегий есть часть множества смешанных, а с другой — для любого ф2 (^) при незави-
§ 161 ФИКСИРОВАННАЯ ЙОСЛЁДОЁАТЁЛЬНОСТЬ ХОДОВ 179’ СИМОСТИ ОТ гр (^2) \ /2 (^17 #2, a) dty (х2) < sup /2 (Х1, #2, а). Хг Но (3.17) означает, что применение смешанных стратегий не сулит каких-либо преимуществ второму игроку. Поэ- тому, если он осторожен, он будет смешивать разве лишь равноценные чистые стратегии, т е. стратегии из Рг2 (хх,а). Тот же результат, будет, конечно, и в случае е2 = О (здесь не обязательна осторожность), когда наличие в сме- шанной стратегии с положительной вероятностью х2, не удовлетворяющих (3.13) при е2 = 0, приведет, конечно, к тому, что и гр (гс2) не будет удовлетворять соответствую- щему условию. Аналогичное обстоятельство имеет место и в случае е2 0, если (3.13) является следствием не- возможности достигнуть верхней грани, а не следствием неточности вычислений или нечувствительности второго игрока. Действительно, если в гр (х2) с положительной ве- роятностью используются х2, неудовлетворяющие (3.13), то или почти все х2 не удовлетворяют (3.13), или есть мно- жество точек х2 положительной меры, каждая из которых удовлетворяет (3.13). В первом случае гр (х2) не удовлетво- ряет (3.13), а значит, не может использоваться. В другом случае у второго игрока есть чистые стратегии из (3.14), используемые в гр (х2) с положительной вероятностью; тогда легко построить стратегию гр* (х2), смешивающую только эти стратегии и дающую лучший результат для второго игрока, чем гр (х2). Поскольку она реализуется не сложнее, чем гр (х2), то опять ясно, что гр (х2) использовать- ся вторым игроком не будет. Итак, во всех перечисленных случаях второй игрок бу- дет смешивать только стратегии из (х1? а), и это бу- дет верно при любых а. Но тогда, повторяя рассуждения, приведшие к (3.17), очевидно, получим inf inf §/1(х1?.Г2)^(я2) == inf inf /1(^1, ^2). аеА ф(х2)^ аеА Xi^p Q а) x2SP£2(Xi, а) Таким образом, верна Теорема 3.10. Пусть второй игрок знает страте- гию которая не зависит от гр (х<^. Если при этом или е2 = 0, или второй игрок осторожен, или, наконец, если
180 Гарантированный результат, игры двух лиц [гл. ш он из реализуемых для него ф (^2) выбирает наилучшую, то первый игрок при определении гарантированного или наи- лучшего гарантированного результатов и соответствующих стратегий может не учитывать возможности использова- ния вторым игроком смешанных стратегий. Что же будет, если все же е2 > 0 и второй игрок будет смешивать чистые стратегии не только из (3.14), остава- ясь конечно, при использовании стратегий в рамках нера- венства, аналогичного (3.13)? Здесь необходимо уже ввес- ти множество смешанных стратегий А, (®ъ а) = {(41), 4°, 91, 9г) | 91/г (^1, х^\ а) + + 9гЛ (®i, 42), а) > sup/a (гх, х2, а) — е2; gx + д2 = 1; > 0). (3.18) Теорема 3.11. При оценке гарантированного ре- зультата для и при отыскании стратегии, реализую- щей (точно или с точностью ej наилучший гарантирован- ный результат первого игрока этот игрок всегда может исходить из того, что второй игрок применяет сме- шанные стратегии только из Р£2 (^, а), т. е. смешивает самое большее две чистые стратегии. Наилучший гаранти- рованный результат при этом имеет вид inf inf [9i/i (Ж1,41’) + 9гЛ (®i, 42))1 • “еА <44 42)> ««> “) (3.19) Эта теорема является прямым следствием теоремы X из [6], если учесть, что законы распределения ф (#2) огра- ничены здесь при любом а двумя условиями: § йф (я2) = 1, J /2 (#ь ^2,«) ^Ф (я2) > sup /2 х2, а) — 82. В обеих сформулированных теоремах существенно ис- пользовался факт независимости от ф2 (х2). В против- ном случае равенство (3.17) будет, вообще говоря, уже не- верным и можно утверждать лишь, что левая часть не меньше правой. Но отсутствие равенства означает выгод- ность применения* смешанных стратегий для второго игро- ка даже в случае, когда ему известна. Интересно, что и первому игроку может быть выгодно использовать стра-
1G j ФИКСИРОВАВШАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ ХОДОВ 181 тегии х± вида xt [ф (гг2)], заставляя при этом второго игро- ка использовать стратегии из (3.18). Эти обстоятельства, замеченные в [39], имеют место, конечно, и в антагонис- тических играх; однако до последнего времени на это во- все не обращалось внимания. Сформулировав полностью задачу поиска наилучшего гарантированного результата в игре двух лиц с фиксиро- ванной последовательностью ходов, обратим внимание на ее родство с аналогичной задачей в играх с запрещенными ситуациями и на формальную возможность сведения ее к задаче поиска ситуаций равновесия в некоторой антаго- нистической игре. Первое особенно наглядно для случая множества стратегий при точно известных для первого игрока ин- тересах второго (А состоит из одной точки). Тогда, с точ- ки зрения первого игрока, поведение второго описывается неравенством (3.13), связывающим выбираемое вторым ^2 с Это и означает, что в субъективном описании пер- вого игрока игра с передачей информации о эквивалент- на игре с отсутствием запрещений у первого игрока (Рг — = Х°) и с разрешенным для второго игрока множеством Р2, определяемым (3.14). Что касается субъективно пред- ставляемых первым игроком интересов второго игрока в такой игре с запрещенными ситуациями, то в силу (3.16) они полагаются противоположными интересам первого. Отличие от обычной игры с запрещенными ситуациями состоит лишь в том, что Р2, вообще говоря, меняется с из- менением множества стратегий Хг. Что касается формальной трактовки (3.16) как реше- ния обычной антагонистической игры, то это можно сде- лать совершенно аналогично тому, как в теореме 3.4 § 15. Именно, вводим стратегии х2 = х2 (xj при непремен- ном условии х2 (^х) ЕЕ Ре2 (2Х) для всех ЕЕ Хг Обозна- чим через Х2 множество всех таких стратегий. Теорема 3.12. В антагонистической игре с кри- терием fi (^п ^2) = fi (^1, ^2 О, рассматриваемой на XL X Х2, цена (значение) игры рав- няется (3.16). У второго игрока есть г-абсолютно-опти- малъная стратегия, определяемая реализацией (3.16), а
182 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛЙЦ (гЛ. Ill значит, в указанной игре есть г-седловая точка в чистых стратегиях. Доказательство этой теоремы проводить нет необхо- димости ввиду его полной аналогии с ранее проводившими- ся для игр с полной информацией. Таким образом, на- хождение максимального гарантированного результата и соответствующей стратегии в игре двух лиц с фиксирован- ным порядком ходов есть задача не более сложная, чем нахождение седловых точек для общего вида антагонисти- ческих игр. Разумеется, обратное тем более всегда верно. Будем рассматривать теперь случай Хх = Xf, т. е. предполагать наличие точной информации о выборе х2 у первого игрока. Тогда в качестве выбираемой и сообщае- мой второму игроку стратегии он может взять произволь- ную функцию = хг (х2). Положим /2 (хи хг) непрерыв- ной на компакте X? X Х2. Предположим, далее, что е2 = = 0, если только в (3.13) верхняя грань достижима, ина- че — пусть существует некоторое в2^> О, но такое, что вто- рой игрок получает не менее своего Ь2 [Х2]. Пусть, далее, интересы второго игрока точно известны первому, т. е. а принимает только одно значение; поэтому далее а опус- кается. Введем некоторое достаточно малое 8 0 и опреде- лим следующие множества, функции и величины: /2 (xi (хъ), хъ) = min /2 (Х1, х%), xiexj L2 = max /2 (я® (х2), х2) — max min /2 (х±, х2), Е2 = {х2 | /2 (xf (х2), х2) = Ь2}, D = {(^, х2) | /2 (хи х2) > Ь2}, sup /1(^1, х2), В^ф, (Xi, x2)GD -- ОО, В = ф, А («1, *2) > к — е, (х*, х\) ф, М= inf sup A(®i, X2gE2 A (tf (Xi), Xi) sup A (xlt Xi) — e. (3.20) К =
§ 16] ФИКСИРОВАННАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ ХОДОВ 183 Теорема 3.13 [15]. В указанных условиях наи- больший гарантированный результат равен max [А, М]. Стратегия (ж2), (х2) если х2 = К М, если х2ЕЕЕ2, К^М, в остальных случаях гарантирует при достаточно малых е получение max [А, М] — е. Доказательство. Пусть К М, тогда sup /2 (Т1, х2) в силу (х\, Х2) ЕЕ D И /2 (Х1 fe), ^2) Ь2 Х2 достигается при х2 — х%. Следовательно, второй игрок вы- бирает х2 = xi, и это гарантирует первому при стратегии результат К — е. Если же К М, то при х2 Е= А2, очевидно, /2 (х* (#2), ^2) < А2. Поэтому, в силу предполо- жения о непрерывности /2 и, следовательно, достижимости £2, 82 таково, что sup /2 (^, #2) — е2 > ^2> и, значит, вто- Х2 рой игрок выберет х2 только из Е2. Но тогда первому иг- року гарантировано inf /1(^,а;2)= inf /1(^е,ж2)> X2GE2 X2GE2 inf sup (#1, х2) — е = М — е. Осталось доказать, что и при любой стратегии = хх (#2) первый игрок не может получить гарантированно более чем max [А, М]. Действительно, если sup /2 (£ь х2) X2G=A2 L2, то первый игрок никак не гарантирован при любом е2 0 от того, что второй возьмет х2 так, что (хг (х2), х2) ЕЕ EEjD. Но тогда первый получит не более К max [К,М]. Пусть теперь sup /2 (хъ х2) = L2 (меньше он быть Хг^Х2 не может по определению £2). Тогда эта верхняя грань, очевидно, достигается при всех х2 ЕЕ А2, ибо здесь L2 = inf /2 (zn ж2) < /2 (5fj, ж2) < sup /2 (2?!, х2) = £2. х2еА7° 2
184 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III Поэтому первый игрок не гарантирован от использования вторым любых х2 ЕЕ Е2, а это гарантирует ему не более inf inf sup/i(#i,#2) = max [К, М]. х^Ег x^Et Xi Теорема полностью доказана. Замечания. 1) Как видно из доказательства, непрерывность /2(х1? х2) нужна для существования xf (х2) и достижимости £2- Второе обстоятельство, очевидно, не существенно с точки зрения достижимости результата К — & при К — М. Для первого же достаточно непрерывности /2 (хх, х2) по хг при любом х2 ЕЕ Х2. Более того, можно отказаться и от этого требования, если предполагать, что второй игрок осторожен и не знает, с какой именно точностью может реализоваться inf/2 fo, х2). Если первый игрок, сообщая о ^i, не будет сам сообщать соответствующую точность, то второй игрок должен вести себя так же, как если бы нижняя грань реализовалась. 2) Если второй игрок осторожен, и это известно пер- вому, то первый при К М может применить блеф, объ- явив об использовании х* (х2), тогда как он на самом де- ле, не располагая информацией об х2, просто выбирает х{. Этот блеф, конечно, должен основываться на информации о том, что второй игрок не знает, какова истинная инфор- мированность первого. Если же при К^М множество Е2 состоит более чем из одной точки, то, поскольку при этом реализация х^ требует информации о #2, такой блеф невоз- можен. ЕслиД (#i> я2) строго вогнута по хх, то при этом, ко- нечно, Е2 будет состоять из одной точки. 3) Первый игрок может не сообщать второму свою не меняя своего результата. Ему достаточно указать, что при х2 Ё= Е2 и х2 =# xi он будет применять 4) Если X? и Х% состоят из конечного числа точек, то все верхние и нижние грани, конечно, реализуются. Поэ- тому можно взять е — 0, и наибольший гарантированный результат max [Х* М] реализуется точно. Ряд практически интересных применений теоремы 3.13 цздржец в [46],
§ 167 ФИКСИРОВАННАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ ХОДОВ 185 Наиболее трудным моментом в практической реализа- ции X* является нахождение всех точек Е2. Поэтому весь- ма важно было бы избавиться от необходимости учитывать вторую строку в т*. Это возможно при некоторых допол- нительных ограничениях на /2 (хх, я?2). Следствие из теоремы 3.13. Пусть L2<Z < max /2 (х19 я?2). Если в условиях и обозначениях теоремы Х1,Х2 потребовать еще непрерывности Д (гг1? гг2) и отсутствия У fz #2) локальных максимумов со значением Ь2 на [Xj X Х2], то К М и, следовательно, стратегия xzv если х2 = х^, если обеспечивает получение максимального гарантированного результата с точностью до е. Доказательство. В доказательстве нуждает- ся, конечно, только утверждение К По определению множества Е2 имеем /2 (xr, х2) Ь2 при х2 GE Е2 и любых хг. Если здесь имеется строгое неравенство, то (хх, х2) GE ЕЕ D ф и, следовательно, Д (хх, х2) К. Если же /2 ^2) — L2, то по условиям следствия, задав сколь угодно малое ц О, мы в окрестности точки (хг, х2) радиу- са т] найдем точку (х[, х2) со значением/2 (х{, x2)^>f2 (х19 х2). Эта точка будет принадлежать D. Итак, при любых х2 ЕЕ Е2 и хл сколь угодно близко к (хх, х2) найдется точка из D. Из непрерывности^ имеем поэтому Д (х^ х2)~ = lim Д (^1, х2) К. Но если это верно для любого хг, •п-*о то и sup /д (хц X, а значит, и М К. Следствие доказано. Легко проверить, что возможность использования пер- вым игроком побочного платежа второму (пусть даже z z0, когда zQ — любое положительное число) немедлен- но приводит к выполнению условий на /2, указанных в следствии из теоремы 3.13, и, значит, к К М. Подроб- нее это свойство побочных платежей будет рассмотрено в главе IV. Теорема 3.13 легко допускает и ряд модификаций, от- носящихся к играм с запрещенными ситуациями, при
186 ГАГАЙТиРОЁАЙНЫЙ результат, игры ДВУХ ЛИЦ (ГЛ. Hi обязательном предположении Рф ZD %i X Х2. Прежде всего необходимо отметить, что если /2 (хъ х2) непрерывна по хг на замкнутом! множестве Р2 и равна —оо вне Р2, то Ж? остается «физически» реализуемой. Действительно, если inf /2 (хр х2) —оо, то для любого хг точки (^i, х2) ЕЕ Р2; если же эта нижняя грань равна — оо, то в силу замкнутости Р2 и непрерывности /2 по х± при (xv х2) ЕЕ ЕЕ Р2 существует х± такая, что /2 (rrf, я2) = —оо. По- этому утверждения теоремы остаются справедливыми при любом Р2, если запрещений у первого игрока нет. Однако если даже они и есть, но второй игрок их не знает и осто- рожен, а первый не сообщает реальной Ж®, учитывающей Р19 то утверждения теоремы остаются верными при бле- фе первого игрока относительно Ж1 (блеф корректен); нуж- но лишь при определении (3.20) использовать запись (3.10). Более сложно обстоит дело в случае, когда замкнутые Рх и Р2 точно известны обоим игрокам. Полагаем, что max /2 (хъ х2) Ь2, тем самым Ро =/= Ф • В этом слу- (Х1,Яг)еР1 чае многое зависит от того, насколько решителен (уверен в своих знаниях) первый игрок. Если он достаточно решите- лен, то может по-прежнему грозить «физически» осуществи- мой стратегией «наказания», реализующей min /2 (х^ х2). Если второй верит в эту решительность, то он будет выбирать (х*, xf) или (^e (х2), х2) при х2 ЕЕ Е2, Во всех случаях такое решение второго игрока не вы- ведет первого из Р± и, следовательно, допустимо по его ограничениям. Действительно, из-за max /2 (х19 х2) >> (хх„ x2)ePi >* Ь2 имеем, что D р| Рг =# ф и, следовательно, К —оо. Поэтому, если К М, то, выбирая (х*, xl), вто- рой игрок попадает в Рг (и одновременно, конечно, в Р2). Если же К М, то М — оо, а это означает, что /1 (#1* С2^)» #г) ”“°° ПРИ любых х2 ЕЕ Е2 и, значит, (х™ (х2), х2) ЕЕ Рг (и если Ь2 — оо, то эта точка принад- лежит и Р2). Таким образом, стратегия гарантирует первому игроку попадание в Рг и обеспечивает ему max [К, М] — 8. Большего же, чем max [К, М], он по-
§ 16] ФИКСИРОВАННАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ ХОДОВ 187 лучить не может, ибо доказательство теоремы 3.13 оста- ется неизменным и для данного случая. Неясно, что бу- дет, когда max /2 (ггг, я?2) £2. Это, видимо, есть обоб- (Xt, x2)SPi щение крайнего антагонизма Pr Q Р2 = Ф- Оценим теперь, какие результаты может получить нере- шительный первый игрок. Будем считать, что его нереши- тельность характеризуется ограничением собственного выбора множеством Х19 состоящим только из таких (я2), для которых (я2), я2) ЕЕ Ръ если х2 ЕЕ Р12 — проек- ции Рг на пространство изменения х2; хг (х2) при х2 6= РХ2 может принимать любые значения из X? (невозможно ос- таваться В Ру). Если второй игрок уверен в таком поведении первого (знает Хх), то первый не может блефовать и способен реа- лизовать только стратегию наказания х™, определяемую из решения min /2 (хх, х2) при х2ЕЕ Р12 и min /2 ,х2) Х1, (Х1, %)GPi XiGxJ при х2 ЕЁ РХ2. Обозначая этот минимум через ср (х2), можно определить максимальный гарантированный ре- зультат L2 = max ср (х2) второго игрока при хг ЕЕ Хх. х2ех2 Используя такое определение Ь2 и xf в (3.20), получим модификацию теоремы 3.13. Теорема 3.13'. Пусть в игре (3.10) /2 (я?х, я2) не- прерывна на Р2 и max /2 От, ^2- Положим, что (xi,x2)ePt первый игрок, располагая точной информацией о х2, ис- пользует стратегии из Хх, второй игрок знает Рг. Если при этом первый игрок точно знает интересы второго (в том числе и Р2) и точно сообщает свою стратегию, то верны утверждения теоремы 3.13 при замене в (3.20) х^ на £хс и Ь2 на Ь2. Достаточно уточнить только доказательство того, что при любом хг ЕЕ Хх гарантированный результат первого не превышает max [К, М]. Действительно, если среди мно- жества точек графика (хг, х2) имеются точки из D, то второй игрок предпочтет одну из них. Это даст первому не более К. Пусть теперь таких точек нет, т. е. f2 ($ъ х^ любых Возьмем х2 ЕЕ Е2, Тогда хх (х2) S
188 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ ГЛ. III ЕЕ если х2 ЕЕ Р12, и xr (я?2) ЕЕ Xi при х2 ё= Р12- Поэтому /2 (£1? х2) ф (х2) при любых х2 ЕЕ Е2. Итак, шах /2 (£ь х2) достигается во всех точках Е2. Далее все Ха остается так же, как и в теореме 3.13. Сформулированная теорема не содержит ни теорему 3.13 (из-за дополнительного условия на /2 (#i> #2) и пред- положения, что второй знает Рх, т. е. какой-то элемент интересов первого), ни теорему 3.6, поскольку в послед- ней не предполагается знание первым игроком /2 (агх, х2). Довольно интересно проследить, какие следствия из теоремы 3.13 могут получиться при использовании сме- шанных стратегий. Здесь целесообразно отдельно рассмат- ривать случаи, аналогичные К М и К М. Различие и довольно принципиальное этих случаев уже отмечалось в замечаниях 1) и 2) к теореме 3.13 (стр.184). Будем для про- стоты предполагать, что X? и Х2 состоят из конечного числа точек и что оба игрока согласны использовать сме- шанные стратегии, т. е. согласны исходить из осреднен- ных критериев эффективности. Прежде всего встает вопрос о величине Л2, которую может обеспечить себе самостоятельно второй игрок с ис- пользованием смешанных стратегий. Результат зависит, конечно, от того, располагает первый игрок информацией о конкретных реализациях х2 или нет. Поскольку мы рас- сматриваем модификацию теоремы 3.13, то будем считать, что такая информация имеется наряду с информацией о сме- шанных стратегиях. Но тогда смешанные стратегии, как известно [6], не дают второму игроку выигрыша более Ь2 [Х2], и он может смешивать чистые стратегии только из множества Е21 расширяя тем самым это множество. Будем полагать, что смешанные стратегии игроков, вообще говоря, не независимы и выбираются с использова- нием угрозы наказания первым игроком. Пусть {х\} и {4} — все возможные значения xt и х2, и пусть qij — вероятность выбора (4, 4)- Смешанная стра- тегия {qa} дает для первого и второго игроков соответ- ственно Тогда наибольший гарантированный результат первого
§ 16] ФИКСИРОВАННАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ ХОДОВ 189 игрока равен sup ^9у/1(Д,^) (3.21) {а0} i,i при условии Узо/2(а:г4)>1'2’ У'Чгз = ^, qn>®. г, 5 i,j Задача (3.21) является обычной задачей линейного прог- раммирования, с той, однако, разницей, что в условии содержится строгое неравенство. Заменяя его на нестро- гое неравенство с L2~f~ е, используя основную теорему линейного программирования и устремляя 8 к нулю, лег- ко убедимся, что с любой точностью в' верхняя грань (3.21) при заданных условиях достигается на смешанных стратегиях, в которых самое большее две точки имеют не- нулевые вероятности. Тем самым, (3.21) можно заменить на задачу КС№= sup * [?/1 *')+’(1 — ?)/1(<,ж")], Q, (./, Х^), (х',х*) (3.22) О < q < 1, L2 <qf2 х2) + (1 — q)f2 (х[, х2). Разумеется, этот вывод остается правильным и в случае любых компактных множеств X? X Х2; нужно лишь осу- ществить предельный переход, как, например, в гл. II работы [6]. Стратегия так же, как и ранее, наказывает второго игрока по реализации х2 так, что он не может по- лучить больше L2 при использовании им любой смешанной стратегии. Точно так же стратегия х\ определяется по реа- лизации х2, При этом результат М останется неизменным, несмотря на расширение множества Е2. Действительно, г! реализуется на чистых стратегиях при любом поведе- нии второго игрока. Поэтому имеет смысл говорить только о смеси ф(^2) второго1 игрока. Тогда имеем для смешан- ных стратегий ф (,г2), определенных на Е2, 31 см = inf \ А (х* (х2), х2) йф (ж2) = ФС-Ъ) Б; inf max /i (^i/^2) (#2) > 5 3/йф(£2) = М. Ф(^) е2
190 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. Ш Поскольку обратное неравенство очевидно из-за того, что чистые стратегии х2 есть частный случай смешанных, то Л/см = Л/. Суммируя все сказанное, получаем следующее утверждение. Теорема 3.14. Если оба игрока согласны на приме- нение смешанных стратегий и первый игрок знает точно интересы второго и реализации х2, то наилучший гаранти- рованный результат первого игрока равен max [7ГСМ, М], где Кс определяется по (3.22)Л Если М К^, то стра- тегией, гарантирующей М — е, является та же страте- гия, что и в теореме 3.13. При Ксм Л/ для любого е 0 результат К — е гарантирует следующая совмест- ная смешанная стратегия, выбираемая первым игроком и сообщаемая второму: первый игрок выбирает смешанную стратегию, реализующую (3.22) с точностью г, и пред- лагает второму поступить в соответствие со случайной реализацией этой смешанной стратегии; в случае отказа обещает применить %*. Эта теорема в несколько иной формулировке получена в [39] *). Отметим, что в силу (3.22) второй игрок в сред- нем получит более Z2. Однако этот средний результат оз- начает определенный риск, и второй игрок может и не согласиться с ним, если отличие этого среднего результа- та от Z2 недостаточно велико. Именно для того, чтобы из- бежать этого случая, в условия теоремы и включено сог- ласие обоих игроков на применение смешанных стратегий. Для практического использования смешанных стратегий требуется значительное превышение среднего результа- та второго игрока над величиной £2. Если характеризовать это превышение числом Д£2, то легко объединить теоре- мы 3.13 и 3.14, рассмотрев Л"см при замене £2 на £2 + + Д£2; если это окажется больше, чем К, то следует применять смешанные стратегии, если же нет, то не сле- дует. Сформулированную теорему легко трансформировать на случай, когда первый игрок смешивает только свои стратегии х\. Тогда вместо (3.21) имеем, очевидно, задачу sup х iih(4’ T?i = l, Т(3.23) {q^.x.4 i i ♦) Там показано, как и в следствии из теоремы 3.13, что здесь всегда > М и, следовательно, можно ограничиться Ком.
$ 161 ФИКСИРОВАННАЯ ПОСЛЕДОВАТЁЛЬЙОСТЬ ХОДОВ 191 Пусть составляет вместе с { q\} точку, с точностью 8 реализуется (3.23). Задача sup У qifi {<?{} 1 в которой У?» = С г У Qih (-4 > ьг i есть уже задача линейного программирования, верхняя грань критерия в которой отличается от верхней грани в задаче (3.23) не более чем на 8. Отсюда ясно, что задача (3.23) опять может быть заменена задачей = sup [qfi + (1 — g) /i (x'v z2)], g, (3.24) 0 < g < 1, l2 <qf2 (4, ^2) + (1 — (4,*2)- В остальном после замены Z<CM на ZfCM и (3.22) на (3.24) теорема не меняется. Очевидно, что На примере игры «дилемма заключенного» [5] 11(5; 5) (0; 10)|| II (10- 0) (Г 1) И видно’ какои выигрыш может дать первому игроку применение смешанных стратегий. Очевидно, что 7ГСМ = 9 и достигается согласно (3.24) с точностью 8 на смешанной стратегии: первая строка используется с 1.8 4 8 гг вероятностью g- вторая с вероятностью -v----Ясно, что это невыгодно второму, получающему только 1 + 8. о 11(5; 5) (Ю; 0)11 В игре |Ц0. 0' (0- 0) || РезУльтат \§\ л) соответствует си- туации равновесия; К = L± — 5, L2 = 0. Очевидно, что использование 7ГСМ (т. е. смеси только стратегий первого игрока) не дает ничего нового по сравнению с К. В то же время /<см = 10 (и с точностью до любого 8 достигается), если взять первый столбец с вероятностью и второй с вероятностью 1 —|-; при этом второй имеет s 0. Второму игроку здесь совершенно невыгодно со- глашаться с применением смешанных стратегий, однако очень решительный первый игрок может его к этому при- нудить, если 8 е2.
192 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. Ill § 17. Неточная информация об интересах второго игрока при точной информации о его выборе Уже в предыдущих параграфах мы часто встречались со случаями, когда интересы второго игрока неточно из- вестны первому. Такие примеры есть и в § 14, и в § 15. В первом из них речь идет о неточном знании Р2; во втором же при точной информации о множестве допустимых си- туаций Р2 иногда не требовалась информация о Д (х19 х2). Однако во всех этих случаях, например в теоремах 3.9 и 3.6, приводится выигрыш, остающийся максимально возможным и при точном знании Д (х19 х2); он просто не зависит от указанных возможных изменений интересов второго игрока. С другой стороны, ясно, что если об ин- тересах второго игрока ничего не известно (в том числе и о Р2), то принцип гарантированного результата превра- щается в реализацию обычного максимина, т. е. Lr [Afl; в этом случае ничего лучшего, чем абсолютно-оптималь- ная стратегия, рекомендовано быть не может. Таким об- разом, по обсуждаемому вопросу мы имеем общие поста- новки в § 10 и § 16 и анализ отдельных, довольно край- них случаев. В этом параграфе изложим результаты, описывающие гораздо более гибкие варианты информированности перво- го игрока об интересах второго. При этом, как правило, будем предполагать, что первый игрок имеет точную ин- формацию о гг2; функции Д (хг, х2) и Д (хг, х2) будем по- лагать конечными и непрерывными на X? X Х2. Прежде всего сформулируем довольно общую теорему геометри- ческого характера, в которой не требуется каких-либо предположений о Д (х19 х2) и Д (х19 х2). Используем обоз- начения § 16. Теорема 3.15. Пусть о характеристиках инте- ресов второго игрока первому известно, чтоБ* CZ D CZ 2)** и что проекция на Х2 множества Xj X Х2 — 2)** совпа- дает с Х2. Пусть, далее, (х\, х*2) е= 2)* и К'= . sup /i(^i,^2)</i(^r^2) + e, (Xj, x2)GD* a = х& (х2) — любая функция такая, что (xf (х2), х2) ЕЕ
§ 17] НЕТОЧНАЯ ИНФОРМАЦИЯ ОБ ИНТЕРЕСАХ 193 е х°! х х°2 — /)**. Тогда стратегия при Х2 = Х2, (я-а) при Х2^Х2, K-^LrlXf], при [Ххи] гарантирует первому игроку результат max {X*, LJXf ]}— — 8. Результат max {К*, Lr [Af ]} есть наибольший гарантированный результат, если об интересах второго игрока первому ничего, кроме указанного, не известно. Доказательство. Прежде всего отметим, что стратегия х* (х2) обеспечивает при любых х2 получение вторым игроком результата не более Z2 [Х2], так как X? X Xq2 - D ZD X? X Xi - D**, а вне D по определе- нию /2 (х±, х2) Х2. Поэтому, если X* [Xf ], то при- менение приведет второго игрока, максимизирующего /2, к х2 = х\, ибо (^i, х£) GE X* CZ D, а это и гарантирует первому игроку X* — 8. В случае X* Lr [Xi ] утверж- дение о результате, обеспечиваемом $*, тривиально. Пусть теперь — любая стратегия и информация о /2 (^1, х2) исчерпывается указанной. Задав f 1, (^i, x2)^D\ h (*1, x2) = — D,, будем иметь L2 [Х°] 0 в силу свойства X**; но тогда Х2 = Х£, и первому игроку гарантировано не более X*, если хоть одна точка (x±, х2) ее D*, и [Xf] — в про- тивоположном случае. Таким образом, он не может полу- чить более max {X*, [Xi ]} при указанной /2 (х19 х2), удовлетворяющей имеющейся информации об интересах второго игрока. Следовательно, и его гарантированный результат не превосходит max {X*, [Xf]}. Первая часть теоремы может, конечно, широко при- меняться для некоторой оценки гарантированных резуль- татов и при большей информации об интересах второго игрока; благодаря своей относительной простоте она может даже служить для рекомендации по выбору рациональных действий. Так, например, может обстоять дело, если мно- жество А (§ 16) состоит из конечного числа элементов и 7 Ю. Б. Гермейер
194 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ |ГЛ. Ш возможные критерии эффективности второго игрока имеют вид Д (а?!, х2, f), j = 1, ... , п. Пусть Dj есть множество D для данного /; тогда, выбрав D* = QDj, = (JPy, i i можем применить только что доказанную теорему, если Z)** обладает нужным свойством. Если при этом D* и Z)** близки и при каждом / имеем Kj то можно, конечно, считать рекомендуемую в теореме 3.15 страте- гию достаточно разумной. Не останавливаясь на возможных модификациях этой теоремы, перейдем, к изложению некоторых, значительно более тонких результатов, содержащихся в [40], [41], [17], [42], [60]. Начнем с изложения [40], [41]. В качестве класса функций /2 (хъ х2г а), а G А, рас- смотрим все непрерывные функции /2 ^2), удовлет- воряющие условию fi (^i, *з) < /г 0а. г2) < ft (xlt ж2), (3.25) где Я и /о — известные первому игроку непрерывные функции. Множество этих функций обозначим через F. Будем считать также, что при любой стратегии второй игрок использует (3.13), (3.14) для некоторого известного первому игроку произвольного е2. Соответствующее кон- кретной /2 (х^ х2) множество (3.14) будем обозначать че- рез (^J. Гарантированный результат может быть в соответствии с (3.16) записан в виде inf inf _ /1 (Sfb x2) = (Ж1). /«eJF x^pf' (xi) £2 Введем множества, аналогичные введенным D (0 = {(*1. ®s) I /2 (®1. > 0» Е (I) — {х21 min /J («1, х2) > I — е Xi (3.26) 16: (3.27) и функции фМ (0== шах /1(^1, ж2), D(Z)=j£0, (Xi, x^D(l) — 00, Z)(Z) = 0, min max х2), Е(1)^ф, хгексо xiexj <р*(/) = в 4" °°> £*(/)= ф, Ф (Z) = min [ф* (Z); ф^ (1)1.
$ 17] НЕТОЧНАЯ ИНФОРМАЦИЯ ОБ ИНТЕРЕСАХ 195 Наконец, введем еще £° = max /2 (ж1? я2), (Х1, х2) L~ = max min /7 (#i, х2), Х2 Х1 L+ — min min /2 (хь х2) + fc2- Х2 Xi Очевидно, что D (Z) = ф при Z > £°, а Е (I) =ф при I L+. Поэтому функция срк (Z) не возрастает по Z и рав- на — оо, когда Z £°; функция фм (Z) не убывает по I и равна + оо при Z L+. Наконец, при Z L~ имеет место неравенство фк (Z) фм (Z), так как при х2 Ri = {^21 min /2 (х^ х2) > Z} =/= 0, Х1 очевидно, (x-l, х2) ЕЕ D (Z) для всех хг ЕЕ -У?, причем Ri Е (Z) и, следовательно, max Д (хг, х2) > max max /г (^1? #2) > (X1> x»)6D(0 x2ER7 XiSX0 4 1 > min max /1(^1, ^2)> max /1 (xt, x2). хг&Х^ x2eE(l) XiSXj Отсюда следует, что Ф (Z) = фм (Z) при I L~ и не убы- вает; Ф (Z) = фк (Z) при Z L+ и не возрастает; Ф (Z) = = — оо при I ZA Поэтому верхняя грань Ф (Z) может реализоваться лишь на {£"; min [Л+, L0]}. Необходимо выяснить вопрос о непрерывности ф^ и фм. Для этого рассмотрим непрерывные функции f (х) и g (х) на компакте Q и множества dt ~ {х ЕЕ Q \ g (х) t} при t Т = max g (х); введем еще функцию ф (Z) — max / (х). x^Q x^dt Лемма 3.1. Функция ф (Z) непрерывна слезав любой точке t0 Т. Доказательство. Фиксируем е 0 и для каж- дой точки я ЕЕ выберем окрестность их, в которой колебание / меньше е. Вводя U = (J их, положим Ze = ^dt0 = max g (x). Тогда при tt < t <.t0 имеем dto C dt QI U, xeQ\rr а поэтому ф (t) — ф (to) <; 8, 7*
196 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III Из этой леммы немедленно следует непрерывность слева (p^ (Z) и фм (Z), поскольку /п max Д иД, /£, min xxexj непрерывны. Теперь уже можно доказать и довольно исчерпываю- щую теорему [41]. Для этого при каждом I LQ найдем (х{, х12) такую, что /1(^1,^) = тах /1 Оъ ^2), иопреде- (xi, xg)G=D(Z) лим стратегию 6= Xf, положив х^ при х2 = х12, %* при ^2=/=^2’ в других случаях. Здесь по-прежнему %* ~ абсолютно оптимальная страте- гия, реализующая max (х19 х2), а Я? реализует + Xt mm /2 (^1, х2). Xi Теорема 3.16 [41]. 1) При любом значении I стра- тегия гарантирует первому игроку по крайней мере Ф (Z). 2) Для любой стратегии найдется I LQ такое, что GT (xj Ф (Z). 3) Наибольший гарантированный ре- зультат первого игрока есть sup Ф (Z), а для тех I, i которые обеспечивают ъ-реализацию sup Ф (Z), с точ- ностью до 8 реализуют этот наибольший гарантирован- ный результат. Доказательство. Очевидно, в доказательстве нуждаются лишь первые два утверждения. Докажем пер- вое. Для любой /2(^1, #2) из множества F, определенного (3.25), имеем sup /2 (^, ж2) > /2 (4 (4),«') > /- (4, > I. Xg Тогда Р£ (f{) с Е (Z) (J { 4}, а отсюда inf /1 (^, *2) > min [ inf Ж,ж2); /х(xl, я:')] = 1 Xi^X1 2 -= min [ inf A х2), Д (х[, ^)] > х2еК(о А х9^х1 2
§ 17] НЕТОЧНАЯ ИНФОРМАЦИЯ ОБ ИНТЕРЕСАХ 197 > min [ inf /1 (£» ж3), Л (х1,4)] = х&ЕЦ) = min [<рм (Z); <рк (Z)] = Ф (Z). Следовательно, в силу произвольности /2 (^, rr2) получаем 6rx (^1) Ф (0> что и требовалось. Теперь докажем второе утверждение для любой 2^. По- ложим/ = sup fl (£1? rr2). Имеем х^^Х2 Gi (^1)< inf Д (^, х2). х^Р^2 (Xt) Пусть теперь x2ti — последовательность из Р^2 такая, что при I оо fl (^1? rr2, i) = If Z, причем 1^г; тогда (x2t f), x2t t) e D (If), и потому fl (*1 (*2j), ^2,i) < отсюда Gi (^1) < inf fi (^ь *2) < inf /1 (^1 (z2, i), %2, i) < fl. 1 x2ePt2(xi) <inf<pK(ZO = <PK(0, поскольку ср* (Z) монотонно убывает и непрерывна слева. Определим теперь функцию f2 (rr1? х2): /2 («1, *а) I ft (*1,^2) ft(Xi,Xi) = При /2 (iCl, rr2) > при /2 (xt, г2)< Z< ft (xt, x2), при ft (xlt x2) < I. Функция f2 (xlf x2) принадлежит множеству Р, поскольку она непрерывна вслед за непрерывностью fl и /2 и удовлет- воряет (3.25). Имеем для] этой функции sup / 2 (^1, х2) = Z, Pg2 (^1) Z) Е (Z). Хг Второе соотношение следует из того, что функция f 2 (г1? х2) либо больше или равна Z, либо равна /2 (х-^ х2), но послед- няя функция при х2 Е (Z) не меньше, чем Z — е2. Таким образом, для этих х2 всегда (^х, rr2) Z — е2, т.е. из
198 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III хг S Е (Z) следует х2 е X’ 04) • Тогда иа двух указанных свойств f2 вытекает, что Gi(£iX inf inf^ fi («1, ж2) < х«еЕ(<) *«Spet <я«) < inf = xz^e(1) Поскольку G± (%]) не превосходит <pK(Z) и <pM(Z), то Gr (£х) Ф (Z), и теорема доказана. В общем случае, когда w2 = f2 (х19 х%, а) при а Е А, определение наибольшего гарантированного результата первого игрока и его рационального поведения оказы- вается значительно более сложным [42], чем для случая (3.25). Дело, однако, существенно упрощается, если сде- лать предположение, что второй игрок (так же как и первый) придерживается принципа гарантированного ре- зультата, не имея самостоятельной информации о страте- гии, выбираемой первым игроком. Это обстоятельство полагается известным первому игроку, который может сообщать свою стратегию неполно. Будем считать также, Что второй игрок или знает функцию /2 (^i> ^2, а) и мно- жество А (например, первый игрок ему это сообщил), или же (что правдоподобнее) полагает, что первый игрок имеет в виду функцию /2 (^i> #2, а); а G: А' для А', не совпадающего, вообще говоря, с А, но, конечно, опять содержащего а, при котором получается истинная функ- ция /2 (х19 Z2). Существенно новым элементом оценки на- илучшего гарантированного результата, предложенным в [17], является расширение понятия стратегий первого и второго игроков за счет предложения первого игрока второму сообщить свой критерий эффективности, так чтобы окончательный выбор х± мог быть сделан по получении информации о х2 и о критерии эффективности второго игрока. Будем трактовать сообщение второго игрока о критерии эффективности как сообщение значения а. Ра- зумеется, второй игрок может сообщить любое а' Е= А', в том числе а' х/= а (обман); он может, конечно, и ничего не сообщать, что первый игрок приравнивает некоторому специальному а (= А (например, а = 0/0). Таким обра- зом, стратегию второго игрока можно представить в виде
§ 17J НЕТОЧНАЯ ИНФОРМАЦИЯ ОБ ИНТЕРЕСАХ 199 (#2, а'); соответственно и стратегия первого игрока пред- ставляется как = хх (я2, а'). Положим, далее, что пер- вый игрок может сообщать второму семейство стратегий, параметризованное по аЕ А, т.е. £1а = я1а (я2, а'). После введения понятия стратегии необходимо еще несколько обобщить основные характеристики, определен- ные в § 16. Именно, пусть (в предположении непрерыв- ности /2 (хх, хг, а) и /х (хх, х^) L2(a) = max min /г(^1,^2?«), хаехо 2 1 ^2 (а) == {^21 min /2 ^2, а) = ^г(а)}, 7И(а)= min max fx (хх, х2), (3.28) х2еЕ2(а) xisXj D (а) = {(жь хъ) | /2 (х1г х2, а) > £3 (а)}, f sup /1(Ж1,л:2), £(а)=/=0, К (а) — { <**- ( — оо, D (а) = ф. Для любого 8 > 0 выберем (дц (а), х2 (а)) ЕЕ D (а) так, что А (^1 (а), хг (а)) К (а) — 8. Относительно второго игрока предположим, как и ранее, что он использует (3.13), если sup /2 (Жх х2) не Х2 реализуется, и выбирает х2 из (3,14) при е2 = 0, если верхняя грань достигается. Разобьем теперь множество А на два множества Ао и Ах: Ао - {а | К (а) — 8 > М (а)}, Ах - {а | К (а) — 8 < М (а)}, Ао U Ах = А, Ао р) Ах = ф. Кроме того, введем Е2 = (JЕ2 (а) и D2 = {^2 (а) | а е aeAi €= Ао}, где 8 фиксировано.
200 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДЁУХ ЛИЦ 1гЛ. Ш Как и ранее в § 16, используются еще и функции Ж® = х® (ж2) и =х (ж2), определяемые из условий /1 (ж? (®з)» ®а) = тах /i (*i> «а), ж,еЛ? (3.29) /а (®?в (®з), a) = min /2 (хх, х2, а). X1SX0 Наконец, определим рекомендуемую стратегию £ia пер- вого игрока в виде семейства функций от х2 и сообщае- мого а', при этом а' ЕЕ A' (J {а}: (а), если х2 = (a'), a'S Ао, ^(я2), если ^а = х2 ЕЕ Е2 \ Е2 или #2 ЕЕ Z?2 П ^2» ^2 *^2 (а )> (3.30) #ia(#2) в остальных случаях. В (3.30) значение а выбирается произвольно (может быть, и случайно) и не сообщается второму игроку. Третья строка используется и при а' = а. Таким образом, вто- рому игроку сообщается не точно стратегия а целый класс стратегий, зависящий от параметра аЕА (т. е. стратегия сообщается не точно!). В этом состоит второе принципиальное отличие рассматриваемого случая от постановок § 16 и предыдущих теорем этого параграфа. Теорема 3.17 [171. Если второй игрок осторожен и это известно первому, то наибольший гарантированный результат первого игрока равен Gx = inf max IK (a); M (a)]; aeA c точностью s он реализуется на стратегии #Ja, зада- ваемой выражением (3.30). Доказательство. Тот факт, что при любой стратегии вида х1 (х2, а') первый игрок не может гаран- тированно получить более чем Glf следует уже из тео- ремы 3.13 § 16, поскольку априори возможно, что любое к Е А есть точное а. Если второй игрок сообщит именно это а, то гарантированный результат не превзойдет max [К. (a); М (а)], худший же из таких результатов и
§ 17] НЕТОЧНАЯ ИНФОРМАЦИЯ ОБ ИНТЕРЕСАХ 201 есть Gx. Остается показать, что (3.30) обеспечивает полу- чение — 8. Пусть а Ао. Тогда, если второй игрок выберет наилучшую для себя пару (х\ (а')), (я| (а')), а' ЕЕ Ао, или х2 Е: Е2 при любом а' (т. е. стратегии (х2 (а'), а') или (я2, а')), то он обеспечит себе результат /2 = max {sup /2(я|(а'), я|(а'), a), sup /2(4Ы, «)} > (ХлЕЕА> X2GE.E2 > /2 (^i (а), х% («), а) > ^2 («)• При любом другом выборе стратегии вторым игроком стратегия первого, с точки зрения второго, будет иметь вид #ia (я2), где о параметре а второму известно лишь, что а ЕЕ А'. Придерживаясь принципа гарантированного результата, второй игрок может рассчитывать лишь на sup inf /2(я?а(я2), х2, а)< max /2 (х^ (х2, а), х2, а)< Х2ЕЕЕ2 а^А' X2GEE2 ^L2(a)<f2, причем L2 (а) достигается только в том случае, если х2 ЕЕ Е2 (а). Пусть теперь а ЕЕ Ах. Применяя опять стратегии (xl (а'), а' ЕЕ Ао) или (х2 ЕЕ Е2, а'), второй игрок точно так же, как и ранее, может обеспечить себе /2 = max { sup f2 (х\ (а'), х2 (а/}, а), sup f2 (xf (х2), х2, а)} > а'еАо X2GE2 max /2 (xf (х2), х2, а) > L2 (а). ХгСЕ-ЕгЦХ) Всякий другой выбор второго игрока приводит к тому, что первый игрок применяет стратегию наказания (х^ и позволяет второму гарантированно получить лишь sup min f2 (xfa (x2), x2, a) < _sup min f2 (x*a {x2\ x2, a) < Xz^Ez Xz^Ez^n) ciEEA < max /2(^a(^2),^2, a)<A2(a). X2CE2 (ct) Таким образом, второй игрок, исходя из принципа гаран- тированного результата, будет использовать только стра-
202 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III тегии (х| (а'), а') при а' GE Ао или х2 ЕЕ Ег при лю- бом а'. Тем самым, первый игрок, получая соответствую- щую информацию, может применить или первую, или вторую составляющую стратегии (3.30). В первом случае он обеспечит себе результат не меныпий, чем inf К (а) — в, во втором — не меньший, чем аеА» inf /1 (х? (х2), Гх2) = inf min max /х (xlt х2) = inf М (а). x^Et aSAi x2GE2(a) Xiex° asAi Вспоминая определение множеств Ао и Ах, находим, что первому игроку гарантируется результат (поскольку неизвестно, где находится а) min [ inf (А (а) — 8]; inf Л/(a)] = аеАо as At = inf max [АГ (a) — в; M (a)] > inf max [AT (a), Af(a)J —8. aeA aeA Это и заканчивает доказательство теоремы. Стоит заметить, что в случае, когда множество А состоит из конечного числа точек и xt, х2 — связаные множества, первый игрок может обеспечить себе тот же результат, используя лишь стратегии хг (х2), т. е. не рассчитывая на информацию об а со стороны второго игрока, но, конечно, по-прежнему зная об осторожности второго. Соответствующий результат получен в [17]. Предположение об осторожности второго игрока ста- новится излишним, если первый игрок обладает стра- тегией наказания, одинаково пригодной для всех /2 (хх, х2, а). Более того, в этом случае первый игрок иногда может реализовать объективно существующее AT>Af, совершенно не зная /2. Похожие вопросы обсу- ждаются, например, в [61]. Здесь же отметим, что в ука- занных условиях первый игрок, имеющий критерий каче- ства, реализует К = 1, если будет использовать пове- дение, описанное в теореме 3.3. Интересное обсуждение вопроса об использовании вторым игроком неосведомлен- ности первого об истинной /2 (хх, х2) имеется в [16]. При этом второй игрок сообщает первому функцию /2 (хп х2, а), а ЕЕ А, выбирая ее так, чтобы достичь своего максимального гарантированного ^результата. Здесь мы не будем излагать соответствующие материалы,
§ 17j Неточная информация об интересах 203 В заключение параграфа обсудим кратко практически важный вопрос о том, когда (и справедливо ли) первый игрок, исходящий из принципа гарантированного ре- зультата, должен считать партнера придерживающимся противоположных интересов. Определенную остроту это- му вопросу придает пример (1.51) — (1.52). Первый иг- рок, забывая о побочных платежах, считает игру, в кото- рой он участвует, игрой с противоположными интересами; между тем (1.52), несомненно, игра с непротивоположны- ми интересами, в которой имеется полезный для обоих компромисс. Нечто подобное должно наблюдаться прак- тически всегда. Действительно, сведения о /2 (х19 х2) ни- когда не могут быть точными и, как правило, первый игрок будет знать о /2 (х19 х2) не более того, что /2 (х19 я2)— — Д < /2 (х19 х2) < /2 (х19 х2) + Д при известных /2 (#ь #2) и Д > 0- Если в этой области при некоторых и е2>0 содержится функция сг — c2/t (х19 х2), т. е. если при всех x-l ЕЕ Х[ (#i> ^2) А Ci c2/i (х19 х2) /2 (^i, х2) 4“ Д, то с± — (х19 х2) оказывается в числе возможных функ- ций /2 (х19 х2) (в силу информированности первого игрока). Но при такой функции /2 (хи х2) первый игрок выну- жден считать (по принципу гарантированного резуль- тата) партнера или придерживающимся противополож- ных интересов, или полностью безразличным (при с2 = 0), что по этому принципу опять приводит к противополож- ности интересов. Но раз есть уже такая функция /2 (х19 х2), то (все по тому же принципу) первый игрок, ориенти- руясь на худший случай, вообще будет в своих действиях (если они чисто изоляционистские) исходить из антаго- нистичности партнера. Между тем для любого Д )> 0 и непрерывной /2 всегда можно указать такую достаточно малую область Q изменения (хи х2) вблизи какой-либо точки (х[, xi), что в случае Х{ X Х2 CZ Q будет иметь место при некоторой Ci /2 (#1, Х2} — Д < С! < /2 (хи х2) + Д. Таким образом, при слишком локальном подходе к реаль- ной игре всегда можно получить вывод об антагонистич-
204 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ 1гЛ. tit ности партнера! Этот вывод призывает к осторожности в суждениях об интересах партнера и к необходимости достаточно широкого анализа области возможных реше- ний (своих и партнера), чтобы не пропустить возможной непротивоположности интересов, используя которую мож- но с помощью различных действий значительно улучшить ожидаемые результаты игры. В определенном смысле аналогичные предостережения получаются и при просмотре модели «соревнования», во всяком случае, в варианте (1.13) для п 3 и 0 = 1. Здесь первый игрок, забывая о «существовании» осталь- ных, кроме второго, т. е. фиксируя xt при i > 3, неизбеж- но придет к выводу об антагонистичности игры (имея в виду второго игрока). Однако на самом деле это игра с непротивоположными интересами, имеющая коллектив- ное поведение значительно более результативное, чем чисто максиминное (отвечающее антагонизму). § 18. Отсутствие у первого игрока информации о ходе второго В § 16 изучалась игра с максимальной информирован- ностью первого игрока («идеальная игра»). Рассматри- ваемый здесь вариант получается, когда в общих форму- лах § 16 (3.13) — (3.16) в качестве множества стратегий берется XJ, т. е. множество стратегий, не требующих информации о выборе х2. Как и в § 16, будем считать, что второй игрок точно знает стратегию х± или в результате собственных мероприятий, или в результате точного сообщения первого игрока. Стоит сразу отметить, что задача об управлении в иерархической системе (1.15) — (1.16) (из § 1) с незави- симыми производителями при использовании центром лишь стратегий-констант и = (иъ . . ., un) GE U немед- ленно сводится к рассматриваемому здесь случаю игры двух лиц. Для этого достаточно ввести фиктивную коа- лицию производителей с критерием 71 /с (*, и) =? У fi (xit щ), х = (xr, A ., xn). 1=1 Очевидно, что максимизация общего критерия /с (ж, и)
j 18J ОТСУТСТВИЕ ИНФОРМАЦИИ О ХОДЕ ПРОТИВНИКА 20В при известном и приводит к максимизации каждого кри- терия fi (%i, Ui) по xt при известном значении наобо- рот, если каждый производитель знает значение и максимизирует функцию ft по хь то тем самым все они максимизируют общий критерий /с (х, и) по х. Естествен- но, что ситуация не изменится, если производители образуют настоящую коалицию с побочными платежами при Ki = 1. Более того, и любые Ki 0 не изменят поло- жения дел, если только коалиция не объединяет ресур- сы. Объединение ресурсов, так же как и коалиция произ- водителей без побочных платежей, разумеется, приведет к другим играм, но опять-таки к играм двух лиц с фикси- рованной последовательностью ходов. То же, конечно, относится и к другим видам объединения независимых друг от друга производителей. В связи со сказанным приведем пример, показываю- щий возможность полной неэффективности действий цен- тра, основанных на стратегиях-константах и €= U [10]. Этот пример связан с рассуждениями в § 1 по поводу модели (1.17) — (1.18). Пусть каждый из п производителей может произво- дить товары двух типов Д (i) и /2 (i) из п возможных (/ — 1, . . ., п) соответственно в количествах х^ и ограниченных неравенством 1 I 2 ^2*^71 (г) । Критерием i-ro производителя по (1.17) является доход fi — K}xj1(i) + K2iXj2(i)- Интересы центра характеризуются желанием получить максимум комплектов, состоящих из всех п возможных типов товаров. В соответствии с (1.18) это записывается в виде п /о (X) = min — V Ъ1 4-} 2=1 7s(i)=J, s=l,2 где Ы — необходимое для комплекта количество товара /-го типа. При любых оптимальные действия i-го про- изводителя состоят в принятии или и. ^Я(г) “ Г > ^2(2) ~
206 ГАРАЙТИРОВАЙЙЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ (ГЛ. Ш ИЛИ п Ui аг в зависимости от того, что больше А|/а< или и, следовательно, не зависят от ut. Будем полагать, что для всех i имеем Ki/al =/= Xt/of. Если поэтому хотя бы для двух производителей i и i' окажется, что оптимальные *Л0ПТ (i) получаются при совпадении /,опт (i) = /8опт (Г), то хотя бы один из товаров / окажется вообще никем не производящимся. Действительно, всего видов товаров п и каждый производитель производит (оптимизируя свой доход) только один вид; в то же время два производителя производят один и тот же вид товара. Этот результат не зависит от и. Но тогда в критерии центра хоть одна из сумм равна 0, а вслед за ней и /0 (х) = 0 при любом уп- равлении и. Этот пример указывает на недостаточность, вообще говоря, для центра управления только с помо- щью и. Если центр имеет возможность еще и достаточно широко управлять ценами М и то он, конечно, всегда может обеспечить нужное балансирование. Однако это потребовало бы разных цен для разных производителей на одни и те же товары. Значительно более широкие воз- можности (см. [10] и [46]) дает использование штрафов и поощрений при наличии точной информации об я; не будем здесь касаться этого, отметив лишь явную связь соответствующих результатов с теоремами § 16. Перейдем к общим вопросам определения максималь- ного гарантированного результата при Х± = X?. Для сравнения отметим, что благодаря теореме 3.13 (и след- ствию из нее) эта задача для Х± = Х± не представляет существенной сложности, поскольку сводится к отыска- нию максиминов L2, М и решению нескольких оптими- зационных задач. Получение общих обозримых резуль- татов в случае множества стратегий оказалось более трудным делом, и здесь мы можем изложить лишь доволь- но частные результаты и некоторые методы численного решения задач. .При этом ограничимся пока случаем точно известных (первому игроку) интересов второго игрока.
§ 18] ОТСУТСТВИЕ ИНФОРМАЦИИ О ХОДЕ ПРОТИВНИКА 207 Выражение наибольшего гарантированного результата достаточно просто выглядит в случае, когда /2 (хъ х2) строго унимодальна по х2 при любом хи т. е. достигает максимума по х2 в одной точке при отсутствии других локальных максимумов; так обстоит дело, если/2 (хи х2) строго вогнута по х2. Если в этих условиях обозначить через х% (^1) функцию, реализующую максимум критерия /2 (^i, #2) по ПРИ каждом х19 то наибольший гаранти- рованный результат первого игрока можно представить в виде sup (Жх)], 1 (3 31) /2[^1,ж0(ж2)]= max /2(жх, ж2) = ф(л:1). v' Эту же задачу можно, конечно, переписать и в виде (су- щественна строгая унимодальность) G= sup гга), /2 (#i, 4) — ф(^1) = °, (3.32) 2 2 т. е. как обычную задачу на условный экстремум. Однако использование в данном случае метода Лагранжа не является корректным. Действительно, по [19], в случае строгой унимодальности Д (х19 х2) и ее дифференцируемости функция ф (#i) также дифференцируема, причем Эф (4) ___ df2 (ж®, х°) дхг дхг 2 2' 1' Поэтому, если супремум в (3.32) достигается во внутренней точке (ггх, х^), то (3. и якобиан для ограничений в (3.32) с учетом (3.33) и (3.34) обращается в нуль. Приведем некоторые необходимые условия для за- дачи (3.31) [8].
208 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III Если = [ж®, ж®], Х2 = [я?, ж®], функции /i (жг, ж2), f2 (ж1(ж2) непрерывно дифференцируемы их? — оптимальный выбор первого игрока, то существует выбор х% такой, что тах /2(^1,^), (3.35) хН<х^х| | и выполнено хотя бы одно из следующих условий: а) */1(4*2°) ______ дхгдх2 м */г(4*°) dfl<xVX^ __ л дх2 ~ °’ дх2 0’ д/2 (х®, х®) *2/г (»?.»?) А1 27 = 0; -- * 2 = 0; (3.36) **2 ’ дяЯ V ' А в) существует ж' ф ж® такое, что /2 (4 ж2) = /2 г) ж® — ж® или ж® = ж|; . „ n Э/х(х®,х®) Э/2(х®,х®) д) Ж® = Ж® ИЛИ Ж® = Ж® И ----——— = 0. ^'2 2 2 2 0Xi б) дх2 В [8] приведены примеры, показывающие, что любая из этих альтернатив может иметь место. Обратим теперь внимание на то, что задача (3.32) имеет смысл не только при унимодальной /2 (хъ я2)> но и при любых /2 в случае «благожелательности» второго игрока по отношению к первому. Это означает, что при наличии нескольких реализаций max /2 (хи х2) второй ХЯ игрок выбирает ту из них, которая наиболее выгодна для первого. Именно такое поведение второго игрока и за- писано в (3.32). Формально данное предположение озна- чает, что критерий второго игрока полностью описывает- ся не функцией /2 (х19 х2), а /2 (*1, хг) = при /2(^ъ ХзХф^), /1 (^ь ^2) — min /1 (^, х2) + ф (^1) (3.37) Xl, Xi при /? (^1. = <Р (*1)>
§ 18] ОТСУТСТВИЕ ИНФОРМАЦИИ О ХОДЕ ПРОТИВНИКА 209 указывающей на совпадение, по существу, интересов вто- рого игрока (знающего х^) с интересами первого, если /2 (#ь #2) = Ф (#i). Такое положение вещей вполне соот- ветствует, например, взаимоотношениям в «благополуч- ных» иерархических системах, когда производители, уже получившие все, что можно, начинают беспокоиться и об интересах центра. Разумеется, аналогичное изменение задачи возможно и в общих постановках § 16. В «идеаль- ной» для первого игрока игре (теорема 3.13) предположе- ние о благожелательности второго игрока приводит к тому, что наилучший гарантированный результат пер- вого записывается в виде max/i(^i,^2) при /2(^ь^2)>^2 Xi, Xi (см. (3.20)). Результат, рассчитанный на благожелатель- ность, принадлежит, конечно, опять к категории наилуч- ших гарантированных результатов при специфической информации о поведении второго игрока. Решение задачи (3.32) при отсутствии унимодальности, вообще говоря, осложняется недифференцируемостью функции ф (#i), что приводит к затруднениям в исполь- зовании необходимых условий экстремума и градиент- ных методов. В связи с этим важное значение приобре- тает метод штрафных функций. Доказанные в [20] и [43] теоремы позволяют утверждать возможность сколь угод- но точной замены (при С -> оо) задачи (3.32) следующей задачей поиска безусловного экстремума: max {/1 (^1, ж2) 4- С [/2 (#1, х2) — ф (^i)]}. (3.38) xiexj 2 Из решения этой задачи мы получим значение х®, при- ближенно реализующее решение задачи (3.32). Что ка- сается соответствующего х2, то его определение может потребовать некоторых корректив для более точного вы- полнения условия /2 (xi, х2) = ф (х]) вблизи приближен- 0 ного хг. Недифференцируемости приближенного совместного критерия эффективности можно избежать, если заменить
210 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ (ГЛ. III (как это делалось уже ранее в § 8) условие /а (®1» ®а) /а (®1« У) которое должно выполняться при всех у€= X®, на одно равенство Ф (хь ха) = {min [0; /а (хи ха) — /а (xj, у)])’ dy = 0. (3.39) Тогда (3.38) соответственно заменится на max [fi (хи ха) — СФ (хг, Xg)]. (3.40) 81,Xs В (3.39), (3.40) оптимизируемая функция уже дифферен- цируема, если таковы функции /х (хх, ха) и /а (хх, ха). Любопытна, конечно, трактовка (3.38) и (3.40) как компромисса, приближенно описывающего принцип наи- лучшего гарантированного результата при благожела- тельности второго игрока. Итак, верна Теорема 3.18. Пусть функции fi (хх, х%) и h (®i» непрерывны на компакте X? X Х2, а второй игрок благожелателен, т. е. его интересы описываются (3.37). Тогда наилучший гарантированный результат первого игрока есть решение задачи (3.32), которая при- ближенно представима в виде (3.38) или (3.40). Доста- точно точное удовлетворение интересов второго игрока требует достаточно большой константы С. Задачи (3.32), (3.38) и (3.40) также описывают наилучший гарантирован- ный результат и в случае, когда f2 (хх, ха) имеет един- ственный максимум по х2 при каждом хх. В последнем утверждении не предполагается отсут- ствие других локальных максимумов (унимодальность), равно как и благожелательность. В общем случае, когда не ожидается благожелатель- ности и непрерывная функция /а (хг, х2), полностью опи- сывающая интересы второго игрока (с точки зрения пер- вого), не удовлетворяет требованию единственности мак- симума по х2, наилучший гарантированный результат записывается в соответствии с (3.16) в виде G = sup inf /х (хх, xg), ytexo я,еР(х,) (3.41)
§ 18] ОТСУТСТВИЕ ИНФОРМАЦИИ О ХОДЕ ПРОТИВНИКА 211 где Р (хх) задается условием Р (#1) = {#2 I /2 (#ь #2) — Ф (#1) = °}, (3-42) или же, используя (3.39), в виде Р (хг) = {х2 I Ф (хъ х2) = 0}. (3.42') Таким образом, (3.41) отличается от (3.32) тем, что по х2 берется не верхняя грань, а нижняя; в случае единст- венности максимума /2 #2) п0 х2 множество Р (x-J состоит из одной точки и разница исчезает. Довольно час- то множество X* точек хп при которых Р (х^ состоит из одной точки, бывает всюду плотно в X?. В связи с этим известный интерес представляет следующее утверждение. Лемма 3.2. Если X* всюду плотно в XJ и Д (хи х<^) непрерывна на X? X Х2, то G = sup /t [хъ х° (х±)] = sup /i(Xi,x2). x2ePi(xi) Доказательство. Пусть x{ реализует G с точ- ностью 8. Тогда или xj G= X*, или существует X*, столь близкое к х*, что хоть для одного значения х2 (х®) имеем I /1 (^1? Х2 (^1)) /1 (^1, Х2 (^1))1 "С 6- Очевидно, G — 8 < inf Л (ж£, л:а) < /х (а*, х» (о*)) < x2gp (х*) < А («£, (жр) + 8 < sup А (#Ь #? (#1)) + 8 = х 1 Xi&C* = sup inf А (#11 #2) + 8 xiex* x2eP(xi) sup inf /1 (Хь Х2) + 8 = G 4- 8. Х1ех« »2eP(xt) Произвольность 8 0 и доказывает лемму. К этой лемме можно сделать следующие Замечания. 1) Если выполнены условия леммы, то, как правило, или G реализуется на xj s X*, или же G не реализуется
21$ ёарайтйёовайный рёзультат, игры двух лйц trrt. lit точно, но 8-реализации можно брать из X*. Это нестрогое, конечно, заключение следует из того, что если Р (я?) со- стоит более чем из одной точки (например, х'2 и причем fi (я?, ^2) fi (^1, #2), то, как правило, найдутся сколь угодно близкие к х[ точки х± ЕЕ X*, для которых х% (х^ х2 при но тогда я? не реализует G. Подобного рода явление типично для биматричных игр в смешанных стратегиях. 2) Если G в (3.32) реализуется в точке, принадлежа- щей X*, то решения (3.32) и (3.41) совпадают. То же про- изойдет и в случае, если функция sup Д (х19 ^непрерывна x2&P(xi) по х1У а X* всюду плотно в X?. Действительно, тогда для любого е 0 найдется точка X *, для которой G < sup /1 (Х1, х2) + 8 == х2еР (х®) = inf Д (х\, Х2) + 8 G + 8 G + 8, х»сР(х®) откуда и следует, что G = G. Хорошей иллюстрацией к лемме 3.2 и первому^заме- чанию является обобщенная задача Гросса из § 1. Наибольшие гарантированные результаты и соответству- ющие стратегии для обоих игроков в общем случае игры (1.7) — (1.8) найдены в [7]. Здесь мы ограничимся на- глядным случаем, когда в (1.7) — (1.8) р3 = V = 1 и у? р?+1, и рассмотрим все с точки зрения защиты с кри- терием (1.8). В данном случае первый игрок, следователь- но, имеет критерий = — J p^ max [x$ — 0] = J p? min [yi — x3; 0], i=i J=i а второй fc u?2 = S max 2?; 0]. j^i Причем • fc л J! yi = b, J x3 = a. i=i 3=1
§ 18] ОТСУТСТВИЕ ИНФОРМАЦИИ О ХОДЕ ПРОТИВНИКА 213 Если р3 = 1, то., как известно [6], когда у нападения имеется точная информация о {г/1, г/2, . . у*}, защите выгодно равномерно распределить свои силы, что и даст для нее максимин, равный min — а; 0]. Информирован- ному нападению выгодно, наоборот, концентрировать все свои силы а в пункте с наименьшим у3, а при их равен- стве — в любом пункте. Последний вывод остается, ко- нечно, неизменным и в случае неодинаковых р3, поскольку изменение р3 не меняет критерий нападения w2. Если поэтому {г/1, у2, . . ., ук} — произвольная стратегия за- щиты, сообщаемая или просто известная нападению, то все силы а последнего будут сконцентрированы на пункте /о Jq ~ {/о I У3' = min у3}. При этом гарантированное значение критерия защиты с учетом min [уэ° — а; 0] 0 равно min [pi°min (yi° — а; 0)] = max р?’« х min [y?’° —- а; 0] = 39 jo j = p 0 X min min [y3 — a; 0], f = min /0. Если фиксировать вектор {z/1, . . ., yk} и рассмотреть в качестве стратегий всевозможные перестановки из его компонент, то защите для увеличения гарантированного результата выгодно из-за неположительности min [у3 — — а; 0], чтобы номер j'o был как можно больше. Выгодно также, чтобы этот номер был единственным и равным к, чего можно добиться малым изменением z/j, i = 1, Это означает, что ук = min у3. Однако, с другой стороны, выгодно, чтобы ук было возможно больше для увеличения ук — а. Противоречивость этих желаний и означает от- сутствие точной реализации G. Что касается е-оптималь- ной стратегии (явно принадлежащей X*), то она, оче- видно, равна 271 = , , , = [А 1 — —-1--- у • у к^ к — 1 к ъ При этом гарантированный результат защиты pfemin Г~ — 8 — а; 0 L к
214 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. Ш что дает в пределе G =• рА min Г-|— а; О Значение этих результатов особенно хорошо видно для случая рА = 0; защита, сделав путем уравнивания значе- ний у* одинаково важными для нападения все пункты и затем уменьшив силы на наименее важном для нее пункте, т. е. величину ук, направляет все нападение именно на этот пункт, нанося ему там посильный ущерб. Практи- чески, конечно, 8 должно быть достаточно велико (больше 6J, чтобы нападение на него среагировало. Стоит отметить и существенную возможность блефа со стороны защиты (если у нападения нет эффективной разведки): защита делает вид, что стратегия ее такова, как указано, а сама бросает, по существу, все силы на к-й пункт для нанесения ущерба нападению. Разумеется, этот блеф некорректен, но здесь вопрос о повторениях не ста- вится. Заметим, что если защита не будет «сообщать» напа- дению распределение {yJ}, то нападение (ему все равно) может применить (как и в антагонистическом случае) смешанную стратегию, направляя все силы с равной ве- роятностью на любой из пунктов. Если даже при этом защита будет точно знать реализацию этой случайности и концентрировать соответственно свои силы, то ее сред- ний результат будет равен min {Ъ — а; 0] = — min [Ъ — а; 0]. Отнюдь не всегда этот результат выше, чем/?; хорошо это видно в случае весьма неравномерных р? при рА = 0. Таким образом, защите иногда явно выгодно «сообщить» нападению свою стратегию, хотя, конечно, лучше при этом уклониться от сообщенного решения. Лемма 3.2 может быть довольно эффективным средст- вом решения задачи (3.41), когда Х% состоит из конечного числа точек. Для этого случая (3.41) удобнее переписать
§ 18] ОТСУТСТВИЕ ИНФОРМАЦИИ О ХОДЕ ПРОТИВНИКА 215 в виде G = sup min i), xtexj feP(xi) p M n 6 z, /2 (^1, 0 = max /2 (xu j)}.] (3.43) lei Обозначая по-прежнему через X* множество тех х19 для которых Р (xj) состоит из одной точки, укажем условие, когда X* всюду плотно в X®- Лемма 3.3. Пусть хг ЕЕ int X?, X? ЕЕ Ет и f2 (х19 i) = тп = Т i Z, ai ~ • • •’ aim)- Если Uj */= ак и 1=1 7 ф к, то для любого е 0 существует точка х\ ЕЕ X*, лежащая в 8-окрестности х± и такая, что Р (х*) СЕ Р (f J. Доказательство. Пусть xt Е= X*. Возьмем такую 8-окрестность иъ (х^ точки х19 что для всех хг ЕЕ е ut fo) min /2(^Л)> max /а(4^- tGP(Xi) fc(=P (xi) Поскольку it Ё= X*, то P (Sx) состоит из нескольких то- чек; пусть i19 i2 ЕЕ Р (#i). Так как а^ а^, то существует /, для которого а^ ^=- а^; пусть а^ > а^. Рассмотрим точку х* = ($1 , . . ., fi"1, х[ + Дгг, Xi+1, . . ., х™). В силу того, что хТ — внутренняя точка Х°, при достаточно ма- лых Дгг^>0 х{ ЕЕ Щ (fi) П int Xi. Кроме того, при малых Д.г О и /2 (я1, г\) /2 ?з)- Но тогда в силу свойства щ (JJ множество Р (^) хотя бы на одну точку меньше, чем Р (хj). Если ЕЕ X*, то построение окончено. Пусть и х{ е X*. Тогда, аналогично выбирая щ (я:1) CZ СЕ (^1), продолжим процесс, взяв точку х{ так, чтобы множество Р (х^) хотя бы на одну точку было меньше, чем Р (rri), и т. д. Так как I конечно, то на каком-то шаге по* лучим точку, принадлежащую X* и лежащую в щ (f J. Этим и доказана лемма. Теорема 3.19 [62]. Пусть f2 (хг, I) дифференци- руема по w для любого хг XJ и любых i, j ЕЕ Р (#i),
216 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III i =/= i, grad /2 О =# grad /2 (ж1( у). Тогда X* всюду плотно в int X?. Доказательство. Пусть хх GE int X?, но хх ё €= X*. Существует окрестность ие (^1) 6= такая, что при всех х' е «е (#1) inf [ min f2(xv j)— max /2(^, ^)]>0 x'eue(xi) JeP(xt) fceP(xi) и m h «> /) = /a (*1, 7) + "й’?)| + 0 (AXi), где = x[ — x±. Используя лемму 3.3 при ац = —и I = Р (л^), дх^ получаем, что в этой окрестности существует i ЕЕ Р (х^ и &X-L, для которых т У *).. Дд4 /У м д/2 /) дх1г Д^. т max > *=1 Пусть х^ = xr + 0A#i. Для / ЕЕ Р (#i), J =/= i имеем h (x”vi) — f2 (xvj) = m m = e[£^>_£2^>]M + (,(e). 1 1=1 1 Очевидно, что если 0 достаточно мало, то х[ ЕЕ Щ (хг) и /2 (^ь 0 — /2 (^1, /) О Для всех 1 Р (#i). Но тогда для / е= Р(х^ выполнено то же неравенство по определению uz (^х) и из-за i е Р (#i)« Следовательно, х{^_ X* П Р| щ (л^), что и доказывает благодаря произвольности 8 теорему. Следствие. Если X® равно замыканию int X?, то в условиях теоремы X* всюду плотно в Х?Л Условия теоремы выполняются на практике довольно часто. При этом в силу леммы 3.2 задача (3.43) превра- щается в задачу отыскания соответствующей верхней
I 18] ОТСУТСТВИЕ ИНФОРМАЦИЙ О ХОДЕ ПРОТИВНИКА 21? грани sup max /2(#i, 0 = max suP /2(^1, О, xtSX* iel(xi) г, И^ф xtS-D^ где Dt = {хг\Р (arj) = {г}}- Только что приведенные результаты важны еще и потому, что исходное множество Х% может быть аппрокси- мировано конечным множеством (метод сеток); этот вопрос будет обсужден в следующем параграфе. В [62] развитые методы применяются для отыскания гарантированного результата первого игрока G в биматричных играх со смешанными стратегиями у первого игрока и чистыми у второго. Отсылая интересующихся к этой статье, здесь отметим лишь, что решение задачи сводится при этом к ре- шению не более чем т задач линейного программирования, где т — количество точек в I. Прежде чем переходить к более общим методам решения задачи (3.41), отметим еще одну интересную конкретную задачу. Речь идет о модели IV § 1. Она подробно рассмот- рена в [8] и [36]. Здесь отметим только существенную раз- ницу в этой задаче между G и Lr [Х?]; соответственно силь- но разнятся и рекомендуемые стратегии. Решение задачи (3.41) — (3.42) (или (3.41) — (3.42')) в общем случае достаточно затруднительно. Как уже го- ворилось, эта задача может быть названа задачей на мак- симин со связанными ограничениями и представляет собой следующую по сложности задачу после обычного макси- мина. Остановимся на соответствующем расширении ме- тода штрафных функций, предложенном в работе [44]. Основой этого расширения является следующая теорема. Теорема 3.20. Пусть F (х, у) и Ф (х, у) непрерывны на произведении компактов XxY и Ф (х, у) 0, Пусть, далее, Р (х) = {у | Ф (х, у) = 0} Ф ф при всех х^Е X. Тогда sup min F (х, у) = lim max min [F (x, у) + СФ (x, y)]. xgx t/eP(x) c-»oo xeX yeY Д олк азательство. По теореме, доказанной в [6], для каждого х min F (х, у) = lim min [F (х, у) + СФ (х, у)]. v^P(x) 1/еТ В силу неотрицательности Ф (х, у) минимум в правой
218 Гарантированный результат, игры двух лиц (гл. iti части равенства стремится к левой части, монотонно не убывая, причем min (а:, у) 4- СФ (х, у)] < ver min [F (ж, у) + СФ (х, у)] = min F (х, у). veP(x) ueP(x) Предположим сначала, что существует точка а:0, реализу- ющая sup min F (х, у). Тогда для любого 8 > 0 сущест- scex »еР(х) вует Со такое, что при С > Со min F (х0, у) — min [F (х0, у) + СФ (х0, у)] < е. veP(xo), veT Но min [F (х0, у) 4- СФ (х0, у)] < V€EY max min [F (я, у) СФ (ж, у)] хех veY sup min F (х, у) = min F (xQ, у), x&x veP(x) veP(xo) Следовательно, при С > Co min F(#o, У) — max min [F(#, у) + СФ(х9 у)] < e. veP(xe) xex veY Поскольку e произвольно, то требуемое уже доказано. Пусть теперь sup min F (х9 у) не достигается; тогда хех &=Р(х) для любого 8 >> 0 существует точка х€9 для которой sup min F (я, у) — min F (яе, у) < . хех уеР(эс) yeP(Xg) Для этого же 8 существует Со такое, что при С > Со min F (х„ у) — min [F (xt, у} + СФ (хе, у)] < 4-. 1/еР(®е) vex Отсюда sup min F (х, у) — min [F (xt, у) + СФ (xt, у)] 8. х&Х у^Р(х) Поскольку вычитаемое меньше, чем соответствующий максимум по всем х е Х9 то, следовательно, для любого
§ 18] ОТСУТСТВИЕ ИНФОРМАЦИИ О ХОДЕ ПРОТИВНИКА 219 8 0 существует Со такое, что при С CQ О sup min F (я, у) — max min [F (x, у) + C® (#> ?/)] <C e, XGl yEP(x) xeX y<=Y а это и доказывает теорему. Следующим этапом является сведение чисто максимин- ной задачи к задаче на поиск максимума. Используя при- ем, изложенный в § 8, имеем max min [F (х, у) + СФ (х, у)] — х&Х у&Г = lim max [и — К {min (F (х, у) + СФ (х, у) — и; О)}2 dy] К—>ОО (х, U) и тем самым для задачи, сформулированной в теореме 3.20, окончательно имеем sup min F(xfy) = lim lim max \u — F\{min(F(rr, y) -f~ xEX y<=P(x) C-*oo K->oo (x, u) + СФ(х,у)-и-,0)уЧу\. (3.44) Формула (3.44) сводит приближенно, конечно, и задачу (3.41) — (3.42') к задаче на поиск максимума, поскольку условия теоремы 3.20 для этой задачи выполнены, а (3.44) означает, что найдутся С' и К' такие, что соответствующий максимум в правой части (3.44) будет близок к искомому максимину со связанными ограничениями. Однако это сведение остается лишь теоретической возможностью, поскольку порядок пределов в (3.44) оказывается весьма существенным и нет соображений по поводу того, как вза- имосвязанно выбирать константы С и К. Дело существенно упрощается, если Y состоит из ко- нечного числа точек. Тогда повторный предел в (3.44) оказывается равным двойному, а интеграл, естественно, заменяется суммой. Легко заметить, что этот случай годится для получения соответствующего решения бимат- ричных игр в смешанных стратегиях, так как при отыска- нии наибольшего гарантированного результата можно счи- тать, что партнер (см. § 16) применяет только чистые стра- тегии. В случае континуального Y приходится для полу- чения аналогичных результатов усилить требования к функциям F (х, у) и Ф (х, у). Именно, верна следующая Теорема 3.21. Пусть Y — параллелепипед в т-мерном пространстве a F (х, у) и Ф (х, у) непрерывны
220 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III на X X Y и удовлетворяют условиям Липшица по у. Тогда повторный предел в (3.44) можно заменить пределом по любой кривой К = Ст+\ где % 0, т, е. имеет место sup min F (х, у) = хех veP(x) = lim max [u — Стп+Х § {min (F(x, ?/) 4-СФ (x, у) — w, О)}2 dy\. c-°°x'u (3.45) При этом для любого 8 О существует такое Со, что при С Cq реализация {umax (С), rrmax (С)} максимума в (3.45) удовлетворяет неравенствам | sup min ?/) —wmax(C)]<8, xeX yGP(x) sup min F (x, y) ~ min F (zmax (C), y) < 8. xeX ysP(x) veP(xmax(C)) Доказательство этой теоремы довольно громоздко и имеется в [44]; здесь приводить его не будем. По поводу использования этой теоремы для задачи (3.41) — (3.42) отметим, что непрерывность и дифферен- цируемость /2 (хх, я2) влечет за собой аналогичные свой- ства и для Ф (жх, я2), определяемой (3.39); разумеется, то же относится и к условию Липшица по я2. Одновременно дифференцируемыми оказываются и максимизируемые функции в правых частях (3.44) и (3.45). Тем самым, для решения задачи (3.41) — (3.42') могут использоваться любые методы градиентного типа. Стоит обратить внима- ние на то, что в задаче (3.41) — (3.42) дело обстоит иначе из-за недифференцируемости ф (х^). Дальнейшие обобще- ния задач, для которых применим метод штрафных функ- ций, можно посмотреть в работах [22], [63], [84]. Из общих результатов, которые могут использоваться в рассматриваемой задаче, обратим еще внимание на не- обходимые условия [65] для задачи sup minF(ж, у), фг(я, ?/)>0, xeX y^Y Теорема 3.22 [65]. Пусть фг- (я, у) — вогнутые по у и непрерывные на X X Y функции, X — компакт к- мерного пространства, a Y — выпуклый компакт метри- ческого пространства. Предположим, что F (х, у) непре- рывна на X X Y и min max min ф/ (х, у) 0. Тогда су- хеХ
§ 18] ОТСУТСТВИЕ ИНФОРМАЦИИ О ХОДЕ ПРОТИВНИКА 221 ществует точка х0, реализующая sup min F (х, у) = min F (xQ, у), хех yeR(x) yeH(xo) где H (x) — {y | min (p^ (ж, у) 0}. dF dcp. Если -yr— и — непрерывны на X X Y и x^E int X, ox ox то выполнены условия: существуют числа Яц ® и точки yif 1 i т, 1 k + 1, такие, что fc+l fc+l m 2 Pj + 3 3 ЯП = 1, j=l j=l г=1 fc+1 OF W дф y}) = 2/o), j=l j=l i=l (x0, y-) = 0, F (x0, y}) = min F (x0, y), y&R(xQ) i = 1, . .., m, j == 1,. .k 4- 1. Доказательство здесь приводить не будем, хотя и в [65] оно только намечено. Необходимые условия такого типа в силу своей громоздкости годятся практически только для задач малой размерности. По аналогии с обычным максимином (см. [19]) могут оказаться полезными следующие необходимые условия [66] в игре = Fj (х), w2 ~ Ф} (х), где первый игрок вы- бирает х X cz Еп, а второй — /ЕЕ J ~ {1, . . ., т}. Теорема 3.22'. Пусть Ф7- (х) непрерывны, Fj (х), j = 1, . . .,т, непрерывно дифференцируемы на открытом множестве X' zd X, а X — замкнутое выпуклое множест- во. Для того чтобы xQ^ X была стратегией, реализующей максимальный гарантированный результат первого игро- ка в указанной игре, необходимо выполнение условия sup mm I ——— , z — xQ = О, zex jsi(x0) \ dx / где j = {/11 e J (ж), Fj (a?) = min Fk (x)}, fceJ(x) J(^) = {]\i^J, (ж) = maxФл(a:)}.
222 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ !ГЛ. ш Доказательство этого утверждения опускаем, отсылая к [66]. Вообще в [66] суммированы все современные мате- риалы по проблеме определения максимальных гаранти- рованных результатов. Заканчивая обзор общих результатов в постановке этого параграфа, необходимо остановиться на проблеме определения максимального гарантированного результата при неточно известных интересах второго игрока. Итак, пусть при = /х (х1У х2) имеем ^2 = А (*1, *2, Р), где параметр р Е В известен второму игроку, но не из- вестен первому. Тогда максимальный гарантированный результат первого игрока равен Gf = sup inf inf #2), xiexj рев x2eP^(xi, p) где Pft (®i, P) = {«21 /2 (si, s2, P) = max f2 y, p)}. Введем фиктивного второго игрока, выбирающего z = (^2> Р) при критерии эффективности Ф (a?i, z) = /2 Ъ, Р) — max/2 (xt, у, р). Рассмотрим игру с критериями Д (х19 z) и Ф z), уже не содержащую неопределенных факторов (поскольку р выбирается вторым игроком); таким образом, здесь пер- вый игрок точно знает интересы второго игрока. Имеем для этой игры G = sup inf Д (a?n х2), xiexj* zeP°(xi) где Рф(Ж1) = {(ж2, р)|Ф(ж,, (а:а, ₽))= max Ф (®,, р)} = гех^хв « {(*2, Р) I *2, Р) — max /2 (*1, У, Р) 0} =х vex® = {(*2, Р)|^геР/г(^, Р), ре В}
§ 18] ОТСУТСТВИЕ ИНФОРМАЦИИ О ХОДЕ ПРОТИВНИКА 223 Отсюда получаем inf inf /i (xt, x2) = inf Д (a?1? x2) рев a2eP^(xi, 3) (3, хг)еРф(Х1) и GX = G. Тем самым решение игры с неопределенным р полно- стью сведено к игре с точно известными интересами вто- рого игрока, т. е. к уже разобранной задаче. Итак, в от- личие от § 17, мы видим, что в игре на X? X неточное знание интересов партнера не приводит к принципиаль- ному усложнению задачи. Этот результат получен в ра- боте [67]. В заключение параграфа отметим, что общие методы указанных типов не всегда будут практически хорошо работать. Поэтому необходимо разрабатывать и частные методы, относящиеся к конкретным играм. В связи с этим стоит отметить простое решение, которое получается при реализации принципа максимального гарантированного результата для игр с критериями Л (*i, ъ) = -1- («!, Axi) + (хъ Вх2) + А- (х2, Сх2) + (е, arx), 1 1 А (*1, ®2) = —(«!> Axi) + (xlt Вх2) + — (х2, Сх2) х3), где хг и е, х2 и d — соответственно т- и тг-мерные векторы, а Л, В и С — матрицы соответствующих размерностей, причем квадратичные формы отрицательно определены. Здесь оказывается, что первый игрок (стремящийся полу- чить G = G) должен выбрать х± из реализации (ж?, х%) абсолютного максимума Д (хъ х2); второй игрок, знающий х°, конечно, также будет выбирать х2, исходя из максими- зации, но уже /2 #2)- Эта простая рекомендация явля- ется одновременно и рекомендацией для поведения в играх двух лиц с близкими интересами (см. § 1) и рекур- рентно обобщается на случай игр п лиц с близкими интересами. Все эти результаты можно отыскать в работе [9]. Они могут рассматриваться как начало использования асимптотических методов в теории игр, методов, которые здесь, как и везде, должны быть, видимо, весьма плодо- творными.
224 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ* III § 19. Корректность задачи о максимальном гарантированном результате и аппроксимация игр Применение численных методов в задачах § 18 требует исследования вопроса о корректности задач теории игр, т. е. об устойчивости их по возможным вариациям исход- ных данных, к которым относятся, прежде всего функции А (ж1, хъ) и /2 (ж1, xzh Под устойчивостью, как это естест- венно для исследования операций, будем понимать устой- чивость конечного результата игры, т. е. степень его из- менения при малом изменении (^, я2) и /2 (хи х2). Как обычно, близость между / (ж, у) и /' (х, у) на множестве Q будет пониматься как малость расстояния Р(/> /') = !/ — /'11= sup \Hx,y) — f(x,y)\. (X, j/)sQ Никаких ограничений на природу Q здесь не наклады- вается. В [6] показано, что если Q = X X Y, х X, у €= X, то без каких-либо ограничений на /, X и Y имеет место утверждение: если р (f, /') е на X X Y, то и | sup inf / (х, у) — sup inf /' (ж, у) | е. хех уеУ хех уеУ В частности, конечно, это относится и к задачам опти- мизации, когда Y состоит из одной точки. Замечания. 1) Задача о максимине устойчива: при изменении / (#i, хъ) не более чем на 8 максиминная стратегия остается реализующей максимин с точностью до 2е. 2) Задача об абсолютно оптимальной стратегии и стратегии наказания устойчива, если эти задачи понимать как задачи об 8-оптимальных стратегиях. Утверждение следует из того, что результат, обеспечи- ваемый стратегией построенной для / (х^ я2), будет при любом х2 изменяться не более чем на 8 при замене / (#i, хъ) на f (#i, #2); но и сам шах / х2) не более чем на 8 будет отличаться от max f (х19 х2). Тем самым страте- гия Ж®, построенная для / (х19 х2), будет стратегией £1* для /' (xlt х2) при р (/, /') < е.
§ 19] ЗАДАЧА О ГАРАНТИРОВАННОМ РЕЗУЛЬТАТЕ 225 3) Задача об . 8-ситуациях равновесия для любой игры п лиц устойчива. Действительно, по теореме 2.5 ситуация (£п . . ., £п) будет ех-ситуацией равновесия для / тогда, когда указан- ный там inf min будет не меньше — ех. Но при изменении / на /' (р (/, /') е) функция в теореме 2.5 (от которой берется inf min) изменится разве лишь на 2е, а значит, inf min будет не меньше чем — 8Х — 2е; ситуация . ...,£) для f будет поэтому (^1+ 2е)-ситуацией равно- весия. -; 4) Любая задача § 16 (непрерывность Д и Д не нужна) о максимальном гарантированном результате (3.16) ус- тойчива относительно Д (^1? х2). Действительно, согласно теореме 3.12 нахождение этого результата эквивалентно нахождению максимина в игре с критерием Д (£1? х2 (£х)) на множестве X Х2. Множество Х2, очевидно, не зависит от Д. Поэтому при изменении Д не более чем на 8, также не более чем на 8 меняется и значение (3.16). Стратегия, реализовавшая (3.16) для Д, будет реализовать (3.16) для Д с точностью 28. Из последнего следует и корректность задачи (3.41) по Д. Однако эта же задача некорректна по Д. Приведем простой пример: Д (х^ х2) = х2, f2 (хъ х2) = ср (#i), X? - Х2°- [0, 1]. Положим Д ~ Ф (^i) + е (^2 — 1), р (Д, Д) 8. Однако для Д по (3.42) Р (хх) = [0, 1]. В то же время Р' (х^) = = {1} для Д. Но тогда результат G для Д равен 0, а для Д равен 1 при любом 8. В силу некорректности задачи (3.16) к ней нельзя без оговорок применять известные численные методы. Так, например, при использовании метода штрафных функций (3.44) возникает необходимость вычисления Ф (х19 х2) по (3.39). Подсчет интеграла будет производиться по при- ближенным формулам, а это, по существу, эквивалентно некоторой вариации Д (х^х2); допустимость этой вариации, вообще говоря, неясна. Итак, для использования числен- ных методов необходима регуляризация задачи (3.16). Такая регуляризация предложена в [651 и отличается 8 Ю. Б. Гермейер
226 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III завидной простотой. Идея состоит в искусственном вве- дении неточности е2 определения max /2 (»lt я?2), т. е. в пе- «2 реходе к (3.13) при фиксированном s2 > 0. Тогда соот- ветствующую замену задачи (3.41) можно записать в виде G^2 (/2) = sup min /i (xlt x2), xiex»^H» (346) P£ (*i) == {x21 /2 (^1, x2) max /2 (x1? x2) — e2}. XaGX2 В дальнейшем будем рассматривать только непрерыв- ные на Х?хХ2 функции Д (хъ х2) и Д (хъ я2); X? и Х2—• компакты. Введем обозначение (хг, х2) = f2 (xlt х2) — — max Д (хг, х2) + е2. Хг€ЕХ2 Как обычно, расстоянием по Хаусдорфу между мно- жествами R и 7Д будем считать р (/?, 7?г) = max [sup inf Ця — sup inf — я/||]. хен x'eHi x'eBi xeR Лемма 3.4. При любом X? в метрике Хаус- дорфа lim Pfaj) = Р\(хг). е2-«»+о 2 А Доказательство. Очевидно, Р\ (rrj CZ Р^г (х^ е2 при е2 > 4е Покажем, что для любого б 0 найдется ц>0 такое, что б-окрестность Щ>(Р\\х^} множества 62 Р\ (^1) содержит (^i), как только е2<; 4 + т]. Пред- С2 положим противное. Тогда существует б 0 такое, что для любого 4 существует 4 G Р1\, но 4 Gz Щ (PfiQ (^i)). е2 е2 Это означает, что (з?1, х2) — ф^ (^1, 4) "h (4 — 4) <2 е2 Пусть 4 е2 при 1-+оо. В силу компактности Х2 можно считать, что 4 ^^2 ПРИ Z->oo. Тогда из непре- рывности ф£ (#!,* х2) по е2 и х2 следует, что ф 0 (-^i, #2) > 0,
§ 19] ЗАДАЧА О ГАРАНТИРОВАННОМ РЕЗУЛЬТАТЕ 227 г. е. £= PfQ (^i). Это противоречит тому, что ЕЕ е2 ЕЁ щ (Р\ (#1)), так как Я2 является предельной точкой. е2 Доказанного существования т] достаточно для доказатель- ства леммы с учетом приведенного вначале включения множеств. Теорема 3.23 [65]. 1) lim GE2(/2)==G0(/2) = G. S2-*0-{- 2) Пусть последовательность (е2) при е2 *-> О та- кова, что min Д (е2), х2] Geg (Д) — Г]^ причем (Х1(ф) 2 T]fe -> 0 прик оо. Тогда хг (е2) есть последовательность ^-реализаций G в задаче (3.16). 3) lim GE2(/;) = Go(/2) = G. е2->0 2Р(/2, /2)<с2 Доказательство. 1) Из Р* (хх) с р\ fa) CZ Л fa) при 8* > > 0 Е2 *2 следует min /ifa, яг2)^ min /xfa, ж2)<С min /ifa, #2); хгеР^хр х^р^х,) х2еРог(Ж1) е2 е2 поэтому Gi2 — невозрастающая функция е2 и существует предел lim GE2 (/2) = sup Gti (/2) < Go (/2). Покажем, что Е2-*0 е2>0 этот предел равен Go (/2). Выберем последовательность такую, что min /х (х{, ж2) > Go (/2) — ®;, где ер —► 0 при I оо. х2еРо2(х{) Из леммы 3.4 и непрерывности /х (жх, ж2) получаем lim Gt2 (/2) = lim sup min /х (xx, x2) > c2^o e^°x.ex»x2e^(x,) >lim min /i(®I,ar2)= min /ifo, ж2) > Go (/2) — ®;. er*° x^p^xj) x2spJ*(xx) Отсюда и следует первое, утверждение. 8*
228 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ (ГЛ. III 2) Пусть хх (4) удовлетворяют условию теоремы. Тогда min fi (Xi (83), #2) = Ит min /2 (xt x2) = 82^° x^P^x^)) = sup min /x (Xi (82), x2) C2>o х^Р^х^У) > min fi (Xi $), x2) > G* — T]fe. x2GP^(Xj(e2)) e2 Это неравенство в связи с первым утверждением и тем, что 82 0 и Л/с 0, доказывает второе утверждение. 3) Пусть р (/2, /2) = Л, /2 (^1, #2) — sup7a (^1, У) + в2 < < /2 (*ь ^2) — max /2 У) + s2 + 2л- Отсюда следует, что Р^2 (^1) С ^£g+2f) (#1)* Аналогично имеем /2 (*i, *2) — sup /2 (^1, у) + 82 > > h (*ь *2) — max /2 У) + 82 — 2ц, и потому при 2ц <z 82 Ха.(^)=)^(^). Отсюда, конечно, следует Gtt+2i\ (/2) ^е2 (/2) -С G^-zn (/2)* Первого утверждения после этого достаточно для дока- зательства третьего. Отметим, что здесь не предполагает- ся непрерывность /2- Доказанная теорема свидетельствует о том, что введе- ние искусственного барьера s2 > 2р (/8, А) действительнЬ регуляризует задачу, поскольку при малых ошибках
ЗАДАЧА О ГАРАНТИРОВАННОМ РЕЗУЛЬТАТЕ 229 § 19] Р (А, /2) также'будет мало и отклонение GZi (/2) от G вместе с малостью необходимого е2. Так, в приведенном выше примере введение е2^>2е дает для/2 множество PZ2(x1) = =х [0, 1], так что GZ2 (fy = G. В работе [65] даются уточнения регуляризации для вогнутых по х2 функций /2 х2). Там же обсуждается и корректность других задач, так или иначе связанных с (3.16). Стоит, пожалуй, отметить, что само вычисление G£2 (/2) сводится к вычислению Go (/2) при соответствующей замене /2. Достаточно воспользоваться, по аналогии с (3.39), представлением /2 (хг, х2) = — J {min [0; /2 (xlt х2) —f2 (xlt у) + е2]}2 dy. Использование ЭВМ для решения задачи (3.16) требует обоснования сеточного метода, т. е. допустимости при- ближенной замены бесконечных множеств X? и Х2 конеч- ными их подмножествами. Разумеется, корректность замены вызывает сомнение, и это тесно связано с некор- ректностью задачи (3.16). Это сомнение тем более обосно- ванно, так как функция / (хг) = min Д (хъ х2) не является, X2eP(Xi) вообще говоря, непрерывной, поэтому дискретизация X? даже со сколь угодно малым шагом может привести к боль- шим ошибкам в определении G. Однако теорема 3.23 дает нам возможность создать обо- снованный вариант сеточного метода. Разобьем X? X Х2 на части, заключенные в достаточно малых параллелепи- педах т} X rn^(i ~ 1, . . ., Z; / = 1, . . к), так, чтобы колебание непрерывных Д и /2 на каждом из таких парал- лелепипедов не превышало заданной величины ц > 0. Выберем в каждом из таких т} и т2- точки #1 EEE X? и х[ ЕЕ ЕЕ Х2 и введем функции Д (^17 х^) и /2 (хг, х2) по формулам /1(^1, *а) = /1(4, 4) при «») = /2(4,4) при хг е т\ П X?, ®2е^пх2°, Il s А X®, ха&т]ПХ1.
230 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ (ГЛ. Ш Имеем р (Л, Д) < ц, р (Д, Д) < Ц- Введем е2 > 2ц. Тогда при достаточно малых Т) и е2 в силу теоремы 3.23 GZi (Д) хорошо аппроксимирует задачу б?0 (Д) (здесь Д остается без изменений). Но в силу замечания 4) в начале этого параграфа мы имеем, что вычисление 6Д (Д) заменяется вычислением GSi (f2) (при замене Д на Д) с ошибкой, не превышающей ц. Таким образом, при достаточно малых г) и е2 2г) мы можем заменить вычисление G === GQ (f2) на вычисление GZs (А) при функциях Д и /2. Но в силу по- стоянства Д и Д на тп^ X mj2) имеем: a) sup /2(^1, #2) = max /2(^ь £2); 2 х2 2 б) Р^ (жх) = (4) при е т^; в) inf ж2)= inf 4)- х2е р/2 (Xi) х (е р/2 (х0 А это означает, что, заменив X® X х2° на {4} X {я2}, мы не совершим ошибки ни в определении Ge2 (fa), ни в воз- можности реализации этого результата выбором хоть одного хг. Этим и оправдана замена бесконечных X? и Х2 на конечные {^} и {<Д} при непременном условии е2 ^>2ц, поскольку Д и Д совпадают с Д и Д на (xl, х^). Для ряда задач представляет интерес частичная дис- кретизация задачи путем введения сетки только по х2. Это эквивалентно введению только mj2) и функций Д и Д, А Ах, ^г) = А (*i> хг) при х2 е т(р, к — 1,2. Совершенно аналогично только что проведенному можно показать справедливость приближенной замены Go (Д) на G£2 (Д) при 8 > 2ц. Затем ясно, что в новой задаче, не теряя ни результата, ни факта реализуемости по хх, мы можем заменить Х2 на {х?2}, а это и означает требуемую замену Х2 в исходной задаче. Заметим, что применение дискретизации обосновано не только с тоЩки зрения первого игрока, но и с точки зрения второго, поскольку при этом мало меняются дости- жимые максимумы Д (х19 х2) по х2.
МЕТАПГРЫ 231 § 20j § 20. Другие случаи информированности. Метаигры В §§ 16 и 18 были рассмотрены крайние случаи инфор- мированности первого игрока о выборе я2. В первом случае рассматривалась игра при ожидающейся точной информа- ции об х2, а во втором — при отсутствии информации об х2. Иногда (см. [46]) для краткости первая игра обозна- чается как Г1? а вторая — Г2. В обоих этих видах игр первый игрок точно знает интересы второго и точно сооб- щает второму свою стратегию. Анализируя поведение второго игрока (до окончательного выбора своей стра- тегии), первый игрок считает, что при любой стратегии 1х1 поведение второго будет определяться стремлением к максимизации /2 (г17 х^. Тем самым, в игре априори стратегией второго игрока является функция х2 (х^, обозначаемая через #2, а в игре Г2 — функционал х2 (гх), обозначаемый х2. Поскольку такая функциональная связь порождается самим сообщением первого игрока (хотя второй мог бы и сам иметь соответствующую информацию), то первый игрок вполне уверен в виде этой связи. В то же время предполагалось, что его информированность об х2 явилась результатом его собственных усилий, а не след- ствием передачи информации вторым игроком. Этой пе- редачи информации и трудно ожидать, если второй иг- рок не знает интересов первого; передавая в этих условиях точную информацию о выборе х2, второй игрок в случае противоположности интересов может сильно проиграть. Однако, получая информацию о выборе х19 второй игрок, по существу, может быть уверен в непротивоположности интересов и начать подумывать о каких-то встречных сообщениях. Как, например, уже показано в § 17 (теорема 3.17), эти сообщения могут касаться характеристики у интересов второго игрока (если первый эту характери- стику не знает). Но еще более полно поведение второго игрока характеризуется стратегией х2, которая, следова- тельно, тоже может быть объектом сообщения. Как от- мечено в [6], сообщение вторым игроком своей стратегии х2 (в расчете на информацию об х±) не может ухудшить позиции второго игрока в антагонистической игре, по- скольку на Х± X Х% всегда есть седловая точка. В игре же с непротивоположными интересами возмож- ность предварительного сообщения вторым игроком своей
232 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ* ИГРЫ ДВУХ ЛИЦ 1ГЛ. Ill стратегии г2 ставит его на место первого (по порядку при- нятия решений), превращая игру в игру Г2, соответ- ствующую Г2, но с переменой порядка принятия решений. Ясно, что это невыгодно для первого игрока и он не допу- стит «перехвата хода», если у него есть такие возмож- ности. В пределах данного изложения мы считаем, что такие возможности у первого игрока есть, поскольку он по ус- ловию первым принимает решение о выборе стратегии. При этом он может просто выбрать х19 не дожидаясь сооб- щения об г2 и реализуя тем самым игру Гх. Но он может и предвосхитить действия второго игрока и вместо хг сообщить ему стратегию вида хг = хг реализация которой может покоиться как на ожидающемся сообще- нии второго игрока, так и на собственной информации (хотя это, конечно, менее вероятно). Разумеется, частным случаем таких стратегий является х± = хг. Так образуется игра Г3, введенная в [16], обладающая весьма важными свойствами и определенным образом до- полняющая игры Гх и Г2. И здесь предполагается, что интересы второго игрока (т. е. функция /2 (я1? я2)) точно известны и первому и второму. В изложении свойств этой игры будем придерживаться материалов [16]. Получив информацию о второй игрок получает, по существу, обещанную информацию об х1У но в виде функ- циональной зависимости от своих собственных действии («обратная связь»). Рассмотрим возможности первого иг- рока в игре Г3. Пусть /2 (х°, х%) > min max/2 (жх, я2) = x2ei2° = L2 [Х2]. Обозначим через х2 ЕЕ Х2 функцию, тождест- венно равную х2. Тогда первый игрок может обеспечить реализацию исхода (#J, ж2) с помощью стратегии х±\ х°19 если х2 = x2t х[[, если г2^=^2. (3.47) Здесь под х? понимается та точка, которая реализует min max /2 (х19'х2) =L2 [Х2 ], т. е. тах/2 (х*, x2)*=L2 [Х2 ]• sqexj x2gx2 Хг
МЕТАИГРЫ 233 § 20] Если в ответ на второй игрок изберет не г®, то он получит не больше Ь2 [Х2 ]; поэтому он должен выбрать х®- В полной аналогии с построениями § 16 введем = {(^1, #2) I /2 (Х1> ^2) ^2 [^2 ]}, Г sup /г(^1, х2), (3.48) I — оо, Dr — ф. Как уже сказано, первый игрок может гарантировать себе результат, сколь угодно близкий к Кг. В распоряжении второго игрока имеется по крайней мере одна стратегия которая гарантирует ему результат, не меныпии L2 [Х21, что бы ни делал первый игрок (в пределах приня- той схемы). Поэтому, исходы, для которых /2 (^, х2) < < Ь2 [Х23, просто не будут допускаться вторым игроком. Остается рассмотреть случаи, когда /2 (яд, х2) Ь2 [Х2]« Здесь, вообще говоря, нельзя обеспечить однозначность результатов, поскольку второй игрок с одинаковым для себя гарантированным результатом может применять любую Я*, если она не единственна. Введем обозначение И! =- {х± | max /2 (яд, хф Ц [Х2 ]}. (3.49) Тогда наибольший гарантированный результат первого игрока при условии, что второй получает Ь2 [Х2], равен — sup min /1(ж1, хф). (3.50) XiGHi ХгСЕРСхч) Результат, сколь угодно близкий к первый игрок может обеспечить постоянным функционалом хг = хгЕЕ Этот функционал одновременно будет стратегией наказания второго игрока за выход из Р (яд); в этом по- следнем случае второй игрок получит меньше L2 [Х2]. Пусть х± —любая стратегия. Рассмотрим sup /2 (яд,т2) х2 = Т. Если он больше, чем Ь2 [Х21, то имеется стра- тегия т2 такая, что исход (яд, ,т2), определяемый хг и х2
234 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III принадлежит ясно, что второй игрок выберет одну из таких возможностей; но тогда первый получит не более Кг. Если же Т = Z/2 [Х% ] (меньше он быть не может), то второй игрок может применить любую #£, а в этом случае Т = Z/2 [X*] только при х1 ЕЕ Н19 причем х2Е Р (#х) для всех хг. Но это значит, что гарантированный результат первого игрока не превысит Мх. Итак, доказана Теорема 3.24 [16]. Максимальный гарантирован- ный результат в игре Г3 равен шах [Кг, Мг1. Он достига- ется с любой точностью е либо при помощи стратегии вида (3.47), где х$ (с точностью е) реализуют Кг по (3.48), либо при помощи стратегии хг ~ х^ЕЕ Н1 (3.49), реализующей с точностью 8 М1 по (3.50). Обратим внимание на то, что Мг имеет вид G из (3.16), если заменить XJ на Н1Л Поскольку информация первого игрока в Г3 больше, чем в Гх, то и max [Хх, Мх] > G. Но Mr G. Поэтому, если < G, то Kr G, и, следова- тельно, Dr 0. Очевидно также, что max [Хх, Мг] max [X, М]. Таким образом, наилучший гарантированный резуль- тат первого игрока в игре Г2 не меньше такового в игре Г3, который в свою очередь не меньше наилучшего гаран- тированного результата в игре 1\. Отметим также, что в большинстве практических моделей соответствующие со- отношения между результатами характеризуются стро- гими неравенствами. Это позволяет игру Г2 назвать иде- альной игрой для первого игрока. Теорема 3.24 имеет важнейшее дополнение, связанное с вопросом, будет или не будет передана информация об f2, если первый игрок ее потребует. Для реализации Мг эта информация первому игроку и не нужна, поскольку хх он выбирает совершенно самостоятельно. Для реали- зации Кг (т. е. xl), вообще говоря, информация об х2 не- обходима. Оказывается, первый игрок может выработать такое поведение, что он получит эту информацию, если она ему нужна. Для этого введем ответ второго игрока на запрос пер- вого в виде обобщенных стратегий второго (£2, 0) и (^2, 1), где 0 означает точное сообщение х2 первому игроку, а 1
§ 20J МЕТАИГРЫ 235 означает, что второй ничего не сообщает. Вместо вве- дем обобщенные стратегии х[, представляющие собой отоб- ражения множества Х2 стратегий вида (т2, 0) и (.r2, 1) на Ху. Множество стратегий Ху обозначим В новой игре на Ху X Х2 первый игрок всегда может получить поскольку для этого ему не нужна информация о г2. Для реализации Ку, т. е. для обеспечения исхода (ху, х%), реа- лизующего Ку с точностью 8, первому игроку достаточно применить стратегию ~*о ( •£?> если (х2, 0), = । ’ Я1, если (г2, 1). При этом любая (х2, 1) дает второму не более L2 [Xfl, и он сообщит свою стратегию х2 первому, чтобы получить больше L2 [Х2 ], если, конечно, Ку > Му. Итак, верно дополняющее теорему 3.24 Следствие [16]. Если второй игрок или точно сообщает г2, или вообще ничего не сообщает, то у пер- вого игрока есть стратегии, позволяющие реализовать max [Ку, Му}, т. е. заставить сообщить х2, если Ку^>Му. Для реализации Му обсуждаемая информация не нужна. Это обстоятельство отличает игру Г3 от игры Г2, посколь- ку в игре Г2 уже для реализации х^ нужна информация об х2, также она нужна и для Ху при реализации М. Од- нако если существует стратегия наказания — константа, т. е. такая точка Ху ЕЕ Ху, что max /2 (ху, х2) max X 2 х2^Х 2 min f2 (ху, х2), то при К М первый игрок может х^Ху опять потребовать информации о выборе х2. Значительное преимущество игры Г3 перед Гх можно проследить на примере иерархической системы, обсужден- ной в начале § 18. В рамках игры Г3, конечно, не может сложиться та абсолютно неприемлемая для центра ситуа- ция, которая там описана. Это, в частности, означает, что при обсуждении распределения ресурсов центр должен устроить обмен информацией с производителями, запро- сив у них сведения о том, как они будут использовать
236 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЩ[ГЛ. Ill ресурсы в зависимости от их объемов (т. е. запросив ^2). В нормальных условиях производитель не может (под стра- хом наказания) уклониться от сообщения соответствующих сведений. Однако он может передать неточные сведения (обман). Следствие из теоремы 3.24 ничего не говорит о невозможности или нерациональности этого для второго игрока, если он уверен, что первый игрок сам не узнает реального £2. Разумеется, этот обман некорректен, однако практическое обнаружение его центром отнюдь не всегда просто. Игра Г3 может служить первым примером сложных по информированности игр, которые теперь принято назы- вать метаиграми (см. [131, [68]) и которые основаны на возрастании уровня рефлексии [12]. Последующие мета- игры с правом первого хода получаются естественно ре- курренцией понятия стратегии по аналогии с Г2 и Г3. Так, в игре Г4 (аналогия с игрой Г2) второй игрок, ожидая (как в Г2) информацию о стратегии формирует стратегии 22 = х2 (£х) и сообщает их первому игроку. Первый игрок пользуется стратегиями вида гх (я2), обозна- чаемыми как х1 и представляющими собой выбор 2х=ях(х2) в зависимости от я2. Эти стратегии первый игрок и сообщает второму еще до получения информации об х2 (реализуя право первого хода или первого решения). Итак, в игре Г4 используются стратегии х± и х2 (ях). В игре Г5 второй игрок, рассчитывая знать хх = х± (как в игре Г3), формирует стратегию х2 = х2 (х±), а первый использует стратегии х± (х2) = х± и т. д. . В каждой из построенных четных игр Гт первый игрок использует в качестве стратегий отображения множества стратегий второго игрока в этой игре в множество стра- тегий первого игрока в игре Гт_2. В частности, он может использовать отображение в для игр с четными номе- рами и в Xi для игр с нечетными номерами. Стратегиями второго игрока в игре Гт являются отображения множе- ства стратегий первого игрока в игре Гт в множество стра- тегий второго игрока в игре Гт_2. Фактически же после получения информации от первого игрока второй также
МЕТАИГРЫ 237 § 20j пользуется отображениями, определенными на множестве стратегий первого в игре Гт^2; но это апостериори, после реализации права первого выбора первым же игроком. Теорема 3.25 [16]. В играх Г2т при т > 1 наи- больший гарантированный результат равен шах [X, М]. В играх же Г2ш+1 (при m > 1) он равен max [Aj, Mr\ *). Доказательство. Воспользуемся тем, что в четных играх первый игрок всегда может выбрать отоб- ражение в одну точку Хр указанную в теореме 3.13; со- храняется и стратегия наказания. Тем самым он и обеспе- чит себе получение результата шах [К, М] (с точностью 8). Большего он достичь не сможет, ибо второй игрок всегда может обеспечить себе не менее Ь2 [Х°], выбрав отображение в любую точку х2 ЕЕ Е2. Любой исход (т. е. (#1, х2)), в котором второй игрок получает больше Ь2 [Х2], уже достигался и в игре Г2. Если же рассматривать ис- ходы, где второй получает Ь2 [Х®], то благодаря возмож- ности выбора вторым любой точки х2 ЕЕ Е2 первый игрок не может себе гарантировать больше М. В играх Г2т+1 второй игрок может реализовать (взяв тождественное преобразование в эту точку множества Xf) и тем самым гарантировать себе L2 [Х% 1. Дальнейшие рассуждения совершенно аналогичны проводимым в игре Г3, поскольку стратегия наказания сохраняется, как отображение в одну точку хг ЕЕ Н-р, за- тем легко реализуется стратегия-отображение в X? со- вершенно аналогично (3.47), и эта стратегия гарантирует вновь результат Кг. Результат Мг гарантируется выбором % ЕЕ реализующим Мх при любом поведении второго игрока. Теорема доказана. Отметим, что частный случай этой теоремы для игр с противоположными интересами, по существу, был уста- новлен в [6]; результаты первого игрока в четных играх здесь равны Lr [Xf], а в нечетных — [X?]. Доказанная теорема свидетельствует о том, что с точ- ки зрения максимального гарантированного результата первого игрока нет смысла рассматривать метаигры Гш *) Результат в игре Гх выходит за рамки этой схемы.
238 Гарантированный результат, игры двух лиц !гл. ш при тп > 3. Разумеется, при перемене порядка принятия решений нужно рассматривать симметричные по переста- новке игроков игры Гт. Возникает естественный вопрос о том, как обстоит дело с ситуациями равновесия в метаиграх. Этот вопрос был поставлен в [13]. Изложим соответствующие резуль- таты для игр двух лиц по материалам работы [68], в ко- торой были подвергнуты критике и исправлены общие утверждения работы [13]. Для игр двух лиц эти резуль- таты особенно просты и удачно дополняют только что из- ложенное. В игре Г2 любой исход (ж?, х%) с результатами А (4 4) > [X?] и (3.51) и $ > l, та может рассматриваться как результат некоторой ситуации равновесия (if, if); наоборот, любая ситуация равновесия в Г2 удовлетворяет указанным условиям на результаты. Действительно, пусть if и xf cz Н1 — стратегии наказа- ния друг друга, не позволяющие первому игроку полу- чить больше Lr [Х?1 и второму — больше L2 [Xfl. Пусть (х?, я2) удовлетворяет (3.51); тогда стратегии .т2, если х± = if, если Xi=^Xi, х°, если i2 = xl, xi, если ^2 ¥=^2, образуют ситуацию равновесия с исходом (я?, $). Действительно, если второй игрок взял if, то приме- нение первым if приведет к исходу (я£, ж2)« Если первый игрок выбирает другую стратегию х19 то вместе с if она или даст xi, или нет. Если даст, то и исход совокупности (in if) будет тот же самый: (ж?, я2). Если же нет, то по построению if первый игрок получит не более L± [Х?]ив силу (3.51) не более Д (ж?, ж2). Итак, максимум результата первого игрока при фиксации if достигается при if и ра-
§ 20] МЕТАИГРЫ 239 вен Д (ж?, х%). Если, наоборот, фиксировано и взята некоторая т2, то при r2 =/= х2 второй игрок по построению xf получит не более L2 [Х2] Д (ж?, х%), т. е. не более результата, который дают х[, х2. Итак, первая часть ут- верждения доказана. Пусть теперь (5?, г2) является ситуацией равновесия и (#!, я?2) — соответствующий исход. Если Д (хъ х2) < < Lr [Xj], то стратегия •Д = xr G {^i | min Д (^i, х2) = Lr [X?]} х2ех2 в совокупности с х2 даст первому не менее Lr [Xj], что противоречит предположенному неравенству, поскольку (i?, — ситуация равновесия. Аналогично обстоит дело ~ ~а и со вторым неравенством, если рассмотреть х2 = х2 вместе с х?. В игре Г4 имеет место аналогичное утверждение, если заменить (3.51) на Д (*?, х") > Lr [ХГ1, Д № хЪ > Ь2 [Х2]. (3.52) Ситуации равновесия здесь образуют пары: ( т° тр- ь I ( т° ~р I ,Г2’ xl^\ н I если Х2 — х2 если Х2 х2 если если Доказательство утверждения совершенно аналогично предыдущему. Теперь уже очевидно, что в играх Г2т при ттг > 2 будут те же результаты, что и для игры Г2, а в играх Г2т+1 — те же, что и в игре Г3. Следует, однако, подчерк- нуть, что в играх Г3 и Г2т+1 реализуются результаты, сов- падающие с результатами Г2. Аналогично обстоит дело с Г2т при т 1. Итак, верна Теорема 3.26. В игре Г2 те и только те исходы (^J, xf), которые удовлетворяют (3.51), могут быть исхо-
240 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III дами ситуаций равновесия. Те же результаты верны и для игр Г2Ш при тп > 2 и Г2т+1 при тп > 1. В играх Г2т+1 и Г2т, тп > 1, аналогичное утверждение верно при замене (3.51) на (3.52). Из этой теоремы следует, что нет необходимости рас- сматривать метаигры большого порядка и тогда, когда исследуются ситуации равновесия. В то же время очевид- но, что при надлежащем обмене информацией ситуации равновесия всегда не единственны и в качестве исхода может реализоваться любой результат из области (3.51) или области (3.52). Это обстоятельство и расширяет воз- можности коллективного компромисса по ситуациям рав- новесия (сюда включаются, в частности, и векторы Паре- то), и затрудняет в то же время поиски такого компромис- са. Для обеспечения устойчивости следует брать, конечно, строгие неравенства в (3.52) и (3.51). Но и это не обеспе- чивает еще настоящей устойчивости, потому что указан- ные выше построения ситуаций равновесия дают не стро- гие ситуации равновесия. § 21. Игры со вспомогательными критериями эффективности Из материалов предыдущих параграфов ясно, какое значение имеет информация первого игрока о выборе х2 и передача им информации о своем выборе хг. Нельзя, ко- нечно, считать, что вопрос о роли взаимной информиро- ванности о ходах изучен достаточно исчерпывающе, однако и полученные уже результаты во многом прояс- няют этот вопрос. Наоборот, роль взаимной информиро- ванности об интересах обсуждалась, пожалуй, несколько односторонне, хотя и были даны довольно общие постанов- ки вопросов. Если значение точности информации первого игрока о критерии /2 (хъ х2) более или менее ясно, то роль информированности второго игрока об Д (х±, х2) требует специального рассмотрения. Почти во всех приведенных выше теоремах оказыва- лось, что информация об Д (хъ х2) для второго игрока не важна, поскольку его дело — оптимизация /2 (£1? х2) по х2; таким образом, и* результаты второго игрока, и гаранти- рованные результаты первого оказываются здесь незави- симыми от уровня информированности второго игрока об
§ 21] ВСПОМОГАТЕЛЬНЫЕ КРИТЕРИИ ЭФФЕКТИВНОСТИ 241 интересах первого. В настоящем параграфе попробуем разобраться в вопросе о роли информированности второго игрока об Д гг2) несколько более подробно. При этом закономерно возникает и вопрос о целесообразности пе- редачи первым игроком какой-то информации о своих интересах. Нетрудно понять, что такого рода информация имеет, вообще говоря, особое значение, поскольку само- стоятельное добывание ее, видимо, еще более затрудни- тельно, чем добывание информации о «поступках», т. е. об хг. Понимая всю сложность возникающих здесь вопро- сов, отразим несколько наиболее напрашивающихся и очевидных результатов, следуя [451. Итак, пусть второй игрок не знает интересов первого и первый об этом осведомлен, причем он знает точно /2 (^1,ж2)- Тогда, находясь в остальном в условиях теоремы 3.13, он может получить тот же результат шах [К, М\, исполь- зуя как составную часть своей обобщенной стратегии сообщение второму игроку в качестве своего критерия эф- фективности функции Д (хг, х2) ф Д (^1? х2), Предполагает- ся, конечно, что второй игрок доверяет этому сообщению. Таким образом, первый игрок создает как бы вспо- могательную игру, связанную с первой, но не совпадаю- щую с ней. Выбор Д осуществляется из соображений на- казания второго игрока с помощью включения в Д элемен- та антагонистичности интересам второго игрока. Оставив обозначения теоремы 3.13, установим справедливость следующей теоремы. Теорема 3.27. Первый игрок гарантирует себе получение max [К, М} — е, если, зная f2 (х19 х2) и получая информацию об х2, сообщает второму игроку (не знаю- щему (х19 х2)) в качестве своего критерия эффективности при Ку> М A (^i, *2) = /1 хъ\ Х1 = Х1, х2 = Х2, — (ХХ, #2) + С, Хг=^ Х± ИЛИ <Г2 ГГ2> а при К М /1 (Х1, Х1) = A (xi, хъ), -- h (Х1, Хя) + С» Х2 ^2 ? ^2 ЕЕ 7Д,
242 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III где С — любая константа, удовлетворяющая условию С < min /х (#!, х2) 4- min /а (хъ х2). Xi, Xt Xi, Xi Оптимальной стратегией х\, сообщаемой второму иг- року, является функция х± (х2), реализующая при любом х2 max Д (хг, х2). Доказательство. Оно повторяет дословно до- казательство теоремы 3.13, если учесть, что, несмотря на разрывность Д (xi, #2), ее максимум по хг реализуется в Силу выбора С при любом х2, а структура Д (хи хъ) обес- печивает совпадение величин М и К (может быть, с точ- ностью до в) вспомогательной игры с аналогичными вели- чинами для исходной игры. Точно так же нетрудно про- *» верить, что для вспомогательной игры и есть стратегия рекомендуемая в теореме 3.13. Замечания. 1) По сравнению с 3.13 в теореме 3.27, как уже сказа- но, имеется дополнительное предположение, что второй игрок не знает Д (хх,х2). В то же время рациональное поведение первого игрока выглядит более удобно, так как стратегия xf задается просто — максимизацией Д. Что касается самой Д, то в случае К ^>М она описывается несложно — как антагонизм второму игроку во всех точ- ках, кроме х2 = х%. Несколько более сложна Д для М > К. Но и здесь, как нетрудно убедиться, можно еще более упростить вид Д, положив ее везде равной —Д (^i, хъ)- Правда, при этом первый игрок неточно сообща- ет свои интересы на Е2 (блеф корректен). Таким образом, теорема 3.27 позволяет существенно упростить информа- цию, передаваемую первым игроком второму. 2) Стратегия xf для вспомогательной игры абсолютно оптимальна и потому остается рациональной, когда игрок, сообщив Д, далее делает свой ход по выбору стратегии вторым, а не первым. Это справедливо как в случае, ког- да второй игрок (делая ход первым) сам сообщает выбран- ное х2 первому игроку, так и в случае, когда первый игрок самостоятельно получает информацию об х$, лишь бы толь-
§ 21] ВСПОМОГАТЕЛЬНЫЕ КРИТЕРИИ ЭФФЕКТИВНОСТИ 243 ко второй игрок знал об этой информированности и был разумен. В обоих этих случаях первый игрок не сообщает _ <л о применяемой стратегии В теореме 3.27, отыскивая наилучший гарантирован- ный результат первого игрока, т. е. полагая его разумно осторожным, мы не делали аналогичного предположения о втором игроке; нам было достаточно, что из двух исходов игры он предпочитает тот, в котором /2 больше. Теперь предположим, что и второй осторожен, т. е. будем счи- тать, что и он придерживается принципа наилучшего гарантированного результата в соответствии с имеющейся у него информацией о протекании игры. В этом случае, если предположения сохраняются прежние, то, не меняя результата, первый игрок в качестве своего критерия эф- фективности может сообщить при К ^> М | ^2), если хх — х2 ~ х%, fl(Xl,X2)=\ £ £ (С < fi (xi, х2), если xi=/=x[ или x2=^xl, а при К М ( /1(^1, если х2^Е2, /1(^1, ^2)” j С х2\ если x2l==fE2. ' Xi, Хг При этом первый игрок или сообщает, что он будет мак- симизировать при любом х2 (не указывая конкретно, какую именно xf он возьмет), или же вообще ничего не сообщает, кроме вида /1? если второй игрок знает, что пер- вый имеет информацию об х2. В этих условиях второй игрок, беря х2 Ф х2 или хг £= Е2, будет лишен из-за независи- мости от хг какой-либо информации о выборе х19 и в силу принципа гарантированного результата будет рассчиты- вать на наихудший случай, т. е. на антагонистические действия первого игрока. В тоже время при х2 = х2 вто- рому игроку ясно, что информированный об х2 первый игрок выберет xi, что и обеспечит для второго игрока наи- лучший гарантированный результат, а для первого К— г. Аналогично обстоит дело и при К М. Разумеется, первый игрок, как и ранее, не может гарантированно по- лучить результат, больший max [К. М].
244 ЕаРаНТШЮЁАНЙЫЙ результат, иЕры ДВУХ лиц (ГЙ. Itl Порядок ходов по выбору и х2 не играет здесь роли, как и в теореме 3.27. Более того, использование при ос- торожном втором игроке позволяет первому игроку при- бегнуть к блефу, заявив, что он будет максимизировать /1 (#i> #2) ПРИ любом х2, хотя на самом деле он не имеет информации об х2. Он получит опять в силу осторожности второго игрока результат К — 8, если только, имея пра- во первого хода, заявит об этой максимизации, выбирая на самом деле х\. Разумеется, здесь предполагается, что второй игрок не имеет информации о выборе х1 и не знает, имеет ли первый достаточно точную информацию об х%. Аналогичный блеф первый игрок может использовать и при втором виде М). Однако здесь он (не зная х2) не в состоянии реализовать М, а может рассчитывать лишь на гарантированный результат ST = max min /1(^1, х2)- _ __ у0 х2СК2 Положим теперь, несколько изменив Jх, при К > М У ( /1(^1, если = я:*, х2 = #2, 1 ~~ j С в остальных случаях и при К ST = / /1 (#ь ^2), если х% S Й’а, С, если ХъЕЁЕ^ где С < min /х (гг1? х^. Х1,Х2 Утверждается, что справедлива Теорема 3.28. Пусть второй игрок осторожен, не имеет сам информации о выборе х±, не знает (xr, х2) и не знает, имеет ли первый игрок информацию об х2. Пусть первый игрок не имеет информации об х2 и сооб- щает второму лишь /х и то, что он имеет информацию об х2. Тогда первый игрок имеет наилучший гарантиро- ванный результат во вспомогательной игре, равный max [А, М\ — 8. Этот результат достигается на стра- тегии хг = х\, е$ли К М; если же К М, то дости- гается на любой стратегии такой, что min Д (£1? х2) = Хг&В* ~я.
I 21] ВСПОМОГАТЕЛЬНЫЕ КРИТЕРИИ ЭФФЕКТИВНОСТИ 245 Доказательство. Предыдущими рассуждениями уже доказана достижимость указанного результата при хг^ или хг = Остается лишь показать, что и с лю- бой другой стратегией х± нельзя гарантировать большего. Действительно, если К М, то в силу вида Д второй игрок или, поверив первому, выберет х2 = х%, или же из осторожности выберет любое значение х2 ЕЕ Е2. Но в первом случае первый игрок, согласно определению К и Д, не может получить больше этой величины при любой стратегии хг; во втором он не может, не зная х2, гаранти- рованно получить больше М. При К М вид Д и осто- рожность заставят второго игрока выбрать какое-либо х2 (ЕЕ Е2 так, что гарантированный результат первого не превысит М. Теорема доказана. Как видно, в этой теореме мы сталкиваемся с коррект- ным блефом, поскольку, обманывая второго игрока о своей информированности, первый игрок отнюдь не обма- нывает его в том результате, который второй получит. Действительно, первый игрок при фиксации х2 = х%, возможно, мог бы увеличить свой результат по критерию Д (^i, #2), выйдя из области D, однако мы полагаем, что он этого не сделает, _честно придерживаясь объявленного им самим критерия Д. Использование вспомогательных критериев Д и может позволить получать результаты в теории игр п лиц, конечно, при определенных предположениях и с использованием элементов блефа. Приведем пример, от- носящийся к теории иерархических систем (пример VII § 1). Пусть по-прежнему имеется центр (первый игрок) и п производителей, составляющих второй уровень иерар- хии. Пусть, далее, wQ = /0 (х19 . . хп, и) nwt = ft (xi9 и), i == 1, . . ., п,— критерии эффективности центра и про- изводителей, а и ЕЕ U и xt ЕЕ Xt — соответственно фак- торы, контролируемые центром и i-м производителем. Если производители образуют жестко определенную коа- лицию с некоторым критерием wc — fc (х19 . . ., хп, и) т (например, с — У, Д коалиция с побочными плате- 1=1 жами), то, как уже говорилось, мы, по существу, имеем игру двух лиц с критериями wQ и wc. Поэтому все сказан-
246 ГАРАЙТИРОВАНЙЫЙ РЕЗУЛЬТАТ, ИТРЫ ДЁУХ ЛИЦ [ГЛ. Ill ное о наилучшем гарантированном результате первого игрока целиком относится и к данному примеру. Минуя сложный случай «переменной» коалиции, остановимся на случае, когда производители действуют индивидуально. Будем полагать, что центр знает все функции ft (xt, и). Введем Li == max min fi (x^ u), Do = {(#i, .xn, u}\fi(Xi, u)^>Li, i = 1, n} Ko^- sup/0(*i, u), DQ=f=(p, Do -- OO , Dq = Ф, и пусть (xi, . . ., Xn, u°) — точка, реализующая KQ или точно, или с отклонением, не большим 8. Пусть, далее, /о (^г> и) == __ J /о, #n, если и = uQ, Xi = Xi, i = 1, ..., n, i —fi (x^ u) Ci в остальных случаях, где Ci < min fi (Xi, u) + min f0 (^, ..., xn, u). U Xt,...,Xn,U В этих условиях ясно: если центр обладает информа- цией об Xi, а производители это знают, но не знают инте- ресов центра, не обмениваются информацией о своих дей- ствиях и о сообщениях центра, а также верят последним, то, сообщая i-му производителю в качестве своего критерия /J, а также (хотя это и не обязательно) uf = и* (xt), реа- лизующую max % (xi, и), центр обеспечивает себе резуль- тат, не меньший KQ (или KQ — s). Здесь мы видим, что центр несколько блефует, ибо он не может одновременно придерживаться всех fQ и соот- ветствующих uf. Однако отсутствие обмена информацией не позволяет производителям выявить наличие блефа и подорвать тем самым доверие к центру. Корректность блефа затрудняет его выявление по результатам игры.
§ 21] ВСПОМОГАТЕЛЬНЫЕ КРИТЕРИИ ЭФФЕКТИВНОСТИ 247 Введем теперь /о “ I /о(^ь .и0), если и = и°, Xi ~ jcI, i = 1, ..., п, [С /о Ол, • • •, %п, и0) в остальных случаях. Пусть производители осторожны (придерживаются прин- ципа гарантированного результата) и не знают, будет ли информирован центр об x-L (или знают, что он информиро- ван) и каковы интересы центра. Тогда, сообщая всем производителям /0, и то, что все xt будут известны, а /0 будут максимизироваться, и выбирая на самом деле zi°, центр обеспечивает себе получение К0 — г независимо от того, обмениваются производители информацией или нет. Доказательство обоих этих утверждений уже очевидно. К сожалению, выяснение условий, когда эти результаты оптимальны, требует громоздкой комбинаторики и потому здесь не рассматривается. Полученные выводы существенно опираются на незнание производителями истинных инте- ресов центра. Соответствующие конструкции для иного случая, несомненно, более сложны. Вспомогательные критерии эффективности полезны и для случаев, когда первый игрок неточно знает критерий второго, а второй по-прежнему не знает критерия перво- го. Для определенности рассмотрим ситуацию, разобран- ную в теореме 3.17 и предполагающую осторожность^вто- рого игрока. Будем опять считать, что первый игрок представляет себе интересы второго в виде w2 = х2, а), где а ЕЕ А; настоящий критерий эффективности второго игрока соответствует некоторому конкретному &, но первый игрок его не знает, а лишь локализует его принадлежностью к А. В данном случае будет существен- но использовано предположение о наличии у первого игрока точной информации об х2. Как уже говорилось в §17, существенным элементом поведения первого игрока является требование у второго информации об а и наказа- ние его за дачу ложной информации или ее отсутствие. Аналогичное обстоятельство должно быть отражено и во вспомогательном критерии. Для этого первый игрок включает в него зависимость от сообщаемого ему вторым игроком значения а, которое будем по-прежнему обозна- чать через а'; отсутствие такой информации приравнива-
248 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. III ется специальному значению а. Этот вспомогательный критерий можно представить в виде /1 (хг, х2, а') = /1(^1, ^2), если = а4(а'), ^2 = ^2 (а'), а'ЕЕА0, == , или если х2 G С min /i (#b х2) в остальных случаях. Х1,Х2 Здесь Ао, как и прежде, множество тех а, для которых К (а) - 8 > М (а). Теорема 3.29. В указанных выше условиях опти- мальный гарантированный результат первого игрока ра- вен inf max [К (а), М (а)]. Он достигается (хотя бы с аеА точностью s), если первый игрок сообщает второму fi (#i, ^2, а') и свое стремление максимизировать этот критерий при любом выборе вторым игроком своей стра- тегии (я2, а'). Доказательство этой теоремы почти дословно повто- ряет доказательство теоремы 3.17 и потому не приводится. Легко заметить и здесь упрощение передаваемой информа- ции о поведении второго игрока; некоторая трудность состоит лишь в передаче множеств Ао и Е2. Если использовать блеф, то опять можно сделать вид, что информация об х2 имеется, хотя на самом деле ее нет. Разумеется, при этом потребуются соответствующие из- менения в результате, подобно теореме 3.28, поскольку при х2 ЕЕ Е2 можно лишь гарантировать max min Д (х19 я2), xiexj X:^Es Кроме того, здесь важно, конечно, получить информацию а' для выбора х19 поскольку нужно знать, какое следует выбирать xi (а') в качестве хг. Мы не будем уточнять все эти вопросы, отослав к работе [45]. В заключение еще раз отметим важность и специфич- ность введения вспомогательного критерия и обратим вни- мание на то, что, объявив его, игрок ему следует; это вы- годно игроку с точки зрения исходного критерия. Поэто- му блеф при сообщении вспомогательного критерия яв- ляется корректным.
22] ДИНАМИКА В ИГРАХ ДВУХ ЛИЦ 249 § 22. Динамика в играх двух лиц Оговоримся сразу, что речь идет не о динамике в смысле описания рассматриваемой системы дифференциальными или разностными уравнениями, а о постепенном получе- нии и использовании информации; это и есть настоящая игровая динамика — динамика принятия решений. В §§ 16 и 18 рассмотрены крайние случаи информированности первого игрока о выборах второго. В настоящем пара- графе рассмотрим случай постепенного получения инфор- мации о компонентах вектора, характеризующего сво- боду выбора партнера [69]. Для удобства записи в этом параграфе будем обозначать через х = (х^ х2, . . ., хп) и У = (z/i, У^ • • • , Уп) факторы, выбираемые соответственно первым и вторым игроками, имеющими критерии эффек- тивности Wi = ft (х, у), i = 1, 2. Свободу выбора игроков в компонентах xt и у7 огра- ничим множествами Х° и У®, i, j = 1, . . ., п. Функции на Xj X . . . X Хп X У? X . . . X Yn будем полагать для простоты такими, чтобы все появляющиеся ниже верх- ние и нижние грани достигались. Это, в частности, будет, если все X? и У • — конечные множества. В § 16 предполагалось, что стратегиями первого иг- рока являются произвольные функции х (у); наоборот, в § 18 рассматривались только функции-константы. В настоящем параграфе стратегиями первого игрока яв- ляются более общие правила поведения. Обозначим через = (^, . . . , х^ и у7- = (у19 . . ., у7), i, j = 1, . . ., п, «урезанные» векторы хи у. Если ввести интервал запаздывания информации, то стратегиями пер- вого игрока будут любые функции вида xt i = 1, . . ., п, где yt_i при г I полагается просто кон- стантой. Для приведения стратегии к единообразному виду сделаем следующие простые преобразования факторов Ур Переобозначим все y^-i на у7 при j = I + 1, . . ., п. Далее, все yn_i+x при 1 к I объединим вместе и на- зовем Уп+i, при I = 0 уп+1 — просто какая-то константа. В новой индексации положим все уъ . . ., yi опять кон- стантами, чтобы подчеркнуть отсутствие влияния этих
2Й0 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ двух Лиц 1гл. III факторов на результаты игры. В таких обозначениях век- тор у — (ух, . . уп) не исчерпывает все, выбираемое вторым игроком, поскольку есть еще компонента уп^. Однако эта компонента остается до конца неизвестной первому игроку, а его стратегия приобретает стандартный вид Xi yi), i = 1, . . n, (3.53) причем £0, y0 — символы отсутствия аргумента. Наконец, введя компоненту хп+1, равную константе, мы можем учесть стандартным образом и номер i = п + 1. Обозна- чая вновь через п размерность построенных указанным образом полных векторов х и у, получим окончательно, что всегда при надлежащем выборе размерности и вида х = , хп) и У = (Ун • • •> Уп) можно считать стра- тегии первого игрока имеющими вид (3.53), т. е. рассчи- танными на выбор Xt при знании yt и Заметим, что стратегии первого игрока (3.53) могут быть представлены также следующим образом: Xj yi) = х} (yi), i = 1, . . п. Стратегия второго игрока на /-м ходу (1 п) — ком- понента Целесообразно рассмотрение нескольких ва- риантов игры, различающихся по возможностям, предо- ставляемыми второму игроку первым. Существенны, по- видимому, две из них: 1. Первый игрок сразу на все п ходов сообщает вто- рому свои стратегии — функции Xj (у j) (1 п), после чего для второго игрока выбор становится, по существу, одношаговым в смысле увеличения его выигрыша и состоит в «разумном» назначении вектора у = (у19 . . ., уп). Заметим сразу же, что множество стратегий первого игрока в рассматриваемой задаче является лишь частью аналогичного множества в теореме 3.13 в силу того, что Xj = xj (yj), но не Xj = Xj (z/). Последнее обстоятельство является отражением существенной многошаговости про- цесса получения информации и принятия решения первым игроком. 2. Первый игрок сообщает второму свои стратегии (функции Xj (yj) (!<:/<; п)) последовательно, т. е. только на очередной, /-й ход, когда будет выбираться yj. В этом варианте процедура принятия решений сторонами суще-
§ 22] ДИНАМИКА В ИГРАХ ДВУХ ЛИЦ 251 ственно многошаговая для каждой из них. В частности, второй игрок, выбирая на /-м ходу стратегию i/j, знает сложившуюся предысторию —у]_г и функцию (!</<«)• Займемся отысканием наибольшего гарантированного результата и оптимальной стратегии первого игрока в задаче 1, следуя работе [69]. Введем следующие вели- чины: Ln (х, у) = /2 (х, у); (Sj, У)) — = max min Lj+1 (^j+1, yj+1), 1; _ vo vo vj+l e y j+1 xj+l eAj+l . (3-54) (Zj-b y,) = {x*j I min Lj(Xj, y-) = L^, yh x])}, XjGEzXj (3.55) Ej Sj-1) “ {У-j I ^j-1» » У j) ~ ^j-i (^j-1, У]-1)}> 1 7 n; (3.56) Mn(x, у) = f^x, у); Mi Si) = inf_ sup Mj+1 (^-+1, yi+1), x-+1ex9+1 (3.57) В соответствии co сказанным выше сделаем предполо- жение о существовании стратегии xf г/j), реали- зующей max Му(^, yj) = yj, xf)f Xj^xj Lj (%j<) yj) Lq Lj Vi) > L1 У1) 1 7 yj) Z/j (Xj, yj) Lj-i (xpi, yj-i) 1 <7<w, (3.58) (3.59) Будем опять-таки (3 59) существует предполагать, что в области Dj точка (хЪ, yl, 4h у^, . . х^, у^),
252 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ |ГЛ. III реализующая _ s(up Mj(Xj, ffj) = Mj(a$, ylj, yfy, если Dj фф} — оо, если Dj — ф, 1 / n. (3.60) Пусть первый игрок предложил некоторую стратегию х (у) — {xj (th)', 1 7 п}- При выборе вторым игроком стратегии у = (уь у2, • • •> Уп) в 2п-мерном пространстве {х, у) определяется точка Ах (у) = {xt (уу), yv х2 (у2), у2, . . .,хп (уп), уп}. Обозначим Ln lx (у), у] = Ln [Ах (у)]. Пусть, далее, су- ществует непустое множество Y {х) стратегий у х такое, что Y (я) = {Ух | sup Ln [Ах (у)] = Lx = Ln [ Лж (Ух)]}. V Стремление каждого из игроков к увеличению своего выигрыша реализуется следующим образом: 1. При заданной первым игроком стратегии {xj, (yj); второй игрок выбирает любую стратегию у Е У (я), откуда следует, что участие второго игрока в процедуре взаимодействия (в игре) сводится к решению задачи оптимизации. 2. Первый игрок, выбирая {xj {yj); 1 п), стре- мится к реализации своего наибольшего гарантирован- ного результата, который обозначим W. При выбранной стратегии х (у) и у Е Y {х) справедливо неравенство L*x max Lj у,). (3.61) Действительно, предположение Lx < max Lj {Xj. yj) = = Lh {Xh. yk) противоречит выбору вторым игроком y&Y {х). так как из (3.56) следует, что выбором лишь yj Е Ej {Xj^19 yj-1), к + 1 п, второй игрок обес- печит себе выигрыш Ln {х, у) > Lk {Xk. yk). Пусть теперь стратегия {xf{yj); 1^/^п} такова, что Lx = £0; ничто не препятствует второму игроку в выборе любой стратегии yj е Ej {Xj^u ih-i), 1 < /
§ 22] ДИНАМИКА В ИГРАХ ДВУХ ЛИЦ 253 откуда в силу (3.57) W < М0. (3.62) Будем, далее, предполагать, что стратегия (z/7-); 1 п} такова, что L* > Lo. (3.63) При заданной стратегии {х; (z/7-); 1 п}, удовлетво- ряющей (3.63), определим множества Ух (х) и У2 (х): Л (*) = {у х s Y (х) I Ах (ух) (= Dn }, У2(^) = {у.х^У(х) |Аж(Ух)ё Dn}. (3-b4) Очевидно, У (х) = Ух (х) [J У2 (х). Если у х €= Ух (х), то в силу (3.60) W^Kn. (3.65) Если у х ЕЕ У2 (х), то в силу (3.61) Lx = max Lj($j, у7). (3.66) 1<3<П—1 В этом случае любые стратегии ух ЕЕ У2 (х) равноценны для второго игрока и реализуют Ln [Ах (j/x)] — Lx — Ls у$) — LS1(^8i, У• = (1<S<S1<S2< Sm< п — 1) Можно утверждать, что (3.67) У2(х) = 8=1 (3.68) где У| (х) — множество стратегий ух, для которых данный номер $ — наименьший в (3.67). Некоторые из классов У| (х), возможно, пусты. Пусть t — наименьший номер в (3.68), реализующий У2 (^) #= ф . Проведем оценку результата первого игрока в предполо- жении, что второй игрок выбрал произвольную стратегию ух S Уд (я). Пусть эта стратегия есть У* = (у\ Уг, • • Уь yl+1, Уп) и (3.69) Lx ~ Ъп (Лж (j/*)l = Lt (if, fjt),
254 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ лин (гл* ш причем в силу (3.66) справедлива система Lt (fit, yt) Lj 1 7 что в свою очередь в силу (3.59) означает у\) е Dt. (3.70) Рассмотрим стратегию 0 = Ы (1<7< 0; yj^Ej (Жу-!, у^); t+l^j^n}. Из определения Ej (Ж?-_ъ yj^) в (3.56) и вида у следует, Ln ($) > Lt $, yb = однако строгое неравенство противоречило бы оптималь- ности у'. С другой стороны, Еп [Лж (/))] = Lx = Lt (St, yt) означает, что z) б= У2 (*)• Предположение, что Ln [A ж(у)1 = = Lm (SSm, ут) при т < t, противоречит определению t. Таким образом, доказано, что ye y\(x). Из (3.57) следует, что применение вторым игроком стра- тегии у не обещает первому результата большего, чем Мп (х, у) = Mt yt), где в силу (3.70) (®t, yt) S Dt. Отсюда W < sup Mt (Xt, yt) = Kt. (3.71) (xf, yt)^Dt Произвольность стратегии {xt (yj); 1 n}, для ко- торой проводились рассуждения, означает, что 1 t п — 1. Последнее неравенство и соотношения (3.62), (3.65), (3.71) делают справедливой следующую оценку для W при произвольной стратегии {xj (уj); 1 -gC п} и оптимальном, в смысле своих интересов, поведении вто- рого игрока: W max { max Kj, Мо}. (3.72)
§ 22] ДИНАМИКА В ИГРАХ ДВУХ ЛИЦ 255 Перейдем к вопросу о реализуемости правой части (3.72). Стратегия Xj = я*, если ЕЕ Ej, 1 X j X п; Xj = xf, если Уг^Ег, х* = , а \Xj = Xj, 1</<р, ( Vj^Ej, 1 <7<р; I н если — г? [ Xj " Xj, р -J- 1 j' п, I ?/p+i G fipu, (3.73) гарантирует использование вторым игроком только Pi EE Ej, 1 п. Действительно, из вида х* и опреде- ления (3.56) следует, что при yj ЕЕ Ej (1 X jР) и ур+1 ЕЕ Ер+1 (0 р п — 1) выигрыш второго игрока есть Ln (х, у) < Lp (хр, ур), тогда как yj GE Ej, р 1 <Е 7 к, — 1, обеспечивает Ln (х, у) Lp (Хр, ур), что делает невыгодным для второго игрока на каком-либо шаге выбор у у Ё= Ej. С другой стороны, уверенность в том, что yj ЕЕ Ej, и вид х* гарантирует первому по (3.57) Мл (х*, у) MQ. Одновременно дока- зано и неравенство Стратегия W > Мо. (3.73') Xj = х®п, 1 j X п, если yj = у®п, 1 7 X п; Xj = xj, 1 j X n, если yi #= yin, Xj = x°n, l<j<p<ra, \yj = Vjn, н , . если i 0 Яу = Xj , p + 1 /X w, (I/p+1 7^ У p+1, n, (3-74) гарантирует использование вторым игроком только Уз = y°jn, 1 j п. Действительно, уг у°п либо У] = y°jn, К: Р п, и ур+1 #= Ур+1,п, в силу вида х**, обеспечивает второму игроку результат соответствен- но Ln(a**, y)^L0 либо Ln(x**, у) < Lp (Ж®, у°р), тогда как у} — у^п, 1 < л, в силу (3.59), (3.60) и вида х**, дает Ln (а:“, У) > max Lp (Х° у* ).
256 Гарантированный результат, игры двух лиц 1гл. ш Таким образом, применение х** гарантирует первому игроку Мп (Xin, у°1п, . . Хпп, Упп)=Кп. Следовательно,и W>Kn. (3.74') Для 1 j! п — 1 стратегия х> (см. стр. 257) гарантирует использование вторым игроком только Уа = Уа}, 1 =С а< 7, и уа е Еа, j 4-1 < а < п. Действи- тельно, уг Ф y°j либо уа = y°j, 1 а < т < у, и Ут+i =4= Ут+i.j, в силу вида ж3 и (3.55), обеспечивает второму игроку лишь Ln (х?, у) Lo либо Ln (х3, у) Lm (ж°3-, y[j . . ., Xmj, Ут}) соответственно, тогда как Уа = Уа}, 1 < а < 7, и Уа GE Еа, j 4- 1 < а < п, дает, в силу (3.59) и (3.56), Еп(х1, у) (ж®., у®.,...,ж», у».)> > max^max^ Lm(a:J., у».,.... х^., y°mj); Lo}. С другой стороны, У}+1Ё= Е}+1 либо Уа 6= Еа,, 7+1<а<иг<п, и ут+1 е Ет+1, в силу вида х1 и (3.56), обеспечивает второму игроку лишь Ln (х3, у) < < Lj (S°j, yj) либо Ln (х, у) < Lm (%т, ут) соответственно, тогда как уа S Еа, j + 1 «С а п, гарантирует послед- нему Ln (xj, у) > Lj ($, у*}), a уа^ Еа, т + 1 < а < п, гарантирует Ln (xf, у) Lm (хт, Ут)- Таким образом, второй игрок не допустит на каком-либо ходе выбора Уа ё Еа, j + 1 а п. Из гарантированности выбора вторым игроком у а — Уа}, 1 j, И уа S Еа, j 4- 1 а <1 п, вида стратегии ж3 и (3.60) следует, что применение ж3 гарантирует первому игроку Мп [х*, у] > > Кj', отсюда следует и неравенство W > max Kj. (3.75') 1 Соотношения (3.73')—(3.75') позволяют заключить, что W max { max Kj, Мо}, 1<}<п а это вместе с (3.72) означает W == max{ max Kj, Мо}.
§ 22] ДИНАМИКА В ИГРАХ ДВУХ ЛИЦ 257 Ю CQ е V/ V а sf £ V V/ V/ V/ d & 8 V + V у + — «ч. О £ с J-T' 8 с 8~‘ с 8^ bq 4 II ш II + 8 8 8 8 £ S S И ч Ч о о о ф ф ф <о 1—> V/ V V/ 8 й £ е V/ V/ V/ V/ V •<гЧ & & •чтН у + V у + £ о 8 л 8 И 8 О 8^ К 8 II II II II II 8 8 8 8 8 н V g 1 <; а <: /; < а < /; V/ у + • е. ^“Н + о 8- bf о е - Сц Г w т п, 1Ш ш ? - 8 к £ д । ч ' r*s н ч о ф . V т <^ п, если 4 ^С 1</< и И J i D у у/ V + V/ + t *'—1 ч-н Л £ 0 8^ К 8 О tP S3 8 й 8 II II II II II 8 8 9 Ю. Б. Гермейер II
258 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. Ш Таким образом, справедлива Теорема 3.30 [69]. Если первый игрок знает кри- терий эффективности второго и располагает множе- ством стратегий вида (3.53) и правом первым сделать выбор стратегии, то его максимальный гарантированный результат равен max {max Kj, MQ} при (3.54)—(3.60). Этот результат реализуется при использовании одной из стратегий (3.73), (3.74), (3.75). Не представляет труда убедиться, что задачи, решае- мые в «идеальной» игре § 16 и в § 18, являются частными случаями только что решенной. Действительно, идеальная игра соответствует случаю п = 1. Если же взять п = 2 и фиксировать х2 и уг, то получится игра § 18. Как уже отмечалось, теорема 3.30 охватывает и случаи произвольного запаздывания в получении информации. Что касается задачи 2 с постепенной передачей информа- ции первым игроком, то она, как показано в [70], пред- ставляет собой оадачу, аналогичную динамическому про- граммированию, построенную на последовательном при- менении теоремы 3.13. Действительно, пусть к моменту решения о выборе хп определились и уп^ и первый игрок ожидает информацию о уп. Тогда задача выбора хпиуп при критериях(Жп-1, хп, уп_19 уп), i = 1,2, впол- не подходит под теорему 3.13 при £2 = ^2 yn-i) = = max min #n, Уп-i, Уп) и соответствующем мно- ”п хп жестве £*2 = Е2 Обозначим максимальный гарантированный результат первого игрока в этой игре (по теореме 3.13) через /1"1 (Sn-i, ^-i), а рекомендуемую стратегию через хп (жп-1, Уп-ъ Уп)* Тогда определен и результат второго игрока /2”1 (Жп-1, Уп-i) в глазах первого. Переходя к ре- шению о выборе хп__г, мы вновь оказываемся в тех же условиях задачи о выборе хп_г и у?^ при критериях fi'1 (^п-2, хп-1, Уп-ъ Уп-1) и т. д. Таким образом и опреде- лятся рекомендуемые стратегии Xi yt-i, yt) при всех i от п до 1. Что касается максимального гарантиро- ванного результата, то для его вычисления придется провести процесс в обратном направлении, подставляя полученные стратегии для определения возможных yt
§ 22] ДИНАМИКА В ИГРАХ ДВУХ ЛИЦ 259 (или реализующих соответствующие К, или принадлежа- щих соответствующим Е2). Процесс упрощается, если предполагать (известную первому) осторожность второго игрока и его незнание интересов первого. Тогда в момент выбора x^_t ^Уп-i второй игрок не знает, как будет выбирать хГ) первый игрок, и в силу осторожности будет рассчитывать на худшее, т. е. на реализацию стратегии наказания и, зна- чит, на свой выбор из Е2 Уп-i)- Таким образом, здесь /2 Уп-1) ~ /7п-1)- Ясно, что и на любом шаге i, 1 i п — 2, выигрыш /2 будет равен соответствующему максимину L2 у^. Мы нс будем более подробно описывать этот процесс, отослав интересующихся к работе [70]. Здесь лишь отме- тим необозримость результата, несмотря на кажущуюся простоту процесса динамического программирования. Вто- рая задача также, конечно, опирается на теорему 3.13 и задачу § 18. Пример игры с п — 2 при фиксированных хг и у2 (которые можно поэтому опустить) приводит к игре fi (#2, Уъ\ i = 1, 2. Задача 1 этого параграфа вырождается в игру Г2, поскольку х2 (yi) сообщается второму игроку заранее, до выбора уг. Задача 2 при этом вырождается просто в случай, когда х2 «сообщается» в момент, соответствующий выбору гг2, т. е. уже после выбора уг. Таким образом, первый игрок не сможет здесь повлиять на выбор второго игрока и рациональной стратегией пер- вого будет обычная абсолютно оптимальная х2 (ух). Но абсолютно оптимальная стратегия при осторожном втором игроке (выбирающем уг по максимину) даст перво- му гарантированный результат, равный М (см. теорему 3.13). Но и при любом другом поведении второго игрока она даст не более того, что обещает стратегия теоремы 3.13, а обычно и менее. Таким образом, построен пример, когда задача 1 дает более выгодное для первого игрока решение, чем задача 2. Любопытным примером применения только что дока- занной теоремы могут быть повторяющиеся игры. Пусть рассматривается N повторений игры ft (х, у), i = 1, 2, причем в каждом повторении первый игрок будет иметь 9*
260 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. Ill информацию о выборе у. Таким образом, в пределах одного повторения верна теорема 3.13; будем предпола- гать, что К > М. Критерии за N повторений игры пусть n будут У dlfifxj, у^, i = 1, 2, причем d\ 0. В этих условиях, очевидно, по (3.54)—(3.60) для всех/, 1^7 ^N, имеет место D} = i N ^}(^ЬУ}) = 3 ^2/2 J/fc) + ^2 3 fc=l /C=j+1 Ej (%j-i, Sj-i) ~ E2, j N Mj (Xj, yj) = 3 <2i/i (^ь I/fc) м 2 ^i> k=l k=j+l 21 ^2/2 (#fc> Ук) k~i k=i d2f2 (%k, yk) L2 2 d2 1 k~2 Vi) К,= L2dl j fc sup 2j dih(#ьУк) + M 3 di, (Xj, Vj^Dj *=1 »=i+l — 00, Dj = ф. Заметим теперь, что условия в области DN удовлетво- ряются, в частности, при /2 (xk, yk) L2, 1 к N. Таким образом, область содержит область Dx . . . X D N раз Но тогда из-за Вф ф (К М) N kn = _ sup X4/i(^, Ук)> (Xj, yj)^DN ^=1 N NN >_sup 3 dlf^y^K 2 d*>M 3 d* = M0. (xk, yk)^D k=l k=l k=l l^k^N Аналогично видим, что условия в области Dn удовлетво- рены, если выполнены условия в области Dj и/2 (zh, ук) >
§ 22] ДИНАМИКА В ИГРАХ ДВУХ ЛИЦ 261 > ^2, 7 + 1 < * < Но тогда (К > М) N Kn> _ sup 51 yt) = (xy, l/y)(=Dy Z==1 (х^, N N = Kj- м 51 dl + к 51 4 > Kj. к=Ж к=Ж Таким образом, в данном случае DN =/= ф и максимальный гарантированный результат равен KN = А' = _ sup 51 Ук), причем VN^DN Zc==1 N N Dn = {(#, У) | 3 ^2/2 (%ki Ук) ^^2 S ^2, 1^7*^ • k=j k=j N Из проведенного анализа видно, что KN 'ХК У df. Это /с=1 означает выгодность, вообще говоря, планирования на ряд повторений сразу (долгосрочное планирование). Если положить все d% = 0 при к 1, то все D j = ф, 2 <Х j N, кроме Dt. Тогда и все Kj = —00, кроме Кг. Получаем парадоксальный вывод: максимальный гаран- N тированный результат равен Kr = d\K 4- М d![. По- fc=2 N скольку при dl 0 всегда имеем К 2 » то ви" /с=1 дим (К М) несправедливость предельного перехода при dk2 ->0. На самом деле и указанный результат неверен, посколь- ку при d} = 0, k 4> 1, все Ек yk-i) = X ... X X Y°n, 2 к N, кроме Е± (^0, у0) = Е2. Поэто- N му di *). Вот этот правильный ре- к=2 *) Здесь Xй — множество всех возможных функций, опреде- ленных на Kj X . . . X У^» со значениями в Xj X ... X X®N.
262 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ !ГЛ. Ш зультат находит свое объяснение в том, что второму игро- ку (поскольку его результат не зависит от xh и yh при к 1) безразлично, какие выбирать yh; выбор хг делается еще до получения информации об у2, . . ., у^ и не может повлиять на выбор этих yk, к^> 1. Итак, нельзя строить долгосрочное планирование с партнером, нисколько не интересующимся будущим. Стоит заметить, что введение зоны нечувствительности б2 сделает, видимо, предельный переход корректным (как в § 19); получится вывод о том, что долгосрочное плани- рование нельзя осуществлять с партнером, мало заботя- щимся о будущем. В заключение отметим разницу между только что ра- зобранной задачей и постановками задач в § 13. Здесь TV-кратное повторение игры рассматривалось как единая операция с едиными критериями без анализа устойчиво- сти. В § 13 критерии менялись от повторения к повторе- нию, отражая тем самым отсутствие связи с прошлыми повторениями. Если в задаче данного параграфа ставить вопрос об устойчивости решения, то придется или рассма- тривать N повторений как одно в новой игре, или же более детально разбираться в интересах нарушителя. § 23. Замечания Сравнивая содержание глав I и III, можно отметить некоторую противоречивость тезиса о невозможности полной формализации понятия рационального выбора с обилием весьма простых теорем, дающих точные резуль- таты в задачах о рациональном выборе. Однако это про- тиворечие кажущееся. Игры двух лиц, конечно, проще формализуются из-за отсутствия коалиционных сложно- стей. Поэтому было важно на этом примере продемон- стрировать простые исходные схемы для получения идей, которые уже затем можно использовать и в других, более сложных условиях. В частности, можно рассмотреть различные подходы к получению «приближенно опти- мальных» результатов. Остановимся на нескольких при- мерах, представляющихся практически довольно важными. 1. В главе I говорилось о необходимости введения порога чувствительности 6f как одной из характеристик поведения игроков. В ряде конструкций главы III такой
ЗАМЕЧАНИЯ 263 § 23] порог так или иначе учитывался. Особенно хорошо это видно на примерах теорем 3.16 и 3.22, где этот порог в виде е2 отнюдь не помешал получению точных результа- тов. Однако в большинстве результатов порог бг- или сов- сем не учитывался, или же учитывался со значительными оговорками, как в теореме 3.13. Между тем именно в по- следнем случае наиболее просто прослеживается влия- ние б2. Для этого стоит рассмотреть случай К М, который по-настоящему и заслуживает названия игры с непротивоположными интересами (оба игрока получают больше своих максиминов). Заменяя теперь область D па D$2 = {(хъ х2) | /2 (хъ х2) > L2 + б2}, получим, что первый игрок имеет при ф ф и (х*9 х2), реализующей sup (х±, х2) = гарантированный результат (Xi, зс2)еГ>52 К§2 — 8 при применении стратегии, аналогичной указан- ной в теореме 3.13. Этот результат будет, очевидно, наи- большим при К§2 — 8 М. Но даже и при отсутствии этого неравенства результат К§2 — 8 при небольших 62 явно заслуживает внимания, а соответствующая страте- гия первого игрока рациональна, особенно с учетом ее простоты. Заметим, что в играх с запрещенными ситуа- циями (теорема 3.6) введение б2 не нужно, поскольку используется угроза, что второй игрок не попадает в пре- делы Р2; в то же время в теореме 3.9 (как уже отмечалось по поводу теоремы 3.8) целесообразно ввести доверитель- ные вероятности, играющие здесь роль б2. Легко видеть также, какое большое значение имеет б2 при анализе устойчивости ситуаций равновесия. Действи- тельно, должны быть выполнены, очевидно, неравенства A (С ^) > L. [XJ + /2 (С > L2 [Х2] + б2, если (Я??, %2) — ситуация равновесия и Х19 Х2 — множе- ства выборов. В противном случае тот или иной игрок явно предпочтет более спокойное для себя максиминное поведение. Точно так же и в метаиграх (§ 20) следует ограничиться ситуациями равновесия, удовлетворяющими аналогичным неравенствам. Обратим еще внимание на то, что в только что обсуждавшейся модификации теоремы 3.13 никак не фигурировал порог чувствительности 6Г Но он, конечно, появится при обсуждении предпочтитель- ности того или иного поведения вблизи границы К = М
264 Гарантированный результат, игры двух Лиц [гл. nt и тем более вблизи границы М = Lr [X®]; в последнем случае, если М Lr +6!, первый игрок, конечно, пред- почтет обычное максиминное поведение. Кроме того, 6Х естественно определяет реальное г в теореме 3.13. 2. Важным практическим вопросом является модифи- кация теоремы 3.13 (и аналогичных результатов) на слу- чай неточной информации первого игрока о выборе #2. В полном виде этот вопрос оказался достаточно сложным, однако его приближенное решение довольно очевидно. Так, положив опять К М и максимальную ошибку в определении х2 равной Д, можно ввести = max min max /2 (#i, x2 + ц) x2ex2 II111КД как гарантированную оценку сверху максимина второго игрока с точки зрения первого игрока. Можно определить область Ds как аналог D при заме- не Л2 на L2. Однако этим не исчерпываются изменения, которые необходимо внести в описание стратегии первого игрока и его результата. Следует еще учесть ошибку в определении того, придерживается ли второй игрок х2 или нет. Поэтому соответствующая стратегия первого игрока имеет вид если || х2 — х2 || Д, Xi = , если || х2 — х21| > Д. Соответственно и гарантированный результат первого игрока при DA Ф ф будет не меньше min Д (х^ х2 + ц). При малых Д такое поведение, несомненно, рационально. Аналогичные изменения могут быть введены и в другие теоремы, в которых учитывается информация о выборе х2. Заметим, что если /2 (х^ х<^ имеет седловую точку, то стратегия наказания может быть заменена на х*, реа- лизующую min max/2 (хъ х^. Поскольку х™ не требует х2 информации об х2, то здесь не требуется и замена L2 на L2. Учет же Д в остается, конечно, необходимым. 3. Не представляет труда исследование вопроса об ус- тойчивости по повторениям в конкретных играх двух лиц. Это особенно важно в такой постановке, потому что
§ 23] ЗАМЕЧАНИЯ 265 устойчивость по каждому игроку в этом случае есть уже исчерпывающая устойчивость. Она необходима, напри- мер, при более подробном исследовании ситуаций равно- весия в метаиграх, поскольку эти ситуации (как уже го- ворилось), как правило, являются, нестрогими и, значит, не обеспечивают должной устойчивости. Хотелось бы, конечно, чтобы устойчивость была обес- печена при малом числе наказывающих повторений, на- пример при одном. Неравенство (2.66) применительно к ситуациям равновесия как коалиционным решениям выполняется автоматически при любом 8 < 1, если, конечно, 0 0 и fi (£i, г2) > Lf [XJ. Это означает обеспечение строгой устойчивости уже при одном нака- зывающем повторении. Запас устойчивости можно оце- нивать величиной разности fi — Lt, Интересно выглядит обеспечение устойчивости наи- большего гарантированного результата первого игрока. Он заведомо устойчив, если второй максимизирует свой результат в каждом повторении (т. е. если коэффициент дисконтирования 0 = 0 или г2 = 0). В случае, когда первому игроку точно известны выбор х2 и интересы второго игрока, его результат устойчив и при любых ха- рактеристиках дисконтирования второго игрока, посколь- ку первый всегда может наказать второго уже в одном повторении игры. Что касается второго игрока, то его результат именно в этом случае не может считаться устойчивым. Действи- тельно, если второй (при К М) примет х2 ~ х%, то первый, нарушая свое обещание, может выбрать точку xlf реализующую max /х (х19 х^), и тем самым уменьшить выигрыш второго: /2 (х19 х2) < Л2. Такой некорректный обман обнаруживается после данного повторения, и поэтому у второго игрока (при r^Ond^Oy первого игрока) появляется необходимость обеспечить устойчи- вость по повторениям.’ Используя (2.52), выпишем условие устойчивости рв’- зультата второго игрока: (К — 8) (1 + rxd) > max /1 (rti, х%) + 7\dL2,
266 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ 1ГЛ. Ill Если это условие не выполнено, то второй игрок может ожидать нарушений со стороны первого. Поэтому он, видимо, не согласится на реализацию К — 8 и будет выбирать х2 €= Е2. Во избежание этого первый игрок или должен убедить второго, что r±d велико, или отыскать пару точек (хъ Е=. D такую, что /1 (*i, *г) > М, Л (xj, Ъ) (1 + rxd) > > max /i (Xi, х2 — 8) + ridL2. Такая пара, конечно, всегда найдется, если в игре на Xi X Х2 существуют 8-ситуации равновесия, для кото- рых результаты обоих игроков больше, чем соответствен- но М и Л2. Если же такой пары (хъ х2) нет, то, видимо, первый игрок неизбежно обратится к реализации резуль- тата М вместо К. Остается сказать несколько слов вообще об обеспече- нии устойчивости коалиционных решений. Поскольку неопределенных факторов (или других игроков, кроме двух) нет, то пропадают многие трудности, отмеченные в § 13. Условия (2.61) и (2.6Г) совпадают, а теорема 2.12 соответственно упрощается. Условия (2.66) приобретают характер условий, достаточных для полной устойчивости, если только rx, r2 1; их легко использовать для каждой конкретной игры и конкретного компромисса. Стремле- ние к минимизации необходимого числа повторений сво- дится, исходя из (2.56) с учетом (2.62) и (2.63), к миними- зации - max /i (хъ — Li [XJ max /2 (*с1, х2) — L2'[Х2]- maxL Жг ^c2)-£i ; J’ где (хс11 хс2) — коалиционное решение. Если (хс1, хС2) соответствует максимизации критерия (1.45) при = Lf, то задача о выборе коалиционного р с точки зрения наи- меньшего числа повторений для наказания при максими- зации по х (1.45) может быть приведена к следующему виду: максимизировать по р критерий — min Г ~ ^2 1 max / j (®i, х ) Lx ’ max /2 (х х2) — L2 L Xi Xt -J
§ 23J ЗАМЕЧАНИЯ 267 при условии, что пара (хс1, #с2) максимизирует второй критерий w2 = min {Pt [Д (xcl,arc2) — LJ; p2 [/2 (xcl, zc2) — L2I}. Таким образом, имеем полную аналогию с задачами § 18. Поскольку здесь фигурирует лишь один игрок (коалиция, выбирающая р), то эту задачу можно интерпретировать как игру двух лиц в предположении о доброжелательно- сти второго игрока. Все, что сказано по этому поводу в § 18, переносится, конечно, и на рассматриваемую зада- чу, делая ее не слишком трудной в конкретных условиях для численного решения на ЭВМ. Еще более простая задача о выборе устойчивого кол- лективного решения получается при использовании кри- терия (2.70). В случае игры двух лиц он, конечно, вы- глядит заведомо перестраховочным, однако простота за- дачи может искупить все. При совпадении интересов мак- симизация критерия (2.70) дает точный результат г° 4- 1 = 1. Это наводит на мысль считать значение max wc по (2.70) мерилом степени совпадения интересов. Х1, хг Для игр двух лиц (2.70) приобретает вид w = min Г_____. с max /i(v) —-Li ’ max /2(</) — vex°xx° Если интересы противоположны и есть седловая точка, то max we = 0. Итак, коэффициент, отражающий степень X совпадения интересов, меняется от 0 (антагонизм) до 1 (полное совпадение). 4. Повторение игр может быть использовано не только для обеспечения устойчивости результатов. Важной про- блемой является проведение в процессе повторений эк- спериментов с целью выявления неизвестных интересов второго игрока с последующим использованием так полу- ченной информации. Разработка эта проблемы, весьма аналогичной проблеме адаптации к случайным услови- ям 171], только что начата; несмотря на наличие резуль- татов [85], мы не будем обсуждать ее подробно, это дело будущего. Здесь же ограничимся одним любопытным частным случаем, по существу, обобщающим теорему 3.3 § 14.
268 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. Ш Пусть первый игрок не знает /2 (#i, ^2), но тем не менее располагает стратегией наказания xf (например, не давать побочный платеж или ресурсов или назначить нулевые цены в модели (1.17)—(1.18) при неизвестных (ц). Эта стратегия наказания при векторном х± может быть и ча- стичной, реализуя, например, min /2 (хъ хъ я2) при любых xi фиксированных хг и х2 (примером могут служить побоч- ные платежи). Будем предполагать, что второй игрок в каждом по- вторении игры стремится максимизировать свой-резуль- тат, если только ему за это не угрожают наказанием в по- вторениях. Рассмотрим два варианта информированности первого игрока о выборе х2: а) достаточно точно известен выбор х2 уже в процессе одного повторения, и можно в случае необходимости здесь же использовать б) выбор х2 в данном повторении становится известным к началу следующего. Опишем последовательность экспериментов, которая дает, по существу, возможность узнать о функции/2 (х19 х2) все, что нужно для последующей реализации К по теореме 3.13. Величину Lr [Х®] для краткости обозначим введем также К ~ sup /1(^1, х2). XiGEXj Рассмотрим сначала вариант а) с полной стратегией наказания. В первом повторении первый игрок сообщает тем или иным способом второму ограничения Сх = 1 — = {х^ x2\j1 (rr1, zr2)> у {К + Ly) = 7\}, в пределах которых предлагает указать второму любую точку (^i, я£). Если второй это выполнит, то первый обещает взять хх — при условии, что второй возьмет xl; в остальных случаях первый предупреждает об использовании стратегии нака- зания и действительно ее применяет. Результат первого испытания может быть двояким: 1) второй игрок указал некоторую пару (х\, х\) Е= С±
§ 23J ЗАМЕЧАНИЯ 269 и остановил свой выбор на х\\ это означает *), что Сх р| Q D 0 0 и 7Г 7\; 2) второй игрок не выбрал точки из Сг; это означает, что С\ р| D = ф. Если рассматривалась первая альтернатива и если первый игрок почему-либо удовлетворен результатом Тъ то он в дальнейших повторениях может выбирать за- ставляя второго также выбирать х2. Если же он хочет про- должить поиски, то в следующем повторении он возьмет 1 —- Т2 = — [1\ + К] и повторит тот же эксперимент, заменив Т\ на Т2, этим определится область С2 и (я?, xf) при С2 р| Q D Ф ф или выбор второго из множества Е2. При второй альтернативе эксперимент на втором пов- торении проводится с Т2 = — [7\ + Лх]. Дальнейшие экс- перименты производятся аналогично. Очевидно, что | Тг — — Тг+11 = —^-j—- . Если Тi будут монотонно увеличиваться, то К — = — , если же монотонно уменьшаться, то л - м = Во всех случаях процесс прекратится тогда, когда ---:—- Si, поскольку дальнейшие измене- ния результатов уже неинтересны для первого игрока. Для этого потребуется jjog2 +1] шагов. После этого, если Т} не все время монотонно уменьшалось, пер- вый игрок остановится на результатах последнего экспе- римента, в котором Cj Р| D Ф 0, и в дальнейших повто- рениях достаточно точно реализует К, выбирая х\ и застав- ляя второго выбирать х{. Если же Тг все время монотонно уменьшалось, то первый обоснованно приходит к выводу о том, что К (так как область (р р> f2 0> L2) практически пуста), и переходит в дальнейшем к использо- <• ~а ванию стратегии х19 которые реализуемы из-за наличия информации о выборе х2. *) Предполагается для простоты, что при Cr Q D = ф второй игрок ограничивается спокойным выбором х2 $=. Е21 не выбирая бесполезного для него хг.
270 ГАРАНТИРОВАННЫЙ РЁЗУЛЬТАТ, ИГРЫ ДВУХ ЛИЦ [ГЛ. Ш Конечно, могут проводиться и эксперименты с реали- зацией М, но они носят более условный характер. Именно, если по ходу экспериментов второй игрок выбирал из мно- жества Е2 точки . . ., ^2, то, предположив, что эти значения исчерпывают £2, первый игрок может требо- вать в дальнейшем у второго оставаться на одном из этих значений под страхом наказания. Если такой экспери- мент удается, то первый переходит на £*, требуя, чтобы второй игрок не покидал А2, и реализует М. Если же экс- перимент не удается, то, значит, множество Е2 полностью не определено и нужно учесть новое значение х2 ЕЕ Е2. Теоретически при бесконечном Е2 эксперимент может про- должаться бесконечно, что, очевидно, бессмысленно, если ~н ~а не является одновременно хх. Разумеется, эксперименты могут проводиться и не только методом половинного деления. Можно сразу раз- бить интервал [Lu А] на подинтервалы длиной б! и после- довательно производить испытания при Tt — К — или Тi = L± + и закончить их, как только результат экс- перимента изменится. При частичной наказывающей стратегии выбор х[ может осуществляться случайно с равномерным распреде- лением. Если второй игрок не согласен на случайное осред- нение в повторениях и осторожен, то процесс будет про- текать так же, как и в случае полной наказывающей стра- тегии. Если же он согласен на осреднение, то он будет исходить из критерия = j/2 (^, х{, x2)d6(x'1) при со- ответствующем увеличении своего Ь2. Это, естественно, уменьшит область D и выигрыш К первого игрока. В ос- тальном процесс будет происходить так же и начинаться с предложения первого второму выбрать (х^ х[, х2). Рассмотрим теперь вариант б), когда информация об х2 поступает только после реализации повторения. Тогда первый игрок может грозить только наказывающими пов- торениями, в то время как у второго появляются три аль- тернативы: 1) указать (#}, х£) из предлагаемой области и придер- живаться выбранного х2, если, конечно, Ci f] D Ф ф\ тогда в следующем повторении наказания не будет; 2) указать х2 ЕЕ Е2, если С± Г) D = ф, не опасаясь наказания в повторении, так как оно ничего не изменит;
ЗАМЕЧАНИЯ 271 § 23] 3) указать (хг19 z2) независимо от того, будет эта точка принадлежать Ct Q D #= ф или нет, сообщить ее и за- тем нарушить х2, взяв другое значение. В первых двух случаях первый игрок будет вести себя так же, как и раньше, переходя к следующему испытанию. Правда, перед этим во втором случае первому игроку сле- дует, видимо, осуществить наказание как с целью провер- ки поведения второго игрока, так и в подтверждение своих угроз. Второму игроку в таком случае нет смысла смешивать второй и третий варианты, так как этим он только может отдалить выгодное для него уменьшение Т, Как только выяснится несовместимость /3 Ъ- Lr и /2 > L2, первый на- чинает реализовать Lr. Наибольшую опасность представляет собой третий вариант, много обещающий второму игроку в одном повто- рении. Если второй игрок абсолютно не учитывает будущее, то он выберет этот вариант и тем самым пол- ностью перечеркнет процесс узнавания, поскольку далее последуют наказания, которые ничего здесь не выя- сняют. Если второй игрок достаточно боится будущих наказа- ний, то угроза безграничного наказания может, естественно, не дать ему возможности выбрать этот путь. Разумеется, здесь может начаться и «война сил и нервов», означаю- щая просто реализацию антагонистической игры с крите- рием /2 (х19 х2), Достаточно долгое повторение ее приведет или к переходу первого на реализацию (он сдался), или же к самостоятельному предложению вторым игроком взять (<Г1, я?) £= П D и уже не нарушать xl (но он мо- жет и опять обмануть!). Итак, видно, что при несвоевременной информации о выборе х2 процесс будет благополучно продолжаться, если второй игрок осторожен и достаточно учитывает бу- дущее. Иначе у первого игрока уверенности в правильном протекании процесса не будет и процесс может выродиться в «войну». Тем самым довольно убедительно, хотя и не очень строго подтверждается мысль о том, как важна информация о выборе гг2, когда неизвестен критерий /2 Ом» х2)’ Сказанное имеет смысл сформулировать в виде утверждения, принимая в качестве исходного условия
272 ГАРАНТИРОВАННЫЙ РЕЗУЛЬТАТ, ИГРЫ ДВУХ лиц [гл. ш , он предположение *) о выборе вторым только из Е2 при Ci П D = ф. Теорема 3.31. Если первый игрок будет иметь своевременную информацию о выборе х2 и знает полную стратегию наказания второго игрока, не зная его f2 (x-i, #2), log2 —_—I 1 может определить достаточно точно точку (хх, х2), кото- рая реализует К, или убедиться в целесообразности ис- пользования стратегии Разумеется, здесь не утверждается оптимальность это- го поведения. Однако, если ожидаемое число повторений игры весьма значительно превышает указанное число пов- торений и первый игрок суммирует все эти * повторения с коэффициентами дисконтирования, близкими к 1, то ука- занное поведение первого игрока, несомненно, рациональ- но, обладая всеми признаками асимптотической неулучша- емости. Оно в соответствующих условиях может дать зна- чительно лучший суммарный результат (если К М), чем бесконечное повторение поведения, рекомендуемого теоремами 3.15—-3.17. Следовало бы также несколько уточнить только что доказанную теорему за счет использования информации, содержащейся в условиях этих теорем. Так, если известно cz D cz Z>2 (теорема 3.15), то К следует определять, максимизируя Д только по jD2 , а вместо Lr можно взять max Щ; max Д). Это сужение априорных границ измене- * Di ния Т соответственно уменьшит и необходимое число экс- периментальных повторений. Аналогично может исполь- зоваться и информация, имеющаяся в других теоремах, хотя бы уже потому, что дает возможность получить оцен- ки Di и D2 . Описанная «адаптация» к партнеру не может, видимо, использоваться в игре с природой (ввиду неясно- сти смысла наказания), хотя это и требует уточнения. Процедура адаптации, несомненно, усложнится, если второй игрок также склонен экспериментировать, надеясь *) Отказ от этого предположения, вообще говоря, увеличит потребное число экспериментов. Однако этого не произойдет при доброжелательности второго игрока.
§ 23] ЗАМЕЧАНИЯ 273 на улучшение суммарного результата. В соответствующей проблематике существенное значение будет иметь также взаимная информированность о «глубине» заглядывания в будущее. Равноправие партнеров в смысле отсутствия права первого хода в каждом повторении еще больше осложнит проблему, исследование которой имеет несом- ненное теоретическое и практическое значение. В заключение отметим случай, когда критерий первого игрока (rq, х2) дискретен, т. е, принимает лишь s значе- ний. В этом случае число потребных экспериментов рав- няется s —1. В частности, если 5 = 2 (у первого игрока критерий качества), то все решается за одно повторение и теорема 3.31 превращается здесь в отмечавшееся ранее прямое обобщение теоремы 3.3 на случай произвольной функции /2 (zlf х2).
ГЛАВА IV НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ § 24. К теории игр трех лиц Результаты творцов теории кооперативных игр приме- нительно к случаю игры трех лиц уже многократно изла- гались (см. [1], [5]). Отметив указанную в § 12 неустойчи- вость соответствующих дележей в играх без повторений и необходимость поэтому учета сказанного в § 13, здесь укажем другие направления исследований, связанные с принципом гарантированного результата в иерархизо- ванной игре и с ситуациями равновесия в метаиграх. В «классической» теории, при широте общего определе- ния игры, недостаточно внимания уделяется вопросу о по- рядке ходов игроков и о взаимной их информированности. Кроме того, чрезмерное стремление к созданию «объектив- ного» (одинаково устраивающего всех игроков) понятия решения также обедняет исследование игр. В то же время ясно, что на практике обычно исследование ведется отдель- но в интересах того или иного игрока, а не всех игроков одновременно. Поэтому представляется важным продол- жить изучение того, что может дать применение принципа наилучшего гарантированного результата для игрока, де- лающего ход первым; тем самым продолжается изучение операции этого игрока. В главе III этот подход был при- менен к исследованию неантагонистических игр двух лиц, при этом, в частности, получены результаты, говорящие о целесообразности передачи первым игроком информации о своей стратегии второму игроку. В настоящем параграфе делается попытка перенести этот подход на игры трех лиц в некотором определенном случае взаимной информированности игроков и порядка их ходов. Именно, пусть wt — fa (х19 х2, х3)9 t = 1, 2, 3, есть выражение — критерия эффективности f-го игро- ка при отсутствии коалиций. При наличии коалиций выра-
8 Z4J К ТЕОРИИ kirp ТРЕХ ЛИ1£ 273 жение wi9 конечно, меняется, и это будет оговариваться особо. Мы полагаем, следовательно, что i-й игрок желает получить по возможности большее значение критерия эф- фективности и что у него нет иных желаний в рассматри- ваемой игре. Будем полагать также, что первый игрок имеет точную информацию о выборах х2 и х3 и в то же время делает пер- вый ход, выбирая свое поведение (стратегию). Эта страте- гия представляет собой правило поведения = хг (х2, х3), которое он сообщает остальным игрокам. В отличие от игр двух лиц, эта информированность второго и треть- его игроков не приводит еще к достаточной определенности их поведения, поскольку пока никак не указаны их вза- имоотношения и взаимная информированность (при нали- чии взаимозависимости значений критериев). Не ставя пока задачи рассмотреть все возможные варианты, остановим внимание на нескольких. Случай 1. Жесткая коалиция второго и третьего игроков, т. е. случай, когда они действуют совершенно согласованно (и это заранее точно обусловлено) при любых действиях первого игрока. Это означает, что у них из кри- териев w2 и ip3 образован тем или иным способом общий (коалиционный) критерий ^23 = /23 Ой, ^2» хз) и они сооб- ща выбирают вектор Ой, х3). Тем самым они представляют собой, по существу, одного игрока, и если первый игрок это знает (не обязательно точно зная ^2з)> то для него дан- ный случай оказывается эквивалентом игры двух лиц, уже рассмотренной в гл. III. Простейшим примером такой ситуации является обра- зование коалиции по Нейману с побочными платежами, когда ^23 ~ fi Ой, Хз) + /з Ой, Хз)‘ Здесь поведение и наилучший гарантированный резуль- тат первого игрока не зависят, очевидно, от того, как бу- дет делиться выигрыш между вторым и третьим игроками. Результаты же игры для них определятся обусловленным заранее способом дележа суммарного результата ко- алиции max [/2 (ж? (ж2, ж3), ж2, ж3) + /3 (ж? (ж2, ж3), ж2, ж3)], х2, х3
НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ 1ГЛ. IV где (х2, х^) — рациональное, в смысле теоремы 3.13, поведение первого игрока. Случай 2. Второй и третий игроки могут нахо- диться или в известной первому игроку коалиции, или действовать индивидуально, если таким образом можно получить результат больший, чем дает коалиция. Поло- жим также, что каждый из них сам по себе не имеет инфор- мации о ходе другого (можно, конечно, рассмотреть и иные случаи). Порядок ходов второго и третьего игроков будем полагать задающимся первым игроком по своему усмотре- нию. Второй и третий игроки могут знать или не знать функций /3 и /2. Введем L2 = max min /2 (хг, х2, #3), х2 х3 L3 = max min /3 (я^, х2, х3), Хз Xi, х2 и множества Е2 и Е3 соответственно точек х2 и х3, в кото- рых реализуются £2 и L3. К коалиции предъявим следую- щие естественные, но жесткие требования: а) при соответствующем выборе (х2, х3) она обеспечи- вает при любых х1 получение коалиционерами значений w2 и w3 больших, чем Ь2 и L3 соответственно; б) увеличение w23 ведет к увеличению w2 и ш3, значения которых при рациональных совместных действиях одно- значно определяются zz?23; так, например, обстоит дело в коалиции с побочными платежами, если фиксирован принцип дележа. Для (2.68) при максимизации по х это будет верно при дополнительных предположениях; в) коалиционеры не могут получить по отдельности и независимо друг от друга одновременно результаты не худшие, чем получают в коалиции, если первый игрок дей- ствует, минимизируя /23; это важное требование означает, что коалиция хороша для ее участников именно в тяжелых для коалиции условиях. Введем также обозначение L23 = max min /23 (rq, x2, x3), X2, X3 Xt и пусть L2 и L3 суть w2 и w3, которые соответствуют L23 в силу б). В этих обозначениях требование в) означает, что коалиционеры не могут надеяться получить больше, чем
§ 24J К ТЕОРИИ ИГР ТРЕХ ЛИЦ 277 L2 и £3, если первый игрок реализует min /23 (<г1? х2, я3). Если второй и третий игроки придерживаются вне коали- ции принципа гарантированного результата, не имея ин- формации о ходах друг друга, то это способствует выполне- нию в). Пусть, далее, в игре двух лиц с критериями и /23 наилучший гарантированный результат первого игрока есть К19 а соответствующая стратегия (При этом обес- печено какое-то значение й?2з, которому соответствуют 1Р2 = Ь2 и ы3 = £3.) Далее введем множества £^2 (*3) {(^1> ^2)1/2 (*^1> ^2» ^з) £2}» Z?2 = {(^1> ^2> ^з)1/2 (#1, ^2> *з) £з5 /з (^1> ^2> *з) £3} и совершенно аналогичные D3 и D3. Определим также величины sup/1(^1, ^2, Х3), D2 -- ОО, £2 =# Ф •> D2 = ф, min sup /1(^1, ^2^з)> Хз^Ез . " (xi, х2)еВ2(Хз) £2=/= Ф при всех ^3Е £’3, — оо, D2 = ф хотя бы при одном Х3ЕЕЕ3. Аналогично определяются и К39 К3. Введем еще и соответствующие точки, реализующие К29 К2, К3, К3 (может быть, с точностью до е): (Ъц, 2Х2, 24), (2А (^3), 24 (хзУ) = ^2, (3^1? 3^2, Зх3), (3^ (гг2), Зх3 (х2)) = Х13; например, х12 реализует при любом х3 ЕЕ Е3 sup Д (^х, х2, х3) == sup /i (^х, х2„ х3\ h{x\, х2, x3)>L2
278 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV Пусть £™ реализует min /23 (х19 х2, х3), а £”2 = [xi (х3), Х1 ^2 (х8)] реализует min /3 (хх, х2, х3). Аналогично опреде- ли, Хг ляется и £i3. Теорема 4.1. Максимальный гарантированный ре- зультат первого игрока равен max [ZCl, К2, К2, К3, К3] = Ко, Если Ко = К19 то Ко реализуется при сообщаемой вто- рому и третьему стратегии первого игрока, равной когда второй и третий игроки составляют коалицию, если нет — то равной х™. Если Ко = К2, то этот результат реализуется при следующей стратегии £х первого игрока: £1 = 2х19 если х2 = 2х%, х3 = 2яг3, £i = xf (х3), если х3 2х3, х2 = xl (х3), причем первый игрок своевременно сообщает второму зна- чение х3. Наконец, £i = £™, если х2 2хг, х3 = 2ж3 или х2 Ф х2 (я3), /yt I. Z-« 2 /V» •Tg =7= При этом первый игрок не сообщает х3, Полная стратегия £х сообщается второму и третьему игрокам. Если KQ = Ki, то Ко реализуется при £i = 2х2 (х3), если х2 = 2х2 (х3) и х3Е Е3 (при этом первый сообщает второму информацию об х3), £1 = х? (х3), если х2 = х^ (rr3) и ^3 ё Е3, в остальных случаях. Второй и третий игроки опять информируются об £[. Аналогично определяется хг при Ко = К3 и Ко = К3, Доказательство. 1. Определенная выше стратегия £г гарантирует полу- чение KQ. Действительно, при К3 = К± это следует из теоремы 3.13, если второй и третий игроки составляют ко-
§ 24] К ТЕОРИИ ИГР ТРЕХ ЛИЦ 279 алицию. Но если они ее не составляют, то, согласно а), б) и в), при г-l они проиграют по сравнению со случаем, когда они составят коалицию. Если Ко — то второй игрок выберет х2 = 2х?, а третий х3 = 2х3, и тогда будет обеспечено KQ. В самом деле, отказ второго игрока от предписанного ему поведе- ния, в силу г™, и в), не дает ему получить больше, чем L2. Но если второй игрок выполнит предписание, то и третий должен выбрать х3 = 2х', ибо иначе, в силу использова- ния первыми вторым он получит не более L3, в то вре- мя как при послушании имеет возможность твердо рас- считывать на большее (он получает информацию о страте- гиях первого и второго игроков!). Если KQ = Z2, то совершенно аналогично убеждаем- ся, что точка х3 должна находиться в Е3, а второй игрок при этом придерживается 2х% (х3). Но тогда первому игро- ку, очевидно, обеспечено К%. Аналогично доказываются и остальные случаи. 2. Докажем, что любая стратегия — х1 (х2, х3) га- рантирует первому игроку не более Ко вне зависимости от того, какую информацию он сообщает. Действительно, если второй и третий при этом действуют в составе коали- ции, то первый игрок не получит гарантированно, в силу теоремы 3.13, более, чем Ks Если коалиция не бу- дет создана, то это может быть лишь при таких х2 и х3, когда хоть один из этих игроков получит больше, чем рантированно дает коалиция, т. е. больше, чем Ь2 или L3. Пусть таковым будет второй игрок. Тогда третий или по- лучает больше, чем Л3, или ровно L3 (меньше он получить не может, поскольку всегда может взять х3 GE Е3). В пер- вом случае (х2, х3), х2, х3] ЕЕ D2, а тогда результат пер- вого игрока не выше К2 К$. Во втором случае третий игрок может выбрать любое х3 из Е3, Второй игрок при таком выборе х3 рассчитывает получить больше, чем Д>. Это означает (может быть, и при получении от первого иг- рока информации об гг3), что х2 таково, что выполнено /2 (*^1 (^2 ’ *з), *^2 5 *3) > ^2? но тогда (яц (х2, #3), х<^ ЕЕ Z)2 (я3), а поэтому первый игрок га-
280 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV не может получить больше, чем дает #12, а в силу произ- вольности х3 GE Е3 не может гарантированно получить больше К2 Кq. Аналогично дело обстоит и в случае, если третий игрок получает больше, чем в коалиции, т. е. больше L3. Теорема доказана. Замечания. 1) Гарантированный результат первого игрока, вооб- ще говоря, меньше в случае жесткой коалиции, ибо тогда он равен KL. 2) Если предполагать, что при отсутствии коалиции второй и третий игроки придерживаются принципа гаран- тированного результата и самостоятельно не имеют ин- формации о ходах друг друга, то требование в) можно опустить, равно как и требование об установлении порядка ходов второго и третьего игроков первым иг- роком. Действительно, при этом наказание, например, второ- го игрока (при отсутствии коалиции) может состоять в том, что ему будет сообщена не информация о поведении другого игрока, а функция реализующая минимум /2 (х1ч х2, х3) при любых х2 и х3. Поскольку выбор х3 неиз- вестен, то второй игрок гарантированно может получить лишь Ь2 Это наказание годится при любом порядке ходов, фиксированном или нет. Если же игроки составля- ют коалицию, то их наказывают по-прежнему с помощью х™. В этом случае годится, видимо, и наказание с помо- щью безразличия или антагонизма в сообщаемой целевой функции (§ 21). В этих же предположениях можно рассмотреть и слу- чай, когда априори известно, что игроки вообще не обра- зуют коалиции. Тогда нужно лишь опустить Кг и всюду заменить и L3 на L2 и L3, что приведет к расширению соответствующих областей и, значит, к увеличению соот- ветствующих К. По здравому смыслу, казалось бы, нуж- но ожидать увеличения гарантированного результата пер- вого игрока, однако это не очевидно ввиду отсутствия в выражении Ко члена Кг. Случай 3. Первому игроку неизвестно, какую цмеццо коалицию могут образовывать второй и третий
К ТЕОРИИ ИГР ТРЕХ ЛИЦ 281 S 24] игроки. Будем считать ее не жесткой, без побочных пла- тежей и удовлетворяющей лишь следующим условиям. а) Коалиция обеспечивает при разумных ее действиях получение игроками не менее Д и L3. Это означает, что коалиция всегда выбирает х2 и х3 так, что /2 (-Tj, х2, х3) />2, /3 (зц, х2, х3) L3. Для дальнейшего в связи с этим отметим область £>* = {(^2, х3) | min /2 > Л2, min /3 > Л3}, в которой первый игрок никак не может гарантированно воздействовать на остальных. б) О коалиции известно еще, что она гарантирует вто- рому игроку (при наихудшем поведении первого) получе- ние результата, не большего L2, а третьему — соответст- венно не больше L3- Ясно в силу отсутствия побочных платежей, что L2 max min /2, L3 max min /3. (X2, X3) X1 (x2, x3) Xi Поэтому, если сведений о коалиции (кроме отсутствия побочных платежей) вообще нет, то L2 и L3 как раз и рав- ны указанным максиминам (в случае достаточно точных сведений L2 = L2, L3 = L3). в) Как и ранее, будем считать, что второй и третий игроки и вне коалиции не могут рассчитывать получить больше, чем Л2 и Л3, если первый игрок этого не захочет. В случае L2 = max min /2 и аналогичного L3 это очевид- но, а в остальных случаях это требование заведомо вы- полнено для осторожных (второго и третьего) игроков, если они не имеют информации о ходах друг друга. В ос- тальном первый игрок ничего о коалиции не знает и по- этому может встретиться с любым способом действий вто- рого и третьего игроков в пределах условий а) и б). Введем теперь величину М* — min max (xlf х2, х3) (х2, x3)eD* Xi и реализующую max Д (х19 х2, х3) абсолютно оптимальную Xi стратегию В качестве «наказывающих» стратегий
282 некоторые игровые модели для многих ЛИЦ [гл. IV будем использовать xf, реализующую min min l/2 — L2; Xi f3 — Z3], Ti, реализующую min /2, rj, реализующую Xi min /3, и, наконец, #?2 и ^1з» указанные выше. Xi На основе Л2 и L3 (вместо Z2 и L3) введем области Z)2> D2* (х3), D3, D3* (х2), аналогичные D2, D2 (х3) и т. д. На этих областях также введем К2, К2 , К3, К3 и реали- зующие их точки (&, 2Х*2, 24), = (2Xi (Х3), 24‘ (Ж3)), (3xJ, 3Х2, 3Xg), г"'3- Теорема 4.2. Наибольший гарантированный ре- зультат первого игрока в сформулированных условиях равен KQ = max [М*, К2, К2, К3, К3']. Если К3 = М*, то KQ реализуется на стратегии f Zi, (х2, х3) е О*, 1 I (х2, х3)ёР*. Если KQ — К2, то К3 реализуется на стратегии 9 * о * 9 * ' Х1 = XV> еСЛи Х2 = Х2, Х3 = х3, < = xf (х3), если х3 2#3, но х2 — х2 (#3), I Xi = в остальных случаях. Если К3 = кЦ то KQ реализуется на стратегии ~ 2^Г (^з), если х2 = 2;Г2 (^з) и хз ^з (при соответствующем сообщении информации), = xi (хз)’ если х2 = х2, но x3€z Е3, в остальных случаях. Аналогично обстоит дело и для Ко = К3 и Ко = К$ • Во всех случаях стратегии сообщаются второму и третьему игрокам.
К ТЕОРИИ ИГР ТРЕХ ЛИЦ 283 § 24] Доказательство. 1. Если KQ = 7И*, то применение когда второй и третий игроки не придерживаются D*, означает миними- зацию той из функций fi {хг, х2, х3) — Li, i = 2, 3, кото- рая меньше. Поэтому при фиксированных х2 и х3 в резуль- тате получится min [min /2 (#1, ^з) min /з (^Т, хъ -2’з) — rvi Л1 Поскольку вне D* хоть одна из разностей отрицательна, то хотя бы один из игроков получит менее Lit Сообщая одному *) из них (например, второму) инфор- мацию о ходе третьего, первый дает ему возможность при любом х3 получить max min /2 (хъ х2, х3) на соответствую- щей стратегии х2 (х3). Поскольку при х2 ЕЕ Е2, независимо от х3, min /2 (х17 х2, х3) L2l Х1 то и вообще max min f2 (хг, х2, х3) L2, Л’2 Х1 и поэтому, если (х2 (х3), x3)eD*> то результат третьего игрока меньше L3; не соглашаясь с этим, он всегда может выбрать х3 ЕЕ Е3, и это, гарантируя ему L3, одновремен- но обеспечит (х2 (х3), х3) ЕЕ D*. Итак, второй и третий игро- ки не выйдут из Z>*. Но при (х2, х3) ЕЕ первому игро- ку, применяющему гарантировано 7И*. В случае Ко = К> совместное со вторым наказание третьего обеспечивает принятие последним х3 — -%. Если же второй не примет после этого 2х2 или не будет участво- вать в наказании третьего, то применение ^i, в силу тре- бования в), не позволит ему получить больше L?, на что он вполне может рассчитывать при действиях, совместных с первым игроком (здесь, конечно, заложена гипотеза *) При реализации М* порядок ходов второго и третьего игроков может быть фиксирован. Тогда первый игрок сообщает информацию соответствующим образом. Например, если второй игрок делает ход вторым, то ему сообщается лишь, что информация о его ходе будет передана третьему, что и делается.
284 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV о том, что второму игроку известно, что первый точно знает интересы всех игроков). В остальных случаях доказательство рационально- сти указанных хг проходит аналогично (см. теорему 4.1). 2. Пусть имеется любая стратегия (х2, х3). Если второй и третий игроки действуют (в представлении пер-; вого) коалиционно, то необходимо, по требованию а), что- бы fi (хх (х2, х3), х2, х3) Li при i — 2, 3. Поскольку в остальном действия игроков непредсказуемы, то гаран- тированный результат первого не превышает min max fa = М* KQ, (х2, x3)ED* Xi поскольку область точек (х2, х3), где fi (rq (rr2, гг3), х2, х3) > Lt, заведомо содержит Z)*. Игроки могут при этом и нарушить коалицию, если хоть один из них (например, второй) может получить боль- ше, чем в коалиции. Разумеется, другой при этом получит не менее L3, поскольку он всегда может взять х3 ЕЕ Е3. Однако если при этом второй получит не более Z2, то для первого игрока действия второго и третьего укладывают- ся в коалиционные рамки (т. е. существует коалиция, в ко- торой такие результаты достижимы) и он не может выде- лять те или иные из х2 и х3, которые удовлетворяют усло- виям а) и б), независимо от реальной коалиционности или некоалиционности их. Перебирая все априори воз- можные коалиции внутри указанных требований и рас- считывая на гарантированный результат, первый игрок здесь получает KQ, Если же коалиция (реальная) нарушается так, что, скажем, второй игрок получает больше, чем Z2, то всту- пают в силу рассуждения, в точности аналогичные построе- ниям теореме 4.1, и первый игрок не может рассчитывать больше чем на max [К^, К2 ] KQ. Аналогично дело обстоит и если третий игрок получает больше L3. Теорема доказана. Случай 4. Теорема 4.2 без труда переносится и на случай, когда неизвестная коалиция принадлежит к коа- лициям с побочными платежами (или может оказаться та- ковой). При этом условие а) заменяется на более широкое
§ 24] К ТЕОРИИ ИГР ТРЕХ ЛИЦ 285 условие: /2 (хг, х2, х3) + /3 х2, х3) > L2 + L3. Множество Z)* соответственно заменится на D* = {(ж2, х3) | min (/2 + /3) > А2 + Ls}. Х1 В условиях б) имеем лишь, что Li < max min [f2 + f3]. (х2, х3) Xi При этом %™ целесообразно определить как реализующую min[/2 + /3]. Х1 В остальном формулировка и доказательство теоремы дол- жны остаться без изменения. Стоит, однако, отметить, что если max /2 (xt, х2, х3) < L*2 при /3 (хх, х2, х3) L3, (Х1, х2) то гарантированное разрушение коалиции фактически не- возможно, т. е. D2 = 0. Такое положение вполне реаль- но, если /2 = /3 и сильно зависит от х3 и не сильно от хА. В этих условиях и первый игрок должен воспользоваться побочными платежами для управления (т. е. увеличить за- висимость /2 от своих действий). Отметим, что замечания к теореме 4.1 относятся, конеч- но, и к теореме 4.2. Видно также, что возможность приме- нения вторым и третьим игроками коалиции с побочными платежами уменьшает Ко, ибо увеличивает D* и умень- шает остальные области за счет увеличения Li. Последнее замечание к теореме 4.2 касается возможно- сти получения для первого игрока уточнения величины L\ тем игроком, который хочет выиграть, выйдя из коали- ции, но не рассчитывает на получение величины, большей априори известной первому Д. Это может означать за- прос первого игрока о реальном/^, на который может быть получен уточняющий ответ (если это выгодно опрашивае- мому). Отмеченные видоизменения постановок задач, несом- ненно, должны быть учтены при более глубоком изуче- нии проблемы рационального выбора стратегий в играх
286 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ {гл. IV трех лиц на основании принципа гарантированного ре- зультата. В настоящее время уже появился ряд работ, в которых ведется такое изучение (см. [72], [73]). Изложим теперь результаты, относящиеся к ситуациям равновесия в метаиграх трех лиц. Будет заметно суще- ственное отличие их от результатов для метаигр двух лиц; вместе с тем, как показано в [68], игры п лиц с п 3 до- статочно аналогичны играм с п = 3, которыми здесь и ограничимся. Как и выше, будем предполагать, что первый игрок выбирает стратегии ЕЕ X?, располагая информацией о выборах х2 и я3. Полагая стратегиями второго и треть- его игроков выборы х2 и х3, обозначим соответствующую игру через ХГ. Далее, введем игру 21Г, в которой первый игрок располагает теми же стратегиями^, третий — стра- тегиями х3, а второй— стратегиями х2, представляющими собой отображения X X? Х2; соответствующее множество стратегий х2 обозначим через Х2. Таким обра- зом, второй игрок здесь знает стратегию первого и треть- его из ХГ. Наконец, в игре 321Г пусть первый и второй игроки располагают стратегиями из 21Г, а третий, зная их, имеет стратегии ж3, реализующие отображения X* X Х2 соответствующее множество стратегий обозначим через а3 . Задание стратегии хх, х2 и х3 определяет исход (^i, #2, хз) естественным путем. Сначала производится кон- кретизация х3 в силу отображения х3 конкретных и х2 вХ3; затем конкретизация х2 в силу отображения х2 кон- кретных и х3 в Х2; наконец определяет по х2 и х3 конкретное xt. Этим определена операция проектирова- ния я: Vй х/ V* v У** . у У° х/ v V0 2k х А 2k 2 A 2k 3 —> Ах A 2k 2 А А3, Л (^1, Х2, Х3) (^1» *^2» #з)- С помощью ее и ~ (xlf х21 х3) конкретизируются и ре- зультаты игры. Так же, как и для случая метаигр двух лиц, легко показывается, что если zf, i2, i3 есть ситуация равнове-
К ТЕОРИИ ИГР ТРЕХ ЛИЦ 287 сия в 321Г, то для соответствующего ей исхода (<т1, х2, ,г3) справедливо /1 min min max /х (^1? х2, х3) = х3 х2 Х1 f2 (#') > min max min /2 (#i, #2, ^з) = ^2, х3 хг Х1 /з (#') > max min min/3 (rr1? x2, x3) = L3. X3 X2 Xi Однако обратное утверждение уже неверно, вопреки мне- нию работы [13]. В [68] предложен соответствующий про- тиворечащий пример. Поэтому для достижения справед- ливости обратного утверждения в [68] вводится еще более сложная метаигра 1321Г, в которой первый игрок перед сво- им выбором в 321Г знает выборы второго и третьего в этой игре, т. е. стратегии х2 и х3. Таким образом, стратегиями первого игрока здесь являются отображения *х1: Х2 X X Х3 Xi. Стратегии второго и третьего те же, что и в 321Г. Конкретная стратегия *х± по х2 и х3 определяет кон- кретную стратегию Соответствующую операцию обоз- начим через л*, так что (#х, х2, х3) = л* (*^х, х2, х3). Исход в игре 1321Г определится как композиция операций лил*; ее обозначим через л. Таким образом, исход игры определяется по формуле Х2, Х3) —: Л( , Х2, £3) == ЛЛ ( «Гх, Х2, £3). Теорема 4.3. Если исход Ж0 ~ (rr?, х2, х3) таков, что fi (Я0) Lt (/ — 1, 2, 3), то есть исход, соответ- ствующий (в силу л) некоторой ситуации равновесия в игре ]321Г. Разумеется, верно и обратное утверждение. Доказательство. Определим класс функций ст. Xi следующим образом: Xj = е х“ | Сг®, - ж®}. Далее, пусть Х2 == {ж2 е Х2 | х2 (a?i, Жз) = для любой GE Хх}
288 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV И Х3 = {х3 е Хз | х3 (xlt хг) = х°з для любых х1^Х1 и х^Е^Х^}. Теперь определим: _ х±, если х% = ^2» = ^з, = Lh г12 в остальных случаях, {х±, если х3 — х3, Н О #13, если х3^х3; здесь #12 реализует mm/2(zi, х%, х3), a #i3 реализует Xi ^2, х3). Отметим, что х\ и принадлежат Хр Х1 Пусть теперь т° — х<% — ( т° #2 (*з), 4* (*з), если ЕЕ Х\, если #i (EzXi, если #t ЕЕ Х1Ч #з — ^з> #з 7^ ^з» где а?2 реализует min max /i (^, rr2, #з), а х£ реализует Х2 Х1 min min/sf#!, х^ ^). Далее, пусть Х2 Х1 х*3, если #i GE Хх, хг е Х2, х3, если #i 5 Х±, х2 ЕЕ Х2, ** — -о. х3 , если #2 £= Х2, где х3 реализует min min max /i (a?i, x2, x3\ Хз x2 Xi x*3 реализует min max min /2 (^i, ^2» ^з)« X3 X2 Xj
$ 24] К ТЕОРИИ ИГР ТРЕХ ЛИЦ 289 Наконец, пусть если х2 ЕЕ Х2, х3 ЕЕ Х3, * 0 л хг — если Х2 Ez Х2, х3 ЕЕ Х3, г?, если х3 ЕЕ Х8. Остается показать, что Я (*#?, х3) = Ж0 и что (*#?, £2, ^з) есть ситуация равновесия в 1321Г. Для доказательства первого утверждения обратим вни- мание на очевидные включения £3 ЕЕ Х3 и £? Е Х2. Но тогда по определению *х±9 видим, что эта стратегия вме- сте с х2 и xl дает обязательно х°, т. е. частный случай е ЕЕ Хг. Но отсюда уже ясно, что х3 обязывает выбрать х3, а тогда и х% приводит к х2. Покажем теперь, что и всякая другая стратегия *хг первого игрока в сочетании с и х3 даст не более, чем /х(^°). Действительно, если х3) е= Хп то, повторяя только что приведенное рассуждение, в качестве исхода опять получим Ж0. Если же *хг (я2, #з) €= Хп то второй и третий игроки, в силу определения и наказывают первого, и он получит, следовательно, результат не более Llf который не превосходит, по условию, Д (£°). Пусть теперь второй использует любую х2 в сочетании с *#?и х3. Если #2 е Х2, то в качестве исхода опять будет я0. В ином случае первый игрок применяет х% ЕЕ Х19 а тре- тий — х3 , т. е. наказывает второго. Если исход при этом будет (#i, я', #з), причем х2 == х2 и х3 = х^, то, в силу определения я*, и xj == гг?. В остальных случаях первый также наказывает второго и он не может получить более Пусть, наконец, третий игрок использует любую х3 в со- четании с *х° и х2. Если Яд s Х3, то исход опять ж0. Если же х3 ё Х3, то, по определению первый игрок при- меняет X} е= Хх. V2IO Ю. Б. Гермейер
290 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ 1ГЛ. IV Если теперь я3 (£?, х%) = то исход опять совпадает с Ж0. В ином случае первый и второй игроки наказы- вают третьего и он не получит более L3 /3(£°). Итак, индивидуальный отход любого игрока от ситуации (*#?, ^2» *з°) не увеличивает его выигрыша. Это и доказы- вает теорему. В заключение отметим, что перемена мест игроков по их информированности соответственно меняет выражения их максимальных гарантированных результатов и оп- ределение метаигр. Однако во всех этих случаях реали- зация «хороших» исходов в виде ситуаций равновесия в ме- таиграх требует в играх трех лиц отображений типа *хг в X?; в играх же двух лиц достаточно было отображений в Х°. Аналогичные осложнения имеют место и при п > 3 (68]. § 25. Ситуации равновесия и устойчивые совместные решения в повторяющихся играх В этом параграфе будут разобраны два вопроса, так или иначе продолжающие постановки задачи § 13. Уже там отмечалось родство между ситуациями равновесия и теми коалиционными решениями, для которых выпол- нены условия устойчивости варианта (2.62) — (2.64). Однако там шла речь о ситуациях равновесия в исходной игре (одно повторение); именно их и обобщает понятие устойчивых совместных решений (например, (2.66)). Здесь мы укажем на существование тесной связи между устойчивыми совместными решениями и ситуациями рав- новесия в повторяющейся игре, рассматриваемой как единое целое. Вторым вопросом будет решение задачи о нахождении неулучшаемых коалиционных решений в иг- рах с побочными платежами, для обеспечения устойчиво- сти которых потребно наименьшее число наказывающих повторений. Переходим к изложению первого вопроса, следуя [741. Пусть Г — игра п лиц, в которой множество чистых стратегий г-го игрока есть X?, а критерий эффективности (a?i, . . ., жп) — ограниченная функция на X = X? X... ... X Хп. Дисконтирующая последовательность неотри-
$ 25] СИТУАЦИИ РАВНОВЕСИЯ 291 цательных чисел {d = {d°, d1, . . ..} удовлетво- ряет условию У1 dj < оо j=0 (см. § 13). Если d? = (d)\ j 0, при некотором d (0 <d <1), то вместо d будем писать d°°. Рассмотрим «сверхигру» Г(йп . . <ЯП), где {d19 . . . . . dn) — произвольные дисконтирующие последователь- ности, состоящую в бесконечном повторении игры Г и протекающую следующим образом. В /-м повторении каждый игрок независимо от других выбирает свою чистую стратегию в игре Г, имея полную информацию о выборах всех игроков в предыдущих повторениях. Та- ким образом, стратегией г-го игрока в игре Г является последовательность срг =и (#f0, <рп, <р/2, . . .), где xi0 €= Xf и фгу реализуют однозначное отображение ^Х?9 />!*). Если в игре Г игроки использовали набор стратегий Ф = {фх> • • *9 Фп}, то выигрыш г-го игрока определяется формулой с{(ф)= ($, • • м 4). j=0 где xiQ — выбор г-го игрока в нулевом повторении игры Г ф /Ф Ф Ф Ф \ . - л = фъ (Я1О, ..., Яп0, . . ., Xljhl9 . . ., При ] > 1. Нас будут интересовать ситуации равновесия в игре Г (d19 . . ., dn). Легко понять, что если 5Р —множество ситуаций равновесия в чистых стратегиях в игре Г (оно может оказаться и пустым), то любой набор стратегий Ф = {фп . . Фп} в игре Г такой, что (х®, . . ., х®) G Sp для всех / 0, есть ситуация равновесия. Такие ситу- ации равновесия в игре Г можно назвать тривиаль- ными. ♦) Таким образом, в прежних обозначениях стратегией явля- ется последовательность произвольных функций xi = xi (а?0, . . . . . ., а?7-1), где х* = (а^, . . „ хп^) — вектор выборов в А-м по“ вторении. 10*
292 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV ПОЛОЖИМ Li = L{ [X?] = sup inf fi(xu ..xn), 1<г<п, х{еХ- xi&X^ 1</<П Li = Li [X*] = inf sup / (xx,..xn), x^xf l<f<n В полном соответствии с § 13 набор последовательностей (^i, • • •> ^п)> где = (#io> #/i, . • •), Xfj^, Х{, 7 0, 1 гп, назовем L-устойчивым коллективным решением в игре Г (dlt . . ., dn), если для каждого г, 1 i п, при всех у > 0 выполняются неравенства оо sup fi Xi-i'fXi, a:i+lJ,..xn}) + A 2j $ < Xi&X® 7+1 • • •> ^nfc)> (4*1) и //-устойчивым в игреT (d19 . . dn), если для каждого i, 1 «X при всех / > О выполняются неравенства оо ^di sup fi (^ij, • • •, Xi^i j, Xi9 Xi+i jt • • •> xnj) 4“ /н S xiex? oo S fi • • •» (^’2) Теорема 4.4. Для того чтобы набор стратегий Ф = {<рп . . . , <рп} был ситуацией равновесия в игре Г (d, ..dn)9 необходимо, чтобы набор (^,..%п) был L-устойчивым в этой игре. Доказательство. Предположим, что это не так. Тогда найдутся такой номер i (1 i п) и такое / > О, что Я = di SUp fi (Xij9 • • •, Xi-itjXi9 Xi+itj9 • • •, Xnj) 4* Xiex? 4-Z/i 2 — 5j ^i/i • • •> ^nfc) ^>0« (4.3) K=j+i k=>j
$ 25] СИТУАЦИИ РАВНОВЕСИЯ 293 Выберем так, чтобы выполнялись неравен- ства fi (^1р • • •? X , %i+i, j, • • •, %nj) sup fi^Xij, . . #i-l, %i+l, jf • • •, %nj)-(4.4) И inf fi (*i, • • •, *i-i, z”, xU1,..., жп)> L{-£-------, (4.5) Xi^x<i 2 У d? г5йп 4+i и определим стратегию ф| = (x'iQ, фц, ф{2,...) равенствами , ( х', если j = О, Xjn == । Ф . л ( «i0, если ;> 1, Фис (*io, • • •» #по> • • •» ^п, /с-1)- х” при к > 7 + 1, Ф1И^10, ...» Яп.к-х), если 7>1» 1» __( & » если к = ] 1, и Xim — Xim gj при O^zn^/—1, Фг; (^10, ...» ^n.j-1), если к = j > 1 и не выполнено предыдущее. Обозначим Ф' = {ф2, . . Фг-1? фь ф/+1, . . ., фп}. Из равенств (4.6) следует, что х®* = х® при / для I i и Ф* ^гк — ^ik х' X при при яри ^<7, к = /, *>/• Теперь, используя (4.3) — (4.5), получаем = Д 4Л(^',.... ^') = Д d\tiA .... 4- 4~ dj/j (^ij> •••) » ^г+lj» • #nj) “Ь
294 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ (ГЛ. IV 4“ 3 •••> 3?, ^i+l.b •••> xnk) > &=»j+l > S ..., x^k) +di sup ... fc-° х4ех4° 4i.j, .... 4)--г+ У, d^Li-------|- = K=j-1 = 3 4/i(z®, .... ^) + е-8 = ^(Ф). fc==O Но это неравенство означает, что набор стратегий Ф не образует ситуацию равновесия в игре Т (dn . . dn). Теорема доказана. Т е о р е.м а 4.5. Если в игре Г существует такой набор наказывающих стратегий *) (ж?, . . ., х£), что SUp ..., Xi-i, Xif Xi+i, ..., Хп) = L{ при всех i, 1 i п, то для любого L'-устойчивого в mpeT?(d19 . . ., dn) набора (%[, . . ., Хп) стратегии Фг = (xio, Tip <Pi2, • • •) такие, что при / 1 Tij (^10, • • •, xnoi • •— Хц, если Xim= х*т, l<Z<n, —1, x^ в противном случае, (4.7) образуют ситуацию равновесия в игре Г (dr, . . dn). Доказательство. Зафиксируем произвольное, /, 1 и произвольную стратегию <р^ г-го игрока в игре Г (dr, . . -,dn). Обозначим Ф* = {фг, • • •, фп} и Ф = {ф1, • • •> Фг-i» Фь ф1+1» • • •> фп}. Нужно показать, что Gt (Ф) < Gt (Ф*). Из (4.7) видно, что = х\, 1 Z п. Если ф • xiQ — ХЮ ♦) В [74] условия этой теоремы существенно ослаблены путем введения своих наказывающих стратегий для каждого i. Доказатель- ство же по существу не меняется.
§ 25] СИТУАЦИИ РАВНОВЕСИЯ 295 И Tij(x10f • ••> Xn(h • ••» • ••> Xnj-1) = xij (^«8) при всех j 1, то %® = #*, 1 Z я, и, следовательно, Gt (Ф) = G, (Ф *). Пусть теперь <pf таково, что по крайней мере одно из равенств (4.8) нарушается. Пусть /0 — наименьшее из та- ких у, для которых не выполняется (4.8). Из определения ф/ и Ф видно, что ф ( xti при /</0, ХИ' I о . I XI при 7>/0 для I =# I и Xij = Xij при 7 <7о. Следовательно, /1(^1?» • ••» xnj) = ' fi(xn, ...» x*nj) при 7</о» __ < /г (^lio? • ••» ^i-1, jo» Xi,jo> ^г+1, jo» •»»» xnfo) При 1 = /о, А(4, 4-ь х%, 4+1, .... при 7>7о- Отсюда в силу (4.2) <?;(Ф) = 3 d}ifi(Xij, Хп? < 3 4j) + j=0 7=0 4- sup /г (^1*70» ...» ^i-1,70» xu ^i+1,70, ...» *nje) + + Д 3 d'i (^Ijj ...» Xnj) + j=7o+l i==0 + 3 ^г/г (^lj> ...» xnj) = Gi (Ф ). 7=jo Теорема доказана. Заметим, что если игра Г антагонистическая, но dr d2, то игра Г (d1? d2) оказывается уже неантагонисти- ческой, и могут появиться нетривиальные ситуации рав- новесия, в которых оба игрока выигрывают больше, чем в тривиальных ситуациях.
296 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV Пример. Xj == X® == {1, 2}, iv2 =-~w1 и задается - /О— матрицей ( q ), где 0 < и < v; 4*-4» =(С)\ 4fc+i=rf(C)\ 4к+1=е(сД А>0, 0<e<v<V<H^lrf<rf<1- Здесь Li = L\ = 0. При этом, как легко убедиться, пара (#!> такая> что ^1,2^ = Х2,2к в = х2,2к = 2, к 0, яв- ляется L-устойчивой в игре Г (db d2). Тогда по теореме 4.5, исполь- зуя седловую точку хJ = х% = 2, можно с помощью формул (4.7) построить нетривиальную ситуацию равновесия Ф*, причем • dv — и Gi (Ф ) = ’ > о, л • и — ev <МФ) = —>°> в то время как в единственной здесь тривиальной ситуации равно- весия оба игрока получают по 0. Следующая теорема показывает, что нельзя привести аналогичного примера с экспоненциально убывающими дисконтирующими последовательностями. Теорема 4.6. Если Т — антагонистическая игра, в которой Lr == то для любых d, е (0 < d, е < 1) игра Г (d°°, е°°) может иметь лишь тривиальные ситуации рав- новесия. Доказательство. Пусть Ф = {<рп <р2} ““ си" туация равновесия в игре Г. Нужно показать, что — седловая точка в игре Г для любого j > 0. Положим с] ~ A ^2j) "* j и обозначим ш=0 — сп+т (#) — £n+m (d)
§ 25] СИТУАЦИИ РАВНОВЕСИЯ 297 По теореме 4.4 пара Z-устойчива в игре Г (d°°, е°°), т. е. при всех j 0 справедливы неравенства sup Д (^i, х®) + Lx (d)k *fx (х®, х®) k~j и sup /2 (я%, x2) + Z2 ^^(е)м/г (л$, $). xjGXg /с =j Учитывая, что здесь w2 — —и\ и, следовательно, Z2 = sup inf /2 (#i, ^2) = XgGXg X j = — inf sup fx (#!, x2) == — L'x=— Lx X2^.X2 xjGX-£ И cj ~ /2 (^lh ^2;) + Z2, 7 0, получаем, что при всех j 0 имеют место неравенства Dxj sup /1 (хх, xfj) — Zi > 0, (4.9) D2i < inf /1 (х®, х2} — Lx < 0. (4.10) XcCXg Если d ~ е9 то Dxj ~ D2j = 0 при всех j 0. Пусть теперь d <Ze (случай d е разбирается аналогично). Используя (4.9), получаем при всех / > О = £^.+т -1] = т=о оо т—1 т=х к=О = (т ~ У| [(т) ^9+»+1+т(й)к+1+т] = /с=о Ш=о оо^ 11 Ю. Б. Гермейер
298 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV Вместе с (4.9), (4.10) это дает = D2j = 0 при всех / > 0. Отсюда следует, что с$ = 0 для любого / > 0, т. е. fi (xw xTj) ~ А — L\. Неравенства (4.9) и (4.10) превра- щаются при любом ] 0 и равенства sup /1 ж®) = Lt = х®) — L’t= inf /1 (x®, x2), но это и означает, что (xfj, xfj) является седловой точкой в игре Г. Теорема доказана. Итак, L-устойчивость решений во всех повторениях есть необходимое условие образования равновесия в «сверхигре». Осложнение с достаточностью L'-устойчи- вости состоит в требовании существования совокупности (#J, ..., Хп), одновременно наказывающей всех. Но, как нетрудно заметить, во многих практических экономи- ческих задачах такие совокупности существуют и означают полное прекращение обмена. Кроме того, как уже отмече- но, это требование ослаблено в [74]. Перейдем теперь к вопросу о коллективных решениях, требующих для обеспечения L-устойчивости наименьше- го числа наказывающих повторений. Будем рассматривать игру с побочными платежами, ограниченными лишь ус- п ловием У» Zi = 0. Таким образом, <=1 == fi (#) “F % i Xi» Коллективный выбор состоит из вектора х ЕЕ Х° X ... . . . X Хп и вектора z = (z1? . . ., zn) побочных пла- тежей. Проведем в этой игре анализ устойчивости решений на основе варианта (2.62) — (2.64). Прежде всего необходимо уточнить понятие нарушения коллективного решения, его побудительную причину (2.62) и эффективность наказаний (2.63) — (2.64), учитывая обычную специфику игр с по- бочными платежами. Имеем: а) Вектор побочных платежей назначается уже после того, как выбран всеми вектор х и определились fi(x).
§ 25] СИТУАЦИИ РАВНОВЕСИЯ 299 б) Нарушение i-м игроком коалиционного решения (х, z) может состоять как в отказе от согласованного^, так и в отказе от побочных платежей. Отказываться от получе- ния zt 0, конечно, странно, поэтому нарушение z может состоять только в том, что i-й игрок отказывается отдать побочный платеж, если zt <0. Игрок, нарушающий х, уже не получит zt 0, поскольку z назначается после реализации гг, но он, конечно, не отдает и сам побочный платеж, если zt <0. Наконец, если уж он хочет нару- шить z, не отдавая положенный побочный платеж, и полу- чает тем самым ft(x), то ему целесообразно нарушить и ж, взяв максимум по своему xt от Д. Итак, нарушитель будет максимизировать Д по xt и не будет участвовать в побоч- ных платежах. [ в) Такого нарушителя и наказывают, минимизируя Д без побочных платежей. Разумеется, при этом остальные коалиционеры’могут между собой обмениваться побочны- ми платежами, но это не имеет непосредственного отно- шения к эффективности, наказания нарушителя. Учтя сказанное, имеем, что в данном случае (2.63) и (2.64) дают = min max fi (ж), Xj^Xj х^ЕЕХ^ Li == max min fi (x). x^Xi Xj^Xj (4.11) В то же время согласованное решение (х, z) определяется из максимизации (1.45), т. е. из решения задачи max max min р$ (fi (х) + Zi—w*). (4.42) х п z; S z^o i==l Фиксируем пока р, и положим гт? == (или соответствен- но u>i = L^. Ограничимся рассмотрением наказания Lh поскольку второй случай аналогичен. Для оптимального вектора z° при фиксированном произвольном т по (1.46) 11
300 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV получаем и = max min pj (/>• (х) + Zj — Lj) = n z; 2 Zy=o i=l = min pj [fj (x) + z? — Lj] = = Pi[fi(x) + z°i —Li], V 1 _V„/ x n R4.13) U А_1 T / I (fi (X^ Lj)> ,•=1 3 j=l ij (/3-W-bp M=W_--------------t /i(x) + z?= -^+Li. j=l Внешняя максимизация по x в (4.12), как мы уже зна- п ем, эквивалентна максимизации 21 Л (я), независимо от г=1 вектора р, а согласованный вектор критериев эффектив- ности игроков задается выражениями (4.13) уже через век- тор р при оптимальном х. Из (4.13) немедленно следует, что п условий (2.65') при р 0 эквивалентны одному ус- ловию 3 А(®)> 3 Li. !=1J 4=1 (4.14) Будем рассматривать дисконтирование вида <$ = 1, d\ — d при 1 <] rt + I- Тогда имеем по (2.56) max0 .............. 1 — d + dS (x, z°) = max --------------7--------------- l<i<n fi (®) + Zj — n Pi [ max /i(»i, ..., yv ..., x = max ------------ !<<<n . (4.15) 3 i=l
§ 25] СИТУАЦИИ РАВНОВЕСИЯ 301 Поскольку умножение р на константу не меняет решения, п то будем полагать У । — 1. г=1 г Задача состоит в том, чтобы путем выбора характери- стики компромисса р добиться минимизации г0 или, что практически то же, минимизации S (х, z°). Учитывая, что оптимальный вектор х не зависит от р и выбирается из п условия максимизации Л fi (х), видим, что минимизация S (х, z°) по р эквивалентна задаче inf max р^ — а, (4.16) р 1<гСп где bt = max f^x^ . . yt, . . xn) — не зависит от p. При этом в задаче (4.16) определяется нижняя грань, п поскольку область р^> 0, у1^— = незамкнута и неогра- i=i г ничена. Отметим, что 0, поскольку max fi(x^ ..., жп) > > min max ..., уь ..., хп) = Lh х}<=Х? У^Х? Предположим сначала, что bt 0 для всех i = 1, ... . . ., п (это будет, например, если Д (z) Лг). Тогда все оптимальные р® должны быть больше 1, поскольку если п Р^^о—е^Цр^ + оо^я^А^) и max ptbi = +оо. Кроме этого, должно еще быть Pibi = а для всех i = 1, . . ., п. Действительно, введем множество п' = {г | 1 i п, pibi <а} п" = {i | 1 i п, p^bi = а},
302 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV уменьшив немного р? для i (Е п" (а их уменьшить можно, ибо они все больше 1) и увеличив соответственно р? для i ЕЕ п , мы получим уменьшение max р^г-, что противо- речит оптимальности р°. Но для i ЕЕ п" имеем очевидное решение задачи При этом U= S — ь ” (4Л8) А (х) + Z? = Li + £ (fi (х) - L>). 3 bi j=1 i=i Необходимое для наказания число повторений игры оце- нивается приближенно величиной на единицу меньшей, чем Ь1 а _ 1=1 _ п п i==l г=1 п 2 (max /.(»!, ..уг.......xn)~Li) = t=1 у{ех?-----------------------------(4.19) г=1 Пусть теперь Ьг 0 при iг и bt ^0 при i г + 1. Игроки с номерами i г + 1 не могут нарушать коали- цию (при р < оо), поскольку в силу (4.13) они при соблю- дении (4.14) всегда получают более Lb а при нарушении не более max /{(Х1, yt, xn) = bi + Li^Li. Vi^i
§ 251 СИТУАЦИЙ РАВНОВЕСИЯ 303 Поэтому задача (4.16) трансформируется, в смысле опреде- ления а, к виду inf max = а. (4.20) Ее формальное решение таково: р. = -j-oo при i г+1 и Pibi =з а при i г. Отсюда имеем: т Pi = -2-у— при i < г. Однако такое решение по существу не является коали- ционным, так как в силу (4.13) игроки с i г + 1 полу- чают результат, в точности равный Lb который они могут получить и совершенно самостоятельно, даже подверг- нувшись наказанию (условие вхождения в коалицию есть Wi >Li). Все это означает, что здесь нет «оптималь- ного» р°, а есть лишь приближенно оптимальные ре, ко- торые можно задать в виде 1 А р'=—’ 1>г+1’ 37Tr-(^)ei ’ i<r- (4.21) Теоретически величина 8 может быть сколь угодно малой; однако практически она определяется «чувствитель- ностью» 6/ игроков с номерами, большими г, которые по- лучают превышение над результатом равное 8Н. Необходимое число повторений в наказании опреде- лится при заданном 8 величиной г ----------ёЦ----------------1. (4.22) [1—(n —r)e] J] (fjr)-!,.) г=1
304 НЕКОТОРЫЕ ИГРОВЫЕ ЙОДЕЛИ для многих лиц [гл. IV Отметим, что j=l j=l <=1 поэтому (4.22) всегда неотрицательно. В коалиции (4.21) . п п V дележ разницы ( 3 3 ^<) будет происходить в ос- M=i / новном между первыми г игроками. Предыдущие рассуждения исходили из того, что дол- жна существовать коалиция всех игроков и для ее сох- ранения каждый должен получить более чем Lt. Между тем bj 0 для какого-либо игрока, казалось бы, пока- зывает его «слабость» и ненужность для коалиции. Однако такое мнение, конечно, неверно, поскольку влияние этого игрока на другие критерии /г- может иметь даже решающее значение. Таким образом, стремление к «максимальной устойчивости» может потребовать определенных жертв. Избежать их можно, видимо, или изменив х (т. е. отка- завшись от паретовости), или же пожертвовав степенью устойчивости. Разумеется, этот вопрос требует дальней- ших исследований. Все проведенные выше выкладки и рассуждения без особого труда переносятся на случай наличия неопре- деленного фактора р, если только конкретизация побочных платежей происходит после того, как значение р опре- делится (т. е. игра в смысле значений х и р уже произой- дет). Тогда формулы (4.13) останутся без изменения, рав- но как и условия (4.14) с соответствующей заменой по (2.65). Что касается выбора х = х (р), то он будет уже производиться из условия достижения максимина п Fi /j (х, Р). В случае, когда компоненты вектора Рг не i=l связаны, как это хорошо видно из (2.56), не изменится по существу и задача выбора р; нужно лишь всюду под bt понимать шах/Д#!, . . ., уь . . ., хп, р) — М Гораздо сложнее, видимо, обстоит дело в более «опти- мистических» вариантах (2.57) и (2.58); мы не будем здесь пытаться решать соответствующие задачи по вы- бору р. Стоит, пожалуй, отметить, что если все игроки осторожны в отношении р, то они могут еще до обсуждения
§ 25] СИТУАЦИИ РАВНОВЕСИЯ 305 коалиционных вопросов заменить свои критерии ft (х, р) на (х) = min Д (х, у). Тогда дальнейшее происходит у точно так же, как и выше, с использованием Д (х). Аналогично обстоит дело и в том случае, когда Р слу- чайно и все игроки согласны рисковать и довольство- ваться fi (х) — математическим ожиданием Д (х, р). Од- нако если не все согласны с такого рода заменой критериев, то такая коалиция не состоится. Наконец, отметим еще возможность перенесения дан- ного решения на более общий вид множеств 7Д. По суще- ству, нигде не было использовано отсутствие связи между Поэтому можно полагать, PQ = Рг произвольным. Сле- дует лишь соответственно понимать Lt и max Д (^, . . . Уг . . yt, . . хп). Посмотрим теперь, какие изменения произойдут в ре- комендациях (4.17), если некоторые из игроков заведомо не будут нарушителями коалиционных предписаний. Для простоты положим, что такой игрок один (или все они объ- единены в одного) и имеет номер п; остальные т = п — 1 являются потенциальными нарушителями. Для этого случая примем иную нормировку вектора р, положив pn = 1. Тогда так же, как и ранее, имеем fn С^) %п Ln ==s Рi (/i (^) "4“ Lif Вместо (4.16) получаем п—1 inf max Pi(14-> —]Ьл = а. p 1 \ Pj / Обозначив n—1 — = T и полагая, что все 0, имеем, i=i 1
306 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV аналогично вышеизложенному, что для заданного Т оп- тимальны pf, удовлетворяющие условиям рГ>4- и рГ(1 + Т)Ьг = а, i<n—1; это дает п—1 п—1 4 +Г V К 1 V L а ~ Т / IPi ~~ Tb. 7 i=l j=l n—1 Минимум а по T достигается при Т оо и равен 2 &• г=1 г* Выигрыш последнего игрока стремится при этом к Ln. пределе П—1 Остальные получат в причем (4.23) Такая оптимизация имеет реальный смысл, если получаю- щиеся по (4.23) величины г0 положительны. В противном случае уже до перехода к пределу может быть получено г0 = 0. Для этого достаточно выполнение неравенства п—1 п ;=1 г=1 что имеет место, например, если разность fn (х) — Ln> п—1 2J тах/| (хи . . .,яп), т. е. если результаткоа- лиции определяется результатом n-го игрока. Если дан- ное условие выполнено (т. е. существует ситуация рав- новесия по потенциальным нарушителям), то максималь- ная устойчивость достигается при конечных Т, а именно при тех, когда г0, подсчитанное дляр^, точно равно нулю,
$ 26] ПОБОЧНЫЕ ПЛАТЕЖИ КАК СРЕДСТВО УПРАВЛЕНИЯ 307 Имеем (1 + Т) 3 6,. го+1==__——= 1. т 2 3=1 Отсюда п—1 2*3 у _________________з=1_____ з=1 3=1 При этом п П п-1 и = Оз (*) - Lj) = У, (fj (х) — Lj) — У, Ь} > 0 3=1 3=1 3=1 и n-й игрок получает Ln -j- и L'n. Однако /7- (я) — Lj bj при / п — 1, и поэтому и /п (х) — Ln. Послед- нее означает, что zn 0. Таким образом, устойчивость достигается за счет по- бочных платежей, выдаваемых последним игроком ос- тальным. Однако этому игроку все же не стоит выходить из коалиции, поскольку тогда он гарантирует себе только Ln. Если г0 = 0 недостижимо, то, как уже указывалось, максимальная устойчивость достигается при Т -> оо и ре- зультате ?г-го игрока, равном Ln. Ясно, что такой резуль- тат его устроить не может. Поэтому реально следует брать конечное Т, определяемое, как всегда, величиной Sn. От- метим, что полученный результат г0 не означает полного равновесия, поскольку последний игрок не может быть нарушителем. § 26. Побочные платежи как средство управления в иерархических системах [52] Модели иерархических систем типа (1.14) — (1.16) с игровой точки зрения исследовались в работах [10], [64], [87]. В работе [64], например, даны достаточно об- щие результаты, развивающие утверждения теоремы 3.13. Как уже указывалось ранее, задачи распределения ре-
308 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ для МНОГИЙ ЛИЦ [ГЛ. tv сурсов без информации о поведении производителей при- водятся к игре двух лиц (Гх), разобранной в § 18. Если производители образуют единую коалицию, то иерархи- ческая система сводится к игре двух лиц и может быть про- анализирована с использованием материалов §§ 16, 17, 18, 20 и 23, отвечающих уровню информированности цент- ра об интересах коалиции и ее решениях. Материалы § 24 также имеют прямое отношение к иерархическим систе- мам, если считать, что производители уже образовали две твердые коалиции, которые в свою очередь могут, вообще говоря, объединяться. Материалы работ [64], [75] убедительно показывают, что в общем случае большого числа индивидуально дейст- вующих производителей (или их коалиций) нахождение управления, обеспечивающего центру максимальный га- рантированный результат, оказывается весьма сложной комбинаторной задачей. Значительное упрощение этой за- дачи происходит, если центр использует побочные плате- жи производителям (премии, доплаты и т. п.) в качестве элемента своей стратегии [52]. Важно не забывать при этом, что побочные платежи выплачиваются в конце игры, т. е. обычно в условиях точной информированности об остальном поведении игроков. Основные идеи упрощения, связанного с побочными платежами, хорошо прослежи- ваются уже на случае игры двух лиц — центра и точно известной коалиции производителей. Эту игру при от- сутствии побочных платежей будем представлять в обоз- начениях и предположениях § 16. Тогда при передаче по- бочного платежа от первого игрока (центра) ко второму она приобретает вид = A (xi> хъ) — 2> ^2 = /г (х1, хг) + 2> (4.24) хх е X?, (= X?, 0 < z < z®, z° > 0. Теперь уже контролируемым фактором первого игро- ка в новой игре будет (гс1? z), а у второго — по-прежнему г2. Поскольку первый игрок всегда может взять z = 0, то в новой игре £2 и ^2 останутся прежними. Стратегия наказания, очевидно, имеет вид (£”, z = 0), где zf — прежняя стратегия наказания. Аналогично и новая аб- солютно оптимальная стратегия будет (£?, z = 0). Очевид- но, что в новой игре М также равно старому значению.
§ 26] ПОБОЧНЫЕ ПЛАТЕЖИ КАК СРЕДСТВО УПРАВЛЕНИЯ ЗОЙ Изменение произойдет в D и К. Но не менее важно и то, что в новой игре всегда К М, и поэтому весь расчет может вестись только на К. Доказательство этого пол- ностью аналогично доказательству следствия из теоремы 3.13, хотя условия этого следствия и не обязательно все выполнены в рассматриваемом случае. Область D в дан- ном случае определяется неравенством /2 (^i, ^2) + z Ь2. Пусть теперь х2 ЕЕ £2, а и z > 0 — любые. Тогда, очевидно, /2 (х^ х^ 2 ^2> т- е- (^1, z) €= и, сле- довательно, = Д (хъ х2) — z^K. Если же w2 = L2 при х2 ЕЕ Е2, то необходимо z — 0 и w2 = f2 (xv х2) — L2. Но, взяв 0 < z < 8 z° при тех же хъ х2, имеем w2 = w2 + z > L2, (хъ x2, z) (Z D w[ = — z = (хь x2) — z < К. Отсюда z К 8. Поскольку 8 произволь- но мало, то далее докажем (непрерывность Д (хг, х2) не нужна!) так же, как и в следствии из теоремы 3.13, что К ^М. Итак, максимальный гарантированный результат пер- вого игрока в игре Г2 с побочным платежом будет равен ка(z°) = sup [Д («!, Х2) — Z], (Х1, х2, z)^Dn(zo) •°П (Z°) = {(^1, *2, z) | Д (Ъ, Хг) + Z > Л2, (4.25) 0<z<z0}, а стратегия образуется по теореме 3.13, на основе (х[, х2, z8) €= Dn, реализующей Кп. Очевидно, что при опре- делении Кп побочный платеж z нужно взять наименьшим из удовлетворяющих условию Dn (z°), т. е. удовлетворяю- щих неравенству z max [L2 — f2 (х19 х2), 0]. Что каса- ется допустимых (x-l, х2), то они определяются по формуле ^2 — /2 (^i, 2°- Отсюда имеем, очевидно, Kn (z°) = max [/i (^, х2) — max {L2 — /2 (^, х2); 0}] = (Х1, х2) ь2—f2(xi, x2)<zo = max min [Д^, x2); fi(xu x2) + и(хъ x2) — L21- (Xi, X2) L2—/2(X1, x2)<20 Последнее выражение, как мы знаем, эквивалентно
310 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕ [И ДЛЯ МНОГИХ ЛИЦ [ГЛ. 1V максимальному и при условиях *^1 СН ^1, - ^2, ^2 /2 (^1> ^2) > и < /1 (^1, х2). (х^ х2) + /2 (х19 х2) — Ь2. Если необходимо учесть характеристику S2 нечувстви- тельности второго игрока, то для определения соответ- ствующего Кп (zQ, 62) достаточно в только что приведен- ных формулах всюду заменить £2 на Z2 + б2. Поскольку введение побочных платежей в данном случае расширяет множество стратегий первого игрока, то, очевидно, име- ет место при z9 z К* (2®) > К* (2') > max [К. М], (4.26) где KslM по-прежнему относятся к игре без побочных пла- тежей. Переходя к пределу при z*->0 и обозначая этот предел через (0), очевидно, имеем № (2®) > К* (0) > max [К. М], (4.27) Интересно отметить, что последнее неравенство может быть строгим, т. е. при сколь угодно малом 2® можно получить результат, на конечную величину превышающий макси- мальный гарантированный результат без побочных пла- тежей (опять некорректность задачи). Простейший пример выглядит так: /2 (^1? ^2) = ^2/1 ^2) ~ ^2, I ^2 I При отсутствии побочных платежей множество Е2 второго игрока состоит из двух точек х2 = +1. Поэтому гаран- тированный результат первого игрока равен —1. Сколь угодно малая стратегия Г 2° при х2 = 1, z [ 0 при х2 =/=1 делает выбор второго игрока однозначным: х2=-|-1, а это дает К& (2®) = 1 — 2°. При 2® ->0 имеем К^ (0) = = 1 > -1. Этот пример показывает, что предельное Ки (0) есть не что иное, как реализация случая, названного в § 18 благожелательностью второго игрока. Данное обстоя- тельство носит совершенно общий характер, если только первый игрок точно знает интересы второго. Действитель-
§ 26] ПОБОЧНЫЕ ПЛАТЕЖИ КАК СРЕДСТВО УПРАВЛЕНИЯ ЗЦ но, пусть 62 = 0 и —- произвольная стратегия. Пусть, далее, sup /2 (^1, я2) = Т. х2 Для любого 8 0 введем Р£2 (жх) = {,г2 | /2 (г1? х2) > Т — е}. Обозначим через хг8 для т] 0 точку х2, реалг зующую условия sup _ fl (Хъ Х2) < fl (Xi, X?) + Т], X™ G Pe2 (^). ^2&Pg2(Xl) Назначив при z® 8 стратегию {z° при О при £2 = *^2 "У*- ^2 j первый игрок заставит второго выбрать х2 — гг2е. При этом первый игрок получит не менее sup /1(^1, #2) —?1 —z°. XjGP£2(Xi) Устремляя к нулю z0, 8 и ц, получим в пределе результат первого игрока lim sup /х (£х, гг2), который и может £"*° x2&P£2(Xi) трактоваться как следствие благожелательности второго игрока. Если исходная игра без побочных платежей была иг- рой Гх, то, используя конечное z®, первый игрок при лю- бом сообщаемом хг обеспечит себе sup [Л (ях, Хг) — z] (ХЯ, Z) при z + /2 (xi, х2) sup /2 (^1, ^4), 0 z z° с помощью 8-реализации (rr2, ze) этой верхней грани и стратегии ( ze при х2 = х2, z (^2) — | п е ( 0 при х2 Ф х2.
312 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV Действительно, если второй игрок выберет х^, то он получит /2 (хх, х£) + 2е sup /2 (#!, я2). Если же х2 х2 =# х%, то он не может получить более sup /2 (хг, х2). Та- хе ким образом, максимальный гарантированный результат первого игрока имеет вид sup [fi(Xi, х2) — z], (Xi, x2, Z^Pt P2 = {(xr, x2, z) | 0 < z 2®, xr ЕЕ X?, x2 EE X%, (4.28) /2 (Xl, X2) 4- z > sup f2 (xt, y)}. 2 Он заведомо не меньше, чем результат первого игрока без побочных платежей, рассчитанный на благожелательность партнера. В форме, совершенно аналогичной (4.28), может быть записан и максимальный гарантированный результат пер- вого игрока для любого Хг. Большего результата пер- вый игрок, разумеется, никогда не сможет достичь, если он будет точно сообщать свою стратегию ЕЕ Хг. Сум- мируем все сказанное. Теорема 4.7. Применение сколь угодно малых по- бочных платежей в игре двух лиц с фиксированным порядком принятия решений позволяет первому игроку, точно знаю- щему интересы второго, реализовать максимальный га- рантированный результат, рассчитанный на благожела- тельность партнера. В игре Г2 это приводит к неравенству 7ГП (0) М (оно может быть и строгим), причем М и Е2 при использовании побочных платежей не меняются. Наибольший гарантированный результат в играх Г2 и Гх пр и 0 < z < 2® дается соответственно выражениями (4.25) и (4.28). Последнее при замене хг на £х годится и для общего случая Х±. Замечания. 1) Учет порога нечувствительности б2 требует для со- хранения вида гарантированного результата неравенства 2° > б2. При этом условии в опреде лении Р2 (4.28) нужно к sup /2 (х2, у) добавить б?. V
§ 26] ПОБОЧНЫЕ ПЛАТЕЖИ КАК СРЕДСТВО УПРАВЛЕНИЯ 313 2) Использование побочных платежей позволяет бо- роться и с неопределенностью интересов второго игрока. Этот вопрос разобран в [10]. Здесь отметим, что при не- большой величине sup [/2 (z1? х2) — /2 (х19 ^2)1 в (3.25) первый игрок может произвести расчет без побочных пла- тежей для случая /2 (^1, #2) =“|- (/2 +/2)- Сколь угод- но малый побочный платеж обеспечит получение К11 (0), если /2 равно -у-(/2 +/2)- Чтобы действительно реализо- вать этот результат, потребуется применение уже конеч- ного побочного платежа по формуле Z (ж2) = z = -у max (/2 — /2) + е, если х2 = ж2, Х1, Х2 0, если x2=^xl, где (^1, xl, е) — приближенная реализация Кп (0). Ра- зумеется, эта стратегия не реализует максимальный га- рантированный результат, но при небольших /2 — /2 вполне может считаться рациональной, особенно с учетом ее простоты. Увеличение допустимых z свыше max (/2 — /2) может " (^1, х2) позволить решать уже и более рациональную задачу типа (4.28) для /2 — (/2 + /2), если за z° принять пре- Ci вышение максимально допустимых z над max (/2 — /J). 3) Применение побочных платежей облегчает и приме- нение корректного блефа первым игроком. Действительно, для реализации Кп (z°) при разумном поведении второго игрока первому не нужно применять xf и равно как и знать, принадлежит х2 множеству. 2Г2 или нет. Поэтому он может объявить о своей полной информированности об х2, обладая ею на самом деле лишь при реализации z и смело реализуя — х^, если он, конечно, уверен в до- верии второго игрока к его сообщениям. Приведем теперь пример простой задачи на выбор оптимального z, если 2° мало и = 0.
314 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV Пример. Пусть wt = ф (а?2) — w2 = 4 (а?2) + — 00 <С х2 < < + оо, max ip (я?2) = 4 (ф, причем ф (х2) и 4 (хг) достаточно xg гладкие. Имеем 4' (х§ = 0t и пусть ф'(*?) = — «> ф' (ф = Ь‘ ф"(^) = с« А2 С точностью до малых имеем ф + А) = ф (ф + &А + с , п А2 А2 4 (^2) = *Ф (ж2) — а ~2~ ’ Положив z — а = 0, получим, очевидно, п п аА2 А2 ф2 (^2 + А) = Ф (хъ) -}- 5А — -у- 4- с -~2". Рациональное А найдется а — с из реализации максимума ЬА — —g— А2. Это дает, очевидно, b „ А = yiy • Если эта величина не меньше I/ —— в то при ab2 Ъ а — с > 0 следует взять z = 2 (У~"с~)2 ПРИ А = " с 4“ 8 (8 доста- точно мало, но 8 > 0) и z = 0 при остальных А. Во всех осталь- Г-, I ных случаях взять z = zQ при А = I I/ ~— (1 — 8) !• sign Ъ и z=O для остальных А. Закончив рассмотрение случая, когда все производи- тели составляют одну коалицию (произвольного вида), мы можем теперь рассмотреть и противоположный слу- чай, когда производители не образуют коалиции и не об- мениваются информацией. Простейшим случаем такой системы будет п “’о = • • •, Ui,..ип) — 2j Zi, Zi>0, z°>0 (4.29) п U?i === ti (pit ^i) ~~H <S i> *&i i=l гдеznu выбираются центром, a — f-м производителем. В этих условиях, если первый игрок будет обладать информацией об уже при выборе иг, то он, назначив не- которые z? 0, и Ui, имеющие свойство ft (xi,uQi)+ Zi^> Lh может всегда заставить г-го производителя
I 26] ПОБОЧНЫЕ ПЛАТЕЖИ КАК СРЕДСТВО УПРАВЛЕНИЯ 315 взять с помощью стратегии , Zi, если Xi = х%, %i) = _н n / о щ, О, если Xi=f=Xi, (4.30) где uf, как всегда, реализует min A (uf, Xt). ui Поэтому он добьется максимального гарантированного результата, если решит задачу поиска и реализации Kq = sup /о(Я1, • • ; хп, ...,Un) — 2 zi , (4.31) х, u, z L i=l J fi (xh + Zi> Li, 1 < iO, %zi 2°, Zi > 0. Если xt, uz и 2е есть реализация этой верхней грани, то стратегия, состоящая из набора (4.30) для всех i с заменой Xi, щ и Zi на Xi, щ л Zi, будет реализовать Ло с точностью 8. Большего результата первый игрок, конечно, добить- ся не может, поскольку перечислены уже все исходы х, и и 2, в которых все производители получают более Li. Если же кто-либо из них получит Lt (конечно, при zt = = 0), то результат первого игрока не превысит опять-та- ки К$, в чем легко убедиться, повторив рассуждения нача- ла данного параграфа. Корректный блеф центра относительно информации об Xi позволяет получить центру указанный результат и в отсутствие этой информации при выборе иг, если центр уверен в доверии производителей к его сообщениям. Ра- зумеется, эксперимент производителей легко может об- наружить этот блеф. Если же центр, располагая инфор- мацией об Xi только при выборе 2г-, не будет использовать блеф, то он, очевидно, в состоянии реализовать sup /о (Ж, и) — 2 Zi| и, х, z L i~i J (4.32) при условиях fi (xh Ui) + Zi > sup fi (yt, Ui), 1< wieXi n, %zt << ze,z, >0. Если ж', ue и z' — е-реализация
316 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV (4.32), то стратегия центра и = uz, Zi (^г) = 4, если Xi = О, если Xi^Xi, (4.33) гарантирует ему получение результата (4.32) с точностью 8. Заметим, что легко описать и промежуточные случаи, когда о некоторых х^ информация будет, а о других — нет. Результат (4.32) остается, очевидно, максимальным гарантированным результатом центра, если вектор и под- чинен не распадающимся ограничениям щ €= Ut, а обще- му ограничению вида и €= U. При анализе системы (4.29) нам не потребовались пред- положения ни об осторожности производителей, ни об отсутствии у них обмена информацией; однако они потре- буются для получения относительно простых результа- тов, если рассматривать системы общего вида: п = fo (я, и) — 5 zi> Wi = fi (Х’ U) + Zi» 2=1 u^U, 3Zi = z°, Zi>0. (4.3,4) Рассмотрим вариант, когда при выборе и неизвестно х. Осторожный производитель, даже имея информацию об и, но не зная z^ не'может сам рассчитывать на результат больший, чем sup fi(Xi, и) = sup inf fi(x, и), x^X? Xi^Xi Xj^Xj Реально же он получит /г- (х, и) z^. Фиксируя и, центр может рассмотреть задачу п sup /о (Х, и) — 2 zi I X, Z L 2=1 J П при ограничениях У г; г°, г,>0, i=l fi (X, U) + Zj > sup (yit и)
§ 26] ПОБОЧНЫЕ ПЛАТЕЖИ КАК СРЕДСТВО УПРАВЛЕНИЯ 317 и взять некоторое ее 8-решение z*, зависящее, конеч- но, от и. Тогда стратегия z(x) = если если = xf, п, Xi Xi, Zi = 4, 2i = О, обеспечит выбор каждым производителем своего х*, если центр, наряду с этим сообщением, пообещает при реали- зации (х\, zf) результат Wt больший, чем sup (yf, u). Уг Пусть, решая задачу sup [/о (ж, U) — 2 Zi] (4.35) и, X, Z L 2=1 J при ограничениях fi (х, и) + Zi > sup f i (г/i, и), ex?, uetz, (4.36) центр определит ее 8-реализацию (гг£, xz, zz), Тогда, при- меняя стратегию и = и\ zl, если х — х\, 1 i п, О, если хг х*, (4.37) сообщая ее всем и обещая в случае xt = х* г-му произво- дителю результат больший, чем sup ft (уь uz), центр гарантирует себе результат разве лишь на 8 меньший, чем (4.35). Больше (4.35) он получить не может, поскольку при каждом и рассмотрены все варианты (4.36) получения производителями результатов больших, чем они гаранти- руют себе самостоятельно. Как и ранее, легко убедиться, что иные случаи при наличии побочных платежей рассмат- ривать не следует. Пусть теперь центр будет иметь информацию об х. Тогда, решая задачу sup [/о («. и) — 2 Zi] (4.38) эс, u, z L г=1 J
318 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV при ограничениях fi (ж, и) -|- Zi Lt, 1 i п, 21^<го, 1=1 z«>0, Х1^ХЬ uEU, (4.39) центр определяет ее 8-реализацию &£, rre, ze. Стратегия центра состоит в принятии и£, z£, если х = хг, (и, 2) = Zi = О ~н для всех i с =/= х*, если z’o первый номер, для которого (4.40) •%г ~г~ у где щ реализует min fi (х, и). Одновременно каждому и производителю сообщается, что при принятии xt = х\ он получит более if, а в иных случаях будет наказываться как по zt, так и по и. В этом случае производитель должен (доверяя центру и будучи осторожен) выбрать xt = х*, так как в этом случае он, по обещанию центра, получит более Li, в то время как иначе, по осторожности, не может рассчитывать получить более Li. Но таким выбором всех производителей центру гарантируется разве лишь на 8 меньше, чем (4.38) — (4.39); больше же он, конечно, га- рантированно получить не может. Как видим, здесь центр определенным образом блефует, обещая более Li9 несмот- ря на поведение остальных, поскольку он не может, во- обще говоря, наказывать по и одновременно всех. Этот блеф пропадает, если ' U = Ur X . . . X Un и wi = fi (х, ut), Ui. Суммируя не совсем строгие рассуждения, имеем вывод. Теорема 4.8. В иерархической системе вида (4.29) максимальный гарантированный результат центра равен (4.31) и (4.32) соответственно при наличии и отсутствии информации об х. Он реализуется соответственно страте- гиями (4.30) и (4.33). Во втором случае блеф относитель- но информированности об х (если производители не знают информированности центра) также позволяет получить (4.31). Результат (4.32) остается справедливым и при про- извольных связанных ограничениях и ЕЕ U.
§ 26] ПОБОЧНЫЕ ПЛАТЕЖИ КАК СРЕДСТВО УПРАВЛЕНИЯ 319 Если в системе общего вида (4.34) производители осто- рожны и не информированы друг о друге, то при отсут- ствии информации об х максимальный гарантированный результат центра равен (4.35) — (4.36) и реализуется с помощью стратегии (4.37), сообщаемой с добавлением обещания обеспечить гщ 4> L} при = Х{. С помощью некоторого блефа в сообщениях производителям центр, имея информацию об х, может рассчитывать на макси- мальный гарантированный результат (4.38) — (4.39). Не- чувствительности 6 j могут быть учтены так же, как и в теореме 4.7. Как видно из этой теоремы, решаемые оптимизацион- ные задачи не требуют переборов. В линейных случаях задачи (4.31) и (4.38) суть задачи линейного программиро- вания. То же относится и к задаче (4.32), если каждое огра- ничение fi (Xi, Uf) -j- zi > SUP ft (Уь ui) заменить на совокупность ограничений Д (xt, и^ 4-(x\, uf), где x\ — граничные точки множества Хг. Таким образом, задачи управления в иерархии типа (1.14) — (1.16) и даже в более общих выглядят довольно обычно при использовании (если это возможно) даже ма- лых побочных платежей центра производителям. Как по- казывают работы [64], [75], эта простота (хотя математи- чески задачи решены) немедленно исчезает, если побочные платежи невозможны. Последнее совершенно естествен- но, например, в играх качества; впрочем, здесь могут поя- виться уже упрощения другого рода. Побочные платежи могут использоваться и для проме- жуточных критериев в играх типа w\ — ср^ (гщ 4- zf), -л 21 Zj — 0, где cpf — монотонные функции. Ясно, что в таком 1=1 случае все вышерассмотренное относительно управления остается без изменения; очевидным образом пересчитыва- ются и максимальные гарантированные результаты. Остановимся теперь на вопросе о выгодности коали- ций для производителей в условиях использования ими самими побочных платежей. В общем случае побочные платежи обычно обеспечивают получение всеми коалицио- нерами больше своих L:, даже при независимости произво-
320 НЕКОТОРЫЕ ИГРОВЫЕ МОДЕЛИ ДЛЯ МНОГИХ ЛИЦ [ГЛ. IV дителей и в условиях наказания центром коалиции. Это особенно хорошо видно при неограниченных побочных пла- «Й Д тежах, когда критерий коалиции имеет вид >t (яъ и). Оче- г—1 п п видно, Le = max min 3 Л и) 3 тах т*п Л (#ь и) = х и г==1 г=1 xi и п = У| Д. Неравенство обычно строгое, если и) не г==1 вырождаются в /г- (xt, щ) при U = Ur X . . . X Un. Но строгость неравенства означает, что разумные действия коалиции обеспечивают всегда коалиционерам более чем Li. Нетрудно проверить, что переход от (4.31) к (4.25) при п L2 = У| Li изменяет наибольший гарантированный i—1 результат центра, не уменьшая одновременно результатов производителей, которые получат в коалиции не просто больше Li, а больше чем Lt плюс некоторый процент от г=1 Итак, объединение в коалицию производителей в ие- рархических системах им, вообще говоря, выгодно или во всяком случае не ухудшает их результатов. Для цент- ра же результат может и уменьшиться. Однако это сопро- вождается значительным упрощением управления из-за упрощения оптимизационных задач, а потому может быть выгодно центру. Если же все-таки коалиция ему очень не- выгодна, то он может пытаться ее разрушить примерно так же, как это показано в § 24. Разумеется, при большом числе производителей соответствующие исследования бу- дут сильно усложняться, сохраняя основные идеи. Воз- можно, что и в этом случае использование побочных пла- тежей может упростить исследования; однако это лишь предположение.
ЛИТЕРАТУРА 1. Дж. фон Нейман, О. Моргенштерн, Теория игр и экономическое поведение, М., «Наука», 1970. 2. Дж. Нэш, Бескоалиционные игры, сб. «Матричные игры», М., Физматгиз, 1961, 205—221. 3. Г. У. К у н, Позиционные игры и проблема информации, сб. «Позиционные игры», М., «Наука», 1967, 13—40. 4. Н. Н. Воробьев, Современное состояние теории игр, Труды I Всесоюзной конференции по теории игр (Ереван, 1968), Изд. АН Армянской ССР, Ереван, 1973, 5—57. 5. Г. Оуэн, Теория игр, М., «Наука», 1971. 6. Ю. Б. Гермейер, Введение в теорию исследования опе- раций, М., «Наука», 1971. 7. Д. А. Молодцов, Модель Гросса в случае непротивопо- ложных интересов, ЖВМ и МФ 12, 2, 1972, 309—320. 8. В. А. Горелик, Принцип гарантированного результата в неантагонистических играх двух лиц с обменом информацией, сб. «Исследование операций», вып. 2, М., Изд. ВЦ АН СССР, 1971, 102—118. 9. В. А. Горелик, Игры с близкими интересами, ЖВМ и МФ 11, 5, 1971, 1166—1179. 10. Ю. Б. Г е р м е й е р, Н. Н. М о и с е е в, О некоторых за- дачах теории иерархических систем управления, сб. «Проблемы прикладной математики и механики», М., «Наука», 1971, 30—43. 11. Ю. Б. Г е р м е й е р, Игровые концепции в исследовании си- стем, Изв. АН СССР, Техническая кибернетика, 2, 1970, 25—33. 12. В. А. Лефевр, Конфликтующие структуры, М., «Высшая школа», 1967. 13. Ховард (N. Howard), Theory of meta-games, сб. «General systems», 11, 1966, 187—200. 14. Ю. Б. Гермейер, Тезисы о принятии решений в играх с непротивоположными интересами, Известия высших учебных заведений, Радиофизика 15, 7, 1972, 972—981. 15. Ю. Б. Г е р м е йе р, Об играх двух лиц с фиксированной по- следовательностью ходов, ДАН 198, 5, 1971, 1001—1004. 16. Н. С. Кукушкин, Роль взаимной информированности сторон в играх двух лиц с непротивоположными интересами, ЖВМ и МФ 12, 4, 1972, 1029—1034. 17. А. Ф. Кононенко, Роль информации о функции цели противника в играх двух лиц с фиксированной последователь- ностью ходов ЖВМ и МФ 13, 2, 1973, 311—317. 18. Дж. Д а н с к и н, Теория максимина и ее приложение к зада- чам распределения вооружений, М., «Сов. радио», 1970.
322 Литература 19. В. Ф. Демьянов, В. Н. М а л о з е м о в, Введение в минимакс, М., «Наука», 1972. 20. Ю. Б. Г е р м е й е р, Приближенное сведение с помощью штрафных функций задачи определения максимина к задаче определения максимума, ЖВМ и МФ 9, 3, 1969, 730—731. 21. В. В. Ф е д о р о в, О методе штрафных функций в задаче определения максимина, ЖВМ и МФ 12, 2, 1972, 321—333. 22. В. В. Ф е д о р о в, К задаче поиска последовательного мак- симина, ЖВМ и МФ 12, 4, 1972, 897—908. 23. Ю. Б. Г е р м е й е р, И. А. Крылов, Поиск максиминов методом «невязок», ЖВМ и МФ 12, 4, 1972, 871—881. 24. X. Н и к а й д о и К. И с о д а, Заметки о бескоалиционных выпуклых играх, сб. «Бесконечные антагонистические игры», М., Физматгиз, 1963, 449—458. 25. А. С. Белоцерковский, Принцип максимальной ус- тойчивости, Труды I Всесоюзной конференции по теории игр (Ереван, 1968). Изд. АН Армянской ССР, Ереван, 1973, 70—73. 26. Н. Н. Моисеев, Элементы теории оптимальных систем, М., «Наука», 1975. 27. А. Г. Сухарев, Наилучшие стратегии последовательного поиска экстремума, ЖВМ и МФ 12, 1, 1972, 35—50. 28. С. А. П и я в с к и й, Алгоритм отыскания абсолютного ми- нимума функций, Теория оптимальных решений, семинар И К АН УССР, вып. 2, 1967, 18—24. 29. Ю. Г. Евтушенко, Численный метод поиска глобального экстремума функций (перебор на неравномерной сетке), ЖВМ и МФ 11, 6, 1971, 1390—1403. 30. Р. Г. С т р о н г и н, Об одном алгоритме глобальной миними- зации, Известия высших учебных заведений, Радиофизика 13, 4, 1970, 539-545. 31. В. В. М о р о з о в, Об одном способе образования коалиций, ЖВМ и МФ И, 3, 1971, 611-622. 32. Джиллис (G. Gillies), Solution to general nonzero-sum ga- mes, сб. «Contributions to the theory of games» IV, Ann. Math. Studies, 40, Princeton Univ. Press, 1959, 47—86. 33. О. H. Бондарева, Некоторые применения методов ли- нейного программирования к теории кооперативных игр. Про- блемы кибернетики 10, 1963, 119—139. 34. Лукас (W. F. Lucas), A game with no solution, Bull. Amer. Math. Soc. 74, 2, 1968, 237—239. 35. Ауман, Машлер (R. J. Aumann, M. Maschler), The bar- gaining set for cooperative games, сб. «Advances in game theory», Ann. Math. Studies 52, Princeton Univ. Press, 1964, 443—476. 36. В. В. Морозов, Об одном подходе к кооперативным иг- рам, ЖВМ и МФ 13, 3, 1973, 781—787. 37. С. А. Орловский, Матричные игры с запрещенными ситуациями, ЖФМ и МФ И, 3, 1971, 623—631. 38. С. А. Орловский, Бесконечные игры двух ; лиц с запре- щенными ситуациями, ЖВМ и МФ 13, 3, 1973, 775—781. 39. А. Ф. Кононенко, Н. С. Кукушкин, Смешанные стратегии в играх с фиксированной последовательностью ходов, ДАН 209, 6, 1973, 1274—1277.
ЛИТЕРАТУРА 323 40. Ф. И. Е р ешк о, А. Ф. К о н о н е и к о, Решение игры с правом первого хода при неточной информации о цели парт- нера, ЖВМ и МФ 13, 1, 1973, 217—221. 41. Н. С. Кукушкин, Об одной игре с неполной информаци- ей, ЖВМ и МФ 13, 1, 1973, 210—216. 42. И. А. В а т е л ь, Н. С. К у к у ш к и н, Оптимальное по- ведение игрока, обладающего правом первого хода, при неточном знании интересов партнера, ЖВМ и МФ 13, 2, 1973, 303—310. 43. Е. С. Л е в и т и н, Б. Т. Поляк, Методы минимизации при наличии ограничений, ЖВМ и МФ 6, 5, 1966, 787—823. 44. В. А. Горелик, Приближенное нахождение максимина с ограничениями, связывающими переменные, ЖВМ и МФ 12, 2, 1972, 510-517. 45. Ю. Б. Гермейер, А. Ф. Кононенко, Игры со вспо- могательными критериями эффективности, Изв. АН СССР, Техническая кибернетика, 1, 1973, 3—10. 46. И. А. В а т е л ь, Ф. И. Е р е ш к о, Математика конфликта и сотрудничества, М., «Знание», 1973. 47. Ю. Б. Гермейер, Слабоустойчивые совместные решения в повторяющихся играх, ДАН 216, 3, 1974, 481—484. 48. Б. И. Бутрим, Модифицированное решение задачи торга, ЖВМ и МФ 16, 2, 1976, 340—350. 49. Р. Л ь ю с, X. Р а й ф а, Игры и решения, М., ИЛ, 1961. 50. Ю. М. Е р м о л ь е в, О методе обобщенных стохастических градиентов и стохастических квазифейеровских последователь- ностях, Кибернетика, Киев, 2, 1969, 73—83. 51. В. В. Федоров, Необходимые условия оптимальности в игре с передачей информации, ЖВМ и МФ 15, 2, 1975, 505—508. 52. Ю. Б. Г е р м е й е р, Ф. И. Е р е ш к о, Побочные платежи в играх с фиксированной последовательностью ходов, ЖВМ и МФ 14, 6, 1974, 1437—1450. 53. В. 3. Б е л е н ь к и й, В. А. Волконский, С. А. Иванков и др., Итеративные методы в теории игр и про- граммировании, М., «Наука», 1974. 54. Ю. Б. Гермейер, И. А. В а т е л ь, Игры с иерархиче- ским вектором интересов, Изв. АН СССР, Техническая кибер- нетика, 3, 1974, 54—69. 55. Ю. Б. Гермейер, Игровые принципы в исследовании систем, сб. «Методы управления большими системами», Иркутск, Изд. СЭИ, 1970. 56. Э. И. Вилка с, Теоретико-игровые принципы оптимально- сти, Диссертация, Институт физики и математики АН Литов- ской ССР, Вильнюс, 1972. 57. М. Шубик, Гейминг и теория игр, сб. «Математика сегодня», М., «Знание», 1974. 58. Д. А. Молодцов, Один класс игр с запрещенными ситуа- циями, Тезисы III Всесоюзной конференции по теории игр, Одесса, 1974. 59. И. А. В а т е л ь, О математических моделях стимулирования в экономике, сб. «Планирование и управление экономическими целенаправленными системами», Новосибирск, «Наука», 1974, 52—63.
324 ЛИТЕРАТУРА 60. В. И. Прокопенко, Об одной игре с инертным партне- ром, ЖВМ и МФ 15, 3, 1975, 795—799. 61. Р. А. В е д е р н и к о в, А. Ф. К о н о н е н к о, О при- нятии решений в двухуровневой иерархической системе управ- ления при неполной информации о нижнем уровне, Изв. АН СССР, Техническая кибернетика, 2, 1976, 13—22. 62. Д. А. Молодцов, Один класс игр с непротивоположными интересами, ЖВМ и МФ 15, 3, 1975, 789—795. 63. В. А. Горелик, В. В. Федоров, Метод внешней точки в задаче определения краткого максимина с ограничениями, ЖВМ и МФ 15, 3, 1975, 599—607. 64. А. Ф. Кононенко, Теория игр и иерархические структу- ры, сб. «Планирование и управление экономическими целена- правленными системами», Новосибирск, «Наука», 1974, 63—72. 65. Д. А. М о л о д ц о в, В. В. Ф е д о р о в, Аппроксимация игр двух лиц с передачей информации, ЖВМ и МФ 13, 6, 1973, 1469—1484. 66. В. В. Федоров, Методы поиска максимина, Изд. Москов- ского университета, 1975. 67. Д. А. Молодцов, Методы решения одного класса игр с не- противоположными интересами, Диссертация, Московский университет, 1974. 68. Н. С. Кукушкин, Точки равновесия в метаиграх, ЖФМ и МФ 14, 2, 1974, 312—320. 69. Т. Н. Данильченко, К. К. М о с е в и ч, Многошаго- вые игры двух лиц с фиксированной последовательностью ходов, ЖВМ и МФ 14, 4, 1974, 1047—1052. 70. Т. Н. Данильченко, К. К. М о с е в и ч, Многошаго- вая игра двух лиц при «осторожном» втором игроке и последо- вательной передаче информации, ЖВМ и МФ 14, 5, 1974, 1323—1327. 71. Я. 3. Цыпкин, Адаптация и обучение в автоматических системах, М., «Наука», 1968. 72. И. С. Меньшиков, Игра трех лиц с фиксированной по- следовательностью ходов, ЖВМ и МФ 15, 5, 1975, 1148—1156. 73. Н. М. Новикова, Игры 2-х и 3-х лиц со связанными огра- ничениями при фиксированном порядке ходов, ЖВМ и МФ 16, 2, 1976, 326-339. 74. Ю. Б. Г е р м е й е р, М. С. Ш т и л ь м а н, Некооператив- ные повторяющиеся игры с произвольным дисконтированием, ДАН 211, 1, 1975, 22—25. 75. А. Ф. Кононенко, Теоретико-игровой анализ двухуровне- вой иерархической системы управления, ЖВМ и МФ 14, 5, 1974, 1161-1170. 76. Е. Г. Гольштейн, Теория двойственности в математи- ческом программировании и ее приложения, М., «Наука», 1971. 77. М. С. Ц е т л и н, Исследования по теории автоматов и моде- лированию биологических систем, М., Физматгиз, 1969, 78. С. А. Орловский, Игры п лиц с неполными связями, ЖВМ и МФ 12, 4, 1972, 1022—1029. 79. Ю. Б. Г е р м е й е р, Игры с непротивоположными интере- сами, Изд. Московского университета, 1972.
ЛИТЕРАТУРА 325 80. О. Н. Б о н д а р е в а, О теоретико-игровых моделях в эко- номике, Изд. Ленинградского университета, 1974. 81. Ю. Б. Г е р м е й е р, К теории игр трех лиц, ЖВМ и МФ 13, 6, 1973, 1459-1468. 82. Л. В. А г а п о в а, Об устойчивости решений в повторяю- щихся кооперативных играх, ЖВМ и МФ 16, 1, 1976, 48—60. 83. И. С. Меньшиков, Игра п лиц с фиксированной после- довательностью ходов, ЖВМ и МФ 16, 3, 1976, 634—639. 84. В. А. Горелик, В. В. Федоров, Метод внутренней точки в задаче определения кратного максимина с ограниче- ниями, ЖВМ и МФ 15, 4, 1975, 883—894. 85. И. А. В а т е л ь, Я. Н. Д р а н е в, Об одном классе по- вторяющихся игр с неполной информацией в двухуровневой экономической системе, Труды международной конференции «Моделирование экономических процессов» (Ереван, 1974), М., Изд. ВЦ АН СССР, 1975, 224-238. 86. Я. Н. Д р а н е в, Выявление интересов партнера в повторя- ющейся игре с линейными критериями, Изв. АН СССР, Тех- ническая кибернетика, 4, 1976, 37—45. 87. И. А. В а т е л ь, Ф. И. Е р е ш к о, А. Ф. Кононенко, Игры с фиксированной последовательностью ходов и иерархи- ческие системы управления в экономике, сб. «Методы оптими- зации и их приложения», Иркутск, Изд. СЭИ, 1974, 85—99.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Абсолютно оптимальная стратегия 41, 73 -------частичная 81 Антагонизм 13, 108 Арбитраж 57, 122 Арбитражная схема Нэша 43, 57 «Безразличие» природы 14, 67 Бесконечное повторение игры 291 Благожелательность партнера 208, 312 Блеф 46 — корректный 48, 88, 172, 242, 245, 313, 318 — некорректный 48, 87, 214 Введение новых критериев эффектив- ности 42 Вектор дележей 53, 56, 123 — Парето’ 43, 111, 141 — Шепли 43 Вероятность «жизнеспособности» ко- алиции 63 Весовые коэффициенты свертки 55 Взаимная информированность 43 Выявление неизвестных интересов 267 Гросса задача обобщенная 16, 73, 212 Двухэтапная задача стохастической оптимизации 64 Диктат в коалиции 122 Дилемма заключенного 78, 90, 105 Динамика в играх двух лиц 249 — в получении информации 32, 42 Дисконтирующая последователь- ность 290 — — экспоненциально убывающая 296 Замыкание) игры 26, 35, 151 Запаздывание в наказании 150 — в получении информации 258 Зона нечувствительности коалиции 149 Игра антагонистическая 29, 144 — — с запрещенными ситуациями — Г8 232 — идеальная 209, 234, 258 — качества 151 — несущественная 123, 127 — повторяющаяся 27, 116, 130, 259 — с близкими интересами 23. 223 Игра с вспомогательными критериями эффективности 240 — с запрещенными ситуациями 15, 25, 165 — с полной информацией 35 — с природой 13 — существенная 123, 127 — с фиксированным порядком ходов 83, 157, 176 — типа «соревнование» 18, 73, 90, 204 — циклическая 31 Игровая обстановка 23 Иерархические системы 19, 79, 87, 104, 205, 245, 307 Изоляционизм 42, 153 Информация с ошибкой 33 Исследователь операции 24 Коалиция 43, 50 — лексикографическая 58 — фон Неймана 57, 275 — частичная 58, 110 Коллективизм 42 Компромисс 43 Конкуренты на рынке 17 Конфигурация 126 Корректность задачи о максималь- ном гарантированном результате Коэффициент дисконтирования 131 Критерий качества 121, 151 Максимальная устойчивость коали- ционного решения 136, 304 Максимин 65 — со связанными переменными 91 Метаигры 35, 105, 236 Метод невязок 70 — сеток 229 — штрафных функций 217 Минимакс 67 Минимаксимин 67 Множество Парето 111 — ситуаций, в которых оказывается игра после выбора первого игро- ка 83 — «физических» ограничений 24, 32, 38, 82, 86, 110 Наказывающие повторения 132, 142 Нарушение согласованного решения 128, 131, 147 Неединственность ситуации равно- весия 104, 240 Независимость интересов 13 Нерешительность игрока 22, 26. 187
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 32? Неточная информация об интересах партнеров 29, 192, 222, 247, 313 Нечувствительность игрока по кри- терию 28, 30, 177 НМ-решение 126 Область возможных компромиссов 108 Обмен информацией 43, 50, 168 ----- добровольный 45, 161 Общая цель коалиции 54 я Объединение ресурсов 50, 58, НО Объективное описание игры 23, 24 Однотипные (или сравнимые) кри- терии эффективности 27, 57 Операция 9 Оперирующая сторона 9, 24 Оптимальный выбор 38 Оптимизация векторная 11 Осреднение критерия 36, 51, 62, 65 Осторожность игрока 184, 200, 243, 259 Отказ от выплаты побочных плате- жей 129, 299 Отношение доминирования 124 Параметрическая оптимизация 65 Первый ход 20, 79 Переговорное множество 111 Передача информации 48, 83, 231 — — об интересах 241 — — о стратегии 86, 89, 170 Побочные платежи 28, 37, 51, 61, 307 ----- априорные 129 — — коалиции как целого 51 — — неограниченные 28, 53, 127 Порядок ходов 34, 85 Право первого хода 83, 95, 145 Принцип гарантированного резуль- тата 17, 43, 84 Природные неопределенности 24, 26, 103 Прогнозирование результата 39, 64 Противоположность интересов 13 Психологические процессы отраже- ния 35 Распределение ресурсов 120, 235 Рациональный выбор 38 Регуляризация задачи вычисления максимина 225 Регулярная совокупность множеств стратегий 97 Решение 126 — в конфигурациях 127 Сведение максимальной задачи к оп- тимизационной 69, 219 Свертка критериев 55 Сепаратные действия 128 Ситуация (исход) 32, 34 — равновесия 44, 155, 290 ----- в метаиграх 238, 286 -----в смешанных стратегиях 103 — — наилучшая 106 — — нестрогая 93 ----- строгая 93 — — тривиальная 291, 296 Совпадение интересов 13, 98 Согласованное (коллективное) реше- ние коалиции 130 ----------«нежесткое» 147, 149 ----------слабо устойчивое 140 ----------L-устойчивое 292, 298 — —-------L'-устойчивое 292 Сообщество с согласованным векто- ром интересов 23, 58, 76, 106 Стратегии 32 — наибольшего поощрения 82 — наказания 81 -----частичные 82 — смешанные 35, 51, 72, 174, 180, 190 — — совместные 51 — частные 36, 114 Субъективное описание игры 23, 29, 31, 87, 152 Супераддитивная функция 123 Торг в коалиции 56, 121 Условия существования коалиции 62 Устойчивость 43 — коллективных решений 130 Фиктивные игроки 22, 26, 36, 85, 102 Характеристическая функция 53, 122 Штраф за нарушение ограничений 15, 22 24 Ядро 124, 129 е-абсолютно оптимальная стратегия 74, 100 е-ситуация равновесия 93
Юрий Борисович Гермейер ИГРЫ G НЕПРОТИВОПОЛОЖНЫМИ ИНТЕРЕСАМИ (Серия: «Оптимизация и исследование операций») М., 1976 г., 328 стр. с илл. Редакторы И. А. Ватель, Ф. И. Ерешко Техн, редактор Н. В. Кошелева Корректоры Т. С. Плетнева, И. В. Хорошаева Сдано в набор 26.05.1976 г. Подписано к печати 15.10.1976 г. Бумага 84хЮ8Нз2- Физ. печ. л. 10,254-1 вкл. Условн. печ. л. 17,3. Уч.-изд. л. 17,39. Тираж 9700 экз. Т-15187 Цена книги 1 р. 36 к. Заказ № 859 Издательство «Наука» Главная редакция физико-математической литературы 117071, Москва, В-71, Ленинский проспект, 15 2-я типография издательства «Наука». Москва, Шубинский пер., 10