IMG_20191121_0001
IMG_20191121_0002
IMG_20191121_0003_2R
IMG_20191121_0004_1L
IMG_20191121_0004_2R
IMG_20191121_0005_1L
IMG_20191121_0005_2R
IMG_20191121_0006_1L
IMG_20191121_0006_2R
IMG_20191121_0007_1L
IMG_20191121_0007_2R
IMG_20191121_0008_1L
IMG_20191121_0008_2R
IMG_20191121_0009_1L
IMG_20191121_0009_2R
IMG_20191121_0010_1L
IMG_20191121_0010_2R
IMG_20191121_0011_1L
IMG_20191121_0011_2R
IMG_20191121_0012_1L
IMG_20191121_0012_2R
IMG_20191121_0013_1L
IMG_20191121_0013_2R
IMG_20191121_0014_1L
IMG_20191121_0014_2R
IMG_20191121_0015_1L
IMG_20191121_0015_2R
IMG_20191121_0016_1L
IMG_20191121_0016_2R
IMG_20191121_0017_1L
IMG_20191121_0017_2R
IMG_20191121_0018_1L
IMG_20191121_0018_2R
IMG_20191121_0019_1L
IMG_20191121_0019_2R
IMG_20191121_0020_1L
IMG_20191121_0020_2R
IMG_20191121_0021_1L
IMG_20191121_0021_2R
IMG_20191121_0022_1L
IMG_20191121_0022_2R
IMG_20191121_0023_1L
IMG_20191121_0023_2R
IMG_20191121_0024_1L
IMG_20191121_0024_2R
IMG_20191121_0025_1L
IMG_20191121_0025_2R
IMG_20191121_0026_1L
IMG_20191121_0026_2R
IMG_20191121_0027_1L
IMG_20191121_0027_2R
IMG_20191121_0028_1L
IMG_20191121_0028_2R
IMG_20191121_0029_1L
IMG_20191121_0029_2R
IMG_20191121_0030_1L
IMG_20191121_0030_2R
IMG_20191121_0031_1L
IMG_20191121_0031_2R
IMG_20191121_0032_1L
IMG_20191121_0032_2R
IMG_20191121_0033_1L
IMG_20191121_0033_2R
IMG_20191121_0034_1L
IMG_20191121_0034_2R
IMG_20191121_0035_1L
IMG_20191121_0035_2R
IMG_20191121_0036_1L
IMG_20191121_0036_2R
IMG_20191121_0037_1L
IMG_20191121_0037_2R
IMG_20191121_0038_1L
IMG_20191121_0038_2R
IMG_20191121_0039_1L
IMG_20191121_0039_2R
IMG_20191121_0040_1L
IMG_20191121_0040_2R
IMG_20191121_0041_1L
IMG_20191121_0041_2R
IMG_20191121_0042_1L
IMG_20191121_0042_2R
IMG_20191121_0043_1L
IMG_20191121_0043_2R
IMG_20191121_0044_1L
IMG_20191121_0044_2R
IMG_20191121_0045_1L
IMG_20191121_0045_2R
IMG_20191121_0046_1L
IMG_20191121_0046_2R
IMG_20191121_0047_1L
IMG_20191121_0047_2R
IMG_20191121_0048_1L
IMG_20191121_0048_2R
IMG_20191121_0049_1L
IMG_20191121_0049_2R
IMG_20191121_0050_1L
IMG_20191121_0050_2R
IMG_20191121_0051_1L
IMG_20191121_0051_2R
IMG_20191121_0052_1L
IMG_20191121_0052_2R
IMG_20191121_0053_1L
IMG_20191121_0053_2R
IMG_20191121_0054_1L
IMG_20191121_0054_2R
IMG_20191121_0055_1L
IMG_20191121_0055_2R
IMG_20191121_0056_1L
IMG_20191121_0056_2R
IMG_20191121_0057_1L
IMG_20191121_0057_2R
IMG_20191121_0058_1L
IMG_20191121_0058_2R
IMG_20191121_0059_1L
IMG_20191121_0059_2R
IMG_20191121_0060_1L
IMG_20191121_0060_2R
IMG_20191121_0061_1L
IMG_20191121_0061_2R
IMG_20191121_0062_1L
IMG_20191121_0062_2R
IMG_20191121_0063_1L
IMG_20191121_0063_2R
IMG_20191121_0064_1L
IMG_20191121_0064_2R
IMG_20191121_0065_1L
IMG_20191121_0065_2R
IMG_20191121_0066_1L
IMG_20191121_0066_2R
IMG_20191121_0067_1L
IMG_20191121_0067_2R
IMG_20191121_0068_1L
IMG_20191121_0068_2R
IMG_20191121_0069_1L
IMG_20191121_0069_2R
IMG_20191121_0070_1L
IMG_20191121_0070_2R
IMG_20191121_0071_1L
IMG_20191121_0071_2R
IMG_20191121_0072_1L
IMG_20191121_0072_2R
IMG_20191121_0073_1L
IMG_20191121_0073_2R
IMG_20191121_0074_1L
IMG_20191121_0074_2R
IMG_20191121_0075_1L
IMG_20191121_0075_2R
IMG_20191121_0076_1L
IMG_20191121_0076_2R
IMG_20191121_0077_1L
IMG_20191121_0077_2R
IMG_20191121_0078_1L
IMG_20191121_0078_2R
IMG_20191121_0079_1L
IMG_20191121_0079_2R
IMG_20191121_0080_1L
IMG_20191121_0080_2R
IMG_20191121_0081_1L
IMG_20191121_0081_2R
IMG_20191121_0082_1L
IMG_20191121_0082_2R
IMG_20191121_0083_1L
IMG_20191121_0083_2R
IMG_20191121_0084_1L
IMG_20191121_0084_2R
IMG_20191121_0085_1L
IMG_20191121_0085_2R
IMG_20191121_0086_1L
IMG_20191121_0086_2R
IMG_20191121_0087_1L
IMG_20191121_0087_2R
IMG_20191121_0088_1L
IMG_20191121_0088_2R
IMG_20191121_0089_1L
IMG_20191121_0089_2R
IMG_20191121_0090_1L
IMG_20191121_0090_2R
IMG_20191121_0091_1L
IMG_20191121_0091_2R
IMG_20191121_0092_1L
IMG_20191121_0092_2R
IMG_20191121_0093_1L
IMG_20191121_0093_2R
IMG_20191121_0094_1L
IMG_20191121_0094_2R
IMG_20191121_0095_1L
IMG_20191121_0095_2R
IMG_20191121_0096_1L
IMG_20191121_0096_2R
IMG_20191121_0097_1L
IMG_20191121_0097_2R
IMG_20191121_0098_1L
IMG_20191121_0098_2R
IMG_20191121_0099_1L
IMG_20191121_0099_2R
IMG_20191121_0100_1L
IMG_20191121_0100_2R
IMG_20191121_0101_1L
IMG_20191121_0101_2R
IMG_20191121_0102_1L
IMG_20191121_0102_2R
IMG_20191121_0103_1L
IMG_20191121_0103_2R
IMG_20191121_0104_1L
IMG_20191121_0104_2R
IMG_20191121_0105_1L
IMG_20191121_0105_2R
IMG_20191121_0106_1L
IMG_20191121_0106_2R
IMG_20191121_0107_1L
IMG_20191121_0107_2R
IMG_20191121_0108_1L
IMG_20191121_0108_2R
IMG_20191121_0109_1L
IMG_20191121_0109_2R
IMG_20191121_0110_1L
IMG_20191121_0110_2R
IMG_20191121_0111_1L
IMG_20191121_0111_2R
IMG_20191121_0112_1L
IMG_20191121_0112_2R
IMG_20191121_0113_1L
IMG_20191121_0113_2R
IMG_20191121_0114_1L
IMG_20191121_0114_2R
IMG_20191121_0115_1L
IMG_20191121_0115_2R
IMG_20191121_0116_1L
IMG_20191121_0116_2R
IMG_20191121_0117_1L
IMG_20191121_0117_2R
IMG_20191121_0118_1L
IMG_20191121_0118_2R
IMG_20191121_0119_1L
IMG_20191121_0119_2R
IMG_20191121_0120_1L
IMG_20191121_0120_2R
IMG_20191121_0121_1L
IMG_20191121_0121_2R
IMG_20191121_0122_1L
IMG_20191121_0122_2R
IMG_20191121_0123_1L
IMG_20191121_0123_2R
IMG_20191121_0124_1L
IMG_20191121_0124_2R
IMG_20191121_0125_1L
IMG_20191121_0125_2R
IMG_20191121_0126_1L
IMG_20191121_0126_2R
IMG_20191121_0127_1L
IMG_20191121_0127_2R
IMG_20191121_0128_1L
IMG_20191121_0128_2R
IMG_20191121_0129_1L
IMG_20191121_0129_2R
IMG_20191121_0130_1L
IMG_20191121_0130_2R
IMG_20191121_0131_1L
IMG_20191121_0131_2R
IMG_20191121_0132
IMG_20191121_0133

Author: Пропой А.И.  

Tags: математика  

Year: 1973

Text
                    ОПТИМИЗАЦИЯ
И ИССЛЕДОВАНИЕ
ОПЕРАЦИЙ
А. И. ПРОПОЙ
Элементы теории
оптимальных
дискретных
процессов

к

ОПТИМИЗАЦИЯ И ИССЛЕДОВАНИЕ ОПЕРАЦИЙ Редактор серии Н. Н. МОИСЕЕВ ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ МОСКВА 1973
А. И. ПРОПОЙ ЭЛЕМЕНТЫ ТЕОРИИ ОПТИМАЛЬНЫХ ДИСКРЕТНЫХ ПРОЦЕССОВ ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ МОСКВА 1973
517.8 П 81 УДК 519.95 Элементы теории оптимальных дис- кретных процессов. А. И. Пропой. Главная редакция физико-математиче- ской литературы изд-ва «Наука», 1973, стр. 256. Задачи оптимального управления дискретными системами возникают при текущем и перспектив- ном планировании экономики, оптимизации слож- ных технологических систем, в различных вопросах организации производства и исследования опера- ций, при управлении непрерывными процессами с помощью цифровых вычислительных машин. До последнего времени к таким задачам был известен только один подход, связанный с динамическим программированием Р. Веллмана. В настоящей книге развивается другой под- ход, связанный с аппаратом принципа максимума Л. С. Понтрягина и нелинейным программирова- нием. Рассмотрены условия оптимальности, соотно- шения двойственности и вычислительные методы. Исследуется связь между условиями оптимальнос- ти для дискретных и непрерывных систем. Библ.— 224. Илл.— 21. П 0223—1722 „„ О 42(02)-73 67’73
ОГЛАВЛЕНИЕ Предисловие Глава I. Постановка задачи § 1. Примеры задач дискретного управления § 2. Общая постановка задачи § 3. Типы задачи..................... § 4. Множества достижимости § 5. Линейные системы .... § 6. Существование оптимального управления 7 11 11 16 21 27 29 31 Глава II. Одиошаговая задача оптимизации . • § 1. Некоторые сведения из n-мерной геометрии и тео- рии выпуклых множеств................................. 34 § 2. Постановка задачи........................................... • 3° § 3. Конусы допустимых вариаций................. § 4. Условия оптимальности. I...................................................................... 44 § 5. Принцип максимума........................... ™ § 6. Условия одноэкстремальности .... 4° § 7. Двойственность ............................................................. 4° § 8. Функция Лагранжа ................................... 30 § 9. Седловая точка и оптимальность ... 56 § 10. Условия оптимальности. II. Теорема Куна—Таккера 57 § 11. Вычислительные методы. Классификация . . 59 § 12. Оценка приближения......................................... 6Q § 13. Методы возможных направлений .... 63 § 14. Ограничения в виде равенств................................ 67 § 15. Двойственные методы ...... 68 § 16. Методы одновременного решения прямой и двой- ственной задач................................................................................ 73 "лава III. Условия оптимальности....................................................................... 76 § 1. Сопряженная система............................................................................ 76 § 2. Задача оптимизации конечного состояния . . 79 § 3. Доказательство теоремы 2.1..................................................................... 82 § 4. Вырожденный случай............................................................................. 89 § 5. Задача с суммарным показателем качества . . 91 § 6. Задача с ограничениями на переменные состояния 92 Л Принцип максимума........................................................................... 99 § 1. Функция Гамильтона на оптимальном управлении . 99 § 2. Задача оптимизации конечного состояния . . 102 § 3. Задача с суммарным показателем качества . . 104 | 4- Принцип квазимаксимума........................................................................ 106 § 5. Условия одноэкстремальности . . . , . 112 § 6. Линейные системы.............................................................................. 115
ОГЛАВЛЕНИЕ Глава V. Двойственность в управлении .... § 1. Двойственные задачи управления § 2. Соотношения двойственности . . . . § 3. Седловая точка и оптимальность . . . . § 4. Задача с суммарным показателем качества § 5. Достаточные условия оптимальности § 6. Двойственная задача управления . . . . § 7. Учет ограничений......................... § 8. Условия оптимальности для задачи с ограниче- ниями на переменные состояния .................... § 9. Принцип максимума для задачи с ограничениями на переменные состояния........................... § 10. Теорема Куна — Таккера для задач управления § 11. Задачи линейного динамического программирова- ния .............................................. § 12. Задачи квадратичного динамического программи- рования ......................................... Глава VI. Вычислительные методы...................... § 1. Оценка приближения....................... § 2. Методы возможных направлений . § 3. Случай отсутствия ограничений на переменные со- стояния .......................................... § 4. Линейная система......................... § 5. Ограничения на переменные состояния. I . ’ . § 6. Линейная система......................... § 7. Ограничения в виде равенств .... § 8. Метод штрафных функций .... § 9. Двойственные методы.................... § 10. Линейная система....................... § 11. Приближение по граничным условиям § 12. Ограничения на переменные состояния. II § 13. Приближение в пространстве управлений . § 14. Обсуждение методов..................... § 15. Системы с запаздыванием .... § 16. Особенности оптимизации дискретных систем Комментарии.......................... . . Литература Предметный указатель 119 119 123 130 132 134 135 138 142 148 149 152 160 164 165 168 171 181 184 190 193 198 201 204 205 209 211 214 216 222 231 241 254
ПРЕДИСЛОВИЕ Дискретные процессы управления приобретают все большее значение в теории и практике оптимального уп- равления. Это связано с тем, что многие задачи эконо- мического планирования, технологии и организации производства, исследования операций, военного дела описываются разностными уравнениями, так как на прак- тике чаще всего и информация о состоянии процесса, и управление процессом осуществляются в дискретные моменты времени, т. е. по шагам. Для решения таких многошаговых задач возможны два подхода. Первый основан на принципе оптимальности Р. Велл- мана и приводит к необходимости решать функциональ- ные уравнения специального вида. Достоинства и воз- можности динамического программирования, развитого на основе этого подхода, хорошо известны, и он доста- точно полно отражен в литературе. Второй — вариационный — подход основан на распро- странении идей и методов математического программиро- вания на многошаговые задачи и смыкается с аппаратом принципа максимума Л. С. Понтрягина, развитого для решения задач оптимального непрерывного управления. Этот подход иногда называют «дискретный принцип мак- симума» (где слово «дискретный» относится, конечно, не к принципу). Математическое программирование связано с задача- ми эффективного использования и распределения ограни- ченных ресурсов, которые сводятся к нахождению экс- тремумов функций многих переменных при ограничениях
8 ПРЕДИСЛОВИЕ в виде равенств и неравенств. В математическом про- граммировании созданы эффективные вычислительные методы, позволяющие решать экстремальные задачи с большим числом переменных и ограничений на них. В осо- бенности это относится к задачам линейного программи- рования, которое нашло широкое применение и оказало сильное воздействие на другие разделы теории матема- тического программирования. Как для самой теории математического программиро- вания, так и для основного круга ее приложений ха- рактерен одноразовый, одношаговый выбор оптимального решения (распределение программы выпуска нужной продукции между несколькими производственными участ- ками, определение наилучшего плана перевозок, выбор оптимального варианта технологии, расчет различного рода сетей, планирование размещения промышленных предприятий, распределение средств поражения по целям и т. п.). Такие задачи являются статистическими задача- ми оптимизации. Однако как только возникает вопрос о развитии си- стемы (и не только во времени, но и в пространстве), об управлении системой, одношаговое решение становит- ся непригодным. В этом случае решение должно быть при- нято на определенное число шагов вперед, и задача оп- тимизации становится многошаговой, динамической. К задачам такого рода относятся задачи перспективного и оперативного планирования, составления программ развития различных систем, задачи планирования боевых операций, расчет многоступенчатых технологических комплексов и т. п. Примеры некоторых таких задач при- ведены в главе I этой книги. С изменением характера задачи мяняется и ее про- блематика. Если для одношаговой задачи основное значе- ние имело нахождение оптимального решения, то для многошаговой задачи наряду с определением самой про-
ПРЕДИСЛОВИЕ 9 граммы оптимального развития системы не меньшее зна- чение имеет и ее практическая реализация, т. е. собствен- но задача управления. Таким образом, теория многошаговых задач оптими- зации должна базироваться как на теории математиче- ского программирования, так и на теории оптимального управления. Конечно, любая многошаговая задача может рассмат- риваться и как статистическая, а для ее решения возмож- но привлечение методов математического программирова- ния. Однако непосредственное применение этих методов для решения многошаговых задач обычно не приводит к цели: получающиеся при этом задачи линейного или не- линейного программирования часто имеют настолько боль- шой размер, что их невозможно решить даже с помощью современной вычислительной техники. Поэтому здесь нуж- на разработка специальных методов, учитывающих дина- мический характер этих задач. Второму подходу и посвящена настоящая книга. Она состоит из шести глав. Содержание их ясно из оглавле- ния. Подробное и детальное изложение всех методов тео- рии управления дискретными процессами не входило в задачи и возможности этой книги, ее цель состояла в рас- смотрении лишь основных идей и методов. Книга предназначена для всех тех, кому приходится сталкиваться с методами оптимизации, как в теоретиче- ском, так и в прикладном плане. Для ее чтения достато- чно знания математики в объеме втуза. Специальных зна- ний по математическому программированию и теории оп- тимального управления не требуется (они сообщаются по ходу изложения), хотя некоторая предварительная ори- ентация в этих вопросах была бы полезна. В самом тексте ссылки на литературу даны самые не- обходимые, в конце книги приведена сравнительно под- робная библиография по теории дискретного управления
10 ПРЕДИСЛОВИЕ и смежным вопросам, а также комментарии к ней и основ- ному тексту книги. В книге принята отдельная нумерация формул, теорем, рисунков для каждого параграфа. При ссылках внутри главы указывается номер параграфа и номер формулы, теоремы, рисунка и т. п., при ссылках на результаты других глав к этим числам добавляется слева номер со- ответствующей главы. Эта книга написана на основе моей диссертации по применению методов математического программирования в дискретном управлении. Пользуюсь случаем, чтобы вы- разить благодарность профессору Я. 3. Цыпкину за постоянное внимание и поддержку этой работы. Считаю своим приятным долгом выразить признатель- ность члену-корреспонденту АН СССР Н. Н. Моисееву за приглашение прочесть лекции по теории дискретного упра- вления во Второй Всесоюзной школе по методам оптими- зации (г. Шемаха, 6—26 июня 1967 г.) и инициативу на- писания этой книги. Наконец, я приношу сердечную признательность В. М. Тихомирову и А. Д. Иоффе за критические заме- чания и дружеское участие, способствовавшие усовер- шенствованию книги. А. Пропой
ГЛАВА 1 ПОСТАНОВКА ЗАДАЧИ § 1. Примеры задач дискретного управления Прежде чем поставить задачу в общем виде, рассмот- рим несколько простых примеров, с тем, чтобы, не вда- ваясь в детали, можно было бы представить специфику некоторых типичных задач оптимального дискретного управления. 1. Задача перспективного планирования. Рассмотрим производство, в котором участвуют п ингредиентов (раз- личные виды производственных факторов, сырья, про- межуточных и конечных продуктов). Имеется т техноло- гических способов организации этого производства. Каж- дый из этих способов в момент времени k (&=0,..., N—1) (£, например, месяц, квартал, год) характеризуется век- тором {&и(&),..., bnj(k)}. Причем, если Ьг-Д^)<0, то величина Ьц(к) определяет затраты f-ro ингредиента при j-м способе производства в период А; если Ьц(к)>0, то bij(k) определяет выпуск f-ro ингредиента при /-м спо- собе. Обозначим через uj(fe) интенсивность использова- ния /-го технологического способа в период k, через Si(k) (i=l,..., n) —величину спроса на продукцию, выпускае- мую в этом периоде. Будем предполагать, что мощности производства тако- вы, что они могут удовлетворить возникающий спрос, т. е. всегда т 2 bi, (k) tij (/г)—st (/?) >o (t = i,.... ti). 3=1 Обозначим через Х/(/г+1) количество продукции, образо- вавшееся на складе к концу периода &-}-1 (запасы в пе- риод &+1). Эта величина складывается из запасов пре- дыдущего периода Xi(k) и образовавшихся излишков в этот период: х{(^ + 1) = х.(^+ (i-l,...,«) =1
12 ПОСТАНОВКА ЗАДАЧИ [ГЛ, I или в векторной форме x(k + 1) = x(k) +B(k)u(k) - s(k) (k = 0,...,N -1). (1.1) Матрица B(k) обычно называется «технологической матрицей». Вообще говоря, если в начале периода & + I на складе имелись запасы в количестве x(k), то к концу этого пе- риода для продажи будет годна только часть, равная A(k’)x(k), где Л(£)==[аи(£)] (i=l,..., п)—диагональ- ная матрица, характеризующая «старение» продукции за период. В этом случае уравнение, описывающее про- цесс, будет х (k + 1) = А (Л) х (k) + B(k)u (k) - s (k) (1.2) (6 = 0,...,AT-1). Обозначим через g(u(k),k) издержки от использова- ния технологических способов с интенсивностями. u(k), через f(x(fe), k) —затраты за хранение готовой продукции на складе в количестве x(k). Тогда общие издержки про- изводства за период планирования определяются суммой N—1 ^[f(x(k),k) + g(u(k),k)]. (1.3) fe=0 Часто эти затраты можно представить в виде линейных функций N—1 j= [(а</г),х(й)) + (&(/г), «(Лг))]. (1.4) ь=о Таким образом, требуется найти такой план (последо- вательность интенсивностей {«(0),..., u(N—1)}),при ко- тором общие затраты (1.3) (или (1.4)), определяемые из уравнений (1.2) (или (1.1)), минимальны. При этом начальные запасы х(0) считаются заданными,в после- дующие периоды должно быть х(6)^0 (6=1,..., N), а значения векторов интенсивностей лежат в некоторой допустимой области: u(k)^Uk (определяющей, напри- мер, ограничения на мощности производства). Заметим, что A(k), B(k), s(k), Uh, a(k) и b(k) долж- ны быть известны заранее (например, строиться, исходя из технических и экономических прогнозов).
§ 1] ПРИМЕРЫ ЗАДАЧ 13 2. Задача оптимального управления запасами. Говоря инженерным языком, задача состоит в создании системы, оптимально следящей за спросом или за заранее опреде- ленным для этой системы планом производства. Рассмотрим, например, работу какого-то производ- ственного объединения или фирмы. Пусть xk(k) = = {xi(k),...,xn(k)}—вектор количества п видовтоваров выпускаемых этой фирмой, имеющихся в наличии на скла- де к концу k-ro периода, В (k) — технологическая мат- рица — Urik)}—вектор интенсивностей (скорость производства), s(k) — {$i(k),..., sn(k)}—век- тор количества товаров, поставленных со склада в k-й период. Тогда так же, как и в примере 1 § 1, уравнение, описывающее процесс, будет иметь вид x(k+1) =x(k) +B(k)u(k) —s(k). Обозначим через x*(k) вектор количества товаров, который желательно иметь к концу k-ro периода; напри- мер, x*(k) может определяться спросом на эти товары, либо просто быть планом производства. Ясно, что работа системы будет тем лучше, чем ближе вектор x(k) к векто- ру x*(k) в каждый период. С другой стороны, слишком точное слежение за «спросом» x*(k) нежелательно, так как оно вызвало бы чрезмерно резкие и частые, а потому дорогие перестройки производственного процесса. Поэто- му естественно определить качество работы системы за плановый период N, например, величиной N n N-1 J= s s «i (k) [х{ (k) - Xl (£)]2 + 2 Ф (« (k), k) . k=l i=l fc=0 Здесь ai(k) >0, функция <p(u(A), k) определяет затра- ты на производство в k-й период. Кроме того, необходи- мо учитывать ограничения на переменные x(k) и u(k), например, вида Xi(k)>Q, 0<u3(^XPi(A) (i=l ,..., п; /=1 ,...,r). 3. Оптимальный расчет химических реакторов. Выше были рассмотрены задачи управления, в которых дискрет- ность возникает из-за того, что либо получение информа- ции об объекте, либо подача управляющих воздействий на объект происходит в дискретные моменты времени. Суще-
14 ПОСТАНОВКА ЗАДАЧИ [ГЛ. I ствует еще большая группа задач, одна из которых будет здесь рассмотрена, где дискретность возникает из-за многоступенчатости процесса в пространстве. К таким задачам относятся, например, задача об оптимальном конструировании многоступенчатой ракеты, задачи рас- чета химических реакторов и т. п. Приведем простейшую задачу такого рода. Рассмот- рим N химических реакторов с одним видом продукта, соединенных между собой последовательно. Пусть х(£) — концентрация продукта на входе А-го реактора, x(k+1) — концентрация на его выходе. Эти концентрации связаны между собой известной зависимостью (она может быть определена либо из теоретических соображений, либо пу- тем моделирования данной реакции на вычислительной машине) x(k+l) =f(x(fe), u(k), k) (fe=0,..., N — 1), (1.5) где u(k) = {ui(£),..., ur(k)} —вектор технологических и расчетных параметров &-го реактора (например, темпера- тура, объем), определяющих его характеристики. Одна из задач, связанная с расчетом такой цепочки реакторов, состоит в том, чтобы выбрать такие значения параметров u(k) каждого реактора, при которых выход конечного продукта x(N) был бы максимальным. При этом начальная концентрация х(0) считается заданной. Другая задача состоит в том, чтобы при заданной конечной концентрации x(N) затраты на постройку такой последовательности реакторов были бы минимальными. Предполагается, что эти затраты являются известной функцией параметров каждого реактора, т. е. в этом случае нужно минимизировать сумму N—1 к=0 4. Транспортная задача. Часто не только динамиче- ские, но и статистические по самой природе задачи удоб- но представлять в виде многошагового процесса. Для примера рассмотрим нелинейную транспортную задачу. Имеется т пунктов производства некоторого продукта. Объем производства f-го пункта равен сц. Весь произве- денный продукт потребляется в п пунктах спроса. Объем потребления /-го пункта равен
§ И ПРИМЕРЫ ЗАДАЧ 15 Пусть Uij — количество единиц продукта, поставлен- ного г-м производителем /-му потребителю. Очевидно, что = (j = 1,..(1.6) У=1 т = (/=!,...,«). (1.7) г=1 Кроме того, ^•^О, (1.8) т. е. считаем, что продукт перевозится только из пунктов производства в пункты потребления. Система предпола- гается замкнутой, т. е. считается, что весь произведенный продукт потребляется: т п 2^=2 bi- i=l j—1 Пусть q>ij(Uij) —расходы на перевозку продукта в ко- личестве иц от t-го производителя к /-му потребителю. Общие расходы выразятся суммой т п J = 2 S Фй‘ i=l j=i (1-9) Требуется составить такой план перевозок иц(1— 1,..., т\ /= 1, . .., п), удовлетворяющий ограничениям (1.6) — (1.8), при которых общие расходы (1.9) были бы мини- мальны. Чтобы привести эту сугубо статическую задачу плани- рования к «динамической», будем предполагать, что со- ставление плана перевозок потребителям осуществляется по шагам, начиная с первого и кончая n-м (например, ус- танавливается приоритет снабжения потребителей). Вве- дем величину к —- 2 и it (k — Ъ • • •, ^)>
16 ПОСТАНОВКА ЗАДАЧИ [ГЛ. 1 обозначающую суммарное количество единиц продукта, перевезенных отг-го производителя к первым k потреби- телям. Очевидно, — %itk—-1 ^ik (А? = 1,. . ., ZZ), (1 • 10) где Xio=O и %in = 2 ~ ai‘ >=1 Таким образом, приходим к следующей эквивалентной формулировке задачи: найти последовательность неотри- цательных величин {ип ,..., uin} (i= 1 ,..., т) (управ- ление и), которые обеспечивают показателю качества (1.9) минимальное значение в силу уравнений «движе- ния» (1.10) с начальным хго=О и конечным Xin=at (i= = 1, . . ., т) условиями. Кроме того, переменные иц дол- жны удовлетворять условию (1.7). Отметим, что такое представление статической задачи в виде многошаговой часто позволяет предложить про- стой и удобный способ ее решения. § 2. Общая постановка задачи В предыдущем параграфе было рассмотрено несколь- ко характерных примеров задач дискретного управления. Из этих примеров видно, что дискретное управление мо- жет рассматриваться как некоторый многошаговый про- цесс. На каждом шаге k этот процесс характеризуется двумя наборами переменных x(k) = {%i(£), ..., xn(k)} и u(k) = {ui(k), ..., ur(k)}. Векторы x(k) определяют co- стояние процесса на А-м шаге и называются переменны- ми состояния либо фазовыми переменными. Например, состоянием процесса могут быть координаты положения и скорости ракеты, или мощности различных технологиче- ских способов производства какого-либо продукта, или концентрации веществ, участвующих в химической реак- ции, и т. п. Знание вектора x(k) полностью определяет процесс на k-м шаге. Вектор x(k) является элементом n-мерного веществен- ного евклидова пространства Еп, которое будем называть пространством состояний и обозначать через X. Часто не- обходимо учитывать ограничения на вектор состояний. На- пример, мощность производства или концентрации веще- ства не может быть отрицательной, скорость ракеты огра-
ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ 17 § 2] ничена и т. д. Таким образом, в общем случае значение вектора x(k) должно принадлежать некоторому подмно- жеству Хк пространства состояний Еп: x(k)<=Xk^En (k=0, 1, .... N). (2.1) Обычно множества Хк задаются набором неравенств ЙДх(^), Jfe)’>0 (/=1, ... ,sk-,k=Q, 1... .,N). (2.1а) Вектор u(k) определяет управляющие воздействия на k-м шаге; управляющие воздействия — это, например, изменение температуры реакции, скорости производства, тяги ракеты и т. п. Вектор u(k) может принимать значе- ния из некоторого заданного подмножества Uk евклидо- ва пространства Ег (пространства управляющих воз- действий) : ; u(k)e=Uk^Er (k=0, I, , W—1); (2.2) в частности, gt(u(k), (i==l,..., m*; k=0, 1,..., TV— 1). (2.2a) Например, температура не может быть отрицательной .(по абсолютной шкале) и не должна превышать опреде- ленной величины (иначе оборудование быстро выйдет из строя); скорость производства, тяга ракеты ограничены. Для ряда задач ограничения задаются совместно на переменные управления и состояния gi(x(k),u(k),k)^0 (i=l,..., mh; 6=0, 1). Например, интенсивность производства ограничена наличными мощностями и т. п. Значения векторов x(k) и u(k) на k-м шаге определя- ют состояние процесса на k+ 1-м шаге: x(£+l)=f(x(&), u(k), k) (£=0, 1,..., N— 1), (2.3) где f = {Л.....fn} — некоторая заданная вектор-функ- ция, определяющая динамику процесса. Назовем последовательность векторов {и(0), ы(1),... ...,u(N—1)) управлением процесса; соответствующую этому управлению в силу уравнений движения (2.3) для некоторого начального состояния х(0) последователь- ность {х(0), х(1),..., х(Л/)} будем называть траекторией процесса и обозначать соответственно через и и х. Оче- А, И. Пропой
18 ПОСТАНОВКА ЗАДАЧИ [ГЛ. I видно выбор управления и кля данного начального со- стояния х(0) полностью определяет из (2.3) соответст- вующую траекторию х} т. е. x=x(x(0),w). Фиксируем некоторое начальное состояние х(0) и возьмем управление и, удовлетворяющее ограничениям (2.1). Если при этом состояния x(k) (&=1, . . . , AQ соот- ветствующей траектории х будут удовлетворять ограниче- ниям (2.2), то такое управление и будем называть допус- тимым для данного начального состояния х(0). Следует отметить, что задачи с ограничениями (2.1) оказались значительно труднее, чем с ограничениями только на управляющие воздействия (т. е. когда векто- рам x(k) разрешается принимать любые значения из пространства состояний). Поэтому задачи, в которых учитываются еще и ог- раничения типа (2.1) или (2.1а), обычно выделяются в специальный класс, который получил название задач с ограничениями на состояния (с фазовыми ограниче- ниями) . Для произвольного управления и и соответствующей траектории определим функционал следующего вида: N-1 J - Ф (N)) + 2 /о (X (6), (£), *), (2.4) ь=о где Ф и fo — заданные скалярные функции, которыми бу- дем оценивать качество процесса управления. Очевидно, j=/(x(0), и). Таким образом, для некоторого начально- го состояния я(0) управление будет тем лучше, чем, на- пример, больше значение функционала /. Задача опти- мального управления состоит в том, чтобы найти наилуч- шее (оптимальное) управление и, т. е. такое, которое доставляет функционалу J наибольшее (в данном случае) значение при ограничениях (2.1), (2.2) и (2.3). Например, требуется в конце периода управления до- стичь максимального производства товаров заданного ас- сортимента, или максимального выхода продукта в хими- ческой реакции, или попасть ракетой в заданную область при минимальном расходе топлива и т. п. Поскольку всегда min 7=—шах(—/), то любую за- дачу оптимизации можно свести к задаче нахождения максимального значения, и в дальнейшем для опреде-
§ 2] ОБЩАЯ ПОСТАНОВКА ЗАДАЧИ 19 ленности всегда будет предполагаться, что требуется найти максимальное значение функционала J. Сформулируем теперь задачу окончательно. Задача. Заданы уравнения, описывающие процесс x(H-l) =f(x(k), u(k), /г) (/<=0,1,..., W-1) и ограничения на переменные gi(x(k),u(k), £) >0 (/=1, . . . , mh- £=0, 1, . . . , N— 1). Задан функционал J =Ф (х (7V)) + V f0 (х (k), и (/г), k), h=0 характеризующий качество управления и длительность (число шагов) N управления. Требуется для заданного на- чального состояния х(0)=а найти такие допустимые уп- равление и соответствующую ему траекторию, которые доставляют показателю качества (2.4) наибольшее значение. Это — типичная задача оптимального дискретного уп- равления. Представляют интерес как различные частные случаи этой задачи, так и ее обобщения, которые будут рассмотрены в следующем параграфе. Отметим, что зависимость уравнений движения и ог- раничений от номера шага k ничего принципиально ново- го, как будет видно из дальнейшего, не дает. Поэтому да- лее эту зависимость будем часто опускать. Здесь же для сравнения рассмотрим непрерывный ана- лог сформулированной выше задачи дискретного управ- ления. Именно, рассмотрим следующую задачу управле- ния непрерывным процессом. Задача. Требуется найти вектор-функцию u(t), оп- ределенную на заданном интервале Qs^t^T (управление и) и соответствующую этому управлению в силу заданно- го дифференциального уравнения ^=f(x(0,«(0.0 (2.5) и начального состояния х(0)=а, (2.6) вектор-функцию x(f) (траекторию х), удовлет- 2*
20 ПОСТАНОВКА ЗАДАЧИ [ГЛ, I воряющие ограничениям gf(x(t), u(t), Z)>0 (i=l,..., mt; (2.7) и доставляющие показателю качества / = Ф(х(?)) + ]'/о(х(О, u{t\t)dt (2.8) о наибольшее значение. Обычно в таких задачах предполагается, что функция u(t) —кусочно-непрерывна, а функции fj, gi, Ф— непре- рывны вместе со своими частными производными первого порядка. При решении непрерывных задач на цифровой вычис- лительной машине или при управлении непрерывным про- цессом дискретным управляющим устройством вместо непрерывной задачи необходимо рассмотреть ее разност- ную аппроксимацию. Возможны различные, в смысле точности или просто- ты, переходы к дискретной аппроксимации задачи (2.5)— (2.8). Приведем здесь простейшую. Разобьем интервал [0, 7] на N равных шагов: t0, Л,.. ., G; ^о=О, tN=T; tk+i—th/N=A (k=0, 1, , N—1). Управление и будем считать на каждом шаге постоянным th^t<tk+l (k=0, 1, . .. , N— 1). В этом случае дифференциальное уравнение (2.5) заме- нится на разностное вида где | о (А) |/Д->0 при А—>0 (через |о(Д) | обозначена нор- ма вектора о (А)). Отбрасывая бесконечно малые величи- ны выше первого порядка и учитывая, что 4=&Д, полу- чим х[(&+1)Д]=х(М)+Д/[х(ЛД), и(М), ЛД]. (2.9) Аналогичным образом органичения (2.7) заменятся на &(х(£Д), u(kh), М)>0 (2.10) (г'= 1, . . . , mk; k—G, 1, . . ., N— 1), а показатель качества (2.8) примет вид J (Д) = Ф(х(УД)) + Д21/о(х(йД), «(М), ^Д). (2.11) fe=o
ТИПЫ ЗАДАЧ 21 § 3] Таким образом, решение задачи (2.5) —(2.8) можно приближенно заменить на решение задачи нахождения последовательностей {и(0), ы(Д),..., «[ (Л1 — 1) Д]} и {х(0), х(Д),..., x(N\)}, удовлетворяющих (2.6), (2.9), (2.10)’ и доставляющих показателю качества (2.11) мак- симальное значение. § 3. Типы задач 1. Задача оптимизации конечного состояния (зада- ча 1). В этой задаче качество управления оценивается только функцией от конечного состояния процесса /=Ф(х(7У)), и нужно найти такое допустимое управление и, для кото- рого значения функционала J было бы максимальным. Например, требуется, чтобы количество продукции к кон- цу планируемого периода было максимальным. Так как в дальнейшем мы будем постоянно ссылать- ся на эту задачу, сформулируем ее полностью. Задача 1 (без ограничений на переменные состоя- ния). Найти управление и—{и(0), ..., u(N—1)}, удов- летворяющее ограничениям u(k)(=Uh (k=0, 1,..., N— 1), (3.1) и соответствующую в силу уравнений движения x(£+l)=f(x(6), u(k), k) (&—0, 1.....N— 1) (3.2) с начальным состоянием х(0)'=а (3.3) траекторию х={х(0), х(1), . . . , x(N)}, для которой показатель качества /=Ф(х(ЛГ)) (3.4) принимает максимальное значение. Задача Iх (с ограничениями на переменные состоя- ния). Найти управление и—{и(0),..., u(N—1)} и соот- ветствующую ему в силу уравнений движения (3.2) с на- чальным условием (3.3) траекторию х={х(0), х(1),... • • •, х(М)}, удовлетворяющие ограничениям gi(x(k), U(k), &)>0 (i=l, ... , mA; k=0, 1,..., X—1) (3-5)
22 ПОСТАНОВКА ЗАДАЧИ [ГЛ. 1 и доставляющие показателю качества (3.4) максималь- ное значение. 2. Задача с суммарным показателем качества (зада- ча 2). В этом случае функционал (2.4) имеет вид IV —1 J - У /г), (3.6) fc-o либо N—1 = 2 /о (Й-Г l),^(ft),ft). ь=о Последний случай легко приводится к предыдущему. Дей- ствительно, используя (2.3), получим N-l N-1 = 2/o^(^(ft)^(ft)’ ft), ftl- /oCv(ft),^(ft),ft). fe=0 К таким показателям качества приводят, например, задачи управления запасами (§1). Ниже (§ 4) будет по- казано, что задача 2 сводится к частному случаю за- дачи 1. 3. Задача с фиксированным конечным состоянием (задача 3). В рассмотренных выше случаях начальное состояние х(0) было фиксировано, а на конечное состоя- ние не налагалось никаких дополнительных ограничений. Такие задачи получили название задач со свободным правым концом траектории (со свободным конечным со- стоянием). Во многих же практических задачах нужно, чтобы конечное состояние было фиксированным: x(N)=x*(N). Например, при управлении строительством какого-либо объекта, помимо минимизации затрат на строительство, естественно требовать, чтобы объект был построен, т. е. чтобы координаты вектора состояния объек- та принимали заданное значение в конце периода управ- ления. Конечно, формально можно считать, что в данном случае множество XN состоит из одной точки x*(Af), од- нако, поскольку ограничения типа (2.1) чаще всего свя- заны с физическим смыслом переменных состояния, а ог- раничения типа x(N)=x*(N)—с целью управления, удобнее выделить такие задачи в отдельный класс. Отметим, что, в отличие от задач со свободным кон- цом траектории, где время управления N обычно фикси- ровано, в задачах с фиксированным концом траектории число шагов N может быть и не заданным заранее.
§ 31 ТИПЫ ЗАДАЧ 23 Важным случаем задач этого типа является задача об оптимальном быстродействии, когда требуется найти управление, переводящее начальное состояние х(0) в заданное конечное x(N) за минимальное число шагов N. Интересно заметить, что такое управление в дискретном случае, в отличие от непрерывного, часто не единственно (см. § 3.2). Поэтому здесь появляется возможность еще и оптимизировать показатель качества типа (2.4) по всем таким управлениям. Используя штрафные функции, задачи с фиксирован- ным концом траектории можно свести к задаче со свобод- ным концом. Рассмотрим, например, вместо задачи 3, в которой должно быть x(N) =х*(Л/), задачу, в которой на вектор x(N) не наложено никаких условий, но показа- тель качества (который нужно максимизировать) имеет вид n N—1 J - ~ W - х? (ЛОР + 2 /о (* (£), и (£), /г), i—-1 /г-О где X — достаточно большое положительное число. Добав- ленное выражение в показателе качества представляет собой «штраф», который нужно «заплатить» за невыполне- ние равенства Xi (N) = х* (N). Очевидно, решая эту зада- чу, можно получить приближенное, а иногда и точное ре- шение исходной задачи с фиксированным правым концом траектории. Точно такой же прием может быть использо- ван и при решении задачи об оптимальном быстродей- ствии (подробнее методы штрафных функций рассмотре- ны в § 6.8). 4. Задача со свободным начальным состоянием (з а- дача 4). В этом случае начальное состояние х(0) за- ранее не фиксируется, а выбирается из заданного мно- жества XQi т. е. является, по существу, дополнительной управляющей переменной. Такие задачи, очевидно, легко сводятся к обычным задачам с фиксированным началь- ным состоянием. 5. Задача с суммарными ограничениями. Часто необхо- димо учитывать ограничения на переменные состояния и управления,. задаваемые на весь период управления (например, расход ресурсов за весь период управле- ния не должен превышать имеющихся запасов). Такие
24 ПОСТАНОВКА ЗАДАЧИ [ГЛ. I ограничения обычно можно задать в виде N—1 £ q>(*)(u(fe),6)>0 (/ = ],...,/«!), (3.7) fe=0 JV-1 2^(х(^М)>0 (/= 1,..., m2), (3.8) h=0 или в совместной форме N—1 v (x(^)>u > о h=0 (/ = !,...,/»). (3.9) Ограничения типа (3.7), (3.8) или (3.9) легко привести к обычной задаче управления с ограничениями на конечное состояние системы, расширив систему уравнений (2.3), описывающих процесс. Рассмотрим общий случай (3.9). Введем новые т координат xn+i,..., хп+т, положив k — 1 хп+1- (k) = фу(х(г), u(i), (j = i=0 Очевидно, хп+;(А+1)=хя+ДЙ)+ф,.(х(^), u(k), k) (А=0,..., 2V — 1), x„+J(0)=0, х„+ДУ)>0 (/=1,..., m). (3.10) Приписывая к исходной системе уравнений (2.3) урав- нения (3.10), получим окончательно процесс, который задается в -мерном пространстве состояний урав- нением вида х,(й-|-1) =Д(х(Л), u(k), k) (( = 1,..., п-\-т; k — 0,..., AT— 1) с начальным состоянием хг(0)=а (i=l,..., п), хг(0)=0 (i = n-|-l,..., n-j-m) и ограничениями только на конечное состояние системы Xi(Af)^0 (i=n-f-l,..., Здесь 7f(xM, A)=fi(x, и, k) (t = l,..., n), fn+j(x, и, k) =xn+j-|-(pj.(x, u, k) (1=1,..m).
ТИПЫ ЗАДАЧ 25 Заметим, что если ограничения имеют вид "s 4>j(x(i), i)>0 = k=l,...,N), i=0 то они заменой переменных (3.10) приводятся к ограниче- ниям вида xn+j(k)^0 т\ k=0, 1,..., N— 1). Аналогичным образом задачу с суммарным показате- лем качества (задача 2) можно свести к задаче оптимиза- ции конечного состояния (задача 1). Рассмотрим задачу 2 с показателем качества (3.6). Введем дополнительную координату — ось качества xQ. В результате получим (п-[-1) -мерное расширенное Рис. 1.3.1. пространство состояний jE'H-1. Будем считать, что ось качества xQ направлена «вертикально вверх», а простран- ство состояний Еп занимает «горизонтальное» положение (рис. 1.3.1). Положим /г-1 /г=0 Очевидно, Хо(/?+1)=М£)+/о(*(£), w(£), к), л'0(0)=0, x0(N)=J. Таким образом, теперь состояние процесса на k-м ша- ге характеризуется дополнительной координатой — каче- ством процесса х0(й) на этом шаге, и x(k) = {х0(&),
26 ПОСТАНОВКА ЗАДАЧИ [ГЛ. I Xifk),..., xn(A)}e£n+I (все элементы, относящиеся к рас- ширенному пространству состояний, будем отмечать тильдой). Обозначим Xo(k)+fo(x(k), u(k),k) —~fQ(x(k),u(k),k). (3.11) Тогда в расширенном пространстве состояний процесс (2.3) с показателем качества (3.6) описывается системой уравнений х(6+1)=7(Г(й), u(k), k), (3.12) где Г={Го,А,...,М, х(0) = {0, хДО),..., хп(0)}, x(N) = {J, х^),...^^)}. Задачу 2 можно сформулировать теперь следующим эквивалентным образом (рис. 1.3.1). Задача 2а. В пространстве En+i задана начальная точка х(0) и уравнения движения (3.12). Требуется най- ти такое допустимое управление, которое на основании уравнений (3.12) переводит точку х(0) в возможно более высокую точку пространства Еп+[ за N шагов. Положим е={1, 0}, где тогда, очевидно, ^^.^(Af) = (е, х(?/)). Здесь и далее через ( , ) будем обозначать скалярные произведения двух векторов: п (а,Ь)= Таким образом, задача 2 свелась к частно- г=1 му случаю задачи 1, когда функция Ф(х) линейна: O(x(/V)) = (e, x(N)). Сделаем несколько заключительных замечаний. Фор- мально задачи дискретного управления являются полны- ми аналогами соответствующих задач непрерывного уп- равления. Однако область практического применения дискретного управления связана, в основном, с задачами экономики, организации и технологии производства, ис- следования операций и т. п. Для таких задач характерны наличие большого числа как переменных состояния, так
§ 4] МНОЖЕСТВА ДОСТИЖИМОСТИ 27 и переменных управления и ограничений на них (в част- ности, ограничений на переменные состояния), что опре- деляет тесную связь этих задач с задачами математиче- ского программирования. § 4. Множества достижимости В этом параграфе будут введены множества, с по- мощью которых многошаговые задачи управления могут быть интерпретированы как задачи математического про- граммирования в пространстве состояний X. Для простоты обозначений будем считать, что уравне- ния движения (2.3) и ограничения (2.1), (2.2) явно от k не зависят. Рассмотрим сначала задачу без ограничений на переменные состояния. Фиксируем в пространстве Еп начальное состояние х(0)=а и посмотрим в какие точки х^Еп можно пере- вести х(0)=а за один шаг с помощью допустимого уп- равления. Очевидно, эти точки будут определяться мно- жеством ^i(a) = {xlx=f(a, «), «el/}. (4.1) Множества при k> 1 определим по индукции Rk(a) = {x\x=f(z, и), ti<=U, 2еДы(а)}. (4.2) Множество ^?fe(a) (6=1, 2,...) —это множество всех со стояний х в пространстве Еп, в которые можно переве сти точку а за k шагов d с помощью допустимо- ' Xj го управления {«(0), w(l),..., ц(&—1)} (рис. 1-4.1). Назовем 7?ь(а) множеством достижи- мости процесса (2.3) (при ограничениях (2-2)). Используя понятия множеств достижимо- 2 Рис. 1.4.1. сти, задачу оптимиза- ции конечного состояния (задача 1) можно сформули- ровать в следующем эквивалентном виде. Задача 1а. Найти максимальное значение функции Ф(х) на множестве RN(a).
28 ПОСТАНОВКА ЗАДАЧИ [ГЛ. I Точно такие же построения можно сделать и для зада- чи с суммарным показателем качества (задача (2). В расширенном пространстве состояний En+i постро- им множества 'Ri(a) =){x\x=f(z, и), и U, z— {0, а}}, и далее по индукции^___ Rh(a) = {x\x==f\z, и), u(=U, zt=fZh_i(a)}. Множества /?А(а)сВп+1 являются полными аналогами множеств Rh(a)aEn и определяют совокупность состоя- ний пространства En+i, в которые можно перевести с помощью уравнений движения (3.8) начальное состояние х(0) = {0, а} допустимым управлением за k шагов. Так как оптимальные значения показателя качества находятся на поверхностях, ограничивающих «сверху» множества 7?ft(a), то вместо множеств Rk(d) удобно рас- сматривать множества (a)c=£n+1 (k— 1,..., N),'опреде- ленные следующим образом: , x0^f0(a, и), \ SiW--[x^{x„x} х = ж,г)1 3„(я) = |3 = (Х„ х} “> + !l>’u<=U; zeSwW) х = f (г, и), J (k=2, ..., N). Если через фл(х) обозначить максимальное качество, которое можно получить при переводе допустимым управ- лением точки а в точку х за k шагов, то множество Sk(a) представит собой совокупность точек х= {х0, х}, для кото- рых x^Rk(a) и х0^фй,(х). Sfe(a)—это часть цилиндра в пространстве Еп+1, натянутого на множество Я* (с) (или Rk(a)) и ограниченного сверху поверхностью ф/((х). Нако- нец, сравнивая множества (а) и Rk(a), можно видеть, что если ? = {z*, z1} е Sft(a) и z2 = (z02, z2) е Л?ь(а), то всегда г02 г,1. Имея в виду эти построения, задачу 2 можно сформу- лировать в следующем эквивалентном виде. ~ Задача 2а. Найти наивысшую точку множества SN(a). Или: найти максимальное значение функции ф.|у(х) на множестве RN(a).
§ 5] линейные системы 29 Итак, исходная задача управления свелась в простран- стве состояний к задаче нахождения экстремума функции, заданной на некотором множестве. Особенностью этой задачи математического программирования является то, что множество (RN(a)) не задано в явном виде, а определяется с помощью уравнений (2.3). Пусть теперь на переменные состояния наложены ограничения (2.1). В этом случае уже не любая точка множества Ri (а) является допустимой, нужно еще чтобы она одновременно принадлежала и множеству Ху т. е. х должно принадлежать пересечению этих множеств: x^Ri(a) Л^ь Совокупность таких точек и будет опре- делять множество состояний, в которые можно перевести начальное состояние х(0)=а за один шаг с помощью допустимого управления. Такое множество будем также называть множеством достижимости и обозначать через Qi(a): Ql(a)=Rl(a) fl Х[ = {x|x=f(а, и), u<=U, хеЛ)}. Множества Qft(a) при k>\ определяются по индукции Qh(a) — {x\x—f(z, и), ut=U, z^.Qk_i(a), x<=Xh}. Аналогичным образом в Еп+1 определяются множест- ва достижимости и для задачи 2. Таким образом, в случае ограничений на переменные состояния задача 1 сводится к нахождению наибольшего значения функции на множестве Qw(«). Конечно, ограни- чения (2.1) на переменные состояния могут быть таковы, что вообще не существует ни одного допустимого управле- ния (т. е. множество Qw(a) пусто), и задача, следова- тельно, не имеет решения. § 5. Линейные системы Важным классом задач дискретного управления явля- ются задачи, в которых процесс описывается линейными разностными уравнениями вида XL (k + 1) = 2 ai}- (k) Xj (k) + 2 bij (/г) iij (/г) (Z = 1,..., n),
30 ПОСТАНОВКА ЗАДАЧИ [ГЛ, I или в векторном виде x(k+\)=A(k)x(k)+B(k)u(k) (k=0,..., N—l), (5.1) где A(k) = [ау(^)] (*, га) и B(k) = [bij(k)] п; г) — матрицы размера (пХ^) и (/гХг) соответственно. Ограничения на переменные в этом случае также задаются в виде линейных неравенств 2 Сц (k) Xj (k) + 2 W Ui (/?) > hi W j=i (f= 1, . . . , W, & = 0, 1, . . . , N—1), или в векторной форме £(k)x(k)+D(k)u(k)^h(k) (/г-0, 1, . . . , А/--1), (5.2) где С (k) = [Cij (k) ], D (£) = [dis (/г) ], h (k) = [/гг (k) ] (1 = = 1, . . . , mh-, /— 1, . . . , n; s = 1, . . . , r). Показатель качества в этом случае также обычно ап- проксимируют: J = 2 [ S + 5 ai (/г) xt A=0Lm=1 i=l Л'—1 P Гц (k) Ui (k) Uj (/г) + 2 (fe) «i (fe) i=l (5-3) или (х(й), Q(k)x(k))^(a(k), x(k)) + (5.4) Здесь Q (k) = [<7Ъ- (k) ] и R (k) = [rtj (k) ] — неположительно определенные матрицы (если ищется максимум /) разме- ра («Х«) и (гХг) соответственно. Часто в показатель качества входят только линейные члены (например, во многих экономических задачах). В этом случае он будет иметь вид N N-1 J = 2 W- х -г 2 (&)’11 (ty- (5.5) ^0 h=Q
§ PJ СУЩЕСТВОВАНИЕ УПРАВЛЕНИЯ 31 Задачи (5.1) —(5.3), (5.5) и (5.1) —(5.4) по аналогии со статическими задачами можно назвать задачами дина* мического линейного и квадратичного программирова- ния. Их изучение имеет большое значение для разра- ботки методов оптимизации в динамических моделях экономики, а сами задачи могут быть непосредственно интерпретированы в экономических терминах (см. при- мер I в § 1 и §§ 5.11, 5.12). § 6. Существование оптимального управления Прежде чем перейти к условиям оптимальности управ- ления, установим его существование. Для этого необхо- димо ответить на два вопроса: 1) существует ли вообще хотя бы одно допустимое управление; 2) если такое управление существует, то достигается ли оптимальное? Заметим, что из утвердительного ответа на первый вопрос еще не следует факта существования оптимально- ного управления. Например, если требуется найти наи- большее значение функции J(и) = arctg(l/u), причем O^u^l, то значение н* = 0, при котором функция J (и) имеет максимум, не достигается, хотя к нему можно при- близиться как угодно близко. Однако обычные требования непрерывности по извест- ной теореме Вейерштрасса (см. § 2.1) уже обеспечат су- ществование оптимального управления, если есть допус- тимые управления. Именно, для задачи 1 без ограничений на переменные состояния справедлива. Теорема 6.1. Пусть в задаче 1 функции Ф(х) и и, 6)(/=1,..., n; k — 0, 1,..., Af—1) непрерывны по своим аргументам х^Еп и u<=Uh, a Uk — ограниченные замкнутые и непустые множества. Тогда оптимальное управление и* существует для любого начального состояния х(0); при этом качество соответствующее оптимальному управлению, прини- мает конечное значение. Замечание. Если множества Uh задаются неравен- ствами типа (2.2), то для его замкнутости достаточно потребовать, чтобы функции gj(u, А)(/=1,..., mh\ «=0,1,..., Д/—1) были непрерывными. Для того чтобы Обеспечить ограниченность множеств [Д, достаточно
32 ПОСТАНОВКА ЗАДАЧИ [ГЛ. I прибавить к неравенствам (2.2) ограничения (/=1,..., г), где М — достаточно большое число. Утверждение теоремы почти очевидно. Действительно, задача оптимального управления 1 сводится к нахожде- нию максимального значения функции многих перемен- ных J(x(0), и(0),..., u(N—1)), определенных через урав- нения движения (3.2) и показатель качества (3.4), которая задана на прямом произведении N ограниченных и замкнутых множеств Uk (начальное состояние х(0) считается фиксированным). В силу сделанных предполо- жений функция /(х(0), u(0),..., u(N—1)) должна быть непрерывна. Отсюда следует утверждение теоремы. Мы не будем, однако, уточнять эти рассуждения, а приведем несколько иное доказательство, связанное с геометрией процесса и легко обобщающееся на случай фазовых ограничений. Доказательство. Как было показано в § 4, задача 1 сводится к нахождению наибольшего значения функции Ф(х) на множественна). Если функция Ф(х) непрерыв- на, а множество Rn(o) ограничено и замкнуто (т. е. компактно), то по известной теореме Вейерштрасса (§ 2.1) наибольшее значение функции Ф(х) на множестве П^(а) достигается, и оно конечно. Поэтому теорема будет доказана, если будет установлена компактность RN(a) для любого начального состояния х(0)=а. Действитель- но, множество Ri(a) представляет собой образ непрерыв- ного отображения компактного множества UQ в простран- стве Еп\ £/0, 0) и, следовательно, компактно. Допустим теперь, что множество Rk-i(a) компактно. Тогда компактно прямое произведение Rk-i (a) Следовательно, множество Rk(a) =f (/?ь-1(а), Uk-ъ k—1) также компактно. Теорема доказана. Аналогичным образом устанавливаются условия су- ществования оптимального управления и для задачи 2. Заметим, что условия теоремы выполняются почти во всех реальных задачах. Поэтому оптимальное управле- ние существует практически для любой задачи дискрет- ного управления без ограничений на переменные состоя- ния. Если же значения переменных состояния ограничены условиями (2.1), то в этом случае приобретает значение первый вопрос, а именно, существует ли вообще хотя бы
СУЩЕСТВОВАНИЕ управления 33 § 6] одно допустимое управление. Этот вопрос рассматривает- ся в главе VI, гДе будет дана процедура, позволяющая находить допустимые управления в этом случае (если они есть). Здесь же отметим, что, очевидно, для существова- ния допустимого управления вовсе недостаточно, чтобы множества Ад и Uk были непустыми. Если же допустимое управление существует, то достижимость оптимального управления обеспечивается такими же условиями непре- рывности, что и в теореме 6.1. Сформулируем их для общей задачи с показателем качества (2.4). Теорема 6.2. Пусть множества Uh(k=0,..., N—1) и Xk(k=0,..„ N) ограничены и замкнуты, а функции Ф(х), fj(x, и, k) (j= 1,..., п; fe=0,..., N—1) непрерывны. Если при этом для некоторого начального состояния х(0)=а существует хотя бы одно допустимое управление, то существует и оптимальное, при этом оптимальное качест- во J* имеет конечное значение. Доказательство аналогично доказательству теоремы 6.1 и следует из компактности множеств достижимости Qk(k=l,..., N) и непрерывности функции Ф(х) для этой задачи.
ГЛАВА II ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ Поскольку методы решения многошаговых задач существенно используют идеи и понятия теории математи- ческого программирования (имеется в виду теория оптимизации статических, одношаговых задач*)), в этой главе рассмотрены основы этой теории. При этом внима- ние обращается не на сами результаты и их доказатель- ства (они достаточно хорошо известны), а, скорее, на идеи и методы, используемые при их получении. § 1. Некотсфые сведения из n-мерной геометрии и теории выпуклых множеств В дальнейшем понадобятся некоторые сведения из n-мерной геометрии и теории выпуклых множеств. Приведем их здесь для справок. Рассмотрим n-мерное евклидово пространство Еп со п скалярным произведением двух векторов (%, у) = 2 Xiyi. г=1 Длиной, или нормой вектора х, назовем число / п \ 1/2 |х| = (X, х)1/2 = 24 . \i=l / Шаром радиуса 8 с центром в точке х* назовем множество точек х<=Еп для которых | х—х* | < 8. Будем обозначать такой шар через Se(x*). Он образует ъ-окрестность точки х*. Если множество RczzEn содержит вместе с точкой хи ес е-окрестность при некотором 8>0, то назовем х внутрен- ней точкой множества R. Если в любой окрестности х *) Постановку одношаговой задачи оптимизации см. в § 2 этой главы.
СВЕДЕНИЯ ИЗ л-МЕРНОЙ ГЕОМЕТРИИ 35 § И содержатся как точки из /?, так и не принадлежащие R точки, то назовем х граничной точкой множества R. Множество, содержащее все свои граничные точки, называется замкнутым. Присоединение к множеству R его граничных точек называется замыканием множества R и обозначается через R. Если множество R целиком содержится в шаре радиу- са р, где р — конечное число, то такое множество называ- ется ограниченным. Ограниченное и замкнутое множество в Еп является компактным множеством. Если множество R задано с помощью систем неравенств*) (j=l,...,m) (1.1) или fi(x)<0 m), (1.2) где fj(x) (/=1,..., m) —непрерывные функции, то оно всегда замкнуто, хотя может быть и не ограниченным. Можно показать, что непрерывная функция Ф(х), заданная на компактном множестве R, достигает на нем как верхней, так и нижней грани (теорема Вейерштрас- са), т. е. существуют такие точки х1, х2, что ф (%i) = sup ф (Х) = шах ф (х), V 7 хек 4 7 x&R 4 7 ф (%2) = inf ф (Х) = min ф (х). x^R x£=R Возьмем произвольные две точки х1 и х2 из R. Совокуп- ность точек вида х=%х1+(1—Х)х2, гдеО^Д^1, образует отрезок с концами в точках х1 и х2. Множество R называется выпуклым, если вместе с лю- быми двумя точками х1, x2^R оно содержит и соединяю- щий их отрезок, т. е. если х=Хх1+(1—k)x2^R при Множество R называется выпуклым по направлению е, если для любых х1 и х2 из существует такое число Н^О, что х=Лх1+(1— Z)x2+pe(=/? при На рис. 2.1.1 а, б показаны примеры выпуклых по направлению множеств. Из определений и этих примеров *) Любая из этих систем неравенств сводится к другой умно* женнем на ___1 3*
36 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. II видно, что выпуклое по направлению множество является, вообще говоря, не выпуклым просто; с другой стороны, выпуклое множество в Еп всегда выпукло по любому направлению е^Еп. Рис. 2.1.1. Функция Ф (х) называется выпуклой вверх (вогнутой), если для любых двух точек х1 и х2 ФЕ^Х1^ (1— ^)х2]>%Ф(х1) + (1— %)Ф(х2) (0^Х<1). Функция Ф(х) называется выпуклой вниз (просто выпуклой), если Ф [Хх!+ (1 — Х)х2] ^Ф (х1) + (1 — %) Ф (х2) (О^Х^ 1). Если множество R образовано с помощью неравенств (1.1), где fj(x)—выпуклые вверх функции, либо с по- мощью неравенств (1.2), где^-(х) —выпуклые вниз функ- ции, то можно показать, что множество R будет выпуклым. Говорят, что вектор х* доставляет функции Ф(х) гло- бальный максимум на множестве R, если Ф(х*)^=Ф(х) для всех x^R. Если же Ф(х*)7^Ф(х) только для xeS(x*) С)/?, то говорят, что точка х* доставляет функ- ции Ф(х) на множестве R лишь локальный максимум. Показывается, что локальный максимум совпадает с глобальным для выпуклой вверх функции Ф(х), задан- ной на выпуклом множестве /?, а локальный минимум совпадает с глобальным минимумом для выпуклой вниз функции Ф(х) на выпуклом множестве R. Множество точек удовлетворяющих условию (р,х)=а, (1.3)
§ И СВЕДЕНИЯ ИЗ n-МЕРНОЙ ГЕОМЕТРИИ 37 называется гиперплоскостью. Вектор р ортогонален этой гиперплоскости. Гиперплоскость (1.3) порождает пару полупрост- ранств в Еп: Е™ = {х| (р, х) хе Еп], Е” = {х| (р, х) > а, хе Еп}- Говорят, что гиперплоскость (1.3) разделяет множест- ва и /?2, если (р, х) =g?a для всех x^R{ и (р, х) для всех х<=/?2. Если эти неравенства являются строгими, то будем говорить, что гиперлоскость (1.3) строго разделяй множества 7?i и /?2. Пусть и Т?2 — произвольные замкнутые выпуклые множества, не имеющие общих точек; при этом хотя бы одно из них ограничено. Тогда можно доказать, что существует гиперплоскость, строго разделяющая эти множества (теорема о разделяющей гиперлоскости). Гиперплоскость (р, х)=а называется опорной гипер- плоскостью множества R в точке x*(=R, если R содержит- ся в одном из полупространств, задаваемых этой гипер- плоскостью, и граница R имеет с ней хотя бы одну общую точку. Таким образом, гиперплоскость (р,х) = а является опорной для множества R в точке х*<=7?, если max (р, х) = (р, х*) = а, x(=R или, положив q = —р, mln (q, х) = (q, х*) = — а. x^R Можно показать, что для любой граничной точки выпуклого замкнутого множества существует опорная гиперплоскость в этой точке. Множество К(х*) называется конусом с вершиной в точке х*, если для любых хеК(х*) и любого х*+е(х—х*) ^К(х*). Конус К(х*) может быть, вообще говоря, не выпук- лым. Множество /((х*) называется выпуклым конусом
38 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. Ц с вершиной в точке х*, если для любых х, у^К(х*\ а, р^О а(х—х*) +р (у—х*) (=К(х*). Так, полупространство {х| (р, х—х*)^0} вЕп —вы- пуклый конус. Выпуклым многогранным конусом С(х*) с вершиной в точке х* называется пересечение конечного числа полу- пространств, образованных гиперплоскостями, проходя- щими через эту точку х*. Таким образом, выпуклый многогранный конус это множество точек удовлетворяющих неравенствам (р\х—х*)^0 (7=1,..., т). § 2. Постановка задачи Формулировка одношаговой задачи оптимизации состоит в следующем. Задача. В пространстве Еп задано некоторое допу- стимое множество R. Выбор решения — вектора х= {xi,..., хп} из этого множества R характеризуется некоторым качеством — функцией Ф(х). Требуется найти такой вектор х* из множества R, для которого функция Ф(х) принимает экстремальное (далее, для определен- ности, максимальное) значение. Будем предполагать для простоты, что R — ограничен- ное, замкнутое и непустое множество, а Ф(Х) —непрерыв- но дифференцируемая функция на У?*). В этом случае максимальное значение функции Ф(х) на множестве R достигается, и задача может быть записа- на в виде ™ХФ(Х). (2.1) Обычно множество R задается с помощью системы не- равенств (см. § 1) fi(x)>0 (2.2) Будем считать, что fj(x) — непрерывно-дифференцируе- мые функции, а неравенства (2.2) непротиворечивы. *) Более точно, будем считать, что Ф (х) определена и непре- рывно дифференцируема в некоторой области /?'=/?.
39 ПОСТАНОВКА ЗАДАЧИ § 21 Иногда удобно сводить задачу (2.1) к следующему каноническому виду, вводя дополнительную ось —качест- в0 Хо—ф(х). Определим в пространстве En+l множе- ство R. R={{x0, х}\х0^Ф(х), x<=R}. (2.3) Если множество R задано с помощью системы не- равенств (2.2), то R можно задать в виде неравенств (j=0,...,m), (2.4) где х= {х0, х}, f0(x) = Ф(х)—х0, %(х) =fj(x) (/=1,..., т). Введем в пространстве Еп+* вектор е= {1, 0}.^Гогда задача (2.1) запишется в виде: найти тах(е,х)при ограничениях (2.4). В зависимости от вида функций fj(x), ф(х) различа- ют следующие типы задач оптимизации. Если функции /у(х), Ф(х) линейны: Ф(х) = 2 aOiXi = (а0, х), i=i (2.5) 2^iXi=(ay, х) (/ = 1,...,/п), 1=1 то это задача линейного программирования. Нахождение максимума квадратичной функции ф (х) = (х, Qx) + (а0, х), где Q = [7г?] (i, /=1,..., n)—отрицательно определен- ная матрица, при линейных ограничениях (2.5) является задачей квадратичного программирования. Наконец, если функции Ф(х), fj(x) нелинейны, но вы- пуклы вверх, то это задача выпуклого программирования. Во всех этих задачах неравенства fj(x)^O т) задают выпуклое замкнутое множество (возможно, неограниченное), функция Ф(х) по условиям выпукла вверх. Поэтому для этих задач локальный мак- симум совпадает с глобальным. Такие задачи принято называть одноэкстремальными. Для них необходимые условия оптимальности (при некоторых условиях регу- лярности) являются одновременно и достаточными (см. § 6).
40 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. п § 3. Конусы допустимых вариаций Пусть х — некоторая точка множества R. Рассмотрим новый вектор х+бх, где вектор 8х имеет размерность век- тора х и определяет вариацию 8х, Совокупность вариаций 8х= {бхь..., бхп} образует n-мерное пространство ва- риаций 6Х. Будем считать, для наглядности, что началом координат этого пространства является точка х. Средн всевозможных вариаций 8х выделим такие, при которых достаточно малые шаги вдоль вектора 8х не выводят точ- ку х за пределы множества R, Такие вариации назовем допустимыми. Более точно, 8х — допустимая вариация в точке x^R, если найдется такое число 8i>0 (зависящее от х и бх), ЧТО х+ебхе/? ДЛЯ ЛЮбыХ 0<8<8ь Если множество R выпукло, то для того, чтобы вари- ация бх была допустимой, достаточно существования хо- тя бы одного 8i>0, при котором х4-816x^7?. (В этом слу- чае из выпуклости R следует, что точки х+ебх будут при- надлежать множеству R для любых 0<8<еь) Совокупность допустимых вариаций в точке х обра- зует (в пространстве вариаций 6Х) конус К(х) с вершиной в начале координат пространства вариаций (рис. 2.3.1). Этот конус будем называть конусом допустимых вари- аций. Таким образом, 7((Х) = {бх|х+8бхе/?, 0<8<8i, x<=R}. Отметим несколько свойств конуса К(х). Конус К(х) —непустое множество, так как начало ко- ординат (пространства 6Х) принадлежит конусу К(х). Конус К(х) может быть открытым множеством (рис. 2.3.1,а, 2.3.1,г), либо замкнутым (рис. 2.3.1, б, 2.3.1, д), либо не замкнутым и не открытым (рис. 2.3.1, в). В вырожденных случаях конус К(х) может не иметь внутренности (рис. 2.3.1, д), либо вообще состоять из одного начала координат пространства вариаций (рис. 2.3.1, е, ж). В общем случае конус К(х) —не выпуклое множество (рис. 2.3.1, г). Поскольку случаи типа рис. 2.3.1, г, д, ж имеют скорее чисто теоретический интерес, в дальнейшем будут рас-
КОНУСЫ ДОПУСТИМЫХ ВАРИАЦИЙ 41 § 3] сматриваться такие конусы К(х) допустимых вариаций, которые 1) выпуклы, 2) имеют внутренние точки. Однако при таких условиях на конус допустимых ва- риаций исключается и случай, когда множество R пред- ставляет собой, например, некоторую поверхность в Еп Рис. 2.3.1. (точнее, некоторое многообразие размерности, меньшей и) и, следовательно, не имеет внутренних точек в Еп (рис. 2.3.1, е). Между тем множества достижимости, по- строенные в главе I, могут представлять именно этот слу- чай. Поэтому возникает необходимость ослабить ограни- чения на определение допустимых вариаций. Будем называть вектор 8х допустимой вариацией в точке x^R в широком смысле слова, если для любого ei>0 найдется такое число е (0<e<ei) и вектор
42 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. II ауе5е,(бх), (где Se,(6x) —шар радиуса ei с центром в точке бх), что л'+etae^ (см. рис. 2.3.2). Если обозначить через v = w—8х вектор, исходящий из начала вектора 8х (его длина, очевидно, не превосхо- дит 81), то х+ебх+еие/? Г XrZ при 0<е<81, где |v| <81. у Таким образом, обобщая несколько данное выше оп- //I р ределение, назовем вектор f 8х допустимым в широком рис 232 смысле вариацией в точке и ‘ ' x^R, если существует число ei>0 и вектор о(е), непрерывно зависящий от 8, что х Т8бхЦ-О(е)е/? При 0<8<8[. Здесь и в дальнейшем через о (б) будем обозначать величины (как векторные, так и скалярные) более высо- кого порядка малости, чем 8, т. е. °^е- —> 0 при е->+0. Конус допустимых в широком смысле вариаций в точ- ке х будем обозначать через М (х): М(х) = {6х|х+ебх+еое/?, 0<8<8i, |о| <ei, хе^}. Можно показать, что М (х) — всегда замкнутый конус, хотя может быть не выпуклым (рис. 2.3.1,г, ж). Если ко- нус К(х) удовлетворяет сформулированным выше требо- ваниям, то его замыкание совпадает с конусом А4(х) (рис. 2.3.1, а, б, в). Если же множество R представ- ляет гладкую гиперповерхность в пространстве Еп (рис. 2.3.1, е), то конус М(х) —гиперплоскость, касатель- ная к R в точке х, в то время как конус К (х) состоит только из точки х (начала координат пространства 8Х). Из определения конуса М(х) следует, что если бхеМ (х), то всегда существует дуга, исходящая из точ- ки х и целиком лежащая в R, которая дифференцируема в точке х и для которой бх является касательным векто- ром в этой точке. Пусть теперь множество R задается с помощью непре- рывно-дифференцируемых функций fj(x): Ь(х)>0 (/=1, т). Выберем некоторую точку х, удовлетворяющую этим не- равенствам (по предположению такая точка существует),
КОНУСЫ ДОПУСТИМЫХ ВАРИАЦИИ 43 § 31 и обозначим \через J(х) множество индексов из /=1 т, при которых h(x)=0. Такие ограничения обычно называются активными. Of у х (dfj (х) df(x) 1 Обозначим также через —-р— = ,..., _р— градиент функции £>(х) в этой точке. Пусть х — граничная точка множества R (следователь- но, множество индексов J (х) непусто). Рассмотрим мно- жество векторов бх из пространства вариаций 8Х, удов- летворяющих системе линейных неравенств №^,8х\>0 (/eJ(x)). (3.1) \ дх j Положим 8x=z—х. Уравнение Pfi г-х5) = 0 \ дх / представляет собой гиперплоскость в пространстве X, касательную к поверхности fj(x)=O в точке х. Таким об- разом, совокупность точек, бх пространства вариаций бХ, удовлетворяющих системе неравенств (3.1), ограничено гиперплоскостями = 0 (j^.J (х)), пересека- ющимися в начале координат пространства 6Х, и образу- ет, следовательно, выпуклый конус с вершиной в начале координат (в точке х). Обозначим этот конус через С(х). Таким образом, С (х) = | бх (dfi(х), fix') > 0, \ дх ) Наложим на него следующее условие регулярности: существует вариация бхеС(х), при которой МД)_;5х\>0 (3.2) \ дх J для всех j^J (х), т. е. конус С(х) должен иметь внутрен- ность (следовательно, случаи типа рис. 2.3.1, д, е исклю- чаются). Достаточное условие для выполнения (3.2) состоит в линейной независимости векторов dfj(x)/dx (/^7(х)). Если конусы /((х) и С(х) удовлетворяют сформулиро- ванным выше условиям, то можно показать, что конус
44 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. п С(х) совпадает с замыканием конуса К(х) или, что то же самое, с конусом Af(x) (в случае, если конус Л4(х) вы- пуклый, см. рис. 2.3.1). Выше были наложены условия регулярности на кону, сы допустимых направлений К(х) и Л4(х), которые обес- печивают их эквивалентность. На само множество R ус- ловий регулярности не налагалось. Пусть теперь R— выпуклое множество. Потребуем, чтобы оно имело внутренние точки, т. е. пусть существует точка х такая, что __ Ш>0 (3.3) для всех /=1, ..., т (условие регулярности Слейтера). В этом случае нетрудно видеть, что условия регуляр- ности на конусы С(х) и К(х) выполнены. Следовательно, если множество R выпукло и удовлетворяет условию Слейтера (или хотя бы удовлетворяет этим требованиям в некоторой окрестности точки х), то конус С(х) совпа- дает с замыканием конуса К(х). § 4. Условия оптимальности. I Итак, конусы допустимых вариаций показывают, в ка- ком направлении можно двигаться из точки X(=R, с тем, чтобы получающиеся при этом новые точки были все еще допустимыми, либо близки к ним в некотором смысле. Выделим теперь среди допустимых вариаций точки х подходящие, т. е. такие, которые обеспечивают возраста- ние функции Ф(х). Назовем допустимую вариацию бх в точке х подходящей в этой точке, если существует чис- ло 61 >0, что Ф(х+ебх) >Ф(х) При ВСеХ 0<8<61. Так как, по предположению, Ф(х) —дифференцируе- мая функция, то ф (х + г6х) - Ф (х) = гбФ (х) + о (г) = = £(т-’бх) + о(£)>0- (4Л> Следовательно, вариация 6х — подходящая, если (4.2)
§ 4] \ УСЛОВИЯ ОПТИМАЛЬНОСТИ. I 45 Неравенство (4.2) очевидно: градиент дФ/дх показы- вает направление наибольшего возрастания функции ф(%) в точке х*/>если вектор 8х составляет острый угол с градиентом, то, сделав шаг конечной длины вдоль 8х, мо- жно увеличить значение Ф(х). Ясно, что чем больше величина скалярного произведения (4.2) (чем острее угол), тем на большую величину возрастает функция Ф(х). Очевидно, если точка х* оптимальная, то в этой точке не может существовать подходящих допустимых вариа- ций. С другой стороны, если в точке х* не существует под- ходящих допустимых вариаций, то эта точка доставляет функции Ф(х), во всяком случае, локальный максимум (при некоторых дополнительных условиях на Ф(х*) и R в окрестности точки х*; например, Ф(х) и R должны быть выпуклы в некоторой окрестности точки х*). Сформули- руем эти утверждения в виде теоремы. Теорема 4.1. Пусть Ф(х*)—максимальное значе- ние функции Ф(х) на множестве R. Тогда справедливо неравенство (4.3) для всех 6х*е/<(х*). Доказательство. Если конус К (х*) состоит толь- ко из начала координат пространства 8Х, то утверждение (4.3) тривиально. Поэтому будем считать, что существуют ненулевые вариации 6х* из /((х*). Для доказательства неравенства (4.3) в этом случае допустим противное. Пусть существует допустимая вариация 6х* в точке **(6х*е/С(х*)) такая, что (4.4) По определению конуса /С(х*), найдется такое ei>0, что х*+ебх*^7? для любых 0<е<еь Из разложения (4.1) и неравенства (4.4) следует, что можно выбрать такое е, что Ф(х*+ебх* **+е6х*е/?. Противоречие. Пусть теперь множество R задано неравенствами (2.2), и пусть точка х* — оптимальная. Построим в этой точке )>Ф(х*) и в то же время
46 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ (ГЛ. И конус допустимых вариаций С(х*). Будем/предполагать, что он удовлетворяет условию регулярности (3.2). Тогда можно показать (см., например, Зой/гендейк [1]), что необходимые условия оптимальности будут иметь следующий вид. Теорема 4.2. Если х* — максимальное значение функции Ф(х) при ограничениях (2.2), то (^р,6х*)<0 (4.5) для любых бх*, удовлетворяющих неравенствам (df’ (х>), 8х* ) > 0, /е/(%*)• (4.6) \ дх / § 5. Принцип максимума Заметим, что неравенство (4.3), так как бх*еК(х*), можно записать в виде равенства ma_x (р*, бх*)=0, (5.1) dx*GK(x*) где Таким образом, гиперплоскость (р*, бх*)=0 пространст- ва вариаций 8Х является опорной конусу К(х*) в его вершине. Итак, если х* доставляет максимальное значение фун- кции Ф(х) на множестве 7?, то всегда существует гипер- плоскость (р*, бх*) =0 в пространстве вариаций 8Х, опорная конусу допустимых вариаций в его вершине (см. рис. 2.5.1, а). О поведении соответствующей гиперплоскости (р*, х) = = (р*, х*) пространства X в общем случае, по существу, сказать ничего нельзя. Если же потребовать выпуклость множества 7?, то тогда очевидно, что гиперплоскость (р*, х) = (р*>х*) будет опорной множеству R в точке х*е7?, т. е. (рис. 2.5.1, б) шах(р*,х) = (р*,х*). хе R
ПРИНЦИП МАКСИМУМА 47 Действительно, допустим противное. Пусть существует ТОЧка x(=R такая, что (р*, X) > (р*, х*). Пусть 8х=х—х*, тогда (Р*> а>х)>и\ а) Рис. 2.5.1. Так как множество R выпуклое, то Хх+(1—%)х* = =х*+Лбхе/? при O^X^l. Следовательно, 8х^К(х*). Но тогда бх — подходящая допустимая вариация в оптимальной точке х*, что противоречит тео- реме 4.1. Таким образом, доказана теорема. Теорема 5.1. Пусть функция Ф(х) в точке х* дос- тигает максимального значения на множестве R. Тогда, если R выпукло, в этой же точке достигает максималь- ного значения линейная функция (р*, х), г. е. шах (р*, х) = (р*, х*), хев еде вектор р* определяется из (5.2). Заметим, что если функция Ф(х) выпукла, то в опти- мальной точке х* гиперплоскость (р*, х) = (р*, х*) явля- ется опорной не только к множеству R, но и к выпукло- му множеству Q= {х|Ф(х) ^Ф(х*)}, т. е. (р*, х)^ =^(р*, х*) для всех x^R и (р*, х*) (р*, х) для всех Таким образом, эта гиперплоскость является разделя- ющей для выпуклых множеств R и Q.
48 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ] [ГЛ. Ц § 6. Условия одноэкстремальности / Заметим, что при формулировке теоремы 5.1 не требо- валось выпуклости функции Ф(х*). Если же ^помимо вы- пуклости множества 7? потребовать, еще и выпуклость вверх функции Ф (х), то в этом случае функция Ф (х) бу- дет иметь одно экстремальное значение — максималь- ное — на множестве 7? (хотя оно может достигаться и не в одной точке). Очевидно, при этом необходимые условия оптимальности, сформулированные в теоремах 4.1, 4.2, 5.1, переходят в достаточные, т. е. справедлива Теорема 6.1. Пусть R— выпуклое множество, а Ф(х) — выпуклая вверх функция. Тогда условия теоре- мы 4.1 (или 5.1, что в данном случае одно и то же) до- статочны для того, чтобы функция Ф(х) имела в точке х* максимальное значение на множестве R. __ Действительно, пусть существует такая точка x^R, что Ф(х)>Ф(х*). В силу выпуклости множества R х=х+Х(х— х*)е/? при O^X^l. В силу выпуклости функции Ф (х) >ХФ (х) + (1—1) Ф (X*) =Ф (X*) +%[Ф (х) —Ф (х*) ] при O^X^l. Таким образом, в точке х* существует такая допусти- мая вариация бх=х—х*, при которой Ф(х)>Ф(х*), т. е. бх— подходящая вариация и, следовательно, в оптималь- ной точке х* выполнено (4.4). Противоречие. § 7. Двойственность На основе полученных в предыдущих параграфах ус- ловий оптимальности может быть составлена некоторая общая схема получения оптимального решения. Суть ее состоит в следующем. Выбирается некоторое допустимое (т. е. удовлетворяющее ограничениям) решение и пред- лагаются способы, каким образом следует изменить на малую величину это решение, с тем, чтобы его улучшить (т. е. получить большее значение показателя качества, не нарушив при этом ограничений). В результате определя- ется новое решение и т. д. Если в какой-то точке (малых)
\ ДВОЙСТВЕННОСТЬ 49 S'] \ вариаций не найдется, то это решение локально опта- мальное (при н^соторых дополнительных условиях). Ес- ли гарантировань! еще и условия одноэкстремальности, то такое решение'юптимально вообще, т. е. доставляет показателю качества наибольшее значение при данных ограничениях. Совокупность методов, объединяемых этой общей схемой, получила название прямых. Теперь рассмотрим другой подход, который позволяет рассмотреть исходную задачу оптимизации в целом и оце- нить оптимальное решение, исходя из решения другой, часто в некоторых отношениях более простой экстремаль- ной задачи. Собственно, этот подход был уже намечен в § 5. Пусть по-прежнему требуется найти максимум функ- ции Ф (х) на множестве R. Считаем, что множество R вы- пукло и ограничено, а функция Ф(х) выпукла вверх, т. е. рассматриваемая задача имеет одно экстремальное зна- чение. Допустим, кроме того, что это экстремальное зна- чение достигается на границе множества /?. Тогда вместо исходной задачи оптимизации Ф(х) на /? рассмотрим следующую задачу. Выберем некоторый вектор р=И=0 и решим задачу тах(р, х) = (р, х(р)). (7.1) хев Допустим вначале, что решение х(р) задачи (7.1) при каждом рУ=0 единственно (например, если множество R строго выпукло). Тогда х(р) —граничная точка R, а ги- перплоскость (р, х) — (р, х(р))—опорная множеству/? в этой точке. Выбирая различные р и решая задачу (7.1), можно по- лучить все граничные точки множества R (в случае его выпуклости). Так как по предположению экстремальная точка находится на границе множества. R, то искомую задачу можно заменить задачей нахождения такого р, при котором функция ф(р) =Ф(х(р)), где х(р) опреде- ляется из решения задачи (7.1), максимальна, т. е. шах Ф (х) = max ф (р). (7.2) PCSEjR р Если же решение задачи (7.1) достигается на некото- ром множестве Х(р) (каждая точка которого является граничной множества/?), то тогда «функция» Ф(Х(р)) А. И. Пропой
50 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. Ц будет уже многозначной. В этом случае функцию ф(р) построим следующим образом: ф(р) =тах Ф(х), где хеА(р) Х(р)—множество решений задачи (7.1), и эквива- лентность (7.2) опять сохраняется. Задача нахождения тахф(р) получила название двойственной задачи (в р отличие от прямой: шахФ(х)), а методы определения хек оптимального решения с помощью опорных гиперплоско- стей — двойственных. Отметим, что часто задача (7.1) решается просто, а задача гпахф(р) не имеет, по существу, ограничений р на переменные р *). Кроме того, при таком способе используются только граничные точки множества /?, среди которых, по предпо- ложению, и находится оптимальное решение. При этом в оптимальной точке х*, по условиям теоре- мы 5.1, р* = ЭФ(^(р,)) (7.3) и задача состоит в том, чтобы найти такой вектор р*, при котором выполняются соотношения (7.3) и (7.1), т. е. ус- ловия теоремы 5.1. Таким образом, теорема 5.1 дает необходимые и дос- таточные условия оптимальности как для прямой задачи, так и для двойственной (в случае ее выпуклости). § 8. Функция Лагранжа Изложенный в предыдущем параграфе двойственный подход к экстремальным задачам тесно связан с исполь- зованием функции Лагранжа. Пусть множество R задается неравенствами (2.2), где fj(x) (/ = 1, . . . , ап) —выпуклые вверх и дифференциру- емые функции. Функция Ф (х) по-прежнему считается вы- пуклой вверх. Кроме того, для простоты будем считать, что множество R, выделяемое неравенствами (2.2), огра- *) За исключением естественных и легко учитываемых ограни- чений: |р| <оо, p&Q,
ФУНКЦИЯ ЛАГРАНЖА 51 § 81 ничено и имеет\внутренние точки, т. е. выполнено уело- вне регулярностям. Определим функцию Лагранжа для исходной задачи: Г(х,^) = Ф(х)+ |^А(х) = Ф(х) + (л/«), (8.1) где вектор р= {Pi, • • • , Рт} и все С помощью функции Лагранжа построим функции Ф (х) = min F(x, р), (8.2) ₽>о ф (р) = max F (х, р). (8.3) ЖЕН Рассмотрим задачи *). Задача I. max ф (х) = max rnin F (х, р). х х Задача II. min (р) = min max F (x, p). P >0 P>0 x Покажем, что задача I всегда (без условий выпуклос- ти) эквивалентна исходной задаче, т. е. max Ф (х) = max min F (х, р). (8.4) xf=R х р>0 Действительно, из определения функций ф(х) и F(x, р) следует, что <Р(Х) = (Ф<Х) |К1" [ — оо в противном случае. Пусть х* — решение исходной задачи. Тогда, посколь- ку х*^А\ ф (х*) = шах Ф (х) = max ф (х). Если, обратно, x€=R х х решение задачи I: ф(х**) =шахф (х), то х**е/?, X и, следовательно, опять справедливо (8.4). Установим теперь соотношения между задачами I и II. Прежде всего покажем, что всегда (т. е. опять без всяких *) Более точным, как видно из дальнейшего, здесь было бы ис- пользование операторов sup и inf вместо max и min. 4*
52 ОДНОШАГОВЛЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. ц условий выпуклости). max minF(x,^) «Cmin max F(x,p). (8.5) X p>0 P>0 X Действительно, min F(x, p) ^F(x, p) при любых x и P>0 p^O. В частности, и max min F(x, p) sg:max F(x, p) для x p^Q X любых p^O. Отсюда уже следует (8.5). Таким образом, решая задачу II, можно получить оценку сверху для решения исходной задачи. Потребуем теперь, чтобы исходная задача удовлетво- ряла сформулированным выше условиям выпуклости и регулярности Слейтера (3.3). В этом случае max mln F (х, р) — min maxF(x,p) = F(x*,p*), (8.6) х р>0 х где х* — оптимальное решение исходной задачи (2.1). Для доказательства равенства (8.6) достаточно показать в силу (8.5), что max minF(x, р) > mln max F(x,p). x p^Q p^Q x Для этого в (m+l)-мерном пространстве Y с координата- ми {уо, уь ..., ут} построим множество ~ . |Уо^Ф(*), А = \У={у0,у} I ' для некоторого* где y={yi,..., ут}, f*= и луч § = \у = {у0>у} у0>Ф(х*) у = 0 Так как функции Ф(х) и fj(x) выпуклы вверх, то, оче- видно, множество А — выпуклое. Так как луч В — также выпуклое множество, не имеющее общих точек с Л, то по теореме о разделимости выпуклых множеств (§ 2.1) получим, что существует такая гиперплоскость (р*, у) = = (р*,У*) (р*=^0), что Ро Уо+ (р*, у) ^ро Ф (х*) (8.7) для любых у«=Л. Так как множество Л содержит точки со сколь угодно малыми координатами, то неравенства
ФУНКЦИЯ ЛАГРАНЖА 53 § 8J (8 7) возможно только при р* ^0 (7=0,..., т). Полагая у0=ф(х), yi=fi(x), получим, что РоФ(*) + (Р*. f(x))^ ^р*ф(х*) для любых х. Покажем, что Ро ¥=0. Действи- тельно, в противном случае (р*, f(x))^O для любых х, где р*^0, р*#=0. Это противоречит условию регулярно- сти Слейтера (3.3). Поэтому можно положить ро = 1- Следовательно, Ф(х) + (р*', !(х))^Ф(х*) для любых х. В частности, шах [Ф(х) + (р*, <Ф(х*), или max Р(х,р*)<Ф(х*). х X Но max F(x,p*) > min max F(x,p*), а Ф(х*) — max min х х х р>0 F (х, р). Равенство (8.6) доказано. Теперь заметим, что функция Лагранжа F(x, р) пред- ставляет собой линейный функционал в пространстве У: F(х, р) =р0Ф (х) -J- (р, f (х)) = (р, у), где р={р0, р}, 1/о=ф(х), pj=f,(x) (/=1,..., т). Так как можно положить ро=1, то задача II сводится, сле- довательно, к построению опорных гиперплоскостей к множеству А: тах(р,у)=^ур1(р) = ур(р), у(=А и нахождению среди них такой, для которой функция ф(р) минимальна. Таким образом, здесь, используется тот же двойственный подход, который был изложен в § 7. Одна- ко теперь он осуществляется уже не в исходном простран- стве состояний Хав пространстве У значений функций. Поэтому задачу II можно назвать задачей, двойственной задаче I, а обе эти задачи — парой двойственных задач, причем между ними всегда существует соотношение (8.5), которое переходит в равенство (8.6) в случае одноэстре- мальности и регулярности исходной задачи. Для некоторых задач функция ф(р) определяется в явном виде, и тогда можно рассматривать двойственную задачу, заданную в той же форме, что и исходная.
54 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. И Рассмотрим, например, задачу линейного програм- мирования тах(а0,х), (8.8) где А — матрица размера (пХт),х—n-мерный вектор, b—/n-мерный вектор (см. § 2). Для нее функция Лагран- жа имеет вид F(x, р) = (а0, %) + (/?, b — Ах), р^О; p={Pl,..., Рт}, и функция ф(/>) — шах 1(«ох) + (Р’Ь — ^х)] ~{р,Ь) +шах(о0—рТА,х). X х Предполагая, что решение двойственной задачи конечно, получим,что ао — ртА = О и ф(р) = (р, &). Таким образом, приходим к следующей задаче линей- ного программирования: min (p,b), ртД — а0, р^О. (8.9) р Задачи (8.8) и (8.9) являются парой двойственных задач линейного программирования, причем между ними в си- лу (8.6) справедливо соотношение (ао, х*) = (р*, 6), (8.10) где {%*, р*} образуют решение двойственных задач (8.8), (8.9). Заметим, что если для прямой задачи линейного программирования ограничения имеют вид Ax^2b, х^О, то из этих рассуждений следует, что ограничения двой- ственной задачи будут симметричны ограничениям пря- мой: ртА^а0, р^О. Аналогично рассмотрим задачу квадратичного про- граммирования (см. §2): max[^(x, Qx) + (#о> *)], Ах Для нее функция Лагранжа имеет вид F(x> Р) = |(*> Qx) + (й0,х) + (^, Ь — Ах),
ФУНКЦИЯ ЛАГРАНЖА 55 § 8] где р>0. Тогда из решения задачи max F (х, р) X следует, что Qx-}-a0—Атр=0, отсюда двойственная задача будет иметь вид miri [(р, b) — g (х, Qx)]t ATp—Qx=a0, р^О. Причем на оптимальном решении {х*, р*} этих двой- ственных задач справедливо следующее равенство: 1(х*, Qx*) + (а0,х*) = (/?*, Ь) — 2 (х*, Qx*), или (х*, Qx*)-\-(a0, х*) = (р*, Ь). Вернемся теперь к общему случаю задач I и II. Так как функция F(x, p*j достигает максимального значения в точке х* и так как значения переменных х в задаче II не ограничены, то в этой точке должно быть 7=1 Эти условия, в силу выпуклости функций Ф(х) И fj(x), будут и достаточными для того, чтобы точка х* достав- ляла максимальное значение F(x, р*). Следовательно, вместо задачи II можно в этом случае сформулировать задачу, ей эквивалентную, которая будет иметь вид m ш1п[Ф(х) + (8.11) 7=1 при условиях „>00-1...т). (8.12) 7—1
56 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. II Эта задача двойствена прямой задаче (2.2), и для нее на оптимальном решении {р*, х*} справедливо ра- венство (p*,f(x*))=O, которое обычно называют условием дополняющей не- жесткости. Из этого условия следует, что если х* не нарушает ограничения fj(x):>0, т. е. fj(x*)>° Для этого /, то со- ответствующее р*=0. Если же р* >0 для некоторого /, то А(х*)=о. Подчеркнем, что только для задач линейного програм- мирования «прямые» переменные х не входят в формули- ровку двойственной задачи. § 9. Седловая точка и оптимальность В § 8 было установлено, что для одноэкстремальных и регулярных задач справедливо равенство max min F (х, р) = min max F (х, р) = F (х*, р*), (9.1) х х или F(x, р*) ^F(x*, р*) ^F(x*, р) (9.2) для любых X и р^О. Если функция удовлетворяет в точке {х*,р*} равенст- вам (9.1), или неравенствам (9.2), то говорят, что эта точка является седловой. Тогда результаты § 8 можно интерпретировать следующим образом. Теорема 9.1. Пусть !{х*, р*}—седловая точка функции Лагранжа (8.1). Тогда х*— решение исходной задачи (2.1). Пусть, обратно, х* — решение исходной задачи и вы- полнены условия одноэкстремальности и регулярности задачи (2.1). Тогда существует такой вектор р*^0, что {х*, р*} является седловой точкой функции Лагран- жа (8.1). Таким образом, исходная задача (2.1) при условиях одноэкстремальности и регулярности может быть сведена к задаче нахождения седловой точки функции Лагранжа.
УСЛОВИЯ ОПТИМАЛЬНОСТИ. II- 57 § 101 § 10 Условия оптимальности. II. Теорема Куна — Таккера В § 6 были установлены необходимые условия опти- мальности в терминах возможных направлений (теоремы 4.1, 4.2). Такие условия оптимальности можно назвать «прямыми». Используя понятие двойственности, можно получить необходимые условия оптимальности в «двой- ственной» форме, связанной с функцией Лагранжа. В теореме 4.2 утверждалось, что если х* — оптималь- ная точка и выполнены условия регулярности (3.2), то (Ofj (х*) \ дх , 8х >0, /е/(х*). (Ю.1) (10.2) Положим 8х=х—х*. Тогда неравенства (10.1), (10.2) можно переписать в виде СО-3) (d.fi (Х*}, лА > , Х*\ / е/ (х*). (10.4) \ дх ) \ дх ) Задачу нахождения такого х, который удовлетворяет неравенству (10.3) при ограничениях (10.4), можно сфор- мулировать, очевидно, как экстремальную, в виде шах ЭФ (х*) дх дФ (х*) дх (10.5) X при ( дМх\, %") > j^j (х*). (Ю.6) \ дх ) \ дх ) J v 7 v 7 Это — задача линейного программирования. Переходя от задачи (10.5), (10.6) к задаче, ей двойст- венной (см. (8.8, 8.9)), получим задачу: найти pjJ>0, /^7(х*), которые минимизируют jej (х») (х*) к дх (Ю.7)
58 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. ц р^0;/(=/(х*). (10.8) при ограничениях __ у df j (х*) _ ЭФ (х*) дХ дХ Заметим, что при оптимальном р* должно быть, на основании (8.10), равенство - 2 / (д-^} х*') - х*^ °* >Х 1~ \ дх 'х )' что является следствием (10.8). Таким образом, если х* — оптимальное решение исход- ной задачи, то должны существовать такие неотрицатель- ные множители р*, /е/(х*), при которых выполнено (10.8). Равенство (10.8) имеет простой геометрический смысл: в оптимальной точке х* градиент показате- ля качества должен быть положительной линейной ком- 170* Рис. 2.10.1. <?//**) бинацией градиентов - (jX тех ограничений, которые в оптимальной точке вы- полняются как равенства: fj(x*)=O, /&Г(х*) (см. рис. 2.10.1, где fiU*)=f3(x*)=0, f2(x*) >0, J(x*) = {l,3}. дх p*yf* = p*V^(i=l,3)). Заметим, что отсюда вид- но, что вместо условия (3.2) достаточно потре- бовать, чтобы векторы ——;/е/(х*), в оптимальной точке были линейно не- зависимы. Введем вектор р={рь .рт] с неотрицательными компонентами, причем будем считать, что Pj=O, если т. е. если соответствующее ограничение не влия- ет на точку х: /j(x) >0 для этих /. dfj (**)
ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 59 § 11] Тогда равенство (10.8) можно переписать в виде ,Ае (Л П*))=°. (/=1,..., т). (10.10) Таким образом, приходим к следующим необходимым условиям оптимальности. Теорема 10.1 (Куна — Таккера). Пусть х*—оп- тимальное решение задачи (2.1) и пусть в оптимальной точке выполнено условие (3.2), либо в этой точке векто- df •(х*) ры —2——линейно независимы. Тогда суще- дх ствует такой вектор р*^0, что для х*, р* выполнены соотношения (10.9), (10.10). Теперь заметим, что если использовать функцию Ла- гранжа F(x, р) = Ф(х) + (р, /(х)), то условия (10.9), (10.10) заменяются на следующие. В оптимальной точ- ке х* существует такой вектор р*^0, что -^^ = 0, (10.11) dF(dp = (10-12) (р*, f(x*)) =0, р*2^0. (10.13) Таким образом, теорема Куна — Таккера обобщает метод Лагранжа на случай ограничений, заданных в фор- ме неравенств. Заметим, что условия (10.11) — (10.13) (или (10.9) — (Ю.Ю)) являются также и необходимыми условиями того, чтобы {х*, р*} была седловой точкой функции Лагран- жа F(x,p) при р^0. Если для исходной задачи (2.1) потребовать условия одноэкстремальности и регулярно- сти, то теорема Куна — Таккера дает, очевидно, и до- статочные условия оптимальности. § 11. Вычислительные методы. Классификация Перейдем теперь к методам вычисления оптимально- го значения х*. В соответствии с полученными условиями оптимальности для нахождения оптимального х* имеются тРи (основные) возможности.
60 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. Ц 1. Решать исходную задачу (2.1), выбирая сначала произвольное x<=R и улучшая его в соответствии с усло- виями теоремы 4.1. Такие методы дают монотонное улучшение допустимого решения х (не нарушающего ограничения) и приводят при некоторых дополнительных условиях, во всяком случае, к локальному максимуму Ф(Х) на R. Они получили название прямых (градиентных) методов или методов возможных направлений. 2. Заменить исходную задачу, ей двойственной (зада- чей (7.2)) или задачей (8.11), (8.12), или задачей II §8), и решать двойственную задачу. Часто такая замена существенно упрощает решение (например, двойственная задача может распасться на ряд подзадач) . Однако такая замена возможна лишь в случае одноэкстремальности и регулярности исходной задачи. В общем же случае ре- шение двойственной задачи дает только оценку сверху для решения исходной задачи в соответствии с (8.5). 3. Воспользоваться условиями оптимальности теоремы 10.1 и искать такие значения х* и р*, при которых функ- ция Лагранжа удовлетворяет условиям (10.9), (10.10). Для одноэкстремальных и регулярных задач этот метод приводит к определению седловой точки функции Лаг- ранжа и дает одновременное решение прямой и двой- ственной задач. Не ставя здесь целью подробное изучение всех трех групп приведенных методов, рассмотрим в последующих параграфах только их основные черты. Но прежде полу- чим оценку близости произвольного решения x^R к оп- тимальному х*. § 12. Оценка приближения Оптимальное значение функционала в задаче (2.1) можно оценить сверху, решая точно или приближенно двойственную задачу. Именно, Ф(х) шах Ф (х) max 1Ф(х) + (р, f (х))1, (12.1) хеН х где x<=R— любое допустимое решение прямой задачи, Р^0— любое допустимое решение двойственной задачи. В случае одноэкстремальности задачи (2.1) при х->х*, где х*, р* — оптимальное решение прямой и двой-
ОЦЕНКА ПРИБЛИЖЕНИЯ 61 § 121 твенной задач, разность между верхней и нижней оцен- <ой в неравенствах (12.1) будет стремиться к нулю. Таким образом, одновременное решение прямой и двой- ственных задач позволяет последовательно уточнять диапазон, в котором находится оптимальное значение функционала прямой задачи. Однако такой способ обла- дает тем недостатком, что оценка сверху не зависит от конкретного выборах. В связи с этим воспользуемся той же идеей двойственности в несколько ином плане (см. § 7). Будем рассматривать одноэкстремальные задачи. Вы- берем в расширенном пространстве Еп+1 вектор р = = {р0,р}, где ро=—1, р^Еп, — произвольный вектор (рУ=0), и решим задачу шах (р, х), хеЬв где множество R определено из (2.4), xefn+1. Пусть х(р)—некоторое решение этой задачи, т. е. (р, х(р))^(р, х) (12-2) для любых хе/?. Гиперплоскость (р,х) = (р,'х(р)) является опорной гиперплоскостью множества R в точке х(р). Так как функция Ф(х) выпукла, то все точки по- верхности Хо=Ф(х) лежат под этой гиперплоскостью (рис. 2.12.1). Следовательно, из (12.2) получим неравен- ство “ф(х(р)) + (р, х(р))^ sC—Ф(х) + (р, х), или ф(*) -Ф(х(р))< ^(р, х-х(р)), (12.3) справедливое для любых хе/?. Причем, (V/ Дифференцируема, то, очевидно, если функция Р = ЭФ (х (/>)) дх (12.4)
62 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. Ц Воспользуемся неравенством (12.3) для получения оценки близости произвольного xeeR к оптимальному. Вы. берем произвольный вектор x^R и положим р== =дф(х)/дх. Неравенство (12.3) перепишется тогда еле- дующим образом: Ф(Х)—Ф(х)^(р, х—х) (12.5) для любых x^R. В частности, max Ф (х) Ф (х) + max (р, х — х). x&R. хеН (12.6) Таким образом, выбирая произвольный вектор x^R, получим из (12.6) оценку сверху оптимального значения функционала Ф(х). Эта оценка тем точнее, чем ближе х к х*. При х=х* получим в силу теоремы 5.1, что max (р*,х — х*) = О, x<=R и неравенство (12.6) переходит в равенство. Далее, при- меняя неравенство (12.5) к функциям /j(x) (/=1,..., m), получим, что fjW —х — х) (/=1, .... tn), (12.7) где x^R, a qj (х) = dfj (х) /дх. Если x^R, то /Дх)^0, и из (12.7) получим, что (/ = 1,...,Щ). (12.8) Пустьх -—граничная точка R. Определим множеству индексов J(х) = {j|/= 1,..., т; ft(x) =0}. Для /<= J(х) неравенства (12.8) определяют конус С(х) (см. §_3). Он ограничен еще гиперплоскостями (12.8) при j<£J(x), т. е. когда /Дх) #=0. Получающееся в результате выпуклое многогранное множество, которое обозначим через Q(x), содержит, очевидно, R. Поэтому из (12.6) получим вто- рую оценку тахФ(х)^Ф(х) Д- max (р,х — х). (12.9) хек xeQ (X) Заметим, что задача максимизации в правой части
МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИИ 63 § 131 (12.9)—задача линейного программирования. Опять, если х*— оптимальное решение задачи (2.1), то max (р*, х — х*)=0, и неравенство (12.9) переходит в хеО(х*) равенство. Эти построения проиллюстрированы для одномерного случая на рис. 2.12.2. Здесь функции x0=fi(x)t xQ=f2(x) задают допустимое множество R на оси х (интервал [а, Ь]) из условия fi(х)^0, f2(*)^0. В силу выпуклости функций Л(х), /г(^) Для них спра- ведливы очевидные неравенства (12.7) и (12.8), которые определяют «линейную аппроксимацию множества R»— интервал Q= [а, с]. § 13. Методы возможных направлений Реализация этих методов состоит из следующих эта- пов: 1) выбор начальной допустимой точки 2) выбор подходящего допустимого направления s1; 3) выбор длины шага 81 вдоль s1; 4) получение нового решения x2=x1+e1s1; 5) оценка нового решения х2 и т. д. Достоинство методов возможных направлений состо- ит в том, что на каждой итерации получаются допустимые решения (x2^R) и при этом новое решение лучше преды- дущего Ф(х2)>Ф(х1).
64 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. И Опишем кратко каждый из этапов в отдельности. 1) Выбор допустимой точки x^R. Во многих практических задачах такую точку легко получить из фи- зических соображений. Если же она неизвестна, возьмем произвольную точку х^Еп (например, х=0) и решим при ограничениях (/=1,..., /п). (13.2) Так как множество /?, выделяемое неравенствами (2.2), содержит, по предположению (3.3), внутренние точки, то тах^Х). Следовательно, решая задачу (13.1), (13.2) каким-либо излагаемым далее методом возмож- ных направлений, всегда можно получить после-Конечно- го числа шагов точку х=х\ для которой fj(x)^£^O (/=1, ..., m), т. е. x^R. 2) Выбор подходящего направления, s. Пусть x'^R. Определим в этой точке конус допустимых вариаций К(х{) и решим задачу max 5^ в \ дх 1 J при условиях, что вектор s нормализован и s<=K(xl). Нормализация нужна для того, чтобы избежать не- ограниченных решений задачи. Например, можно потре- бовать, чтобы |$г|<Рг, Рг>0, ИЛИ (s, s)Cp, р>0. Решая эту задачу получим, очевидно, такое направле- ние s1, которое обеспечивает наибольшее возрастание функции Ф(х) среди всех допустимых направлений в этой точке. Предполагая выполненными условия регулярности § 3, конус К(х) можно задать с помощью неравенств (3.1). Кроме того, желательно в задачу выбора опти- мального направления s1 ввести некоторые параметры, регулирующие «степень проникновения» вектора s1 в множество R.
§ 13] МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИИ 65 Задавая конус К(х1) с помощью неравенств (3.1), приходим к следующей задаче: max о, , (13.3) ^2^2, s) - 0,ст > О, 0,- > О, / е/ (х1), рг— |$i I >0 G’=l, ..., m). Коэффициенты 0j нужны для того, чтобы избежать на- правлений, «строго» касательных к поверхностям fj(x)=O, /^/(х1), и тем самым для того, чтобы не выхо- дить за пределы множества 7?. Величины рг- определяют нормализацию вектора s. Она необходима для того, что- бы не получать неограниченных решений задачи (13.3). Возможны и другие виды нормализации вектора $. При этом выбор нормализации существенно влияет на свой- ства алгоритма. Очевидно, (13.3) —задача линейного программирова- ния. Таким образом, выбор наилучшего возможного на- правления можно свести к решению некоторой, часто простой, задачи линейного программирования. Выбор длины шага е. Пусть s1, о1—решение задачи (13.3). Определим сначала наибольшую длину шага е11, которую можно сделать вдоль направления s1. Для этого решим задачу: е11 = max^lx1 + es^T?} или maxe=811 8 при ограничениях /Дх^ез1) 2>0 (/=1, . /и). В силу выбора направления s1 величина 8н>0. Теперь определим наилучшую возможную длину шага 81 вдоль направления s1. Для этого решим задачу тахФ(хг + ££х) = Ф(хх + e12sx). . (13.4) 8 Задача (13.4) одномерная. Необходимые условия оптимальности для нее аФ(^ + езД) = 0 (13,5) которые будут и достаточными, если функция Ф(х) вы- пукла вверх. Если Ф(х) не выпукла, то в качестве прибли- ® А. И. Пропой
66 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ (ГЛ. П женного решения (13.4) можно взять первый положитель- ный корень (13.5), который даст во всяком случае локаль- ный максимум задачи (13.4). Заметим, что часто для определения длины шага используют представление Ф(х) вблизи точки х1 в виде ф (X» + es1) = Ф (х1) + + 1 где матрица д2Ф (х1) __ Гд2Ф (х1) дх2 ~~ дх^ dxj откуда ei2 _ WQWW) i\ £ ~ ’“а? / дх ’5 /• После того как е12 определено, в качестве длины ша- га е1 выбираем наименьшее из чисел е11 и 812: e^minfe11, s12}. 4) Оценка полученного решения. Для оцен- ки x2=x14-81s1 можно воспользоваться либо оценками приближения, приведенными в § 12, либо просто, если Ф(х29—Ф(х!)<б, где 6>0— заранее заданное малое число, то считать, что х2 с некоторой точностью (завися- щей от б) определяет локальный экстремум Ф(х) на R. Практически этот экстремум может быть только мак- симумом (глобальным или локальным), потому что к минимуму Ф(х) нельзя прийти из-за монотонного возра- стания O(xv) (v=l, 2, ...), что касается стационарных точек типа седловой, то для них всегда можно найти подходящую (хотя бы в широком смысле слова) вариа- цию, в направлении которой функция Ф(х) возрастает. В заключение отметим, что этот метод дает широкие возможности в построении конкретных алгоритмов, которые отличаются выбором направления, длины шага или нормализации, причем в эту схему укла’дываются такие известные и эффективные методы математического программирования, как конечные методы в линейном программировании, метод проекций градиента в нелиней- ном программировании и т. п.
$ 141 ОГРАНИЧЕНИЯ В ВИДЕ РАВЕНСТВ 67 § 14. Ограничения в виде равенств Если ограничения заданы в виде равенств, например, допустимое множество представляет собой некоторую гиперповерхность в Еп, то здесь в качестве допустимых линейных вариаций можно выбирать только такие, которые направлены по касательной к этой поверхности, т. е. в качестве аппроксимации множества 7? в точке х нужно использовать конус М(х), а не К.(х) (см. § 3). С этим уточнением методы возможных направлений могут быть использованы и в рассматриваемом случае. Рассмотрим, для примера, задачу максимизации функ- ции Ф(х) при одном ограничении fW=0. (14.1) Конус ЛЦх1) допустимых в широком смысле вариаций в точке х1 в этом случае образует гиперплоскость \ дх ' ) ’ (14.2) касательную к поверхности (14.1) в этой точке. (Предпо- лагаем, что 7^=0 J Задача выбора наилучшей вариации в точке х1 сводит- ся к задаче максимизации линейной функции I ^,6x1 при ограничениях (14.2) и при условии нормализации вектора 6х, например, вида (6х, бх) = 1 (без этого усло- вия задача имела бы, очевидно, неограниченное решение). Поскольку ограничения для этой задачи заданы только в виде равенств, для ее решения используем классиче- ский метод Лагранжа. В данном случае он сводится к отысканию стационарной точки функции Лагранжа вида Л . бх) + Ло [1 - (6х, бх)1. Дифференцируя функцию Лагранжа по вектору бх, получим, что наилучшее направление определяется выра- жением бх 9Ф(Х1) , . df(Xi) дх А дх * (14.3) 5‘
68 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. И Так как вектор бх должен удовлетворять уравнению (14.2), то из (14.2), (14.3) получим условие для X: Д дх ’ дх J \дГ~''~дГ)' U ' Таким образом, новая точка х2 определяется из х2=х1+ебх1, где бх1 находится из (14.3), (14.4), а е —длина шага, которая может считаться здесь постоянной. Заметим, что точка х2 уже не удовлетворяет точно ограничению (14.1) (если функция f(x) нелинейна), по- этому в алгоритме должен быть еще и механизм, воз- вращающий точку (после одной или нескольких итера- ций) на поверхность (14.1). В заключение подчеркнем, что если в рассматривае- мой задаче оптимизации ограничения заданы в виде равенств f/x) = O (7=1,..., т<п), (14.5) то для одноэкстремальности задачи и справедливости теорем двойственности необходимо требование линейно- сти функций fj(x) (j= 1,..., т). Это связано с тем, что допустимое множество /?, определяемое ограничениями (14.5), будет выпуклым только при выполнении последне- го условия. § 15. Двойственные методы Вид двойственных методов существенно зависит от того, в каком пространстве применяется принцип двой- ственности. 1. Если он используется в пространстве решений X, то метод определения оптимального значения х* следует непосредственно из самой идеи двойственности (§ 7). Действительно, выберем произвольный вектор р1=/=0 и решим задачу тах(р\х). (15.1) хеН Пусть х(р!) —некоторое решение этой задачи. Если (15.2)
$ 15] двойственные методы 69 то, на основании теоремы 6.1,хх=х(рх)—решение задачи. Если же равенство (15.2) не справедливо, то положим и решим задачу (15.1) для р=р2 и т. д. Таким образом, исходная задача заменяется, по существу, задачей минимизации рассогласования (15.3) где х(р) определяется из решения задачи (15.1). Посколь- ку функция х(р), как правило, в явном виде неизвестна, различные методы, основанные на этой схеме, используют либо аппроксимацию задач (15.3), (15.1), либо прибли- женное вычисление функции рассогласования или ее градиента по значениям х(р) в нескольких точках. Ясно, что подобными методами можно эффективно пользоваться только в случае, если выполнены условия § 7, т. е. во всяком случае множество R должно быть выпуклым. Изложенный выше метод можно применить и для оптимизации непрерывных, но не обязательно дифферен- цируемых функций Ф(х). Для этого введем понятие обобщенного градиента. Заметим сначала, что если функция Ф(х) дифференцируе- ма и выпукла вверх, то гиперплоскость (в пространстве £n+1), касательная к поверхности х0=Ф(х) в точке будет одновременно и опорной множеству R={{xq, х}|х0^Ф(х), x^R} в этой точке, т. е. max (р1, х) = Ср1, х1), (15.4) XSR где рх = {1рх}, рх = дФ(хх)1дх, или Ф(х)—<&(хх)^(рх, х—х1). (15.5) В случае недифференцируемости выпуклой вверх функции Ф(Х) касательную гиперплоскость уже опреде- лить нельзя, а ее аналогом служит опорная гиперплос-
70 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ 1РЛ. II кость (15.4), определяемая неравенством (15.5). Аналогом же градиента функции Ф(х) в точке х1 служит вектор р’, удовлетворяющий неравенству (15.5); его обычно называ- ч ют обобщенным градиентом в точке X? х1. Заметим, что для негладких функ- 7 ций обобщенный градиент может быть неединственным (рис. 2.15.1). \ 2\\ \ Обобщение рассмотренного мето- \\\ да на слУ43® негладких функций \ \\\ Ф(х) состоит в следующем. Выби- \ \ \ рается некоторый вектор р1, и для \ р=р* решается задача (15.1). Пусть х1—решение (15.1). Если х1 и р1 Рис. 2.15.1. удовлетворяют неравенству (15.5), то нетрудно видеть, что х1 — опти- мальное решение; если при этих х1 и р1 неравенство (15.5) несправедливо, то ищется новое значение векторах2 и т. д. Таким образом, здесь ищется гиперплоскость, ко- торая была бы одновременно опорной множествам R и Q= {х|Ф(х)^Ф(х*)}, т. е. чтобы она разделяла эти множества. 2. Перейдем теперь к методам двойственности в про- странстве УСЕт+1 значений функций р0=Ф(Х)> Уз=1}(х) m). В этом случае, если выполнены условия § 8, то исход- ную задачу (2.1), (2.2) можно заменить задачей мини- мизации шшф(р), Р>0 где Ф(р) = шах[Ф(х) + (p,f(x))L (15.6) X Пусть х(р) —решение задачи (15.6). Будем предпола- гать, что задача (15.6) имеет при каждом р единственное решение и функция х(р) дифференцируема (например, Ф(х) и f(x) —строго выпуклые вверх и гладкие функции). Тогда из (15.6) следует, что »Ф(р) чп 8Ф(х(р)) 0xi (р) , dpi Zd dXi -57- Т >—1 • + У У A 9h^L + fi (х (р)) tn). (15.7) А Ч Spt
$ 15) двойственные методы 71 Но 5Ф(*(Р)) . V „ Э^(х(р)) п н 1 х ,1СОЧ аГ{---+ 2i рк ~дГ~ = 0 (^ = 1, • •.,«) (15.8) к=1 1 по определению х(р). Поэтому из (15.7) следует, что Ц^ = Ь(х(р)) = (15.9) Применяя для решения задачи (15.6) обычный гради- ентный метод и учитывая, что р^О, получим ^+1 = ^_е. ff(x(p)), если р” —е4/(х(р'|))>0, I 0, если р* — e>f (х(р4)) ^0 (v=l,2,3,...). Или, сокращенно, pv+1=pv —max{0, pv —evf(x(pv))}, (15.10) где х(р) — решение задачи (15.6), определяемое из ус- ловий (15.8); вектор-функция f(x) = {fi(x), ..., fn(x)}. Используя (15.10), найдем значения р* и х*—х(р*), которые вследствие теорем § 8 и определят решение прямой и двойственной задачи. Если задача (15.6) имеет неединственное решение, то функция ф(р) будет уже не дифференцируемой. Вос- пользуемся в этом случае понятием обобщенного гради- ента q функции ф (р). Нетрудно видеть, что ф (р) — вы- пуклая вниз функция (даже если Ф(х) и f(x) невыпук- лы), поэтому обобщенный градиент ql функции ф(р) в точке р1 должен удовлетворять неравенству ф(р)—ф(р’)>(91, Р —Р1)- Очевидно, ф(р)=Ф(х(р)) + (р, /(х(р)))>Ф(х(р>)) + (р, f(x(p’))), ф(р1)=Ф(^(Р’)) + (Р1.Г(х(Р1))). Вычитая почленно, получим ф(р) — ф(р1)>(Г(х(р1)). P — P1).
72 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ 1ГЛ. II Следовательно, обобщенным градиентом q' функции ф(р) в точке р1 является вектор ql=f(x(p1)) (где х(р*)— любое решение задачи (15.6) или (15.8)), который, естественно, переходит в обычный градиент (15.9), если решение (15.6) единственно. Обозначим через Q(p) множество обобщенных градиентов ф(р) в точке р. Очевидно, для того чтобы в в алгоритме (15.10) сохранить монотонное убывание функции ф(р), нужно из точки pv двигаться в направле- нии— sv, при котором (qv,sv)>0 для всех qv^Q(pv), т. е. алгоритм (15.10) заменяется на pv+1=max{0, pv—evsv}, (15.11) где должно быть (f(x(pv)),sv)>0 (15.12) для всех решений x(pv) задачи (15.6) при p—pv. Можно использовать и алгоритм (15.10), где f(x(pv))— произвольное решение задачи (15.6). Однако так как неравенство (15.12) может и не выполняться для некото- рых svb3tom случае, то алгоритм (15.10) уже не будет да- вать монотонное уменьшение ф (р). Кроме того, можно по- казать, что для обеспечения сходимости последовательно- сти pv (v=l, 2,...) к оптимальному значению р* нужно потребовать, чтобы длина шага ev уменьшалась по закону ev->0, 2ev = 00’ (15.13) V=1 Двойственные методы удобно применять, когда реше- ние задач (15.1) или (15.6) относительно легко. Однако основное достоинство этих методов состоит в том, что при специальной «блочной» структуре исходной задачи двойственная задача распадается на ряд подзадач, свя- занных между собой простым образом. Рассмотрим, например, задачу максимизации суммы N £Фк(х(6)) (15.14) а=1 при условиях N 2/,а(х(А))>0 = (15.15) h=J
$ 16! МЕТОДЫ ОДНОВРЕМЕННОГО РЕШЕНИЯ 73 гдеФл(х), fih(x) (j—l,...,m(k); k=\,...,N) —выпуклые вверх и дифференцируемые функции, x(k) = {xi(k)t... xn(k)}. Кроме того, предполагаются выполненными условия регулярности (3.3). Тогда решение задачи (15.14), (15.15) может быть заменено решением двойст- венной т!пф (р), р>0 где ф (р) = max.. .max я (1) x(N) N N 2 Ф* (*(*))+ 2 h=l fc=l m (fe) 2 Pifik(x(k)) J=i N Г m (fe) = 2 W)) + 2 Pifik(x(k)) k^ix(h> I £1 (15.16) Таким образом, решение двойственной задачи сводит- ся к решению для различных р N задач (15.16) и измене- нию р с помощью (15.10). В динамических задачах, которым посвящены осталь- ные главы книги, принцип декомпозиции, основанный на теории двойственности, играет центральную роль и по- зволяет сводить в большинстве случаев вычисление опти- мального управления к решению на каждом шаге отно- сительно простой экстремальной задачи. § 16. Методы одновременного решения прямой и двойственной задач В §§ 13—15 использовалось приближение к оптималь- ному решению либо по переменным х, либо по перемен- ным р. В этом параграфе рассмотрим методы, использующие одновременное приближение по х и р. 1. Применим опять принцип двойственности в прост- ранстве X и рассмотрим следующий алгоритм. Выберем некоторую точку x]^R и вычислим градиент в этой точке 1 дх (16.1) Для р=р1 решим задачу (15.1). Пусть х(р1) — решение
74 ОДНОШАГОВАЯ ЗАДАЧА ОПТИМИЗАЦИИ [ГЛ. П этой задачи. Новое значение х2 определим из х2=х1+Х(х(р1)— х>), (16.2) где длину шага можно находить, например, из условия максимума по А функции Ф[х14-А(х(р1)—х1)] на отрезке, соединяющем точки х(р1) и х1, т. е. когда Os^As^l. Заметим, что, как следует из § 11, для любых двух точек х и х1 из X справедливо неравенство Ф (х) — Ф (х1) (р1, х — х1), гдер1 определено из (16.1). Следовательно, max [Ф (х) — Ф (х1)] max (р1, х — х1). xsR xeR (16.2) (16.3) С другой стороны, разлагая Ф(х) в окрестности точ- ки х1, получим Ф(х) —ф(х1) = (р1, х — x’J+odx — х11). Таким образом, этот метод может также рассматри- ваться и как метод возможных направлений, где направ- ление sx—x(pl)—х1 выбирается из условия максимизации приращения функции Ф(х) при специальной его нормали- зации: x(pl)^R. Заметим, что из (16.1), (16.2) легко вычислить оценку (16.3) для оптимального значения Ф(х*). Отсюда же не- трудно получить и обоснование алгоритма. 2. Используем теперь принцип двойственности в про- странстве Y. В этом случае решение пары двойственных задач эквивалентно нахождению седловой точки функции Лагранжа F(x,p) в области х^Еп, р^О (см. § 9), т. е. max F(x,p*) = F(x*, р*), (16.4) X mlnF (x*,p) = F(x*,p*). (16.5) P>0 Применяя к задачам (16.4), (16.5) градиентный алго- ритм, получим р*+1 = щах (б, pv — ev dF Р- }- (16.6)
$ 16] МЕТОДЫ ОДНОВРЕМЕННОГО РЕШЕНИЯ Г5 где &F(x),p>) = ЗФ(хЧ , Г dftfj]7 у дх дх L J ^x.’Pv) =/(хч). Л V ' * др Таким образом,здесь,в отличие от алгоритма (15.10), уже не нужно решать задачу (15.6) на каждом шаге — она решается параллельно с решением задачи (15.5) с помощью первого алгоритма (16.6). Заметим, что седловая точка обладает определенного рода неустойчивостью, поэтому нужны специальные прие- мы для выбора длины шага ev, чтобы обеспечить сходи- мость алгоритма. В заключение подчеркнем, что четкое деление методов на рассмотренные выше три группы возможно только для задач линейного программирования, так как именно в линейном случае удается полностью исключить прямые переменные из формулировки двойственной задачи. В не- линейном же случае вычислительные методы делятся, скорее, на две основные группы: прямые, в которой улуч- шается допустимое решение, и различного рода двойственные, в которых при приближении к оптимуму какие-то ограничения не выполняются и в которых тем или иным способом участвуют множители Лагранжа, определяя «штраф» за невыполнение этих ограничений.
ГЛАВА Ш УСЛОВИЯ ОПТИМАЛЬНОСТИ В этой главе даются необходимые условия опти- мальности для задач дискретного управления в терми- нах возможных направлений, аналогичные тем, которые были приведены в § 2.4 для одношаговой задачи. Предполагается, что функции Ф(х) и f(x, и) непре- рывны и имеют непрерывные частные производные по всем своим переменным, а множества Ur, Xr ограниче- ны и замкнуты. § 1. Сопряженная система В дальнейшем, наряду с прямой системой уравне- ний (1.2.З.), играет такую же основную роль сопряжен- ная (двойственная) система, которая будет введена в этом параграфе. Рассмотрим сначала задачу оптимизации конечного состояния (задачу 1 § 1.3). При этом для удобства обо- значений будем в дальнейшем считать, что уравнения движения (1.3.1) и ограничения (3.2), (3.5) не зависят от номера шага k. Естественно, что все утверждения распространяются и на общий случай задач, сформули- рованных в § 1.3. Введем в пространстве состояний X следующую систему разностных уравнений: И*) = р (k + 1) (k - N- 1, .... 1), (1.1) где p(k)— вектор с координатами {pi(k), ..pn(k)}, = .......................... дх dxj ' — квадратная матрица размера (пХп). т означает транспонирование. Система (1.1) обычно называется сопряженной или двойственной (в отличие от прямой системы (1.2.3)),
СОПРЯЖЕННАЯ СИСТЕМА 77 § и а векторы p(k) —сопряженными (двойственными) пере- менными. Матрицы df(x(k), u(k))/dx(k) определены только в том случае, если для некоторого начального состояния х(0) фиксировано управление и, и, следовательно, в си- лу уравнений движения (1.2.3) —траектория х. Поэто- му о сопряженной системе имеет смысл говорить толь- ко для какого-то фиксированного процесса управления. В этом случае система (1.1) является линейной систе- мой с переменными параметрами. Заметим, что «время» в сопряженной системе нап- равлено в обратную сторону, и значения переменных p(k)(k = N—1, ..., 1) определяются заданием величины p(N) на последнем шаге. Для рассматриваемой задачи оптимизации конечного состояния положим = (1-2) где дф/дх — градиент показателя качества (1.3.1). Таким образом, каждому фиксированному процессу управления {х(0), и, х} соответствует своя сопряжен- ная система (1.1), (1.2) со своим набором переменных W)}. Определим теперь функцию Я(р(А+1), х(Л), u(k)) = (p(k+l), f(x(k), u(k))) (6=0, ..., N— 1). (1.3) По аналогии с непрерывными процессами назовем эту функцию функцией Гамильтона. С помощью функции Гамильтона уравнения (1.2.3) и (1.1) можно объединить в одну систему разностных уравнений (аналог гамильтоновой системы в непрерыв- ном случае): №=0....... (1.4) = )<№• МВД .....1)f с граничными условиями на «левом конце» х(0)=а и на «правом конце» р (N) = При фиксирован-
78 УСЛОВИЯ ОПТИМАЛЬНОСТИ 1ГЛ. in ных р и х функция Гамильтона становится функцией только управляющего воздействия и. В силу сделанных предположений эта функция дифференцируема по и. Определим для каждого u^U конус допустимых ва- риаций К (и) (см. § 2.3): /((«) = {би |«4~еби<=£/; 0<e<ei}. Будем предполагать, что выполнены условия регу- лярности § 2.3, так что конус К (и) выпуклый и содер- жит внутренние точки. Обозначим через биН(р, х, и) допустимый диффе- ренциал функции Гамильтона, т. е. М(р, х, и) _ S«) = 2 8В1' S 1 (1-5) где 8и^К(и). Рассмотрим теперь задачу с суммарным показате- лем качества (задача 2 § 1.3). В этом случае, если вос- пользоваться записью уравнений движения (1.3.2) с по- казателем качества (1.3.6) в расширенном пространст- ве состояний X = En+i (уравнения (1.3.12) ), то сопря- женная система для (1.3.12), как следует из (1.1), (1.2), запишется следующим образом: р (fe) = Г х’11 1Гр (fe + 1) (k = TV—1,..., 1), (1.6) где р (k) = {р0 (&), рг (£)> • • • 7 Рп (k)]> с граничным усло- вием p(tf)=e={l,0}. (1.7) Аналогичный (1.3) и (1.4) вид будет иметь и функция Гамильтона н (р (k 4- 1)5(6), и (6)) = (р (k 4-1), f (х (k), и (6))) (1.8) и гамильтонова система X (k 4-1) = jr. !>’ * <fe)’ “ , x(0) = {0, a}, ' dp (k+1) ' p(fe)= ^G(fe+j),xW,uw)> £(ЛГ) = {1,0),
«Я ЗАДАЧА ОПТИМИЗАЦИИ КОНЕЧНОГО СОСТОЯНИЯ 79 Используя (1.3.11), получим сопряженную систему для задачи 2 в «обычном* пространстве состояний Х= =Еп. Очевидно, из (1.6), (1.7) и (1.3.11) следует, что Ро(*)=Ро(АН-1)=Ро(ЛГ) = 1 1, .... Л/-1). Поэтому сопряженная система для задачи 2 в прост- ранстве X будет иметь вид Р № = d/o(x^)“(fe)) + [-^(XM’fe)W)]r Р <k + О-9) с граничным условием p(tf)=0, (1.10) а функция Гамильтона запишется следующим образом: Я(р(*+1),х(*),«(Л)) = =fo(x(A), u(^)) + (p(^+l), f(x(k), и(Л))), (1.11) причем 6ВЯ(Р, х, и) = б« ) + (р, (М2) § 2. Задача оптимизации конечного состояния Введенные в § 1 выражения позволяют сформулиро- вать необходимые условия оптимальности для задач дискретного управления. В этом параграфе рассмотрим задачу оптимизации конечного состояния без ограни- чений на переменные состояния (задача 1 § 1.3). При этом, помимо уже сформулированных требова- ний, на функции Ф(х), f(x, и) и множества U, Л (и) будем предполагать, что для оптимального конечного состояния*) Теорема 2.1. Пусть «*={«*(0), ...,u*(7V—1)} — оптимальное управление для начального состояния х(0) =а в задаче 1. Имеет место неравенство 8иН(р*(JH-1), x*(k), «*(£))(2.1) *) По поводу этого условия см. § 4.
80 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. ПТ для любых 6u* (k) ^К(а* (&)) (k =0, ...» TV— 1), где оп- тимальные значения х* находятся из системы (1.2.3) при х(0)=а, а оптимальные значения р* находятся из системы (1.1) с граничным условием (1.2). Причем, если и*(й) —внутренняя точка множества U, то 8Н(и*(А)) =0 для любых допустимых вариаций в этой точке; если же б//(и*(&)) <0, то точка u*(k) яв- ляется граничной точкой множества U. Доказательство. Фиксируем оптимальный про- цесс {и*, х*} и рассмотрим уравнение в вариациях на этом процессе бх*(k + 1) = W.“*W) Sx*_|_ + {X~du(k)* 6ц* ^=0’ ь (2-2) где предполагается^, что би* (£)е К (&* (&))• Пусть векторы {р*(й)} определены на оптималь- ном процессе из сопряженной системы (1.1) с гранич- ным условием (1.2). Рассмотрим скалярное произве- дение (р* (6+1), бх* (6 + 1)) = (р* (6), бх* (6)) + + (р*(k +1), W)- (2-3) Здесь последовательно были использованы уравнения (2.2), (1.1). Суммируя (2.3) по 6 = 0, 1, ..., N— 1 и учиты- вая равенства бх*(0)=0 и (1.2), получим N—1 6Ф (х* (N)) = 2 (^ + !)> ** (*). «* Ж (2.4) h=0 где бФ(х*(^)) = (^^,6х*(АГ)) и биЯ(р*(^+1),х*(6), и*(6)) определено из (1.5). Так как х* (N) — оптимальное состояние, то бФ(х*(А9)5г0 для любых би*(6)е/< (н*(6)) вследствие теоремы 2.4.1.
S 21 ЗАДАЧА ОПТИМИЗАЦИИ КОНЕЧНОГО СОСТОЯНИЯ 81 Полагая бы* (у) =0,/=/=&, би* (Л) =/=0 (k—0, —1), из (2.4) получим, что &иН(р*(&+1), x*(k), u*(k))^0 при би*(£)(= К (и* (k)). Пусть теперь при каком-то k и* (k) — внутренняя точка множества U, тогда конусом K(u*(k)) яв- ляется все пространство вариаций. Поэтому если би* (k)^K(u*(k)), то и —би*(А)е/((и*(&)). Отсюда следует, что в данном случае (fe+l),x* (fe),a*(fe)) _ n du(k) — u‘ Если же бЯ(р*(&+1), x*(k), и*(Л))<0 в какой-то точке u*(k)^U, то, очевидно, она не может быть внутренней точкой множества U. Теорема доказана. Пусть теперь ограничения на управляющие воздей- ствия задаются в виде неравенств (1.2.2а); тогда из тео- ремы 2.1 получим следующую теорему (ср. теоремы 2.4.1 и 2.4.2). Теорема 2.2. На оптимальном управлении спра- ведливы неравенства (р* (k + 1), df(x*d(uk)(^(k)) би* (fe)) < 0, (2.5) Su« > о, /<=/ (и* (k)) (2.6) (k=0, ..., N—i), где оптимальные значения х* находятся из системы (1.2.3) с начальным условием х(0) =а, а оптимальные зна- чения р* — из системы (1.1) с граничным условием (1.2). Замечание. Предполагается, что конусы С(и*(Л)), задаваемые неравенствами (2.3), имеют внутренние точки, т. е. для каждого k = 0, ..., TV—1 существуют ва- риации 8u*(k), для которых idgj (и* (&)) > 0, (2.7) \ ди (£) / (см. § 2.3). Достаточным условием для выполнения (2.7) является линейная независимость векторов <5£,(и*(Л))/<5и(£), /е/(м*(А:)) (см. § 2.10). Отметим, что теоремы 2.1, 2.2 являются полным ана- логом теорем 4.1, 4.2 главы II. Это является следствием А. И. Пропой
82 УСЛОВИЯ ОПТИМАЛЬНОСТИ ’ГЛ. ш общего принципа, что условия оптимальности для одно- шаговых задач переносятся на многошаговую задачу*). Если ввести подходящие допустимые вариации 8и управления и аналогично тому, как это было сделано для одношаговых задач в (2.3), (2.4), то теоремы 2.1, 2.2 утверждают, что для оптимального управления и* не существует подходящих допустимых вариаций. Тем самым эти теоремы дают конструктивный метод для нахождения оптимального управления (см. гл. VI). § 3. Доказательство теоремы 2.1 Существует несколько способов доказательства тео- ремы 2.1, одно из самых простых приведено в § 2, дру- гое связано с непосредственным применением необхо- димых условий экстремума функций многих перемен- ных при ограничениях в виде равенств и неравенств (см. гл. II) для задачи дискретного управления. Однако использование этих условий для получения более тон- ких результатов теории дискретного управления было бы затруднительным. Поэтому в этом параграфе приво- дится «расширенное» доказательство теоремы 2.1 в том смысле, что в нем, помимо доказательства самих усло- вий оптимальности, устанавливается еще ряд фактов, которые будут в дальнейшем применены для получения необходимых условий оптимальности в системах с фа- зовыми ограничениями (§ 6), принципа максимума (§ 4.2), достаточности необходимых условий оптималь- ности (§ 4.5). Кроме того, это доказательство, в котором использу- ются методы и построения доказательства принципа максимума для непрерывных процессов управления, по- зволяет выявить специфику и особенности задач опти- мального дискретного управления. 1. Уравнение в вариациях. Для произволь- ного начального состояния х(0) уравнений движения (1.2.3) фиксируем некоторое управление и. Пусть те- *) Поскольку многошаговая задача оптимизации может трак- товаться и как частный случай одношаговой задачи оптимизации функции многих переменных при наличии ограничений в виде ра- венств и неравенств. Подробнее об этом см. комментарии к главе IV.
ДОКАЗАТЕЛЬСТВО ТЕОРЕМЫ 2,1 83 и перь начальное состояние изменилось на малую вели- чину и стало х(0)+ебх(0)+о(е). (3.1) Из-за начального возмущения ебх(О) изменится как-то вся траектория х. В силу дифференцируемости функций f(x, и) эти из- менения можно представить в виде х(£)4-е6х(£)+о(е) (£=1, ..., N), где 8x(k) определяются из следующей системы в вари- ациях: fix(fe + l)= df{X^(k}} 6x(fe) (fe = 0, (3.2) С/Л \KJ Система (3.2) определяет в первом приближении из- менения в траектории, происшедшие вследствие изме- нения начального состояния (3.1), при этом управление остается фиксированным. Построим последовательность пространств вариа- ций 8Xk (6=0, ..., N). Будем предполагать, что начала координат этих пространств расположены в точках x(k), т. е. векторы 6% (6) исходят из соответствующих точек х(6). Уравнения (3.2) определяют, таким образом, перенос начальной вариации 6х(0) вдоль фиксирован- ной траектории х. Рассмотрим теперь совместно прямую (1.2.3) и со- пряженную (1.1) системы при каком-то фиксированном процессе управления. Лемма 1. Если 8x(k)—произвольное решение си- стемы (3.2) с начальным состоянием Sx(0), a p(k) — произвольное решение системы (1.1) с конечным состоя- нием p(N), то скалярное произведение (р(6), Sx(6))=const (6 = 0, N). Доказательство. При фиксированных и и х имеем, на основании (3.2) и (1.1): (p(k), бх(&)) = (p(fe+l) дНх^Л-)} > «*(*)) = = (р<k + 1), df{x^\’k‘-(k)} бх(fe)] = (р (k + 1), бх(k + 1)). 6*
84 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. ш Определим в пространстве 6XN гиперплоскость (с, 6x(Af))=a, (3.3) где с— {сь ..., сп} — произвольный вектор, a=const. На основании леммы 1 будем иметь (р(£), 6x(£))=a (6 = 0, . . . , Af), (3.4) где вектор р(А) находится из системы (1.1) с гранич- ным условием p(N)=c. Соотношения (3.4) определяют, таким образом, в пространстве 8Xk гиперплоскость, со- ответствующую гиперплоскости (3.3) пространства SXN. В итоге мы^юлучаем следующую картину. Выбирая некоторое управление и, мы тем самым фиксируем для какого-то начального состояния соответствующую это- му управлению траекторию. Если теперь на k-м шаге произошло малое возмущение траектории бх(А), то уравнения в вариациях (3.2) определят перенос этого возмущения вдоль рассматриваемой траектории в пря- мом направлении времени &+1, &+2, . . . , N. Сово- купность всевозможных возмущений на s-м шаге об- разует пространство 8XS. Если в пространстве 6XS определить гиперплоскость (p(s), 6x(s))=a, то со- пряженные уравнения (1.1) определят перенос этой гиперплоскости вдоль рассматриваемой траектории в обратном направлении времени s — 1, s — 2, ..., 0. 2. Допустимые вариации. В предыдущем пункте изменения в траектории никак не связывались с изменениями в управлении. Управление считалось фик- сированным. Далее будем предполагать, что любое из- менение траектории на А-м шаге происходит в резуль- тате изменений в управлении в предшествовавшие ша- ги s<k. Пусть и — некоторое допустимое управление: u(k)^U(k = 0, ....N—1), ипустьх— траектория,соответ- ствующая этому управлению и начальному состоянию х(0)=а. Очевидно, x(k)^Rh(a) (£=1,..., N). Определим для множества U конус допустимых ва- риаций: K(u) = {6u\u-\-e8u^U, 0<e<e;
§3J ДОКАЗАТЕЛЬСТВО ТЕОРЕМЫ 2.1 85 Назовем последовательность 6н={6м(0), ... ..., 8u(N—1)} допустимой вариацией допустимого управ- ления и, если 5u(k)^K(u(k)) при k=0,..., N—1. Со- ответствующие изменения в траектории в силу диффе- ренцируемости правой части уравнений движения (1.2.3) можно представить в виде х(^)+е6х(й)-|-о(е), причем эти новые состояния будут еще принадлежать множествам Rh(a) при 0<8<бь, где —некоторые числа. Построим для множества Rk(a) в точке x(k)^Rk(a) конус допустимых (в широком смысле) вариаций состоящий из всех векторов 6x(k) пространст- ва вариаций 6Xk, для которых существует число e/t>0 такое, что х(£)+е6х(&)+о(е)е/?й(а) при любых 0<e<6fe. Рассмотрим теперь специальную допустимую вариа- цию управления и следующего_ вида: {6м=О,... ..., 0, 6м(£), 0,.... 0}, где 8u(k)&R(u(k)) и k — произ- вольное целое число между 0 и N— 1. Соответствующие изменения в траектории можно представить в виде x(s) — x(s) (1 sO А — 1), x(s) = x(s) + ебх (s) + o(e) где x(s) —новые состояния процесса. Причем ^(k + 1) = 8u (fe), (3.5) df размера Rfi 1 M (nXr). G=i, ... /=1. r) — матрица При s>k вариации 6x(s) находятся из уравнений в вариациях (3.2) с начальным состоянием 6x(£-f-l). ко- торое определяется из (3.5). Решая уравнение (3.2), получим n; 6x(s)=4f(s, 6+1)6х(£-М) (£-Н^s^W), (3.6) где ^(8,^+1)= ‘п s£(i) (3.7) i=h+i
86 УСЛОВИЯ ОПТИМАЛЬНОСТИ 1ТЛ. Ill и «9/(0 —линейное преобразование, задаваемое мат- рицей Чг(^, k)—I — единичная мат- рица. Пусть Mh+i.k+i (х (k + l)j_C 6Xh+i— конус допустимых вариаций для множества 7?i(x(&)) с вершиной в точке х (&+1) (х (k)). Очевидно, при сделанных предполо- жениях относительно конусов K(u(k)) Mk+ltk+i (х (k + 1)) = В (k) К (и (*)), (3.8) где B(k)—линейное преобразование, задаваемое мат- рицей df(x(k), u(k))/du(k), и К(м(А)) —замыкание ко- нуса К(ы(А)). С помощью линейных преобразований Tfs, k) (s = =Д>-|-1, ..., N) построим последовательность прост- ранств 6Х, и конусов в них: ЛГ8,л+1 (x(s))c8Xs, где М,л+1 (х (s)) = V (s, k + 1) Afft+1,fc+l (х (k + 1)). (3.9) Меняя k (O^k^N— 1), получим связь между конусами М(х($)) и Ms,k(x(s)): M(x(s))= U Mi)A(x(s)). (3.10) *=i (Предполагаем, что существует единственная траекто- рия, переводящая х(0) в x(N). Обобщение на случай неединственности см. в § 4.5.) Из (3.10) следует, что Msft(x(s))=M(x(s)). Таким образом, в результате этих построений полу- чаем следующую картину (рис. 3.3.1). Построим для про- извольного допустимого управления и последователь- ность конусов K(u(k)) (k=0,..., N— 1), которые оп- ределяют всевозможные допустимые вариации этого управления. При начальном состоянии х(0)=а этому управлению соответствует траектория х, причем x(k)^Rk(a) N). Последовательности кону- сов (k=0,..., N—1) соответствует по- следовательность конусов Mh+i,b+i (x(£-f-l))s6Xft+1 i(^=0......M—I). Конусы Afft+bft+i (x(A-H)) опреде- ляют допустимые вариации состояний 6Х(&+1) по множествам Ri(x(k)) и связаны с конусами К(м(£)) посредством соотношений (3.8).
ДОКАЗАТЕЛЬСТВО ТЕОРЕМЫ 2,1 87 »« Фиксируем теперь какой-нибудь шаг k и конус Mh,h(x(k)) на этом шаге. Уравнение в вариациях (3.2) (или (3.6)) определит перенос этого конуса в про- странства 6Xt (s>k). Получающиеся при этих преобра- зованиях конусы Ms,h (x(s)) показывают, какие измене- ния будут происходить в состоянии x(s) на s-м шаге Рис. 3.3.1. из-за допустимых вариаций состояния x(k) на Л-м шаге ($>&). Построим теперь для состояния x(s)e/?8(a) конус допустимых (по множеству Rs(a)) вариаций Af(x(s)). Очевидно, конус Af(x(s)) будет определяться всеми до- пустимыми вариациями управлений u(k) на предшество- вавших шагах k (6=0,..., s—1), т. е. справедливо соот- ношение (3.10) (в случае единственности траектории х). 3. Условия оптимальности. Рассмотрим те- перь управление и* и соответствующую ему траекторию х*, являющиеся оптимальными для начального состоя- ния х(0)=а. Очевидно, x*(k)^Rk(a) (k=l, .... N). Лемма 2. Справедливо неравенство (p*(N), 6х*(У))^0 (3.11) для любых бх* (N) (х* (N)), т. е. конус M(x*(N)) целиком расположен в полупространстве, определяемом неравенством (3.11).
88 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. HI Заметим, что, по предположению, р* (N) =/=0. Доказательство. Допустим противное. Пусть существует вариация бх*(N)^M(x*(TV)) и в то же время (p*(N), 6x*(TV))>0. (3.12) По определению конуса M(x*(N)), существует такое число 6n>0, что x(N) =x*(/V)-|~e6x*(A,)-|-o(e)e/?w(a) при любых 0<б<ех. Представим функцию Ф(х(АТ)) вблизи оптимальной точки х* (TV) в виде Ф (x(TV)) ==Ф (х* (TV)) 4-ебФ (х* (TV)) +о (е) = = 0>(x*(TV))+e(p*(TV), бх*(TV))+о(8), (3.13) где p*(TV) определено из (1.2). Из неравенства (3.12) и (ЗЛЗ) следует, что найдет- ся такое е (0_<8<8W), что_Ф(х(А9) >Ф(х*(АТ)) и в то же время x(TV)=x*(TV)-|-86x*(Af)-}-o(8)eT?w(a). Это' противоречит оптимальности x*(TV). Итак, гиперплоскость (p*(TV), 6x*(TV))=0 простран- ства вариаций §XN является опорной гиперплоскостью конуса Al(x*(TV)) в его вершине. Так как конусы Al(x*(TV)) и TMjv.h+i (х* (N)) (O^&^TV—1) имеют об- щую вершину и М. jv.h-H (х* (N)) sTVf(x*(TV)), то эта ги- перплоскость будет опорной и конусу Afjv,h+1 (x*(N)). Осуществляя на основе леммы 1 перенос этой гипер- плоскости в пространство вариаций бХл+ь получим, что справедливо утверждение: Лемма 3.Гиперплоскость'. (р*(^4-1),бх*(^-|-1))=0, где вектор р*(&+1) находится из сопряженной системы (1.1) с граничным условием (1.2), является опорной ко- нусу Afk+ith4-i(x* {k + 1)) в его вершине, т. е. (р*(^4-1), бх*(Н-1))^0 (3-14) для любых бх* (k-\-1) ft+i,k+i (х* (k + 1)). Действительно, из леммы 2 следует, что (p*(N), 6x*(TV))C0 для всех 6x*(TV)eTWNlh+i(x*(TV)). Или, на основании леммы 1 и построений п. 2 доказательства, (р*(&-|-1), бх*(^+1)) «СО для любых 6x*(£-f-l)<= e=Mft+i,ft+1(x*(fe+l)).
5 41 вырожденный случаи 89 Перенесем эти рассуждения в пространство управ- лений. По определению функции Гамильтона, 6U Н (р* (k + 1), х* (k), и* (/г)) = [р* (k + 1), df (х* ай M(k)) ди* 6х* + 0)’ у/*/ / где би*(Л)еК(и*(Л)). Отсюда и из леммы 3 получим первое утверждение теоремы. Причем, если и* (&) — внутренняя точка мно- жества Uh, то из неравенства (3.14) следует, что биЯ(р*(6+1), х*(£), и*(£))<0 (3.15) для всех 6u*(k)^6Uh, или дН(р* (k+\),x*(k),u*(k)) _ п du(k) ~и‘ Допустим теперь, что для какой-то другой точки u*(s) имеет место строгое неравенство биЯ(р*($+1), х*($), u*(s))<0 для всех 6u* (s)eK («*($)). Так как для внутренних то- чек справедливо равенство (3.16), то, следовательно, точка u*(s) — граничная точка множества U. Теорема 2.1 полностью доказана. Так как при сделанных предположениях о регуляр- ности конусов конус C(u*(k)) совпадает с конусом /<(«*(&)) (см. § 2.3), то из теоремы 2.1 непосредственно следует теорема 2.2. § 4. Вырожденный случай При формулировке теорем 2.1, 2.2 требовалось, что- бы на оптимальном управлении дФ(х*(М))/<5х(А0 #=0. Пусть теперь дФ (х*(АО) _ п dx(N) - ’ (4-1)
90 УСЛОВИЯ ОПТИМАЛЬНОСТИ 1ГЛ, Hi Из (1.1) и (1.2) следует, что тогда при всех k=N,..., 1 р*(й)=О, поэтому Я(р*(А-}-1), x*(k), u*(^))=0 и тео- рема 2.1 перестает иметь смысл. Однако если на неоптимальных траекториях дФ(х(Ы))/дх(Ы) =Н=0, то при условии невырожденности матриц df/dx(k) векторы p(k)^O. Поэтому не все век- торы dHldti(k) равны 0 (в противном случае мы имели бы стационарное управление и), и, следовательно, мож- но определить направление движения к оптимуму (см. § 6.2), при котором уже все dH(u(k))/du(k) =0 (здесь для простоты предполагается, что на переменные u(k) нет ограничений). С другой стороны, из равенства (4.1) легко опреде- ляется оптимальное конечное состояние х* (N) (а), и задача сводится к нахождению любого допустимого уп- равления, переводящегох(0) = a bx*(N) за Af шагов.Это можно сделать стандартными способами (см. § 6.3). За- метим, что, как правило, таких управлений будет не одно. В качестве примера рассмотрим линейную дискрет- ную систему n-го порядка (x(k)^En; u(k)^.Ex)-. x{k+\)=Ax(k)+bu(k) (k=0, 1, ..., AT— 1), (4.2) где u(k)—скалярные величины (r=l), принимающие любые действительные значения. Показатель качества1’ /=—x(N)). Решение линейной системы (4.2) имеет вид h-1 х (k) = Akx (0) 4- s А*-1-Чш (/), (4.3) /=0 или к-1 х (k) = h (k) + 2 о» (k—J) и (/), i=o где h(k)=Ahx(0) и w(k — j) =Ak~i-lb. Пусть N=n, n — порядок системы, и пусть система управляема, т. е. векторы ш(0), . . . , w(n—1) линейно независимы. Тогда любой вектор h(n) можно однознач- но разложить по векторам w(j) (j—6, ... , п—1): ft (n) = — 2 . (4.4) <=0
t Я ЗАДАЧА С СУММАРНЫМ ПОКАЗАТЕЛЕМ Выбирая коэффициенты в (4.4) при w(j) в качест- ве управляющих воздействий: «(/)=«*(/) (/=0, ... п— 1), получим, что х*(п)=0. Очевидно, что при х*=0 функция J достигает своего максимального значе- ния, причем dJ(x*(N))/dx(N) =0. Таким образом, любое управление, переводящее х(0) в начало координат, бу- дет оптимальным. С другой стороны, при сделанных предположениях начало координат достигается из любого начального состояния за п шагов или меньше, а оптимальное уп- равление единственно. Для его нахождения достаточно решить систему линейных уравнений (4.4). Если же N>n и условие управляемости по-прежне- му выполнено, то в этом случае осуществить разложе- ние N-1 h W = - 2 а> (W-J) и* (/) (4.5) >=о можно уже многими способами и управления, перево- дящие х(0) в начало координат, будут составлять под- пространство пространства управлений размерности N—п. Заметим, что в этом случае можно ввести новый показатель качества (например, типа суммарного (1.3.2)) и оптимизировать его по всем управлениям, пе- реводящим х(0) в 0, т. е. удовлетворяющим (4.5). Аналогичные рассуждения имеют место и в нели- нейном случае. § 5. Задача с суммарным показателем качества Так как задача с суммарным критерием (задача 2 главы I) приводится к частному виду задачи 1 (см. § 1.3), то из теоремы 2.1 легко получить условия опти- мальности и для этой задачи. Именно, из неравенства (2.1) следует, что на опти- мальном управлении допустимый дифференциал функ- ции Гамильтона Н всегда неположителен: 6и Я (р* (k + 1), х* (fc), u* (k)) < 0, 6м* (fe) е К (и* (*)). здесь оптимальные значения p*[k) определяются из сопряженной системы (1.6) с граничным условием
92 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ. III p*(2V) = {l, 0}. Таким образом, в этом случае условие ~p*(N)^0 выполнено всегда. Переходя к обычной «п- мерной» записи, получим теорему. Теорема 5.1. Пусть и*—управление, оптимальное для начального состояния х(0)=а в задаче 2. На опти- мальном управлении справедливы неравенства (df0 (x*(k),u* (fe)) ди (k) + (p*(fe+l),-fW) бц*H0 <5J) \ KJ j для любых би* (k)^K{u* (k)) (Z?=0,..., N—1), где оптимальные значения x* находятся из системы (1.2.3) при х(0)=а, а оптимальные значения р*—из системы (1.9) при условии (1.10). би* (£) + § 6. Задача с ограничениями на переменные состояния Рассмотрим теперь задачу оптимизации конечного состояния при следующих ограничениях на переменные управления и состояния: x(£) t=Xh (6=1, ..., АГ), u(k) <=Uh (£ = 0, .., Af-l). Начальное состояние х(0)=а считается фиксирован- ным. Ограничения (6.1), (6.2) обычно задаются в виде систем неравенств х(А))^0 (/=1,..., $(£)), (6.3) и(А))>0 (/=1,..., /и(£)). (6.4) Отметим, что здесь, для того чтобы рассмотреть и общий случай, уже не предполагается независимость условий от шага k, в отличие от §§ 1—5 (см. замечание в начале § 1). Определим для управляющего воздействия u^Uh конус допустимых вариаций (см. § 2.3), причем будем предполагать, что он выпуклый и имеет внутрен- ние точки. Для любого состояния x^Xk построим конус допустимых вариаций в широком смысле (см. § 2.3)
§ 61 ЗАДАЧА С ОГРАНИЧЕНИЯМИ НА СОСТОЯНИЯ 93 Mft(x); будем также предполагать, что он выпуклый и имеет внутренние точки. Таким образом, рассматрива- ются только такие множества Uh и Xh, которые имеют внутренние точки, соответственно, в пространствах Ег и Еп (и, кроме того, не имеют «острых» выступов типа рис. 2.3.1, д). Для ограничений в виде неравенств (6.3), (6.4) эти конусы можно задать с помощью системы линейных неравенств Ck (х) = {бх Х) , бх) > 0; /6j4(x)j, (6.5) сл(«)= , 6ц)>0; (6.6) относительно которых будем предполагать, что градиен- ты «активных» ограничений dhj(k, x)jdx, j^Jk(x), и dgj(k, и)/ди, /еЛ(и), линейно независимы. Таким об- разом для конусов Cfe(x) и Ck(u) также предполагают- ся выполненными условия регулярности § 2.3. Здесь Л(х) и Jk(u) —множества индексов /л(х) = {/|йД^ х)=0; /=1,..., s(k)}, h(u) = {j\gi(k, ы)=0; m(k)}. Будем предполагать также, что оптимальное управ- ление для рассматриваемой задачи существует, причем, как и в § 2, будем считать, что р (N) =—— =г0. Фиксируем в задаче некоторый допустимый процесс {и, х} (т. е. удовлетворяющий (1.2.3), (6.1), (6.2)). Назовем вариацию бы управления и допустимой, если 8u(k)(=~Kh(u(k)) (k=0, 1, ..., N—l), 6x(k)^Mh(x(k)) (k—l,..., N), бх (k 4-1) = (k) + dKx {QU\^k) ’ k) 6u(k). В общем случае справедливы следующие условия оп- тимальности.
94 УСЛОВИЯ ОПТИМАЛЬНОСТИ !ГЛ. 1П Теорема 6.1. Пусть и*—оптимальное управление, х* — соответствующая ему при заданном начальном со- стоянии х(0) = а траектория. Тогда на оптимальном процессе справедливо нера- венство N-1 2 8„Я(р* (* +x\k), и* (k), k) о к—О для всех допустимых вариаций оптимального управ- ления и*, где значения р* удовлетворяют сопряженной системе (1.1), (1.2). Доказательство. Будем считать, что существу- ют ненулевые допустимые вариации би* оптимального управления (в противном случае утверждение теоремы тривиально). Предположим тогда, что существует такая допусти- мая вариация би*, что N-1 2 бцЯ(р*(^ + 1).х*(/г),и*(й),^)>0. к=0 В этом случае из определения допустимой вариации следует, что найдутся такие векторы О/Дв) и число е>0, что и (1г) = и* (k) + еби* (k)(=Vk, x(k) — х* (k) + ебх* (k) + o4(e)gX4, x(k-\-l) = f[x(k),u(k),k) (fc = 0, — 1), и в то же время Ф (x(7V)) >Ф(х* (N)). Это противоречит оптимальности и*. Допустим теперь, что существуют ненулевые специ- альные допустимые вариации оптимального управления и*, т. е. такие допустимые вариации би*, которые мож- но представить в виде {0,..., би*(£),..., 0}. Для этого достаточно потребовать, чтобы при лю- бом допустимом процессе {и, х} нашлись такие положи- тельные числа е(А) (k—0, 1, ..., N—1), что при всех u'(fe)GSg(fc)(u(&)) ПЬьсуществовали x'(k)^Xh, x'(A+l) = =f(x'(^), u'(k), k).
I «I ЗАДАЧА (3 ОГРАНИЧЕНИЯМИ НА СОСТОЯНИЯ 93 В этом случае условия оптимальности приобретают более привычную форму. Теорема 6.2. Пусть и*—оптимальное управление, х*— соответствующая ему при заданном начальном со- стоянии х(0) =а траектория. Тогда на оптимальном управлении справедливы не- равенства М/(р*(М-1), х*(£), и*(А), 6)^0 (6=0,..., N— 1) (6.7) для всех 8u*(k), удовлетворяющих условиям 6u*(k)e=Kh(u*(k)), (6.8) 6x*(s)e=Ms(x*(s)) (s=k+i,..., N), (6.9) где 8x* (s) определяются из уравнений бх* (k + 1) = df {х* k} 8u*(k), (6.10) бх* (s + 1) = df (x* (s),s) бх* (s) (s = k + 1,... ,JV-1), (6.И) причем оптимальные значения x* находятся из уравне- ний (1.2.3) при х(0)=а, а оптимальные значения р*— из уравнений (1.1) при условии (1.2). Условия теоремы, несмотря на их несколько гро- моздкую запись, имеют простой смысл: на оптимальном управлении дифференциал функции Гамильтона по до- пустимым вариациям §u*(k) неположителен, причем здесь под допустимыми вариациями понимаются такие, которые не только не выводят управление за пределы множества на 6-м шаге, но вдобавок еще и не выво- дят возмущенную траекторию за пределы множеств Х8 в последующие шаги s>k. Введем матрицы В* (k) = -f fe) 0,...,ЛГ-1), (6.12) X*(fe) = (6.13) OX [tij ¥*(5,6) = п‘л*(») (0<ft<s<W), (6.14) i=h где T(&, k)=I — единичная матрица.
96 УСЛОВИЯ ОПТИМАЛЬНОСТИ [ГЛ, III Тогда условия оптимальности (6.7) — (6.11) можно переписать в виде 6UH (р* (k+1), x*(k), u*(k), k)^0 для любых би* (А), удовлетворяющих условиям 6u*(fc)<= Kk(u*(k)), Y*(s, k-\-l)=B*(k)8u*(k)^Ms(x*(s)) (0<Л4-1 ^ss^V). (6.15) Если ограничения на них задаются в виде нера- венств (6.3), (6.4), то необходимые условия оптимально- сти будут иметь вид. Теорема 6.3. Пусть и*— оптимальное управление в задаче 1 при ограничениях (6.3), (6.4). Определим при х(0)=аиз (1.2.3) соответствующую траекторию х*, а из (1.1) при (1.2) последователь- ность р*. Определим последовательности индексных множеств h(u*(k)) Vh(x*(k)). Тогда на оптимальном процессе справедливы нера- венства &uH(p*(k+\), x*(k), u*(k), &)<0 при любых 8u*(k), удовлетворяющих следующей систе- ме неравенств: д8^ ,6“*w)>o, >w/e (u* (А)), (6.16) P^r(S))’ 6**(s))>°- /еЛ(х*(з)), (6.17) где векторы 6x*(s) (Os^k^s^N) определяются из урав- нений (6.10), (6.11). Заметим, что неравенства (6.17) в силу (6.10), (6.11) определяют, по существу, ограничения на 8u*(k) (ср. с (6.15)). Таким образом, по сравнению с соответствующими условиями оптимальности без ограничений на перемен- ные состояния (теоремы 2.1, 2.2) к ограничениям на вариации управления (6.8) (или (6.16)) добавились ог- раничения (6.9) (или 6.17)).
ЗАДАЧА С ОГРАНИЧЕНИЯМИ НА СОСТОЯНИЯ 97 § 61 Доказательство. Прежде всего построим для рассматриваемой задачи множества достижимости (см. § 1-4) Q1==f(a, Uo, 0)П*ь Qk=f(Qk-i, Uh-i, k-V)f\Xk (k—2,...,N). (6.18) Пусть и*— оптимальное управление, х*— соответ- ствующая ему при х(0)=ы траектория. Очевидно, x*(k)^.Qh(a). Рассмотрим специальную допустимую ва- риацию бы* оптимального управления вида бы*={0,..., О, бы* (Л— 1), 0,..., 0}, бы*(й-1)еК/г_1(ы*(А;-1)) (Isg^/V). Соответствующая вариация бх* траектории будет иметь вид 6x*(s)=0 (l^s^/г— 1), бх*(£)=В*(&—1)бы*(6—1), 6x*(s)=T*(s, k)Sx*(k) (ks^s^N), где B*(k—1), 4f*(s, k) определены из (6.12) — (6.14). Обозначим конусы (х* (fe)) = В* (k - 1) (ы* (k - 1)), Мм(х* (k)) = Mik (x* (fc)) fl Mk (x* (&))• Конус Л4Д(х*(£)) определяет в пространстве вариаций SXk множество допустимых вариаций в точке x*(k) по множествам Xk и Uk-i (х*(£—1) фиксировано, u*(k—1) варьируется). Заметим, что в силу сделанных предпо- ложений эти конусы невырожденные, т. е. содержат кроме начала координат и другие точки. Далее построим конусы MSih (х* (s)) = Mik (х* (s)) П Л46. (x* (s)) (k < s < N), где Mik (x* (s)) ='A* (s - 1) (x* (s - 1)). Конус Мг>к (x* (s)) определяет допустимые по множест- вам Uk-\ и Xj вариации в точке х*(£). ? А. И. Пропой
98 УСЛОВИЯ ОПТИМАЛЬНОСТИ 1ГЛ. Ill Обозначим через конус допустимых вари- аций в точке x*(s) по множеству Q,. Конус (Af(x*(s)) определяется всеми вариациями управления 8u*(k) —1), допустимыми как по ограничениям (6.1), так и по ограничениям (6.2), т. е. М (х* (s)) = Ц1 М,>fc (х* (s)). (6.19) h=0 Очевидно, Mt,k (х* (s)) СЛ/ (x*(s)). Далее, так же, как и в § 3 (лемма 2), из того, что в точке x*(N) достигается максимум функции Ф(х(М)) на множестве Q^: max Ф(х(У)) = Ф(х*(М)), (6.20) следует, что в этой точке (p*(N), бх*(А0)<0 (6.21) для всех бх* (N) (х* (N)), где p*(N) определяется из (1.2). Но из-за (6.19) неравенство (6.21) справедливо и для 8x*(N)^MN,k(x*(N)). Так как (p*(k), бх*(&)) — const (лемма 1 § 3) для любых p*(k) и бх*(&), определяемых из (1.1) и (6.11), то, очевидно, из неравенства (6.21) следует, что (р*(Л), бх*(£))<0 для всех 8x*(k), допустимых по ограничениям Uk-i, Xk, Xk+ъ •••» Или (р* (k), 9Z(x*(fe~1a)u’(^i;1),fe~1) Ьи*(k-1))<о для всех _ 6u*(fe-l)e^_i(U*(^-l)), бх* (k) =В* (k— 1) би* (k— 1) <=Mk (х* (k)), 6x*(s)=X*(s—l)6x*(s—1)ceMs(x*(s)) (k+\^s^N). Теорема 6.2 доказана. Утверждение теоремы 6.3 следует из теоремы 6.2 и из эквивалентности при сделанных предположениях кону- сов ~Кк(и*(k)), Afs(x*(s)) и Cfc(u*(6)), C,(x*(s)).
ГЛАВА IV ПРИНЦИП МАКСИМУМА Как известно, в задачах управления непрерывными процессами функция Гамильтона на оптимальном уп- равлении всегда имеет максимальное значение. Этот факт, получивший название принципа максимума Л. С. Понтрягина, позволил построить эффективную группу методов определения оптимального управления в непрерывных процессах. Цель этой главы — рассмотреть поведение функции Гамильтона на оптимальном управлении в дискретном случае и выделить классы дискретных процессов, для которых также справедлив принцип максимума. В этой главе будет рассмотрен случай отсутствия ограничений на переменные состояния. Обобщение на ограниченные переменные состояния дано в следующей главе. § 1. Функция Гамильтона на оптимальном управлении В главе III (теорема 2.1) было показано, что допу- стимый дифференциал функции Гамильтона на опти- мальном управлении не положителен, т. е. 6uH(p*(k+V), x*(k), u*(£))^0 (1.1) для всех би*(А)еК(и*(Л)) (£=0, . . . , N— 1), где К(и*(&))—некоторый подходящим образом выбранный конус допустимых вариаций в точке u*(k). Таким образом, на оптимальном управлении выпол- нены необходимые условия максимума функции H(u(k)) на множестве U (ср. с теоремой 2.4.1). Если u*(k)— внутренняя точка множества U, то из теоремы 3.2.1 следует, что в этой точке дН (и* (k)) ди (k) (1.2) 7*
100 ПРИНЦИП МАКСИМУМА [ГЛ. IV т. е. приходим к «обычным» необходимым условиям экстремума функции многих переменных в случае, ког- да нет ограничений на эти переменные. Заметим, что если 8uH(u*(k)) <0 в (1.1), т. е. если градиент функции Гамильтона dH)du(k) не равен 0 и не ортогонален всем допустимым вариациям в точке и*(й), то при некоторых предположениях регулярности точка u*(k) доставляет функции локальный максимум. Это легко видеть из разложения Н (и (k)) — Н (и* (k))=&8uH(u* (£)) +о (е) (1.3) (ср. с § 2.4). В случае же, когда 8иН(и* (k)) =0 для не- которых или для всех допустимых би*(А) ((1.1), (1.2)), то о поведении функции Гамильтона в точке u*(k) ска- зать ничего определенного нельзя, так как оно будет определяться знаком o(s) в (1.3). Рассмотрим пример. Пример. Пусть уравнения движения имеют вид (n = 2, r= 1) Xi(A+l) =Х1(&) +2и(&), x2(k +l) = -xl(k) + x2(k) + u2(k) (А=0, 1). На управляющее воздействие наложено ограничение |м(£)|^5. Требуется для начального состояния %i(0) = = 3, аг2(0) =0 найти допустимое управление {u(0), и(1)}, доставляющее показателю качества J=x2(2) макси- мальное значение. Из уравнений движения при выбранном начальном состоянии нетрудно получить в явном виде зависи- мость показателя качества от управляющих воздейст- вий: / = —Зи2 (0) — 12и (0) +и2(1) —18, откуда оптимальное управление будет ц*(0)=—2, и*(1) = ±5. Функция Гамильтона для данной задачи имеет вид Н = pi (k + 1) (£) + 2u (k)] + + Pi (k + 1) [— %2 (/>) Xz (£) _|_ u2 Используя уравнения движения и сопряженную систе'
§ И ФУНКЦИЯ ГАМИЛЬТОНА 101 му (3.1.1), получим оптимальные значения переменных х*(*) и Р*(*)(*=1, 2): 1, %*(!) = —5; р;(2) = 0, р*(2)=1, Р;(1) = 2, р;(1) = 1. Подставляя эти значения в выражение для функции //, получим Я(^(0))=и2(0)+4^(0)—3, Z/(ZZ(1)) =W2(1)_6 Очевидно, функция Гамильтона на втором шаге//(w(l)) при оптимальном управлении (и*(1) = ±5) достигает максимального значения, а функция Гамильтона //(и(0)) на первом шаге при оптимальном управлении (и*(0)=—2) имеет минимальное значение (см. рис. 6.16.4). Можно построить более сложные примеры, в которых функция Гамильтона па оптимальном управлении име- ет локальные экстремумы, седло и т. и. Это же видно из доказательства теоремы 3.2.1. Действительно, схема доказательства была следующая. Из того, что функция достигает максималь- ного значения на множестве в точке x*(Af), вы- текало, что гиперплоскость (р*(Л/), 6x*(W))=0 про- странства вариаций 8Х является опорной конусу до- пустимых вариаций по множеству /?^(а) в этой точке. Или гиперплоскости (р*(&), 6х*(&)) =0 (k=N,..., 1) — опорные конусам допустимых вариаций по множест- вам /?1(х*(&— 1)) в точках х*(£). Однако из того, что гиперплоскость (р*(£), 6х*(&))=0 является опор- ной конусу допустимых вариаций, в общем случае не следует, что соответствующая гиперплоскость простран- ства состояний (р*(А), х(А)) = (р*(&), %*(£)) (функция Гамильтона) будет опорной множеству /?1(х*(£—1)) в этой точке. Этот факт следует из выпуклости множест- ва ^(^(Л-Г)) (ср. с § 2.5). Получить дополнительную информацию о поведении Функции Гамильтона на оптимальном управлении мож- но, либо рассматривая члены второго порядка малости
102 ПРИНЦИП МАКСИМУМА [ГЛ IV в разложении (1.3), либо исследуя свойства множеств Рассмотрим сначала второй подход. § 2. Задача оптимизации конечного состояния Рассмотрим сначала задачу 1 § 1.3 (без ограниче- ний на переменные состояния). Определим для этой задачи множества достижимости за один шаг (см. гл. I): Ri(x) ={z\z=f(x, u),u<=U}. Будем предполагать, что на функции Ф(х), f(x, и) и множество U наложены те же условия, что и в главе III. Теорема 2.1. Пусть множества Ri(x) выпуклы при любых х^Еп. Тогда на оптимальном управлении функция Гамильтона достигает максимального значе- ния, т. е. тахЯ(р*(Л+1), x*(k), u(k)) — u(k)^U -Я(р*ХМ-1), X*(k),u*(k)) (fe = 0, ..., Я-1), (2.1) где оптимальные значения х* находятся из прямой си- стемы (1.2.3) с начальным условием х(0)=а, а опти- мальные значения р* — из сопряженной системы (3.2.1) с граничным условием (3.1.2). Задача по-прежнему считается не вырожденной, т. е. Доказательство. В силу определения функции И (р* (й+1), x*{k), u(k)) теорема будет доказана, если будет установлено, что линейный функционал (р*(А-|-1), х(Л-Н)) достигает (абсолютного) максимума на мно- жестве Ri(x*(k)) в точке х*(Л+1). Это следует из вы- пуклости множества Ri(x*(k)). Действительно, допустим противное. Пусть сущест- вует точка x(A;-|-l)e/?i(x*(A)), такая, что (р*(А+1), х(£4-1))>(Р*(*+1), х*(Н-1)), или (р* (Лг-f-1), i/(^+l))>0, где y(k+1) =х(А4-1) — —х*(Л+1).
ОПТИМИЗАЦИЯ КОНЕЧНОГО СОСТОЯНИЯ 103 Так как множество Bi (х* (k)) выпуклое, то %х(^4-1) + q-(l—X) х*(^+1) =х*(&+1)+Хг/(64-1)е#|(х*(£)) при всех X, удовлетворяющих неравенству Следова- тельно, у (£+1) eAffc+i, а+1 (х* (£-|-1)) (см. доказательство теоремы 3.2.1 в § 3.3). Но, на основании леммы 3.3.3, (р*(Я-1),У(*+1))<0. Противоречие. Таким образом, если множества Ri(x)=f(x, U) вы- пуклы при любых х, то среди точек u(k), «подозритель- ных» на оптимальность, следует рассматривать лишь ту, которая доставляет функции Гамильтона максималь- ное значение*), что позволяет в ряде случаев постро- ить эффективные алгоритмы нахождения оптимального управления (см. гл. VI). Проверка выпуклости множеств Ri(x) в большинстве случаев не представляет труда. В частности, можно вы- делить класс задач, где эта проверка сводится к опре- делению выпуклости множества U. Теорема 2.2. Пусть процесс описывается уравне- нием вида x(k+l)=f(x(k))+B(x(k))u(k), (2.2) где B(x(k))—матрицы размера (гХм), при ограниче- ниях u(k)^U, где U — выпуклое множество. Тогда на оптимальном управлении справедливо ра- венство max (р*(А+1), B(x*(fc))u(fc)) = (p*(H-l), В(х*(£))«*(£)) (fc = 0, 1, ..., N — 1). Действительно, в этом случае множество /?1 (х) = ==h (х) -)-В(х) U будет выпуклым при выпуклом U (ли- нейное преобразование переводит выпуклые множества в выпуклые), поэтому теорема 2.1 справедлива. *) Заметим, что из этого вовсе не следует, что необходимые Условия оптимальности теоремы 3.2.1 «слабее» условий теоремы 4.2.1. См. по этому поводу главу VI и § 6.14.
104 ПРИНЦИП МАКСИМУМА (ГЛ. IV § 3. Задача с суммарным показателем качества Для задачи с суммарным показателем качества (за- дача 2 § 1.3) построим в расширенном пространстве состояний Еп+Х множества достижимости Ri (х) за один шаг (см. § 1.4): Ъ Г г0 = х0 + /(х, и), Д Здесь также, по аналогии с § 2, можно было бы по- требовать выпуклость множеств Однако такое требование было бы слишком жестким. Например, ли- нейные системы с выпуклым вверх показателем качест- ва ему не удовлетворяют. Однако здесь, очевидно, уже излишне требовать «полную» выпуклость множества поскольку максимум никогда не достигается на «нижней полови- не» множества 7?i(x),a достаточно потребовать, чтобы была выпуклой только «верхняя часть» этого множества. Поэтому, чтобы сформулировать принцип максиму- ма в этом случае, рассмотрим множество (см. § 1.4) « Р < Azo<Xo + f(X, U), Д S1{x) = \^{Zo,z} zo==f{x u^ U<=(j]. Теорема 3.1. Пусть множества Si(x) выпуклы при любых х = {х0, х}. Тогда на оптимальном управле- нии функция Гамильтона имеет максимальное значение max Н (р* (k + 1), х* (k), и (k)) = = Н(р* (/г + 1), %* (k), и* (&)), (3.1) где оптимальные значения р* находятся из уравнений (3.1.9) при условии (3.1.10), а функция Гамильтона имеет вид H(p(k+1), x(k), u(k)) = u(k) 4 (P(k+ 1), f(x(k), u(k))). Заметим, что из выпуклости множества (х) сле- дует выпуклость множества /?Дх) только в случае, ес-
$ 3] ЗАДАЧА С СУММАРНЫМ ПОКАЗАТЕЛЕМ 105 ли функция f0(x, и) линейна по и. Однако из выпукло- сти множества 8i(x) всегда следует выпуклость мно- жества 7?i(x) в направлении е = {1, 0} (в направлении положительной оси хо). С другой стороны, если потребовать, чтобы множест- во (х) было только выпуклым в направлении е = {1, 0}, то это требование эквивалентно условию вы- пуклости Si (х). Это непосредственно следует из постро- ения множеств Si (х) и (х) и определения выпукло- сти по направлению (см. § 2.1). Перейдем теперь к доказательству теоремы. Преж- де всего заметим, что так как функция (г, x(N)\ в точ- ке х*(АГ) достигает максимального значения на мно- жестве8;у (л) (см. § 1.4), то из доказательства теоремы 3.2.1 следует, что (p*(k + l), 6х*(&4-1))<0 (3.2) для всех вариаций 6x*(A+l)eMft+i,*+i(x*(^4-l)), где Мл+1, л+1(х* (&+1)) eEn+1 — конус допустимых вариа- ций по множеству Si(x*(k)) в точке eSi(x*(&-H)) (см. 3.3.14), а р*(&4-1) определено из (3.1.6), (3.1.7). Повторяя теперь доказательство теоремы 2.1, полу- чим, что из (3.2) и из выпуклости и замкнутости мно- жества S1 (х* (А)) следует, что ~ max [р* (k + 1), x(k 1)) = (р* (Jfe-J-1), х* (k + 1))* Отсюда и из определения /Z(p*(£-|-1)> x*(k), u(k)) следует (3.1). Теорема доказана. Очевидно, если множество U выпукло, а функция Гамильтона выпукла вверх по и при любых р и х, то она всегда имеет максимальное значение на оптималь- ном управлении. Это следует непосредственно из тео- ремы 3.2.1 (см. § 2.6), либо из теоремы 3.1, так~ка1£ в этом случае, очевидно, множества Ri (х) (или Si(x)) будут выпуклыми.
106 ПРИНЦИП МАКСИМУМА (ГЛ. IV Рассмотрим частный случай задачи 2, когда это всегда так. Пусть уравнения движения линейны по и и имеют вид (2.2) э x(k±\)=f(x(k))+B(x(k))u(k), а в показателе качества (1.3.2) функция fo(x, и) выпук- ла вверх по и. Множество U считается выпуклым. Функция Гамильтона в этом случае имеет вид Н(р, х, u)=f0(x, и)±(р, f(x)) + (p, В(х)и) и, очевидно, выпукла по и при любых р и х, если вы- пукла функция fQ(x, и). Нетрудно видеть, что и множество Si(x) будет вы- пуклым для этой задачи. Таким образом, в рассматриваемом случае на опти- мальном управлении всегда справедливо (3.1). Однако условия выпуклости множества Sx (х) много шире и не сводятся к простой выпуклости функции Га- мильтона. Рассмотрим простейший пример первого порядка (п=1, г=1) с уравнениями движения х(&4-1) = =f(x(k))+g(u(k)) и показателем качества /= N—1 — 2 lx2(&) + g2 (и (&))], где g(u)—полином v-ro по- h=Q рядка, |w(^)|^Mi. Очевидно, множество Si (х) выпукло при любых х; следовательно, теорема 3.1 справедлива. С другой сторо- ны, функция Гамильтона имеет вид Н(р, х, u)=x2+g2(u)+pf(x)+pg(u). Это — полином степени 2v, который может иметь, во- обще говоря, 2v — 1 различных стационарных точек. § 4. Принцип квазимаксимума Рассмотрим теперь первый подход в исследовании функции Гамильтона, о котором упоминалось в § 1. Для этого вернемся к доказательству теоремы 3.2.1 (§ 3.3) и исследуем поведение членов второго порядка мало- сти. Пусть {и*, х*} — оптимальный процесс в задаче 1.
s 4J ПРИНЦИП КВАЗИМАКСИМУМА 107 рассмотрим на k-м шаге специальную допустимую вариацию оптимального управления, положив u(£)=u*(fc)+Ди* (£)<=£/, Ди*(/)=0 (j=£k). Тогда Дх(* + 1) = f (х* (k), и* (k) + Ди* (А)) - f (х* (k), и* (£)) = = *и* W+° (1Д“* VW’ <41> Дх (S + 1) = f (х (s), и* (s)) — f (х* (s), и* (s)) = = 3f(x,£(s)“*(s)) Дхф+°(|Дх<s>i> <4-2> (S = k+ 1, .... N - 1). Используя сопряженную систему (3.1.1) с гранич- ным условием (3.1.2), получим, что ДФ (х* (N)) = Ф (х(N)) - Ф (х* (N)) = = (р*(А + 1), Дх(А+П)+ 2 о(|Дх(з)|). 8=к4-1 Или окончательно ДФ (х* (N)) = Н (р* (k + 1), х* (Л), и (k)) - - Н (р* (k + 1), х* (k), u* (k))+ 5 о (| Дх (s)I). (4.3) S=ft+1 Формула (4.3) дает возможность оценить зависи- мость приращения показателя качества от «больших» вариаций функции Гамильтона. При этом существенно, что рассматривается специальная вариация. Действи- тельно, в случае если управление варьируется на каж- дом шаге, то формула (4.1) заменится на Дх(6+ 1)= = f (х* (k) + Дх* (k), и* (k) + Ди* (/г)) - f (х* (k), u*(k)) = = f и* (k) + Ди* (k)) - f (x* (ft), u* (£))+ + (k) + О(|ДХ* (fe)))) где и* (/г) + Ди* (k) е U, х* (А) + Дх* (Z>) (а).
108 ПРИ 11ЦНИ МАКСИМУМА [ГЛ. IV Умножая обе части этого равенства скалярно на р*(/г+1) (считая, что {p*(k)} удовлетворяют сопря- женной системе (3.1.1) с граничным условием (3.1.2)) и прибавляя и отнимая в правой части выражение (р* & + 0’ Д%* = <Р* Д%* получим (р* (k + 1), Ах* (fe -|- 1)) - (р* (/г), Ах* (6)) = = А„Н (р* (/г + 1), х* (k), и* (fe)) + , / дН (р* (k + 1), х* (k), и* (k) 4- Дм* (А)) + дх (А) _ дх* {k) + 0(|Дх* (Й)|), (4.4) t/Х (/гj I где ДиЯ(р* (/?+!), х*(/г), u*(k)) = = //(р*(£+1), х*(£), и*(6)+Ди*(£)) — —Н (р* (k+1), х* (А), u* (k)). (4.5) Суммируя обе части (4.4) по k от 0 до N—1 и учи- тывая, что Дх*(0) =0, а ДФ (%* (7V)) = (р* (А/), Дх* (ДА)) 4-о (| ДХ* (АГ) |), получим N—1 АФ (х* (N))= Ц \UH (р* (k + 1), х* (k), и* (k)) + h--=0 + О (IАх* (fc)|) + N^(dH (р*(/г + x*№’ «*W + A“‘(fe)) k^i fe=i \ dx (*0 dH (p* (A 4- 1), x* (A), K* (A)) \ -------------1F(A)----------]Ах*(/г). (4.6) Формула (4.6) обобщает (4.3) в случае, если управ- ление варьируется на каждом шаге. При специальной вариации третий член в правой части (4.6), очевидно, тождественно равен нулю, а вторая сумма заменяется N на 2 о(|Ах* (s)|), т. е. (4.6) переходит в (4.3). И
ПРИНЦИП КВАЗИМАКСИМУМА 109 § 4! Исследуем теперь с помощью (4.3) или (4.6) поведе- ние функции Гамильтона на оптимальном управлении. Рассмотрим сначала два частных случая. Пусть уравнения движения линейны по переменным состояния и имеют вид х(й+1)=Л(ы(й))х(й)+ф(и(й)). (4.7) Здесь. А (и(k)) —матрица размера («Хга)- Пусть показатель качества также линеен и имеет вид J—(a(N), x(N)). (4.8) В силу линейности (4.7) по x(k) о(|Дх(й)|)=0 (k=Q,..., N—1), в силу линейности (4.8) о(|Дх(Л01) =0. Поэтому формула (4.3) переходит в следующую: Д7*=(а(Л0, Дх*(Л0)=ДиЯ(р*(й+1), x*(k), (4.9) Так как Д/*^0 в силу оптимальности x*(N), то из (4.9), (4.5) следует, что max Н (р* (й + 1), х* (й), и (й)) = u(h)=U ~Н(р* (й + 1), х* (й), и* (й)), (4.10) т. е. на оптимальном управлении выполняется принцип максимума. Таким образом, справедлива Теорема 4.1. Пусть процесс описывается уравне- нием вида (4.7) с показателем качества (4.8) и ограни- чениями u(k)f=U (й=0, 1,..., ЛГ-1). (4.11) Тогда на оптимальном управлении справедливо ра- венство (4.10), где оптимальные значения р* находятся из системы р* (k) =Ат(и* (й) )р* (й+1), р*(N) = a(N). Подчеркнем, что здесь никаких предположений о выпуклости не делается; в частности, множество ^(х)=Л(С/)х+ф(П) может быть и невыпуклым.
по ПРИНЦИП МАКСИМУМА [ГЛ. IV Заметим также, что для рассматриваемой задачи принцип максимума (4.10) является только необходи- мым, но недостаточным условием оптимальности, как это может показаться из (4.9). Действительно, форму- ла (4.9) справедлива только для специальных вариа- ций, в случае же произвольных допустимых вариаций из (4.10) еще не следует, что Д/*^0, так как нужно учитывать знак третьего члена в разложении (4.6). Однако если уравнения движения имеют вид х(А+1)=Л(А)х(А)+ф(и(^)), (4.12) то, очевидно, и третий член выражения (4.6) исчезает, и эта формула принимает вид N-1 Д/* = s ДаЯ(р*(6 + 1), x*(k), (4.13) fc=0 Поэтому если в случае уравнений движения (4.12) для некоторого управления справедлив принцип макси- мума (4.10), т. е. АиН(р* (&+1), х*(&), и*(&))^0 для любых u(k)^U (& = 0,..., Af—1), то из (4.13) следу- ет, что Д/*^0, и это управление оптимально. Таким образом, приходим к следующей теореме. Теорема 4.2. Для того чтобы управление и* бы- ло оптимальным в задаче с уравнением движения (4.12), показателем качества (4.8) и ограничениями (4.11), необходимо и достаточно, чтобы это управление удовлетворяло принципу максимума, т. е. max (р* (k + 1), ф (и (А:))) = (р* (k + 1), ф (и* (А))), (4.14) где р* находятся из р*(Л)=4т(£)р*(Н-1), p*(W)=a(W). (4.15) Отсюда видно, что оптимальное управление вычи- сляется непосредственно из (4.14), так как переменные р*, определяемые из (4.15), зависят только от вектора a(Ny. p*(k)=AT(k)AT(k+V) ... XT(W—l)a(AZ). Заметим, что если рассмотреть задачу с суммарным показателем качества вида N—1 / =- 5 1(я (и (&)), X (&)) + Фо (« (£))] л=о
J <1 ПРИНЦИП КВАЗИМАКСИМУМА 111 и уравнениями движения (4.7), то для этой задачи принцип максимума всегда дает необходимые условия оптимальности, которые переходят в достаточные, если a(u(k))=a(k)t A(u(k))==A(k). Вернемся теперь к общему случаю уравнений дви- жения (1.2.3) и показателя качества (1.3.1). Введем в пространстве Ег множество t/ft(6)= u(ft) W-1 ) 2 о (|Дх (s)|) < 6 . s=k+l ) (4.16) Из (4.3) следует, так как Д/*^0, что tf(p*(ft-H), x*(ft), w*(ft))> >tf(p*(ft+l), x*(ft), «*(ft))+n*. (4.17) N-1 где 2 о(|Дх($)|), u(k)^ Uk(8). Так как |т]а|^6 для всех u(k)^Uk(8), то из (4.17) получим, что оптимальное управление удовлетворяет неравенству tf(p*(ft-H), x*(ft), u*(ft))> >tf(p*.(ft+l), x*(ft), u(k))— 6 (4.18) для всех м (ft) е (7^(6). Неравенство (4.18) выражает принцип квазимакси- мума (т. е. здесь принцип максимума выполняется с точностью до б). Если 6=0, a t/fc(6)2t/, то (4.18) пе- реходит, очевидно, в «обычный» принцип максимума. Объединяя неравенство (4.15) с условиями теоре- мы 3.2.1, получим следующие необходимые условия оп- тимальности, которые являются в каком-то смысле промежуточными между условиями теоремы 3.2.1 и тео- ремы 4.2.1. Теорема 4.3. Пусть и* — оптимальное управле- ние взадаче 1. Тогда на оптимальном управлении спра- ведливы соотношения: 6uH(p*(ft+l), x*(ft), u*(ft))^0 (4.19) для всех 8и* (ft) е К. (и* (ft)), H(p*(ft+1), x*(ft), u*(ft))>tf(p*(ft-H), x*(ft), «(ft))—6 (4.20) для всех u(k)<^Uh(8).
112 ПРИНЦИП МАКСИМУМА [ГЛ. IV Неравенство (4.20) позволяет в принципе получить большую информацию о характере стационарных точек, выделяемых неравенством (4.19). Например, если функ- ция Гамильтона имеет вид, показанный на рис. 4.4.1, где U— = {u|a^u^p}, то не- равенство (4.20) выде- ляет область {u|ai^ а неравенст- во (4.19)—точку и* в этой области; следова- тельно, в данном слу- чае функция Гамильто- на на оптимальном уп- равлении имеет макси- мальное значение (за- метим, что здесь предполагается, что при рассматривае- мом 6 область U(6) включает U). Однако использовать теорему 4.3 для вычисления оптимального управления трудно, поскольку в общем случае нет эффективных способов построения мно- жеств £Д(6). § 5. Условия одноэкстремальности В этой главе и в главе III были получены необходи- мые условия оптимальности, сформулированные либо в терминах возможных направлений, либо в виде прин- ципа максимума. Эти условия выделяют в общем случае несколько управлений, каждое из которых доставляет показателю качества стационарное зна- чение. Возникает вопрос, при каких условиях полученные необходимые условия оптимальности будут и достаточ- ными, т. е. при каких условиях показатель качества Ци) (как функция управления) будет иметь одноэк- стремалыюе — максимальное — значение при заданных ограничениях па управление и. Для того чтобы ответить на этот вопрос, введем множество допустимых управлений и, переводящих за- данное начальное состояние х(0)=а в некоторое конеч-
S 51 УСЛОВИЯ ОДНОЭКСТРЕМАЛЬНОСТИ 113 ное состояние x(N) за N шагов, которые обозначим через Qu(x(N)Y- « = {и (0), x(k + l) = f(x(k), u(k)), u(N — l)} x(0) = a, x(N)=x(N), • u(k)f=U(k = 0,...,N-l), Очевидно, показатель качества /=Ф(х(А^)) имеет одно и то же значение для всех u^Qu(x(N)). В част- ности, £lu(x(N)) может состоять из единственного управления и; либо вообще может не существовать управления, переводящего х(0)=а в x(N), и тогда &u (х (N)) — пустое множество. Рассмотрим задачу 1. Для нее справедлива сле- дующая теорема, которая является непосредственным обобщением теоремы 2.6.1 для одношагового случая. Теорема 5.1. Пусть функция Ф(х) выпукла вверх, множество достижимости Rn(o) выпукло. Тогда если условия теоремы 3.2.1 выполнены для любых управлений u*eQu(x*(M)), то любое из этих уп- равлений оптимальное. Таким образом, в теореме 5.1 утверждается, что если (k +1), х*(£), и*(А))^0 для всех 6u*(A)e/<(u*(A)) и всех u*eQu(x*(7V)), то при сделанных предположениях о выпуклости Rw(a) все управления u*eQu(x* (N)) оптимальные, т. е. Ф(х*(АГ)) $гФ(х(А0) при любых x(N)^RN(a). Доказательство. Пусть некоторое управление и* удовлетворяет условиям теоремы. Обозначим траек- торию, соответствующую и* при х(0)=а, через х*. По- кажем, что процесс {и*, х*} оптимальный. Для этого воспользуемся построениями и обозначе- ниями § 3.3. Фиксируем теперь конечное состояние x*(N)^Rn(а), построим множества всех управлений u*eQu(x*(Af)) и всех соответствующих траекторий x*eQx(x*(W)), пере- водящих х(0)=а в x*(N) допустимым управлением за R шагов. А. И. Пропой
114 ПРИНЦИП МАКСИМУМА [ГЛ. IV Обозначим через M(x*(N)) конус допустимых ва- риаций в точке x*(iV) по множеству RN(a). Очевидно, он будет состоять из всевозможных вариаций траекто- рий x*e£lx(x*(N)), которые возникли из-за допусти- мых вариаций управлений u*eQu(x*(N)) при k= = 0, .... N—1, т. е. N M(x*(tf)) = U U MN,k(x*(k)). (5.1) Jt*eQx h=l Эта формула является непосредственным обобще- нием (3.3.10) на случай неединственных управлений и*, переводящих х(0) =а в х* (N). По условиям теоремы (р*(£), бх*(А))<0 (5.2) для всех бх*(k)^.Mk,k(x*(k)) и всех x*eS2x(x*(JV)). Так как на фиксированном процессе бх*(А)) =const (см. лемму 1 §3.3), то на основании (5.2) получим, что (p*(N), 6x*(W))^0 для любых бх* (N) ^MN,kfx* (N)) и x*eQx(x* (N)). Иными словами, из условий теоремы следует, что гиперплоскость (p*(k), бх*(&)) пространства вариаций является опорной конусу Mk,k(x*(k)) в его вершине. Осуществляя перенос этой гиперплоскости вдоль фик- сированной траектории x*eQx(x*(Af)) в пространство 8XN (см. лемму 1 § 3.3), получим, что гиперплоскость (p*(N), бх* (#))=() является опорной конусам MNth(x*(N)) Так как подобный перенос можно осуществить для любой траектории х* из Qx(x*(V)), то в итоге получим в силу (5.1), что эта гиперплоскость является опорной конусу M(x*(N)) в его вершине, т. е. (p*(N), 6x*(lV))^ ^0 для любых бх* (N) (х* (N)). Отсюда, используя доказательство теоремы 2.6.1, получим, что гиперплоскость (p*(N), x(N)) = (p*(N), x*(N)) является опорной множеству RN(a) в точке x*(N), т. е. max (р* (N), х(#)) = (р* (N), х*(N)), *(N)&RN(a)
$6] ЛИНЕЙНЫЕ СИСТЕМЫ Ц5 откуда следует в силу выпуклости множества что функция Ф(х(М)) достигает максимального значе- ния на множестве RN(a) в точке x*(N)9 т. е. max Ф(х(АГ)) = Ф(х*(А^)). x(N)f=RN(a) Теорема доказана. Заметим, что так как в теореме не требовалось вы- пуклости множеств (%*(£)), то на оптимальном уп- равлении не обязательно должен выполняться принцип максимума. Однако если потребовать выпуклость множеств /?ft(x) при любых х для £=1,..., N, то, очевидно, условия теоремы 2.1 будут и достаточными, т. е. справедливо Следствие. Пусть множества Rh(х) выпуклы при любых х и k=\,..., N. Тогда если max Н (р* (k + 1), х* (k), u(k)) = Н (р* (й + 1), х* (Ji), u* (k) (£=0,..., Af-1) для всех управлений и*, переводящих х(0)=а в x*(Af), то любое из этих управлений оптимальное. Аналогичные условия имеют место и для задачи с суммарным показателем качества (здесь для одноэкс- тремальности достаточно потребовать выпуклость множества Sjv(a)), и для задач с ограничениями на переменные состояния (где достаточно потребовать выпуклость Qjv(a) и Ф(х(М))). Однако в общем случае проверка выпуклости мно- жества достижимости за N шагов представляет труд- ную задачу. Это не касается линейных систем. § 6. Линейные системы Рассмотрим дискретный процесс, который описыва- ется линейным уравнением вида (см. § 1.5) x(A+l)=A(Jfe)x(Ji)+B(Ji)u(Ji), х(0)=а; (6.1) показатель качества пусть имеет вид N—1 j= 2 fMk)> "(*))’ (6-2) fc=0 8*
116 ПРИНЦИП МАКСИМУМА [ГЛ. IV где fQ(x, и) —выпуклая вверх по и и х функция; пред- положим, что множество U в ограничениях u(k)t=U (6=0, 1,..., N— 1) (6.3) также выпукло. Для таких систем справедливо следующее утверж- дение. Теорема 6.1. Для того чтобы в рассматриваемой задаче управление и* было оптимальным, необходимо и достаточно, чтобы функции Я(р*(М-1), х*(£), «(£)) = =fo (X* (k), и (k)) + (р* (k+1), В (k) и (k)) (6.4) достигали максимального значения по u(k)^U при k=0, 1,..., N—1 на этом управлении, где значения р* (k) определены из системы р* {k} = +AT(k)p (k + 1), р* (tf) = 0. Замечание. Эта же теорема справедлива и для уравнений x(k+l)=A(k)x(k)+y(u(k)) (6=0, 1,..., N—1) с произвольным множеством U, если потребовать, что- бы множество <р([7) было выпуклым. Однако эта зада- ча легко приводится к частному виду задачи (6.1) — (6.3), если положить <p(u(6)) = v(6), и (6) eV, V=q(U). В этом случае х(6-{-1) =А (k)x(k)-]-v(k). Перейдем теперь к доказательству теоремы. На ос7 новании теории, развитой в § 5, для этого достаточно проверить выпуклость множеств Rk(x) для этой задачи. Для простоты обозначений будем считать, что матрицы А и В не зависят от k. Доказательство. Докажем сначала выпуклость множеств Ri(x): ₽7(г) = |г"г"'‘:?<Х'“> + л:"' ( г г = Ах + Ви, ) Пусть г1 = {го, г1}, г2 — {го, г2) принадлежат Ri(x). Имеем Хг> + (1— Л)г2=Лл:+В[Хы1+ (1—Х)и2] =Ах-]-Ви.
ЛИНЕЙНЫЕ СИСТЕМЫ 117 § 6J Но u^U при OigJXsCl в силу выпуклости U. Следова- тельно, z=Xz!4-(l— X)z2e/?i(x) при 0^Х<1 и множе- ство/?! (а) выпукло. Далее, при O^X^l XzJ + (1 - X) zl < Vo (x, и1) + Xx0 + (1 - M fo (*, «2) + + (1 — X) x0 < /о (x, Xu1 + (1 — X) u2) 4- x0. Последнее неравенство справедливо в силу выпук- лости вверх по и функции f0(x, и). Отсюда следует вы- пуклость 7?1 (х). ~ Допустим теперь, что множество Rk—i (х) выпукло (k>2), и пусть опять z1, г2е/?Дх). Совершенно аналогично z=А [Хх1 + (1—X) х2] + В [Хи1+(1 —X) и2] e/?ft (х) при O^X^l в силу выпуклости /?A-i(x) и U, т. е. мно- жество /?А(а) выпукло. Кроме того, по определению множества /?ь(а) и вследствие выпуклости вверх функции /о(х, и) по х и и Xz0 (1 — X) z0 < Х/о (х1, «') + Ххо + (1 - X) f0 (х2, а2) + (1 -X)xg < < f„ [Хх1 + (1 — X) х2, Хи14- (1 - X)u2J+ XzJ 4- (1 - V г20. Таким образом, множество Rk (*) выпукло, и, следо- вательно, выпуклы все множества Rk(x) (А= 1,2,... ,N). Наконец, ясно, что если (6.4) справедливо для не- которого управления и*, переводящего х(0)=а в x*(AZ), то оно верно и для любого другого управления, пере- водящего х(0)=а в ту же точку. Отсюда уже следует утверждение теоремы. Заметим, что теорему 6.1 можно доказать и непо- средственно, представляя показатель качества (6.2) как неявную функцию управления /=/(х(0, и)), заданную посредством соотношений (6.1), (6.2) на выпуклых ог- раничениях (6.3). Так как каждое состояние х(А), в силу уравнений (6.1), есть линейная комбинация управляющих воздей- ствий u(k) (см. (3.4.3)), а выпуклая функция fQ(x(k), u(k)) от линейной комбинации iz(0),...t u(k—1)
118 ПРИНЦИП МАКСИМУМА [ГЛ. IV остается выпуклой функцией по этим переменным, то следовательно, Z(x(0), и)—выпуклая функция по и при каждом начальном состоянии х(0). Тогда из тео- ремы 2.6.1 непосредственно следует одноэкстремаль- ность рассматриваемой задачи. Рассмотрим простой пример. Пусть в системе уравнений г=1, т. е. u(k) —скаля- ры, а показатель качества, который нужно минимизи- ровать, 1Йиеет вид 1 N . N-1 7=4 2(хх +4- т 2 h=l fc=0 где у>0 и |и(А) | ^1. Условия теоремы 6.1 здесь вы- полнены, поэтому для такой задачи следующие условия полностью определяют оптимальный процесс: х (Л4-1) = A (k) х (k) +В (k) и (k), х (0) = а, р (k) =x(k) +ЛГ (k) р (k+1), р (АГ) =х (У), u(k) — 1, если a(k) > 1, a(k), если |a (fe)| <Z 1, — 1, если а (й) — 1, где a(k) =y(p(£4-l), Ь).
ГЛАВА V ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ На примере статической задачи в главе II было по- казано, какую важную роль играет теория двойствен- ности при исследовании экстремальных задач. В этой главе развивается теория двойственности ди- намических задач, с помощью которой строятся «двой- ственные» условия оптимальности для задач с ограни- чениями на переменные состояния, а в последующей главе — двойственные вычислительные методы и оцен- ки для оптимального процесса. § 1. Двойственные задачи управления Рассмотрим, как и раньше, сначала задачу оптими- зации конечного состояния (задачу 1): требуется найти такое управление и траекторию х, удовлетворяющие ог- раничениям: x(k)<=Xh (k=0,...,N), (1.1) u(k)€=Uh (6=0,..., M— 1) (1.2) или, в частном случае, h}(k, х(6))>0 (/=1, ..., s(k)- k=0, .... N), (1.1а) &(6, u(6))>0 (1.2a) и доставляющие показателю качества / = Ф(х(А/)) (1.3) максимальное значение в силу уравнений движения x(k+l)=f(x(k), u(k), k) (6=0,1 AT—1). (1.4) Отметим, что здесь начальное состояние не фикси- ровано. В этом параграфе будем считать, что функции
120 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V Ф(х), f(x, и) непрерывны по своим аргументам, а мно- жества Uh и Xk замкнуты и ограничены. Кроме того, будем предполагать, что ограничения (1.1) и (1.2) та- ковы, что существует хотя бы одно управление и и со- ответствующая ему в силу уравнений движения (1.4) траектория х, которые удовлетворяют этим ограниче- ниям. При таких предположениях, как показано в гла- ве 1, оптимальное управление всегда существует, а со- ответствующее ему значение показателя качества (1.3) конечно. В главе III задача дискретного управления рассмат- ривалась как задача оптимизации по управлению и функции /(х(0), и), заданной в неявном виде посред- ством уравнений движения (1.4), при ограничениях на управляющие воздействия u(k), заданные в явном (1.2) и неявном (1.1) виде. Но эту же задачу дискретного управления можно рассматривать как задачу Лагранжа на условный эк- стремум, в котором независимыми переменными явля- ются переменные управления u(k) и состояния x(k), связанные между собой ограничениями типа равенств (1.4) и неравенств (1.1а), (1.2а), а оптимизируемой функцией является показатель качества (1.3). Поэтому в рассматриваемой задаче можно использовать аппа- рат, о котором говорилось в §§ 7—10 главы II. Введем функцию Лагранжа N—1 Г(«,х,р) = Ф(х(А0)- 2 (P(fc + + 1) - — f (x(k), u(k), где p (k) = {pi (&),..., pn(k)}^En — вектор множите- лей Лагранжа, и u={w(0),..., u(N— 1)}, x={x(0),...,x(N)}, P={p(0).....P(N)}. Обозначим через Q(w), й(х), й(р) множества до- пустимых последовательностей и, р их. Очевидно, N—1 N Й(«)=лП Uk, Й(х)=П Q (р) — прямое произве- ' гЬ=0 fe=0 дение (ЛАН-1) евклидовых пространств £п.
5 Ч ДВОПСТВЕННЫЕ ЗАДАЧИ УПРАВЛЕНИЯ J21 Используя функцию Лагранжа, построим функции ср (и, х) = rninF(«, х, р), (1.6) р где минимум берется по всем peQ(p), и ф(р) = maxF(«, х, р), (1.7) и,х где максимум берется по любым парам w^Q(u), хеЙ(х), не обязательно удовлетворяющим уравнениям движения (1.4). Заметим, что так как функция F(u, х, р) непрерыв- на по своим аргументам, а множества Q(u)\ Q(x) огра- ничены и замкнуты, то ф(р) —непрерывная функция на Q(p). Что касается функции ср (и, х), то она равна зна- чению показателя качества Ф(х(У)) в области допусти- мых и, х (т. е. на множестве Qn, где QN — множество допустимых состояний на шаге N — rri) и равна —оо в остальных точках. Рассмотрим теперь следующие задачи. Задача 1Р. Требуется найти последовательности и и х, удовлетворяющие ограничениям (1.1) и (1.2), при которых функция ф(«, х) принимает наибольшее значение, т. е. при которых тах<р(и, х) = max min F(u, х, р) = <ор. (1.8) utx и,х Р Задача 1D. Требуется найти последовательность р, при которой функция ф(р) имеет наименьшее значе- ние, т. е. minip(p) = min max F (u, х, р) = mD. (1.9) Р Р и>х В развернутой форме эти задачи имеют вид: Задача IP. Найти последовательности u(k) (k — =0,..., N—1) и x(k) (&=0,.... N), при которых [IN—1 Ф(х(У))— 5 (p(k+ l),x(k + 1) — h=0 -f(x{k),ll(k),k)) =(DP, (1.10)
122 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V где hj(ky x(k)) >0 (/=1,..., s(k))y (/=1,.... Задача ID. Найти последовательность p(k) (k= при которой N-t min max <D(x(Af))— 2 (p(k + l),x(k + 1) — p utx L h= 0 -f(x(k),u(k),k)) =®p, (1.11) hj(k, x(Ai))>0 (/=1,..., s(/s)), gj(k,u(k))^0 (/=1,..., Назовем, пока формально, задачи IP и ID парой двойственных задач (из которых задача 1Р — прямая, а задача ID — двойственная ей). Изучим каждую из задач в отдельности. Пусть {и*, х*}—решение исходной задачи 1, /* = ==ф(х*(М)) —соответствующее значение показателя ка- чества. При сделанных предположениях оно всегда су- ществует. Теорема 1.1. Любое решение {и*, х*} задачи 1 является решением задачи \Р и, обратно, любое реше- ние задачи 1Р является решением задачи 1, причем I* = (Яр. Доказательство. Из определения функции <р(ы, х) следует, что <р(и, х) =Ф (%(#)), если и и х удов- летворяют уравнениям движения (1.4), и <р(ы, х) =—оо, если и и х им не удовлетворяют. Пусть {«*, х*}—решение задачи 1. Следовательно, x*(JH-l)=f(x*(£), u*(k), k) (k=0, 1,..., N— 1) и выполнены ограничения (1.1), (1.2). Поэтому J* = max Ф (х (N)) = max <р {и, х) = а>Р. и и,х Пусть теперь {и, х} —решение задачи 1Р. Очевидно, это решение должно удовлетворять уравнениям движе- ния (1.4), так как в противном случае max<p(u, х) = =—оо. По предположению, такие и и х существуют. Но тогда опять сор = шах ф (u, х) = max Ф (х (AQ) = J*. «рс И
$ 2] СООТНОШЕНИЯ ДВОЙСТВЕННОСТИ 123 Таким образом, прямая задача 1Р является некото- рой переформулировкой исходной задачи 1. Изучим теперь двойственную задачу 1D. Обозначим через Г множество последовательностей р, при которых функция ф(р), определенная из (1.7), имеет конечное значение (т. е. ф(р)<оо при реГ). Покажем, что Г — выпуклое множество, а ф(р)— выпуклая функция. Действительно, пусть р1 и р2 — некоторые последова- тельности из Г. Тогда при ф(1р1 + (1+Х)р2) = е= max [%F (и, х, р1) + (1 — Л) F (и, х, р2)] и,х ^7. max F(u,x, р1) + (1 — X) max F (и, x, p2) = utx Так как ф(р1)<оо и ф(р2)<оо, то ф(р)<°о, где р=Хр1+(1—Л)р2 (0^Л^1), и, следовательно, реГ. Та- ким образом, Г — выпуклое множество. Кроме того, так как ф(Лр1+(1—%)р2)^%ф(р‘) + (1—X)tjp(р2) при 0^ то "ф (р) —выпуклая функция. Итак, двойственная задача (задача ID)—всегда за- дача выпуклого программирования, а функция ф(р) имеет одно экстремальное значение, равное а>в- Построение же самой функции ф(р), определенной из (1.7), в общем случае, естественно, уже не является задачей выпуклого программирования. § 2. Соотношения двойственности В этом параграфе изучим соотношения между зада- чами 1Р и 1D. Теорема 2.1. Справедливо неравенство (2.1) Доказательство. По определению, при любых P<=Q(p) ф (р) = max F (и, х, р) > F (и, х, р), utx где ugQ(u), хей(х), peQ(p).
124 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V В частности, юр = т!пф (р) > min F (и, х, р) = ср (/г, х) р р при любых %ЕЙ(х). Отсюда следует, что (Dp = min ф (р) > шах ср (и, х) = сор. Р и»* Очевидно, неравенство (2.1) можно было бы и нс доказывать, а применить соотношение (2.8.5), получен- ное для статической задачи. Так как задачи 1 и 1Р эквивалентны, то в итоге по- лучаем, что оптимальное значение показателя качества У* исходной задачи 1 всегда не превосходит оптималь- ного значения сор функционала двойственной задачи 1D. Полученное соотношение позволяет строить оценки сверху для оптимального решения исходной задачи (см. § 6.1). Неравенство (2.1) справедливо для двойственных за- дач произвольного вида. Если же исходная задача яв- ляется одноэкстремальной, то неравенство (2.1) пере- ходит в равенство. Покажем это. Будем предполагать выполненными следующие условия. 1. Множества Uh (6=0, 1, ..., AZ—1), Хк (6=0, 1,... ..., N) выпуклы, замкнуты и ограничены. 2. Уравнения движения линейны и имеют вид x(k+l)==A(Jt)x(k)+B(k)u(k) (6=0, 1,...,AZ— 1), (2.2) где Л(6) = [а0(6)], B(k) = [bsj(k)] n; s= = l,...,r)—матрицы размера (nXn), (rXn) соответст- венно. 3. Ограничения (1.1), (1.2) и уравнения движения (2.2) таковы, что существует хотя бы одна траектория удовлетворяющая (1.1), (1.2) и (2.2), каждое состояние x(k которой находится строго внутри множества Xh, т. е. при ограничениях (1.1 а) hj(k,x(k))>0 (/=1, ... , s(6); 6 = 0, ...,AZ). Очевидно, для выполнения 3 необходимо, чтобы мно- жества Хк имели внутренние точки.
СООТНОШЕНИЯ ДВОЙСТВЕННОСТИ 125 § 2] 4. Показатель качества Ф(х(Лг))—выпуклая вверх функция конечного состояния. Заметим, что при сделанных предположениях рас- сматриваемая задача является задачей выпуклого про- граммирования и, следовательно, одноэкстремальной (см. замечание в § 4.6*). Теорема 2.2. Если выполнены условия 1—4, то для любых оптимальных решений прямой и двойствен- ной задач \Р и 1D имеет место равенство (1)р== = /*, где оптимальные значения функционалов прямой и двой- ственной задач (tiP=®D достигаются на некотором про- цессе {w*, х*, р*}, удовлетворяющем (1.1), (1.2). Доказательство. Так как в теореме 2.1 ут- верждается, что всегда сор^сор, то для доказательства теоремы достаточно показать, что в случае одноэкстре- мальности справедливо и обратное неравенство: Op^cod. Для доказательства этого неравенства прежде всего по- строим множества достигаемости Qft<=En для этой за- дачи: Q,=f (х0, Uo, 0) Г) Qk+1=f(Qk. Uk, k) П Xft+i (6=1, jV—1), или Qk=Rk Cl Xk (6=1, N), где Uo, 0), Rk+i—f(Qk, Xk, k). Заметим, что Qh (6=1, ..., N) —выпуклые множест- ва. Действительно, ^множество 7?i=A (О)Хо-|-В(О) Uo, являющееся образом линейного преобразования выпук- лых множеств UoXXo, очевидно, выпуклое. Так как пересечение выпуклых множеств выпукло, то Qi = =^iDXi — выпуклое множество. Аналогично доказыва- ется выпуклость множеств Qk при 6=2, ..., N. Кроме того, заметим, что из предположения 3 сле- дует, что множества Хк имеют внутренние точки, об- щие с Rk. Очевидно, max Ф(х(ЛГ)) — Ф(х*(У)). *) См. также доказательство теоремы 2.2.
126 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V Обозначим 5(АГ)=Ф(х* (#))=©₽. Пусть z(N)=x(N)—f(x(N— 1), u(N— 1), N—l), где x(N)^Xn, x(N— 1)gQw_], u(N— 1)^UN-i. Совокупность векторов z(N) определяет возможные невязки в состоянии процесса на N-м. шаге (между до- пустимыми х(М)еХм- и возможными y(N)^RN состоя- ниями на N-м шаге). Рассмотрим в расширенном пространстве состояний £п+! множество 2 = (г0^)г0(#)<Ф(х(^), 1 N [z(N) z(N)=x(N)—f(x(N — V), u(N — 1), N - l)j для некоторых x{N) ^XN, x(N—1)eQw_|, u(N— и луч £ (z0(AT) z0(N)>S(N)A N \z(N) z(N) = 0 J Так как преобразование f линейно по х и и, а мно- жества Qn-i, Un-i и функция Ф(х) выпуклы, то Zn— выпуклое множество. Действительно, пусть z1(N), z2(N)^Zn. Рассмотрим точку г(ЛГ) = Л?(ЛГ)4-(1 при 0<Х<1. (2.3) По определению, z (N) =Az> (N) + (1 -%) z2 (N) = =%[х> (#)-Л (М—1)х|(Л/—1)—В(Л/—1)/?(М—1)]-|- + (1 -X) [х2 (N)—A (N—1) х2 (N—1) - В (N-1) и2 (N-1]= =x(N)— A(N— l)x(N— 1)— B(N— l)u(N— 1), где x(N— l)=U'(Ar—1) + (1— h)x2(N— 1), x’(W-l), x2(AT-l) <=Qn-i, x(N)=Kxl(N) + (l—!k)x2(N), x^N), x2t\')eXKl u(N—l)=KtA(N—l) + (l— k)u2(N— 1), u'(N-1),u2(N-1)^Un^.
§2J СООТНОШЕНИЯ ДВОЙСТВЕННОСТИ 127 Так как Qw-i, XN, UN-\ — выпуклые множества, то x(N—1)(ЕеХдг_1, u(N—l)GEt7jv-i, x(Af)sX^ при 1. Кроме того, 20(y) = XzJ(y) + (l-X)z§W)< < ХФ (х1 (У)) + (1 - X) Ф (х2 (У)). В силу выпуклости Ф(х(ЛГ)) ?0 (АО Ф [Хх1 (N) + (1 — X) х2 (N) ] = Ф (х(W)). Таким образом, точка z(N), определенная из (2.3), принадлежит множеству Zn и, следовательно, оно вы- пуклое. Множество Ln (луч) также выпукло. Кроме того, очевидно, что множества Zn и Ln не имеют общих точек. Поэтому к этим множествам мож- но применить теорему об отделимости выпуклых мно- жеств (§ 2.1). В результате получим, что существует такой ненуле- вой вектор р (У) определяющий нормаль разде- ляющей гиперплоскости, что ро(У)Ф(х(^))-(р(Л^),х(У)-Г(х(М-1), u(N—1), N-l))^pQ(N)S(N). для любых x(N)(=Xn, x(N— 1)^Qn-ъ u(N—\)^Un-i- Покажем, что р0(Л^) не- действительно, допустим противное: pQ(N)=0. Тогда (р(ЛГ), x(W) —f (x(Af—1), u(N-l), ЛГ-1))>0, или (p(N), х(У))>(р(У), </(У)), где x(N)^Xn, y(N)^RN, т. е. существует гиперплос- кость, разделяющая, хотя бы и не строго, выпуклые множества XN и RN. Однако, по предложению 3, существует хотя бы одна точка y(N)^RN, являющаяся внутренней точкой мно- жества XN. Противоречие.
128 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V Итак, доказано, что Ф(х(Л^))- — (p(N), x(N)—f(x(N—\), u(N-l), для любых x(N)^Xn, x(N— 1)eQjm, u(N— В частности, max max max [<D(x(Af)) — x(N—DeQ/v—i x(Ny=XN — (p(N),x(N)—f(x(N—l)., u(N-l), N-l)]^S(N). (2.4) Обозначим через S(Af—1) левую часть неравенства (2.4). Таким образом, S(N— 1) ^S(N). Рассмотрим теперь в Еп+1<- множество 7 _ /г0(У-1) г0(У-1)< \z(N —1) z(N-V) = <Ф(х(ДГ))-(р(Л0, x(N)—f(x(N— 1), w (АГ—1),ДГ—1)),1 = x(^-l)-f(%(^-2),й(^-2),^-2) } для некоторых x(N)<=XNt x(N— l)^XN_i, и[N—2)^t7j^—2> x(AT—2)eQw_2 и луч - (z0 (AT —1) lz0 (AT — 1) >S (AT—1), 1 •^N-t ~ { I } • Iz(AT-l) lz(M —1) = 0 J Повторяя рассуждения для этого случая, получим, что Zn-i и Lw-i — выпуклые множества в £n+1, не име- ющие общих точек. Поэтому существует ненулевой вектор p(N— l)e£n+1, определяющий нормаль гиперплоскости, разделяющей множества ZN-\ и LN-i, т. е. p0(N- 1) [Ф(х(Л/))-(р(^, х(Х)- — f(x(N-l), u(N-l), tf-1))]- — (p(N— 1), x(N-l)—f(x(N-2), u(N-2),N-2))^ <Po(W~l) 5(^-1)- для любых x(N)^Xn, x(N— l)eXx-i, «(У—l)et7w-i, x(N—2)eQN-2.
§ 2] СООТНОШЕНИЯ ДВОЙСТВЕ11НОСТИ 129 Аналогичным образом из того , что множество А\.и имеет внутреннюю точку, общую с следует, что Повторяя эти рассуждения для последующих шагов, получим неравенство N—1 Ф(х(У))- 2(Р(Й + 1), х(/г + 1) — /(x(/fe), u(k), k)) < k=0 «СФ (x* (N)) — ыр при любых x(k)<=Xh (6 = 0,.... Л/), (k = Q,..., ... ,N—1). Или, учитывая определение функции Лаг- ранжа (1.5),/7(«, х, р)^®Р,при любых ией(и), хей(х) и peQ(p). В частности, ф (р) = max max F (и, х, р) и>р иЕЕ&(и) хей(х) Но, по определению сор, сор = min (р) С гр (р) р при любых р^й(р). Итак, доказано, что ощ^сор, откуда, с учетом теоре- мы 2.1, получаем окончательно, что (оР=сор. Теорема полностью доказана. Таким образом, решение исходной задачи, если она имеет один экстремум, может быть заменено решением задачи, ей двойственной, которое во многих случаях ока- зывается проще, чем решение прямой задачи. Кроме то- го, двойственной задаче всегда можно дать интерпрета- цию, связанную с физическим содержанием рассматри- ваемой задачи (см., например, §§ 6.9, 6.10), аналогично тому, как это делается в одношаговых задачах оптими- зации. Поэтому часто совместное решение прямой и двойственной задач полезно не только с вычислительной точки зрения, но и для понимания физики конкретной задачи управления. Рассуждения §§1, 2 допускают некоторые обобщения. 1) Из построения задач 1Р и 1D видно, что получен- ные результаты останутся верными, если «независимые» ограничения (1.1), (1.2) на переменные %(/?) и и (/г) за- менить совместным вида gj(k, x(fe), u(k)) ^0 (/= 1,.. ., m(&)), (2.5). А. И. Пропой
130 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V где gj(-)—некоторые непрерывные функции, выделя- ющие в пространстве XhxUk ограниченное и непустое множество. При этом легко видеть, что для того, чтобы была справедлива теорема 2.2, нужно заменить условие 1 требованием выпуклости вверх этих функций по пере- менным и и х, а условие 3 — требованием существования такого допустимого процесса %}, удовлетворяющего ограничениям (2.5) и уравнениям движения (2.2), пои котором >0 /(==1, fc = 0, 2) При доказательстве теоремы 2.2 использовалась, по существу, выпуклость множеств достижимости Qk (6=1,..., Af), а не линейность уравнений движения. Поэтому теорема 2.2 будет верна и в нелинейном слу- чае, если условия 1.2 заменить требованием выпуклости множеств достижимости Qk (k= 1,..., N). Или если учесть замечание 1, в формулировке теоре- мы 2.2 условия 1,2 можно заменить требованием выпук- лости и ограниченности множеств достижимости для ограничений вида (2.5). 3) В приведенных построениях требовалась ограни- ченность множеств Xk (а, в конечном счете, множеств достижимости). Поэтому случай отсутствия ограничений на переменные состояния, когда Xk=En, формально здесь не проходит. Однако поскольку в книге рассмат- риваются процессы, описываемые уравнениями с не- прерывными правыми частями, множества достижимо- сти Rk всегда будут ограничены, если ограничены управ- ляющие воздействия (что выполняется для любых практических случаев). Положив формально Xh=Rk, получим, что утверждения §§ 1,2 справедливы и для случая отсутствия ограничений на переменные со- стояния. § 3. Седловая точка и оптимальность Из теоремы 2.2 следует, что max min F(u, х, р) = min max F(u, x, p) = F(u*, x*,p*), atx p p utx (3.1)
СЕДЛОВАЯ ТОЧКА И ОПТИМАЛЬНОСТЬ 131 § з] или F(u, х, р*) ^LF(u*, х*, р*) ^2F(u*, х*, р) (3.2) для любых u^Q(u), x^Q(x), p^Q(p). Таким образом, функция Лагранжа (1.5) имеет седловую точку {и*, х*, р*} в Й(и)Х&(х)ХЩр) (см. § 2.8), на которой достигаются оптимальные решения прямой и двойственной задач. Поэтому теоремы 2.1, 2.2 можно переформулировать следующим образом. Теорема 3.1. Пусть {и*, х*, р*}—седловая точка функции Лагранжа (1.5) в £2(^)ХЩ*)ХЩр), т, е. вы- полнены соотношения (3.2) или (3.1). Тогда процесс {и*, х*} является оптимальным для ис- ходной задачи 1. Пусть, обратно, {и*, х*} —решение задачи 1, и пусть, кроме того, выполнены условия 1—4 теоремы 2.2. Тогда существует такая последовательность р* (р* = = 0), что {и*, х*, /?*} образуют седловую точку функ- ции Лагранжа F(u, х, р) в Q(u)X^(x)X^(P)« Доказательство. Выпишем правую часть нера- венства (3.2): N—1 Ф (х* (АГ)) + 2 (р* (k + 1) - f (х* (k), и* (k), k)) < h=0 N—1 <Ф(х*(ЛГ))+ 2 (p*(k + 1), x*(k + 1)- — f(x* (ty,«* (£),fe)). Это неравенство верно при любых p(k)(k = O, ..., Af). Следовательно, должно быть x*(&+l)=f(x*(A), u*(k),k), т. е. в седловой точке выполнены уравнения движения (1.4). Далее, из левой части неравенств (3.2) получим Ф(х(М)) ^ф(х* (N)) для любых {и, х}, удовлетворя- ющих (1.1), (1.2) и (1.4), т. е. для любых x(N)<=Qn- Тем самым оптимальность процесса {и*, х*} установле- на и первая часть теоремы доказана. Заметим, что здесь не использовались требования одноэкстремальности за- дачи 1. 9*
132 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V Что касается второй части, то ввиду (1.10), (1.11) и (3.1) она является простой переформулировкой теоре- мы 2.2. Таким образом, вместо пары двойственных задач IP и 1D можно рассмотреть одну общую задачу. Задача \PD. Найти седловую точку (если она су- ществует) функции Лагранжа N—1 F (и, х, р) = Ф (х (N)) - 5 (р (k + 1), х (k + 1) - k=0 при u(k)(=Uk, x(k)<=Xk. Заметим, что условия 1—4 теоремы 2.2 гарантируют существование седловой точки F (и, х, р), а теорема 3.1 показывает, что решение задач IP, ID и \PD эквива- лентно при этих условиях решению исходной задачи 1. § 4. Задача с суммарным показателем качества Аналогичные соотношения можно получить и для за- дачи с суммарным показателем качества. Рассмотрим задачу (задачу 2): требуется найти такое управление и и соответствующую ему траекторию х, удовлетворяющие ограничениям gi(k, u(k), %(£)) ^0 (/=1, т(й); k=0, .., N— 1) (4.1) и доставляющие показателю качества N—1 / = Ф(х(А0)+ 2/0(х(й),Ы(^), k) (4.2) k=0 максимальное значение в силу уравнений движения %(&+1)=/(х(й), u{k), k). (4.3) Так же, как и в §§ 1—3, будем предполагать, что функции gj(k, х, и) (/=1, • .m[k)\ k = 0, ..., N— 1), fi(x, и, k) (i = 0, ..., n) непрерывны по своим аргументам, а неравенства (4.1) выделяют ограниченные замкнутые множества RhczXhxUh. Кроме того, предполагается суще-
§41 ЗАДАЧА С СУММАРНЫМ ПОКАЗАТЕЛЕМ 133 ствование хотя бы одного допустимого процесса {и, х}, удовлетворяющего (4.1), (4.3). Функция Лагранжа для рассматриваемой задачи имеет вид N-1 F(u,x, p) = $>(x(N)) + ^f0(x(k),u(k),k) + k=0 N-1 + 2 (p(k+ 1),f(x(k),u(k),k)-x(k+ 1)). (4.4) A=0 Она определенна в Q (и) X& (x) XQ (p), где Q(u)XQ(*) задается неравенствами (4.1), Q(p)—прямое произве- дение пространства En. Двойственные задачи 2Р и 2D полностью аналогич- ны задачам 1Р и ID: Задача 2Р: шахф (и, х) = max min.F(«, х, р) = сиР. (4.5) и,х р Задача 2D: min гр (р) = min max F (и, х, р) = сор, (4.6) Р Р utx где функция F(u, х, р) определена из (4.4). Так же, как и в § 1, можно показать, что задача 2Р эквивалентна исходной, а оптимальное значение функ- ционала сор двойственной задачи всегда не меньше оп- тимального значения функционала соР прямой задачи: /* = (Dp (Dp. Теорема 4.1. Пусть выполнены следующие условия: 1. Множества Rh(k = 0, ..., N), выделяемые неравен- ствами (4.1), замкнуты, ограничены и выпуклы. 2. Уравнения движения линейны и имеют вид (2.2). 3. Существует хотя бы один процесс {и, х}, удовлет- воряющий (4.4), для которого gj (k,u(k),x (£)) > 0 (/= 1, ..., tn (&); k = 0, ..., N— 1). 4. ф(х) и /0(х, и, k) (k = 0, 1, . . ., N — 1) — выпуклые вверх функции. При этих условиях справедливо равенство (dP=(dD= а функция Лагранжа (4.4) имеет седловую точку На решении {и*, х*, р*} двойственных задач 2Р и 2D.
134 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V Доказательство этих утверждений аналогично дока- зательству теорем 2.2, 3.1. Очевидно, они останутся вер- ными и для частного случая ограничений (1.1а), (1.2а). Отметим, что замечания, сделанные в конце § 3, справедливы и для задачи 2. § 5. Достаточные условия оптимальности Полученные в §§ 3, 4 соотношения позволяют сфор- мулировать простые достаточные условия оптимально- сти. Рассмотрим для определенности задачу 1 (см. (1.1) — (1.4)). Введем функции Gk(p(k+V), p(k), x(k), u(k)) = = Hk(p(k+V), x(k), u(k))-(p(k), x(k)) (5.1) (k=0, . . . , 7V-1), где Hk — функция Гамильтона: H(p(k+\), x(k), «(£)) = (pOM-l), f(x(k), u(k), k)). При k = N G„(P(N), x(N))^(x(N))-(p(N), x(N)). (5.2) С помощью функций Gk(k=0, . . . , N) преобразуем функцию Лагранжа (1.5) к виду: F {и, х, р) = Ф (х (N) - (р (АО, х (АО) + + 21 [(Р (k + 1) ,f (X (k) , и (k), k)) - (p (k) , X (k))] = k=Q N—i = Gn(p(N),x(N))+ 2 Gk(p(k + l),p(k),x(k),u(k)). Такое представление функции Лагранжа будем на- зывать двойственным, в отличие от прямого (1.5). Теорема 5.1. Пусть существуют такие р*(А) (& = = 0, . . . , Af), не все равные нулю, и такие (k=^ = 0, . . . , N—1), х*(£) (& = 0, . . . , Af), удовлетворяю-
§61 двойственная задача управления 135 щие ограничениям (1.1), (1.2) и уравнениям движения (1.4), что max max Gk (р* (6 4- 1), р* (6), х (k), и (k)) = x(h)^Xk = Gk (p* (k + 1), p* (k), x* (k), u* (k)) (5.4) (6 = 0,1 , ...,N -1), max G(p*(/V),xW)) = G(p*^),x*W). (5.5) x(N)^Xpf. Тогда процесс {u*, x*} оптимальный. Теорема 5.5 следует из левой части неравенства (3.2) и утверждения теоремы 3.1. Ее же можно доказать не- посредственно, просуммировав неравенства, следующие из (5.4) и (5.5) по 6 = 0, . . . , Af, и использовав уравне- ния движения (1.4). § 6. Двойственная задача управления В этом параграфе будет продолжено изучение двой- ственной задачи \D. Прежде всего, используя представ- ление функции Лагранжа в виде (5.3), задачу ID мож- но переформулировать в следующем виде. Задача 1£>а. Найти последовательность р, удов- летворяющую условиям max Hk (р (6 + 1), х (6), и (6)) = u(k)&uk =Hk(p(k+ 1), x(k), u*(k,p(k-\-1), x(&))) = = HZ(p(fe+l),x(ft)), (6.1) & + 1>> x ~ (P x W)1 = = GZ(p(fc+ 1), p(k)) (k = 0, 1, ..., N — 1), (6.2) ^(x(N))-(p(N), x(N))] =G*n(P(N)) (6.3) x(N)^Xn и минимизирующую функционал * N—i * фкр, = СЛ (р(ДП)_ Gk(p(k+ll p(k)). (6.4) h=0
136 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V Задача 1/)а и исходная задача 1 образуют пару двойственных задач, точно так же, как и задачи 1Р и 1D. При этом если выполнены условия теоремы 2.2, то существует такая оптимальная последовательность р*, что J* = J(u*, х*) =ф(р*) =coD. Рассмотрим теперь случай отсутствия ограничений па переменные состояния x(k). Будем предполагать, кроме того, что функции f(x, и) и Ф(х) дифференцируе- мы по своим переменным. Перепишем равенства (6.1), (6.2) следующим обра- зом: max max [Hk (р (/г + 1), х (6) и, (А)) — (р (&), х (&))] = u(k)&Jk x(k) = G*h(p(k + 1), p(k)) (fc = 0, 1, ..., N — 1), (6.5) max [Ф (x (N)) - (p (TV), x (N))] = G*N (p (TV)). x(N) Пусть теперь {p*, x*, u*} — оптимальное решение задачи IDa. Фиксируя в (6.5) u(k)=u*(k), p(k) = =p*(k), получим, что для выполнения равенства (6.5) необходимо, чтобы max Hk + 1), x*(k), и (k)) — = Hk(p*(k+l),x*(k), u*(£)), (6.6) = p.№ + 1) (6.7) (k = 0, ..., TV- 1). Кроме того, из (6.5) при k=N следует, что = (6.8) Таким образом, приходим к следующему утверж- дению. Теорема 6.1. Для того чтобы процесс {и*, х*, р*} был оптимальным, необходимо, чтобы выполнялись ус~ ловия (6.6) — (6.8).
ДВОЙСТВЕННАЯ ЗАДАЧА УПРАВЛЕНИЯ 137 § 6] Заметим, что здесь не использовалось соотношение ^(р*) = mini|) (р), где ф(р) определено из (6.4). р Если предположить, что функция ф(р) дифференци- руема, то из условия = 0(& = 0, ...,?/) получим, что на оптимальном процессе двойственной задачи должны выполняться уравнения движения х*(^+1) =f(x*(^), и* (k), k) (6 = 0, . . . , Af-1). (6.9) Пусть теперь исходная задача 1 такова, что выполне- но соотношение двойственности (Ор=сор, (6.10) т. е. функция Лагранжа на оптимальном решении {zz*, х*, р*} пары двойственных задач имеет седловую точку. В этом случае из § 2 следует, что maxF(zz, х, р*) = F(u*, х*, р*), (6.11) И, X minF(zz*, х*, р) = F(zz*, х*,р*). (6.12) р Предполагая по-прежнему дифференцируемость фун- кций Ф(х), /(х, и), из (6.11), (6.12) легко получить, что условия (6.6) — (6.9) необходимы, чтобы процесс {zz*, х*, р*} был седловой точкой функции Лагранжа F(zz, х, р). Эти же условия представляют собой не что иное, как принцид максимума для дискретных систем (см. § 4.2). В то же время, если {zz*, х*, р*}—седло- вая точка функции Лагранжа, то, как следует из § 3, {zz*, х*}—решение прямой задачи, а р*— решение двойственной. Таким образом, принцип максимума (6.6) — (6.9) Дает необходимые условия оптимальности для задач IP, ID и 1PD в случае, если эти задачи связаны соот- ношением двойственности (6.10), либо в случае, если функция ф(р) дифференцируема, а для исходной задачи справедлив принцип максимума (теоре- ма (4.2.1). Если теперь потребовать выполненными условия 1—4 теоремы 2.2, то в этом случае из теоремы 2.2 полу- чим, что оптимальные решения прямой и двойственной
138 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V задачи совпадают, а из теоремы 4.6.1—что для прямой задачи принцип максимума дает и достаточные условия оптимальности. Таким образом, окончательно получим Теорема 6.2. Пусть выполнены условия одноэкс- тремальности и регулярности § 2, и пусть ограничения на переменные состояния X (k) отсутствуют. Тогда для того, чтобы процесс {и*, %*, р*} был сед- ловой точкой функции Лагранжа (1.5), необходимо и достаточно, чтобы для этого процесса был справедлив принцип максимума, т. е. чтобы выполнялись соотноше- ния (6.6) — (6.9). § 7. Учет ограничений В §§ 1—4 были установлены соотношения между двойственными задачами PhD. Было показано, что оп- тимальное значение функционала прямой задачи всегда не превосходит оптимального значения двойственной задачи; в случае же одноэкстремальности исходной за- дачи оптимальные значения функционалов пары двойст- венных задач совпадают. В этой связи остановимся кратко на одной общей ин- терпретации функции Лагранжа и переходе к двойствен- ной задаче. Рассмотрим для определенности задачу 2 § 4. В этой задаче из-за того, что переменные и и х связаны рекур- рентным соотношением (4.4), удовлетворить ограниче- ниям (4.1) и (4.2) трудно (т. е. нахождение допустимого процесса, удовлетворяющего ограничениям (4.1), (4.2), (4.4), является самостоятельной задачей). Введение функции Лагранжа позволило перейти к двойственной задаче 2Z), в которой уже не предполага- ются выполненными уравнения движения (4.4). «Степень» выполнения этих соотношений на каждом шаге оценива- ется множителями Лагранжа р(&+1); при этом, в слу- чае одноэкстремальности исходной задачи, оптимальное решение двойственной задачи таково, что на нем урав- нения движения выполняются уже точно. Таким обра- N—1 зом, выражение 2 (р (^ + 1), /(х(&), и (&), k) — x(k +1)) h=0 представляет собой некоторый «штраф» за нарушение
§ 7] УЧЕТ ОГРАНИЧЕНИЙ ‘ 139 уравнений движения, который минимизируется при ре- шении двойственной задачи. Если же требуется дополнительно оценить и степень влияния ограничений на переменные состояния типа (4.1), (4.2), то для этого необходимо ввести соответству- ющие множители Лагранжа Х(£). В этом случае соот- ношения двойственности получают более симметричную форму. Именно, рассмотрим задачу 2 с ограничениями gj (x(fe), u(k), fe) > О (7=1,..., m(fe);£=0, 1, . . . , Af-l), (7.1) иг-(£)>0 (i=l, . . . , r; k = 0, 1, . . . , N-1). (7.1a) Тогда функция Лагранжа будет иметь вид F(x, w, р, X) = Ф(х(Д0) + и (6), k) + fe=0 TV—1 + 2 (p(^ + l)J(x(^),u(fe),^)-x^ + l)) + N—1 + V (X(A:),gWfe),r/(fe),/e)). (7.2) h=0 Здесь h(k)—множители Лагранжа для ограничений (7.1), предполагается, что А,Д&)^0 (/=1, . . . , m(k)\ /г = 0, 1, . . . , Af-l). Двойственные задачи в этом случае будут иметь вид. Задача 2Р. Найти последовательности {%*, /1*^0}, для которых max min F(x, р, X) = max ср (х, и) — сор . (7.3) х, и>0 р, %>0 х, и>0 Задача 2D. Найти последовательности {р*, для которых max max F(x, и, р, X) = min ф(р, X) = (7.4) р, Х>0 х, и>0 р>К>0 Между задачей 2 и задачей 2Р существуют следую- щие соотношения. Лемма 7.1. Пусть {%*, и*}—решение задачи 2 с ограничениями (7.1); тогда {х*, и*}—решение задачи (7.3) и J* = G)p.
140 J ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V Пусть, обратно, {х*, и*}—решение задачи (7.3), причем (р (%, и) — со. Тогда {х*, и*} — решение задачи 2 U CDp = J ' . Доказательство леммы 7.1 аналогично доказательст- ву теоремы 1.1. Кроме того, нетрудно видеть, что задачи (7.3), (4.5) также эквивалентны и сор=сор. Рассмотрим теперь задачу 2Z). Фиксируем в (7.4) оптимальные значения {р*, V}. Тогда задача max F (х, и, р*, Х*) = о)п, как видно из х,и >0 (7.2), распадается на подзадачи max[/0(x(£), u(k), k) + (/?*(&+ I), /(*(&), kY) — x(h) - (p* (fe), x (£)) + (X* (k) , g (x (&), и (k), k))] (7.5) (6 = 0, 1, ...,#-l), max [Ф (x (N)) - (p (N), x (A7)) ], (7.6) x(N) max [/Дх (k), u(k), k) + (p* (6 + 1), f (x (fe), и (k), k)) + (k)>0 (6 = 0, 1, .N- 1). (7.7) Необходимыми, а в случае выполнения условий 1—4 теоремы 4.1 и достаточными условиями оптимальности для подзадач (7.5) — (7.7) будут „* /м _ df0 (x* (k), и* (k) ,k) Г df (x* (k), и* (Й), k) 1 p W — Л1- (k\ г т дх (£) (7.8) (7.9) г ' 1 |_ дх (k) р у > дх (N) (b\ L I Г ^(X* (fe), u* (k), k) V ) 1 du (/;) r [ du (k) J z' У p* (/г + 1) + [^(Х*(УД)(Й)Л)У X* (k) = 0, (7.10) v*(k)^0, u*(A:)^0, (u*(Aj), v*{k))=Q (7.11) (й = 0, 1,..., N-l). Таким образом, можно сформулировать следующую задачу дискретного управления.
§ 7] УЧЕТ ОГРАНИЧЕНИЙ 141 Задача 20а. Найти последовательность h(k) (k = N—1, . . . , 1, 0) (управление X) и соответствую- щую этому управлению в силу уравнений движения (7.8) с граничным условием (7.9) траекторию р, удов- летворяющие ограничениям u(k), k) , [df(x(k),u(k),k)~\T 1x ---d^(k)-+ [---d^k)--J р№+ч + + [^^г^]Тx^>° (7J2) (k = N — 1, ..., 1, 0) и доставляющие показателю качества Jd ~ F(x, и, р, X), где функция F(x, и, р, X) определена из (7.2), минималь- ное значение. Задачи 2 и 2Z)a образуют пару двойственных задач управления, так же как и задачи (7.3), (7.4) или зада- чи (4.5), (4.6). Задача 2Z)a представляет собой некоторую задачу дискретного управления, с показателем качества (7.2), уравнениями движения (7.8), граничным условием (7.9) и ограничениями на переменные (7.12), причем перемен- ными управления и состояния в двойственной задаче будут, соответственно, векторы h(k) и p(k). В задаче 2Z)a присутствуют также «прямые» пере- менные %(&), и (А), как и в двойственной задаче нели- нейного программирования § 2.9. Полностью симметрич- ную форму пара двойственных задач будет иметь только в линейном случае, т. е. когда исходная прямая задача будет представлять из себя задачу линейного динамиче- ского программирования (см. подробнее § 11 этой главы). Рассмотрим теперь соотношения между двойствен- ными задачами 2Da, (7.4) и (4.6). Лемма 7.2. Пусть {р*, X*}—решение задачи 20а и выполнены условия 1—4 теоремы 4.1. Тогда {р*, X*} — решение задач (7.4), (4.6), причем Jd — -^d- Пусть, обратно, {р*, X*}—решение задачи (7.4) и ^(р, Х)<оо* Тогда {р*, X*}—решение задачи 2Ра и (4.6), причем, ио = = /о*
142 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V Доказательство леммы 7.2 аналогично доказательст- ву леммы 7.1. Наконец, соотношения между парой двойственных задач (7.3), (7.4) или 2£>а устанавливает следующая теорема. Теорема 7.1. Пусть выполнены условия 1—4 тео- ремы 4.1, и пусть {%*, u*, р*, X*}—решение пары двой- ственных задач 2, 2Da. Тогда J* = Jd, где J*—оптимальное значение функционала прямой задачи, J*d —оптимальное значение функционала (7.2) двойственной задачи. Кроме того, из лемм 7.1, 7.2 и теоремы 7.1 следуют равенства J* = (Dp = СОр = tf)D — — j D, если предположить, что условия 1—4 теоремы 4.1 вы- полнены, и неравенство (Dp (Of) в общем случае. Доказательство теоремы 7.1 аналогично доказатель- ству теоремы 2.2; при ее доказательстве можно также воспользоваться результатами теории двойственности для статических задач (§ 2.8). § 8. Условия оптимальности для задачи с ограничениями на переменные состояния Используя функцию Лагранжа (7.1), можно рас- пространить теорему Куна — Таккера (§ 2.10) на диск- ретные задачи управления и тем самым получить «двой- ственные» условия оптимальности (в отличие от «пря- мых» условий § 3.6). Итак, рассмотрим задачу 1, сформулированную в § 1 этой главы. Для нее в § 3.6 было показано, что при оп- ределенных условиях регулярности (см. § 3.6) для опти-
§ 8] ЗАДАЧИ С ОГРАНИЧЕНИЯМИ НА СОСТОЯНИЯ 143 мального управления на последнем шаге k=N—1 спра- ведливы неравенства ZuH(p*(N), х* (Af — 1), и* (N — 1), N —l)<0 (8.1) для всех 8и* (AZ— l)<=KN_x(u* (N— 1)) и удовлетво- ряющих неравенствам (аА? (Д') ’ 8х* м) > °’ (8-2) Здесь (N — 1)) —конус допустимых вари- аций по множеству UN_! в точке u*(N— 1), который вследствие условий регулярности можно записать в ви- де (см. § 2.3) KN_1(u*^-l)) = ( I/ ^g,. (N - 1, и* (N - 1)) \ = [би* (АГ - 1) _L_1----->1, бы* {N _ i)j > о,) (8.3) Векторы 6x*(AQ в (8.2) определяются из равенства Sx* (N) = D^-1) бы* (дг _ 1). (8.4) Обозначим множество векторов 8x*(N) из (8.4), для которых соответствующие би* (A/—1)gKn—i (и* (N— 1)), через MN(x* (Af)). (В § 3.6 эти множества обозначались через Мйл(х*(Ж) Так как по предположению Kn—i («* (N — 0) 1—вы- пуклый конус, то, очевидно, Mn(x*(N))—выпуклый конус. Так как, кроме того, 8UHN= (р* (N), 8x*(N)), где векторы 8x*(N) определены из (8.4), то система нера- венств (8.1) — (8.3) эквивалентна следующей задаче: max.(p*(N), 8x*(N)) (8.5) при 6x*(W)e;AMx*(A0), (8.6) !dh- (N, х* (N)) „ \ I ~ ’ 6x* W) >°> ’ <8•7)
144 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V причем оптимальное значение функционала задачи (8.5) — (8.7) равно 0, так как, очевидно, вектор д?<4(/7)=0 удовлетворяет условиям (8.6), (8.7) задачи. Введем для' ограничений (8.7) множители Лагран- жа X;(/V)^0, /е/дг(%*(7У)), и сформулируем для зада- чи (8.5), (8.7) двойственную min max (р* (N), 6%* (АО) + А у ( V) 0 (Y:*(N) L V ! d‘li (Х* W) \1 ZQ Q\ где /ge/n(x*0V)), бx:i:(^)EE7/I^(x:;:(^)). Пусть k'j (/7)—оптимальное решение задачи (8.8). Тогда из (8.8) следует, что (/71 (АО, бх* (ЛОХ о (8-9) для всех 6х*(/У)еЛТЛ-(x*(jV)), где вектор р* (N) равен „ * dht (N, х* (W)) /7! (Л/)л* (^ о- 2 ММ ’ dx{N) - • (8.Ю) Переходя от (8.9) к формулировке условий в про- странстве вариаций получим, что-при оптималь- ном управлении на последнем шаге выполнены нера- венства 6utf(pi(2V), x*(AZ- 1), u*(2V — 1), Л7—1) <0 (8.11) для всех 6w*(A/'—1)е^у_1(и*(Л/’—1)), где конус Kn—i (w* (N — 1)) задается неравенствами (8.2), а век- тор р* (77) определен из (8.10). Повторяя эти рассуждения для следующего шага k = N—2, получим, что из неравенств 6UH (p*(N— 1), x*(W—2), u*(N—2), Af—2)sg0 (8.12) при / dg. (Af-2, u*(N-2)) „ \ i • a„(«-2)-------- 8“’ (" - 2>) < 0. (8.13) /=/»-2(««W-2)),
§ 8] ЗАДАЧИ С ОГРАНИЧЕНИЯМИ НА СОСТОЯНИЯ 145 I dhi (N — 1, х* (N- 1)) „ \ - 1)------ D) > °’ /еЛу-i (х*(ЛГ-1)), dh,- (N, х* (N)) „ \ -----, 6x*(W)j>0, j<=JN (x*(W)), (8.14) (8.15) следуют неравенства 8uH(pi (N - 1), х* (N - 2), и* (N - 2), N - 2) < О для всех 6«* (N — 2)e/<N—г(“* (N — 2)), где конус /Cw_2 («* (2V — 2)) задается неравенствами (8.13), а (Л, _ = р р. т + -I 2j^(1V 1) dx(N-l) 1), 1)),— оптимальные множители Лагранжа для ограничений (8.14). Таким образом, методом математической индукции получим, что переход к двойственной задаче позволяет в условиях оптимальности теорем 3.6.2, 3.6.3 с помощью множителей Лагранжа /еД (%*(£)), исклю- чить неравенства (3.6.17), определяя теперь сопряжен- ные переменные из новой сопряженной системы вида Р /М _ Г д/ (х (&), и (k) , k) ? /у [ 1 \ I PiW-[-------дДк}----J («+!) + s(fe) dh4 (k, х (k)) + .gM*) ’ ' (k = N-l, ...,0) (8.16) с граничным условием D SW (mdh^N’ /о ln PM - -d-x~(N) + 2X;(")—dxW (»-17) Здесь Xj(£) ^0, hj(k, x(k)) ^=0, Kj{k) hj(k, x(k))=0 (j=l, . . . , s(k)). (8.18) (Очевидно, если выполнены условия (8.18), то Xj(^)^O Для j^Jk(x(k)) и Л/(£)=0для остальных /). 1® А. И. Пропой
146 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. у Отметим, что эти же соотношения можно получить и без требований существования ненулевых специальных вариаций. Для этого достаточно перейти от задачи дина' мического линейного программирования, которая следует из условий оптимальности теоремы 3.6.1, к двойственной ей. Это доказательство приведено в § 11. Собирая вместе, для удобства ссылок, полученные соотношения и условия, при которых они выполнены, приходим к следующим не- обходимым условиям оптимальности. Теорема 8.1. Пусть и* — оптимальное управление в задаче 1 § 1 с ограничениями (1.2), (1.1а). Будем счи- тать, что: 1) функции Ф(х), f(x, и, k), h(k, х) непрерывны и имеют непрерывные частные производные по своим пе- ременным при каждом 6=0, 1,..., N\ 2) для каждого u(k)^Uh (&=0, 1,..., Af— 1) кону- сы допустимых вариаций Kk(u(k)) (см. § 2.3) выпуклы и имеют внутренние точки; 3) для каждого x(k)^Xh (k=0, градиен- ты активных ограничений 9hi^k}} их I линейно независимы. Тогда на оптимальном управлении справедливы не- равенства 8иН(ри (£+1), x*(k), u*(k),k)^0 (8.19) для всех 8u*(k)^Kh(u*(k)) (£=0, 1, ..., УУ—1), где оптимальные значения переменных {p*(k)} находятся из сопряженной системы r L dx^ J W (8.20) (fc=V-l, . . . , 1, 0), с граничным условием n*(N\_ Ф(х*(Л/)) \dh(N,x*(NmT n p "ЭГ(У)~ + [ W)—J A /
§ S] ЗАДАЧИ С ОГРАНИЧЕНИЯМИ НА СОСТОЯНИЯ 147 причем оптимальные значения {А>*(&)} удовлетворяют условиям дополняющей нежесткости %*(&)> °, ^(&, (Х*(£), h(k, х* (/?))) =0 (6 = 0, 1,..., N). (8.22) о dh _ Г Здесь дх (ft) дх. (Z = 1, ..., щ j = 1, ..., s (&)) — матрицы первых производных размера s(k) Хщ у сопря- женных переменных p(k) нижний индекс «1», который использовался в (8.16), (8.17) для того, чтобы отличить эту последнюю сопряженную систему от (3.1.1), (3.1.2), опущен. Очевидно, если нет ограничений на переменные со- стояния, тогда все %Д&)=0 (/=1, ..., s(k)\ k = 0, 1,..., N) и теорема 8.1 переходит в «обычную» форму- лировку необходимых условий оптимальности (теорема 3.2.1), а сопряженная система (8.20), (8.21) переходит в сопряженную систему (3.1.1), (3.2.1). Следствие 8.1. Пусть теперь в задаче 1 ограни- чения на переменные управления задаются в виде (1.2а), причем, помимо условий 1.3 теоремы 8.1, справедливы условия: 1) функции gj(k, u(k)) непрерывно дифференцируе- мы при всех /= 1,..., m(k); k = 0, 1,..., N— 1; 2) градиенты активных ограничений линейно независимы. Тогда в теореме 8.1 неравенство (8.19) должно вы- полняться при всех 6гг*(&), удовлетворяющих не- равенствам 98i аХ)-"’ S“* °’А (w*(/?))’ (8’23) Это утверждение, частным случаем которого является теорема 3.2.2, непосредственно следует из теоремы 8.1, так как при сделанных предположениях конус Kk(u*(ky) может задаваться системой неравенств (8.23). 10*
148 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. v § 9. Принцип максимума для задач с ограничениями на переменные состояния Заметим, что неравенство (8.19) в пространстве 6А\ имеет вид (р*(^ + Г), 8x*(k+1)) ^0 (9.1) для всех бх* (&+1) (х*(&+1)), где конус Alfe+i (x*(Z?+l)) определен из соотношений бх* (k + 1) = 6U* (k) <= Mk+l (X* (k + 1)), если (см. также §§ 3.3, 3.6). Допустим, что множества /?i(x)=f(x, t/, k) выпуклы при любых х и й = 0, 1,..., A/ — 1. Тогда из (8.20) следу- ет (см. доказательство теоремы 4.2.1), что в оптимальной точке х*(&+1) справедливо равенство max (р* (k + 1), х (k + 1)) = (р* (k + 1), х* (k + 1)), т. e. приходим к принципу максимума для дискретных систем с ограничениями на переменные управления. Именно, справедлива Теорема 9.1. Пусть и*— оптимальное управление в задаче 1 § 1, и пусть множества f(x, U, k) выпуклы при любых х и £ = 0, 1,..., А/ — 1. Тогда на оптимальном управлении справедливы ра- венства max Н(р* (k + 1), х* (k),u{k),k) = = H(p*(k+ l),x*(£), u*(fe), k) (k = 0, .. . ,Af - 1), где оптимальные значения p* (k) удовлетворяют усло- виям (8.20), (8.21), а оптимальные значения Х*(&) удовлетворяют условиям дополняющей нежесткости (8.22).
в Ю1 ТЕОРЕМА КУНА-ТАККЕРА 149 § 10. Теорема Куна — Таккера для задач управления При выводе теоремы 8.1 множители Лагранжа k(k) вводились только для ограничений на переменные состо- яния (1.1а), ограничения (1.2) (или (1.2а)) оставались без изменения как в формулировке «прямых» (теоре- ма 3.6.1), так и «двойственных» (теорема 8.1) условий оптимальности. Введем теперь множители Лагранжа (k), jsJк(и*(&)), Для ограничений (1.2а) и перейдем на (N— Г)-м шаге от условий оптимальности (8.1) — (8.3) к следующим: \df (х* (1У-1),»*(1У-1),1У-1)1г „* , L (АС — 1)J Р XI..* да. (N — 1, и* (N - 1)) + s^-i>-/ = °. оо-» где p*(N) удовлетворяет условиям (8.21). Заметим, что переход от (8.1) — (8.3) к (10.1) с по- мощью пары двойственных задач типа (8.5) — (8.7) и (8.8) здесь не совсем корректен, так как двойственная задача (типа (8.8)) имеет неограниченное решение (функция Лагранжа линейна, а на переменные 8x*(N) теперь уже не накладывается каких-либо условий); поэ- тому нужно использовать пару двойственных задач ли- нейного программирования типа (2.10.5), (2.10.6) — (2.10.7), (2.10.8). Осуществляя подобный переход на каждом шаге k (k=N—1,..., 0), получим необходимые условия опти- мальности в следующей форме (см. также § 11). 6 Теорема 10.1. Пусть выполнены условия теоремы Тогда следуюище условия необходимы для того, что- бы управление и* было оптимальным в задаче 1 § 1: х*(£Д-1) = u*(k), k), х(0) =а, (10.2) (10.3) <104)
150 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V [df(x*{k^{k)'k)]T Р* + 1) + И* W = 0- (Ю.5) (%*(£), h(k, х*(6)))=0, V(fe)>0, h(k, х*(6))>0, g(k, и*(А)))=0, |i*(£)>0, g(k, и*(*))>0 (k=0,..., N— 1). (10.6) Здесь м*)={М*), ...,мт dh (k) _ Г dhj (fe) ~ dx dx{ ’ h(k)=h(k, x(k)), ji(fe) = {Ц1 (k), . dg(k) _ Г dgt (fe) ~ du du * g(£)=g(£, U(k)) P-m(A) (ty}, (i=l, ..n\ <7=1, ..., r; /= 1, ..., s(£); f=l,..m(&)). В теореме 10.1 соотношения (10.2) — (10.4) определя- ют динамику процесса, а соотношения (10.5), (10.6) являются необходимыми условиями Куна — Таккера (см. § 2.10) максимума функции Н(р(&+1), x(k), u(k), /г) при ограничениях (1.1а), (1.2а). Таким образом, теорема 10.1 представляет собой распространение теоремы Куна — Таккера (в ее диффе- ренциальной форме) на задачи дискретного управления. Ее можно было бы также получить, применяя непо- средственно теорему 2.10.1 к задаче дискретного управ- ления 1 (если бы только теорема 2.10.1 была получена для случая смешанных ограничений типа равенств и не- равенств; заметим, что такое обобщение справедливо). Можно также показать, что условия теоремы 10.1 необходимы для того, чтобы процесс {и, х, рД^О, цЗ^О} был седловой точкой функции Лагранжа вида F (и, х,р , 2v, ц) -- N—1 = Ф(х(М))- 2(р(6 + 1),х(£+ 1)- f(x(k),u(k),k)) + fe=0 N N-1 + 2(Х(^,Л(Л,х(^))) + 1](|х(Л),г(А!,и(Л))). (10.2) fe=0 fe=0
$ 10] ТЕОРЕМА КУНА—ТАККЕРА 151 Пусть теперь задача 1 удовлетворяет условиям одно- экстремальности и регулярности 1—4 § 2. Тогда нетруд- но показать, что условия теоремы 9.1 или 10.1 будут и достаточными условиями оптимальности управления и. В заключение рассмотрим задачу с суммарным пока- зателем качества и совместными ограничениями (4.1) на переменные состояния и управления (задача 2 § 4). Пользуясь рассуждениями, аналогичными доказательст- ву теоремы 10.1, можно показать, что справедливы сле- дующие необходимые условия оптимальности для этой задачи. Теорема 10.2. Пусть и* — оптимальное управле- ние в задаче 2 § 4, х* — соответствующая траектория, и пусть векторы dgj (** j<= Jk(x*(k),u*(k)), dx (k) dg. (x* (k), a* (k), k) j<= Jk(x* (k), и* (k)), ди (k) где Jh(x*(k}, u*(k)) = {j\gi(x*(k), и* (k), k)=Q, j=l, ..линейно независимы. Тогда существуют такие векторы p*(k) и Х*(/г), что k), x(0)=a, p* (k) = __ df0 (X* (k) , U* (k) , k) [df (X* (fe) , U* (k) , fe) ] T ~ dx (k) dx(k) j v<- , pg(x* (k),k) у ' [ dx (k) j ЗФ (x* (;V)> p* (W) = дх (tv) > df^x* (k),u* (fe),fe) PZ (X* (fe), И* T n* lb _L du (fe) ди (k) н ч \ dg (х* (k), и* (k), k) |T (A) = 0 du (fe) J (Х*(/г), g(x*(fc), Л))=0 (fc=0, 1.........N— 1).
152 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V § 11. Задачи линейного динамического программирования Выше были получены соотношения двойственности и условия оптимальности для задач управления, в которых пока не использовалась линейность уравнений движения (а лишь выпуклость соответствующих множеств дости- жимости). Это, по существу, теория двойственности для нелинейных систем. Использование же линейности урав- нений движения позволяет дать теории двойственности в управлении более завершенный и симметричный вид. Особенно симметричную форму приобретают соот- ношения двойственности для задач линейного динами- ческого программирования (см. § 1.5). Рассмотрим сле- дующую задачу. Задача Р. Найти управление и и траекторию х, удовлетворяющие уравнениям движения x(k+l)=A(k)x(k)+B(k)u(k)-s(k), (11.1) х(0)=а (А=0, 1, ..., N—1) (И.2) и ограничениям С(k)х(k) +D (k) и (k) (k), (11.3) u(k)^0 (k = 0, 1, ..., Af-l), (11.4) для которых показатель качества N—i JP = (a(N), x(N)) + l][(a(fe),xO + (6(fe),«(fe))] (11.5) fe=0 принимает максимальное значение. Для этой задачи составим функцию Лагранжа F р, X) = N—1 = (a (W), х (#)) + 2 [(a (k), х (б)) + (b (k), и (£))] + k-= о + (k + 1), А (£) х (fe) + В (k) u(k)- s (k) - x (k + 1))+ fe=0 N—1 +(p (0), a - X (0)) + s (k), h (k) - fc=0 — C (k) x (k) — D (k) и (kJ). (11.6)
ЛИНЕЙНОЕ ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ 153 § Тогда прямая задача запишется в виде Jp = max min F (х, и, р, X), (11.7) х 0 р О а двойственная J*d = min max F (х, и, р, X). (11.8) В силу линейности исходной задачи двойственную задачу (11.8) можно также сформулировать в виде не- которой задачи оптимального управления, исключив пол- ностью «прямые» переменные х и и (в отличие от нели- нейного случая). Для этого перепишем функцию Лаг- ранжа в «двойственном» виде (ср. § 5): F(p, К х, u) = (a(N) —p(N), %(Ar)) + N— 1 + 2 (p(k+i)A(k)-X(k)C{k) + a(k)-p(k^x^ + fe=0 N—1 + 2 (p(k+ l)B(fe)-)<(fe)D(fe) + &(fe),u(feb fe=0 N—1 - 2 [(p(^+ l),s(fe)) — (X(fe)^(^))] + (p(0),a). (11.9) k=Q Из (11.8) и (H.9) видно, что максимизация F по u(k)^0 приводит к условиям (p(k+i) В(/г)-А(/?)Д(й)+&(/г), u(k))=0, если v(k)——BT(k)p(k+l)+DT(k)tk(k)—b(k)'^O и (v(k), u(k)) = oo в противном случае. Максимизация F по x(k) (Z? = 0, 1, ..., N— 1) приво- дит к условиям (р(й+1)Л(^)-^(й)С(й)+^(^)-/7(^),х(й))=0, если q(k)=AT(k)p(k+l)-CT(k)K(k)-[-ci(k)-p(k)=O и (q(k), x(k)) = oo в противном случае. Максимизация F по x(Af) дает (a(N) — p(N), x(N)) = ==0, если q(N) =p(N) — a(N) =0 и (<z(Af), x(N)) = oo в противном случае.
154 двойственность в управлении [ГЛ. V Так как в задаче D требуется найти такие р и которые минимизируют max F, то из этих соотношений видно, что переменные р и должны быть таковы, что и(^)^0, 9(&)=0. Таким образом, двойственную задачу можно сформу- лировать также в виде задачи оптимального управления, полностью симметричной прямой задаче Р. Задача D. Найти управление X и траекторию р, удовлетворяющие двойственным уравнениям движения p(k)=AT(k)p(k+l)-CT(k)k(k)+a(k), (11.10) p(N)=a(N) (k=K-l, ..., 1, 0) (11.11) и ограничениям -BT(k)p(k+\)+DT(k)K(k)^b(k) (6 = 0, 1, Af—1), (H.12) %(£)>0 (£=0, 1, ..., Af-l), (11.13) для которых показатель качества N-l JB=(p(0),a)- 2 [(р (Jfe + 1), s(A;)) — h(k))] (11.14) h=0 принимает минимальное значение. В этой задаче управляющими воздействиями являют- ся множители Лагранжа Х(&), переменные p(k) опреде- ляют состояние двойственной системы (11.10) на шаге k. Так как исходная задача Р может быть сформулиро- вана в виде некоторой (статической) задачи линейного программирования, то, используя результаты теории двойственности для этой задачи, получим следующую теорему двойственности для задач линейного динамиче- ского программирования. Теорема 11.1. Если для одной из пары двойствен- ных задач Р и D существует оптимальное управление, то и другая разрешима. При этом для любых оптималь- ных управлений и*, X* задач Р и D имеет место равен- ство J*P = J*D, где J*p , J*d вычисляются, соответственно, из (11.1), (11.2), (11.5) при и=и* и из (11.10), (11.11), (11.14) при X=V. Отметим, что теорему 11.1 можно также получить непосредственно из теоремы 4.1.
ЛИНЕЙНОЕ ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ 155 § ill В теореме 11.1, таким образом, утверждается, что функция Лагранжа (11.6) (или (11.9)) имеет седловую точку на решении '{u*, х*, р\ V} пары двойственных задач PhD. Используя обобщение теоремы Куна — Так- кера на динамические задачи (§ 10), получим следую- щие необходимые и достаточные условия оптимальности решения пары двойственных задач Р и D, Для пары двойственных задач (11.1) — (11.5), (11.10) — (11.14) можно, используя теорему 10.2, полу- чить совместные условия оптимальности. Теорема 11.2. Для того чтобы процесс {х*, и*^0}, {/?*, Х*^0} был оптимальным решением пары двойст- венных задач (11.1) — (Н.5), (11.10) — (П-14) (или, что то же самое, образовывал седловую точку функции Лаг- ранжа (11.6) или (11.9)), необходимо и достаточно вы- полнения следующих условий: х* (k + 1) = A (k) х* (k) + В (k) и* (k)—s (k), (11.1) x(0)=a, (11.2) p* (k) =AT (k) p* (£+!)- Cr (k) X* (k) +a (k),(11.10) p*(^)=a(^), (11.11) (X*(6),p*(£))=0, X*(6)>0, g*(£)>0, (11Л5) (k) = h(k)-C (k) x* (k)—D (k) u* (fe), (11.16) (u*(£), u*(£))=0, u*(£)>0, fl*(£)>0, (H.17) v* (k) =—BT(k)p* (k-^\)-\-DT (k)K* (k)-—b (k] (11.18) (£ = 0, 1, ..., У-1). Из этих совместных условий нетрудно получить ус- ловия оптимальности отдельно для задач PhD. Именно, справедливы следующие теоремы. Теорема 11.3 (Принцип максимума для прямой задачи Р). Для того чтобы управление и соответствующая ему в силу прямых уравнений движения (11.1), (Н.2) траектория х* были оптималь- ными в задаче Р, необходимо и достаточно существова- ние таких Х*^0 и р*, удовлетворяющих сопряженной системе (11.10), (11.11), для которых справедливо ра- венство НР(р* (k + 1), u(k)) = НР (р* (k + !),«*(£)), (11-19)
156 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. у где максимум берется по всем u(k), удовлетворяющие ограничениям (11.3), (11.4), а %*(fe) являются оптималь- ными двойственными переменными в задаче линейного программирования (11.19), (11.3), (11.4). Здесь функция Гамильтона НР (р (k+1), и (fe)) = (fe (fe), и (fe)) + (р (fe+1), В (fe) и (fe)). (11.20) Заметим, что эту теорему можно также получить, применяя теорему 9.1 для задачи Р. Теорема 11.4 (Принцип минимума для двойственной задачи D). Для того чтобы управ- ление и соответствующая ему траектория р* двой- ственной системы (11.10), (11.11) были оптимальными, необходимо и достаточно существование таких и*^0 и х*, удовлетворяющих прямой системе (11.1), (П.2), для которых справедливо равенство min HD (%* (fe), X(fe)) = HD (%* (fe), X* (fe)), (11,. 21) X(fc) где максимум берется no всем X(fe), удовлетворяющим ограничениям (11.12), (11.13), a*u*(k) являются опти- мальными двойственными переменными в задаче линей- ного программирования (11.21), (11.12), (11.13). Здесь функция Гамильтона имеет вид //n(x(fe)A(fe))= — (X(fe), C(fe) x(fe)) + (X(fe),fe(fe)). (11.22) Заметим, что теорему 11.3 можно также получить, если применить теорему 11.2 к двойственной задаче Р. Получим еще одно важное соотношение между двой- ственными задачами PhD. Для этого рассмотрим ска- лярное произведение (р(Н-1),х(М-1)) = = (р (6+1), A (k) х (й) (ft) и (k) — s (k)) = = (р (kA-1) A (k), х (k)) + (р (k+1), В (k) u(k))~ -(р (k +1), s (k)) = (p (k) +k(k) C(k)—a (k), x (k)) + + (p(k+l),B(k)u(k))-(p(k+l),s(k)) = = (p(k), x(k)) + (k(k), C(k)x(k))A (a(k), x(k)) + + (p(k+l),B(k)u(k))-(p(k+l),s(k)). (11.23)
ЛИНЕЙНОЕ ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ 157 Здесь последовательно были использованы прямые и двойственные уравнения движения (11.1), (11.10). Просуммируем левую и правую части равенств (11.23) по & = 0, 1, ..., N— 1. В результате получим (a(N),x(N))-(p(Q),a) = N-i N—i = - 2. (a(k), x (£)) + 2 (p (k + 1), В (k) и (£)) + fc=0 /V—1 N—1 + 2 (K(k),C(k)x(k))- 2 (p(& +1),з(£)). (11.24) /i=0 h=0 Здесь были использованы равенства (11.2), (11.11). Прибавим к обеим частям равенства (11.24) слага- N—1 емое [(&(&),«(£)) +(X(£),/i(&))]. Используя опреде- fe=0 ления (11.20), (11.22), (11.9) и (11.14), из (11.20) по- лучим N—1 , JP-JD = 2 [Яр(р(&+1),м(^)-Яв(%(^),х(й))]. (11.25) /1=0 Из равенства (11.25) вытекает ряд следствий, опре- деляющих соотношение между показателями качества и функциями Гамильтона прямой и двойственной задач. Одно из них, вследствие его важности, сформулируем в виде теоремы. Теорема 11.5 (Локальная теорема двой- ственности). Если {х, и*^0}—оптимальное реше- ние прямой задачи, а {р, —оптимальное реше- ние двойственной, то ЯР(р*(/е-|-1), а*(£))=Яв(Х*(£), %*(£)) (11.26) (£=0, 1, . . ., Я-1). Обратно, если для каких-то {%*, ^*^0}, {р*, Х*^0}, удовлетворяющих, соответственно, уравнениям движения (Н.1), (11.13), (11.10), (11.11) и ограничениям (11.3), (Н.4), (11.12), (11.13) прямой и двойственных задач, верно равенство (11.26), то {х*, и*}, {р*, Z*} являются Решением пары двойственных задач Р и D.
158 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ 1ГЛ. у Доказательство. Последовательно из (11.20) (11.3), (11.13), (11.12), (11.4), (11.22) имеем HP=(b(k), u(k)) + (p(k+l), B(k)u(k))^ ^(b(k),u(k)) + (p(k+i),B(k)u(k)) + (K(k),h(k)~ — C(k)x(k)—D(k)u(k))=—(‘k(k), С(й), x(k)) + + U(£), h(k)) + (p(k+l)B(k)— K(k)D(k)+b(k), u(k))^ ^-(X(fe), C(fe)x(fe))4-(X(fe), h(k)) = HD. Следовательно, всегда HP(p(k+l)t x(k)). (11.27) Так как на оптимальном процессе Jp = J*D в силу теоремы 11.1, то из (11.21) и (11.27) получаем (11.22). Таким образом, решение пары двойственных задач Р и D динамического линейного программирования сво- дится к решению пары двойственных задач статического линейного программирования max [(р* (k + 1), В (k) и (&)) + (Ь (&), и (&))], < С (£) %* (k) + D (k) u(k)^h(k), (11.28) и (й)>0; min [— (X (fe), С (fe) х* (fe)) + (X (k), h (£))], • - BT (k) p* (k + 1) + DT (fe) X (fc) > b (£), (11.29) X(£)>0, связанных между собой прямыми и двойственными уравнениями движения (11.1), (И.2), (11.10), (11.11) и соотношениями двойственности (11.22). Полученные соотношения двойственности позволяют строить эффективные алгоритмы решения задач линей- ного динамического программирования. В этих алгорит- мах можно осуществлять приближения к оптимуму как на основе решения только прямой или только двойственной задачи, так и с помощью одновременного использования условий оптимальности теорем 11.2, 11.3 или 11.1. Большой интерес здесь также представляют конечные алгоритмы, обеспечивающие сходимость к оптимальному решению — как и в статическом случае — за конечное число шагов. При этом равенство (11.22) может слу-
J и ЛИНЕЙНОЕ ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ 159 жить удобным критерием для оценки близости прибли- жения к оптимуму. Однако рассмотрение этих алгорит- мов выходит за рамки книги. Кратко остановимся на игровой интерпретации полу- ченных соотношений двойственности. Рассмотрим анта- гонистическую игру двух лиц, в которой стратегией пер- вого игрока являются последовательности х и и^О, а второго — последовательности р, Х^О. Платой игры является функция Лагранжа (11.6). Игрок I, выбирая х и z/^О, старается получить как можно большее значение функции Лагранжа. Однако если при этом он не будет следовать уравнениям дви- жения (11.1), (Н.2) или нарушать ограничения на «ре- сурсы» (11.3), то игрок II может «наказать» его, назна- чив за нарушение этих условий как угодно большие «штрафы». Таким образом, наилучший способ действия игрока I состоит в максимизации (11.5) при выполнении ограничений (11.1)— (11.4). С другой стороны, если игрок II, выбирая «штрафы» р и Х^О, не будет следовать «динамике цен» (11.10), (11.11) и ограничениям (11.12), то игрок I может как угодно много выиграть у игрока II. В заключение этого параграфа установим связь меж- ду условиями оптимальности для нелинейной задачи управления с фазовыми ограничениями, сформулирован- ные в теоремах 3.6.1 и 8.1. Условия оптимальности теоремы 3.6.1 могут быть, очевидно (ср. § 8), сформулированы в виде следующей задачи линейного динамического программирования: N— 1 max-2 (р*(М V), В* (k) би* (k)) = 0, (11.15) h=0 fix* (£+1) = А * (k) бх* (/?) -(-В* (k) би* (/г), (11,1 (>.) ( dSj ' 8и* Н > °’ > е 01 17> (6 = 0,1,...,#-1), dhj {k, x* (fe)) dx(k) , 6x* (6) > 0, уе/л(х*(6)) (11.18) (k = 1,..N),
160 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. V где матрицы Л* (fe), B*(k) определены из (3.6.12) (3.6.13). Вводя множители Лагранжа Xj(fe)^O, (k)) для ограничений (11.18) и переходя к двойственной за’ даче, получим условия оптимальности теоремы 8.1 (точ- нее, следствия 8.1). Вводя, кроме того, множители Лаг- ранжа pj(fe)^O, (fe)), для ограничений (11.17) и переходя опять к двойственной задаче, получим усло- вия оптимальности теоремы 10.1. § 12. Задачи квадратичного динамического программирования В заключение этой главы приведем соотношения двойственности для задач квадратичного динамического программирования. Рассмотрим задачу (см. § 1.5). Задача Р. Найти управление и и траекторию х, удовлетворяющие уравнениям движения x(fe+l)=X(fe)x(fe)4-B(fe)u(fe)-s(fe) (12.1) (fe = 0, 1, . . . , N— 1), x(0)=a (12.2) и ограничениям C(fe)x(fe)+Z)(fe)u(fe)^fe(fe), (12.3) u(fe)>0 (fe = 0, 1, ..., Af-l), (12.4) для которых показатель качества jP e^.(x(N).QW^n)) + N-1r 1 1 + 20 [4 (* (*)> Q (*)х (*)) + («(Ь), X (fe))] + N-l Г 1 1 + 2j [-Y(u(k),R(k)u(k))-h(b(k),u(k))\ (12.5) принимает максимальное значение. Матрицы Q(fe) и R(k) считаются симметричными и неположительно определенными.
« 121 КВАДРАТИЧНОЕ ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ 161 Представим функцию Лагранжа для этой задачи в двойственной форме: F (и, х, р, X) = (-2- х (W) Q (N) - р (У), х (У)) + N-1 , . + 2 (±x(k)Q(k) + a(k) + p(k+l)A(k)- Л=0 \ z -X(k)C(k)-p(k),x(k^ + W-l , , X + 2 14 u VW)+b (k)+p (6+W)-X (k)D(k), и (k)\ - N-l IV—1 -2 (P(k+ l),s(fe))+ 2(Х(й),Л(А)) + (р(0),о). (12.6) k=0 h=0 Используя функцию Лагранжа (12.6), после неслож- ных преобразований получим следующую задачу D квадратичного динамического программирования, двой- ственную исходной задаче Р. Задача D. Найти управление и траекторию р, удовлетворяющие уравнениям движения p(k)=AT(k)p(k+l)-CT(k)X(k)+Q(k)x(k)A-a(k), (12.7) p(N)=Q(N)x(N) (k=N—l, .... 1, 0) (12.8) и ограничениям -BT(k)p(kA-l)+DT(k)K(k)-R(k)u(k)^b(k), (12.9) A(A)>0, (12.10) которые доставляют показателю качества JD = ±(x(N),Q(N)x(N)) + N-i , + ft2 [4 (* (k),Q(k)x (k)) - (p (k + 1), s (A))j 4- N-lr i T + 2 4 («(fe), R (k) и (k)) + (X (Й), h (k)) + (p (0), a) минимальное значение. И И. Пропой (12.11)
162 ДВОЙСТВЕННОСТЬ В УПРАВЛЕНИИ [ГЛ. у В этой задаче переменные х, и считаются заданными. Так как при сделанных предположениях показатель качества (12.5) прямой задачи будет выпуклой вверх функцией переменных х и и, то для рассматриваемой пары задач Р и D справедлива теорема двойственно- сти 2.2. Поэтому из решения прямой задачи Р может быть получено решение двойственной задачи D и, обратно, из решения двойственной задачи может быть получено решение прямой; причем оптимальные значения функци- оналов (12.5), (12.11) этих задач совпадают: Л =4. (12.12) Из равенства (12.12) и определений (12.5), (12.11) следует, что на оптимальном процессе {%*, и*, р*, X*} справедливо равенство N—1 5 [(a (ft), х* (£)) + (b (ft), u* (ft))] = (р* (0), а) - ь=о N—1 - 2 1(р* (fe +1), s (ft)) + (х* (ft), h (ft))].' Из теоремы 10.2 получим Теорема 12.1. Пусть матрицы Q(ft) (ft = 0, 1,... ,N), R(k) (ft=0, 1, ..., N—1) симметричны, и неположи- тельно определены. Тогда для то'го чтобы {и*, х*, X*, р*} были решением пары двойственных задач (12.1) — (12.4), (12.7) — (12.10), необходимо и достаточно выполнение следующих условий. х* (ft+1) = A (ft) х* (ft) +В (ft) и* (ft) - s (ft), x(0) ==a, p*(k)=AT(k')p*(k-\-l)—C'r(k)/A(k)-\-a(k)A-Q(k)x*(k), p*(N) = Q(N)x*(N), (X* (ft), h* (fe)) =0, X* (ft) >0, p* (ft) >0, p* (ft) =h (ft)-C (k)x* (ft)—D (ft) u* (ft), (u* (ft), v* (ft))=0, u* (ft)>0, u*(ft)>0, c* (ft) = — (ft) p* (ft+1) +DT (ft) X* (ft) -6 (ft) - —R(k)u* (ft) (ft=0, 1, ..., IV—1).
КВАДРАТИЧНОЕ ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ 163 § 121 Введем функцию Гамильтона HP(p(k+l),u(k)) = =L(u(k)), Я (к) «(«)) + (£> (к), и(к))+(р(А+1), B(k)u(k)) z для прямой задачи и //d(A(6),x(6)) = -(a(6),6(6)) + (X(6), C(k)x(k)) для двойственной. Тогда условия оптимальности для прямой задачи за- пишутся в следующем виде. Теорема 12.2. Для того чтобы процесс {х*, был оптимальным в прямой задаче Р, необходимо суще- ствование таких {р*, Х*^0}, удовлетворяющих сопря- женной системе (12.7), (12.8), для которых верно равен- ство пыНР(р* (6+1), rz(6))=tfP(p*(6+l), u*(6)) (12.13) «(*) (6 = 0,1, ...,Л7 — 1), где максимум берется по всем и (6), удовлетворяющим ограничениям (12.3), (12.4), а %* (6) являются опти- мальными двойственными переменными в задаче квадра- тичного программирования (12.13), (12.3), (12.4). Условия оптимальности для двойственной задачи име- ют следующий вид. Теорема 12.3. Для того чтобы процесс {р*, %*^0} был оптимальным в двойственной задаче D, необходимо и достаточно существование таких {х*, ^*^0}, удовлет- воряющих прямой системе (12.1), (12.2), для которых верно равенство min//D(Z(6), х* (6))=//D(V(6), х*(6)) (12.14) X(h) (6 = 0, 1, . . . , N— 1), где минимум берется по всем Л (6), удовлетворяющим ограничениям (12.9), (12.10), а и*(6) являются опти- мальными двойственными переменными в задаче линей- ного программирования (12.14), (12.9), (12.10).
ГЛАВА VI ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ В соответствии с полученными условиями оптималь- ности для нахождения оптимального управления имеют- ся три основные возможности: 1) выбрать некоторое допустимое управление и и последовательно его улучшать в направлении подходя- щих допустимых вариаций до тех пор, пока таких вариа- ций уже не найдется; 2) заменить исходную задачу двойственной (если, ко- нечно, такая замена возможна); часто решение двой- ственной задачи оказывается проще; 3) воспользоваться условиями оптимальности §§ 5.8~ 5.10 и искать такие и, х, р и %, которые удовлетворяют этим условиям; в случае одноэкстремальности задачи такое решение эквивалентно нахождению седловой точ- ки функции Лагранжа. В первом способе происходит приближение к опти- мальному процессу по управлению и и соответствующей траектории х (точнее, к процессу, «подозрительному» на оптимальность, так как условия оптимальности в общем случае только необходимы), во втором — по сопряжен- ным (двойственным) переменным %, р, в третьем осуществляется приближение как по и, х, так и по X, р. Поэтому методы нахождения оптимального управле- ния можно разделить на три основные группы: прямые, двойственные и методы одновременного решения пря- мой и двойственной задач. (Отметим, что в линейном программировании эти методы получили название, соот- ветственно, последовательного улучшения плана, уточ- нения оценок и сокращения невязок.) В этой главе рассмотрим кратко каждую группу ме- тодов в отдельности. Но прежде получим оценку для приближения»
$ Н ОЦЕНКА ПРИБЛИЖЕНИЯ 169 § 1. Оценка приближения Рассмотрим задачу оптимизации конечного состоя- ния, удовлетворяющую условиям 1—4 § 5.2. Для нее оп- тимальное значение функционала исходной задачи рав- но оптимальному значению двойственной, т. е. N—1 Ф (х* (AQ) = min max Ф(х(А^)) — 2 (р (& + 1), х (fe + 1)— р х,и k=0 —/(х(/г), «(/г),*)) . (1.1) Пусть и — произвольное управление, х — соответст- вующая ему траектория, и пусть р — некоторая произ- вольная последовательность сопряженных переменных, не обязательно удовлетворяющих сопряженной системе (3.1.1). Тогда из (1.1) получим Ф (x(N)) < Ф (х* (N)) < max Ф (х (У)) - xtu Оценку сверху в (1.2) можно упростить. Допустим сначала, что нет ограничений на переменные состояния. Представим правую часть неравенств (1.2) в виде (ср. §§ 5.5, 5.6) Ф (р) = max [Ф (х (N)) x(N))] + x(N) N—1 + (k + 1}’ f {X {k)’ {k)' X(k)]' • (1.3) Считаем, что начальное состояние здесь фиксирова- но: х(0)=а. Так как рассматриваемая задача, по пред- положению, одноэкстремальна, то если некоторый про- вес {и, х, р} удовлетворяет сопряженной системе, это Не только необходимо, но и достаточно, чтобы в (L3) Достигался максимум по х (см. § 5.6). Пусть теперь р — Последовательность сопряженных переменных, удовлет-
166 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. VI воряющая сопряженной системе £3.1.1) с граничным ус- ловием (3.1.2) для процесса {и, х}. Тогда (1.3) можно переписать в виде _ _ n—i _ _ 1|)(р)г=фЦИ- 2 [И + i),x(6 + D) - /1=0 — max {p(k- + l),f(x(k), u(k), /г))]. (1.4) и(Л)еУ^ Здесь x(k + V) = f (x(k), u(k), k). Вводя функцию Га- мильтона из (3.1.3), получим окончательно Ф (х (N)] < Ф (х* (N)X Ф (х (N)) + + У max [Н (р (k + 1), х (/г), u(k), k) - /1=0 H<fe)et7/i -H(p(k + l),x(k),u(k),k)]. (1.5)- Неравенство (1.5) дает оценку сверху и снизу для оптимального значения функционала в случае отсутст- вия ограничений на переменные состояния. Для того чтобы получить эти оценки, нужно проделать следую- щие операции: 1) выбрать произвольное допустимое управлением; 2) из уравнения движения (1.2.3) при начальном состоянии х(0)=м вычислить траекторию х; 3) из сопряженных уравнений (ЗЛ.1) при условии (3.1.2) вычислить последовательность р; 4) из (1.5) получить оценки для Ф(х*(А/)). Заметим, что неравенство (1.5) можно также полу- чить, если воспользоваться оценкой (2.2.11) для статиче- ской задачи. Из (1.5) получим Ф (х(АГ)) < <Ф (х (N)) + у, max [fi (р (k 1), х (k), и (/г), k) — k=0 u(k)<=Uk -H(p(k+ 1), x(fe), u(k), k)]-
ОЦЕНКА ПРИБЛИЖЕНИЯ 167 но, что чем меньше сумма шах [Н (р (k + 1), х (k), и (ft), k] — — H[p(k + 1), х(&), u(k\ &)], (1.6) i ближе управление и к -оптимальному; если же сум- (1.6) равна нулю, то и — оптимальное управление. Таким образом, величина (1.6) может быть исполь- щина для улучшения выбранного допустимого управ- 1ия, т. е. для нахождения оптимального (см. § 13 >й главы). Неравенства (1.5) справедливы и для задачи 2 (ес- выполнены условия § 5.4). В этом случае они име- вид J* J + V max [н (р (k + 1), X (k), и (k), k) - -H{p(k+l)~x(k),u(k),k)]- (1.7) есь и—некоторое допустимое управление, х—соот- 'ствующая траектория, J—показатель качества при •м управлении; сопряженные переменные р находятся системы (3.1.9) при условии (3.1.10), функция Га- пьтона Н определена из (3.1.11). Очевидно, возможно обобщение (1.7) и на другие 1Ы задач. В частности, при ограничениях на переменные со- яния (вида (5.1.2а)), повторяя почти дословно пре- зущие рассуждения, получим (если, конечно, выпол- :ы условия одноэкстремальности и регулярности за- си), что справедливы следующие неравенства (для ,ачи 1, например): - N—1 г /- - \ + У [ max Н (р (k + 1), %(&), a(k), k) — k=Q — H (p(ft4- l),x(ft), и (ft), k) + 2 (ft(ft),/i(ft,x(ft)))> h=0 p находятся из сопряженной системы (5.8.20) при овин (5.8.21), a A. (ft) (k = 0,1, .. .,N—1) —некоторые 'Извольные неотрицательные векторы. Будем выбирать
168 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ, V| их всегда такими, чтобы ЛД&)>0 при h^k, x(k))^ = 0 и A,;(£) = 0 в остальных случаях. Тогда (K(k),h(k,x(k))}=(), (1.8) и опять приходим к старым неравенствам. Таким образом, если на переменные состояния на- ложены ограничения (5.1.2а), то оценки для оптималь- ного значения функционала находятся из (1.7), где р находятся из (5.8.20), (5.8.21) при и=и, х=х, Х==%; при- чем % должны удовлетворять условиям дополняющей нежесткости (1.8). § 2. Методы возможных направлений Как следует из § 2.13, реализация прямых методов или методов возможных направлений состоит из сле- дующих этапов: 1) выбор произвольного допустимого управления; 2) выбор подходящего направления, в котором сле- дует изменить это управление; 3) определение длины шага; 4) определение нового управления и оценка близо- сти его к оптимальному. Прежде чем рассмотреть каждый из этих этапов в отдельности, необходимо иметь формулу для оценки из- менения показателя качества в зависимости от измене- ния управления. Эта формула, по существу, получена при выводе необходимых условий оптимальности управ- ления (§ 3.2). Действительно, рассмотрим задачу 1 §3.2. Пусть управление и изменилось на малую величину: u(k)+8u(k) (k=0, 1, ..., N—l). Тогда соответствующие изменения в траектории оп- ределит уравнение в вариациях бх (k + 1) = df(X^k)W) 8х W + —Xdu\k)(k}) 8и № (2- ’) (6=0, 1, N— 1), а изменение показателя качества опишется выражением 6Ф(х(АГ)) = (^М\ бх(ЛГ)) (пренебрегая величинами второго порядка малости).
§21 МЕТОДЫ ВОЗМОЖНЫХ НАПРАВЛЕНИИ 169 Положим p(N) = дФ (х (AQ) дх (W) (2.2) и определим сопряженную систему df(x дх (k) Тp(k 1 1) (£=Af - 1, ..., 1) (2.3) с граничным условием (2.2). Умножая обе части (2.1) скалярно на p(k-\-1) и учи- тывая (2.3), получим, что (р (k + 1), бх (A -I- 1)) - (р (Л), бх (/г)) = (2.4) Суммируя (2.4) по k = 0, .... N— 1, получим (p(V), 6x(W)) — (р (0), бх(0)) = дг_________________। = 2 (р & +1)1 би h=0 ' ' Считая, что начальное состояние х(0) фиксировано и учитывая (2.2), получим окончательно из (2.5) JV—1 6Ф(Х(ЛО) = 2 (р(М-1), <2-6) fc=0 ' ' Или, учитывая определение функции Гамильтона, N—1 и _ 2 6(1 (2.7) к=0 ' ‘ ' Формула (2.6) (или (2.7)) показывает в первом при- ближении изменение показателя качества 6J в зависи- мости от изменения управления б«. Легко показать, что аналогичная формула имеет место и для задач с сум- марным показателем качества (1.3.2), нужно только ис- пользовать соответствующие определения сопряженной системы и функции Гамильтона (см. § 3.1). Рассмотрим пространство управлений Й(м) (размер- ности Nr}, элементами которого являются управления
170 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. VI u={u(0), u(N— 1)}. В этом пространстве формулу (2.7) можно переписать в виде б/=(^би), (2.8) где вектор 6и={8и(0), ..., du(N— 1)}, вектор q=^ = {7(0),..., 7^-1)}, du(k) “I-----(2.9) Из (2.8) видно, что вектор q с координатами, опре- деляемыми из (2.9), является градиентом показателя качества по управлению и\ dJ(x(0),4) ди ч' Таким образом, вектор q определяет в пространстве управлений Q(u) направление наибольшего возрастания показателя качества, и задача состоит в том, чтобы дви- гаться в направлении как можно ближе к направлению градиента dJIdu, не выходя, однако, за пределы ограни- чений. По-прежнему будем называть вариацию би= = {би(0),..., 6u(N—1)} управления и= {и(0),..., u(N—1)} допустимой, если 8u[k)^K(u(k)) (&=0, ..., N—1), т. е. если u(k) +еби(6) для всех 0<8<е/1 (см. § 3.3). { Допустимую вариацию би управления и назовем подходящей (ср. § 2.3), если N—1 6Ф(х(Я))= 2 (^Шг- 6«(^)>0. (2.10) fc=0 ' 7 Итак, если известно произвольное допустимое управ- ление, то для него всегда по формуле (2.7) можно опре- делить, как изменится показатель качества б/ при ма- лых вариациях управления. При этом, аналогично теореме 2.4.1, нетрудно пока- зать, что для оптимального управления и* не существует подходящих допустимых вариаций, т. е. ту_1 8и* (k)\ < 0 (2.11) h=Q ' 7 для всех 6и*(Л)еК(«*(й)) U=o, 1, 1).
§ 3] ' ОТСУТСТВИЕ ОГРАНИЧЕНИИ НА СОСТОЯНИЯ 171 Отсюда легко получить и необходимые условия опти- мальности, сформулированные в § 3.2; для этого доста- точно в качестве допустимой выбрать специальную ва- риацию вида 6М (j) = O(jj=k), 6«* (k) е К (и* (£)) • С другой стороны, если для некоторого допустимого управления и* V да», W)b du(k) k Ч для всех 8и* (k) е Д' (zz* (&)) (k — 0, ..., N — 1), то при некоторых условиях выпуклости множества U в окрест- ности точек и*(&) управление и* доставляет показателю качества /(х(0), и) при заданном начальном состоянии х(0), во всяком случае, локальный максимум. Следует заметить, что из-за монотонности изменения показателя качества (см. замечание в конце § 2.14) методами воз- можных направлений практически всегда находится (локальный) максимум, даже если эти требования не выполнены. Если же для некоторого управления существует хо- тя бы одно допустимое подходящее направление, то име- ется возможность его улучшить, т. е. найти такую вариа- цию 8щ для которой новое управление и + ъби будет да- вать большее значение показателя качества. Перейдем теперь непосредственно к методам возмож- ных направлений. Рассмотрим сначала задачу без огра- ничений на переменные состояния. § 3. Случай отсутствия ограничений на переменные состояния По-прежнему ради простоты обозначений рассмот- рим задачу оптимизации конечного состояния. Задача с суммарным показателем качества решается совершенно аналогичным образом. 1. Выбор начального допустимого управления. В боль- шинстве практических задач без ограничений на пере- менные состояния допустимое управление легко опреде- ляется из физических соображений. В частности, для
172 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. Vj многих задач множество U содержит начало координат; тогда свободное движение системы {u(k)— О, А=0, ... N—1} можно взять в качестве начального прибли- жения. Если же допустимое управление неизвестно, то для его определения, так как управляющие воздействия на каждом шаге независимы, можно воспользоваться при- емом, изложенным в § 2.13. В случае однотипных (не за- висящих от номера шага k) ограничений определение допустимого управления сводится к решению одной за- дачи max £, &(«)>£ (/=1, ..../п), которая может быть решена любым методом возможных направлений (§ 2.13) за конечное число шагов (если вы- полнено условие регулярности (2.3.3)). ___Пусть после какого-то числа шагов найдены такие и, £ > 0, которые удовлетворяют ограничениям этой за- дачи. Тогда в качестве начального допустимого управ- ления возьмем и (k) = и (k = 0, ..., N — 1). 2. Выбор направления. Обозначим через х траекторию, соответствующую управлению^ и при заданном началь- ном состоянии х(0), через р—последовательность со- пряженных переменных, определенных из (3.1.1) с гра- ничным условием (3.1.2). Положим 8u=s, s={s(0), ... В качестве направления s, вообще говоря, можно выбрать любую допустимую подходящую вариацию, т. е. любую последовательность векторов s(k), удовлетворя- ющих неравенствам 6/ = У ( + X (»),«(*)) h=o ' да Idg- (и (£)) \ . ( s <kn > °’ («<*)) • (3.2) , *(£))> 0, (3.1) Здесь по-прежнему J («(£))—множество индексов из
ОТСУТСТВИЕ ОГРАНИЧЕНИИ НА СОСТОЯНИЯ 173 5 31 j=l, Щ, при которых точка u(k) обращает ограни- чения (1.2.2ц) в равенство: J («(^)) = {/I/ =1, (£)) = 0}. В ограничениях (3.2) равенства исключены для того, чтобы направление s(k) было направлено строго внутрь множества U (но не по касательной). Однако для того, чтобы получить максимальное при- ращение показателя качества, желательно выбрать та- кую последовательность s, которая максимизирует (3.1) при ограничениях (3.2). Поскольку область, задаваемая неравенствами (3.2), неограничена, вектор s нужно еще нормализовать, например, положить (s(£), s(fc))^p(£), (3.3) либо Ы*) I <pi(*) (i=l, .... Г). (3.4) Возможны другие, более сложные виды нормализа- ции. Так как неравенства (3.1), (3.2) линейны, то для того, чтобы упростить задачу выбора направления, есте- ственно выбрать в качестве нормализации вектора s(k) также линейные ограничения, например, типа (3.4). Далее, поскольку векторы s(k) можно выбирать неза- висимыми, а ограничения (3.3), (3.4) на s(k) также не- зависимы, то максимизация суммы (3.1) сводится к мак- симизации каждого из слагаемых при ограничениях (3.2), (3.4). Окончательно приходим к следующей за- даче (ср. (2.13. 3)): max <?(&), (3.5) (™M,s(*))-o(*)>0, (3.6) s да)- ° № > 0> M (3-7) Pi(k)-|s,(^)|>0, е7(Л)>о, pdk)>o (3.8) (£ = 0, ..., Af—1; r= 1, ..., r). Выбор величин 9j(£)>0 может быть различным. В частности, можно положить все 0Д£) = 1, ио можно
174 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. VI и увеличивать 0Д6), если при итерациях точка u(k) нс. сколько раз попадает на одну и ту же гиперповерхность gjfUtk)) = 0. Задача (3.5) — (3.8) является, очевидно, задачей ли- нейного программирования. Пусть (о(£),s(k)} —ее ре- шение. Если то (e4Sr'M>5w>0 при ограничениях / dg^U W \ - (fe) > 0; /eJ , \ (к) / и в точке u(k) существуют подходящие допустимые нап- равления, оптимальное из которых — s(6). Если а (6) ^0 для какого-то k (6 = 0, N—1), то система неравенств (3.6), (3.7) и о(6)>0 несовместна, т. е. в точке u(k) подходящих допустимых направлений не существует и следует положить s(k)=0 для этого k. Если же сг(6) для всех 6 = 0, ..., N— 1, то вообще для всего управления и не существует подходящей до- пустимой вариации, т. е. оно является локально опти- мальным (см. замечание в конце § 2). Для иллюстрации рассмотрим случай, когда управля- ющее воздействие одномерно, т. е. г=1. Множество очевидно, задается в этом случае неравенствами а(6) ^«(6)^р(6), где а(6), Р(6) (6 = 0, N— 1) — фикси- рованные числа. Для выбора наилучшего направления в этом случае нужно определить такую последовательность чисел s(6), удовлетворяющих условиям. |s(£) I <р(£). р(£)>0 s(fe) = произвольное число, если а (6)< и (6) < Р (6), если и (6) а (6), если и(6)>Р(6),
$ з] \ ОТСУТСТВИЕ ОГРАНИЧЕНИЙ НА СОСТОЯНИЯ 175 и максимизирующих сумму N-1 2 (<7 (/?),s(fe)), Ь=0 Здесь р(й)—заданные положительные числа. В ча- стности, можно положить p(k) = \q(k) |. В последнем случае получим, что векторы s (k) будут определяться соотношениями q (k), если ~q(k) > 0, и (6) < -~q(k), если ~q(k) < 0, й (k) > > a /О n\ s (fe) = 1 n z,x (3-9) о, если ~q(k) >0, u(k)^ или ~q(ky. <0, u(k)^ г a (К), Другой возможный способ определения направления сводится к решению задачи N—1 max 2 <?(*) s(fe), h=0 a(fe)-Cs(fe) — и(й) Cjp(fe), |s (fe)| 'C p (fe), где, в частности, p (k) = | q (k) |. Решение этой задачи при р(&) = |<7(&)| определяется следующими соотношениями: Р(£) —и(£), если s(£)=d q(k), если a (k) — и (k), если а (&) sg g (k) — u(k)^$ (&), 9 (fe)< а (k) — и (k). (3.10) Возможно обобщение этой задачи и на многомерный случай. Если, например, ai(k)^Ui(k)^i(k) (i=l...........г), (3.11) то вектор s(k) будет равен проекции градиента q(k) из
176 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ* VJ точки u(k) на r-мерный параллелепипед, задаваемый неравенствами (3.11). Подводя итог, можно сделать вывод, что задача вы- бора направления в многошаговых задачах распадается на N независимых задач и, по существу, мало чем отли- чается от аналогичной задачи выбора наилучшего нап- равления в одношаговых задачах _(§ 2.13). 3. Выбор длины^шага 8. Пусть и — некоторое допусти- мое управление, s — выбранное для этого управления направление. Положим и = и + es, е > 0. (3.12) Таким образом, в пространстве^управлений Q(u) происходит движение вдоль вектора s; при этом движе- ние точки x(Af) в пространстве состояний X, если урав- нения движения нелинейны, будет осуществляться по кривой, которая определяется уравнением x(fe + l) = f(x(fe), L(fe) + K(fe)) (fe=0, .... N-1),' х(0) = а. Это движение можно производить до тех пор, пока ка- кая-либо точка u(k), определяемая из (3.12), не выйдет на границу допустимого множества U. Обозначим через 81 то максимальное значение длины шага, при котором еще не нарушаются ограничения u(k)^U (k=0, 1, ... N— 1). Значение si определяется из решения задач Si (fe) = max {б (fe) ] и (fe) + е (fe) s(fe) e U] e(h) (fe = 0, ..., У — 1). Или ei (fe) =max e(fe) при g}{u(k) + e(fe)s(fe)) >0 (/ = 1, ..., m). Очевидно, 8i — минимальное из этих чисел, т. е. ех == min Ei (k). G<h<N-i
J 3j \ ОТСУТСТВИЕ ОГРАНИЧЕНИИ НА СОСТОЯНИЯ 177 Пусть теперь 82 определяет максимальное значение функции ФЧх(У)) при движении в пространстве Q(u) вдоль луча 88, е^О. Для нахождения 82 нужно решить задачу шахФ (х(Л/)), е х(^ +1) =/(х(й), й(£)+ es(6)), х(0) = а (6 = 0, АГ —1). Выпишем для этой задачи необходимые условия оп- тимальности. Они имеют вид x(k + 1) = f (x(k), u(k)+zs(k)), x(0)=a, P w - P + >)• (313) N—1 ® (e) = 2 (p (k + 1), s-(k)\ = 0. i=U Если эти уравнения невозможно решить аналитиче- ски, то для нахождения корня (3.13) можно воспользо- ваться следующим методом последовательных прибли- жений. Положим_е=0. Если о>(0)^0, то в силу (2.11) для управления u(k) нет подходящих допустимых вари- аций и оно (локально) оптимальное. Если w(0)>0, то вычислим w(ei). Если w(ei) >0, то 8 = 8! будет опреде- лять, очевидно, искомую длину шага. Если же w(ei)<0, то положим e‘=8i/2 и вычислим w(e’) и т. д. Трудности здесь возникают, когда функция аа(е) имеет несколько корней на отрезке [0, ej. В последнем случае нужно определять либо все корни w(s) на [0, sj и среди них брать тот, который доставляет максимум Функции Ф(х(1У)) на отрезке88(0е81), либо брать Первый (наименьший) корень а>(е) на [0, si], сообщаю- щий функции Ф(х(М)) на es (OsC 8 81), вообще говоря, только локальный максимум. > Другой возможный способ определения длины шага ® состоит в определении чисто поисковым путем такого 12 а ч м Н. Пропой
178 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. vt значения eslO, еж], при котором новое значение показа, теля качества будет просто больше старого: Ф (х' (Af))> > Ф (х (N)), где х' (k) = х (k) + е s (k). Наконец, длину шага можно определить и аналити- ческим путем, если осуществить вблизи управления ц линейную аппроксимацию уравнений движения и квад- ратичную — показателя качества (см. § 6.4). 4. Получение и оценка нового управления. После того, как найдена последовательность векторов s (k) и число е, новое управление и' вычисляется по формуле u'(k) = u(Jz) + &s(k) (6 = 0, N— 1). Близость управления и' к оптимальному для случая од- ноэкстремальных задач оценивается по формуле (1.5). 5. Одно уточнение. При построении конкретных алго- ритмов по способам, рассмотренным в пп. 1—4, возмож- ны случаи зацикливания, когда, например, в процессе итераций точка u(k) неоднократно возвращается на одну и ту же гиперповерхность ограничений. Чтобы избежать таких явлений, введем положительные параметры 6V(6), зависящие от номера итерации v (v = l, 2, ...). 6’(6) вы- бираются произвольными достаточно малыми числами (на первой итерации можно считать все б1 (6) равными: б'(6)=б‘ (6=0, ..., АГ-1)). Будем считать, что точка u(k) принадлежит поверх- ности gj(u(k))=0, если -б(6)<^(М(6))<0. Определим расширенное множество индексов 6(6)) = {/|-6(6)<gy(«(6))<0; / = 1,..., т\. Заметим, что раньше было j(u(k)) = 0]={/|gy(u(6)) = 0; / = 1, ..., mb Таким образом, j(u(6))cj 6(6)).
5 3] ^ОТСУТСТВИЕ ОГРАНИЧЕНИЙ НА СОСТОЯНИЯ 179 \ Для определения наилучшего направления на v-й итерации будем решать для каждого k вместо задачи (3.5) —(3.8) задачу max сл(6), (""У , sW)-a(^)>0, s(^))-e;.(^)a(fe)>0; /еДи’^), 6’(fe)i, Pi(fe)-^(k) I >0, где 8j(k), pi(k), 8v(k)—положительные числа (i=l, .... ..., r; j^J(uv(k), 6V(£)). Эта задача отличается от задачи (3.5) — (3.8) только тем, что здесь вместо (3.7) использу- ется расширенная система неравенств. Пусть <F(k) —решение этой задачи. Будем различать три случая: а) а.Д^Х-бДй); б) -6v(^)^ctv(^)<0; в) oiv(^)=0. В случае а) значение параметра 6V(&) не меняем: 6'’+i(^)==6v(fe) (6v+1(ft)—значение параметров 8(k) для следующей (v+D-й итерации). В случае б) полагаем 6^+1 (k) = . В случае в), когда a|V(fe)=0, решаем повторно задачу (3.14), но уже при 8v(k)=0 (т. е. задачу (3.5) — (3.8)). Если и решение этой задачи a'* (k) = 0, то в точке uV(k), как следует из п. 2, нет подходящих допустимых направлений. Если же о7'(&) <^ 0, то полагаем для сле- дующей итерации 6*+i (k) = LgL и продолжаем процесс, двигаясь в направлении sv(£)> являющемся решением задачи (3.14) при 6v(£)=0. 12*
180 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ Н'Л, у. 6. Алгоритм. Таким образом, вычисление оптимально, ного управления для рассматриваемой задачи слагается из следующих операций: 1) задаемся значениями параметров *) 0Д6)>0, Pi(6)>0 (/=1, m; i=l, ...» г; 6=0, N—1); 2) определяем начальное допустимое управление u'={’r(k)eEU (6=0, N—1)}; 3) задаемся последовательностью параметров б1 (6) >0; 4) определяем множества индексов б1 (6)) (6=0, ..., W-1); 5) решаем задачи линейного программирования (3.14) при б1 (6) для 6=0,..., N—1; пусть о11 (6), s11 (6) — решения этих задач; 6) если сп11 (6) =0 для каких-то 6, то повторно реша- ем задачу (3.10) при этих 6; пусть о12(6), s12(6) —реше- ние этих задач; 7) определяем направление 5!={5!(6), 6=0, ... ..., TV—1}, состоящее из векторов s46) = s11 (6), S12 (6), I о, если если если ап(6)<0, ou(6) = 0, о12(6)<0, au(6) = 0, о12(6) = 0; 8) если все s!(6)=0 (6 = 0, ..., Af—1), то управление и) (локально) оптимальное, если не все s1(6)=0, то для 5!=«!(6) определяем наилучшую длину шага е1, как это изложено в п. 2; 9) вычисляем новое управление u2(6)=ui(6)+si(6)$i(6) (Aj=o, ..., 1); 10) вычисляем новые значения параметров из если au(fe)<-6W 6а(£)= если — 51 (W1 (&)<0, или если a11 (k) — 0, ст12 (k) < 0- *) Чаще всего, ву(£) = в, р^(^)=р,но, вообще говоря, эти па- раметры могут зависеть от /, i, k и меняться в процессе итераций
ЛИНЕЙНАЯ СИСТЕМА 181 § 41 11) переходим к операциям 4)—10) и т. д. Возможны другие варианты алгоритма, различающие- ся конкретными способами выбора направления, длины щага и параметров алгоритма. 7. Сходимость. При сделанных предположениях отно- сительно множества U и функций Ф(х), f(x, и) (см. гл. III) нетрудно показать, что последовательность управлений сходится и имеет конечный предел и* (это делается аналогично одношаговому случаю). В случае одноэкстремальности и регулярности исходной задачи (т. е. если выполнены условия 1—4 § 5.1) это управле- ние будет оптимальным, т. е. доставлять показателю ка- чества 7(х(0), и) глобальный максимум при данных ог- раничениях. Если же задача многоэкстремальна, то практически рассматриваемый метод приводит (во всяком случае) к локальному максимуму /(х(0), и), так как точек типа седла или минимума можно избежать в силу конструк- ции алгоритма (см. § 3.2). В заключение заметим, что аналогичным образом строятся алгоритмы и для задач с суммарным показате- лем качества. § 4. Линейная система Изложенный в § 3 метод проиллюстрируем на при- мере линейной системы вида х(А+1) =Ax(k)+bu(k); х(0)=а, (4.1) где управляющие воздействия u(k) одномерны, Ь— мат- рица размера (1 \п), с квадратичным показателем каче- ства (который нужно максимизировать): 1 N /=4 2 (X(k), Qx(k)), л k=i гДе Q — неположительно определенная симметрическая Матрица. Ограничения на уноавление задаются в виде (k=0, N-1). Для этой задачи на основании § 3 строится следующий
182 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. V) 1. Выбираем произвольное допустимое управление и1; |ы* (k) | 1. 2. С помощью (4.1) определяем при x(0)=a; и=(р траекторию х1. 3. Определяем значения сопряженных переменных pi из уравнений P4*)=<W)4-^W+1) (k—N—1, 1),(4.2) p(N)=Qx(N). 4. Вычисляем величины q'(k)=—(p'^+l), b) (£=0, N— 1). 5. Определяем sl(k) из соотношений (см. (3.10)) s' (k) = 1 -м1^), q1 (*), - 1 - и1 (k), если ql (k) > 1 — u1 (Ji), если l^1 (£) + h1 (&)| sC 1, (4.3) если q1(k) < — 1 — ul(ky 6. Оцениваем управление и1 из неравенств N—1 /Х+2Г max и (й)) — (71 (k), и1 (k))] (4.4) где J* — оптимальное значение показателя качества, 1 N J1 = 4-2 № 2 k=i Если разность между верхней и нижней оценкой б (4.4) меньше заданного положительного числа 6 либо если все s1(^)=0 (k=0, ..., N— 1) (в этом случае и их — точное оптимальное управление), то про- цесс решения прекращается. В противном случае пере- ходим к операции 7. 7. Вычисляем векторы fc—1 2Т(fe) = 2 (fe = 1, ...V). (4.5) j=0 8. Определяем величину ео из 2 (z1 (fe), Qx* (k)) ₽ _^1________________(4.6) Б0 — N v 2 (z1 (fe), Qz’ (fe)) ft=l
§ 41 ЛИНЕЙНАЯ СИСТЕМА 183 Находим длину шага е’ из условия e^min {1, е0}. (4.7) 9. Полагаем U2(k)=u'(k)+&'s'(k) и т. д. Сделаем несколько пояснений к алгоритму. Величина е1, определяемая из (4.6), (4.7), получена из следующих соображений. Положим x(fe-|-l) =^x(fe)+fe[«1(fe)+es1(fe)] (4.8) и будем искать 1 N min -s- 2 (x(k), Qx(fe)). 0<e<l z k=l При e = ei= 1 получим вследствие (4.3) и1 (k) + e^1 (k) = 1, u1 (k) 4- q1 (k), - 1, если q1 (k) > 1 — u1 (k), если |Д (k) + q\k)\ Cl, если ql(k)<^—1 — u'(fe). Таким образом, значение ei = l определяет границу допустимого множества управлений (куба |«(fe) |С1) в пространстве управлений Q(h). Далее, на основании (4.1), (4.5) и (4.8), имеем fe-i x(k) = Д*х(0) + 2 Ak~^b [u\j) + es^/)] = x1 (k) + ez\k). 7=0 Поэтому N N J (8) = 4 2 (X1 (fe), Qx1 (fe)) + e 2 (z1 (fe), Qx1 (fe)) + Z Ы h=i 1 N + 4-822 dfe), Q^(fe)). 2 A=1 Так как Q — положительно определенная матрица, то J(е) —выпуклая вниз функция. Определяя минимум/(е) На отрезке [0, 1J, приходим к (4.6), (4.7). Оценка приближения (4.4) непосредственно получа- ется из (1.5) и (4.1).
184 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ 1ГЛ. Vl Заметим, что этот метод дает возможность опреде. лить оптимальное управление и* и для вырожденных задач (см. § 3.4). Действительно, в этом случае p*(AQ=^ = Qx*(Af)=O только на оптимальном процессе. Поэто- му итерации продолжаются, пока при каком-либо управ- лении и* соответствующее x*(Af) не станет равным 0; в этом случае q*(k)=O и из (4.3) следует, что $*(/?) ==0 (& = 0, ..., N— 1), поэтому процесс решения задачи пре- кращается. § 5. Ограничения на переменные состояния. I Перейдем теперь к задачам с ограничениями на пе- ременные состояния. Рассмотрим опять задачу 1 § 3.6 и будем считать, что на переменные управления и состо- яния наложены ограничения (3.6.3), (3.6.4). При этом будем предполагать, что выполнены условия § 3.6. 1. Выбор начального допустимого управления. В от- личие от рассмотренного в § 3 случая, выбор допустимо- го управления при ограничениях на переменные состоя- ния уже не является тривиальной задачей, так как те- перь ограничения на управление задаются не только в явном виде (3.6.4), но и в неявном, посредством (3.6.3) и уравнений движения (1.2.3). Для нахождения начального допустимого управления рассмотрим следующую задачу: шах £, x(k+l)=f(x(k),u(k),k) gj(k, ы(А))>0 ЙДЛ, *(£))>£ (5.1) (й —О, .... JV-1), (/=1, .... т(£)), (5.2) (/=1, ..., а(£)). (5.3) Решение этой задачи может быть получено, напри- мер, излагаемыми здесь методами возможных направ- лений. Если решение и1, х1, £’ этой задачи таково, что то и ЙДЙ, х!(6))>0 (/=1, .... s(*)), т. е. и1—допустимое управление. С другой стороны, ес- ли ^<0, то, очевидно, допустимого управления, удовлет- воряющего (1.2.3), (3.6.3), (3.6.4), для данного началь-
ОГРАНИЧЕНИЯ НА СОСТОЯНИЯ. I 18Э ного состояния не существует и нужно (если это воз- можно) ослабить ограничения на переменные состояния. Заметим, что если выполнены условия регулярности Слейтера (§ 2.3), то решать задачу (5.1) — (5.3) до кон- ца не нужно, а достаточно лишь сделать несколько ша- гов, пока не будет получено такое и, при котором Заметим, что часто вместо задачи (5.1) — (5.3) лучше решать задачу с ограничениями gj(k, hi(k,x(k)^ (/=!,..., s(k)). 2. Выбор направления. Пусть уже найдено некоторое допустимое управление их : ux(k)^Uh, xx(k)^Xk. Вычислим матрицы В1 (k) = (^ = 0----- 1), (5.4) xi(fe) (55) Определим множества индексов /(«'(&)) и J(xl(k) ) (см. § 3.6) и вычислим векторы У' (4 = 0, '’'’'tew 1'1!| /=^(х,(4)) (4 = 1.JV). Введем сопряженную систему р1(0 = [Л<(4)]’’р1(^+1) (*=AZ—Т, ...,) с граничным условием n4AQ = ^(^-W). Р дх (N) Из (5.4) и (5.8), (5.9) получим, что Pwr Г=lpl{k+1)fB1 (k}= = Ip1 (N)]rA1 (N - 1) ... A1 (k + 1) B1 (k), (5.6) (5.7) (5.8) (5.9) (5.10) гДе pl(N) определяется из (5.9). Тогда из условий оптимальности для рассматривае- мой задачи (§ 3.6) и п. 2 § 3 этой главы следует, что за-
186 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ (ГЛ. vi дача выбора наилучшего направления s1 в случае суще, ствования ненулевых специальных вариаций сводится к следующим задачам линейного программирования (k~^ = 0, ..., Af-l): шахо(/г) (5.Ц) при ограничениях ’ Al(N ~ 1)-• ЛЧ* + - а(АО>0, (5.12) /dh.(N,x(N)) , \ p Vw ’ А • • •А (* +!)В S -ej(N,k)o(k)>0, (^х’н(;))’ - 1) •.. Л1 (& + 1) В1 (*)s(fe)) - -0y(v,fe)a(fe)>O, /EJ(?(v)), pfe'(fe+ l>’(fe+l)) ’ _ '’ ' ' \.............. ( дх (к + 1) ’ В (^/S(^)J - 07 (k + 1, k) a (k) > 0, / e J (x1 (k + 1)), (5.13) (dg. (k, ui (fe)) \ (fe) ’ s(^-0;W^(^)>O,/eJ(u1(^))) (5.14) Pi(fe) - |si(fe) |>0, где 0j(v, k)>0, j^J (x'fv)), 0j(^)>O, j^J (u1 (fe)), Pi(fe)>0 (4=1, r; v=N, Ar-1, ..., fe+1; fe=0, 1, ... N— 1), в частности, можно положить все 0j(v, k), 0j(6) И рг(&) равными 1. Таким образом, по сравнению с задачей выбора на- правления без ограничений на переменные состояния (3.5) — (3.8) здесь для каждой задачи добавились новые линейные неравенства (5.13) (их число определяется суммой) N — 1 2 (^ = 0, 1, ..., АА — 1).
ОГРАНИЧЕНИЯ НА СОСТОЯНИЯ. I. 187 § 51 Используя сопряженную систему (5.8), можно упро- стить формулировку задач (5.11) — (5.14). Для этого обозначим через p'(v,£-|-l) решение сопряженной си- стемы (5.8), когда i=v, v—1..... £-|-1 при граничном условии т. е. г 1 , [dh.(v, х1 (v))K [Pi (v, k + 1)]г = Л1 (v — 1) . . . Д1 (fe + 1), и пусть, как обычно, —решение сопряженной системы (5.8) с граничным условием (5.9). Кроме того, обозначим <7I(A)=[BI(Z!)Fp>(fe+l), (5.15) q}(y,k)= р}(у,к+ 1). (5.16) Тогда задача (5.11) — (5.14) перепишется в виде max o(k), (q'(k), s(£))-a(fc)>0, (q}(v,k),s(k)}-9j(v,k)o(k)>0, /£/(?(?)), (5.17) [dsr.lk, u4kY) \ ( --dU \k) ' S^)~ QJ W ° > °’ / Pi(/e)-|si(^)|>0 (t=l, ..., r; v=H-l, •••> N; k=0, ..., N— 1). Задачи (5.17) лучше решать последовательно, начи- ная с последнего шага k = N-—l, N—2, ..., 0. При этом, очевидно, векторы p}(k), р}(у, k) удовлет- воряют сопряженной системе Рг(1г) = lA\k)]T р1 (k + 1), plj(v,k) = [A1(k)]T p}(y,k + \), так что переход от одной задачи линейного программи- рования к последующей не представляет труда. Заметим, что в ряде случаев при решении задач ли- нейного программирования (5.17) (или (5.11) — (5.14)) Удобно использовать двойственные методы линейного программирования.
188 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. Vl Пусть о1^), s'(k)—решение задачи (5.17). Тогда если о1(А)>0, то для управления и1 существуют подхо. дящие допустимые направления на k-м шаге, наилучщес из которых s1^). Пусть теперь при всех k=0, 1, ..., N— ] тогда специальных подходящих допустимых направле- ний (представимых в виде {0, ..., s1^), ..., 0}, &=0, 1, ..., N — 1) для управления и1 не существует, т. е. при ва- риации управления и1 только на одном (произвольном) шаге А=0, 1, ..., N— 1 уже нельзя получить увеличения показателя качества. Если, кроме того, выполнены пред- положения теоремы 3.6.2 (3.6.3), то управление их «ло- кально оптимальное» и удовлетворяет условиям опти мальности теоремы 3.6.2. Если же условие существования ненулевых специаль- ных допустимых направлений не выполнено или его про- верка затруднена, то для определения подходящего направления s1 необходимо построение более сложных вариаций управления и1. В частности, варьируя управле- ние и1 на всех шагах &=0, 1, ..., N— 1 одновременно, приходим к следующей задаче линейного динамического программирования (см. § 5.11), которая» определяет наи- лучшее направление в этом случае: max а, N—1 fe=0 z(k+i)=Al(k)z(k)+Bl(k)s(k), (де, (k, и> (k)) \ {Jdu\k) > s(£))-9y(fcW)>0, [dh,(k.Xi (k)) \ V ax(fe) ’ г(А)]-е7(Л)а(Л)>0, /e/(?(ft)), pt(k)-\si(k) |>0 (t=l, r). 3. Выбор длины шага. Пусть направление s1 найдено. Определим теперь наилучшую длину шага е1 вдоль s1. Для этого прежде всего определим максимально возмож- ную при данных ограничениях длину шага еь Решим сначала задачи (& = 0, ..., N~ 1) maxe(fe) =* s" (k) (5.18)
ОГРАНИЧЕНИЯ НА СОСТОЯНИЯ. I. 189 При gj(k, u'(k)+e(k)sl(k))^Q (/=1, Положим в"= mln е('(&). 0<h<N—1 в® определяет максимально возможную длину шага по ограничениям на управляющие воздействия (3.6.4). Далее решим для каждого k=0, ..., N— 1 задачи max е (k) — е* (k), x(v-H) =f(x(v), tz(v),v) (y=k, N— 1), u(k)==ul(k)+&(k)s'(k), (5.19) u(v)=h'(v) (v^k), ^•(v,x(v))>0 (/=1, .... s(v)). Положим 8j = min si (k). 0<ft<N+l ef определяет наибольшую длину шага по ограничени- ям (3.6.3) на состояния. Очевидно, наибольшая длина шага ei при общих ограничениях определится из в! — min {ef, е“) = min {ef(&), e“(fc)J. OchcN—1 Пусть теперь ег определяет максимальное значение функ- ции Ф(х(Л^)) при движении вдоль луча 8S1, е^О. Вели- чина ег находится из решения задачи (3.13). Заметим, что решение задач (5.19) аналогично решению задачи (3.13). Поэтому для определения ei(fe) могут быть ис- пользованы методы, приведенные в п. 3 § 3. Наилучшая допустимая длина шага е1 определяется из условия е’ —min {ei, ег}. 4. Получение и оценка нового управления. Новое уп- равление, как обычно, вычисляется из равенства u*(k)=u'(k)+Js'(k) (fc=0, ..., Л'-1)
190 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. VI и оценивается, в случае одноэкстремальности задачи, по формулам § 1. Наконец, так же как и в § 3, введением параметров 6й (k) и 6х(k) можно избежать колебательный характер приближения. Сделаем теперь несколько заключитель- ных замечаний. По сравнению с задачей без ограничений на перемен- ные состояния (§ 3) прямое применение метода возмож- ных направлений, в данной задаче естественно, услож- няется. Наиболее трудоемким он будет, если на каждом шаге на переменные x(k) задается большое число (нели- нейных) ограничений. В этом случае удобнее либо пе- рейти в задаче выбора направления к двойственной, либо вообще, непосредственно использовать двойственные ме- тоды (см. §§ 8—10). § 6. Линейная система В качестве иллюстрации рассмотрим линейную систе- му вида x(k + l)=Ax(k)+Bu(k) (А = 0, ..., Af-l),x(0)=a,(6.1) где Л и В — матрицы размера (пХ^) и (гХп) с показа- телем качества J= (с, x(N)) (6.2) и ограничениями вида Gu(k)^g, (6.3) где G и g — матрицы размера (гХ^), (1Хт) (таким образом, допустимое множество U — выпуклое много- гранное множество), x(k)^Q. (6.4) Предполагаем, что существует хотя бы один процесс, удовлетворяющий (6.1), (6.3), (6.4). Из (6.1) получим k-i х (k) = h(k)+^w (k - 1 - /) a (j), (G.5) л=о где fc(£)=A*x(0), W(j)=A3B.
линейная система 191 § 61 1. Выбор допустимого управления. Задача выбора до- пустимого направления (5.1) — (5.3) в этом случае заме- няется следующей задачей линейного программирования: max £, й-1 £Г(£-1-/)«(/)-£>-/i(&) (6 = 1, ..., N), (6.6) ;=0 Gu(k)sZg (6=0,..., АГ-1). Ее можно решать непосредственно методами линей- ного программирования, либо использовать рассматри- ваемые в пп. 2, 3 методы (см. замечание в конце этого параграфа). 2. Выбор направления. Пусть и1 — решение задачи (6.6). Определим множества индексов /(«)=/ Г gijUi = gp i=l j = 1, ..., m где Uiy gj — координаты векторов u, g\ G=[g\j] (f=l, ... ..., r\ /=1, ..., m), и J(x) — {/|^j=0; /= 1» •••, n}- Для того чтобы не нарушить ограничения (6.3), коор- динаты вектора s(k) должны удовлетворять, очевидно, условиям (6.7) Для того чтобы не нарушить ограничения (6.4), коор- динаты вектора s(k) должны удовлетворять неравен- ствам /Е/(?(Ж)), (6.8) г=1 где F(v) = [wji(v)] (/=1, ..., n; i=l, ..., г; v=0, ..., N—k). Действительно, положим и (v) =u1(v)+e(v)s1(v), где e(v)=0, v^k, е(6)>0. Тогда из (6.5) следует, что x(k+v)=xl(k+v)+&(k)W(y)sl(k). Отсюда и из опреде- ления допустимого направления получим (6.8). Неравен- ства (6.8) можно получить и непосредственно из общей задачи выбора направления (5.11) — (5.14), так как вследствие линейности ограничений в ней можно поло- жить 9j(v, k) =0.
192 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. VT Для того чтобы вектор s(k) был подходящим, он дол- жен удовлетворять неравенству (р(&+1), Bs(6))>0, (6.9) где векторы p(k) удовлетворяют сопряженной системе Р (k) =Атр (&+ 1), р (N) = с. (6.10) Или (?(£), s(£))>0, где q(k)=BTp(k-\A). Кроме того, вектор s(k) должен быть нормализован; например, он может удовлетворять ограничениям |5г(Й)|^1 (/=1,..., Г). (6.11) Таким образом, для выбора наилучшего возможного направления нужно решить следующие задачи линейного программирования; г шах 2 qi{k)Si(k), i=l при ограничениях 2яяМ*)>0, /eJ(«x(fc)); i=i SBy3i(v)si(^)>o, /eW) (6.12) i—1 (v=0, 1, .... N-k-, k=0, 1, У-1). Здесь параметр о(k) (см. § 5) можно исключить из-за линейности исходной задачи. Заметим, что в задаче (6.12) часто выгоднее исполь- зовать другие нормализации, чем (6.11), например, вида или если <7f(^)>0, Si(k)^ — 1, если qi(k)<.O. 3. Выбор длины шага. Пусть sl(k)—решение задач (6.12). Если все (q(k), s1(&))=0, то и1 — оптимальное управление; если (q(k), sl(k))>0 для некоторых k, то
§71 ОГРАНИЧЕНИЯ В ВИДЕ РАВЕНСТВ 193 для этих k решим задачи линейного программирования вида шах е(£), x’(^+v)+e(^)IF(v)s1(fe)>0, G[«'(/г) 4-е (/?)s'(£)]>£ (v=0, .... N-k; k = 0, 1, .... X-l). Положим е1 = min {e(fe)}. Считаем, что е’<°о. 0<h<N—1 Величина в1 определяет наибольшую длину шага вдоль направления s1 при данных ограничениях. Так как ли- нейная форма без ограничений имеет максимум в оо.то, очевидно, е1 — наилучшая допустимая длина шага. По- этому положим u2(k) =uI(&)+eIs1(A) и т. д., пока не бу- дет получено, что (q(k), s(k))—0 (k=0, ..., У—1). В заключение заметим, что рассматриваемая задача является задачей линейного программирования, которую вследствие (6.5) можно представить в виде N-1 max 5 (с, IF^-1-/)«(/)) У=0 при ограничениях Л-1 2 w (k - 1 - /) и (/) > - h (k), (6 I3) Однако если размерности векторов u(k), x(k) и чис- ло шагов N велики, то задача линейного программиро- вания (6.13) будет иметь большой размер, и ее решение может представить затруднение. Рассмотренный же ме- тод сводит решение исходной задачи (6.1) — (6.4) .(или (6.13)) к решению задач линейного программирования меньшего размера и является, по существу, методом де- композиции для рассматриваемой задачи. § 7. Ограничения в виде равенств Рассмотрим теперь задачи, в которых ограничения на переменные состояния задаются только на последнем Шаге и в виде равенств. А. И, Пропой
194 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ (гл. VI Пусть они имеют вид фИх(^))=0 (/=1. men). (7.1) В частности, x(N)=b. (7.2) Кроме того, u(k)<=Uh (А = 0, 1, .... N-1). (7.3) Здесь ф3(х)—функции с непрерывными частными производными, причем градиенты этих функций 5ф, (х)/дх (/=1, .... т) линейно независимы при любых х из Еп. Таким образом, в этом случае Xk=En (k—\, N—1), a XN — гладкое многообразие размерности п — т, зада- ваемое равенствами (7.1). Рассмотрим сначала случай ограничений (7.1) и для простоты будем считать, что т=1, т. е. конечное состоя- ние должно лежать на поверхности ф(х(У))=0. (7.4) Для того чтобы найти допустимое управление (т. с. переводящее х(0)=а на поверхность (7.4)), возьмем произвольное управление и, удовлетворяющее (7.3), и найдем соответствующее конечное состояние x(N). Если для этого состояния ф(х(Л/))>0, то методами возмож- ных направлений (§ 3) будем минимизировать ф(х(М)) по всем управлениям, удовлетворяющим (7.3); если же ф(х(М))-<0, то ищем максимум ф(х(М)). Так как эти методы обеспечивают последовательное увеличение (или уменьшение) функционала, то, очевидно, этим способом найдется управление, удовлетворяющее (7.3), (7.4). Пусть и1 — такое управление. Так как множество Хх, определяемое равенством (7.4), не содержит внутренних точек, то здесь уже нельзя варьировать управление толь- ко на одном шаге (6«1(й)еК(«1(Л)); б«1(/)=0; /=Н=А), так как такая специальная вариация почти всегда будет выводить точку x’(W) за пределы множества XN, т. с. не будет допустимой по ограничению (7.4). Поэтому в этом случае нужно варьировать управление и1 на не- скольких шагах одновременно, с тем чтобы соответству- ющая вариация 8xl(N) конечного состояния была бы направлена по касательной к поверхности (7.4) (т. е.
ОГРАНИЧЕНИЯ В ВИДЕ РАВЕНСТВ 195 принадлежала бы конусу допустимых вариаций в широ- ком смысле М (х1 (N)) в точке х1 (N)). Уравнение касательной к поверхности (7.4) в точке (У) имеет вид (т^Г-. wm) = o. (7.5) Таким образом, задача выбора наилучшего направле- ния в этом случае уже не распадается, как в §§ 3—6, а имеет вид n_________________j а(Ч) (7.6) при условиях (N—i \ % 1Г(^-1,/г)х(/г),^О- =0, (7.7) /г=0 ил vv/ / s(k)e=K(u'(k)) (& = (),..., ЛГ-1). (7.8) Кроме того, как обычно, векторы s(k) должны быть нормализованы. Здесь функция Гамильтона H(u(k))==H(p(k+V),x(k), u(A)) определена из (3.1.3), а переменные p(k)—из (3.1.1), (3.1.2). Направление z‘(.V) изменения xl(N) определя- ется из уравнения г N—1 г1 (N) =2 W1 (N - 1, k) s1 (Л), (7.9) h=0 где Wl(y, k)=A'(y) A1 (v-1) ... A1 W^k, k)=B'(k) (v=£-|-l,..., W-l) — матрицы размера (rXn)- Соотношение (7.9) вытекает из рекуррентного уравнения z1 (Л+1) =Д1 (k)zl (k) 4-В1 (k)sx (k); z1 (0) =0, где матрицы Д*(А) 11 5’(ft) определены из (5.4), (5.5) иа процессе и1, х1. Задача (7.6) — (7.8) при соответствующей нормализа- ции векторов s(k) является задачей линейного програм- J3*
196 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. VI мирования, и из-за наличия общего ограничения (7.7) она уже не распадается на отдельные независимые под- задачи типа (3.5) — (3.8). Однако если использовать методы декомпозиции ли- нейного программирования в этой задаче, то ее решение сведется к решению отдельных подзадач типа (3.5) — (3.8), связанных между собой простым образом. Не вдаваясь в детали, опишем общую идею этого метода. Рассмотрим вместо задачи (7.6) — (7.8) двой- ственную ей задачу . 1дН (и! (Л)) . =min max -J-т-л + к k=Q «(fc)eS‘(fc) \ 011 W Здесь через S‘(k) обозначена область значений век- торов s(k), удовлетворяющих (7.8) и условиям нормали- зации. При соответствующей нормализации S'(^) — вы- пуклые многогранники. Решение двойственной задачи (7.10) уже не пред- ставляет труда. Выберем некоторое Х=Ац и для этого %ц решаем N задач линейного программирования: + MV- -1 .Ч1г s s(k)f=Sl(k) (A=0,..., 1). Зная решения sH(&) этих задач, можно провести уточнение Хц, например, по формуле __________________1 *12 = *11 - 71 So (w1 (N - 1. , S” (*)) (Vi>0) и т- пока не будет получено решение задачи (7.10): Xi, sl(k)^S'(k). Векторы sl(k) в силу соотноше- ний двойственности удовлетворяют равенству (7.7) и максимизируют (7.6). Являясь, таким образом, решением задачи (7.6) — (7.8), они определяют наилучшее допусти- мое направление в этом случае.
ОГРАНИЧЕНИЯ В ВИДЕ РАВЕНСТВ 197 Аналогичным образом решается и общий случай ог- раничений (7.1), когда т>\. Перейдем теперь к задаче, когда конечное состояние процесса x(N) задано, т. е. должно выполняться равен- ство (7.7). В этом случае задачу оптимизации конечного состояния рассматривать не имеет смысла, поэтому бу- дем считать, что показатель качества задается в виде суммы (1.3.6). Для того чтобы определить допустимое управление, переводящее х(0)=а в Ь, достаточно решить (например, методами § 3) задачу минимизации рассогласования (x(Af)—6, x(N)—b) на траекториях системы. Пусть и1 — такое управление. Так же, как и в предыдущей задаче, здесь уже нельзя использовать специальные вариации управления и1 только на одном шаге, потому что для них всегда бхЦМ)#;!), а следует рассматривать общую вари- ацию управления би1(6) (6=0,..., У—1), при которой соответствующее 6x'(jV)=O. Таким образом, задача выбора наилучшего направле- ния в этом случае сводится к задаче линейного програм- мирования вида р.11) при условиях И?1 (N - 1, k) s (6) = 0, (7.12) h=0 s(k)f=S'(k) (6=0,..., N-\), (7.13) где функция Гамильтона Я(м1(6))=Я(р1(64-1). м'(6)) определена из (3.1.11), а переменные р1— из (3.1.9), (3.1.10). Задача (7.11) — (7.13) аналогична задаче (7.6) — (7.8) и может быть решена теми же методами, что и первая задача. Однако, в отличие от задачи (7.6) — (7.8), задача (7.11) — (7.13) имеет не одно общее ограничение, а п об- щих ограничений (7.12), что, естественно, усложняет ее. Таким образом, в этом параграфе для того, чтобы Управление на каждой итерации удовлетворяло ограни- чениям в виде равенств, были построены особые допу- стимые вариации управления, нахождение которых уже не является такой легкой задачей, как, например, для случая § 3. Однако на практике часто и не требуется
198 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. VI точного выполнения ограничений в виде равенств, а д0. статочно выполнения их лишь с некоторой точностью Поэтому вместо решения задачи с ограничениями в виде равенств (7.1), (7.2) можно решать задачу с ограниче- ниями, например, вида -6ljCcpJ(x(W)X62j (/=• 1, ш), (7.14) (i=l......n), (7.15) где неотрицательные числа бу, б2з-, бу, 62i характеризу- ют требуемую степень точности выполнения равенств (7.1) и (7.2). Решение же задач с ограничениями в виде неравенств часто оказывается проще и может быть полу- чено комбинацией методов §§ 5 и 7. § 8. Метод штрафных функций В предыдущих параграфах было видно, что учет ог- раничений на управление, задаваемых посредством раз- личного рода условий на переменные состояния, не явля- ется простой задачей (см., например, §§ 5, 7). Здесь будет кратко изложен общий прием, который позволяет просто учитывать любые ограничения, вводя в показатель качества дополнительные члены, определя- ющие «штраф» за нарушение данного ограничения. Этот прием, различные реализации которого объединя- ются в метод штрафных функций, в настоящее время получает все большее распространение и значение. Это объясняется тем, что метод штрафных функций дает од- ну из наиболее простых и в то же время общих схем (сюда, в частности, укладываются и методы, использую- щие множители Лагранжа) учета ограничений в задачах оптимизации. Недостаток метода — трудность получения точного решения, поэтому его наиболее целесообразно использовать в сочетании с другими методами. Рассмотрим сначала одношаговую задачу оптимиза- ции (см. гл. II): шахФ(х), (8.1) где множество R предполагается, ограниченным и замК' нутым, а функция Ф(х) —непрерывной на R.
МЕТОД ШТРАФНЫХ ФУНКЦИИ 199 Введем функцию . . (= 0, если x^R, XWLл -D [> 0, если XGEK, и вместо задачи (8.1) рассмотрим задачу шах Ф (х, X), х(=Еп (8-2) (8.3) где Ф(х, X) = Ф(х) — Х%(х). (8.4) Пусть х(\)—решение (8.3) при фиксированном Л. Следующее утверждение, которое здесь приводится без доказательства, дает обоснование метода штрафных функций. Теорема 8.1. Существует предел limx (Л.) = х*, Х->со причем в точках функция Ф(х) достигает своего максимального значения на множестве R и lim max Ф (х, X) = Ф (х*). (8.5) Рассмотрим теперь несколько примеров использова- ния метода штрафных функций для решения задач дис- кретного управления. Пусть ограничения па переменные состояния задают- ся в виде (1.2.1а). Тогда решение исходной задачи мож- но заменить решсниехМ задачи максимизации показателя качества вида N—1 N s(h) -Jr s 2 (8.6) h=0 h=0 j=i гДе функции %(z) малы (по сравнению с первой суммой (8.6)) при положительных z и велики при отрицательных Например, можно положить z(z) = ^’ Или Х(г) = О, Az, если z > О, если z<fO.
200 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. Vl Здесь X — достаточно большое положительное число. Задача с показателем качества (8.6) уже не имеет ограничений на переменные состояния. Рассмотрим теперь задачу § 7 с ограничениями ца конечное состояние вида (7.1). В этом случае введение показателя качества m 7(Х) = Ф(х(Л0)-2 Ы(х(Ж (8.7) 3=1 где (/=1, ..., т), позволяет свести исходную зада- чу к задаче со свободным концом траектории. Для решения полученных выше задач могут быть ис- пользованы методы возможных направлений, изложен- ные в § 3. В ряде случаев целесообразно учитывать динамику, задаваемую уравнениями движения (1.3.2), также с по- мощью методов штрафных функций. В этом случае вме- сто решения задачи 1' § 1.3, например, приходим к. ре- шению последовательности задач на безусловный экстре- мум вида , N— 1 п lira max {Ф (х (У)) - 2 2 + !) — ut X k==Q i=1 Ц->оо N—1 m fe) — u(k), k]2 + 2 2 (&)£>• «(*)> • h=0 3=1 Близким к методу штрафных функций является вве- дение невязок в ограничения и последовательной мини- мизации этих невязок (точнее, монотонной функции от них). Так, при решении задач с ограничениями на пере- менные состояния полезно рассматривать вспомогатель- ную задачу с уравнениями движения x(A+l)=f(x(£), U(k),k)+v(k) (k=0, 1, .... N—1), где вектор v(k)^En является дополнительным управля- ющим воздействием, и показателем качества N—1 'п „ J(M, ц)=ф(х(^)- 2 fc=0 i=?i
ДВОЙСТВЕННЫЕ МЕТОДЫ 201 9. Двойственные методы Так же, как и для одношаговых задач, вид двойст- венных методов существенно зависит от того, в каком пространстве используется принцип двойственности. 1. Рассмотрим сначала задачу 1 § 5.1, удовлетворя- ющую условиям одноэкстремальности и регулярности 1^4 § 5.2. В этом случае решение исходной задачи 1 мо- жет быть заменено решением двойственной, которая имеет вид min (9.1) где u(k), k)) . (9.2) Фиксируем некоторую последовательность р1=/=0, р’ = = {р'(0), pl(N)} и для р=р1 решим задачу (9.2). Эта задача, очевидно, распадается на Af-H подзадачу (см. § 5.8) вида max [Ф(х(Л0> — (р1 (АГ), (9.3) max max [H (p1 (k + 1), x (k), и (k), k) — (p1 (£), x (&))] *Wexfc u(h)et/ft (k=0, .... У-1). (9.4) Пусть x1 — решение задач (9.3), (9.4). Нетрудно видеть, что градиент функции ф(р) по р(А-]-1) («обыч- ный» или обобщенный, см. § 2.15) имеет вид _^)_) = _х1(^ + 1) + ах1(&)> ui(k),k) (9.5) (Л = 0, .... JV-1). Из (9.5) получим алгоритм для нахождения опти- мальной последовательности р*: Pv+1(ft+l)=pv(ft)-|-ev[xv(A:-|-i)_f(jcv(P), uv(k),k)] (9.6) (v=l,2, ...).
202 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. Vj Здесь uv(&), X*(k)—решение задач (9.3), (9.4). Длину шага 8V можно выбирать постоянной, если это решение единственно, и удовлетворяющую условиям (2.15.13) в противном случае. Таким образом, решение исходной задачи свелось к решению ряда относительно простых задач (9.3), (9.4), связанных между собой также простым образом (9.6). Заметим, что уравнения движения (5.1.4), описывающие процесс, вначале выполненными не предполагаются, и только в процессе итераций находится такая последо- вательность р*, при которой эти уравнения становятся уже справедливыми, а показатели качества прямой и двойственной задач принимают (равные) оптимальные значения. 2. Зададим теперь функцию Лагранжа в виде (см. § 5.7) F(u, х, р, X, р) = N—1 =Ф (х (IV)) - 2 (р (М- 1), X (k -ь 1) - f (х (Р), и (/е), £))) г N N—1 + 2 (М^). h(k, X (£))) -ь 2 (hW. g(k, (9.7) k=0 h=0 где векторы Х(£)ир(£) состоят из неотрицательных ком- понент iii(k) (/=1,..., s(/e); г=1,..., Двойственная задача для функции Лагранжа (9.7) имеет вид (§ 5.7) гп/ппцпттф(р, к, р), (9.8) р ц>0 где ф(р, %, р) = maxF(w, х, р, К, р), (9.9) И, X причем на переменные и, х не накладывается уже ника- ких ограничений. Задача (9.9), как нетрудно видеть, распадается па отдельные задачи шах [Ф (х(ЛГ)) — (p(AQ, х (/V)) + (X(/V), x(W)))],
§ 91 ДВОЙСТВЕННЫЕ МЕТОДЫ 203 max шах [If (р (Л + 1), x(fe), u (k), k) — (р (/г), х(/г)) + «(ft) + (?.(£), h(k,x(k))) + (PW,g(k, u(fc)))l (9.11) (fe=0,..., N— 1). Так как в задачах (9.10), (9.11) не наложено каких- либо ограничений на переменные, то в силу предполо- жений § 5.8 следующие условия необходимы и достаточ- ны для того, чтобы и и х были решением задач (9.10), (9.11): _ дФ (х (/V)) rdh(N,x(N))Y P(N>~ dx(N) +[ dx(N) J (У-12) п(Ьх _ Г У(х(/г), «(fe), fe) 1Г Г Sh(k, x(fe)) У P W — [ dx (fe) ] P + В + [ dx (k) ] t-W, (ЪЛЪ) \df{x(k}, u{k), fe)ir r^(fe, „(fe)) у [------5Mfej----] P (* + !)+ ВД—J 1H«)-O (9.14) (/г==0, 1,..., N— 1). В этом случае метод, аналогичный методу п. 1 этого параграфа, состоит в следующем. 1. Выбираем произвольные последовательности р', Х’>0, ц'>0. 2. При этих значениях р1, X1 и р1 из (9.12) — (9.14) определяем последовательности и1, х1. 3. Находим новые значения р2, к2 и р2 из выраже- ний Р2 (k ф 1) - р’ (k + 1) + еЦх1 (k + 1) - f (х1 (k), uKk),k)], )2 (k + 1) = max{0, M(k) - ^(k, x1 (&))}, u2 (k + 1) = max {0, p.1 (k) - elg (k, u1 (fe))} И т. Д. Таким образом, в двойственных методах, рассмот- ренных в этом параграфе, осуществляется приближение к оптимуму по сопряженным переменным, удовлетворя- ющим (явно и неявно) сопряженной системе (9.12), (9-13). В то же время «прямые» уравнения движения (6-1.4) выполненными вначале не предполагаются.
204 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. V1 § 10. Линейная система Применим рассмотренный метод для максимизации показателя качества N—1 N—1 J= 2/ю(*(б))+ 2 А» («(&))> h=0 h=0 где fio(x) и f2o(«) —строго выпуклые вверх функции, на процессе, описываемом линейным уравнением вида x(k+l)=A(k)x(k)+B(k)u(k) (10.1) при ограничениях x(k)<=Xh (10.2) u(k)f=Uk (6=0,..., N— 1), (10.3) где Xft, Uk — выпуклые множества. 1) Выберем произвольную последовательность рх (не все р’(&)=0) и решим задачи (6=0,..., N— 1) max (х (6)) + (pl (k + 1), A (k) х (6))], (10.4) x(h)exfc max [f20 (и (6)) + (р1 (k + 1), В (k) и (6))]. (10.5) Так как функции fio(x) и f2o(u) строго выпуклы, то решение этих задач единственно. Обозначим его через х1 и и1. 2) Зная х1 и и1, найдем новые значения р2(6+1) из Р2(Й+1)=Р1(^+1)+81[х1(^+1)- —A(k)xl(k)—B(k)ul(k)] (10.6) (6=0,..., N— 1). Процесс решения прекращается, как только будет найдена такая последовательность р*, для которой со- ответствующие и*, х*, являющиеся решением задач (10.4), (10.5), будут удовлетворять уравнениям движе- ния (10.1). Этот же алгоритм можно применять и для случая не- строго выпуклых функций fio(x) и f20(u). Например, если эти функции линейны, a Uk, Хк — выпуклые многогран- ные множества, то решение исходной задачи сводится к
§ 11] \ ПРИБЛИЖЕНИЕ ПО ГРАНИЧНЫМ УСЛОВИЯМ 205 последовательному решению задач линейного програм- мирования (10.4), (10.5) меньшего размера, причем дли- ну шага в (10.6) нужно уже выбирать специальным об- разом (см. § 2.15). Двойственным методам часто можно дать физиче- скую интерпретацию. Например, пусть решается задача планирования, рассмотренная в п. 1 § 1.1. Уравнения, описывающие процесс, в этом случае имеют вид х(^4-1) =Л (Л)х(&)+В (fe)tz(^) — s(£), (10.7) где переменные u(k) означают интенсивности использо- вания производственных мощностей, переменные x(k) — количество готовой продукции, хранящейся на складе, s(k)—количество проданной продукции и переменные р (k) — некоторые цены. Планирующий орган отвечает за сбалансированность запасов, выпуска и продажи, т. е. за выполнение урав- нений (10.7). Кроме того, он стремится получить такую последовательность оптимальных интенсивностей u(k) в течение планового периода (&=0, ..., N—1), при ко- торых общая прибыль системы J максимальна. Делать это он может, рассчитав оптимальный план «* (например, прямыми методами §§ 5, 6) и «спустив» этот план предприятиям. Это — прямой метод решения. При таком методе существен жесткий контроль за вы- полнением оптимального плана и*. Двойственный метод решения задачи показывает, что оптимального плана можно достичь другим способом. При этом планирующий орган спускает некоторые цены Px(k) предприятиям, выпускающим готовую продукцию, и базам, ее хранящим. Предприятия максимизируют свою прибыль из (10.5), а базы — из (10.4)—свою. При не- балансе (x^+l)— — Bu'fk)— s'(k)=£O) планиру- ющий орган назначает новые цены согласно (10.6). § 11. Приближение по граничным условиям Двойственные методы, изложенные в §§ 9, 10, имели тот недостаток, что в них прямые уравнения движения (1.2.3) выполняются только на оптимальном процессе.
206 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. V ij Если это физически не обосновано, то тогда любое приближенное решение двойственной задачи не будет до- пустимым для исходной и, следовательно, не представ- ляет большой ценности. В то же время как прямые, так и сопряженные уравнения имеют простую рекуррентную структуру и их желательно использовать в процессе вы- числений. Такие методы будут рассмотрены в этом и последую- щих параграфах. Они используют условия оптимально- сти главы IV и §§ 8—10 главы V. Поскольку в них осу- ществляется одновременное решение прямой и двойст- венной задач, эти методы формально можно отнести к третьей группе (см. Введение гл. VI). Рассмотрим сначала задачу максимизации конечного состояния У=Ф(х(А0), где Ф(х) —выпуклая вверх функция, на процессе x(k+l)=Ax(Jt)+Bu(k), х(0)=а, u(k)f=U (6=0,..., V—1), где U — выпуклое множество. Будем предполагать, что матрица А — неособая, т. е. ее определитель не равен 0. Так как ограничений на переменные состояния нет, то в этом случае естественно сразу использовать как прямые уравнения движения (11.1), так и сопряженные, которые в данном случае имеют вид p(k)=ATp(k+l) (k = N — 1,..., 1). (11.2) Рассматриваемая задача, как показано в § 1.4, сво- дится к задаче тахФ (z(V)), (11.3) x(N)(=RN(a) где Rn(ci) —множество достижимых за N шагов состо- яний из х(0)=а для этой задачи. Оно выпукло в силу выпуклости множества U и линейности урав- нений (11.1). Поэтому к задаче (11.3) можно применить двой- ственный метод, изложенный в п. 1 § 2.15.
§ П] ПРИБЛИЖЕНИЕ ПО ГРАНИЧНЫМ УСЛОВИЯМ 207 Для этогб прежде всего «обернем» время в сопряжен- ной системе р(64^)=А*р(6) (6=1,..., У-1). (11.4) где А*=(А“1}Т. Это можно сделать, так как матрица А неособая. 1. Выберем^ теперь произвольное начальное состояние р!(1) сопряженной системы (11.4) и для р(1)=рЦ1) найдем из (11.4) последовательность р1(2),..., pl(N). 2. Определим управление и1 из решения задач шах(р1(6 + 1), Bu(k)) (6 = 0, ...,ЛГ —1). (11.5) и (fc)(=tz 3. Зная и](6)—решение задач (11.5), — найдем из (11.1) соответствующую траекторию х1 при х(0)=а. 4. Вычислим дФ^1 (7V))/dx(7V). Если (11.6) то в силу теоремы 4.5.1 — оптимальное управление. Если же то изменим p'(N) по формуле (см. § 2.15): Р2(АГ) - р’ (АГ) + 8- Р1 w)• (11.7) Или p2(N)=pi(N)+!>q'(N), где 5. Соответствующее изменение начального состояния сопряженной системы определится из (11.2): р2(1)=р1(1)+ет^1(^ (11.8) и т. д., пока не будет найден такой процесс {и*, х*, р*}, при котором справедливо равенство (11.6) и который в силу теорем § 5 будет оптимальным для начального со- стояния х(0) = а. Аналогичный метод в принципе можно использовать и Для нелинейных систем общего вида (1.2.3). Рассмотрим
208 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. V .1 для определенности, задачу оптимизации конечного состо- яния § 4.2. Будем предполагать, что множества f(x, U) выпуклы при всех х для этой задачи, т. е. на оптимальном управ- лении справедлив принцип максимума (см. § 4.2). Кро- ме того, допустим, что из условий max И (р (k + 1), х1 (k), и (k)) — Н (р (& + 1), х1 (fe), и1 (£)), (11.9) -ЭН^),Ц(^-|г + = р1 (fe) ил yKj однозначно определяются р1(&4-1) и ul(k) при фикси- рованных значениях р'(Л) и хЦк). В этом случае, за- даваясь начальными состояниями прямой и сопряжен- ной системы: р(1)=р1(1), х(0)=а, из (11.9), (11.10) и (1.2.3) последовательно находим значения ul(0), х1^!), р’(2), (1),..., пока не будут найдены pl(N) и дФ(х’(N))/dx(N). Новое значение pz(N) (или р2(1)) вычисляется так же, как и в линейном случае (см. (11.7), (11.8)). Решение системы (11.9), (11.10) упрощается, если уравнения движения имеют вид х(*+1)==Л(х(*)Ш2(«(*)). (Н.П) В этом случае (11.10), (11.9) переходят в p1(^+1)-p1W, (И.12) max (р1 (k + 1), f2 (и (£))) = (p1 (k + 1), f2 (n1 (*))). (11 • 13) u(k)eu Задаваясь значениями p’(l) и x(0)=a, из (11.13) определяем ul(0), затем из (11.11)—х'(1), а из (11.12)—р1 (2) и т. д., т. е. здесь процедура определе- ния р1 (УУ) и х1 (N) мало отличается от аналогичной про- цедуры в линейной системе. Здесь также нужно предпо- лагать, что матрицы dfi(x)/dx — неособые при любых х. Таким образом, во всех рассмотренных выше схемах из принципа максимума и уравнений прямой и сопря- женной систем по значениям начальных состояний а и р!(1) определяются конечные значения x'(N) и p’(Af).
§12] l ОГРАНИЧЕНИЯ НА СОСТОЯНИЯ. II. 209 Если при1 этих значениях справедливо равенство (11.6), то выполнены необходимые условия оптимально- сти и управление и1 для данного x(Q)—a локально оп- тимально. Выбирая различные начальные значения р1, можно в принципе получить и оптимальное для этого х(0) управление. Следовательно, задача определения оптимального управления и (размерности Nr) свелась к последователь- ному решению N задач (11.10) (размерности г) и к ми- нимизации по р(1) (размерности п) рассогласования дх (N) ' (точнее, некоторой скалярной и монотонной функции от рассогласования). Трудности при таком методе возни- кают при выборе новых значений р(1), так как градиент функции рассогласования неизвестен в явном виде для большинства задач. Кроме того, если, например, в линейной задаче Brp1(ft+l)=0 для какого-то p^ft-j-l), то из (11.5) со- ответствующее значение и1 (ft) определить невозможно, и необходима комбинация этого метода с прямыми ме- тодами. Заметим, что можно было бы задаться конечными значениями прямой и сопряженной системы р1 (N) = =d<b(xx(N))ldx(N) и, «обернув время» в прямой систе- ме (1.2.3), свести задачу к оптимизации рассогласова- ния между заданным х(0)=а и полученным х’(0) на- кальным состоянием прямой системы (1.2.3). § 12. Ограничения на переменные состояния. 11 В этом параграфе рассмотрим задачу максимизации конечного состояния /=Ф(х(М)) при уравнениях дви- жения X(ft4-l)=A(x(ft))+f2(«(ft)) (12.1) И ограничениях й; (х (Л)) > 0 (/ = I,..., s; k= 1,..., N), u(k)t=U (й=0, 1,..., W— 1). Начальное состояние считается фиксированным: х(0) =а. 14 А, И. Пропой
210 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. VI Будем предполагать, что выполнены условия опти- мальности § 5.9. Тогда для этой задачу справедлив принцип максимума max (12.2) где значения р' (k) удовлетворяют сопряженной системе = + (12.3) (6 = АГ- 1,..., 1), /Д7\ дФ (х1 (AQ) । I Oh (х1 (AQ) 17 л 7 / » /19 /В Р ~ дх (N) дх (N) ] Л (1 —'1) Предполагаем, что матрицы dji(x)/dx неособые при любых х. Для нахождения управления, удовлетворяющего не- обходимым условиям оптимальности (12.1) — (12.4), можно применить следующий метод, полученный из ре- зультатов §§ 9—11. 1. Выбираем произвольное начальное состояние р!(1) сопряженной системы (12.3) и произвольную последова- тельность неотрицательных векторов hl(k) (А=1, ... ...,2V). 2. Из (12.2) при k—1, р(1)=/Р(1), х(0)=а опре- деляем /Р(0). 3. Из (12.1) находим соответствующее х!(1). 4. Из (12.3) при /г=1, х(1)==х1(1), р(1)==р1(1), %(1)=%1(1) определяем р!(2). Операции 2—4 повторяются, пока из (12.1) — (12.3) не будут получены x^N) и p'(N). 5. Новое значение р2 (ЛА) вычисляется, как и в § 11, из от = ₽ от + >.W-₽W} 6. Новые значения №(k) вычисляются, какив§9, из X2(£)=max{0, Л1 (k)+&'h(x' (k))} (6=1,..., N). Процедура повторяется до тех пор, пока не будут достигнуты такие и, х, р, X, при которых выполняются необходимые условия оптимальности (12.1) — (12.4).
§ 13] ПРИБЛИЖЕНИЕ В ПРОСТРАНСТВЕ УПРАВЛЕНИЙ 211 § 13. Приближение в пространстве управлений В этом параграфе будут изложены методы, являю- щиеся аналогом метода пл| § 2.16. Рассмотрим сначала линейную задачу оптимизации конечного состояния, сформулированную в начале § 11. Выберем произвольное допустимое управление и1. Для него при заданном начальном состоянии х(0)=я найдем соответствующую траекторию х1 и затем, из со- пряженной системы (11.2), считая выполненным гранич- ное условие (11.6),— сопряженные переменные р1. Для г р дх (N) решим задачу max (р1 (N), х(АО). *(N)eRN(o) (13-1) Очевидно, что в силу линейности уравнений движе- ния задача (13.1) эквивалентна задачам max (p^k + V),Bu(li)) (k = 0,..., ЛГ- 1). Пусть w21(A>)—решение этих задач. Тогда новое управление и2 и соответствующую траекторию х2 най- дем из условия (см. § 2.16) u2(k)=u^(k)+&[u2i(k)(й = 0, 1,..., N— 1), х2(й)=х1(^)+е[х21(^) — (6=1,..., N). Длину шага находим из условия шах Ф [х1 (N) + в (х21 (У) - х1 (N))]. 0<е<1 Таким образом, этот метод является полным анало- гом метода п. 1 § 2.16, и его обоснование, а также оцен- ку приближения можно получить из неравенства Ф(х* (/V)) - ф (X1 (АГ)) < max [(р1 {k + 1), u(k)<=U Bu(k)) — (pl(k+i), Bu'lk))]. Этот метод можно распространить и на другие ти- пы одноэкстремальных задач.
212 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. у.] Формально его можно применять и для любых типов задач, для которых справедлив принцип максимума, од. нако в этом случае его уже нельзя строго обосновать. Если нет ограничений на переменные состояния, то этот метод будет состоять из следующих операций: 1) выбираем произвольное допустимое управление 2) для заданного начального состояния х(0)=а оп- ределяем из прямых уравнений (1.2.3) траекторию х1; 3) полагаем pl(N) =дФ(х1(М))/дх(М) и из сопря- женной системы уравнений (3.1.1) определяем перемен- ные р1; 4) составляем функцию Гамильтона и находим но- вое управление u2i из решения задач max Н (р1 (k + 1), х1 (fe), и (£)) = Щр1 (*4-1), х1 (k), и21 (ф). Операции 1)—4) повторяются, пока не будет най- дено такое управление иУ (v — номер итерации), при котором (13.2) обращается в тождество, т. е. uv=«v-1, и при котором, следовательно, выполнены все необхо- димые условия оптимальности. Чтобы не осложнять метод задачей выбора длины шага, здесь положено 8=1. В общем же случае новое управление следует вычислять из u2(k)=u1(k)+e[u2l(k)-u\k)] (k=0, 1....N— 1), где длина шага вычисляется также, как и в методах возможных направлений (§ 3). Таким образом, этот метод может рассматриваться, с одной стороны, как метод возможных направлений со специальной нормализацией подходящих допустимых направлений s(k)=u21(k)—u1(k) и, с другой стороны, как метод одновременного решения прямой и двойствен- ной задач, в которых минимизируется рассогласование max Н (р1 (k + 1), х1 (k), и (k)) - Н (р1 (6+1), х1 (k), u1 (k)) Пусть теперь на переменные состояния наложены ограничения hj(x(k))^Q (/=1, ..., т; k=i, ..., N).
§ 13] ПРИБЛИЖЕНИЕ В ПРОСТРАНСТВЕ УПРАВЛЕНИЙ 213 Тогда рассматриваемый метод будет состоять в сле- дующем: 1) выбирем произвольное управление и1, u'(k)^U, и произвольную последовательность неотрицательных векторов V, V(fe)>0 (fe=l, AQ; 2) для заданного начального состояния х(0)=а оп- ределим из прямых уравнений (1.2.3) траекторию х1; 3) при u=u1, х=хг и определим последова- тельность сопряженных переменных р1; 4) составим функцию Гамильтона и найдем управ- ление из решения задач max Н (р1 (k + 1), х1 (fe), и (fe)) = Н (р1 (fe +1), xl (k), u21 (fe)); u(k)^U 5) определим новое управление и2 и новую последо- вательность I2 (управление в двойственной задаче, см. § 5.7) из u2(fe)=w1(fe)+e,[u21(fe)-u1(fe)] (fe=0, 1, ..., AA—1), X2(fe)=max{0, V(fe)-e,ft(x1(fe))} (fe=l, ..., N). В заключение сделаем одно замечание, позволяющее в некоторых случаях расширить возможности изложен- ного метода. Допустим, что задача вначале решается одним из методов возможных направлений, изложен- ных в §§ 2—7 этой главы. Тогда при подходе к оптиму- му часто становится ясным, какого рода экстремальное значение принимает функция Гамильтона на оптималь- ном управлении. Допустим, что это — абсолютный ми- нимум. Так как вблизи оптимума «обычные» методы возможных направлений часто дают уже медленную сходимость, то в рассматриваемом случае удобнее на последующих итерациях использовать методы, рассмот- ренные в этом параграфе, заменяя операции (13.2) на min Н (р1 (fe + 1), х1 (fe), и (fe)) = Н (р1 (fe + 1), х1 (fe),u21(fe)). (13.3) Если же функция Гамильтона на оптимальном уп- равлении имеет, например, локальный минимум, то опе- рацию (13.2) в некоторых случаях можно заменить
214 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ, V,I взятием минимума функции на некоторой ок- рестности точки u(k). Изложенный прием, хотя в общем случае и не обос- нованный строго, позволяет часто существенно повысить скорость сходимости вблизи оптимального управления. § 14. Обсуждение методов Выше были рассмотрены условия оптимальности для различных типов задач дискретного управления и на ос- нове их построены методы нахождения оптимального управления. Вопрос о применении того или иного мето- да зависит от специфики задачи и должен решаться в каждом конкретном случае. Так, если задача имеет относительно простую струк- туру без сложных ограничений на переменные состоя- ния, то лучше воспользоваться прямыми методами, рас- смотренными в §§ 2—7. Основная черта этих методов, как уже упоминалось, состоит в том, что в них на каждой итерации улучша- ется допустимое управление. Поэтому здесь управление, которое получается на любой итерации и которое заве- домо лучше, чем начальное, может быть использовано в качестве реального управления в оптимизируемой си- стеме. Для ускорения сходимости вблизи оптимума удобно пользоваться специальными нормализациями направле- ния, например, типа тех, которые были рассмотрены в § 13. Непосредственное же применение методов, исполь- зующих принцип максимума (§§ 12, 13), может оказать- ся более трудоемким, особенно для задач с большим числом управляющих воздействий (г велико). В этом случае определение глобального максимума функции Гамильтона на каждой итерации может быть связано с достаточно сложной задачей линейного или нелинейного (даже невыпуклого, см. пример § 4.3) программирова- ния. В то же время ясно, что «вдали» от оптимального процесса разумнее не искать абсолютного максимума функции Гамильтона, поскольку значения р(&+1) дале- ки от оптимальных, а сделать лишь шаг к этому макси- муму, что и используется в прямых методах.
ОБСУЖДЕНИЕ МЕТОДОВ 215 § 14] Вблизи же оптимума для ускорения сходимости уже лучше воспользоваться специальными нормализациями направления, в частности и той, которая приводит к максимизации функции Гамильтона (§ 13). При наличии же большого числа сложных ограниче- ний в задаче дискретного управления удобнее приме- нять различного типа двойственные методы (см. §§ 9, 10 этой главы), вводя множители Лагранжа для тех ограничений, для которых трудно построить (или использовать) допустимые вариации в прямых методах. Отметим, что прямые методы обеспечивают (при со- ответствующем выборе длины шага) монотонное увели- чение показателя качества (если ищется его максимум), приводя практически к одному из локальных максиму-* мов, а не к другим стационарным значениям показате- ля качества. В методах, использующих множители Лагранжа (§§ 9 ,10), итеративный процесс может, вообще говоря, остановиться на стационарной точке любого типа, а из-за немонотонности процесса полученное приближе- ние может еще существенно не удовлетворять требуе- мым ограничениям. В то же время различные вариан- ты использования множителей Лагранжа могут быть весьма эффективными, особенно для учета разного рода ограничений на переменные состояния. Для определения глобального экстремума показате- ля качества можно проверить полученное решение с по- мощью достаточных условий оптимальности (§5.5), либо выбрать несколько начальных значений тех перемен- ных, по которым осуществляется приближение к опти- мальному процессу. Наконец, можно разбить перемен- ные u(k) и x(k) на конечное число значений и для полу- ченной задачи найти оптимальный процесс методами динамического программирования. Полученное решение будет с некоторой точностью определять оптимальный процесс исходной задачи, который можно уже уточнить С любой степенью точности с помощью рассмотренных В этой главе методов. Выше были рассмотрены методы решения для опти- мизации простых (односвязных) дискретных систем, Уравнения движения которых имеют вид (1.2.3).
216 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. V.1 Если задача отличается по своей структуре от рас- смотренных, то для ее решения можно применить сле- дующий метод (который при желании может быть пол- ностью обоснован). 1. Составляется функция Лагранжа для рассматри- ваемой задачи. Причем в эту функцию с соответствую- щими множителями Лагранжа следует включать лишь те ограничения, которые желательно не учитывать в прямом методе. Если ограничения заданы в виде неравенств, то со- ответствующие множители Лагранжа должны быть не- отрицательны. Если ограничения заданы в виде ра- венств, то знак множителей Лагранжа не фиксируется. 2. Функция Лагранжа дифференцируется по своим переменным, в результате чего определяются направле- ния возрастания (убывания) функции Лагранжа по этим переменным (подходящие направления). 3. После этого, определяя допустимые направления изменения переменных функции Лагранжа, можно сфор- мулировать необходимые условия оптимальности. Если ограничений на направления нет, эти условия имеют вид равенств, в противном случае они задаются систе- мой неравенств. 4. Если какой-то группе из полученных условий оп- тимальности трудно удовлетворить сразу, то по этим пе- ременным осуществляется спуск в подходящем направ- лении. § 15. Системы с запаздыванием В качестве иллюстрации изложенного в предыдущем параграфе подхода рассмотрим системы с запаздывани- ем, которые часто приходится рассматривать при управ- лении экономическими системами, системами с распре- деленными параметрами и др. В этом случае процесс описывается уравнением вида х(А-Н) = =f(x(k—«О, ..., x(k—u(k—mi), ..., u(k—Шц)), (15.1) где {«1, .... Пч}, {mi, ..., тц}—наборы целых чисел,
§ 151 СИСТЕМЫ С ЗАПАЗДЫВАНИЕМ 217 вектор x(k) = {xi(k), xn(k)} по-прежнему описыва- ет состояние процесса, а вектор u(k) = {ui(k), ... ..., ur(k)}—управляющие воздействия на Л-м шаге. В частном случае, когда оба множества {«i, ..., nv} и {mi, ..., т^} состоят только из нулевых элементов, приходим к обычной дискретной системе x(Z-+l)=f(x(A), u(k)). Заметим, что последующие рассуждения непосред- ственно обобщаются на случай, когда функция f и чис- ла v, ц зависят от номера k, поэтому эта зависимость в (15.1) не указывается. Рассмотрим следующую задачу управления системой (15.1). Заданы начальные состояния x(-ni)=a(i) (i=l, ...,v). (15.2) Предполагается, что векторы u{k) и x(k) могут при- нимать значения только из заданных множеств u{k)<=Uh, (15.3) x(k)f=Xh. (15.4) Процесс управления рассматривается при фиксиро- ванном числе шагов: k=0, 1, ..., N—1. Качество управ- ления оценивается суммой N—1 J — 2 /о(х(^—ni)> • • • ,x(k—nv); u{k—m-^,... ,и{к—тцУ). k=0 (15.5) Требуется найти такое управление {«(—mi), ... .., и{—тц),и{1—mi),..., и(1—т»),..., u{N—1—mi),... ..., w(?V—1—тц)} и соответствующую ему в силу урав- нений движения (15.1) и начальных условий (15.2) траек- торию {х(—П1), . . ., х(—tlv), х(1— til), •••> х(1— nv), ... ..., x(N—ni), .••> x{N—nv)}, удовлетворяющие ограни- чениям (15.3), (15.4), для которых показатель ка- чества (15.5) принимает максимальное значение. В дальнейшем будем предполагать, что функции fi(i=0, 1, ..., п) непрерывно дифференцируемы повеем своим аргументам.
218 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ, V.I Введем векторы z(fe) = {x(fe—nJ, x(k—nv)}, (15.6) а={а(1).....a(v)}, (15.7) v(k) — {uik—mi),u(k—mj)}. (15.8) С учетом этих обозначений уравнение (15.1) и показа- тель качества (15.5) перепишутся в более привычном виде x(ft+l)=f(z(£), v(k)), z(0)—a, (15.9) N-l S f0(z(k),v(k)). (15.10) b=0 Поскольку цель этого параграфа состоит в иллюстра- ции подхода, изложенного в § 14, а не в детальном ис- следовании систем с запаздыванием, мы не будем рас- сматривать общую постановку задачи (15.1) — (15.5), а ограничимся двумя частными случаями. А) Системы с запаздыванием только по управлению. Пусть {ni, ..., nv}=0, т. е. уравне- ния движения имеют вид x(fe-]-l)=f(x(fe); u(k—mi), ..., u(fe—ти)) (15.11) и показатель качества N—1 J = 2 /о (X (/<); и (k - mJ, ..., и (k - /пи)). (15.12) В соответствии с изложенным в § 14 методом соста- вим функцию Лагранжа N-1 F (х, и, р) = S /0 (х (fe); и (/г — mJ, ..., и (fe — mJ) -|- /г=0 N-1 + 2о (Р (k + 1), f (х (Ji); и (Ji - mJ, ...,u(Ji — mJ)) — -x(fc+l)), (15.13) которая определена при x(A)eXh и u(k)^Uh.
§ 151 СИСТЕМЫ С ЗАПАЗДЫВАНИЕМ 219 Продифференцируем функцию F по своим аргументам dF _ df0 (х (k),v(k)) дх (к) dF du (ft — mj) Г df (x (k), и (k — mi), дх (к) + dfo (х (к), и (k — nii), дх (k) ____________тц)) ди (k — ntj) ди (k — m^) = 1, ..., (i; k=0, 1 лг-1). (15.14) (15.16) Векторы (15.14) — (15.16) определяют направление наискорейшего возрастания функции F по своим аргу- ментам. Пользуясь выражениями (15.14) — (15.16), мож- но получить различные необходимые условия оптималь- ности и вытекающие из них вычислительные методы для исследуемой задачи. В частности, если Х&— открытые множества, a Uh ограничены и замкнуты, то из (15.14) — (15.16) получим следующие условия оптимальности (их можно строго доказать, пользуясь методами гл. III). Пусть и* — оптимальное управление. Тогда на опти- мальном управлении справедливы неравенства SjH(p* (6-Н), х* (k), и* (k—mi), ..., ... ,.., и* (k—m^)) 5g:0 при всех Su*(k—m^^Xk-m. (u*(k—-mi)) (/=1, •••, &=0, 1, ..., N— 1). Здесь Kh-m. (и*(к—т,)) —конус до- пустимых вариаций в точке u*(k—tni)^.Uh-m. (см. § 3.2); функция Гамильтона H=f0{x(k), u(k — mi), ..., u(k— mu)) = = (p(A-H), f(x(k), u(k— mi), ..., u(k — mi))) = =fo(x(k), t»(Ai)) + (p(^+l), f(x(k), v(k))), 8 Ji = (4 уъН--,, 6« (k — m,)\ (j=l, ..., p; k = 0, 1, ..., X-l);
220 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. VI сопряженная система вследствие (15.5) имеет вид n{bx-df.(x(k),v(k)) rdf (х (k),v(k)) пт nz. , n P W------------d^Tk) г L j P (k=N—l, .... 1, 0) с граничным условием p(N)=0. Из этих условий оптимальности непосредственно вы- текают вычислительные методы, использующие прибли- жения по допустимым управлениям и и являющиеся аналогом методов, рассмотренных в §§ 6.2—6.7. Б) Системы с запаздыванием только по состояниям. Пусть теперь {/пь ..., /nM}==0, {«!,... ..., nv} = {0, 1, ... v}, т. е. уравнения движения и пока- затель качества имеют вид x(£-f-l) =f(x(k), x(k-l), u(k)) (15.17) (k=0, 1, ..., TV—1) с начальными условиями x(—i)—a(i) (i—0, 1, .... v); N—1 J = 2 fo(x(k), x(k — 1), ..., x(k - v); u(A)). Определим функцию Лагранжа N—1 F(x, и, p)=-- 2 fo(x(k), ..., x(k — v); и(fe)) 4- N—1 + 2 (p (k + 1), f (x (k), ..., x (k - v); и (/г)) - x (k + 1)), k=0 (15.18) где x(k)^Xh и u(k)<=Uh. Дифференцируя функцию Лагранжа по своим ар- гументам, получим (15.19) dF df0(x (fe), ...,x(k-v);u(k)) dx (k) dx (k) “Г • • • "Г I gfo (X (fe + <),.., x (k); и (k)) dx (k)
§ 151 СИСТЕМЫ С ЗАПАЗДЫВАНИЕМ 221 + ^(х(Ц,..^-,):дИ)]Гр№ + 1( + ... + raf(«(t + -)^»W,..W) v (fe + v+1)_p(t) (1520) I I С/Л I Л) (k = l, p(A’+l-|-v)=p(W+v) = ... =р(У+1)=0. (15.217 Как и в первом случае, предполагая, что Xh — откры- тые множества, из (15.19) — (15.21) получим следующие необходимые условия оптимальности для случая Б). Пусть и* — оптимальное управление, х*= {а(—v),... ..., а(1), а(0),х*(1),.. .,x*(N)}—соответствующая это- му управлению и заданным начальным условиям траек- тория. Тогда на оптимальном процессе справедливы не- равенства dH(p*(k+l), x*(k), ..., x*(£-v), u*(6))^0 при всех 6о* (£)еКд(«*(£)) (6=0, 1, ..., АГ—1). Здесь Кь (и* (&))— конус допустимых вариаций в точ- ке u*{k)^Uh, функция Гамильтона H—fQ(x(k), ..., x(k — v)‘, u(£))-H + (P(M-1), f(x(k)...x(k—v); u(k))), сопряженные переменные p(k) (6=W-]-v-H, I) удовлетворяют системе df0(x(k), x (kи (k)) , pW--------------дЦк) r । dfe(x(k + v), ...,x(k)\u{k)) . ‘ • * 'r dx(k) + [ p № + d +... .,. + (S + v + 1) I UX (к) (k=N, .... 1) c граничными условиями P(^+v4-l) =p(A^+v) = ... =p(A^+l)=p(A^)=O.
222 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. V1 § 16. Особенности оптимизации дискретных систем Теория оптимального управления дискретными си- стемами развивалась вслед за теорией управления непрерывными системами. Кроме того, сами условия оптимальности для непрерывных систем, сформулирован- ные в виде принципа максимума Л. С. Понтрягина, являются сильным и красивым результатом. Поэтому, естественно, что идеология принципа максимума оказыва- ет сильное влияние и на теорию оптимального дискрет- ного управления. К сожалению, в этом влиянии есть и свои теневые стороны, что приводит к недопониманию специфики дискретных систем, к стремлению полностью перенести методы принципа максимума на дискретные системы. Возможно, именно по этой причине установление не- обходимых условий оптимальности для дискретных си- стем общего вида имеет такую большую историю (см. главу IV и комментарии к ней). В частности (и не в одной работе), утверждалось, что функция Гамильтона должна достигать по крайней мере локального макси- мума на оптимальном управлении. Это, если можно так сказать, — тривиальное заблуж- дение, которое легко опровергается простыми примера- ми. Более глубокое состоит в том, что условия опти- мальности для дискретных систем общего вида (напри- мер, типа теорем 3.2.1) считаются более «слабыми» в вычислительном отношении, чем принцип максимума Л. С. Понтрягина, поскольку «выделяют», во всяком случае, все стационарные точки и точки локального мак- симума функции Гамильтона. Отсюда делается вывод, что необходимо искать более эффективные условия оп- тимальности и вычислительные методы, основанные на более тонких свойствах функции Гамильтона (или ее аналогов), чем те, которые получены на основе линей- ной аппроксимации оптимального процесса и рассмот- рены в этой книге. На самом деле, такое недоверие к методам первого порядка для решения задач дискретного управления яв- ляется во многом заблуждением, и эти методы здесь не менее эффективны, чем, например, в «обычных» одно-
§ 161 ОСОБЕННОСТИ ОПТИМИЗАЦИИ 223 шаговых задачах нелинейного программирования (см. гл. II). Проиллюстрируем эти рассуждения на нескольких простых примерах. Допустим, что функция Гамильтона, построенная для некоторого управления u(k) —u(k), имеет вид, показан- ный на рис. 6.16.1 (a^u(k)^.b). Тогда из теоремы 3.2.1 Рис, 6.16.1. следует, что точками, «подозрительными на оптималь- ность», могут быть точки Ui(k), u2(k), u3(k), и Us(k)—b, в то время как принцип максимума выделил бы только одну точку и3(А). Таким образом, если бы принцип максимума в данном случае был верен, то оп- ределяя на каждой итерации управление &*(&), (в дан- ном случае u*(A)=u3(&)), при котором функция Га- мильтона достигает своего наибольшего значения, и ис- пользуя методы § 13, можно в принципе уменьшать рассогласование \и — и*\ до тех пор, пока не будет полу- чено управление и=и*, удовлетворяющее уже необходи- мым условиям оптимальности. Отметим здесь, что определение на каждой итерации максимума функции Гамильтона при большой размер- ности вектора и и сложном виде самой функции Га- мильтона может быть весьма трудоемкой операцией. Если же принцип максимума не справедлив, то эти
224 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ (ГЛ. VI методы, естественно, использовать уже нельзя, так как в общем случае неясно, между какими точками Ui(k) (i=l, ..., 5) и u(k) следует уменьшать рассогласова- ние. С другой стороны, если функция Гамильтона на каждом шаге имеет т стационарных значений, то, ка- залось бы, показатель качества J, как функция '{и(0), «(1), ..., u(N— 1).}, должен иметь уже mN стационар- ных значений. Это, конечно, не так. Действительно, пусть функция Гамильтона на k-м шаге, посчитанная для управления и=и, u(k) = имеет вид, показанный на рис. 6.16.1. Пусть 4 {%(&), p(k)} —соответствующие значения пе- ременных состояния и сопряженных переменных. При и (k) = u(k) имеем дН (р (k + 1), % (А), й (А)) _ „ du(k) ~ и’ следовательно, значение u(k) = Ui(k) определяет стацио- нарную точку (по u(k), при фиксированных остальных значениях «(/), j=[=k) показателя качества, т. е. dJ (и (0) , ..., и (k), ..., и (N — 1)) _р da(k) U‘ Точки же u(k)=ul(k), u(k)—u2(k), u(k)=u3(k), при которых также dHQ(k+l),x(k),Ui(k)) ----------------------= 0 0 = 1,2,3), вообще не несут никакой информации о поведении /(и(0), ..., м(АГ-1)). Рассмотрим простой пример. Пусть ^i(l)=fi(xl(0),x2(0))+g1(u(0)), х2(1) =f2(x1(0), x2(0))+g2(U(0)), fi(xi(O), x2(0))=f2(x1(0), x2(0))=0, и требуется найти максимальное значение j=х? (1) + 4 (1) =gl {и (0)+g2 {И (0)). (16.1)
§ J6] ОСОБЕННОСТИ ОПТИМИЗАЦИИ 225 Очевидно, функция Гамильтона в этом случае имеет вид Я(Р1(1), р2(1), M(0))=pi(l)^i(M(0))+p2(l)g-2(w(0)), (16.2) где p1(l)=2x1(l)=2g1(u(0)), (16.3) р2(1) =2х2(1) =2g2(«(0)). Из (16.1), (16.2) получим, что да,, + (IM) + ('6.5) Если зафиксировать некоторое п (0) = (0), то про- изводную показателя качества, как это и следует из теории, можно вычислить как по формуле (16.4), так и по (16.5), т. е. г>у (71(0)) _ он (1), р2 (1), й (0)) ди(0) ~ dzt(O) ’ где (1), р2 (1) вычисляются из (16.3) при этом «(0). Но если теперь рассматривать f/(pi(l), р2 (1), н(0)) как функцию zz(O) при фиксированных р\ (1), р2 (1), то ее поведение, очевидно, будет отличаться от поведения 7(и(0)). Таким образом, функция Гамильтона отражает только локальные свойства показателя качества, выра- жающиеся в равенстве (16.6), и, естественно, рассмотрение глобального поведения функции Н (р, х, и) при фиксиро- ванных р и х несет мало информации о зависимости по- казателя качества J от и. В частности, показатель качества может быть одпо- экстремальной функцией управления и, в то время как функция Гамильтона может иметь несколько экстрему- мов. Действительно, пусть в этом примере (u(0)) =3u3(0) —1, ^2(u(0))=3^(0)+3. Тогда J (u(0)) = (3u3(0) -l)2+9(rz2 (0) 4-О2- Поведение функции 7(w(0)) показано на рис. 6.16.2. 15 А» И, Пропой
226 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. V.I Нетрудно показать, что д/ (^(0)) /ди (О') обращается в нуль в единственной точке £/*(0)=0, которая определя- ет глобальный минимум показателя качества (см. рис. 6.16.2). В то же время р* (1) = —2, р2 (1) = 6 и функция Гамильтона на оптимальном процессе имеет вид (рис. 6.16.3) Н [р* (1), Х(1), «(0)) = - 2 (Зи3 (0) - 1) + 18 (и2 (0) + 1) = = — би3 (0) + 18и2 (0) + 20, т. е. имеет два экстремума в точках и*(0)=0 и и*(0) = = 2 (при этом в оптимальной точке и*(0)=0 функция Гамильтона имеет локальный минимум). Этими же свойствами функции Гамильтона объясня- ется и следующее явление. Рассмотрим пример § 4.1. В этом примере оптимальное управление и*(0)=—2 доставляет функции Гамильтона минимальное значение (рис. 6.16.4, а). Тогда если взять любую точку и (О') из окрестности и*(0)=—2, то так как производная функции 77(р*(1), х(0), и(0) направлена в сторону ее возрастания, т. е. от точки минимума и*(0) =—2, то мы, казалось бы, ни- когда не придем к этой точке, если будем двигаться по градиенту (в данном случае по производной дН/ди(0)) функции Гамильтона. На самом деле это не так, и с из- менением значений и(0) меняется и сама функция Гамильтона. Проследим этот процесс движения и (О') к и*(0) на примере, рассмотренном в § 4.1. Итак, пусть xx(k-\-\) =xx(k)-\-2u(k) (k = 0, 1), (16.7) х2 (k + 1) = - Xi (k) + x2 (6) + и2 (k) (k = Q, 1). (16.8) Требуется найти максимальное значение /(х(2)) =х2(2). Сопряженная система для уравнений (16.7), (16.8) имеет вид pl(k)=pl(k+\)-2xl(k)p2(k+i) (й=1), (16.9) р2(й)=р2(й+1) (£=1), (16.10) где Pi (2) =0, р2(2) =pi (1) = 1.
§ ОСОБЕННОСТИ ОПТИМИЗАЦИИ 227 Рис. 6.16.4.
228 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. VI Функция Гамильтона //(u(0))=2p1(l)u(0)+u2(0), /7(^(1)) =u2(I). (16.11) Оптимальное управление для этой задачи и*(0) = — 2, и*(1)=±5, р*(1)=2, /*=19,0000. Поведение «оптимальных» функций Гамильтона при £ = 0, 1 показано на рис. 6.16.4, а, б. На рис. 6.16.5 Рис. 6.16.5. показана зависимость показателя качества J от w(0) при и*(1)=±5: J=-3w2(0)-12u(0)+u3(l)-18 = -3u2(0)-12u(0)+7. Выберем теперь некоторые начальные значения й(°)(0), а(°) (1) и проделаем несколько итераций методом возможных направлений (см. § 6.3). 1-я итерация. Пусть (0) =0, /z(0> (1) = 5 /<°) = 7, 0000. Тогда из (16.7) — (16.12) получим, что Х(1’(1) = 3,4°’ (1) =—9, 40)(2) = 13, 4°’ (2)=7, (1)=—6 и Я<°) (0) = Н («(0) (0)) = [и<°> (О)]2 - 12и(0> (0), Я<°> (1) = Н (««»(1)) = [«(»> (I)]2. График функции Гамильтона при k=0 приведен на рис. 6.16.6. Вычислим d/7(0> (O)/dzz (0), (l)/d« (1) при управле- нии и(0): а//(°>(0)_ 19 ЭЯ(0>(1)_1П ди(0) ’ а«(1)
§ 16] ОСОБЕННОСТИ ОПТИМИЗАЦИИ 229 Выберем длину шага Х=0,25. Определим новое управление из „(1) (0)= «(0) (0) = о + 0,25 (- 12) = - 3, (1) = «О) (1) + М(0) (1) = 5 + 0,25 -0 = 5. Здесь направление изменения й(0>(1) — число q(°)(l)— 0, так как (1) находится на ограничении, а (l)/<?u (1) > 0. 2-я итерация. (0) = — 3, (1) = 5, = = 16,0000. Этому управлению соответствует функция Гамильтона (0) = Н (0)) = lud) (О)]2 + (0), график которой показан на рис. 6.16.7. При этом управлении дН^ (О)/ди (0) = 6. Поэтому новое управление (0) определится из (опять Л=0,25) и&> (0)= — 3+0,25-6 = —1,5. Управление и(1) по-прежнему не меняется: (1) = (1) = 5. 3-я итерация. &(2> (0) = — 1,5, rz(2>(l) = 5, J(2) = = 18,2500. Функция Гамильтона при управлении и(2>: //(2) (0) = Н (0)) = [и^ (О)]2. График ее показан на рис. 6.16.8.
230 ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ [ГЛ. IV Значение производной дН{2) (0)/ди (0) = — 3, и новое приближение равно и(3)(0) = _ 1,5-[-0,25(-3) = -2,25, м<3>(1) = 5. 4-я итерация. и<3> (0) = —• 2,25, u<3'(1) = 5, J(3) = = 18,9825. Н (0)) = [и® (0)12 4- 6м<3> (0), дН^ (0)/д« (0) = 1,5,. М(4) (0) = - 2,25 + 0,25-1,5 = - 1,88, «(4> (1) = = 5, J<4) = 18, 9568. График функции Я(«(3>(0)) показан на рис. 6.16.9. Движение (0) (i=0, 1, 2, 3, 4) к оптимальному зна- чению и*(0) показано на рис. 6.16.5.
КОММЕНТАРИИ Предисловие Большое число практических задач многошаговой оптимизации имеется в монографиях: Р. Веллман [1, 2], Р. Веллман, С. Дрей- фус [1], Р. Веллман, И. Гликсберг, О. Гросс [1], А. Кофман, Р. Крюйон [1], Г. Ховард [1], Р. Арис [1], Робертс [1], Л.-Т. Фан, Ч.-С. Вань [4]. В перечисленной литературе за исключением послед- ней книги, рассматривались методы динамического программиро- вания. О численных методах динамического программирования см. ра- боты Н. Н. Моисеева [1] и Р. Ларсона [1]. Теории и методам оптимального управления посвящены моно графин Л. С. 'Понтрягина, В. Г. Болтянского, Р. В. Гамкрелидзе, Е. Ф. Мищенко [1], В. Г. Болтянского [1], Е. Ли и Л. Маркуса [1], Д. Лейтмана [1], М. Атанса и П. Фальба [1]. О методах линейного и нелинейного программиромання см. Дж. Данциг [4], Д. Б. Юдин и Е. Г. Гольштейн [1], С. Карлин [1]: Дж. Хедли [1], Г. Кюнци и В. Крелле [1]. Глава I § 1. 1. Анализ и оптимизация динамических моделей — в настоя- щее время одна из центральных проблем математической экономики. Динамические модели экономики исследовались во многих работах, см. например, Л. В. Канторович, В. Л. Макаров [1], В. Л. Макаров [1], Н. Ф. Шатилов [1], Ю. П. Иванилов, А. А. Петров [1], Ю. П. Иванилов [1], В. 3. Беленький [1], Ю. Н. Гаврилец, Б. Н. Миха- левский, Ю. Р. Лейбкинд [1] и книги: Л. В. Канторович [1], Р. Ал- лен [1], А. Бергстром [1]. Помимо построения самих динамических моделей, важной за- дачей является создание эффективных методов их расчета. В боль- шинстве работ оптимизация динамической модели рассматривается как некоторая многошаговая задача линейного программирования, Для решения которой в явном или неявном виде используется принцип декомпозиции задачи (Л. В. Канторович [2], Л. В. Канто- ро'вич, В. Л. Макаров [1], В. Л. Макаров [1], Дж. Данциг [1, 2, 4], В. А. Волконсцрй [2, 3], Р. Аллен [1]). Аппарат «дискретного принципа максимума» использовался в работах Ю. П. Иванилова, А. А. Петрова [1, 2], В. М. Ефимова [1, 2], Ч. Хуанга и Л.-Т. Фана [1, 2]. 2. Вопросам оптимального управления созданием запасов посвя- щена обширная литература. Здесь отметим только работы А. Вейнот- та [1] и Ф. Хэнсмена [1], которые наиболее близки к принятому в книге подходу.
232 КОММЕНТАРИИ 3. Для оптимизации многоступенчатых химико-технологических схем, состоящих из связанных друг с другом аппаратов, применялось как динамическое программирование (Р. Арис [1], С. Робертс [1], И. И. Иоффе, Л. М. Письмен [1]), так и «дискретный принцип макси- мума» (Л.-Т. Фан, Ч.-С. Вань [1], Г. М. Островский [1, 2], Г. М. Ост- ровский, Ю. М. Волин [1], Т. А. Бережинский, Ю. М. Волин, Г. М. Островский [1]). 4. Сведение статических задач оптимизации к динамическим предлагалось Р. Веллманом [2] и затем было развито в работе Н. Н. Моисеева [2]. §§ 2, 3. Общая постановка задачи дискретного управления и клас- сификации задач по форме аналогична непрерывному . случаю (Л. С. Понтрягин, В. Г. Болтянский, Р. В. Гамкрелидзе, Е. Ф. Ми- щенко [1], В. Г. Болтянский [1], Л. И. Розоноэр [1]). Конечно-разностная аппроксимация задач оптимального непре- рывного управления рассматривалась в работах 10. М. Ермольева, В. П. Гуленко [1, 2]. § 4. Линейные дискретные системы управления явились предме- том особого изучения. О задачах динамического линейного программирования уже упо- миналось (см. комментарии к § 1). Дискретный вариант задачи о быстродействии рассматривался в работах Н. Н. Красовского [1], Б. Н. Пшеничного [4], А. И. Мо- роза [1], Ч. Дезоэра и Д. Уинга [1—3]. Линейные дискретные системы с квадратичным показателем ка- чества изучались в работах Р. Калмана [1], Т. Ганкеля и Д. Фран- клина [1], П. В. Надеждина [1]. Применению методов линейного и нелинейного программирова- ния (начиная с использования классического метода множителей Лагранжа) для расчета дискретных систем автоматического управ- ления посвящены работы: Я. 3. Цыпкин [1, 2], Л. Заде, Б. Уален [1], Е. Г. Гольштейн, Д. Б. Юдин [1], А. И. Пропой [1], Л. С. Гноенский, С. М. Мовшович [1, 2], Г. Торнг [1], К. Фигли [1], Д. Порселли. К. Фигли [1], М. Ким [1], А. И. Березовский, В. В. Иванов [1]. Глава II § 1. Достаточно подробные сведения по теории выпуклых множеств и n-мерной геометрии имеются, например, в приложениях к книгам Д. Б. Юдина и Е. Г. Гольштейна [1] и С. Карлина [1]. Для более детального изучения см., например, монографию Р. Рокафеллара [3]. § 2. О теории и методах нелинейного программирования см. Дж. Хедли [1], Г. Кюнци и В. Крелле [1], С. И. Зуховицкий и Л. И. Авдеева [1], Дж. Деннис [1], Г. Зойтендейк [1], С. Карлин [1]. § 3— 6. Строгому рассмотрению условий оптимальности для раз- личных типов экстремальных задач посвящена книга "Б. Н. Пшенич- ного [5] этой же серии. См. также А. Я. Дубовицкий, А. А. Милю- тин [1], В. Ф. Демьянов, А. М. Рубинов [2, 3], Л. Нейштадт [2], Б. Н. Пшеничный [3], М. Кэнон, Ч. Каллэм, Е. Полак [1]. § 7— 9. Двойственный подход для решения оптимальных задач, изложенный в начале § 7, рассмотрен в работе Л. В. Канторо- вича [1].
КОММЕНТАРИИ 233 Для понимания основ теории двойственности достаточно работ Е. Г. Гольштейна [1] («аналитический» подход) и С. Карлина [1], глава 7 («геометрический» подход). Сама идея двойственности в экстремальных задачах высказыва- лась задолго до возникновения математического программирования, см. Р. Курант [1]. Она тесно связана с преобразованием Лежандра в вариационном исчислении (см. И. М. Гельфанд, С. В. Фомин [1] и Р. Даффин [1]). Однако только благодаря развитию теории мате- матического программирования двойственность начинает играть цент- ральную роль при исследовании экстремальных задач. Понятие двойственности в линейном программировании было введено Дж. Нейманом в 1947 г.; им же была высказана идея о связи матричной игры с парой двойственных задач линейного1 программи- рования. Развитию этих идей посвящена работа А. Голдмана и А. Таккера [1]. См. также Д. Гейл [1], Дж. Данциг [1], Д. Б. Юдин и Е. Г. Гольштейн [1]. В них имеются и различные интерпретации двойственной задачи. О двойственности в квадратичном программировании см. У. Дорн [1], Р. Коттл [1]. О связи теории квадратичного программи- рования с классической механикой см. Ж. Моро [1]. О двойственности в нелинейном программировании см. С. Кар- лин [1], Ф. Вулф [1], М. Хансон [1], Дж. Данциг, Е. Айнзенберг, Р. Коттл [1]. р. Коттл [2], О. Мангасарьян [1], Р. Рокафеллар [1, 2J, Е. Г. Гольштейн [1, 3], Г. Ш. Рубинштейн [1]. Симметричные двойственные задачи рассматривались в работах: Б. Монд [1], Б. Монд и Р. Коттл [1], С. Мендиратта [1]. О связи двойственности с теоремой о минимаксе в бесконечных играх см. И. Штоер [1, 2], О. Мангасарьян, Дж. Понштейн [1]. Обобщение теорем двойственности на случай квазивыпуклых функций дано в работах К. Эрроу и А. Антховена [1], К. Кортанека и Дж. Эванса [1], С. Карамардяна [1]. Работы Б. Н. Пшеничного [1, 2] посвящены применению принци- па двойственности для построения методов решения экстремальных задач. В работе А. Д. Иоффе и В. М. Тихомирова [1] дано современное и строгое изложение теории двойственности. § 10. Обычно теорема Куна — Таккера доказывается с помощью леммы Минковского — Фаркаша (Г. Кун и А. Таккер [1], М. Кэнон, Ч. Каллэм, Е. Полак [1]) и при несколько иных условиях регуляр- ности. Приведенное здесь доказательство с помощью теорем двойствен- ности линейного программирования (которые сами основаны на лем- ме Минковского — Фаркаша) дано Т. Саати [1]. § 11. Об аналогичной классификации методов в линейном про- граммировании см. Д. Б. Юдин и Е. Г. Гольштейн [1]. Обзоры мето- дов нелинейного программирования см. Ю. М. Ермольев [1], Г. Зой- тендейк [2], Б. Т. Поляк [1, 2], Е. С. Левитин, Б. Т. Поляк [1]. § 12. Вывод оценки для приближения см. Г. Зойтендейк [1] и С. И. Зуховицкий, Л. И. Авдеева [1]. Говоря об оценках решения, нельзя не сказать о методах штрафных функций, которые получили в настоящее время большое распространение для быстрого получения первых приближений. См. Н. Н. Моисеев [4] и § 6.8.
234 КОММЕНТАРИИ § 13. Методы возможных направлений были предложены Г. Зой- тендейком [1]. О различных реализациях этого метода см. С. И. Зу- ховицкий и Л. И. Авдеева [1], Дж. Розен [2]. § 14. Градиентные методы при ограничениях в виде равенств рассматривались в работах Дж. Денниса [1] и Г. Келли [1], а усло- вия оптимальности в главе 3 книги К- Эрроу, Л. Гурвица, X. Удза- вы [1]. § 15. Двойственный метод, рассмотренный в начале параграфа, применялся в таком прямом виде, в основном, при оптимизации дина- мических задач, где он сводится к решению двухточечной краевой задачи (см. § 6.13). О применении его в квадратичном программиро- вании см. Г. Кюнци и В. Крелле [1]. Метод обобщенного градиента предложен Н. 3. Шором [1]. О скорости сходимости этого метода и его применениях см. Н. 3. Шор [2, 3], Н. 3. Шор, Д4. Б. Щепакин [1]. Он тесно связан с адаптивны- ми методами (Я. 3. Цыпкин [3]). О минимизации негладких функ- ционалов см. также А. Ю. Левин [1], Б. Т. Поляк [2]. Двойственные градиентные методы рассматривались в работах X. Удзавы (см. сбор- ник К. Эрроу, Л. Гурвиц, X. Удзава [1]), Б. Н. Пшеничного [1, 2], Н. 3. Шора [2]. О методах декомпозиции для задач линейного и нелинейного про- граммирования см. Дж. Данциг [4], Е. Г. Гольштейн [2], Е. Г. Голь- штейн, Д. Б. Юдин [1], Н. 3. Шор [2]. § 16. 1. Изложенный здесь метод рассматривался в работах М. Франка и Ф. Вулфа [1], Ф. Вулфа [1], В. Ф. Демьянова и А. М. Рубинова [1, 3]. 2. Этот метод был предложен К. Эрроу и Л. Гурвицем [1]. Ме- тодам нахождения седловых точек посвящены работы В. Ф. Демья- нова [1], В. Ф. Демьянова и А. М. Рубинова [3], В. А. Волконско- го [1], А. Бутца [1]. Глава III §§ 1—5. Условия оптимальности в виде, аналогичном теоремам §§ 2, 5, рассматривались в работах Б. Иордана и Е. Поляка [1], А. И. Пропоя [2], М. Кэнона, Ч. Каллэма, Е. Поляка [1, 2], Р. Га- басова [2]. При этом, как видно из доказательства теоремы 2.1 § 2, схема по- лучения условий оптимальности весьма проста и состоит в следующем. Исходную задачу дискретного управления (например, задачу 1 § 1.3) можно рассматривать как задачу статической максимизации функции /(и(О), . . . , u(N—1)) rN переменных Uj(k) (j = l, . . . , г; k = 0, 1, ..., N—1), заданной на прямом произведении W множеств U. Условия оптимальности для такой задачи, как показано в гла- ве II, будут 6/*(ц*(0),..., u*(N—1))^0 для всех 6u*(£)eK(u*(£)) (1) (6 = 0, 1, . . . , N— 1), где К(ц*(&))—некоторым образом определенный конус допустимых по множеству U вариаций в точке и* (k).
КОММЕНТАРИИ 235 Но вследствие (3.24) N—1 BJ* = 2 6Л (р* (k -Ь П. х* и* W)- (2) /1 = 0 Поэтому, выбирая специальную вариацию 6u*(/)=0, du*(k)^0 из (1), (2), получим, что на оптимальном управлении 8uH(p*(k+.V), x*(k), и*(/г))^0 для всех 6u*(6)e=/T(u*(/г)). Отсюда видно, что, по существу, любые «прямые» условия оп- тимальности для статических задач оптимизации (см. § 2.4), разли- чающиеся способами определения допустимых конусов и условиями регулярности и детально исследованные в работах А. Я. Дубовицко- го, А. А. Милютина [1], Л. Нейштадта [2], Г. Халкина и Л. Ней- штадта [1], Б. Н. Пшеничного [3, 5], В. Ф. Демьянова, А. М. Ру- бикова [1—3], М. Кэнона, Ч. Каллэма, Е. Полака [1, 2], Г. Зойтен- дейка [1] и др., автоматически трансформируются по этой схеме в соответствующие условия оптимальности для задач дискретного управления. Такая схема получения условий оптимальности для дискретных систем была использована в работе А. И. Пропоя [4]. Более общая схема использовалась в работах М. Кэнона, Ч. Каллэма, Е. По- лака [1, 2], где уравнения движения трактовались так же, как огра- ничения на переменные (см. также главу V), и где детальным обра- зом были исследованы различные определения конусов допустимых вариаций и следующих из них условий оптимальности для одноша- говых и многошаговых задач оптимизации. Этот подход, помимо установления общности теории математи- ческого программирования и теории оптимального дискретного управ- ления, позволяет переносить и вычислительные методы математиче- ского программирования на задачи дискретного управления (см. §§ 6.1-6.7). Глава IV §§ 1—3. «Дискретный» принцип максимума имеет довольно свое- образную историю. В 1959 г. Л. И. Розоноэр [1] пришел к выводу, что для дискрет- ных процессов принцип максимума, вообще говоря, не имеет места. Им были рассмотрены линейные дискретные системы с линейным по- казателем качества и для них установлены необходимые и достаточ- ные условия оптимальности. Затем Ш. С. Л. Чанг [1—3] нестрого показал, что на оптимальном управлении дифференциал функции Гамильтона неположителен. С. Кац [1, 2] ошибочно утверждал, что и для дискретных процессов произвольного вида справедлив принцип максимума. Эту же ошибку повторили Л.-Т. Фан и Ч.-С. Вань в сво- их многочисленных работах по оптимизации многошаговых процес- сов (см., например, Фан, Вань [1, 2, 3]). Недостаточность, а часто и ошибочность результатов заставили вернуться к этому вопросу. А. Г. Бутковский [1, 2] построил пример, показывающий, что на оптимальном управлении функция Гамильтона
236 КОММЕНТАРИИ может иметь локальный максимум; однако полученные им необхо- димые условия оптимальности были неточными. Аналогичные примеры (см. § 1) рассматривались также в работах Б. Иордана и Е. Полака [1], Дж. Пирсона [1] и в особенности Р. Га- басова [2]. Ф. Хорн и Р. Джексон [1] в своей работе показали неправомер- ность пренебрежения членами второго порядка малости. Ошибоч- ности перенесения любых мето'дов «непрерывного» принципа макси- мума на дискретные процессы посвящены и работы А. Чарнса и К. Кортанека [1], Б. Иордана, Е. Полака [1]. Необходимые условия оптимальности в форме, аналогичной тео- реме 3.2.1 (при различных допущениях на условия задачи и построе- ниях конусов допустимых вариаций), были доказаны в работах Б. Иордана и Е. Полака [1], А. И. Пропоя [2], М. Кэнона, Ч. Кал- лэма и Е. Полака [1], Р. Габасова [2]. Однако при этом высказывалось сомнение относительно ценно- сти этих условий по сравнению с принципом максимума (см., напри- мер, Р. Габасов и Ф. М. Кириллова [1]). Это не так, как видно из § 6.14 и из вычислительных методов, построенных на основе этих ус- ловий оптимальности и рассмотренных в § 6.2—6.7. В то же время построение вычислительных процедур типа рассмотренных в § 6.11 для дискретных систем общего вида часто может быть затруднитель- ным. Достаточные условия, при которых для дискретных систем спра- ведлив принцип максимума (теоремы 2.1, 3.1), установлены А. И. Про- поем [2]. Этот же результат для задачи оптимизации конечного сос- тояния (теорема 2.1) был получен Г. Халкиным [1]. Для задачи с суммарным показателем качества в^этой работе требовалась выпук- лость множеств достижимости /?1(х), что не выполняется даже для линейных систем с выпуклым показателем качества (см. замечания в § 3). Впоследствии Д. Хольтцман [1, 2] (см. также Д. Хольтцман и Г. Халкин [1]) усилил этот результат с помощью введения выпук- лости по направлению множеств достижимости (см. § 3). Детальное исследование достаточных условий, при которых для дискретных систем справедлив принцип максимума, было проведено Р. Габасовым [2]. § 4. Принцип квазимаксимума был выдвинут Р. Габасовым и Ф. М. Кирилловой [1]. Он позволяет связать условия оптимально- сти для дискретных и непрерывных процессов. Кр.атко остановимся на этой связи. Рассмотрим задачу нахождения такого кусочно-непрерывного управления u(t) на отрезке [О, Т], которое доставляет показателю качества /=Ф(х(Т)) максимальное значение в силу уравнений дви- жения =/(х(0, «(/)), (1) at где Будем предполагать, что функции Ф(х), f(x, и) и мно- жество U удовлетворяют тем же ограничениям, что и для соответ- ствующей дискретной задачи 1 (см. гл. III). Будем предполагать также, что оптимальное управление и* в рассматриваемой задаче су- ществует. Разобьем интервал управления на N шагов и положим
КОММЕНТАРИИ 237 b = T/N', пусть u(t) =u(\k) =const на полуинтервале Д& ==C £ < Л (£ 4-1) (fc=0, ...» N—1). Тогда уравнения движения с точностью до бес- конечно малых второго порядка заменяется на разностное вида (см. § 1.2) х[Д(й+1)]=х(Д^)+Д)[х(ЛЙ), и(Дй)] (*=0, N—1-). (2) Для такой дискретной системы на основании теоремы 4.1 можно утверждать, что на оптимальном управлении Я[р*(Д/?+Д), х*(Д&), а*(Д£)]^Я[р*(Д/г+Д), х*(Д£),и] — б (3) для всех ue£/fe(A, б) где множество Uk (Д, б)определено из (4.4.16) и зависит от Д. Очевидно, при Д = 0, 6=0 неравенство (3) перехо- дит в «обычный» принцип максимума. Если же теперь увеличивать Д, то, например, может быть, когда б (А) тоже будет расти, а £/(б, А) = (/. В этом случае из теоремы 4.1 следует, что точками, подозрительны- ми на оптимальность, могут быть уже не только точки абсолютного максимума функции Гамильтона (см. рис. 4.1). В то же время можно построить задачи дискретного управления (например, типа рассмот- ренной в § 1 этой главы), для которых принцип максимума не спра- ведлив ни при каких Д, Л>0. Заметим, что в этом примере оптимальное управление в соответ- ствующем непрерывном аналоге достигается только на скользящих (Р. В. Гамкрелидзе [1]) режимах, т. е. не существует в точном смысле этого слова. Вообще, между условиями существования о'птимального управ- ления в непрерывных процессах и условиями выполнения принципа максимума в дискретных процессах существует интересная связь. Прежде всего заметим, что вопрос о существовании оптимально- го управления в непрерывных процессах уже не является таким три- виальным, как в дискретных процессах (см. § 1.6), и уже не обеспе- чивается только требованиями непрерывности (это связано с тем, что при таких условиях множества достижимости в непрерывной задаче могут быть не замкнутыми). Но если, например, потребовать, чтобы в уравнениях (1) множе- ство f(x, U) было выпуклым при любых х, то можно показать (при некоторых дополнительных предположениях), что оптимальное управ- ление в непрерывной задаче существует для любого начального со- стояния (А. Ф. Филиппов [1], Е. Роксин [1]). Или оптимальное управление всегда существует, если процесс описывается уравне- ниями i (/) = f (x(Z)) + В где u(t)<=U и U — выпуклое множество (Е. Ли, Л. Маркус [1]), либо уравнениями х (/) = А (/) х (/) 4- ф (и (/)), где множество U не обязательно выпуклое (Л. Ненштадт [2]). Заметим, что во всех перечисленных примерах, как видно из § 4, принцип максимума справедлив для соответствующих дискретных аналогов. Вообще, по-видимому, можно утверждать, что если опти- мальное управление и* существует в непрерывной задаче, то для
238 КОММЕНТАРИИ соответствующего дискретного аналога (2) принцип максимума спра- ведлив по крайней мере для 0^Л=С Аг, Ai >0. § 5, 6. Одноэкстремальные системы дискретного управления рас- сматривались А. И. Пропоем [2, 3]. Об аналогичных системах непре- рывного управления (для которых принцип максимума Л. С. Понт- рягина дает необходимые и достаточные условия оптимальности) см. работу Е. Ли [1]. Глава V § 1, 2. Двойственные задачи управления были сформулирова- ны в работах Р. Калмана [1], где был установлен принцип двойствен- ности между задачами управления и наблюдения. О двойственности между управлением и наблюдением см. также Н. Н. Красовский [2] и Дж. Пирсон [4]. Интересные соотношения двойственности в частотной области установлены Р. Ликом [1]. С формальной точки зрения двойственные задачи управления рас- сматривались в работах Дж. Пирсона [2,3], Е. Крайндлера, Б. Монда и М. Хансона [1], Р. М. Ван Слика и Р. Уэтса [1], А. Д. Иоффе и В. М. Тихомирова [1]. Идеи двойственности для получения условий оптимальности и вычислительных методов использовались в работах Дж. Пирсо- на [3], В. М. Ефимова [2], Р. Уилсона [1]. § 3. Связь условий оптимальности с существованием седловой точки функции Лагранжа в задачах дискретного управления рассмат- ривалась А. А. Первозванским [1]. § 5. Достаточные условия в такой форме были установлены А. Г. Бутковским [1]. О других типах достаточных условий опти- мальности см. О. Мангасарьян [2] и В. Ф. Кротов [1]. § 6. Отметим, что функция G* (р(&+1), p(k)) (6 = 0, 1, . . . , N), определенные из (6.1) — (6.3), являются сопряженными, соответственно^ к функции Гамильтона Hk (р (k + 1), x(k), и (£)) и показателю каче- ства <D(x(AQ). Сопряженные функции существенно используются в теории двой- ственности экстремальных задач. См., например, С. Карлин [1], Р. Рокафеллар [3]. § 8, 9. Условия оптимальности для дискретных систем управления при наличии ограничений на переменные состояния рассматривались М. Кэноном, Ч. Каллэмом и Е. Полаком [1, 2], О. Мангасарьяном и С. Фромовитцем [1], А. А. Первозванским [1] и Б. Н. Пшенич- ным [4]. § 10. Условия оптимальности для дискретных систем, аналогич- ные теореме Куна — Таккера (в дифференциальной форме), рассмат- ривались А. И. Пропоем [1], А. А. Первозванским [1] и Д. Б. Пир- соном, Р. Сридхаро'м [1]. § 11. Теория двойственности для задач линейного динамического программирования была развита в работе Ю. П. Иванилова, А. И. Пропоя [1]. Из § 11 ясно виден принцип декомпозиции: решение пары двой- ственных задач ^шагового линейного программирования (11.1) —
КОММЕНТАРИИ 239 (11.5), (11.10) — (11.14) сводится к решению пары двойственных задач (11.28), (11.29) одношагового программирования, связанных между собой прямыми (11.1), (11.2) и двойственными (11.10), (Н.П) урав- нениями движения. При этом любые необходимые и достаточные условия оптималь- ности и связанные с ним методы решения для «локальных» задач линейного программирования (11.28), (11.29) (см., например, Д Б. Юдин, Е. Г. Гольштейн [1]) переносятся на динамические задачи (11.1) — (11.5), (11.10) — 11.14). Эти условия, как видно из § 11, следующие: 1) значения функций Гамильтона прямой и двойственной задачи совпадают (теорема 11.5); 2) управления прямой и двойственной задач связаны условиями дополняющей нежесткости (теорема 11.2); 3) функция Гамильтона одной из задач принимает экстремаль- ное значение по соответствующему управляющему воздействию, дру- гое управляющее воздействие является оптимальной двойственной переменной (разрешающим множителем) для этой экстремальной задачи (теоремы 11.3, 11.4); 4) пары управлений образуют седловую точку «локальной» функ- ции Лагранжа Fk(p(k+l),xW, u(k),XW) = = Нр (р(£+1), u(k))+HD(x(k), Х(£)) + (Х(/г), D(k)u(k)). § 12. Задачи управления с линейными уравнениями движения и квадратичным показателем качества явились удобной и простой моделью при рассмотрении процессов управления во многих приклад- ных задачах. Такие задачи (в основном, без ограничений на перемен- ные) рассматривались, помимо упомянутых в комментариях к § 1, работах, в монографиях М. Кэнона, Ч. Каллэма, Е. Полака [2], Ч. Мерриэма [1], Ю. Ту [1] и др. Глава VI Численные методы дискретного управления используют как мето- ды математического программирования, так и методы оптимального управления непрерывными процессами. Ссылки на литературу по ме- тодам математического программирования см. в комментариях к главе II. О численных методах в непрерывном управлении см., на- пример, Н. Н. Моисеев [3], В. Ф. Демьянов и А. М. Рубинов [3], Н. Е. Кирин [1], Р. Габасов, Ф. М. Кириллова [1], Ю. М. Ермольев, В. П. Гуленко [1, 2], И. А. Крылов, Ф. Л. Черноусько [1, 2], И. О. Мельц [1—3], Н. И. Моисеев [1, 3], Г. М. Островский [1], Г. М. Островский, Ю. М. Волин [1], Дж. Розен [1], Р. Уилсон [1], Л. И. Шатровский [1]. §1.0 различных оценках оптимального показателя качества в задачах непрерывного и дискретного управления см. Р. Веллман [1], М. Хансон [2], А. Рингли [1], В. Ф. Демьянов, А. М. Рубинов [1,3], А. И. Пропой [4]. § 2. Метод возможных направлений для задач дискретного уп- равления рассматривался А. И. Пропоем [4]. О прямых методах
240 КОММЕНТАРИИ в непрерывном управлении см. Л. И. Шатровский [1], Г. М. Остров- ский [1], И. А. Крылов и Ф. Л. Чсрноусько [1]. О способах нормализации направления см. Г. Зойтендейк [1]. Различные методы предотвращения зацикливания рассмотрены Г. Зойтепдейком [1] и С. И. Зуховицким, Л. И. Авдеевой [1]. Прием линеаризации условий широко распространен в численных методах оптимального управления, см. Н. Н. Моисеев [4]. § 8. О методах штрафных функций для одношаговых задач см., например, Ю. Б. Гермейер [1], И. И. Еремин [1], С. М. Мовшович [1]; в задачах управления — Н. Н. Моисеев [4], Д. Рассел [1], К. Ока- мур,а [1]. § 9. Двойственные методы в задачах управления рассматрива- лись Б. Н. Пшеничным [1, 2], В. М. Ефимовым [1], Ю. М. Ермолье- вым п В. П. Гуленко [1, 2], Р. Уилсоном [1]. § 11. О различных методах решения двухточечной краевой задачи см. Н. Н. Моисеев [3], Г. М. Островский и Ю. М. Волин [1]. § 13. Рассмотренный метод для оптимизации непрерывных систем был предложен И. А. Крыловым и Ф. Л. Черноусько [1]. § 15. Непрерывные процессы управления с запаздыванием рас- сматривались Г. Л. Харатишвили [1, 2]. О дискретных системах с запаздыванием см. Фам Хыу Шак [2]. Из рассмотрения уравнений движения (15.1) видно, что задачи оптимального управления дискретными системами с запаздыванием по-прежнему сводятся к оптимизации функций многих переменных, задаваемых в неявном виде, и что они не приводят к тем сложностям, с которыми приходится сталкиваться в непрерывном случае.
ЛИТЕРАТУРА Аллен (Allen R. G. D.) 1. Математическая экономия, ИЛ, 1963. Арис (Aris R.) 1. Оптимальное проектирование химических реакторов, ИЛ, 1963. Ата нс, Фальб (A t h a n s М., Falb Р. L.) 1. Теория оптимального управления, Машгиз, 1968. Барьер (R. Pallu de la Barriere) 1. Duality in dynamic optimization, J. SIAM Control 4, 1, 1966. Бергстром (BergstromA. R.) 1. Построение и применение экономических моделей, «Прогресс», 1970. Беленький В. 3. 1. О моделях оптимального планирования, основанных на схеме межотраслевого баланса, Экономика и матем. методы, 3, вып. 4, 1967. Беллман (Bellman R.) 1. Quasi-linearization and upper and lower bounds for variational problems, Quart. AppL Math. 19, 1962, 349—350. 2. Динамическое программирование, ИЛ, 1960. 3. Процессы регулирования с адаптацией, «Наука», 1964. Беллман, Дрейфус (Bellman R., Dreyfus S. Е.) 1. Прикладные задачи динамического программирования, «Нау- ка», 1964. Беллман, Гликсберг, Гросс (Bellman R., Glick- s b е г g I., Gross О. A.) 1. Некоторые вопросы математической теории процессов управ- ления, ИЛ, 1962. Бережинский Т. А., Волин Ю. М., Островский Г. М. 1. Условия оптимальности для сложных процессов, Автоматика и телемеханика, № 3, 1968. Березовский А. И., Иванов В. В. 1. Деяк! алгоритми оптимальных керувань по швидкости, Доповш АН УРСР, № 5, 1963. Берковиц (Berkovitz L. D.) 1. Variational methods in problems of control and programming, J. Math. Anal. Appl. 3, 1961, 145—169. 2. Necessary conditions for optimal strategies in a class of diffe- rential games and control, J. SIAM Control 5, 1, 1967. Берковиц, Дрейфус (Berkovitz L. D., Dreyfus S. E.) 1. The equivalence of some necessary conditions for optimal control in problems with bounded state variables, J. Math. Anal. Appl. 10, 2, 1965. 16 А, И, Пропой
242 ЛИТЕРАТУРА Болтянский В. Г. 1. Математические методы оптимального управления, «Наука», 1966. Б у т к о в с к и й А. Г. 1. Необходимые и достаточные условия оптимальности для дискретных автоматических систем, Автоматика и телемеха- ника, № 8, 1963. 2. Теория оптимального управления системами с распределен- ными параметрами, «Наука», 1965. Бутц (Butz A. R.) 1. Iterative saddle-point techniques, J. SIAM Appl. Math. 15, 3, 1967. Ван Слик, Уэтс (Van S 1 у k e R. M., Wets R. J.-B.) 1. A duality theory for abstract mathematical programs with applications to optimal control theory, J. Math. Anal. Appl. 22, 3, 1968. В ей hott (V e i n о 11 A. F.) 1. Minimum concave-cost solution of Leontief substitution models of multi-facility inventory systems, Operations Research 17, 2, 1969. Волин Ю. M., Островский Г. M. 1. Оптимизация процессов произвольной структуры, Автоматика и телемеханика, № 12, 1966. Волконский В. А. 1. Оптимальное планирование в условиях большой размерности, Экономика и матем. методы, № 2, 1965. 2. Схема оптимальности перспективного планирования и оценки ресурсов. Сб. «Применение математики в экономических ис- следованиях» 3, «Мысль», 1965. 3. Модель оптимального планирования и взаимосвязи экономи- ческих показателей, «Наука», 1967. Вулф (Wolfe Ph.) 1. Duality for nonlinear programming, Quarterly Appl. Math. 19, 3, 1961. 2. Новые методы нелинейного программирования, Сб. «Приме- нение математики в экономии, исследованиях» 3, «Мысль», 1965. Габасов Р. 1. К вопросу об единственности оптимального управления в дискретных системах. Изв. АН СССР, Энергетика и авто- матика, № 5, 1962. 2. К теории оптимальных дискретных процессов, ЖВМ и МФ 8, № 4, 1968. Габасов Р., Кириллова Ф. М. 1. К вопросу о распространении принципа максимума Л. С. Понтрягина на дискретные системы, Автоматика и те- лемеханика, № 11, 1966. Гаврилец Ю. Н., Михалевский Б. Н., Л е й б- к и н д Ю. Р. 1. Линейная модель оптимального роста плановой экономики, Сб. «Применение математики в экономических исследованиях» 3, «Мысль», 1965.
ЛИТЕРАТУРА 243 Гамкрели дзе Р. В. 1. О скользящих оптимальных режимах, ДАН СССР 143, 6, 1962. Ганке ль Франклин (G u n k е 1 Th. L., Franklin G. Е.-) 1. A general solution for linear sampled-data control, J. Basic Eng. 85, ser. D. 2, 1963. Г e й л (Gale D.) 1. Теория линейных экономических моделей, ИЛ, 1963. Гельфанд И. М., Фомин С. В. 1. Вариационное исчисление, Физматгиз, 1961. Г е р м е й е р Ю. Б. 1. Приближенное сведение с помощью штрафных функций задачи определения максимина к задаче определения макси- мума, ЖВМ и МФ 9, № 3, 1969. Гное некий Л. С., Мовшович С. М. 1. О применении методов линейного программирования к одной задаче теории следящих систем, Изв. АН СССР, Энергетика и автоматика, № 6, 1962. 2. О применении методов математического программирования к задаче оптимального регулирования, Изв. АН СССР, Тех- ническая кибернетика, № 5, 1964. Голдман, Таккер (Goldman A. J., Т u с k е г A. W.) 1. Теория линейного программирования, Сб. «Линейные нера- венства и смежные вопросы», ИЛ, 1959. Гольштейн Е. Г. 1. Двойственные задачи выпуклого программирования. «Эконо- мика и матем. методы», № 3, 1965. 2. Методы блочного программирования, Экономика и матем. методы, № 1, 1966. 3. Двойственные задачи выпуклого и дробно-выпуклого програм- мирования в функциональных пространствах, Сб. «Исследо- вания по математическому программированию», «Наука», 1968. Гольштейн Е. Г., Юдин Д. Б. 1. Методы расчета и синтеза импульсных автоматических си- стем, Автоматика и телемеханика 24, № 7, № 12, 1963. 2. Новые направления в линейном программировании, «Сов. ра- дио», 1966. Данциг (D antzig G. В.) 1. Optimal solution of a dynamic Leontjev model with substitu- tion, Econometrica 23, 3, 1955. 2. On the status of multistage linear programs, Management. Sci. 6, 1, 1959. 3. Linear control process and mathematical programming, J. SIAM Control 4, 1, 1966. 4. Линейное программирование, его обобщения и применения, «Прогресс», 1966. Данциг, А й и з е и б е р г, Коттл (D a n t z i g G. В., Einsen- berg E., Cottle R. W.) 1. Symmetric dual nonlinear programs, Pacific J. Math. 15, 809—812, 1965. Д а ф ф и н (Duffin R.) 1. Dual programs and minimal costs, J. SIAM 1, 1962. 16*
244 ЛИТЕРАТУРА Д е з о э р, У и н г (D е s о е г С. A., W i n g J.) 1. The minimal time regulator problem for linear sampled-data systems: general theory, J. Franklin Inst. 272, 3, 1961. 2. An optimal strategy for a saturating sampled-data systems, IRE Trans. AC-6, 1961. 3. A minimal time discrete system, IRE Trans. AC-6, 2, 1961. Демьянов В. Ф. 1. К минимизации функций на ограниченных множествах, Ки- бернетика, № 6, 1965. 2. К разысканию седловых точек, Вестник ЛГУ, сер. матем. и мех. 4, 19, 1967. 3. К решению некоторых минимаксных задач, Кибернетика, № 6, 1966, № 3, 1967. Демьянов В. Ф., Рубинов А. М. 1. Минимизация гладкого выпуклого функционала на выпуклом множестве, Вестник ЛГУ, сер. мат. и мех., № 19, 1964. 2. О необходимых условиях минимума, Экономика и матем. методы, № 3, 1966. 3. Приближенные методы решения экстремальных задач, Изд-во ЛГУ, 1968. Д е и н и с Д ж. Б. (Dennis G. В.) 1. Математическое программирование и электрические цепи, ИЛ, 1961. Дорн (Dorn W. М.) 1. Duality in quadratic programming, Quaterly Appl. Math. 18, 2, 1962. Дубовицкий А. Я., Милютин A. A. 1. Задачи на экстремум при наличии ограничений, Ж. вычисл. матем. и матем. физики 5, 3, 1965. Еремин И. И. 1. О некоторых итерационных методах в выпуклом программи- ровании. Экономика и матем. методы, № 6, 1966. Ермольев Ю. М. 1. Методы решения нелинейных экстремальных задач, Киберне- тика, № 4, 1966. Ермольев Ю. М., Гуленко В. П. 1. О численных методах решения задач оптимального управле- ния, Кибернетика, № 1, 1966. 2. Конечноразностный метод в задачах оптимального управле- ния, Кибернетика, № 3, 1967. Ефимов В. М. I. Динамическая модель планирования, Сб. «Моделирование экономических процессов» 2, Изд-во МГУ, 1968. 2. Исследование стохастических экстремальных задач с по- мощью функционального анализа, Кибернетика, № 2, 1969. Заде, Уален (Zadeh L. A., Whalen В.) 1. On Optimal Control and Linear Programming, IRE Trans. AC-7, 4, 1962. Зойтендейк (Zoutendijk G.) 1. Методы возможных направлений, ИЛ, 1963. 2. Nonlinear programming: a numerical survey, J. SIAM Control 4, 1, 1966.
ЛИТЕРАТУРА 245 3 ух ов и цк ий С. И., Авдеева Л. И. 1. Линейное и выпуклое программирование, «Наука», 1964. Иванилов Ю. П. 1. Некоторые вопросы управления производством при наличии внешнего давления, Изв. АН СССР, Техническая кибернети- ка, № 2, 1970. 2. Сопряженные (двойственные) линейные динамические задачи оптимизации и методика их решения, Прикладная математи- ка и программирование 4, Изд-во АН Молдавской ССР, 1970. Иванилов Ю. П., П е т р о в А. А. 1. Динамическая модель расширения и перестройки производ- ства (л-модель), Сб. «Кибернетику на службу коммунизму» под ред. А. И. Берга. 6, «Энергия», 1971. 2. О некоторых способах решения задач оптимального плани- рования для динамических моделей производства. В том же сб. 3. Расчет оптимального плана развития производства по дина- мической л-модели. В том же сб. 4. Динамическая многоотраслевая модель производства, Кибер- нетика, № 2, 1970. Иванилов Ю. П., Пропой А. И. 1. О задачах динамического линейного программирования, ДАН СССР 198, 8, 1971. 2. Задачи динамического выпуклого программирования, ЖВЛ^ и МФ 12, 3, 1972. Иоффе А. Д., Тихомиров В. М. 1. Двойственность выпуклых' функций и экстремальные задачи, УМН 23, вып. 6 (144), 1968. И о ф ф е И. И., П и с ь м е н Л. М. 1. Инженерная химия гетерогенного катализа, «Химия», 1965. И о р д а н, П о л я к (Jordan В. К., Р о 1 a k Е.) 1. Thtory of a class of discrete optimal control system, J. Electr. and Control 17, 6, 1964. К а л м а н (Kalman R. E.) 1. Об общей теории управления, Труды Первого международно- го конгресса по автоматическому управлению 2, Изд. АН СССР, 1961. Канторович Л. В. 1. Об одном эффективном методе решения некоторых классов экстремальных проблем, ДАН СССР 28, 3, 1940. 2. Экономический расчет наилучшего использования ресурсов, Изд. АН СССР, 1960. Канторович Л. В., Макаров В. Л. 1. Оптимальные модели перспективного планирования, Сб. «При- менение математики в экономических исследованиях» 3, «Мысль», 1965. К а р а м а р д я и (К а г a m а г d i a n S.) 1. Strictly quasi-convex (concave) functions and duality in mathe- matical programming, J. Math. Anal. Appl. 20, 2, 1967. Карлин (Karlin S.) 1. Математические методы в теории игр, программировании и экономике, «Мир», 1964.
246 ЛИТЕРАТУРА Кац (Katz S.) 1. A discrete version of Pontryagins maximum principle, J. Ele- ctronics and Control 13, 2, 1962. 2. A general minimum principle for end-point control problems, J. Electronics and Control 16, 2, 1964. Келли (К e 11 e у G. J.) 1. Метод градиентов, Сб. «Методы оптимизации с приложениями к механике космического полета», «Наука», 1965. К и м (Kim М.) 1. On the minimum time control of linear sampled data systems, Proc. IEEE 53, 9, 1965. Кирин H. E. 1. Вычислительные методы теории оптимального управления, Изд. ЛГУ, 1968. К о р т а н е к, Эванс (Kort a nek К. О., Evans J. Р.) 1. Pseudo-concave programming and Lagrange regularity, Ope- rat. Research 15, 1967. Коттл (Cottle R. W.) 1. Symmetric dual in quadratic programming, Quaterly Appl. Math. 21, 3, 1963. 2. Nonlinear programming with positively bounded Jacobians, J. SIAM Appl. Math. 14, 1, 1966. Кофман., Крю йон (Kaufmann A., Cruon R.) 1. La programmation dynamique, Dunod, P., 1965. Крайндлер (Krein dl er E.) 1. Reciprocal optimal control problems, J. Math. Anal. Appl. 14, 1, 1966. Красовский H. H. 1. Об одной задаче оптимального регулирования, ПММ 21, 5, 1957. 2 Теория управления движением, «Наука», 1968. Крылов И. А., Ч е р н о у с ь к о Ф. Л. 1. О методе последовательных приближений для решения задач оптимального управления, ЖВМ и МФ 2, № 6, 1962. 2. Решение задач оптимального управления методом локальных вариаций, ЖВМ и МФ 6, № 2, 1966. Кун, Таккер (Kuhn Н. W., Tucker A. W.) 1. Nonlinear programming, Proc. Second Berkeley symp. on math, statistics and prob., Calif., Berkeley, 1952. Курант (С о u r a n t R.) 1. Курс дифференциального и интегрального исчисления 2, ГТТИ, 1931. Кротов В. Ф. 1. Достаточные условия оптимальности для дискретных управ- ляемых систем, ДАН СССР 172, 1, 1967. Кэнон, Каллэм, Полак (Cannon М., Cullum С., Polak Е.) 1. Constrained minimization problems in finite dimensional spa- ces, J. SIAM Control 4, 3, 1966. 2. Theory of optimal control and mathematical programming McGraw-Hill, 1970. Кюнци, Крелле (Kunzi H. P., К r e 1 1 e W.) 1. Нелинейное программирование, «Сов. радио», 1965,
ЛИТЕРАТУРА 247 Ларсон (Larson R. Е.) 1. Dynamic programming with reduced computational require- ments, IEEE Trans. AC-10, 1, 1965. Левин А. Ю. 1. Об одном алгоритме минимизации выпуклых функций, ДАН СССР 160, 6, 1965. Левитин Е. С., П о л я к Б. Т. 1. Методы минимизации при наличии ограничений, ЖВМ и МФ 6, 5, 1966. Л е й т м а н (Leitmann G.) 1. Sufficiency theorems for optimal control, J. opt. theory and appl. 2, 5, 1968. 2. Введение в теорию оптимального управления, «Наука», Ли (Lee Е. В.) 1. A sufficient condition in the theory of optimal control, J. SIAM Control 1, 3, 1963. Л и, M a p к у c (Lee E. В., M a r k u s L.) 1. Foundations of optimal control theory, NY, Wiley, 1967. Лик (Leake R. T.) 1. Duality condition established in the frequency domain, IEEE Trans, on Information Theory IT-11, 3, 1965. Макаров В. Л. 1. Линейные динамические модели производства, Сб. «Опти- мальное планирование», вып. 5, «Наука», 1966. М а н г а с а р ь я н (Mangas.ari ап О. L.) 1. Duality in nonlinear programming, Quaterly Appl. Math. 20, 1962, 300—302. 2. Pseudo-convex functions, J. SIAM Control 3, 2, 1965. 3. Sufficient conditions for the optimal control of nonlinear sys- tems, J. SIAM Control 4, 1, 1966. Мангасарьян, Понштейн (Mangasarian О. L. Pon- stein J.). 1. Minmax and duality in nonlinear programming, J. Math. Anal. Appl. 11, 1—3, 1965, 504—518. Мангасарьян, Фромовитц (Mangasarian О. L., F г о m о v i t z S.) 1. A maximum principle in mathematical programming, in «Ma- thematical theory of control», Ed. A. V. Balakrishnan, L. W. Neustadt, Academic Press, NY, 1967. Мельц И. О. 1. Применение методов нелинейного программирования для оп- тимизация динамических систем в функциональном простран- стве. Автоматика и телемеханика, № 1, 1968. 2. Учет ограничений в задаче оптимизации динамических систем в функциональном пространстве на основе методов нелиней- ного программирования, Автоматика и телемеханика, № 3, 1968. 3. Определение функций влияния для расчета улучшающих вариаций управляющих функций и параметров динамических систем с разрывными правыми частями, Автоматика и телеме- ханика, № 5, 1968.
248 ЛИТЕРАТУРА М е н д и р а т т а (М е n d i г a 11 a S. L.) 1. General symmetric dual programs, Operations Research 14, 1, 1966. M ер p иэм (M e r r i a m C. \V.) 1. Теория оптимизации и расчет систем управления с обратной связью, «Мир», М., 1967. М овшович С. М. 1. Об одном итерационном методе решения задач линейного и выпуклого программирования, Экономика и матем. методы, № 4, 1967. Моисеев Н. Н. 1. Метод динамического программирования в теории оптималь- ного управления, ЖВМ и МФ 4, № 3, 1964; 5, № 1, 1965. 2. О применении методов теории оптимальных управлений к задаче оптимального планирования, Кибернетика, № 2, 1966. 3. Численные методы оптимального управления, Изд. ВЦ АН СССР, 1968. 4. Численные методы в теории оптимальных систем, «Наука», 1971. Монд (Mond В.) 1. A symmetric dual theorem for nonlinear programs, Quaterly Appl. Math. 23, 1965, 265—269. Монд, Коттл (Mond В., Cottle R. W.) 1. Self-duality in mathematical programming, J. SIAM Appl. Math. 14, 3, 1966. Монд, Хансон (Mond В., Hanson M.) 1. Duality for control problems, J. SIAM Control 6, 1, 1968. M о p о (Moreau J. J.) 1. Quadratic programming in mechanics; dynamics of one sided constraints, J. SIAM Control 4, 1, 1966. M о p о з А. И. 1. Синтез оптимального по быстродействию управления для дискретных линейных систем, Автоматика и телемеханика, №№ 2, 3, 6, 1965. Надеждин П. В. 1. О свойствах оптимальных и линейных импульсных систем, Изв. АН СССР, Техн, кибернетика, № 4, 1964. Нейштадт (Neustadt L. W.) 1. The existence of optimal control in the absence of convexity conditions, J. Math. Anal. Appl. 7, 1, 1963. 2. An abstract variational theory with applications to a broad class of optimization problems, J. SIAM Control 4, 3, 1966. Ока мура (Ok a mu r a K.) 1. Some mathematical theory of the penalty method for solving optimum control problems, J. SIAM Control 2, 1964, 317—331. Островский Г. M. 1. Об одном методе расчета оптимальных систем, Автоматика и телемеханика, № 3, 1965. 2. Об оптимизации комплексных химико-технологических схем, Изв. АН СССР, Техническая кибернетика, № 5, 1964. Островский Г. М., Волин Ю. М. 1. Методы оптимизации химических реакторов, «Химия», 1967.
ЛИТЕРАТУРА 249 Первозванский А. А. 1. О связи основных теорем математического программирова- ния и принципа максимума, Изв. АН СССР, Техническая кибернетика, № 4, 1967. Первозван ск ая Т. Н., Первозванский А. А. 1. Децентрализация оптимального планирования в сложной системе, Автоматика и телемеханика, № 7, 1968. Пирсон, Сридхар (Pearson J. В., Sridhar R.) 1. A discrete optimal control problem, IEEE Trans. AC-11, 2, 1966. Пирсон (Pearson J. D.) 1. The discrete maximum principle, Int. J. Control 2, 2, 1965. 2. Reciprocity and duality in control programming problems, J Math. Anal. Appl. 10, 2, 1965. 3. Duality and a decomposition technique, J. SIAM Control 4, 1, 1966. 4. On the duality between estimation and control, J. SIAM Cont- rol 4, 4, 1966. Поляк Б. T. 1. Методы и минимизации функции многих переменных, Эконо- мика и матем. методы, № 6, 1967. 2. Об одном общем методе решения экстремальных задач, ДАН СССР, 174, 1, 1967. 3. Градиентные методы минимизации функционалов, ЖВМ и МФ 3, 4, 1963. Понтрягин Л. С., Болтянский В. Г., Гамкрел идзе Р. В., Мищенко Е. Ф. 1. Математическая теория оптимальных процессов, Физматгпз, 1961. Пор сел л и, Фи гл и (Р о г с е 11 i G., Fegley К.) 1. Optimum design of digitally compensated systems by quadra- tic programming, J. Franklin Inst. 282, 5, 1966. Пропой A. И. 1. Применение методов линейного программирования для синтеза импульсных автоматических систем, Автоматика и телемеха- ника, № 7, 1963. 2. Об одной задаче оптимального дискретного управления, ДАН СССР 159, 6, 1964. 3. О принципе максимума для дискретных систем управления, Автоматика и телемеханика, № 7, 1965. 4. Методы возможных направлений в задачах дискретного управления, Автоматика и телемеханика, № 2, 1967. 5. Задачи дискретного управления с фазовыми ограничениями, ЖВМ и МФ 12, № 4, 1972. П ш е н и ч н ы й Б. Н. 1. Принцип двойственности в задачах выпуклого программиро- вания, ЖВМ и МФ 5, № 1, 1965. 2. Двойственный метод в экстремальных задачах, Кибернетика, № 3, 4, 1965. 3. Выпуклое программирование в нормированном пространстве, Кибернетика, № 5, 1965.
250 ЛИТЕРАТУРА 4. Синтез линейных импульсных систем, Автоматика и телемеха- ника, № 5, 1966. 5. Необходимые условия экстремума, «Наука», 1969. Процессы регулирования в моделях экономических систем, Сб. ста- тей под ред. Я. 3. Цыпкина и Б. Н. М и х а л е в с к о г о, ИЛ, 1961. Рассел (Russel D.L.) 1. Penalty functions and bounded coordinate control, J. SIAM Control, 2, 1964, 409—422. Рингли (R i n g 1 e e A. V.) 1. Bounds for convex variational program problems arising in po- wer system scheduling and control, Proc. 5 Joint Aut. Conlr. Conf., 1964, p. 429—435. Робертс (Roberts S.) 1. Динамическое программирование в процессах химической технологии, «Мир», 1965. Розен (Rosen J. В.) 1. Iterative solution of nonlinear optimal control process, J., SIAM Control 4, 1, 1966. Розоноэр Л. И. 1. Принцип максимума Л. С. Понтрягина в теории оптимальных систем, Автоматика и телемеханика, №№ 10—12, 1959. 2. О достаточности условий оптимальности, ДАН СССР 127, 3, 1959. Рокафеллар (Rockafellar R. Т.) 1. Duality theorems for convex functions, Bull. Amer. Math. Soc. 70, 1964, 189. 2. Duality and stability in extremum problems involving convex functions, Pacific J. Math. 2, 1, 1967. 3. Convex analysis, Princeton Univer. Press., 1967. P о к с и н (R о x i n E.) 1. The existence of optimal control, Michigan Math. J. 9, 3, 1962. Рубинштейн Г. Ш. 1. Двойственные экстремальные задачи, ДАН СССР 152, 2, 1963. Р ы б а ш о в М. В. 1. Градиентный метод решения задач выпуклого программирова- ния на электронной модели, Автоматика и телемеханика, № 11, 1965. С а а т и (S a a t i Т.) 1. Математические методы исследования операций, Воениздат, 1963. Та ката (Takata М.) 1. Time-optimal of sampled-data control systems of linear process with saturating manipulated variables, J. Japan association aut. contr. eng. 9, 12, 1965. T о p н г (Torng H. C.) 1. Optimization of discrete control systems through linear program- ming, J. Franklin Inst. 227, July, 1964. Ту (T о u J.) 1. Современная теория управления, «Машиностроение», 1971. Уилсон (Wilson R.) 1. Computation of optimal control, J. Math. Anal. Appl. 14, 1, 1966.
ЛИТЕРАТУРА 251 Фан, Вань (Fan L. Т., W a n g С. S.) 1. On the optimization of multistages feedback process, J. SIAiM 12, 1, 1964. 2. Multi-stage optimization by the generalised discrete maximum principle, J. Electronics and Control 16, 4, 1964. 3. Optimization of systems reliability, IEEE Trans. Reliability 16, 4, 1967. 4. Дискретный принцип максимума, «Мир», 1967. Фам X ы у Шак 1. Об оптимальном управлении дискретными процессами, Авто- матика и телемеханика, № 8, 1968. 2. Об оптимальном управлении дискретными системами с запаз- дыванием, Автоматика и телемеханика, № 7, 1970. Ф е л ь д б а у м А. А. 1. Основы теории оптимальных и автоматических систем, Физмат- гиз, 1963. Ф и г л и, X з у (F е g 1 е у К-, Hsu М. I.) 1. Optimum discrete control by linear programming, IEEE Trans. Automatic Control AC-10, 1, 1965. Филиппов А. Ф. 1. О некоторых вопросах в теории оптимального управления, Вестник МГУ, сер. матем. и мех., № 2, 1959. Франк, Вулф (Frank М., Wolfe R.) 1. An algorithm for quadratic programming, Naval Res. Legist Quart. 3, 1, 1956. Халкин (Halkin H.) 1. A maximum principle of the Pontryagin type for systems discribed by nonlinear difference equations, J. SIAM Control 4, 1, 1966. Халкин, Нейштадт (Halkin H., Neustadt L. W.) 1. General Necessary Conditions for Optimization Problems, Proc. Nat. Acad. Sciences 56, 1966. Хансон (Hanson M. A.) 1. Duality and self-duality in mathematical programming, J. SIAM Appl. Math. 12, 5, 1964. 2. Bounds for functionally convex optimal control programs, J. Math. Anal. Appl. 8, 1, 1964. Харатишвили Г. Л. 1. Принцип максимума в теории оптимальных процессов с запаз- дыванием, ДАН СССР, 136, 1, 1961. 2. Оптимальные процессы с запаздыванием. Тбилиси, «Мецниере- ба», 1966. Хедли (Hadley G.) 1. Нелинейное п динамическое программирование, «Мир», 1967. Ховард (Howard R.) 1. Динамическое программирование и марковские цепи, «Сов. радио», 1964. Хольтцман (Holtzman J. М.) 1. Convexity and the maximum principle for discrete systems, IEEE Trans. Automatic Control AC-11, 1_. 1966.
252 ЛИТЕРАТУРА 2. On the maximum principle for nonlinear discrete systems, IEEE Trans. Automatic Control AC-11, 2, 1966. Хольтцман, Хал кин (Holtzman J. M., Halkin H.) 1. Directional convexity and the maximum principle for discrete systems, J. SIAM Control 4, 2, 1966. Хорн, Джексон (Horn F., Jackson R.) 1. On discrete analogues of Pontryagin’s maximum principle, Int. J. Control 1, 4, 1965. Хуанг, Фан (Hwang C. L., Fan L. T.) 1. The application of the maximum principle to industrial and management systems, J. Ind. Eng. 17, 1966, 589—593. 2. Optimal production planning by the maximum principle, Mana- gement Science 13, 9, 1967. 3. A discrete version of Pontryagin’s maximum principle, Opera- tion Research 15, 1, 1967. X э н с м e н (H a n s s m a n n F.) 1. Применение математических методов в управлении производ- ством и запасами, «Прогресс», 1966. Цыпкин Я. 3. 1. Об оптимальных процессах в импульсных автоматических си- стемах ДАН СССР 134, 2, 1966. 2. Оптимальные процессы в импульсных автоматических систе- мах, Изв. АН СССР, Энергетика и автоматика, № 4, 1960. 3. Адаптация и обучение в автоматических системах, «Наука», 1968. Чанг (Chang S. S. L.) 1. Digized maximum principle, Proc. IRE 48, December, 1960. 2. Optimization of nonlinear control systems by means of digitized maximum principle. IRE Int. Convention Record, part 4, 1961. 3. Синтез оптимальных систем автоматического управления, «Машиностроение», 1964. Чарнс, Кортанек (Charnes A., Kortanek К. А.) 1. A note on the discrete maximum principle and distribution problem, J. Math, and Phys. 45, 1, 1966. Шатилов H. Ф. 1. Опыт разработки динамических моделей воспроизводства, Сб. «Проблемы народно-хозяйственного оптимума» под ред. А. Г. Аганбегяна и др., «Наука», 1966. Шатровский Л. И. 1. Об одном численном методе решения задачи оптимального управления, ЖВМ и МФ 2, № 3, 1962. Шор Н. 3. 1. О структуре алгоритмов численного решения задач оптималь- ного планирования и проектирования, Автореферат диссерта- ции, ПК АН УССР, 1964. 2. Применение обобщенного градиентного спуска в блочном программировании, Кибернетика, № 3, 1967. 3. О скорости сходимости обобщенного градиентного спуска, Кибернетика, № 3, 1968. Шор Н. 3., Ш е п а к и н М. Б. 1. Алгоритм решения двухэтапной задачи стохастического про- граммирования, Кибернетика, № 3, 1968.
ЛИТЕРАТУРА 253 Ш т о е р (S t о е г J.) 1. Duality in nonlinear programming and the minimax theorem, Numerische Mathematik, 5 band, 4 heft, 1963. 2. Uber einen Dualitatssatz der nichtlinearen Programmierung, Numerische Mathematik, 6 band, 1 heft, 1964. Эрроу, Гурвиц, Удзава (Arrow K-, Gurvitz L., Udza- w a H.) 1. Исследования по линейному и нелинейному программирова- нию, ИЛ, 1962. Эрроу, Антховен (Arrow К., EnthovenA. С.). 1. Quasi-concave programming, Econometrica 29, 3, 1961. Юдин Д. Б., Гольштейн Е. Г. 1. Линейное программирование, Физматгиз, 1963.
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ Вариация допустимая 40, 84 -----в широком смысле сло- ва 41 — подходящая 44 Воздействие управляющее 17 Выпуклость множества 35 •----по направлению 35 — функции вверх 36 ----- вниз 36 Гиперплоскость 37 — опорная 37 — разделяющая 37 Градиент 43 — обобщенный 70, 234 Двойственная задача 50, 57, 122, 135, 139, 201, 238 Двойственности понятие 48, 233 — соотношения 123, 125, 156, 157, 168 Двойственный метод 60, 68, 201, 233 Двойственных задач пара 53, 54, 55, 122, 239 Декомпозиции принцип 73, 234 Достаточность оптимальности условия 134, 238 Задача выпуклого программи- рования 39, 55 — двойственная 50, ’51, 53, 119, 135, 139, 154, 238 — дискретного управления 19, 232 — квадратичного динамическо- го программирования 160 Задача квадратичного програм- мирования 39, 54 •— линейного динамического программирования 152, 159, 238 -----программирования 39, 54, 57 — непрерывного управления 19 — одношаговая 38 — оптимизации конечного со- стояния без фазовых огра- ничений 21, 79, 102, 171, 211 ----------— с фазовыми огра- ничениями 21, 92, 142, 148, 184, 209, 212 — перспективного планирова- ния 11, 231 — расчета химических реакто- ров 13, 232 — со свободным начальным состоянием 23 — с суммарными ограничения- ми 23 — с суммарным критерием 22 ----------без фазовых ог- раничений 91, 104 ----------с фазовыми огра- ничениями 132 — с фиксированным конечным состоянием 22 — управления запасами 13, 231 Конус 37 — выпуклый 37 — допустимых вариаций 40, 78, 95, 234 --------в широком смысле слова 42, 95 — многогранный 37, 93
ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ 255 Максимум функции глобаль- ный 37 ----локальный 37 Методы возможных направле- ний 63, 168, 234 — двойственные 60, 68, 201, 240 — прямые 49, 60 Множество выпуклое 35 ----по направлению 35 — достижимости 27, 31, 102 — замкнутое 35 — (ограниченное 35 Направление допустимое 63, 172 — возможных метод 63, 168, 234 ----подходящее 64, 172, 185 Норма вектора 34 Нормализация направления 6’5, 173, 240 Ограничения активные 43 — в виде равенств 67, 193 — па переменные состояния 184, 209 Окрестность точки 34 Оценка приближения для за- дач управления 165, 178, 189 ----для одиошаговой зада- чи 60, 66 Переменные сопряженные 77 — состояния 16 — управления 17 — фазовые 16 Принцип квазимаксимума 106, 236 — максимума 46, 235 ----без фазо'вых ограничений 102, 104 ----с фазовыми ограничения- ми 148, 155 — минимума 156, 163 Программирование 34, 232 — выпуклое 39, 55 — квадратичное 39, 54 ----динамическое 160 Программирование линейное 39, 54, 57 ----динамическое 152, 159, 238 — нелинейное 39, 232 Пространство состояний 16, 27 ----расширенное 25, 28 Система линейная 29, 115, 181 190, 204, 232 — с запаздыванием 216, 240 — сопряженная 76 Состояние системы 16 Существование оптимального управления 31, 237 Теорема Вейерштрасса 31, 35 — Куна — Таккера 57 -------- для задач управления 149, 238 — о разделяющей гиперпло- скости 37 — существования оптимально- го управления 31 Точка внутренняя 35, 78 — граничная 35 — седловая ’56, 130, 239 Траектория 17 Управление 17 — допустимое 18, 171, 184 Уравнения движения 17 — в вариациях 82 — линейные 29, 115, 181, 190, 204 Условия одноэкстремальности 48, 112, 124, 133 — регулярности 41, 42, 43, 78 ----Слейтера 44 Функция, выпуклая вверх 36 —, — вниз 36 — Гамильтона 77, 99, 222 — Лагранжа 50, 120, 152 — сопряженная 238 Шар 34 Штраф 75, 159 Штрафных функций метод 198, 240
Анатолий Иванович Пропой ЭЛЕМЕНТЫ ТЕОРИИ ОПТИМАЛЬНЫХ ДИСКРЕТНЫХ ПРОЦЕССОВ (Серия: «Оптимизация и исследование операций») М., 1973 г., 256 стр. с ил л. Редакторы А. П. Баева и М. М. Горячая Техн, редактор Е. Н. Земская Корректор А. Л. Ипатова Сдано в набор 22/VIII 1972 г. Подписано к печати 14/11 1973 г. Бумага 84х108’/з2. Физ. печ. л. 8. Условн. печ. л. 13,44. Уч.-изд. л. 13,57. Ти- ране 13 000 экз. Т-00761. Цена книги 88 коп. Заказ № 114. Издательство «Наука» Главная редакция физико-математической литературы 117 071, Москва, В-71, Ленинский проспект, 15. 4-я типография изд-ва «Наука», г. Новосибирск, 77, ул. Станиславского, 25.
ЗАМЕЧЕННЫЕ ОПЕЧАТКИ Стр. | Строка 1 Напечатано Следует читать 58 12 сн. уф* = дф (х*) _ дх г?ф* =. дФ (X*) дх ’ 6 сн. dfi (х*) , dfj (X*) дх ’ дх 86 15 сн. Msk(x(s)) Ms>k(x(s)) 126 8 сн. — B(N—l)u2 (R-l]= -B(N- 1)и2 (N - 1)] = 146 9 сн. (pu*(k+ 1), х*(&), 8иН (р* (k +1), x*(k), и* (£), k) 0 и* (/г), k) < 0 [ d/lj 1 Г dhi 1 147 5 св. “ [дх,- (*)] = Ldxz (ft)J 158 5 св. = -(%(*), С(й),х(й)) + = - (Х(й), С(А)х(Л)) + 163 3 св. = g-(«(*)). R (к) и (к)) + = L(« (ft), R (k) «(*)) + + (&(«), «(«)) + + (& (k), и (й)) + 179 8 св. ('= 1. •••. (i=l, ... 199 2 св. — 0, если xl /?, = 0, если х /?, 217 13 сн. X (k — n?) X (/? 231 6 св. Робертс [1], С. Робертс [1], 238 17 св., E. Крайндлера, Е. Крайндлера [1], 18 св. Б. Монда и Б. Монда и M. Хансона [1], М. Хансона [1], Зак. 114.
Цена 88 коп.
Цена 88 коп.