Text
                    

Э. Б. ЛИ, Л. МАРКУС ОСНОВЫ ТЕОРИИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Перевод с английского Л. Л. ЛЕОНТЬЕВОЙ Под редакцией Я- Н. РОЙТЕНБЕРГА ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ ч МОСКВА 1972
бфвл Л 55 УДК 62-52 Основы теории оптимального управления, Ли Э. Б., Маркус Л.9 перев. с англ., Главная редакция физико-математической литературы изд-ва «Наука», М., 1972, 576 стр. Фундаментальный труд по математической теории оптимального управле- ния, в котором изложение проводится последовательно с позиций качественной теории дифференциальных уравнений. Дается постановка задачи оптимального управления детерминированными системами, излагается теория оптимального управления линейными системами. Рассматриваются теория оптимальных линейных управляемых систем с инте- гральным выпуклым критерием качества, принцип максимума Л. С. Понтрягина, вопросы существования оптимальных управлений для нелинейных систем, достаточные условия оптимальности. Исследуются вопросы управляемости, наблюдаемости и устойчивости управляемых систем. Изучается синтез нели- нейных управляемых систем. Книга рассчитана на инженеров и научных работников, занятых исследо- ванием и проектированием автоматических систем, а также на математиков. Илл. 35. Библ. назв. 267. * FOUNDATIONS OF OPTIMAL CONTROL THEORY E. B. Lee L. Markus Center for Control Sciences Institute of Technology University of Minnesota 8-3-14 176—72 John Wiley & Sons, Inc., New York, London, Sydney
ОГЛАВЛЕНИЕ Предисловие авторов к русскому изданию.............................. 5 Предисловие......................................................... 7 Глава 1. Теория, методы и примеры синтеза оптимального управления 9 1.1. Примеры задач оптимального управления...................... 9 1.2. Постановка общей задачи оптимального управления......... 31 1.3. Основные результаты теории управляемости................... 39 1.4. Экстремальные свойства оптимальных управлений и их синтез 44 1.5. Синтез оптимальных управлений для линейных систем второго порядка......................................................... 48 Приложение I. Геометрическая теория обыкновенных дифферен- циальных уравнений.............................................. 59 Приложение II. Алгебраическая теория линейных дифференциаль- ных уравнений................................................... 68 Глава 2. Оптимальное управление в линейных системах................ 76 2.1. Линейные управляемые процессы............................ 76 2.2. Управляемость: множество достижимости..................... 77 2.3. Управляемость и устойчивость автономных систем............. 91 2.4. Управляемость и наблюдаемость.............................. 115 2.5. Оптимальное по быстродействию управление для линейных систем ......................................................... 138 Приложение. Выпуклые множества.................................. 168 Глава 3. Оптимальное управление для линейных систем с инте- гральным выпуклым критерием качества.............................. 183 3.1. Значение интегрального критерия качества . . . *........ 183 3.2. Интегральный квадратичный критерий качества............. 184 3.3. Иллюстрирующие примеры и специальные задачи............. 204 3.4. Интегральный выпуклый критерий качества................. 223 3.5. Интегральный выпуклый критерий качества при ограниченных управлениях .................................................. 252 Глава 4. Принцип максимума и существование оптимальных управ- лений для нелинейных систем....................................... 262 4.1. Геометрия множества достижимости ....................... 262 4.2. Существование оптимального управления при дополнительных ограничениях ................................................. 284 4.3. Существование оптимального управления без дополнительных ограничений .... .............................. 313 Глава 5. Необходимые и достаточные условия оптимального управления 336 5.1. Принцип максимума и условия трансверсальности как необхо- димые условия............................................ 336 5.2г Достаточные условия оптимальности управления............ 372 !♦
4 ОГЛАВЛЕНИЕ Глава 6. Свойства управляемых систем: управляемость, наблюдаемость и устойчивость................................................... 397 6,1. Управляемость и наблюдаемость для нелинейных процессов 397 6.2. Глобальная устойчивость нелинейных процессов............. 429 Глава 7. Синтез оптимальных управлений для некоторых основных нелинейных управляемых систем ........................ 458 7.1. Синтез оптимальных по быстродействию управлений с обрат- ной связью для нелинейных систем второго порядка с одной степенью свободы ............................................ 460 7.2. Оптимальное управление метеорологической ракетой........ 489 7.3. Управление угловой скоростью твердого тела............... 499 7.4. Оптимальная астронавигация............................... 507 Приложение А. Метод наискорейшего спуска и другие численные методы в задачах оптимального управления . . 515 А1. Метод наискорейшего спуска .................... 516 А2. Применение метода наискорейшего спуска к зада- чам оптимального управления и формулировка вычислительных алгоритмов..................... 525 АЗ. Работы по методу нацскорейшего спуска и вычисли- тельным методам оптимального управления . . . 549 Библиография к приложению А................................... 550 Приложение Б. Работы по оптимальному управлению системами, описываемыми обыкновенными дифференциальны- ми уравнениями и уравнениями в частных произ- водных ........................................................... 555 Б1. Управляемые системы, описываемые функциональ- но-дифференциальными уравнениями или уравнени- ями в частных производных, и применимость функционального анализа............................ 555 Б2. Абстрактный принцип максимума................. 559 БЗ. Краткий указатель к библиографии.............. 561 Библиография к приложению Б.................................. 563 Литература........................................................ 566 Предметный указатель ............................................ 572
ПРЕДИСЛОВИЕ АВТОРОВ К РУССКОМУ ИЗДАНИЮ Математической основой теории оптимального управления являются такие области математике, как теория дифференциаль- ных уравнений и вариационное исчисление, истоки развития кото- рых связаны с именем величайшего математика восемнадцатого столетия, петербургского академика Л. Эйлера. В Советском Союзе после Великой Отечественной войны раз- витие современных методов в соответствующих разделах клас- сической математики и механики было вызвано к жизни потреб- ностями таких новых областей науки и техники, как освоение космического пространства, сверхзвуковая авиация и автоматиза- ция управления производственными процессами с применением вычислительных машин. Блестящее открытие академика Л. С. Понт- рягина и его сотрудников—принцип максимума—дает строгое математическое обоснование теории оптимального управления, отвечающей запросам новой техники. В настоящее время совет- ские ученые принимают активное участие в разработке и при- менении современных методов оптимального управления. О) времени опубликования первого издания книги в 1967 г. исследования в области управления детерминированными систе- мами (стохастическое управление в книге не рассматривалось) далеко продвинулись вперед. Основные направления новейших исследований указаны в приложениях А и Б. В частности, важные результаты получены в теории управления системами с запазды- ванием, системами, описываемыми функциональными уравнениями, а также уравнениями в частных производных. Получили разви- тие также приложения теории дифференциальных игр. Все эти теоретические изыскания находят все более широкое применение в инженерной практике. С помощью быстродействую- щих вычислительных машин производится непосредственное авто- матическое управление химическими и механическими процессами.
6 ПРЕДИСЛОВИЕ АВТОРОВ К РУССКОМУ ИЗДАНИЮ Не менее важной представляется роль теории управления в планировании и проектировании различных производственных предприятий. Авторы выражают благодарность издательству «Наука» Ака- демии наук СССР за предоставленную им возможность принять участие в подготовке русского издания. Мы благодарим также профессора Я. Н. Ройтенберга и его сотрудников за тщательный перевод и подготовку русского издания книги, в которую внесен ряд исправлений по сравнению с американским изданием. Однако каждый из авторов сознает, что вся ответственность за возмож- ные неточности лежит на нем и его соавторе. Миннеаполис, Миннесота, 1971. Э. Б. Ли, Л. Маркус
ПРЕДИСЛОВИЕ Математическая теория оптимального управления зародилась около двадцати лет назад в качестве специального отдела теории дифференциальных уравнений. После того как были установлены принцип максимума и метод динамического программирования, появилась тенденция рассматривать теорию оптимального управ- ления в рамках вариационного исчисления. Однако многие из основных понятий теории управления базируются на качествен- ной теории дифференциальных уравнений, и наше изложение ис- ходит именно из такого подхода. За последние три или четыре года теория управления для детерминированных процессов со многими степенями свободы достигла вполне удовлетворительной стадии завершенности. Фундаментальные задачи теории управления, рассматриваемые с точки зрения теории нелинейных обыкновенных дифференциаль- ных уравнений, получили как точную математическую формули* ровку, так и строгое решение. Именно в силу полноты и разработанности этой теории ав- торы настоящей книги полагают, что подробное изложение ее современного состояния послужит хорошей основой для дальней- ших исследований в этой области. Такова и была цель написа- ния «Основ теории оптимального управления». В нашу задачу входило систематическое изложение теории управления, достаточно полное и подробное, однако не выходящее за пределы рассмотре- ния детерминированных (не стохастических) систем, описываемых обыкновенными дифференциальными уравнениями. Книга выдержана в основном в строгом математическом стиле определений, теорем и доказательств. Каждое аналитическое или геометрическое заключение базируется на предварительно обосно- ванных предположениях. В некоторых случаях, однако, ограниче-
8 ПРЕДИСЛОВИЕ ния, накладываемые на системы, например, непрерывность или ограниченность, перечисляются в начале раздела, а затем уже считаются само собой разумеющимися, что следует иметь в виду при изучении. Почти после каждого раздела следуют упражне- ния. Некоторые из них являются простыми задачами, иллюстри- рующими материал, другие содержат уточнения и продолжения изложенного; иногда в упражнении дается какая-либо деталь доказательства (или вычислений) одной из теорем текста. Для чтения настоящей книги необходимо знание курса тео-’ рии дифференциальных уравнений и математического анализа. Естественно, что для читателя, владеющего основами теории функций и методами теории управления линейных систем, изу- чение книги будет значительно облегчено. Ряд замечаний и полезных советов были высказаны доктором Шаком, доктором Гарвеем и мистером Стоуном. Некоторые раз- делы текста обсуждались с доктором Вильсоном и мистером Голлвйтцером. Однако каждый из авторов еще раз подтверждает, что вся ответственность за возможные ошибки и неточности лежит исключительно на нем и его соавторе.
ГЛАВА 1 ТЕОРИЯ, МЕТОДЫ И ПРИМЕРЫ СИНТЕЗА ОПТИМАЛЬНОГО УПРАВЛЕНИЯ В этой главе изложена общая теория оптимального управления для линейных и нелинейных систем и описывается применение ее основных принципов в задачах синтеза оптимальных регуляторов. Последовательнее математическое развитие этих идей дается в пос- ледующих главах. Мы будем рассматривать только непрерывные детерминированные системы, хотя многие из полученных резуль- татов применимы и для стохастических систем управления. 1.1. Примеры задач оптимального управления Конструирование оптимальных систем управления обычно при- водит к появлению нелинейных зависимостей, и поэтому существен- но отличается от исследования элементарных линейных систем с обратной связью. Исследуя некоторые примеры, мы введем основ- ные понятия и опишем методы теории оптимального управления. Пример 1. Управление угловой скоростью ротора. Рассмот- рим диск или ротор R, свободно вращающийся вокруг неподвиж- ной оси, проходящей через центр тяжести диска и перпендикуляр- ной к его плоскости. Пусть <о(/)—угловая скорость ротора в момент времени t, причем в начальный момент времени ®(0) = со0 и пусть требуется остановить ротор. Таким образом, задача сос- тоит в том, чтобы осуществить управление величиной <в (/) (выход- ной величиной системы), приводя ее от ® = <оо до ® = 0 с помощью приложения некоторого внешнего момента L(t) к оси вращения. Уравнение движения ротора имеет вид где /—момент инерции ротора относительно оси вращения (/—пос- тоянная положительная величина), a L (t)—момент внешних сил — есть входная величина, или управление. Математически задача состоит в выборе такого L(/), совместимого с механическим смыс- лом задачи, чтобы выход системы со (/), являющийся решением
10 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 а) Ф(ш) 6) Рис. 1.1. Схема процесса управления: а) разомкнутая цепь, 6) замкнутая цепь. указанного дифференциального уравнения с начальными условиями со (0) = ®0, стремился к нулю с возрастанием времени. Более того, мы хотим выбрать управление L* (t), обладающее свойством опти- мальности, такое, чтобы соответствующий ему выход достигал нуля наиболее эффективным образом, например, за минимально воз- можное время. Такая задача управления может возникнуть, на- пример, в случае, когда R представляет собой приводной шкив в некотором технологическом процессе, либо при управлении ракет- ным снарядом, где’/?—попереч- ное сечение снаряда. В первом случае управляющий момент мо- жет быть создан с помощью не- которого электромеханического устройства, во втором же слу- чае—при помощи вспомогатель- ных реактивных двигателей. Задача о приведении величины со от значения <о = соо к ® = 0 может возникнуть также в слу- чае, когда существует некоторая идеальная постоянная угловая скорость ротора R, так как при этом и можно интерпретировать как величину рассогласования между действительной и идеальной угловой скоростью. Таким образом, наш пример мог бы быть рассмотрен с общих позиций задачи о приведении рассогласова- ния к нулю. Если начальная угловая скорость <оо известна заранее, то управляющий сигнал удобно задавать как входной сигнал разомкнутой цепи (рис. 1.1, а) и искать управление L* (t), оптималь- ное по отношению к нашему критерию. Если мы, однако, хотим сконструировать самокорректирующееся управляющее устройство, удовлетворительно функционирующее при всех возможных начальных значениях со0, а также при воз- мущениях со(0. то оптимальное управление L*(t) придется синте- зировать в форме соответствующего контура с обратной связью (см. рис. 1.1,6). А именно, мы должны вычислить некоторую функцию Т (со) и использовать ее как управляющий сигнал в цепи обратной связи. Тогда решение ©(/) уравнения для каждого начального значения сов будет оптимальным, т. е. со (/) совпадет с оптимальным решением со*(/), которое появилось бы на выходе разомкнутой цепи при оптимальном управлении L*(0- Рассмотрим линейный сигнал в цепи обратной связи вида Т(со) = — £со,
1.1 примеры задач оптимального управления 11 где k > 0—постоянный коэффициент усиления. Тогда уравнение /со = —k<£>, со (0) = <оо имеет решение - — t со(/) = <оое стремящееся к нулю при t—»-оо. Если мы хотим ускорить тормо- жение «(/), то нужно увеличить коэффициент усиления fe; однако, каким бы большим ни был коэффициент k в этой математической мо- дели, ротор окончательно не остановится—он только стремится к состоянию покоя. Более того, проблема выбора оптимального линей- ного управления с обратной связью в такой постановке не имеет решения, ибо каждое такое управление можно улучшить, увели- чивая коэффициент усиления. Кроме того, задача поставлена и физически неудовлетворительно, так как в действительности су- ществует предел увеличения коэффициента усиления в цепи обрат- ной связи, ибо возникающие нелинейности типа насыщения сильно влияют на характеристики цепи. Для оптимального управления ротором разумно было бы потребовать, чтобы управляющий момент был заключен в некоторых границах. Для простоты обозначений положим Управляющий момент L*(0, который не обязан изменяться не- прерывно (допускаются мгновенные переключения), должен удов- летворять ограничению | L* (t) | 1 и переводить со из начального состояния со = со„ в желаемое состояние со = 0 за минимальное воз- можное время. Решение для оптимального по быстродействию управления L*(t) в разомкнутой цепи очевидно из физических соображений. Если сов > 0, то положим £♦(/)= —1. Тогда при /^Т = /соо и со*(Т)=0. Если <оо < 0, то положим — = 4-1. Тогда при t Т = —/соо и со* (Г) = 0. Так как оптимальный выход со* (0 имеет постоянный знак, то легко построить синтезирующую функ- цию Т (со) для цепи обратной связи. Положим Чг (со) = —sgn со, где sgn <л = ' 4-1 при со > 0, 0 при <о=0, k —1 при со < 0.
12 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 Тогда нелинейное дифференциальное уравнение /со = —sgn 0) для каждого начального значения (оо будет иметь решение, совпа- дающее с оптимальным выходом со* (/) для соответствующей разомк- нутой системы. Пример 2. Управление механизмом, движущимся по гладким рельсам. Рассмотрим механизм массы т, например, тележку, ко- торая движется по горизонтальным рельсам с ничтожно малым трением. Координата х положения тележки в момент времени t определяется по закону Ньютона mx = u(t), где u(t) — измеряемая в соответствующих единицах внешняя управ- ляющая сила; приложенная к тележке. Предположим, что началь- ное положение и начальная скорость тележки заданы: х = х0 и х = у = Уо- Рассмотрим задачу остановки тележки в предписанном положении, скажем, х = 0, у = 0, за минимальное возможное вре- мя с ^помощью управляющей силы u(t) (возможно, разрывной), удовлетворяющей ограничению Здесь решение задачи синтеза оптимального управления не оче- видно, и полученный ниже результат будет неожиданным. Методы, вкратце изложенные в связи с этой задачей, составят основное содержание главы 2, где дается также строгое доказательство не- которых геометрических соотношений, используемых здесь чисто интуитивно. Изложение этого примера будет довольно простран- ным, ибо он иллюстрирует один из основных подходов к задаче управления. Для удобства примем массу т равной единице, и, обозначая скорость х = у, запишем уравнение движения в виде системы двух дифференциальных уравнений первого порядка - х~у, y = u(t) или, в матричной форме, т. е. х = Дх-ф-йц, —матрицы. В этомпри- где х = X .У. вектор, А = 01 ! О 0 • и Ь = О 1
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОЮ УПРАВЛЕНИЙ 13 мере наиболее важные формулы будут представлены как в коор- динатной, так и в матричной форме. Удобно рассматривать решение х(/) = х(0 .у(т как кривую, заданную параметрически в плоскости ху, называе- мой фазовой плоскостью. Таким образом, мы^выбираем некоторое управление u(t) с ограничением |«(0|^1, и затем исследуем соответствующее решение x(t), удовлетворяющее начальным усло- виям х0 = । 0 • При этом наша цель заключается в перемещении L»oJ механизма из состояния х0 в состояние х = 0 за минимальное воз- можное время. Фиксируем момент времени 0 > 0 и рассмотрим все возможные управления и(1) на интервале времени 0^/^^ с ограниче- нием j и (01 1. Каждое из этих управлений определяет соответ- ствующее решение х(0, исходящее из заданной точки х0. Непо- средственной подстановкой легко проверить, что решение опреде- ляется формулами t S х(о=х0+^+J [ 5«(°)d<j] о о или t y(t) = ya+\u(p)d<y, о t х (0 = eAt х0 4- eAi $ e~Asbu (s) ds. о Определим подмножество К (0) на фазовой плоскости как совокуп- ность конечных точек всех описанных выше траекторий, имеющих начало при t = 0 в точке х0. Другими словами, К. (0) представляет собой множество тех точек, которые могут быть достигнуты за время 0, если исходить из начального состояния х0 под действием управлений, удовлетворяющих нашим ограничениям. В рассматри- ваемом примере нетрудно проверить (а далее в общей теории это доказывается), что К(0)—ограниченное замкнутое выпуклое мно- жество, непрерывно зависящее от 0. Оптимальное время t = t* определяется, как первый момент времени, при котором множество K(t) будет содержать точку (0, 0). Ввиду того, что К (0 непрерывно зависит от t, можно доказать, что точка (0, 0) лежит на границе множества Оптималь- ная траектория х* (0 = 'х* (0 I .Г(0] приводит в начало координат в
14 Теорий й Методы оптимального управлений гл. 1 момент t = t*, а оптимальное управление и* (t), О t t* —это то управление, которое порождает эту оптимальную траекторию. Пусть т| (/*)== (Я1 (^*)» Я«(^*))—постоянный единичный вектор, Рис. 1.2. МножествсГдостижимости и кри- вая переключений для системы х~и, 1. исходящий из начала координат и направленный по внешней нор- мали к выпуклому множеству /С (/*) (рис. 1.2). Тогда для каж- дой траектории х (/) = , приводящейвточку х(/*) £/<(/*), должно выполняться условие или т. е. вектор х(/*), идущий из начала координат в точку х (t*), не имеет положительной состав- ляющей вдоль направления внеш- ней нормали; это представляет собой аналитическое выражение того факта, что т)(^*) является внешней нормалью множества K(t*) в граничной точке х*(/*) = 0: Th(/*)** (Н + МН#* 0*)= max или 1](/*)х* (/*) = maxq(/*)x(/*). В этом последнем равенстве, являющемся выражением так назы- ваемого принципа максимума, максимум берется по. всем траек- ториям х(/), приводящим в точку х (/*) К (t*). Далее мы выведем из принципа максимума некоторые экстремальные свойства опти- мального управления и* (t) и построим функцию Т(х,#), на основании которой осуществляется синтез. Поскольку в принципе максимума участвуют оптимальное время t* и вектор нормали заранее не известные, то мы будем применять его неявно. Используя интегральное выражение для х(/), представим левую часть предыдущего соотношения в виде S П1(**) x»+y9t* + $ \u(a)dads -И#) У9+\ . ‘ о о о Если рассматривать лишь те члены этого выражения, которые
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 15 содержат и (/), то получим, что выражение t* s t* Ях(/*)$ $ u(p)dods + ^t*) J u(o)<fo oo о должно достигать максимума при оптимальном управлении Учитывая тождество, которое можнопроверитьдифференцированием, t s t J u(o)dads=^(t —o)«(o)d<j, ООО и полагая rii («) = П1 (**)> (s) = Пх (**)(**—на интерва- ле 0 получим, что управление и* (/) максимизирует инте- грал J т|а (s) и (s) ds. о В матричной записи проведенные выше выкладки означают, что ы* (/) максимизирует выражение /• т](/*)e4<*x0-|-'^^(/*)e'4,* У e~Asbu(s)ds, о так что u*(t) максимизирует также второй член t* t* J i) (s) bu (s)ds=^ (s) и (s) ds, о 0 где 4 (/*) eAt*e~As = ч (s) = (П1 (s). (s)). Учитывая условие |ы(/)|^1, легко понять, что максимум инте- грала t* J t|2(s)«(s)<fc о достигается при управлении u*(/) = sgn Яа(0 Таким образом, оптимальное управление u*(t) является релей- ным управлением, т. е., оно принимает значения, равные +1 и — 1, за исключением тех точек, где происходит переключение, а именно, нулей неизвестной функции Однако из определения ij(Z) видно, что т^ = 0, 1]» = —т]р
16 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 или, в матричной записи, П (0 = Ч ('*) е~ At (— А) = — 1) (0 А. Поэтому *Ъ=0 и (f) является линейной функцией от t. Отсюда заключаем, что т]а(/) имеет не более одного нуля. Итак, оптимальное управление и* (/) есть релейное управление со значениями +1 и — 1 и не бо- лее, чем с одним переключением. Используя этот факт, мы можем построить функцию Т (х, у), осуществляющую синтез в рассматри- ваемой задаче. Оптимальная траектория движения, начинающаяся в точке х0 и идущая в начало координат, должна сначала совпадать с парабо- лой, являющейся решением системы (<^_) х = у, у = —1 («=е—I), а затем с параболой, являющейся решением системы (<^+) х=у, у=+1 (и = +1) или Наоборот. Так как экстремальные системы дифференциальных уравнений е/’+ и автономны (их коэффициенты не зависят от времени), то экстремальные траектории могут быть построены сле- дующим образом. Начиная экстремальное движение в момент t — 0 из начала координат, движемся по траекториям решений систем of - и ef+ в обратном направлении (попятное движение), чтобы до- стичь точки х0 в некоторый отрицательный момент t— —t*. Меняя порядок отсчета времени на обратный, мы начинаем движение из х0 при / = 0 и достигаем начала координат при t = t*. Таким образом, нами получено оптимальное движение ,х*(/), оптималь- ное время t* и оптимальное управление и* (t). Построим теперь все возможные экстремальные траектории, на- чинающиеся из произвольных точек и приводящие в начало коор- динат. Выберем единичный вектор я (0) = (т^ (0), т]2 (0)) и исполь- зуем его в качестве начальных условий при решении системы П1 = 0. *1г=—*11- Пользуясь управлением и (f) = sgnr]2 (t) для определения экстре- мальной траектории, приходящей в начало координат при / = 0, построим решение системы х = у, у = &$м\Л) с начальными условиями х(0) = 0, z/(0) = 0. Таким образом, мы сможем построить все возможные экстремальные траектории, ве- дущие в начало координат при возрастании t, в том числе и на-
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 17 чинающуюся в точке х0. Если, например, взять т]1(0) = 0, т]2(0) = = + 1, то т]2 (0 = + 1 ПРИ t ’С 0, и движение происходит по траек- тории, удовлетворяющей системе х=у, «/= + 1 или уравнению ^ = 1 dx у’ решением которого, как известно, является парабола (см. рис. 1.3) Г+: 2х = у2 0/<0). Аналогично при т]1(0) = 0, т]2 (0)= —1 получим движение по пара- боле Г_: — 2х = «/г (t/>0). Для любых других значений 1^(0), т]2 (0) при т|2 (0) > 0 движение происходит по траектории Г+ до тех пор,' пока Tj2 (/) не окажется равным нулю, а затем начинается движение в обратном направ- лении по некоторой траектории системы e/L. Аналогичный процесс получим при т]а (0) < 0. Простое изучение семейства интегральных кривых систем и <^+ показывает, что для каждой заданной точки х0 имеется один и только один экстремальный путь, приво- дящий в начало координат. Это экстремальное движение и будет оптимальным. Существование оптимального движения будет дока- зано в дальнейшем при изложении общей теории. Кривая, составленная из Г_ и Г+, называется линией пере- ключения W. В нашем примере ее уравнение таково: при ( + V — 2х при х < 0. Определим синтезирующую функцию: — 1, если y>W (х) или если (х, у)¥=(0, 0) и принадлежит Г_, 0, если х—у = 0, + 1 если у = w (х) или если (х, у) (0, 0) и принадлежит Г+. Тогда оптимальное движение из любого начального состояния в начало координат будет представлять собой решение урав- нения х = Чг(х, х) с начальными условиями х(0) — х0, x(0) = z/o. Из геометрии фазо- вой плоскости следует, что, несмотря на разрывность функции
"Ж , V Рис. 1.3. Оптимальные по быстродействию траек- 1 тории для системы х-у, у=иМ, | и (/) | < 1. 18 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 V(x, у) при y = W{x), все решения уравнения x=4f(x, х) опре- делены корректно. Функцию ¥ (х, у), осуществляющую синтез в этой задаче, можно эффективно реализовать в контуре обратной связи. На рис. 1.3 изображены оптимальные траектории системы х = «(0> |«(0|<1 при оптимальном управлении ы*(0 = Т(х(0, х(/)). Оптимальное управление и* (/) для тележки можно интерпре- тировать как максимальную, ускоряющую силу, которая перехо- дит затем в максимальную тормозящую силу, обеспе- чивающую остановку те- лежки в требуемой точке х = 0. Момент времени, ког- да совершается переход от ускорения к торможению (или наоборот), может быть найден графически. Пример 3. Управление гармоническим осциллято- ром. Рассмотрим точку мас- сы т, положение которой в момент времени t опреде- ляется координатой х и на которую действует восста- навливающая сила—k2x, где постоянная k2 > 0 (например, k2—жесткость пружины). Урав- нение движения, согласно закону Ньютона имеет вид nix+k2x = u(t). Внешняя управляющая сила предполагается ограниченной по величине, скажем, |ц(/)|<1. Положим для простоты, что т = 1 и /г2=1. Мы вновь хотим перевести объект из начального состояния х(О) = хо, x(O) = i/o в начало координат за минимальное время. В фазовой плоскости соответствующая система дифференциальных уравнений имеет вид х=У, y= — x+u(t) или, в матричной записи, х = Дх
1.1 Примеры задач оптимального управлений 19 где „ /л_I х (О b(oJ * л Г 0 1] Л= —1 о ’ Применяя те же рассуждения относительно выпуклого множества достижимости /С (/г), что и в предыдущем примере, мы придем к принципу максимума и получим формулу для оптимального управления: и* (/) = sgnq2(/), где 1) (/) = (Я1 (0» 41(0)—решение системы = 1Ъ = —По или Таким образом, т|(/) = — ч4. Пг + г|г=О и т]2 (/) представляет собой гармоническое колебание. Промежуток времени между двумя последовательными нулями функции равен п. Построим линию переключения W и синтезирующую функцию Т (х, у), рассматривая всевозможные экстремальные траектории, оканчивающиеся в начале координат. Мы должны исследовать се- мейства фазовых траекторий экстремальных систем дифференциаль- ных уравнений (<^_) х~у, у = — х—1 и (<^+) Х = у, у = — х+1. Интегральные кривые системы представляют собой концентри- ческие окружности с центром в точке х = — 1, у = 0, с периодом обращения фазовой точки, равным 2л. Интегральные кривые си- стемы £f+—окружности с центром в точке х=4- 1, у = 0 и с та- ким же периодом обращения, фазовой точки. Если выбрать единичный вектор т](0) так, чтобы т]1(0)=1, 4» (0)=0, то t]s (t) = — sin t и на интервале—л < t < 0, sgn r|2 (/) — = 4-1. Соответствующая экстремальная траектория совпадает с кривой, определяемой решением системы <§^+, и проходит через на- чало координат. Ее уравнение Г+: х = — cos/4-l> y = sinf (—л < t < 0)
20 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 ИЛИ (Х_1)2+у2=1> 0<О. Если г1х(0) = —1, т]4 (0) = 0, то г]2(/) =sin/, и на интервале — л < t < 0 имеем sgn т)2 (/) = — 1. Соответствующая экстремаль- ная траектория совпадает с кривой, являющейся решением системы Рис. 1.4. Оптимальное по быстродействию управление, приводящее систему х+х=и (/), \1и (/)| <1 в начало координат. e/L, и проходит через начало координат. Ее уравнение Г_: x = cos/— 1, у —— sin/ (— л < t < 0) или (х+1)8 + ^=1, у>0. Если выбрать теперь я (0) любым другим способом с тем, чтобы г]2 (0) было положитель- ным, то в попятном движении экстремальная траектория .будет идти из начала коор- динат вдоль кривой Г+ до тех пор, пока не станет равным нулю. В этой точке траек- тории экстремальное движение переключается на решение систе- мы по которому оно следует в течение промежутка времени л, до нового переключения на решение системы £f+ (рис. 1.4). Ана- логичный процесс протекает при начальных условиях 1% (0) < 0, но здесь экстремальная траектория возвращается из начала коор- динат вдоль кривой Г_. Нетрудно в данном примере описать линию переключения, в точках которой происходит переключение между семействами решений of- и <^+. Линия W состоит из дуг Г+ и Г_ и их последовательных сдвигов в обратном направлении вдоль соответствующих реше- ний систем. и <^+ на промежутки времени продолжитель- ностью л. Например, дуга Г+ сдвигается в обратном направ- лении вдоль решений системы _ на промежуток времени л. Полу- чающийся образ дуги Г+ затем сдвигается (снова в обратном на- правлении) вдоль решений системы <^+ на промежуток времени л и так далее. Заметим, что такой сдвиг вдоль решений си- стем или <^_ на промежуток л представляет собой поворот фазовой плоскости на угол л вокруг центра х — 1, у — 0 или х = —1, у —d соответственно. В результате указанных преобра- зований дуг Г+ и Г_ возникает линия переключений W, состоя- щая из набора полуокружностей единичного радиуса, показанных на рис. 1.4.
1.1 примеры Задач оптимального управления 21 Синтезирующая функция Т (х, у) при (х, у) =/= (0, 0) имеет вид У (*,!/) = { — 1, если (х, у) лежит выше W или на Г_, О, если (х, у) лежит на W, + 1, если (х, у) лежит ниже W или на Г+. Оптимальные траектории управляемого гармонического осциллятора определяются решениями уравнения х+х = Т (х, х) для произвольного начального положения (х0, г/0) фазовой точки. На рис. 1.4 изображены оптимальные траектории гармонического осциллятора. Качественно W можно определить на основе физи- ческого описания процесса управления, однако точный вид W и У (х, у) может быть получен лишь в результате теоретического исследования, аналогичного проведенному выше. Пример 4. Управление химической реакцией с нелинейным показателем качества. Пусть реагент А вводится с постоянной скоростью в реактор в течение определенного интервала времени Предположим, что х есть значение величины pH, при которой протекает реакция, и которая определяет качество вы- ходного продукта; эта величина регулируется изменением концен- трации и какой-либо составляющей реагента А. •Предположим, что реакция протекает таким образом, что ско- рость изменения х пропорциональна сумме текущего значения и концентрации и составляющей реагента А: dx , о Т( = ах + ^и, где а и р—известные положительные постоянные. Далее предпо- ложим, что за меру изменения в выходе конечного продукта из-за вариаций pH принимается оценка т \x2dt, о а расходы на поддержание соответствующей концентрации и про- порциональны и2. Тогда общая сумма расходов, связанная с уп- равлением u(f) на интервале определяется выражением т С (и) = (ах2 + и2) dt, о где а > О—масштабный множитель. Теперь мы.пришли к строгой математической формулировке задачи. При заданном начальном условии х(0) требуется найти ^управляющую функцию u*(t) на интервале так, чтобы определяемая ею функция х*(f)
22 теория и методы оптимального управления гл. 1 доставляла минимум функционалу т С (и (/))=$ [а*2(0 + «*(0] di. о Управляющая функция не является априори ограниченной, однако из неотрицательности подынтегральной функции следует, что существует некоторое оптимальное управление и* (t). Наша задача—осуществить синтез «*(/), т. е. определить оптимальное управление как функцию состояния x*(t). Для этой цели можно воспользоваться принципом максимума, что и будет сделано в главе 3, однако при этом возникают неко- торые трудности из-за нелинейности функционала С (и). Здесь же мы используем другой путь, применив теорию динамического про- граммирования. Наши методы следуют принципу оптимальности, согласно которому из оптимальности управления и* (t) на участке следует его оптимальность на каждом подынтервале отрезка Строгое обоснование этих методов базируется на понятии выпуклого множества достижимости и во многом сходно с анализом принципа максимума, который будет дан ниже. Пусть в некоторый момент времени /0 на интервале 0 t Т химическая реакция определяется состоянием х0. Пусть для ин- тервала [Zo, Т] имеется оптимальное управление дающее минимальные затраты V(x0,/0) =С (м*). Для того чтобы дальней- шие рассмотрения были справедливы, будем считать функцию V (х, t) достаточно гладкой. Для каждого управления и (t) на [/0, Т] с соответствующим выходом xu(t) при начальном условии х0 ве- личина затрат равняется <о + 6 Т J [ах£(0 + “2(0]<#+ $ [ахи (0 + «2 (О] di, Iq / q "Ь й где 6>0—сколь угодно малое число. Выбирая u.(t) так, чтобы оно оптимизировало наш функционал на интервале [/0 + 6, Т], получим значение затрат: /,+в $ [axl(f) + u*(f)]dt+V (xe(/04-6), f.4-6). Но минимальное значение затрат при начальном значении х9 в момент времени /0 не превосходит этой величины, поэтому имеем //ф + б \ V(x0, /0) = min| $ [ш£(0 + «2(0]Л+У(хо(/о + 6), 4-6)1, “<о I t, / где минимум берется по всем управлениям u(t) на [£0, Т]. Это
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 23 уравнение иллюстрирует основную идею динамического програм- мирования, заключающуюся в том, что программа оптимального управления разбивается на сумму двух программ, действующих на интервалах [/0, /0 4~б] и [/0 + 6, Г] соответственно. Возмож- ность изменения 6 определяет динамику задачи. Используя разложение V (х0, t0) в ряд Тейлора по 6, получим V (*о. М = min /б[axj +и* (/0)] + V (х0, /0) + «(О I + [?&(*’ 'Л 6+°(6)} , где о (б) есть бесконечно малая высшего порядка, чем б. Учитывая, что ^(/0) = ах04-₽«(/0) и устремляя б к нулю, получаем соотношение —(х, 0 = min {ах* + м2 + (х, t) (ах+0u)| > где начальную точку (х0, /0) мы обозначаем (х, t). Здесь минимум вещественной функции h (и) = ах* + и* + (ах + 0м) их вычисляется при фиксированных значениях (х, t). Полагая 2и + 0^ = 0, ди 1 г дх 9 находим, что минимум достигается при ₽ 2 дх Таким образом, V (х, t) есть решение нелинейного дифференциаль- ного уравнения в частных производных dV „ a 0*/WV , W dt~ax 4\дх) +a*dx при условии V (х, Т) = 0. Это дифференциальное уравнение для минимальных затрат V (х, t) и является основным результатом приложения метода динамического программирования к решению рассматриваемой задачи. Поскольку V (х, t) задана при t = Т и из производных по времени в уравнение входит лишь dVfdt, то су- ществует единственное решение V (х, t). Попробуем найти его в виде V (х, t) = c(f)x*,
24 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 где c(t)—неизвестная функция. Подставляя это выражение в урав- нение для V, получим, что функция c(f) должна удовлетворять уравнению —2ас—а at ' при условии с(7') = 0. Это обыкновенное дифференциальное урав- нение первого порядка вместе с условием с (Т) = 0 однозначно оп- ределяет функцию c(t) и, следовательно, функцию затрат V (х, /)=с(/)х2. получить выражение c(t) в элементарных функциях подстановку Чтобы применим I -Р« f с (t)dt U0 = e ° ИЛИ линейное дифференциальное уравнение с по- получим -а Тогда стоянными коэффициентами £ + 2а£—а02£ = О при условии t (Т) = 0. Можно принять также £ (Г) = 1, так как нас интересует лишь отношение £/£. Решение имеет вид ;(/) = <?- « а - г) [ch V а24-а02 (t—Т) + + _g_sh К а2 4-ар2 (/-Т)] . У а2 + ар2 Отсюда получим c(t) = —tjtfP и функция V (х, t) = с (/) х2 вычи- сляется в явном виде. Рассмотрим теперь оптимальное управление «*(/) на отрезке времени [0, Т] с оптимальным выходом х* (/) при заданном на- чальном значении х(0). Управляющая функция должна миними- зировать величину /+б V (х* (/),/) = J [ах* (s)24-u* (s)2] ds-}-V(x* (t 4-6), 14-6) для всех t из [О, Т]. Проводя те же рассуждения, что и раньше, получим соотношение (х* (0, 0 = ах* (О2 + «* (О2 + (** (0, О (ах* (0 + (О).
l.i примеры зАдаЧ оптимального управлений 25 Таким образом, для фиксированного значения t функция и* (t) должна принимать значение и, которое минимизирует величину h (и) = ах* (Z)2 + и2 + (х* (0, 0 (ах* (0 + R, «* (0 = ~ “ Т [2с (0 Х*(0] ’ или и*(0 = —Р^(0 х* (0. --------1 -pcft) ------- Рис. 1.5. Схема синтеза опти- мального управления: и (t)=- = -0с (О х. Это равенство определяет оптимальное управление. Таким образом, для синтеза оптимального управления и* (t) применяется цепь с обратной связью и = — 0с (0 х, которая представляет собой линейную управляющую систему с пе- ременным коэффициентом усиления c(t). Это и есть обещанное ре- шение задачи; его нетрудно реализовать (рис. 1.5). Как будет показано в главе 3, суще- ствует целый класс задач, которые могут быть решены рассмотренным методом, а именно, задачи, в которых показатель качества является квадратичной функ- цией от выхода х и управления и, а основной процесс является линейным. Пример 5. Классический вариационный подход. В этом при- мере мы рассмотрим задачу оптимального управления с точки зрения классического вариационного исчисления. Поскольку за- висимость выходного сигнала системы x(t) от управления и (^оп- ределяется при помощи дифференциальных уравнений динамиче- ской системы, то наша вариационная задача сводится к достаточно сложной задаче Майера—Больца. Мы рассматриваем здесь эту задачу, не останавливаясь на вопросах непрерывности и диффе- ренцируемости, и используем классические обозначения вариацион- ного исчисления. Рассмотрим процесс управления в пространстве Rn, т. е. будем считать х вещественным n-мерным вектором, подчиненным урав- нению (of) x — f (х, и), х (0) = х0 с управлениями и (t) с. Rm при 0 t 1. Для каждого управле- ния и (t) существует соответствующий выходной сигнал х (t), при- чем х(0) совпадает с заданным начальным значением ха. Пусть
26 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 также задан показатель качества 1 С (u) — §h(x, u)dt. о На u(t) и х(1) не наложены никакие ограничения. Пусть и* (0— оптимальное управление, минимизирующее С (и), а х*(0—соответ- ствующий оптимальный выходной сигнал. (Векторные и матричные обозначения, используемые ниже, объяснены в приложении.) Пусть и (t, е) = и* (t) 8 би (0 — однопараметрическое семейство управлений, полученных возму- щением е6и(0 оптимального управления и*(0; каждому из них соответствует выходной сигнал х (I, в) = х* (0 + ебх (0 + о (в), бх (0) = 0. Заметим, что \ и(0О) = и*(0, |(6О) = б«(0, х(0О) = х*(0, g(0O)=6x(0. Рассмотрим вариацию показателя качества: 0 - - Дт(о+т 8“ <')] Здесь обозначает ^р(х*(0, м*(0). Все другие аналогичные функции также вычисляются при х=х*(0, и = и*(0. Так как минимум С(и(-, в)) достигается при 8 = 0, то должно выполняться условие бС^О для всевозможных вариаций би(0. Расшифруем это необходимое условие оптимального управления. Вариация би (0 приводит к вариации бх(0, удовлетворяющей следующему дифференциальному уравнению в вариациях: 6i = ^6x + ^6a, бх(0) = 0. Отсюда бх (0 = $ Ф (0 Ф’1 (s) бп (s) ds,
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 27 где фундаментальная матрица Ф(/) удовлетворяет соотношениям Ф=^Ф и Ф(0) = /. Поэтому 6С “ У J ф <0 Ф-1 Ф (S) бы ю] dt. о о Для упрощения записи введем векторную функцию Я* (О = ~ ЯоФ-1 (О + j Ф (s) Ф-1 (0 ds. о где постоянный вектор Яо выбран так, чтобы ч*(1)=_шФ->(1) + У^Ф(«)Ф->(1)48=0. О Это означает, что т]*(0 является единственным решением сопря- женного дифференциального уравнения *1(0=0. Далее, введем функцию Гамильтона, зависящую от 2п т ствительных переменных: Я (Я, х, и) = к][(х, и)—h(x, и). Тогда уравнения для х и ц могут быть записаны в виде я=-^, я(1)=о и дН они удовлетворяются при я = Я*(0, x — x^(f), u = u*{f). Применим теперь введенные нами обозначения для выяснения смысла необходимого условия SC = 0. Прежде всего интегриро- ванием по частям легко проверить, что f Ф (0 f f Ф-1 (S) S« (S) dt = f1 j®-4s)^-6«(s)dsV т ф ds) Ф-1 w тЬи dt-
28 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 Используя это равенство, представим величину 6С в виде бС=(j т ф ® (УФ-1 (s) т6w \о / \о / Ф(а)^)Ф-чп^ dh(t) ди &U (t) dt. Но отсюда следует, что 6С = j [(rf (1)Ф (1) + т]0) ОТ* (0 О о или ’ о В силу того, что 6С = 0 для всевозможных вариаций 6u(Z) оптимального управления и*(/), находим, что _л.(/)?М+?1<о=о 1 ' ' ди 1 ди или ^0Г(0. х*(0, и* (0)^0. Более детальное исследование вариаций оптимального управления и* (0 показывает, что и = и* (0 не просто критическая точка функ- ции H(if(0, х*(0, и), а именно максимум. Таким образом, Н(т]*(0, х*(0, и*(0) = тахЯ(г]*(0, х*(0, и). ueRm Это и есть принцип максимума, играющий столь важную роль в теории оптимального управления. Система уравнений • дН дН дН п от) 1 дх ' ди является системой уравнений Эйлера — Лагранжа рассматриваемой вариационной задачи (в гамильтоновой форме). В классической литературе, где отсутствуют ограничения на управление, эти усло- вия обычно называются необходимыми условиями Вейерштрасса
1.1 ПРИМЕРЫ ЗАДАЧ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 29 для экстремалей. Для пояснения рассмотрим случай, когда про- цесс описывается скалярным уравнением х = и, х(0) = хо, х(Т) = х,. а показатель качества—функционалом т т С (u) = ^h (х, и) dt = J h (х, х) dt. о о Здесь функцией Лагранжа является h(x, х) и необходимое усло- вие Лагранжа для минимизирующей гладкой кривой х* (t) есть d Z <ЭА \______________________dh__q dt\dx J dx Полагая H = r\u—h, имеем „ dH A Так как — 0, то Функции т)*(0 называются множителями Лагранжа вариационной задачи (в классических трудах обычно их обозначают через X (/)). Функция Гамильтона Н(х\, х, и) часто берется с противоположным знаком, но мы предпочитаем принятые здесь обозначения, так как они чаще употребляются в современной литературе по оптималь- ному управлению. Если управление u(t) ограничено по величине, или задана концевая точка х(1), то вариационный метод исследования услож- няется как в теоретическом, так и в вычислительном аспектах. По этой причине мы откажемся от классического вариационного подхода и будем опираться на геометрические соображения, без- укоризненные, впрочем, с точки зрения математической строгости. Упражнения 1. Рассмотрите управляемый процесс, описываемый уравнением х-\-Ьх — и с ограничением | и (t) |< 1. Здесь Ь—действительная постоянная. Проверьте, что решение x(t), х(О)=хо, соответствующее управлению и (0, имеет вид t x(t) = e~bt х0 + е~Ь( e~bsu(s)ds. о а) Покажите, что при Ь^О можно из каждой начальной точки х0 достиг- нуть начала координат хх = 0. Ь) При Ь < 0 определите множество начальных точек, из которых можно достигнуть начала координат.
30 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 2. Рассмотрите управляемый процесс х-}-6х=«, где 6—действительная постоянная, а |и(0|<1. Пусть х0—начальное со- стояние, из которого можно перейти в состояние *1=0. Покажите, что опти- мальное по быстродействию управление имеет вид «•=—sgnx. Вычислите минимальное время /• в зависимости от х0 и Ь. 3. Рассмотрите управляемый процесс х+2Ьх=и, где b—действительная постоянная, отличная от нуля и |«(/)|<: 1. Покажите, что замена переменных х~г/Ь2 и / = т/|Ь| сводит общую задачу к одному из двух случаев 26=4-1 н 26=—1. Покажите, что оптимальным по быстродей- ствию управлением, переводящим (х0,р0) в (0, 0), будет «♦(0=sgnr)2 (0» где Т)2 (0 имеет не больше одного нуля. Постройте кривую переключения и опи- шите оптимальное управление и оптимальное решение с помощью этой кривой и с помощью экстремальных систем, для которых «(0 = 4-1 и «(/) =—1. При этом нужно установить различие между случаями, когда 26=4-1 и 26 =—1. 4. Рассмотрите управляемый процесс x-{-2bx-\-k2x--=u, где b и k2—действительные постоянные, а |« (/) |«Сс(с > 0). Покажите, что с помощью соответствующей замены переменных эту задачу можно ^свести к случаю 62 = 1, с=1. 5. За какое кратчайшее время пассажир может приехать из Нью-Йорка в Лос-Анжелес? Предполагается, что в его распоряжении имеется летатель- ный аппарат с наилучшими механическими и термодинамическими свойствами, но максимальное ускорение не должно превышать 30 м/сек*. (Летательный аппарат стартует в Нью-Йорке и приземляется в Лос-Анжелесе. Путь счи- тается прямолинейным длиной 3640 км. Влияние вращения и кривизны Земли можно не учитывать.) 6. Рассмотрите управляемый процесс х4-х=« при условии | u(t) |< 1. Пусть начальное состояние (х0, #0) лежит выше кри- вой переключения y=W (х) управления, оптимального по быстродействию и приводящего х в начало координат. Пусть I—целое положительное число, такое, что 2/— 1 < [(х0 +1)» 4-уЗ]*»• < 21+1. Покажите, что оптимальное управление имеет в точности I переключений. Сформулируйте соответствующее утверждение для случая у0 < W (х0). 7. Рассмотрите систему i=ax4-P«, аналогичную рассмотренной в примере 4. Однако показатель качества пусть будет несколько иным, а именно: т С(и) = ^ (ax9+e»)dt. о Используя метод динамического программирования, получите дифференциаль- ное уравнение в частных производных для функции V(x, f).
1.2 ПОСТАНОВКА ОБЩЕЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 31 1.2. Постановка общей задачи оптимального управления Наиболее общая из рассматриваемых здесь задач оптимального управления включает в себя следующие исходные данные: (1) опи- сание объекта управления, (2) начальное состояние физической системы и цель управления, (3) класс допустимых управлений, (4) показатель или критерий качества—функционал, который дает количественную оценку эффективности управления. Прежде чем обратиться к точной формулировке задачи, обсу- дим подробно каждый из этих факторов. 1. Объект управления описывается системой обыкновенных дифференциальных уравнений (^) xl = f‘ (t, х1, х2, ... , х", и1, ... , ит), i=l, 2, ..., п, связывающей вектор х(/), характеризующий состояние объекта, с входным сигналом, или управлением, u(t). Для краткости си- стему уравнений описывающую объект управления, мы иногда будем называть процессом управления. Часто вектор х (t) называют выходным сигналом, однако ниже мы определим выходной сигнал как функцию от х, удовлетворяющую некоторому условию наблю- даемости. В зависимости от вида системы процесс будет авто- номным, линейным, n-го порядка и т. п. (см. приложения к этой главе). Различные нелинейные зависимости могут наблюдаться даже в простейших физических процессах вследствие нелинейного тре- ния, нелинейного усиления, насыщения. Но даже и в линейных системах при синтезе оптимальных управлений мы будем умыш- ленно вводить нелинейную обратную связь, например, типа релей- ного управления. Более того, многие физические системы содержат существенные нелинейности, которыми нельзя пренебречь и с ко- торыми не удается справиться при помощи линейной аппроксимации или применяя метод возмущений. (Рассмотренные ниже два при- мера описывают подобные существенно нелинейные системы.) В силу этого мы мало пользуемся классическим аппаратом линейной теории управления, например, интегральными преобразованиями и пере- даточными функциями. Смысл каждой задачи оптимального управления—синтезировать управление с помощью соответствующим образом построенной цепи обратной связи. Преимущества такого замкнутого контура по сравнению с разомкнутой цепью управления заключаются в том, что процесс становится самонастраивающимся и самокорректирую- щимся. Управление с обратной связью дает возможность умень- шить влияние непредсказуемых изменений внешней среды на объект и влияние возмущений или неточности описания самого процесса.
32 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ. ГЛ. 1 Пример 1. Рассмотрим демпфированный нелинейный осцил- лятор с одной степенью свободы x(t) и с управлением «(/), опи- сываемый дифференциальным уравнением x + f(x, x)x+g(x) = u(t); коэффициент трения f(x, х)^С1(7?2), упругая восстанавливающая сила g(x) С С1 (R1), управляющая сила u(t) ограничена и измерима на O^Z < оо. Из физической природы системы естественны пред- положения f(x, у)^0, xg(x)^0, |ы(/)|г^Вдля некоторой постоянной В>0. Покажем сначала, что решение S (Z) = (х (Z), у (/)) системы диффе- ренциальных уравнений х = У, y = — g(x)—f(x, y)y + u(t) с начальными условиями х (0) — х0, у (0) — у0 определено в фазовой плоскости R2 для всех O^Z < оо. Действительно, если бы S(Z) было определено лишь на неко- тором наибольшем промежутке времени 0 Z < т+ < оо, то функция г2 (Z) = х2 (Z) у2 (Z) при Z—->т+ должна была бы принимать сколь угодно большие значения1). Докажем, что это не так. Введем функцию, определяющую энергию системы: V(x, y) = ^- + ^g(s)ds. о Заметим, что V (х, у) 0 на R2 и V = 0 лишь на том отрезке оси х, содержащем начало координат, где g(x) = 0. Положим V(Z) = V(x(Z), y(Z)). Тогда ^=yy+g(x)x = — f(x, y)y2 + yu(i). Далее, в силу элементарных неравенств (£+1) И ^[V(Z) + 1]<B[V(Z)+1]. Из последнего неравенства вытекает, что V(Z) + 1<[V(O)+1]^; г) В противном случае решение S (/) можно было бы в силу теоремы о существовании решения продолжить на более широкий интервал. (Прим, ред.)
1.2 ПОСТАНОВКА ОБЩЕЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 33 следовательно, И(0<[Г(0)+1]Л X на 0^/<т+. Так как G(x)« Jg(s)ds>0, то о ^<2[У(0)+1]^+=С\ т. е. |г/(/)|=^С для некоторой постоянной С. Так как t x(t) =x0+^y(s)ds, о то |л(0|С».+Ст+. Но отсюда следует, что функция V (t) ограничена на конечном интервале 0<[/<т+. Поэтому решение [5(f) определено при 0< t <+оо. Мы покажем теперь, что для каждого начального состояния (х0, Уо)€^2 ПРИ ^=0 можно выбрать такое управление u(t), удовлетворяющее ограничению | и (f) | В, что соответствующее решение, начинаясь из точки (х0, у9), приходит в произвольно выбранную окрестность начала координат. В следующем разделе этой главы будет обсуждаться вопрос о возможности приведения фазовой точки точно в начало координат за конечное время. Для любой постоянной Vo > 0 рассмотрим в фазовой плоскости кривую V(x, ^) = ^ + G(x)=V0. Эта кривая имеет две ветви f/ = ±K2(V0-G(x)) с общей точкой при G(x) = V0. Таким образом, эта кривая может состоять из двух отдельных ветвей; она может представлять собой замкнутую кривую, обходящую начало координат, или возможно кривую вида о или с в фазовой плоскости. . Рассмотрим свободный осциллятор, т. е. положим и (t) = 0, и заметим, что поскольку х=у, то решение x(t) будет возрастаю- щим при у > 0 и убывающим при у < 0. Кроме того, поскольку на оси Ох у — — g(x), то у будет [неотрицательным при х^О, у = 0 и неположительным при х2>0, у = 0. Возьмем теперь малый диск D с центром в начале координат и докажем, что решение 2 Э. Б. Ли, Л. Маркус
34 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 S(/) = (x(f), y(t)) может быть приведено в D за конечное время с помощью подходящего управления (см. рис. 1.6). Мы рассматри- ваем тот случай, когда g(x)#=0 при х=^=0, т. е. когда начало координат является единственной особой точкой. Если имеется более чем одна особая точка, то малым управлением и (t) можно предотвратить остановку системы во всех других особых точках, кроме начала координат. Сначала рассмотрим случай, когда точка (х0, у0) лежит во вто- ром квадранте; xQ < О, yQ > 0. Положим и (/) = 0 и будем следо- вать вдоль траектории S(t) до тех пор, пока не попадем либо в диск О, либо в первый квадрант. Одна из этих возможностей должна осуществиться, так как x(t) возрастает при у > 0, а тра- ектория S(t) не может достичь отрицательной полуоси х [где у = — g (х) > 0] и не может уйти в бесконечность, ибо она должна лежать в области V(x, У)<У (*о, Уо), поскольку V = — f(x, у)у2<0. Если точка (х0, yG) лежит в первом квадранте или траектория S(t) попадает в первый квадрант при возрастании /, то полагаем и(0=е—В < 0. Тогда у<^—В и траектория S(/) должна пере- сечь положительную полуось х и попасть в четвертый квадрант. В четвертом квадранте мы положим и(/) = 0 и тогда траектория S(t) попадет либо в D либо в третий квадрант. В третьем квад- ранте положим u(t) — B. Таким образом, с помощью описанного выше управления мы заставляем траекторию S(t) закручиваться по спирали (по часо- вой стрелке) вокруг начала координат. Поскольку V=— f(x, y)y2 + yu(t)^Q (и V < 0 при у=^0), то нетрудно видеть, что lira V (0 = 0. /-+ + 00 Однако область V (х, у) < е для достаточно малых е > 0 пересе- кается с D так, что спираль S(t) непременно войдет в D. Следо- вательно, фазовая точка может быть приведена в произвольную малую окрестность начала координат. Пример 2. Рассмотрим твердое тело, например, космический корабль, вращающийся в инерциальном пространстве вокруг своего центра тяжести с угловой скоростью <о (/) под действием управляю- щего момента и (/). Пусть со1; <о2, «>8—проекции мгновенной угловой скорости <о (t) на оси координат, совпадающие с главными осями инерции тела В. Тогда уравнения Эйлера движения твердого тела в фазовом пространстве R3 переменных (ш1( <в?, <в3) имеют такой
1.2 ПОСТАНОВКА ОБЩЕЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 35 вид: /= (/2 — /3) (02©з + Ы1 (0 > Л®2 = ( — Л) ®3®1 + «2 (0> /3®3 — (11 Iг) ®1®2 «з (О’ Здесь /х, /2, /„—главные моменты инерции твердого тела отно- сительно соответствующих осей, а мх, и2, «3—проекции и(/) на те же оси. Предположим, что управляющий момент создается находящимися на корабле реактивными двигателями, максималь- ная тяга которых не зависит от характера движения корабля В, т. е. |u,.(/)|<l, i= 1,2,3. Наша цель—регулировать век' чтобы он приближался к нулю. В следующем разделе мы рас- смотрим вопрос о существовании управления u (t), приводящего to (/) в точности к нулю за ко- нечное время. Определим кинетическую энергию системы Е — U 1®1 + 2®2 + и вычислим производную Ё вдоль любого решейия Ё = + 72®2®2+/3й>з«з = = <о1ц1 + <о2и2 + ®зЫ8. Положим Ui — —• у al (i = 1, 2, 3); если а—достаточно малая положительная постоянная, то |uz|^l (i=l, 2, 3) вдоль всей траектории ®(/), соответствующей управлению u = (Uj, и2, и3). Кроме того, при выбранном управлении Ё = —аЕ, так что с воз- растанием t величина Е экспоненциально убывает. Поэтому lim (о (/) = 0 и в сколь угодно малую окрестность начала коорди- /-►+00 нат можно попасть за конечное время. 2. Начальная точка или состояние х0—это заданный в фазо- вом пространстве вектор. В реальном физическом процессе ком- поненты вектора xQ и вектора x(t) могут представлять собой положение, скорости, угловые скорости, температуру и другие параметры, измеряемые и регистрируемые соответствующими при- борами (см. обсуждение вопроса о наблюдаемости в гл. 2 и 6). 2*
36 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 В задаче управления заранее определяется также и цель управ- ления, которая состоит в приведении объекта в заданное состоя- ние х± или, в более общем случае, в заданное множество конечных состояний G, называемое целевым множеством. Иногда целевое множество будет представлять собой непре- рывно зависящее от t (т0 sg: / компактное множество G(f)1). Это означает, что для каждого момента времени t из данного интервала задается непустое компактное множество G (/) в фазо- вом пространстве R". Непрерывность G(t) как функции действи- тельной переменной t определяется с помощью понятия расстояния между G(t) и G(t'), вводимого следующим образом: dist (G (t), G (/')) = max [max dist (P, G (/')), max dist(P', G(/))]. PeG(t) Р’ев(п Таким образом, для любого t и заданного е > 0 найдется такое б > 0, что dist (G (/), G (f)) < е, как только | f—11 < б. Если G (/) есть точка, непрерывно движущаяся по гладкой кривой £ (t) в Rn, то часто приходится рассматривать ошибку, или отклонение x(t) от желаемого положения: \ е(0 = х(О-6(0. Здесь под x(t) понимается выходной сигнал управляемого про- цесса (е/) x=f(t, х, и), а процесс управления величиной e(t) описывается уравнением e = f(t, е-Ч(0, = f е, и). В такой интерпретации целью управления является сведение ошибки e(t) к нулю. 3. Класс Д допустимых управлений обычно состоит из изме- римых функций и (t) на различных интервалах времени t0 t tlf причем каждое из этих управлений переводит объект из начальной точки х0 в одну из точек заданного целевого множества G(f), т. е. решение x(t) уравнения (<§0 x = f(t, х, и), x(t9) = x0 должно удовлетворять условию х(О€б(О* Предположим, что S автономная система, и точка х0 перево- дится в точку хх управлением (/) на интервале t0 t t-i- Если управление и2(0 на интервале переводит точку xt в х) Так обстоит дело в том случае, когда цель управления зависит от момента времени, в который заканчивается управление. (Прим, ред.)
1,2 ПОСТАНОВКА ОБЩЕЙ ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ 37 точку х2, то результирующее управление Ы =l —^1+М. + переводит х0 в х3. Поэтому нетрудно показать, что, не ограничи- вая общности, всегда можно считать началом управления ! = 0. Часто на функции из класса’ПА накладываются различные дополнительные ограничения; например, условие u(i)c£i, где Q—фиксированное компактное выпуклое множество в Rm, назы- ваемое ограничивающим множеством1). Кроме того, иногда за- дается заранее начало и конец [интервала времени, в течение которого происходит управление. 4. Критерий, или показатель качества представляет собой принятый количественный критерий эффективности каждого уп- равления и(!) на интервале из класса А. Если А]со- стоит из управлений, определенных на различных интервалах времени и приводящих х0 в целевое множество, то критерий ка. чества управления и (0 часто определяется следующим] образом; C(u)=$f°(/, x(i), u(i))dt, ^9 где f°(f, x, ц)—заданная непрерывная функция. Если f°(i, х, и)==1, то С(и) = !3—10, и мы получаем задачу оптималь- ного быстродействия. Иногда А состоит из управлений, действующих на фиксиро- ванном промежутке времени, например, от которых требуется лишь приближенное приведение системы в положение 1(0. Тогда критерий качества часто бывает таким: т С(и) = \х (Т)-т | + 5 Г (О х(0, и (0) di. t, В частности, весьма распространены квадратичные критерии качества, включающие среднюю ошибку управляемого движения х(!) и энергию, расходуемую при управлении u(i), т. е. т с (и) =g (X (Т)) + $ [х' (0 «70 X (0 + и' (!) и (!) и (/)] di. ^0 Здесь g(x)—неотрицательная функция, a W (i), U (!)—симметрич- ные положительно определенные (полуопределенные) матрицы, т. е. x'Wx>0 О0) и и'{/и>0£для любых ненулевых век- торов х, и. 1) В оригнвале aestralnt set». (Прим, рвд.)
38 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ Г Л. 1 Задача оптимального быстродействия для линейных систем рассматривается в главе 2, а квадратичный критерий качества изучается в главе 3. Теперь рассмотрим задачу управления, включающую в себя: (1) процесс of, (2) начальное положение х0 и целевое множество G (f), (3) класс допустимых управлений Д и (4) критерий качества С (и), который определен для всех управлений и из непустого множества Д. Определение. Управление u*(t) из класса Д называется оптимальным по отношению к критерию качества С (и), если С(и*)< С(ы) для всех ы(0£Д. В главах 2 и 3 будет доказано существование оптимального . управления для линейных систем с различными критериями ка- чества. В главе 4 мы докажем довольно общие теоремы сущест- вования оптимальных управлений для нелинейных систем; в качестве примера приведем формулировку одной из таких теорем. Теорема 1. Пусть поставлена задача управления, т. е. за- даны: Система дифференциальных уравнений (<Sf) x?=zg‘(t, x) + tf}(t, x)uJ (i=l, ..., n, j = \, .. .,tri), где . . dgl (t, x) dhf; (t, x) g(t, X), x) и (fe=l, .... n) — непрерывные на R1 x Rn функции; 2) непустое выпуклое компактное ограничивающее множество Qc Rm; 3) начальное положение x0$Rn и непрерывно зависящее от t компактное целевое множество G(/)c7?n; 4) критерий качества t 1 С (и) = $ [g° (f, х (t)) + hOj(t, х (0)«/ (OJ dt, t 0 где gn(t, x) и h^(t, x)—непрерывные на RxX/?" функции. Пусть Q, x0, G)—класс измеримых управлений u(t)czQ на подынтервалах интервала пе- реводящих х(/,,) = х0 в x^gGfo). Предположим, что: (а) Д — непустое множество; (Ь) существует такое В < оо, что | х (t) | В для всех управ- ляемых движений x(t), соответствующих управлениям из Д. Тогда в классе Д существует оптимальное управление и* (/).
13 ОСНОВНЫЕ РЕЗУЛЬТАТЫ ТЕОРИИ УПРАВЛЯЕМОСТИ 39 Можно также доказать, что если класс Д(а)сД, состоящий ид допустимых управлений с фиксированным начальным моментом времени /0 = а непуст, то в нем существует оптимальное управ- ление [это верно и для подкласса Д (а, 0)сД управлений с фик- сированными начальным и конечным моментами]. Доказательство этой и других теорем существования, а также примеры систем, не обладающих оптимальными управлениями, будут приведены в главе 4. Все доказательства существования основаны на использовании следующих трех фактов: (1) Д—не- пустое множество, (2) множество Д слабо компактно, так что су- ществует предел и* (/) для подходящей последовательности управ- лений uk(t), на которых значения функционала С (и) убывают, (3) функционал С (и) обладает свойством непрерывности, так что lim С (ип) = С (и*). К сожалению, все эти теоремы существования не конструктивны. Поэтому для построения оптимального управ- ления требуется дальнейшее исследование. Для случая линейного управляемого процесса x = A(t)x-[-B(t)u с интегрируемыми коэффициентами легко видеть, что предполо- жение (Ь) сформулированной выше теоремы выполняется автома- тически. В следующем разделе мы рассмотрим предположение (а), которое связано с понятием управляемости. 1.3. Основные результаты теории управляемости В этом разделе мы обсудим возможность перевода системы из начального состояния х0 в точности в заданное состояние xt за конечный промежуток времени. Определение. Автономный процесс управления x^flx1, ...-, х", и1, , ит) (1=1, ... , п), где f (х, и) С С1 на R" х Rm, называется вполне управляемым, если для каждой пары точек х0 и хх из Rn существует ограниченное измеримое управление и (1) на некотором конечном интервале такое, что соответствующее движение x(t) переводит систему из точки х(0) = хо в точку х(/1) = х1. Замечание. Для неавтономного процесса x = f(t, х, и) понятие управляемости изменяется следующим образом: для каж- дого начального момента времени /0 процесс считается управляе- мым, если для любого начального положения х0 и любого конеч- ного положения xt существует такое ограниченное измеримое управление u(t) на интервале что соответствующее
40 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 движение x(t) переводит систему из точки x(Q=x0 в точку * (^1) = xv В главе 2 мы докажем следующую теорему об управляемости линейных систем: Теорема 2. Линейный процесс х = Ах-]-Ви, где А—действительная постоянная (пхп)-матрица, В—действи- тельная постоянная (пхт)-матрица, является вполне управляемым тогда и только тогда, когда ранг (пхпт)-матрицы [В, АВ, А‘В, ...» Ап-'В} равен п. В примерах, приведенных в разделе 1.2, рассматривалась задача приведения системы в начало координат. Были указаны случаи, когда из любого начального положения можно было привести систему в некоторую окрестность начала координат. Ниже мы покажем, какое управление следует применить, чтобы попасть в точности в начало координат. Определение. Для процесса x‘ = fl (х1, ... , хп, и1, ... , ит), i=l,..., п, где fix, и)£С1 на RnxRm, областью нуль-управляемости % назы- вается множество всех точек xa£Rn, из которых система может быть переведена в начало координат с помощью допустимого управления u(t) за конечный промежуток времени В главе 6 мы докажем следующую основную теорему о при- ведении системы в точку покоя. Теорема 3. Рассмотрим процесс xfssf^x1, ..., ха, и1....ит), i=\, ... , п, где f(x, на RnxRm. Предположим, что: (а) /(0, 0) = 0; (Ь) класс Д допустимых управлений включает все измеримые управления и (/), которые определены на конечных интервалах вре- мени и удовлетворяют условию | и (/) | е для некоторого е>0; (с) система линейных дифференциальных уравнений х — Ах-{-Ви с постоянными матрицами коэффициентов Л = (^(0, 0)) И В = (^(0> 0)) \dxJ / \дик /
1.3 ОСНОВНЫЕ РЕЗУЛЬТАТЫ ТЕОРИИ УПРАВЛЯЕМОСТИ 41 управляема, т. е. rank [В, АВ, АгВ, , Ап~1В]=п. Тогда область # нуль-управляемости содержит некоторую откры- тую окрестность начала координат в R". Чтобы показать, насколько сильна эта теорема, отметим одно ее прямое следствие, которое в главе 2 будет доказано незави- симо от теоремы 3. Следствие. Рассмотрим линейную систему управления х — Ах + Ви, где А—действительная постоянная пхп-матрица, В—действи- тельная постоянная пхт-матрица. Предположим, что а) Матрица А устойчива, т. е. все ее собственные значения X удовлетворяют условию Re % < 0; b) выполняется условие управляемости, т. е. rank [В, АВ, ... ,Л"-1В] =п. Тогда система из любой начальной точки х0 может быть пе- реведена в точку Xj = 0 некоторым измеримым управлением u(t) на конечном интервале Более того, и (Г) удовлетворя- ет условию | и (t) | е для произвольного е > 0. Приложения сформулированной выше теоремы к примерам 1 и 2 раздела 1, а также и к другим интересным специальным случаям мы предлагаем в качестве упражнений. В оставшейся части этого раздела мы познакомимся с некото- рыми задачами управления, в которых система описывается не матричным уравнением, а одним линейным дифференциальным уравнением высокого порядка. Рассмотрим линейную систему, описываемую уравнением x(re> + аг (t) xin~ « + ... + ап (0 х = и (t), где и (t)—скалярное управление, ограниченное по величине, а именно, лежащее в некотором интервале 3. Может возникнуть задача: перевести систему из начального состояния (х0, х0, х0, ... , Хол-1>) в желаемое состояние G, например, х=0, и далее сохранять это состояние управлением из 3. Задачи такого типа часто встречаются в теории одномерных и многомерных систем управления. Мы сейчас рассмотрим пример такой задачи; более подробно она будет изложена в главе 2. Пример 1. Рассмотрим линейный управляемый процесс х + 2х-|-2х+х=ы, |ы(0|<1. Предположим, что мы хотим привести к нулю скорость х и
42 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 ускорение х системы, а ее смещение х для нас несущественно. Иначе говоря, пусть требуется из любого начального состояния (х0, х0, х0) перейти в желаемое состояние х = 0, х = 0 и в даль- нейшем сохранять нулевые значения скорости и ускорения, ис- пользуя управление u(t), удовлетворяющее условию |ы(0|^1. Эту задачу можно записать и в виде системы трех дифференци- альных уравнений первого порядка х* = х2, х2 = х3, х® = —х1—2х2—2х8 + «(/)» вводя новые переменные х1, х2, х3. Целевое множество G будет представлять собой прямую х2=0, х3 = 0 в R3. Мы будем называть ядром множества G и обозначать символом core(G) совокупность всех точек из G, обладающих следующим свойством: для каждой точки x0£core(G) существует такое управление u(t) на интервале 0^/<оо с ограничением | и (t) | 1, что соответствующее реше- ние x(t), х(О) = хо не покидает множества G, т. е. х2(/) = х3(0 = 0 при 0 t < оо. Но тогда х2 (/) = х3 (/) = 0 и, следовательно, х1 (/) = и (t) и | х11 1. С другой стороны, любая начальная точка вида (xj, 0, 0), где | xj | 1, может быть навсегда задержана в G, если восполь- зоваться постоянным управлением u(rf) = xj. Таким образом, core(G) = {|x1|^ 1, х2 = 0, х3 = 0}, т. е. core(G) есть сегмент оси х1. Итак, задача, состоящая в том, чтобы привести систему в G и удерживать ее затем там, полностью совпадает с задачей при- ведения системы в ядро множества G. Следовательно, мы свели задачу приведения системы в G с дополнительным условием ее дальнейшего удерживания в G к более стандартной задаче при- ведения системы в новую цель — core (G) без дополнительных усло- вий. Отметим, что целевое множество системы core (G) является компактным выпуклым множеством в R3. Интересно, что управление, приводящее систему с последую- щим удерживанием в плоскость G' = {x2 = 0}, налагает на решение условие х2 = х3 = 0; таким образом, core (G') = core (G). Поэтому первоначальная задача двумерного управления, приво- дящего систему в G = {ха = 0, х3 = 0}, может быть заменена одно- мерной задачей приведения в область G' = {х2 = 0}. Этот факт является иллюстрацией одного общего результата, который будет получен в дальнейшем.
1.3 ОСНОВНЫЕ РЕЗУЛЬТАТЫ ТЕОРИИ УПРАВЛЯЕМОСТИ 43 Другой тип линейных задач теории управления, в которых появляются производные управляющей функции, можно назвать задачей с дифференциальным оператором управления. У линейных систем такого вида передаточная функция является дробно-рацио- нальной функцией, числитель которой определяется управляющей функцией и ее производными. Природа таких задач становится ясной из следующего ниже примера. Подробнее они будут изу- чены в главе 2. Пример 2. Рассмотрим линейную задачу с дифференциаль- ным оператором управления ( *У) х -f- Зх 2х = 2и ut где управление u(f) класса С1 подчинено ограничению |ы(/)|<1. Передаточная функция для разомкнутого контура имеет вид 2р+1 р« + Зр + 2- Отметим, что числитель 2/?+ 1 определяется видом правой части 2м 4- и. Пусть требуется перевести систему из начального состояния (х0, х0) в точку (0, 0) за минимальное возможное время. Чтобы записать эту задачу с помощью системы линейных уравнений в фазовом пространстве, положим х=у. Тогда получим следую- ' щую систему: х=у, у =—2х—Зу + 2м + м. В дальнейшем будет показано, что в классе С1 не существует оптимального управления для этой системы; поэтому требуется расширить класс допустимых управлений, включив в него раз- рывные функции. Для этого запишем нашу задачу (<&) в виде линейной системы несколько иного вида (см. главу 2, упражне- ние 4.5): (ef) х2 = х2-|-2м, х2 =—2х*—Зх2—5м. Передаточная функция системы (<§f) вычисляется следующим об- разом: рх1 = х24-2н, рх2 = —2х2—Зх2—5м, где х1, х2, м—соответствующие преобразования Лапласа. Таким образом, 2Р+г й р^ + 3р+2и- Заметим, что система ef не содержит производных от м и поэтому к ней можно применять обычную методику теории управления,
44 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 предложенную в главе 2. Следует также отметить, что фазовые координаты х, у = х теперь входят в следующем виде: х1 — х, х* = у—2и, а начальное состояние х1(0) = хо, ха(О) = хо—2и(0) зависит от управления u(t). Эту трудность, однако, можно обойти, исполь- зуя управления, у_которых и(0) = 0, или же заменяя начальную точку начальным ^сегментом х1 = х0, у0—2^х2^у0 + 2. Кроме того, можно вовсе не рассматривать систему (S), а считать си- стему исходным описанием нашей задачи с заданным началь- ным состоянием (xj, xj). Действительно, на практике эквивалентная система е/’ часто имеет удовлетворительную физическую трактовку, а уравнение S, содержащее дифференциальный оператор управления, выводится из системы <sf с помощью дифференцирования и последующего исключения неизвестных—операций, которые при применении к системе с разрывным управлением не являются, строго говоря, допустимыми. 1.4. Экстремальные свойства оптимальных управлений и их синтез В дифференциальном исчислении для нахождении минимума функции действительного переменного требуется провести иссле- дование критических точек, т. е. точек, в которых производная функции обращается в нуль. Аналогичной процедуре мы следуем в теории оптимального управления. В этом разделе мы сформулируем принцип максимума, смысл которого заключается в том, что каждое оптимальное управление является максимальным, т. е. «критическим» для заданной задачи управления. Мы рассматриваем здесь лишь автономные системы; более общий случай неавтономных систем будет подробно изучен в главе 5. Рассмотрим задачу автономного управления, в описа- ние которой входят: 1. Система (&) xz = f/(x1...х”, u1, ... , и“), i= 1, 2 ..., n, где f(x, м)^Сх в RnxQ. 2. Начальное состояние х0 и целевое множество G—непустое компактное подмножество в R". 3. Класс Д, включающий все измеримые управления u(t), определенные на различных конечных промежутках времени О t переводящие точку х0 в G и принадлежащие некото- рому непустому компактному ограничивающему подмножеству й в Rm.
1.4 ЭКСТРЕМАЛЬНЫЕ СВОЙСТВА ОПТИМАЛЬНЫХ УПРАВЛЕНИЙ 45 <1 4. Критерий качества С (и) = J /° (х (0, и (0) dt, где f° (х, у) £ С1 о в R"xQ- Определение. Рассмотрим автономный управляемый про- цесс {&, х0, G, Q, Д, С}, описанный выше. Пусть и (0, — некоторое управление из Д, которому соответствует решение х(0 — (xz(0), 1=1, .... п. Рассмотрим вместо вектора х(0 п+1 -мерный вектор х(0 = (х“(0), а = 0, 1, .... п, где f х°(0= Jf«(x(0, и (t))dt. о п + 1-мерный вектор ц (0 = (г]а (t)), 0 < t называется сопря- женным решением длях(0, если rj(0 есть решение гамильтоно- вой системы ^ = ^ = №«(0). а = 0, 1, .... п, Ла = — Ло д^а (Х> U (0) • • • Лп ^а (*’ Ы (0)» не обращающееся в нуль ни в какой точке отрезка Здесь функция Гамильтона имеет вид Н (п, х, и) = Vе (х, и) + tjJ1 (х, и) + ... + тУл (х, и). Положим Af (f|, х)= max Н (q, х, и). иеп Тогда, по определению, управление ы(0, будет макси- мальным, если существует решение т) (0, такое, что 1. Н (г] (0, х (t), и (0) = М (т) (0, х (0) почти всюду на 2. М (г| (0, х(0) = О всюду на отрезке [0,0]; т]0 ^0. Следующая теорема называется принципом максимума для автономных систем. Теорема 4. Рассмотрим управляемую автономную систему (of, х0, G, Q, Д, С), описанную выше. Пусть u(t), — оптимальное управление из класса Д. Тогда u(t) является макси- мальным управлением. Заметим, что и(0 называется максимальным управлением, хотя оно доставляет минимум функционалу С (и). Чтобы не из- менять традиционные термины, принятые в литературе по управ- лению, мы будем мириться с этим несоответствием.
46 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 Для пояснения природы принципа максимума применим его к следующей линейной задаче: 1. х= Ах-\-Ви, где А и В—действительные постоянные (пхп)- и (пх т)-матрицы соответственно. 2. Начальное положение х0 принадлежит области нуль-управ- ляемости, а целевое множество G есть начало координат. 3. Ограничивающее множество Q есть компактное выпуклое подмножество в Rm. 4. Критерием качества является продолжительность процесса управления: С (и)= dt — t^ о В этом случае функция Гамильтона имеет такой вид: Н (т], х, и) = т|0 + ц [Ах + Ви] = ц0 + Н (т], х, и), гдет^^), i= 1,.. .,п,— n-мерный вектор-строка и т] [Ах + Ви]=Н. Тогда М (т], х) = т104-т]Дх + шах'г]Вг/ = т|0 + Л1 (t|, х), где М = max И. Если и (0, О t 0,— максимальное управление, и€ Q то решение x(0 = (x‘(0), i= 1, п, а также сопряженное ре- шение л (0 = (Л/(0)» i = L ..., п удовлетворяют уравнениям x — Ax-}-Bu(t), т)=—т)Л; при этом х° = 0 г|0 = const. Принцип максимума означает, во-первых, что 1% г| (0 Ах (0 -|- п (0 Ви (0 = Ло + Л (0 Ах (0 + max г] (0 Ви ие а или q (0 Ви (0 = max т] (0 Ви и € Q почти всюду на интервале 0 t 0 и, во-вторых, что т)0 + г] (0 Ах (0 + max г] (0 Ви = О всюду на отрезке [О, /Д. Если вектор-функция т|(/) обращается в нуль в какой-либо одной точке интервала то она тождественно равна нулю на [О, /Д, так как является решением однородной линейной системы — т]Д. Но если т] (/) = 0, то ^0 = 0, что противоречит определению век-
Г.4 ЭКСТРЕМАЛЬНЫЕ СВОЙСТВА ОПТИМАЛЬНЫХ УПРАВЛЕНИЙ 47 тора я (0- Следовательно, вектор-функция т](/) не обращается в нуль ни в одной точке интервала 0 t tt. Таким образом, в этом случае можно не рассматривать до- полнительные компоненты x° = t и 1% = const, т. е. перейти к n-мерным векторам x(t) и т](£) и искать максимальное управ- ление u(t) в зависимости от Н (т], х, и) и М (т|, х). Необхо- димо отметить, что сопряженное решение удовлетворяет вполне определенной системе дифференциальных уравнений т] = — т]Л, коэффициенты которой не зависят от управления и (/) и решения х (/). Таким образом, т] (/) полностью определяется начальными усло- виями. Так как условия принципа максимума однородны, т. е. допускают умножение т, (/) на любую положительную постоянную, то это можно учесть при выборе начальных условий. Рассмотрим важный частный случай, когда для описанной выше линейной автономной управляемой системы й представляет со- бой /n-мерный куб |ы>|< 1. Тогда условие т] (/) Ви (/) = шах г] (0 Ви означает, что каждая компонента управления u(t) может быть выбрана равной либо -|-1, либо —1 в зависимости от знака соот- ветствующей компоненты вектора i}(t)B. Таким образом, макси- мальное управление u(t) удовлетворяет равенству и (t)= [sgn п(0Я]' почти всюду, если только компоненты ц (/) В не обращаются в нуль на подмножестве положительной меры из интервала 0 t tt. Заметим, что это есть как раз то самое условие экстремальности оптимального управления, которое было выведено в примерах раздела 1.1 из геометрических соображений, связанных со свой- ством выпуклости множества достижимости. Теперь мы можем попытаться синтезировать максимальное управление u(0 = [sgnri(05]'. определив сначала сопряженное решение т] (t), а затем проинтег- рировав уравнение х= Ax-j-B [sgn т] (t)В]' с обратным отсчетом времени, начиная отсчет в начале координат х = 0 и заканчивая его в исходной точке х0. При этом мы про- буем различные начальные значения вектора т] (/), например, единичный вектор при t = 0, а затем строим и (t) и х (/) для t 0. Если построить таким способом все возможные максимальные управления и соответствующие им решения, то одно из них будет
48 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ гл. 1 оптимальным управлением (если такое вообще существует), пере- водящим точку х0 в начало координат. После этого мы возвраща- емся к прежнему направлению отсчета времени, сдвинув начало отсчета так, чтобы х0 соответствовало t = 0. Эта процедура уже использовалась нами при построении кривой переключения и син- тезировании оптимального управления в примерах раздела 1.1. Весьма важным для синтеза максимального, а следовательно, и оптимального управления является соображение единственности. Процесс управления, обладающий свойством единственности, мы будем называть нормальным; в дальнейшем будет развита специ- альная теория нормальных процессов управления. В частности, будет показано, что задача приведения к началу координат ли- нейной автономной управляемой системы х(п) + + ... + апх = и за минимальное возможное время при условии | и (t) | 1 является нормальной. Таким образом, при синтезе оптимального управления как релейного управления, возможно использование принципа мак- симума, максимальных управлений, а также кривых переключения. 1.5. Синтез оптимальных управлений для линейных систем второго порядка В этом разделе мы закончим построение оптимального по бы- стродействию управления для линейных систем второго порядка наиболее общего вида [рассматривается задача приведения системы из точки (х, х) в начало координат]. • Итак, рассмотрим систему х ± 2bx ± k2x = и, где и № > 0—константы, а управление подчинено ограни- чению | и (01 1. В разделе 1.1 уже рассматривался наиболее общий вид линей- ных систем первого порядка х±Ьх=и, |ы(/)|^1. Исследовались также некоторые частные случаи систем второго порядка, например, x±bx = u, |и(/)|<1 и x-]-k2x=u, |u(/)|<:i. В упражнениях было показано, что ограничение более общего вида на величину управления |«(/)|s^c, где с > 0,^сводится к стандартному ограничению | и (t) | 1 соответствующим измене-
1.5 СИНТЕЗ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ ВТОРОГО ПОРЯДКА 49 нием масштаба. Рассмотренные ниже случаи развивают решение задачи синтеза оптимальных по быстродействию управлений для любых автономных линейных систем второго порядка. Рассмотрим вопрос о синтезе оптимального по быстродействию управления в задаче о приведении к нулю линейной системы (J?) х ± 2bx ± k2x = и с коэффициентами 5^0 и £2 > 0 и ограничением | и (t) | 1. За- метим, что соответствующая система уравнений (У) х- — [ о 1 Ld”L±^±26 является нормальной и управляемой. Следовательно, по теоремам разделов 1.2 и 1.3 существует единственное оптимальное управ- ление и*(0 на интервале 0 переводящее систему из за- данного начального состояния (х0, г/0), лежащего в области нуль- управляемости 1?, в точку (0, 0). При этом является открытым связным множеством в фазовой плоскости R2. В силу принципа максимума, сформулированного в разделе 1.4, оптимальное управление является максимальным, и выражается формулой u*(0 = sgnr]2 (0 почти всюду на интервале 0 t t*. Здесь сопряженное решение Я (0 = (т)х (0, т)2(0) удовлетворяет системе уравнений ^ = ±^4- 1%= — Л1±2&т]2 или П2 Т 26т]2 ± й2г]2 = 0. Заметим, что т]2 (0 не может быть тождественным нулем, так как в этом случае (0 = ± 2bi)2 (0—т|2 (0 = 0, что противоречит условию т] (0 0 на 0 t t*. В силу анали- тичности функции т]2 (0 она может иметь лишь конечное число нулей на интервале Вследствие нормальности системы 3? существует лишь одно максимальное управление, переводящее (х0, у0)- в (0, 0), а следо- вательно, и одно оптимальное управление ы*(0. Мы построим соответствующую кривую переключений y = W(x), на которой происходит переключение экстремальной траектории с решения системы (е?_) х = у, y — ^Fk2x^2by—l
50 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 на решение системы (еЛь) Х = у, y=^k2X+2by + l, и наоборот. Так как замена переменных х—>— х, у—>—у пере- водит в <^+, то ясно, что W (—х) = —W (х), и поэтому до- статочно искать кривую переключений лишь для х > 0. Таким образом, синтез оптимального управления u*(t) сводится к определению области 5? управляемости и построению кривой переключений y = W (х). Пр и мер 1. Демпфированный линейный осциллятор. Рассмот- рим задачу о приведении в начало координат за минимальное время системы (-=2”) x+2bx-]-k2x = u. Здесь 6 > 0 и k2 > 0—постоянные, и | и (t) | 1. Поскольку матрица А = 0 1 —k2 —2b устойчива, то в силу следствия из теоремы раздела 1.3 областью нуль-управляемости ‘в будет все пространство 7?2. Здесь имеется два качественно различных случая: 1) слабое демпфирование, Ь2—k2 < 0, 2) критическое и сильное демпфирование, Ь2—k2^Q. Рассмотрим сначала случай Ь2—k2 < 0. Тогда каждое реше- ние экстремальной системы 1 —2Ь (^-) х У. о 1 представляет собой спираль, закручивающуюся вокруг особой точки (положения равновесия) О_: х=—1/&2, t/ = 0, а каждое решение системы х] _ Г ° Г jj - \—k2 —2b х । fo] .у! ‘ LU есть спираль, закручивающаяся вокруг особой точки О+: х = р , у = 0 при t —>-оо. Любая экстремальная траектория, приводящая в начало координат, должна состоять из конечного числа кусков интегральных кривых систем и <sf+ с чередующимся переклю- чением. Анализ сопряженного решения т|2 (?) = aebt sin (со/ 4- Р), где а=И=0, 0 — произвольные постоянные, и со = ]/&2—Ь2, показы- вает, что промежуток времени между последовательными пере- ключениями равен Т = л/со.
1.5 СИНТЕЗ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ ВТОРОГО ПОРЯДКА 51 Пусть S+ — решение системы <^+, которое при обратном от- счете времени исходит из начала координат (рис. 1.7). Опишем с помощью этого решения кривую переключения у = W (х) при х^О, а затем докажем справедливость этого построения. Построим кривую переключений, развертывая спираль S+ в точках пересечения с осью х. Пусть SY есть дуга траектории S+, ведущая из точки (0, 0) в направлении, противоположном указан- ному стрелкой на рис. 1.7, к предшествующей точке пересечения траектории S+ с осью х. Очевидно, что дуга S+ и ее отражение SL Рис. 1.7. Оптимальное’по быстродействию управление, приводящее систему в начало координат. График кривой переключения для системы x+2bx+k2x=u, | и (i) | < 1. Случай 1, пример 1: b2 — fc2 < 0, Ь > 0, fe2 > 0. относительно начала координат являются частью кривой пере- ключения, так как каждая точка дуги представляет собой точку переключения для максимальной или экстремальной траектории решения системы которая пересекает дугу и затем по ней приводит в начало координат. Рассмотрим последовательные дуги спирали S+: S+, S^., ...; каждая из них представляет собой половину оборота спирали S+ и начинается в точке пересечения спирали с осью х. На полуоси х 0 кривая переключения у = W (х) строится из дуги S* и дуг S+, ..., являющихся результатом переноса дуг S+, S’,... вдоль оси х. Таким образом, мы образуем непрерывную кривую y = W (х), однозначную по х на положительной полуоси х>0 и такую, что при возрастании х точки дуг S+, S2+, ... идут в том же порядке, что и точки дуг S+, S+, ... при возрастании (—t). Для х < 0 положим W (х) = —W (—х). Определим теперь син- тезирующую функцию Т (х, у) так, чтобы решения уравнения x+2bx + kix = y¥ (х, х) всегда давали бы оптимальные траектории, переводящие систему из любой начальной точки (х0, у0) в начало координат (0, 0).
52 теория и методы оптимального управления гл. 1 Для этого положим [для всех действительных (х, г/)¥=(0, 0)] —1 1+1 Для для для + (х, !/) = - 0 у > W (х) и на Si, y = W (х), у <W(x) и на Si. Чтобы проверить правильность нашего построения, начнем дви- жение с куска Si решения S+ системы ef+ и куска Si решения S_ системы Кривая переключения вправо от Si состоит из кусков решений системы §f+, взятых на интервалах Т=^- и ис- ходящих из точек Si. Рассмотрим точку Р1 = (х1, у1) на Si и обозначим через Ра = (х2, у2) точку, в которую мы придем через промежуток времени Т =-^-, двигаясь вдоль решения системы ^+. Тогда точки Pv О+ и Р2 будут лежать на одной прямой, и отношение длин от- резков РХО+ и О+Р2 равняется е~ьт. Это легко вычислить, учи- тывая, что точки Рх и Ра лежат на одном и том же витке спи- рали S+ с характеристикой затухания е~ы на расстоянии в пол- виткадОднако отношение длины отрезка Q2O_, где Q2 = (xi, i/i)— точка траектории S_, лежащая на прямой Pfi-^ к длине отрезка РХО_ также равно е~ьт. Из подобия треугольников находим, что yi = у2, а затем простым вычислением можно показать, что f \ 2 х2 = xi -|- *° +1J . Это означает, что дуга Si, входящая в кри- вую переключения, представляет собой результат параллельного переноса дуги Si, которая лежит на траектории S_ и является продолжением дуги Si. Но дуги S1 и S2 получаются друг из друга параллельным переносом, так как системы и §f+ пере- ходят одна в другую при замене переменных (х, у)—►(—х, —у). Таким образом, дуга Si является следующим за Si куском линии переключения у = W (х) при х > 0. Полное описание кривой y = W (х) получается повторением этого рассуждения. Обратимся к случаю (2) Ь2—k2^Q. Здесь каждое решение систем приближается соответственно к точкам О±, однако на каждом решении х может обращаться в нуль не более одного раза. Общее решение сопряженного уравнения имеет вид Т12(0=е6*(а + ₽0 ПРИ 62—k2 = 0 или т]2 (0 = aebt sh (р/ + 0) при 62—k2 > 0, где а и 0— постоянные и р = ]/&8—k2. В любом случае т]2 (/) имеет самое большее один нуль, а соответствующее оптимальное управление таково: и* (/) = sgn Т|2 (/)•
1.5 СИНТЕЗ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ ВТОРОГО ПОРЯДКА 53 В случае (2) кривая переключений у = W (х) состоит из двух кусков решений Г+ и Г_. Здесь Г_ представляет собой решение системы проходящее через точку (0, 0), а Г+ — решение си- стемы <^+, лежащее в четвертом квадранте, как показано на рис. 1.8, и ведущее из начала координат. Таким образом, легко построить кри- вую переключений y = W(x), которая будет однозначной на всей оси х, а также соответствующую синтезирую- щую функцию —1 при у> W (х) и на Г_, 4-1 при y<W(х) и на Г+. ^ (*,*/) = { Пример 2. Линейный|осцилля- тор с отрицательным трением. Рас- смотрим задачу приведения в начало координат за минимальное время си- стемы х—2&х4-&2х = и. Рис. 1.8. Оптимальное по быстро- действию управление, приводящее систему в начало координат. График кривой переключения для системы х + 2Ьх ч- k2x=u, I и (t) | < 1. Слу- чай 2, пример 1: Ь2 — £2 > 0» Ь> 0, &2>0. Здесь b > 0 и k2 > 0—постоянные, система дифференциальных уравнений а |ы(/)|С 1. Заметим, что (<^) о Г —k2 2b х У не является устойчивой в начале координат (при и = (У), однако она управляема и нормальна. Так же как и в примере 1, для построения кривой переклю- чений и синтеза оптимального управления рассмотрим экстре- мальные системы Х = у, y = — k2x + 2by—l и (еЛ) Х=у, y = — k2x + 2by+l. Здесь снова возможны два случая: 1) слабое демпфирование, Ь2—k2 < 0, 2) критическое и сильное демпфирование, Ь2—k2^0. Рассмотрим случай 1, Ь2—k2 < 0. Здесь каждое решение си- стемы представляет собой раскручивающуюся спираль с цент- ром в точке О_: х = —^-, г/ = 0, а каждое решение системы <^+— спираль с центром в точке О+: х=-^-, у = 0, раскручивающуюся с возрастанием t. В наиболее общем виде сопряженную траекторию
54 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 можно представить так: т], (t) — ае~ bt sin (со/ + 0), где а, р—постоянные и <о = V k2—b2. Таким образом, экстремаль- ная траектория, приводящая в точку (0, 0), может иметь много переключений между дугами е/'_ и <^+; промежуток времени между переключениями всегда должен, однако, равняться Т = л/ы. Кривая переключения строится методом, аналогичным употреб- лявшемуся в примере 1. Пусть S+—дуга кривой S+ [S+ реше- ние системы £f+, исходящее из точки (0, 0)], отсчитанная от начала координат и соответствующая промежутку времени Т = л/со (при обратном отсчете времени). Пусть S+, S+—последователь- ные дуги кривой S+, каждая из которых начинается и заканчи- вается в точке пересечения S+ с осью х и соответствует проме- жутку времени Т = л/со. Тогда кривая y = W (х) будет состоять из дуги 5^, за которой будет следовать S+, а затем своего рода развертка спирали, с остриями в точках пересечения кривой S+ с осью х (рис. 1.9). Рис. 1.9. Оптимальное по быстродействию управление, приводящее систему в начало координат. График кривой переключения для системы x-2bx+k2x = w, | «(/)!<!. Случай 1, пример 2: b2-k2 < 0, b > 0, k2 > 0. / _Ьл \ Поскольку диаметр дуги SJ. равняется “ 4-1) , а диа- метры последующих дуг убывают, так как множитель е~Ьл/а < 1, то нетрудно вычислить, что y = W (х) определена для следующих значений х: 1+е-Ьп/ш 0 х < х+ = —. (1— Пользуясь нечетностью функции W (х) = — W (—х), можно доопре- делить W (х) на х_<х^0, где х_ = — х+.
1.5 СИНТЕЗ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ ВТОРОГО ПОРЯДКА 55 Легко видеть, что область управляемости есть открытая область, ограниченная решением ведущим из точки (х_, 0) в точку (х+, 0) при у^О, и решением <^+, ведущим из точки (х+, 0) в точку (х_, 0) при у^О. Таким образом, синтезирующая функция определяется в ё следующим образом: Y(x, у) = ' —1 для у > W (х) и на S1, 0 для у= W (х), + 1 для у < W (х) и на S*. Теперь рассмотрим систем ef± исходит из случай 2, Ь2—&2^0. Каждое решение особой точки О± и имеет не более чем одну точку пересечения с осью х. Следовательно, каждая опти- мальная траектория, приводящая в точку (0, 0), будет иметь не более одного пере- ключения. Решения системы <^+ легко получить из решений (пример 1, слу- чай 2) подстановкой х—► — х, у—»-у, t—> — t. Решения е/_ аналогично полу- чаются из решений <^+ (пример 1, слу- чай 2). Пусть S*—дуга решения е/’+, веду- щая из точки О+ в начало координат. Тогда кривая переключений у = W (х) состоит из дуги S+ при х 0 и соответ- ствующей дуги SL системы e/L при х^0. Область управляемости ё представляет собой открытую область, ограниченную решением системы идущим из точ- ки О+ в точку О_ при у 0 и решением системы идущим из точки О_ в Рис. 1.10. Оптимальное по быст- родействию управление, приво- дящее систему в начало коорди- нат. График кривой переключе- ния для системы х-%bx+k*x=ut | u (t) | < 1. Случай 1, пр и- м е р 2: b*-k* > 0, Ь > 0,£8 > 0. точку О+ при t/>0 (рис. 1.10). Как обычно, синтезирующая функция определена в области ё (см. рис. 1.10) и имеет вид V(x, у) = — 1 для y>W(x) и на S1, + 1 для у < W (х) и на Si- Пример 3. Управление под действием отталкивающей силы. Рассмотрим синтез оптимального управления в задаче приведения к началу координат за минимальное время линейной системы х + 26х—k2x = u с постоянными коэффициентами b и k2 > 0 и ограничением | и (/) | 1. Здесь снова оптимальное управление м* (f) на интер- вале переводящее произвольную точку (х0, г/0), принад- лежащую области управляемости, в точку (0, 0), является единст-
56 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 венным максимальным управлением, переводящим (хс, у0) в (0, 0) и H*(0 = sgnr)2(0. Сопряженное решение i]2 (t) 0 удовлетворяет уравнению т|2—2Ц2—£2т]2 = П и имеет не более одного нуля; общее решение имеет вид т]2 (0 — aebt sh (vt 4- 0), где а и 0 — постоянные, a v — V b2-\-k2. Таким образом, u*(t) имеет не более, чем одно Рис. 1.11. Оптимальное по быст- родействию управление, приво- дящее систему в начало коорди- нат. График кривой переключе- ния для системы x+2bx-k2x—u, I « (О |< 1. переключение. Экстремальные системы (е^_) х = у, y = k2x—2by—\ и (е^+) х=у, y=k?x—2by + \ соответственно имеют особые точки О_: х— 1//г2, г/= 0 и О+: х = — 1/£2, y = Q, являющиеся особыми точками типа седла. Линия переключения составляется из двух кривых Г+ и Г_. Здесь Г+ — ре- шение системы ^+, проходящее через точку (0, 0) и лежащее в четвертом квад- ранте фазовой плоскости. Аналогично, решение Г_ системы проходит через точку (0, 0) и находится во втором ква- дранте (рис. 1.11). Область управляе- мости представляет собой открытую бес- конечную полосу, ограниченную прямыми И «/ = (—ь—V) • Картина не меняется при &>0, Ь = 0 и b < 0. Синтезирующая функция определяется как обычно: ( —1 при y>W(x) и на Г_, ^(х’ -f-1 ПрИ у < w (х) и на Г+. Упражнения 1. Рассмотрите управление гамильтоновой системой: дН , » ; дН , , . , о х1——У —----------т+v, 1=1, 2, л. dyt дх‘
1.4 СИНТЕЗ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ ВТОРОГО ПОРЯДКА 57 Здесь (х1, х2, ...» х«, у1, ..., уп) = (х, у) точка фазового пространства R2n, а функция Гамильтона Н (х, у) принадлежит классу С2 в 7?2й. Управляющий вектор («, v) удовлетворяет ограничению |^|<1, |^|<1. Пусть Я (х, у) > 0 и |grad#(x, у) | > 0 в /?2д\(0, 0); Я (0, 0) = 0 и Яш Я(х, ^)= + оо. Покажите, что можно из любого начального со- 1*1+11И -> оо стояния (х0, у0) перевести систему в заданную окрестность начала координат. 2. Рассмотрите нелинейное дифференциальное уравнение x+f(x, x)'x+g(x) = Q, где f (х, у) и g(x)—функции из С1 на фазовой плоскости R2. Положим f(x, у) 5* О и xg (х) > 0 для х 0. X (а) Покажите, что если функция G (х) = J g (s) ds удовлетворяет условию: о lim G(x)=oo, то каждая кривая X -► 00 V(x. ») = £+<? (*) = П> О 25 представляет собой замкнутую кривую, содержащую внутри себя начало координат. (Ь) Пусть f (х, 1/)^0и g(x)=xe“*2 так, что нелинейное уравнение х+хе~*2 = О допускает линейную аппроксимацию i’+x=0 вблизи начала координат. Покажите, что глобальное поведение решений этих уравнений на фазовой плоскости будет качественно различным. 3. Рассмотрите описанные ниже системы управления с указанными кри- териями качества и целевыми множествами. Покажите, что в каждом случае систему можно из любого начального состояния перевести в соответствующее целевое множество, однако оптимального управления не существует. Устано- вите в каждом случае, почему не применима теорема существования, уста- новленная в разделе 1.2. (a) x=sin2raz, y=cos2n«, г=—1 в R3 при условии | Начальное состояние (0, 0, 1), конечное—(0, 0, 0); критерий качества — t C(u) = ^(x*+y*)dt. О Уьк а з а н и е. Постройте управления uk (t) на 0 t < 1, удовлетворяю- щие соотношениям sin2ttU£ (/) = sin2n;£/; cos 2пик (t) = cos 2nkt для £=1,2,3...; (b) х=ц, y=u, в /?3 при условии и2(/)-|-ц2(/) = 1. Переведите (О, 0, 1) в (0, 0, 0). Критерий качества t С (и, О
58 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ гл. 1 (с) х=1, у — ~хеУи в /?2 при условии 0<«(/)<2. Переведите (—1, 0) в (1, 0). Критерий качества i 1 С («) = J (2-у) dt=^ (2-у) dx. о -1 Указание. Для каждого решения х(/) = / — !, у (t) покажите, что 1 0 у (х) < —In х2 для х # 0. Тогда С (и) > (2 + In х2) dx = 0. Попробуйте -1 применить управление не(/) = 2—8 для малых 8 > 0. 4. Рассмотрите нелинейную систему х—х2—х2 = «2, | и (/) | в фазовой плоскости х, у = х. Покажите, что область нуль-управляемости це- ликом лежит в четвертом квадранте и, следовательно, не содержит никакой окрестности начала координат. 5. Запишите линейную систему с постоянными коэффициентами х(я> + а^п -1) + ... + апх = и в виде матричной системы первого порядка (с^) х = Лх+&«, положив к1 = х, х2 = х, ...» хл = х<я“1>. Используя теоремы, доказанные в разделе 1.3, покажите, что система of управляема. 6. Рассмотрите нелинейный управляемый процесс х(я>+/(х, х, х, ....х^-1), ц) = 0, где функция /(х1, ..., хя, и) принадлежит С1 в /?я+1, а управление и под- чинено ограничению | и (/) | 1. Кроме того, f (0, 0, ..., 0) = 0 и (0, ..., 0) f 0. Применяя теоремы, сформулированные в разделе 1.3, покажите, что область нуль-управляемости для соответствующей системы уравнений первого порядка в Rn содержит открытую окрестность начала координат. 7. Покажите, что система (<^) х= —х+и, #= —2# не является управляемой в /?2, исследуя картину интегральных кривых на фазовой плоскости. Произведя преобразование координат, х = 2х—у, 'y=x—yi получите соответствующую систему <ff. Проверьте, выполняется ли для нее алгебраическое условие управляемости раздела 1.3. 8. Рассмотрите примеры 1 и 2 раздела 1.2. (а) Покажите, что система может быть приведена в начало координат из любого начального состояния. (Ь) Проверьте в каждом случае выполнение всех условий теоремы сущест- вования раздела 1.2 и докажите существование управления, оптимального по быстродействию. 9. (а) Рассмотрите нелинейную автономную систему (<^) x=f(xt и) при u(t) £ Q,
ПРИЛ. I ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ОБЫКНОВЕННЫХ УРАВНЕНИЙ 59 t переводящую х0 в хг = 0 и минимизирующую С (и) — J /° (х (/), u(t))dt как о в разделе 1.4. Сформулируйте в терминах управления и (/) и решений х(/), т] (/) принцип максимума для оптимального управления. (Ь) Сформулируйте соответствующий принцип для управления, максими- зирующего критерий С (и), 10. Рассмотрите систему *х — и—и2 с ограничением | ц (/) | С 1. Покажите, что оптимальным управлением, пере- водящим х0 =—1 в Xj = 0 за минимальное время, будет . Отметим, что в данном случае оптимальное управление не будет релейной функцией, переключающейся с +1 на —1. Приложение I Геометрическая теория обыкновенных дифференциальных уравнений В примерах 2 и 3 раздела 1.1 мы показали, как свести изу- чение одного уравнения второго порядка, например, x = f(t> х, х), к изучению системы двух дифференциальных уравнений первого порядка: Х = У, y = f(t, X, у). Аналогичным образом, вместо скалярного дифференциального уравнения высшего порядка можно рассматривать соответствую- щее векторное уравнение первого порядка, представляющее собой частный случай системы дифференциальных уравнений первого порядка: = х1, ..Xя), ха = х1, ..., Xя), xn = fn(t, х1....Xя). Эту систему дифференциальных уравнений можно записать так: х1 = (t, х1, .... xn) = f‘{t, х), i=l, 2, ..., п, или в виде векторного дифференциального уравнения (£Q x = f(t, х) или *’
60 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 Решение представляет собой вектор-столбец, состоящий из действительных дифференцируемых функций аргумента t, определенных на неко- тором открытом интервале 3 и удовлетворяющих на нем системе дифференциальных уравнений х* (/) = /*(/, x(t)), i = l, 2, ...,п. В этом разделе предлагается геометрическая интерпретация векторного дифференциального уравнения ef как векторного по- ля в пространстве Rtt п действительных переменных (х1, ..., х"). Кроме того, мы введем терминологию и обозначения, употребляе- мые в теории векторных и скалярных функций и сформулируем основные теоремы, относящиеся к векторным дифференциальным уравнениям. При желании читатель может лишь бегло ознако- миться с этим материалом, возвращаясь к нему для детального изучения по мере того, как отмеченные здесь понятия будут встречаться в излагаемой далее теории оптимального управления. Обозначение множеств в Rn, п=1, 2, 3, ... Пространство Rn представляет собой совокупность всевозмож- ных наборов п действительных чисел (х1, ..., х"). Таким образом, R1 есть действительная прямая, a R2—действительная плоскость. Если точка или вектор х0 — (xj...х#) принадлежит некоторому подмножеству А из Rn, то пишут х0 € А. Если каждая точка А лежит в подмножестве В, т. е. А содержится в В, то пишут Л а В. Множество точек, принадлежащих AJt но не принадлежащих At, называют разностью множеств Аг и Ди обозначают Аг—А2; если же Лхс:Л2, то разность их будет пустым множеством, т. е. мно- жеством, не содержащим ни одной точки. Пересечением Лх П Л2 называется множество точек в R", принадлежащих как Лх, так и Л2, а объединением Л^Ла—множество точек, принадлежащих хотя бы одному из множеств Лх или Л2; аналогично определяются пере- сечение и объединение любого конечного числа подмножеств в Rn. Для множеств AaRn и B<=.Rm мы определяем их произведение A xBcRn+m как множество всех пар точек (х, у), гдех£ Л, у^В. Понятия P0€S, ЛаВ, Лх—Л2, Л1ПЛ2, ЛхиЛ2 и ЛхВ для подмножеств более общих пространств определяются аналогично. Геометрия в R" Нам понадобится в дальнейшем следующая норма в R" (не совпадающая с евклидовой): l*ol = l*ol + ko|+ • • • +|x?|, X0 = (xJ, xj, ...,X?)€P“.! С введением расстояния между точками х и у по формуле
ПРИЛ. I ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ОБЫКНОВЕННЫХ УРАВНЕНИЙ 61 d(x, у) = |х—у\, Rn превращается в метрическое пространство, т. е. пространство, в котором определена действительная функция расстояния, удовлетворяющая следующим аксиомам: 1- уо)>0, если «/о=И=*о и d(x0, хо) = О. 2. d (х0, t/o) = ^(f/o> хо)- 3. d(x0, z0)<d(x0, y0) + d(y0, z0). Множество 6c Rn называется открытым, если для каждой точки х0 £ 6 существует число г > 0 такое, что множество точек {х | х С#л| ’• |*—х0|<г} целиком лежит в 6 (замена нормы |х—х0| евклидовой длиной х—х0 привела бы к точно такому же опреде- лению). Множество CcRn называется замкнутым, если множество Rn—С открыто в Rn. Открытое множество 6cRn не содержит своих граничных точек, в то время как замкнутое множество CcRn содержит все свои граничные точки. Объединение открытых множеств есть открыто j множество, а пересечение замкнутых—зам- кнутое множество. Объединение всех открытых множеств, содер- жащихся в некотором множестве А с Rtt, называется внутренностью множества А. Множество NcRn, содержащее множество А в своей внутренности, называется окрестностью множества А. Пересече- ние А всех замкнутых множеств в Rn, каждое из которых содер- жит А, называется замыканием множества А в Rn. Говорят, что точка Р принадлежит границе дА множества А, если каждая окрестность Р содержит как точки, принадлежащие А, так и точки, принадлежащие его дополнению Rn—А. Все эти определения и свойства открытых и замкнутых множеств верны в любом мет- рическом пространстве. Множество RcRn называется компактным, если К замкнуто и ограничено в Rn (т. е. К. замкнуто и функция |х| ограничена на К). Расстоянием от точки P$Rn до компактного множества RcR" называется кратчайшее евклидово расстояние от Р до точек множества К. Множество AcRn называется выпуклым, если для любой пары точек х0 и хх из А весь отрезок рх0 + (1—р)хх, где О < р С 1, лежит в А (здесь линейная комбинация векторов вы- числяется покомпонентно). Открытое множество 6с Rn называется связным, если любые две точки из 6 можно соединить непрерыв- ной кривой, лежащей в 6. Заметим, что всё пространство Rn яв- ляется открытым, замкнутым, выпуклым и связным в Rn, но не является компактным. Система’дифференциальных уравнений g(^) ? = f(/, х1, ..., хп), i=l, 2........п может быть интерпретирована геометрически, как векторное поле с компонентами f{(t, х) в каждый момент времени t в пространстве Ra. Мы называем Rn, или его подмножество, в котором опреде- лена система &f, фазовым пространством системы Решение
62 теория и методы оптимального УПРАВЛЕНИЯ гл. 1 системы в Ra представляет собой кривую х(/) = (%' (/)), задан- ную в параметрическом виде (с параметром t), касательный вектор которой или вектор скорости х (/) = (%'(/)) совпадает с вектором Если вектор-функция f(t, х) не зависит от времени, т. е. f (t, x)=sf (х), то система дифференциальных уравнений называется автономной. В этом случае векторное поле можно представить как поле скорости установившегося потока жидкости в Rn. Если f (хо) — 0> то хо есть особая точка, или точка равновесия автоном- ной системы a x(t) = x9—решение, которое на фазовой плоскос- ти изображается одной точкой. Периодическое решение x(t) си- стемы, т. е. такое, что для некоторого постоянного периода Р > О имеет место тождество x(t) = x(t + P), изображается в фазовом пространстве в виде простой замкнутой кривой. Этот геометри- ческий язык полезен при исследовании качественной картины поведения интегральных кривых системы Для того чтобы сформулировать фундаментальные теоремы существования, единственности и регулярности решений необ- ходимо ввести понятия непрерывности и дифференцируемости. Определения непрерывности и дифференцируемости в Rn Векторная функция f (х) со значениями в Rn называется непре- рывной на множестве A <z Rn, если каждая ее компонента f‘ (х1,... ,х") является непрерывной функцией на А. Далее, говорят, что f(x) принадлежит классу Ск, где k— 1, 2, 3, ..., на открытом мно- жестве 6а R", если каждая ее компонента f‘(х1, ..., х") непре- рывна и имеет непрерывные частные производные порядка k на множестве 6. Если f(x) принадлежит всем классам Ск, то пишут f (х) € на 6. Если f (х) является аналитической функцией на 6, т. е. если каждая функция f‘ (хх, ..., х") разлагается в абсолютно сходящийся степенной ряд в окрестности каждой точки х$6, то отсюда следует, что f(x) £Ca‘. Как было отмечено ранее, произ- водной векторной функции х (/) = (х‘ (/)) по t € R1 называется вектор- функция х (t) = (х* (0). Рассмотрим действительную систему дифференциальных урав- нений (е/) = х1, ..., х"), i=l, 2, ..., п, где функция f(t, х) определена и непрерывна на 3 x6<zR1+n, ScR1—открытый интервал, а 6—открытое множество в Rn. Предположим, что функции dfl(t, х)/дх^ непрерывны на 3x6. Тогда для каждой начальной точки (t0, х9)^3хб существует единственное решение системы £f: X = (f(t, t0, х0),
ПРИЛ. I ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ОБЫКНОВЕННЫХ УРАВНЕНИЙ 63 проходящее через заданную точку х0 в момент времени /0: ф (^0» ^0» = и это решение определено в 3x6 на некотором максимальном промежутке времени т_ (/0, х0) < t < т+ (/0, х0), где оно удовлетво- ряет системе Эта основная теорема существования и единст- венности доказывается в учебниках по теории обыкновенных дифференциальных уравнений. Однако нам понадобится более сильная теорема существования, нежели описанная выше, так как нам придется иметь дело с си- стемами дифференциальных уравнений, у которых коэффициенты f(t, х) являются разрывными функциями от t. Такие системы играют важную роль в теории оптимального управления, поскольку они описывают поведение управляемого объекта под действием оптимальных управлений с мгновенными переключениями. Мы будем всегда считать, что f‘’(t, х)—измеримые по t функции для любого фиксированного х. Измеримые функции действительного переменного t составляют весьма обширный класс функций, вклю- чающий в себя все непрерывные функции, кусочно-непрерывные функции, а также пределы таких функций. Довольно затрудни- тельно привести пример неизмеримой функции; во всяком случае, мы будем сталкиваться лишь с измеримыми функциями (чаще всего с кусочно-непрерывными). Ниже мы дадим краткие сведения о функциях, измеримых и интегрируемых по Лебегу. Определения измеримых и интегрируемых функций на Rn Слабая компактность Подмножество N<zRn называется множестзэм меры нуль, если для него найдется покрытие, представляющее собой объединение счетного числа n-мерных кубов, общий объем которых меньше заранее заданного числа в > 0. Например, любое конечное или бесконечное счетное множество точек в Rn является множеством меры нуль. О двух функциях (х) и (х), определенных на AcRtt и отличающихся друг от друга на множестве меры нуль, говорят, что они совпадают почти всюду на А. Измеримые1) множества в Rn определяются, как элементы некоторого наименьшего се- мейства множеств в Rn, содержащего все открытые множества, все замкнутые множества, все множества меры нуль из R", раз- ность любых двух членов этого семейства, а также объединения и пересечения конечного или счетного числа любых его элементов. Действительная функция h(t), определенная на действительном интервале 3, называется измеримой, если для любых действи- тельных аир множество 11 £ 3 и а < h (t) < Р} является из- х) Речь' идет об измеримости в смысле Лебега. (Прим, ред.)
64 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 меримым в R1. Если функция h(t) измерима на 3, то существует замкнутое подмножество % в 3 такое, что функция h (t) непрерыв- на на а мера множества 3—% сколь угодно мала1). Если функция h(t) измерима на 3, то мы можем определить для нее интеграл Лебега 3 рассматривая соответствующие пределы интегральных сумм. Функ- ция h(t) называется интегрируемой на 3, если записанный выше интеграл, а также интеграл от | h (/) | суть конечные действитель- ные числа. Изменение значений функции h(t) на множестве меры нуль не влияет на величину интеграла. Если функция h(t) ку- сочно-непрерывна, а интервал 3 компактен, то значение написан- ного выше интеграла Лебега совпадает со значением обычного риманова интеграла. Пусть h(t) интегрируема на интервале 3 = (t0, Q. Рассмотрим неопределенный интеграл t Н (t)=^h (s) ds для tQ t tt. I Такой интеграл представляет собой абсолютно непрерывную функ- цию2). Можно доказать, что абсолютно непрерывная функция непрерывна и дифференцируема^почти всюду (т. е. на всем интер- вале 3, исключая множество меры нуль), и имеет место равенство (также почти всюду): Всякая липшицева непрерывная функция Я (?) является абсолют- но непрерывной3). Таким образом, основное отличие, возникающее г) Это есть следствие известной теоремы Н. Н. Лузина о С-свойстве измеримой функции, которое может быть положено в основу самого определе- ния измеримости. (Прим, ред.), Я 2) Функция f, заданная на интервале J, называется абсолютно непрерыв- ной на У, если для любого 8 > 0 найдется б > О такое, что для любой конечной системы попарно непересекающихся интервалов ^fk — (akl bk) (&=1, 2, . . п) из 3 с общей длиной, не превосходящей б, выполнено неравенство fc=l (Прим, ред.) 3) Говорят, что функция f (х) на интервале (а, Ь) удовлетворяет условию Липшица порядка а (0 < а^1), если существует константа А такая, что для всех xlt х2 из (а, Ь) имеет место неравенство | f (x2) — f (xj | А | х2—Xip. (Прим, ред.)
ПРИЛ.I ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ОБЫКНОВЕННЫХ УРАВНЕНИЙ 65 из-за разрывности f (t, х), состоит в том, что многие из обычных формул дифференциального и интегрального исчисления верны лишь «почти всюду». В дальнейшем при доказательстве существования оптимальных управлений нам потребуется понятие слабой сходимости последо- вательности управлений. Последовательность {ип 1,2,3, ... действительных или векторных интегрируемых функций на неко- тором действительном интервале 3 называется слабо сходящейся к функции и* (/), если для любой ограниченной измеримой весовой функции я (0 имеем lira $ g (0 ип (0 dt = $ g (0 и * (0 dt. Можно показать, что множество всех измеримых на конечном интервале 3 и принимающих значения из некоторого компактного выпуклого подмножества векторных функций является слабо компактным. Это означает, что из каждой последователь- ности таких функций можно выделить подпоследовательность, слабо сходящуюся на 3 к функции из данного множества. Разумеется, предельная функция u*(t) определена лишь почти всюду на 3. Множество всех действительных функций, определенных на интервале 3, для которых ^\u(t)\P dt <. со (1^р<оо), 3 составляет пространство Lp. Если отождествить функции, отли- чающиеся друг от друга лишь на множестве меры нуль, и ввести норму по формуле ll«ll,=(J 1“<орлИ, то Lp станет полным нормированным векторным пространством (такие пространства часто называют банаховыми). Под пространст- вом L» мы понимаем множество всех существенно ограниченных, или ограниченных почти всюду измеримых функций с нормой ^11® = ess sup | и (t) |x). Если 3—компакт, то выполняется соот- ношение Ьрс.Ьг l^p^oo. Замкнутый шар в Lp для 1 < р < оо (т. е. множество || и В) является слабо компактным; на самом деле, соответствующая последовательность интегралов сходится для любой весовой х) По определению, ess sup | и (t) I = inf sup I v (t) I, где v (t) пробегает мно- жество всех ограниченных измеримых функций на совпадающих с и (/) почти всюду. (Прим, ред.) 3 Э. Б. Ли, Л. Маркус
66 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 функции g(/)£Lq на 3, еслиу+у=1. В частности, если р=1, то 9=оо. Случай р = 9 = 2 представляет особый интерес, и £2 на- зывают гильбертовым пространством. По определению, вектор (или матрица) u(t) принадлежит L„ на интервале 3, Is^p^oo, если каждая из его компонент и!(Г) принадлежит Lp. Это будет тогда и только тогда, когда J | и (f) р dt < оо. 3 Приступим теперь к формулировке основной теоремы существова- ния, единственности и регулярности для систем дифференциальных уравнений. Доказательство и подробное обсуждение ее можно найти в соответствующих учебниках. Теорема IA. Рассмотрим систему дифференциальных урав- нений = х1, ..., хп), i=l, .... п, где f(t, х) определено на некотором открытом множестве 5x6cRn+1. Предположим, что (а) для, любого фиксированного t£3 функции f‘ (t, х) принад- лежат классу С1 для х$6; (Ь) для любого фиксированного х£б функции f‘(t, х) измерим • по t на 3; (с) для любой пары компактных подмножеств ЗссЗ и Кс& существует интегрируемая функция m(t) на Зс, такая, что |f(t x)|<m(0 и x)|<m(/) для всех (t, х) С Зсх К. Тогда для любых начальных условий (t9, х0) из 3 х 6 существует единственное решение системы if x = <p(t t*, х0), такое, что <р(Л>» te, х0) = х„, определенное на некотором максимальном промежутке времени т_ (/2, х0) t Т+ (^q, Xq). Кроме того, вектор-функция <p(f, t0, х0) определена и непрерывна на некотором открытом множестве D с 7?1+1+п. Для любых фик- сированных t0 и х0 функция <р(£, /0, х0) абсолютно непрерывна по t и удовлетворяет векторному дифференциальному уравнению Лр {t, to, х0) _ dt f(t, <p(t, /0, x0))
ПРИЛ. 1. ГЕОМЕТРИЧЕСКАЯ ТЕОРИЯ ОБЫКНОВЕННЫХ УРАВНЕНИЙ 67 почти всюду на т_</<т+. Для любых фиксированных t и tt функция <р (?, t0, х9) принадлежит классу С1 по х„ и вектор-функция д<р (/, /р, Хр) • _ । 2 и д4 ’ 1 ....... абсолютно непрерывна по t и удовлетворяет линейной системе дифференциальных уравнений J_(g<P< \ — у ^-(t <o(t t х'\}(—'\ dr(dx/J-L dx/t Эта основная теорема имеет большое число различных обоб- щений и модификаций. Мы перечислим их в следующих заме- чаниях. Замечания. 1. Предположим, что коэффициенты f(t, х, А) системы ef зависят от действительного векторного параметра А = (А1, ... , А“). Если f(t, х, А) определена на открытом мно- жестве 3 х 6 X А с Ri+n+n и если для каждого А„ £ А выполня- ются предположения (а), (Ь) и (с) нашей теоремы, то система имеет решение х = <р(/, х0, Ао), проходящее через точку (Zo, х0) при А = А0. Далее, если предпо- ложения (а) и (с) усилить следующим образом: (а') для любого фиксированного функции fl(t, х, А) при- надлежат классу Ck (k= 1, 2, 3, ...) по (х, А) из б X Л и (с') для любой тройки компактных подмножеств Зс с 3, К с б, L с Л существует интегрируемая функция т (/) на Зс, такая, что | Df (t, х, А) 1т (/) для всех (/, х, А) С Зс х К X L и для любого частного дифференцирования D порядка по (х, А), то решение <р(/, /0, х0, А) будет непрерывной функцией на некотором открытом множестве 6' с: ^i+i+n+»»( принадлежащей классу Ск по (х0, А). 2. Если функция f(t, х, А) непрерывна на множестве ?Х0хЛс/?1+“+в и удовлетворяет предположениям (а') и (с'), то предположение (Ь) выполняется автоматически. В этом случае решение <p(t, ta, х0, А) принадлежит классу С1 в 6'c:/?1+1+n+m и удовлетворяет системе of в каждой точке интервала т_ < t <т+. 3. Во многих задачах можно установить, что максимальный промежуток времени т_ < t < т+ не ограничен справа (т+ = + оо). В частности (как можно показать), так и будет, если 3 = (t0, Н-ОО) и решение, проходящее через точку (f0, х0), лежит в компактном подмножестве Кебе/?" для />/0. з*
68 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 Приложение II Алгебраическая теория линейных дифференциальных уравнений В примерах 2 и 3 раздела 1 исследовались линейные процессы управления, описываемые дифференциальными уравнениями вто- рого порядка, причем задача сводилась к изучению систем диффе- ренциальных уравнений первого порядка на фазовой плоскости. Линейные процессы более высоких порядков сводятся к линейным системам, имеющим следующий общий вид: х1 = а} (0 х1+al (0 х? + ... + а* (t) Г+Ь{ (0 и1 + ... + Ь1т (0 и”, х2 = al (t) х*+а2 (0 ха + ... + аА (0 х”+Ь2 (0 “* + • • • + % (0 и". ? = а?(0х1-|-а?(0х2+ ... +а»(0хи + 6”(О«1+ • • • +%'(0«“- Эта линейная система дифференциальных уравнений описывает некоторую физическую систему с т входными (управляющими) переменными ит и с п выходными (управляемыми) переменными " х1 " х2 Процесс (объект) описывается заданием коэффициентов, возможно, зависящих от времени и образующих матрицы и В(0 = ГЫ(0 bl(t) .. bl(t)bl(t).. • • but) • . %(0-
ПРИЛ. II АЛГЕБРАИЧЕСКАЯ ТЕОРИЯ ЛИНЕЙНЫХ УРАВНЕНИЙ 69 Матрица A(t) с коэффициентами а) (О имеет порядок пхп, а ма- трица В (Z) = (b)(i))—порядок пх/п. Линейный процесс управления х1 = 2 а//(0х/+ 2 *4(0 t = l, 2,..., п i=i *=i или, применяя суммирование по повторяющимся индексам, х‘=^(t)x^+t/k(t)ufc, i = l,2, ... , п, записывается в матричных обозначениях так: (j?) x = A(t)x-\-B(t)u. Суммы и произведения матриц и векторов определены так, чтобы запись 2 в матричном виде была наиболее удобной. Ниже мы перечислим основные факты и формулы матричной алгебры и матричного исчисления, которые могут понадобиться нам в даль- нейшем. Читатель может обращаться к этому справочному мате- риалу по мере надобности, при чтении следующих глав книги. Алгебра постоянных матриц Матрицей называется прямоугольная таблица, элементами которой могут быть числа или функции. Векторы и скаляры являются частными случаями матриц. Рангом постоянной (nxm)- матрицы называется максимальное число ее линейно независимых строк (оно совпадает с числом линейно независимых столбцов). Пусть F = (/j) и G = (g))— (пхт)-матрицы с действительными постоянными элементами. Линейной комбинацией матриц aF-j-flG называется (пх/п)-матрица с элементами + в i-й строке и j-м столбце. Пусть Н — (hl) есть (тхг)-матрица. Произведением GH матриц G и Н называется (п х г)-матрица с элементами / т \ ( 5 g^hl 1 в i-й строке и &-м столбце. Вообще говоря, GH HG даже в случае квадратных матриц G и Н, когда второе произве- дение имеет смысл. Такое правило умножения матриц позволяет нам написать (afjXJ) = Ах и (t/kuk) = Ви в матричной записи задачи (J?). Пусть Л = (а)) квадратная (пхп)- матрица.^Транспонированной матрицей А' называется матрица, у которой на пересечении i-й строки и /-го столбца стоит эле- мент а{-. Иначе говоря, А' получается из А отражением относительно главной диагонали. Очевидно, что (Л')' = Л. Если А' = А, то матрица называется симметричной. Если х есть вектор-столбец, то х'—вектор-строка. Если А—симметричная матрица, и х'Ах > 0
70 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 (или ^0) для всех действительных векторов х=/=0, то матрица А называется положительно (или неотрицательно) определенной. Пусть А—квадратная (пхп)-матрица, и пусть для любого вектора у существует единственный вектор х, такой, что у = Ах. Тогда матрица А называется невырожденной, и решение х выра- жается через у в виде х = А~гу. Обратная матрица Л-1, суще- ствующая лишь в случае, если определитель матрицы А не равен нулю, может быть вычислена, если выразить х через у из системы у —Ах с помощью обычных методов. Очевидно, что (Л-1)_1 = Л. Следующие правила матричной алгебры легко доказываются для любых действительных постоянных матриц F, G и Н: 1) (F + G) + H = F + (G + H), 2) F + G = G+F, 3) F + (—F) = 0 или F—F = 0, где 0—nxm-матрица, состо- ящая из нулей и —F = (—1) F: 4) F + 0 = F, 5) (a0)F = a(0F) для чисел а, 0, 6) a (F + G) = aFaG, 7)<a+₽)F = aF + PF, 8) 1F = F, OF = 0 для числа 0 и нулевой матрицы 0. Если размеры матриц таковы, что можно образовать произведения этих матриц, то верны следующие правила: 9) F(aG + PH) = aFG + pF^ и (aG + рЯ) F = aGF + ₽#F, 10) (FG)H = F(GH). Для квадратных действительных (пхп)-матриц имеем 11) Ы = Л/ = Л, 0Л = Л0 = 0, где I—единичная матрица, элементы главной диагонали которой равны 1, а все остальные равны нулю, т. е. I = где , I 1, если i = /, 6',=J П ' ' ( 0, если j, 12) (Л + В)' = Л' + В', 13) (АВУ = В’А'. Для квадратных невырожденных (пхп)-матриц имеем 14) (XBJ-^B-M’1 и AA-^A-'A^-I, 15) (А-'У = (А')-\ Для квадратной (п х п)-матрицы А определим п собственных или характеристических значений {Xj, ... , %„}, которые являются корнями (считая кратные) характеристического уравнения det (Л—М) = 0. Если Л—действительная симметричная матрица, то все ее соб-
ПРИЛ. II АЛГЕБРАИЧЕСКАЯ ТЕОРИЯ ЛИНЕЙНЫХ УРАВНЕНИЙ 71 ственные значения действительны и существует невырожденная действительная матрица Р, такая, что (Г РЛР-! = [_0 A.„j Если матрица А имеет п различных комплексных собственных значений, то существует невырожденная комплексная матрица Р такая, что РДР-1 есть диагональная матрица. Правила 1)—15) верны и для матриц с комплексными элементами. Матричное исчисление Норму (пхт)-матрицы Д = (ау) с действительными или ком- плексными элементами определим следующим образом: |Д| = 21 а/1* I. i Тогда легко проверить следующие неравенства: 1) | аА | | а | [ А |, где а—число, 2) |Д + В|<| А | + |В|, 3) |ДВ|<|Д|.|В], где размеры матриц А и В таковы, что их суммы и произведения т определены. В частности, для вектора х с нормой | х | = 2 I Xs |> Z= 1 имеем 4) |Дх|<|Д||х|. Если элементы матрицы Д(/) = (<// (/)) представляют собой функции аргумента t, определенные на некотором интервале 3, то можно определить §A(t)dt п -±-A(t) Я как матрицы с элементами, соответственно, najty). Таким образом, матрица A (t) измерима, интегрируема и непрерывна, абсолютно непрерывна или принадлежит классу Ck, в том случае, когда все ее элементы обладают соответствующим свойством. Кроме того, 5) V 3
72 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 6> |4м(')||<|4г| всюду, где обе части написанных неравенств имеют смысл. Для квадратной, действительной или комплексной (пх ^-ма- трицы А можно определить матрицу ехрД = ^ = / + Л + <- + ^+---+4г+--- При этом сходимость последовательности матриц или ряда опре- деляется покомпонентно. Используя свойства обычных степен- ных рядов, легко показать, что: 7) е~А = {еА)~1 и е° = /, 8) еА-ев=еА+в, если АВ = ВА, 9) ^eAt = AeAt = eAt-A, 10) exp (PAP-*) = РеАР~1 и exp{Рdiag(Xv ... , %n)P-1} = P diag{^>, ..., Если каждое собственное значение матрицы А удовлетворяет неравенству Re < %, то имеет место следующая важная оценка: 11) leAtl^ceu при 0г^/<оо с некоторой постоянной с > 0. Если все собственные значения матрицы А удовлетворяют неравенству Re X,- < 0, то Л называется устойчивой матрицей, и | eAt |—>-0 при t—>-+оо. Применим теперь эти правила и законы матричного исчисления к общей теории систем линейных дифференциальных уравнений. Рассмотрим систему линейных однородных дифференциальных уравнений первого порядка = i = l, .... n, или, в матричных обозначениях, х=Л(0х. Здесь Л(0 = (о/(0)—действительная или комплексная (пх^-мат- рица, элементы которой есть функции от t, определенные на некотором действительном интервале 3. Совокупность п векторов- столбцов Гч>1 (01 Х1 = ф1(0 = L<p?(OJ • . Х" = ф»(0 = фИО' -ФЙ(О. образуют фундаментальную систему, или базис, решений на 3,
ПРИЛ. и АЛГЕБРАИЧЕСКАЯ ТЕОРИЯ ЛИНЕЙНЫХ УРАВНЕНИЙ 73 если (пхп)-матрица Гф1(О ••• ФН01 Ф(0 = Ф?(0 ф£(0 является невырожденной на всем интервале 3. Таким образом, столбцы некоторой (пхп)-матрицы X (0 образуют базис решений уравнения х = A (t) х на 3 в том случае, когда матрица X (t) есть фундаментальное матричное решение или, короче, фундаментальная матрица этого уравнения, т. е. Ах(0 = Л(ох(о и det X (0^=0 на 3. Если матрица А (0 интегрируема на каждом компактном подын- тервале интервала 3, то для заданных начальных условий t0^3 и х0 существует единственная абсолютно непрерывная фундамен- тальная матрица Ф (0 (или Ф (t, 0)), определенная на интервале 3, причем Ф(0) = /. Итак, решение системы х = Л(0х с начальным условием х(/0)=х0 имеет вид х(0 = Ф(0хо, причем это решение будет действительным, если матрицы Л и х0 действительны. Если хо = 0, то х(0=вО на всем интервале 3; поэтому нетривиальное решение х(0 не может обращаться в нуль на интервале 3. Если Л(0 = Л— постоянная матрица, то фунда- ментальная матрица, обращающаяся в единичную при t —10, имеет вид ф(0 = ел Рассмотрим теперь неоднородную систему линейных дифферен- циальных уравнений х=Л(0х+&(0, где (п х п)-матрица Л и n-мерный вектор-столбец b (t) интегрируемы на каждом компактном подынтервале данного интервала 3. Кроме того, пусть заданы начальные условия t0 С 3 и х0. Тогда сущест- вует единственное решение х(0 на 3, удовлетворяющее условию x(Q = xo- Эт° решение х(0 находится методом вариации произ- вольных постоянных по формуле t X (0 = Ф (0 х0 + Ф (0 $ ф-1 (s) b (s) ds, to
74 ТЕОРИЯ И МЕТОДЫ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ ГЛ. 1 где Ф(/)—фундаментальная матрица соответствующей однородной системы х = A (t) х, причем Ф(/0)=/0. Непосредственной подста- новкой можно проверить, что указанная выше формула действи- тельно дает решение неоднородной системы. В самом деле, х (0 = А (О Ф (0 х0 + Ф (0 $ Ф-1 (s) b (s) ds ] + + Ф (О Ф"1 (0 b (t) = А (I) х (0 -f- b (0. Кроме того, это решение удовлетворяет начальным условиям X (/») = Ф (*о) Xq = 1ха = х0. Если Д(/) = Д—постоянная матрица, и /о = О, то Ф(0 = ел* и формула вариации произвольных постоянных принимает вид t х (0 = eAtx0 + J еА (s) ds. о Оценки качественного поведения решения x(f), встречающиеся в теории управления, а также в теории устойчивости, чаще всего основаны на анализе основной формулы вариации произвольных постоянных. Следующий простой пример иллюстрирует применение теории матриц к решению линейных систем дифференциальных уравнений. Пример. Рассмотрим демпфированный гармонический осцил- лятор х + 2Ьх 4- k2x = f (t), где b и k—действительные постоянные, a f(f)—действительная функция, интегрируемая на любом отрезке времени. Пусть k > 0 и k2 > b2. Рассмотрим однородную систему ?] = дН, L//J Ls/J где - Г ° Г [—k.2 —2b Можно проверить, что фундаментальная матрица решений этой системы имеет вид sin (at + «) 1 . -г- Sin (dt k —b sin (со/ + a) + co cos (co/ + a) sin co/ + -y cosco/ еА* = ^-е~ь*
ПРИЛ. II АЛГЕБРАИЧЕСКАЯ ТЕОРИЯ ЛИНЕЙНЫХ УРАВНЕНИЙ 75 где 0) = ]/^—b2, sina = y, cos a = у. Это решение проще всего вычислить с помощью элементарных методов решения уравнения х + 2bx + k2x = О при начальных условиях х(0)=1, х(0) = 0 илих(0) = 0, х(0)=1. Решение неоднородного уравнения с начальными условиями (х0, у0) при t — 0 дается формулой И] =eAt Гх°1 + <'-s> Г. °] ds. L* (0J L Уо J J L/(s)J о Первая компонента векторного решения x(t) = ^e~bt [^оsin (<o/-|-a) фу sinco/j + t + у J f(s)e-6</-s) sin <0 (/—s)ds о представляет собой искомое решение данного скалярного неодно- родного линейного дифференциального уравнения.
ГЛАВА 2 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ В этой главе будет подробно изложена теория оптимального по быстродействию управления для линейных процессов, определение которых будет дано в разделе 2.1. В разделах 2.2 и 2.3 рассматриваются качественные аспекты теории управления. Здесь дается определение множества дости- жимости, как множества всех точек, в которые может быть пере- ведена система из начальной точки х0 с помощью допустимых управлений u(t). Основные факты теории управляемости мы по- лучим, изучая геометрическую структуру множества достижимости. В последующих разделах мы обратимся к количественным аспектам теории управления. Здесь будет доказано существование оптимальных управлений и показано, что оптимальные управления обладают определенными максимальными и экстремальными свой- ствами (принцип максимума). Затем мы синтезируем искомые оптимальные управления при помощи соответствующих цепей обратной связи. Все понятия будут вводиться для общего слу- чая неавтономных линейных систем, однако подробное исследова- ние будет проводиться лишь для систем с постоянными коэффи- циентами. Приложение к этой главе содержит основные определения и свойства выпуклых множеств и, кроме того, доказательства некоторых математически более сложных теорем, обобщающих результаты раздела 2.2 относительно управляемости линейных систем. 2.1. Линейные управляемые процессы Рассмотрим линейный процесс, описываемый системой линей- ных дифференциальных уравнений Здесь коэффициенты A (t), В (/), v(t) обозначают заданные матрицы и векторы, описываемые ниже, и наша задача заключается в том, чтобы выбрать управление u(f) так, чтобы соответствующая тра-
2.2 управляемость: множество достижимости 77 ектория х (t) переводила бы систему из начального состояния хл в некоторое желаемое конечное состояние в Rn. На протяжении всей этой главы предполагается, что коэффи- циенты системы удовлетворяют следующим условиям: (1) A (t)—(пхп) -матрица, В (/) — (п х т) -матрица, a v (t) — n-мерный вектор-столбец; все они действительны и измеримы на всей оси времени t. (2) Нормы | A (t) |, | В (f) | и | v (t) | интегрируемы на любом ком- пактном подмножестве оси t. (3) Управление u(t) является действительным, ограниченным, измеримым /n-мерным вектором, определенном на некотором ин- тервале 3: (обычно t0<t<oo), принимающим значе- ния из непустого ограничивающего множества Йс7?'я и, возмож- но, удовлетворяющим еще и некоторым другим указанным ниже ограничениям. Решение x(t) представляет собой действительный, абсолют- но непрерывный n-мерный вектор на 3, удовлетворяющий соот- ветствующей системе дифференциальных уравнений W x = A(t)x+B(t)u(t) + v(t) (основные вопросы теории систем линейных дифференциальных уравнений изложены в приложении 2 к главе 1). В некоторых случаях мы будем накладывать на коэффициенты системы 3? или на множество Q дополнительные ограничения. Однако всюду в главе 2 мы считаем, что условия, гарантирующие существование решения системы дифференциальных уравнений, выполняются, и что, в частности, для решения х(/) с начальным условием х(/0) = х0 имеет место формула вариации произвольных постоянных t х (0 == ф (0 х0 4- Ф (0 $ Ф-х (S) [В (s) и (s)+V (s)] ds, где Ф (t)—фундаментальное матричное решение однородной системы х—A (t)x, удовлетворяющее условию Ф (/„) = /. Если A(t) = A—постоянная матрица, то Ф(/) = ел 2.2. Управляемость: множество достижимости Рассмотрим линейную систему («^) х = А (0 х Ц- В (/) и -I- v (/). Для заданного начального состояния х0 изучим множество К (Q точек Rn, в которые х0 может быть переведена с помощью управ- лений и(/)ей на
78 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Определение. Рассмотрим систему управления Неисход- ной точкой х0 и со множеством допустимых управлений u(f)cQ на Пусть через x(f) обозначаются соответствующие решения, проходящие через точку х (t0) = х0. Множеством дости- жимости К й, х0, t±) назовем совокупность всех концов траекторий х (/х) в Rn. Обычно для краткости мы будем опускать все величины, кроме конечного момента времени tt в обозначении множества достижимости Для удобства положим /С (Q = x0. Заметим, что К. (И, й, х0, /0, <х) есть просто результат сдвига К (<2, й, 0, /0, на вектор Ф (Q х0. Поэтому геометрия мно- жества достижимости К (3, й, х0, ^0, tt) не зависит от начальной точки х0. Для автономных линейных систем имеет значение лишь разность —/0, поэтому мы будем обычно полагать to = O. Ограничивающее множество Й будет, как правило, выпуклым и компактным. Оно может, например, представлять собой /«-мер- ный куб | иг1 1, i=l,2, ..., т. В приложении к этой главе мы докажем следующую теорему (предполагая для простоты доказательства множество й выпуклым, хотя эта теорема остается верной и для произвольного компакт- ного множества й). Теорема 1. Рассмотрим линейную систему в R": x=A(t)x+B(t)u + v(t) с компактным выпуклым ограничивающим множеством й, началь- ным состоянием х0 и управлениями u(t), определенными на ин- тервале tQ t h- Тогда множество достижимости К (G) является компактным, выпуклым и непрерывно зависит от tt при Доказательство. Для того чтобы доказать, что множество есть компакт, т. е. замкнуто и ограничено в Rn, покажем, что из любой последовательности точек хг (/х), х2 (fx), ..., хг (/х),... в/С(/х) можно выделить под последовательность, сходящуюся к неко- торой предельной точке х (/х) в К. (/х). Рассмотрим соответствующие решения хг (/) и управления иг (/) а й на /0 t /х для г = 1,2,3, ... По формуле вариации произвольных постоянных имеем t xr (t) = Ф (0 х0 + Ф (0 $ Ф-1 (S) [В (S) ur (S) + V (s)] ds, *0 где Ф(0—соответствующее фундаментальное матричное решение, такое, что Ф (/0) = I. Множество управлений и (t)cQ на t0 < t < tx является слабо компактным (в самом деле, множество всех функ- ций В (0 и (0 слабо компактно, что следует из леммы 1Л прило- жения к главе 2); поэтому существует подпоследовательность иГ( (О»
2.2 управляемость: множество достижимости 79 слабо сходящаяся к некоторому управлению и (f)<zQ на /0 t sC tlt так что t t lim J Ф-1 (s) В (s) uri (s) ds = (Ф-1 (s) В (s) и (s) ds. ‘**1, t. Пусть x(t)—решение, соответствующее управлению u(t). Тогда на интервале t0 t tx имеем t x(t) = Ф (0 х0 + Ф (0 $ ф-1 (S) [В (s) iT(s) 4- v (s)J ds = lim xri (t). t0 1 - “ Таким образом, lim xrj(/1)=x(Z1)€K(^i) i -> co и, следовательно, множество К. (t^ есть компакт. Для доказательства выпуклости К (tj) покажем, что отрезок (1- Х)х0(М + Ь*1(*1), соединяющий две точки х0 и (Q из К (^), весь лежит в К, (fj. Пусть и0(/)и ых(/)—управления, соответствующие решениям х0 (?) и хг(1\ Определим управления ux(/)c:Q на следующим образом: «х(О = (1-Х)«о(о+^1(П. Решение хх(0> соответствующее ux(t), имеет вид t хх (0 = Ф (0 х0+Ф (0 $ ф-1 (s) [В (s) их (s)+О (s)J ds. to Следовательно, {t X Ф (0 х0 + Ф (0 $ ф-1 (S) [В (S) Ыо (S) + V (s)J ds} + to ( t ч + А. < Ф (0 х0 + Ф (0 $ Ф-1 (s) [В (s) «! (s) 4- v (s)J ds > , to •* и поэтому A (^i) ~ (1—xo (^i) 4* ^xi (^i)> т. e. К (ti)— выпуклое множество. Будем теперь считать совокупность объектов (.S?, Q, х0, i9) фиксированной и изучим зависимость множества К. (ZJ от ti (fi > to)- Покажем, что для любого е > 0 найдется 6 > 0 та- кое, что расстояние между множествами К (ti) и К. (t3) становится
80 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 меньше е, как только —/21 < 6, т. е. мы покажем, что соот- ветствие t —> к (t) для t > t0 есть непрерывное отображение действительного луча в метрическое пространство, образованное непустыми компактными подмножест- вами в Rn (см. приложение 1 главы 1). Здесь под расстоянием между множествами (fj и К. (t2) понимается нижняя грань всех 8 > 0 таких, что каждая точка множества К (t2) находится не далее, чем на 8 от некоторой точки К (ti), так же как и каждая точка не далее, чем на е от некоторой точки Пусть u(t)cQ—управление с соответствующим решением x(t) на ин- тервале t0 < t С /j +1. Тогда для < tt, t2 < ti + 1 имеем х (t2) —х (ti) = Ф (t2) $ ф-1 (s) [В (s) и (s) + v (s)] ds— ^0 tx — Ф (t2) J Ф-1 (s) [B (s) u (s) + v (s)] ds+ f c - I + [Ф (ts)—ф (01 п ф (s)“x lB (s) « (8) + V (S)] ds 4-x0 J. На отрезке t0 t С h +1 непрерывные матричные функции Ф (t) и Ф-1 (t) ограничены по норме, т. е. 1ф(01<^, |Ф(0-1|<с1» для некоторой постоянной Cv В силу интегрируемости | В (t) | и | v (t) | и ограниченности | и (/) | получим оценку G+i Rol+ $ |®-1(s)||B(s)«(s) + v(s)|ds< С2. to Поскольку интеграл есть непрерывная функция пределов инте- грирования $ф-!(8) [B(s) n(s) + t>(s)]ds И Iф (О-Ф(^) ICI S A (s) ®(s)ds | < для заданного 8>0 и |/ — tx| <6, если 6 выбрать достаточно
2.2 управляемость: множество достижимости 81 малым. Таким образом, для |4—41 имеем I г - I Iх(4)-х(4) | < |Ф|• | $ Ф'1 (s) [В (s) и (s) + v (s)] ds I + G + 1 + |Ф(4)~Ф(4)|[ $ |Ф-Ч8)| |B(s) a(s) + v(s)|ds+ |х0|] to I X (4) X (4) | < + C2 • 2£^ 8« Теперь пусть точка x (4) £ К (4) соответствует управлению и (t) на t0 < t < tx. Определим u (/)c Q на t0 < t < tt + 1, приписав ему значения u(f) = u(t^ на 4С*С4+Ь и пусть %(/) будет соот- ветствующим ему решением. Тогда х(4)€ Д(4) и |х(4)—х(4)| <8. С другой стороны, если х(4) есть точка из К (4), соответствую- щая управлению u(t) на то снова продолжим u(OcQ на интервал 4^ *^4+Ь и получим |х(4)—х(41|<8. Приведенные выше рассуждения показывают, что расстояние между Д(4) и Д(4) будет меньше 8, как только |4—41 <6, где 6 > 0 зависит от в и 4- Аналогично можно показать, что расстояние между Д(4) = х0 и Д(4) меньше 8, если |4—41 достаточно мало. Таким образом, К (4) непрерывно зависит от момента времени ^>4 Теорема доказана. Следствие. Если Р—внутренняя точка множества Kitj), то существует окрестность N точки Р и 6 > 0 такие, что любое множество К. (t2) при 14—41 < ® содержит N внутри себя. Доказательство. Пусть х0(4), Xj(4), .... х„(4)—веР‘ шины n-мерного симплекса 3 (выпуклой оболочки множества, состоящего из n-j-l независимой точки1)), лежащего внутри мно- жества Д(4); Р—центроид этого симплекса, a N—внутренность симплекса, полученного из данного уменьшением всех длин вдвое. Пусть соответствующие управления п0(/), ..., u„(t) про- должены на интервал 4 t 4 + 1 • Выберем 8 > 0 столь малым, чтобы любой n-мерный симплекс Qo, Qi, Q2, •••, Q„, такой, что |Qf—xz(4)|<8, содержал N в своей внутренности. По теореме 1 существует 6 > 0 такое, что неравенства |х;(4)—xz(4) | < е, i = 0, 1, ..., п, выполняются при 14—41 <6- Поскольку А(4) содержит х0(4), .... х„(4) и явля- ется выпуклым множеством, то и множество N должно нахо- диться внутри Д(4). г) Точки Л40, Л4, ..., Мп в независимы, если векторы ....Ai0Af„ образуют линейно независимую систему. (Прим, ред.)
82 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Замечания. В теореме 1А приложения к данной главе до- казано утверждение теоремы 1 и ее следствие, без требования выпуклости множества й. Выпуклость й не гарантируется в даль- нейшем изложении и поэтому мы будем использовать теорему 1А. Действительно, в теореме 4 нам придется иметь дело с ограничи- вающими множествами й, которые вовсе не являются выпуклыми. Часто бывает необходимо выбирать управления u(t), лежащие на границе дй множества йс/?т. Вообще оптимальное управле- ние, как это будет показано ниже, обладает такими экстремаль- ными свойствами. Это будет следовать из того геометрического факта, что конечная точка х*(/*) оптимальной траектории х*(/) на Zo < / < находится на границе дК (Р) множества достижи- мости К (/*). Точнее, мы покажем, что х* (?) лежит в той части дК (/*)» которая не входит ни в какое множество К (0 для Определение. Пусть /С(/J — множество достижимости для процесса S? с начальным состоянием х0 и управлениями и(£)ай на Будем называть точку РедК(^) лежащей на новой границе К W) в том случае, если Р не принадлежало никакому множеству К (/) для /0 t < tlt т. е. ’» ре [дк^)~ Ниже мы будем исследовать управления и (t) на t9 t tlt которые переводят х0 в точки, лежащие на границе дК (Л)- Такие управления, называемые экстремальными, в основном определяют геометрию множества K(t) и играют важную роль в решении задачи оптимального по быстродействию управления системой S. Определение. Пусть u.(t) (t9^.t «С W—управление для линейной системы (,?) х — A(f)x + B(f)u + v(f), принадлежащее ограничивающему подмножеству йсй®, а х9— начальное состояние системы в момент t9. Если конечная точка х (ZJ соответствующего решения х (/) лежит на границе дК, (/х) множества достижимости К то и (t) называется экстремальным управлением, а х (/)—экстремальным решением на отрезке /0< Wi. Для того чтобы дать аналитическое выражение условия экстре- мальности, обратимся к линейной системе дифференциальных уравнений х — A (t)x и к соответствующей сопряженной системе П = — MW- Здесь л (0—«-мерный вектор-строка. Каждое решение последнего
2.2 управляемость: множество достижимости 83 уравнения имеет вид ц (/) = т]0Ф_1 (0, гДе Ло—постоянный вектор, а Ф(0 фундаментальное матричное решение системы х = A(t)x с Ф(^о) —Эту формулу для я (0 легко проверить непосредст- венной подстановкой т](/) в систему. Она дает решение системы, удовлетворяющее начальным условиям т] (/0) = т)0. Если т|0 Ф 0, то решение r](f) будет нетривиальным, т. е. не будет обращаться в нуль на интервале Если A(t) = A—постоянная матрица, то т) (/) = т]ое_(/_/«) А. Следующая теорема 2 дает нам основной аналитический аппа- рат теории оптимального по быстродействию управления линей- ными процессами, и является эквивалентом принципа максимума Понтрягина для этого случая. Теорема 2 утверждает, что управ- ление будет экстремальным, только если оно максимально (в смысле главы 1), что дает нам возможность в дальнейшем изложении обойтись без выражения «максимальное управление». Теорема 2. Рассмотрим линейный управляемый процесс в Rn (.S’) х= A(t)x+B(t)u + v(t) с компактным ограничивающим множеством Q и начальным поло- жением х0 в момент t0. Управление u(t)cQ (tg^.t^.t,) является экстремальным тогда и только тогда, когда существует нетри- виальное решение i\(t) системы т) = — такое, что для почти всех t из интервала tg^.t^.t1 имеет место равенство Я (/) В (t) и (/) — max ц (/) В (/) и. «ей Доказательство. Предположим, что управление u(t) (/# t экстремально и, следовательно, переводит х0 в х (/х) € С дК (/х) по траектории t х (0 = ф (О х0 + Ф (/) $ Ф-1 (S) [В (S) и (s) + V (s)] ds. to Поскольку К (ti)—выпуклый компакт, то существует гиперплос- кость л, опорная для К (Q в граничной точке x(/j). Пусть t|(/j)—единичный вектор внешней нормали к плоскости л в точке x(Q. Определим нетривиальное сопряженное решение т)(0 = П<>Ф"1(0» П(^) = П0Ф~1(^1)-
84 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 Затем вычислим скалярное произведение векторов т](/) и х(/): t П (/) х (0 = Vo + 5 П (s) [в (S) и (s) + v (s)] ds. ^0 Предположим теперь, что т] (t) В (0 и (/) < max п (О В (0 и ueQ на некотором ненулевом промежутке времени из интервала Определим управление и на так, чтобы выполнялось соотношение Я (/) В (/) и (t) = max п (t) В (t) и «ей (по поводу измеримости u(t) см. леммы 2А и ЗА приложения к настоящей главе). Тогда для соответствующего решения x(t) в Rn будем иметь *1 ti П (/х) х (tj = ПЛ + $ П (s) В (s) й (s) ds + Я (s) v (s) ds. » to to Поскольку ft <1 $ n (s) В (s) и (s) ds < J t] (s) В (s) и (s) ds, t0 to TO < n &)*&)• Но это неравенство противоречит построению вектора т) (#х) как внешней нормали к плоскости л в точке х(^). Действительно, оно показывает, что точка х(/х) отделена от множества K(ti) плоскостью л, что невозможно, так как х(/х) €К(/Х). Отсюда заключаем, что Н (/) В (t) и (t) — max т] (/) В (/) и иеа почти всюду на t0 t tv Обратно, предположим, что для некоторого нетривиального сопряженного решения п(О = '*1о<1>_1(О управление u(f)cQ удов- летворяет условию П (I) В (i) и (t) = max п (t) В (/) и UGQ почти всюду на Требуется показать, что соответствую- щая траектория x(t) оканчивается в граничной точке множества A(Q.
2.2 управляемость: множество достижимости 85 Предположим, что x(Q—внутренняя точка К^). Для соот- ветствующего сопряженного решения q (f) рассмотрим точку x(tj) из К (О> такую, что nGiWi) < П 01) х(1г). Пусть м(/)сй есть управление, которому соответствует траекто- рия %(/) Согласно предположению q (0 В (t) u(t)^.i\ (t) В (t) и (/) = шах q (t) В (t) и почти всюду на t0 t /х. Как и выше, найдем и придем к противоречию. Следовательно, Теорема доказана. Содержание теоремы 2 можно пояснить следующим образом. Если траектория x(t) приводит в граничную точку множества /С(/х), например, в его «юго-восточный угол», то движение почти всегда происходит в этом «юго-восточном» направлении с макси- мально возможной при заданных ограничениях скоростью. Однако движение вдоль решений системы S имеет свои особенности локально-геометрического характера, ибо в каждой точке х(0 соответствующее «юго-восточное» направление указывается пере- менным вектором т](/). Эти замечания мы выразим более точно в виде следствий из теоремы 2. Следствие 1. Пусть u(t)aQ —экстремальное управление системы S, с соответствующим решением x(t) и со- пряженным решением q(/), удовлетворяющими соотношению q (/) В (t) и (/) = max q (t) В (t) и ueQ почти всюду на Тогда на каждом подынтервале io t т < tv и (t) также будет экстремальным управлением с х (т) С дД (т). Далее, q (т) является внешней нормалью к опорной гиперплоскости nt для /С(т) в точке х(т). Доказательство. На подынтервале имеем q (/) В (t) и (/) = max q (t) В (f) и иеа почти всюду, и следовательно, u(t) экстремально на этом интер- вале, а потому х(т)£д/С(т). В теореме доказывается, что q(T)x(T)<q(x)x(T) для любой траектории х(т) на Пусть лх—гиперплос- кость, проходящая через точку х (т) и имеющая вектор q (т) своей
86 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 нормалью. Записанное выше неравенство показывает, что мно- жество Д (т) не содержит точек из того полупространства, в кото- рое направлен вектор т|(т)- А это означает, что является опорной гиперплоскостью для Д(т) в точке х(т). Следствие 2. Пусть K(f) (на интервале есть множество достижимости управляемого процесса Если для некоторого момента времени т из интервала t0 т tx множество К (т) имеет непустую внутренность, то множество К (t) будет иметь непустую внутренность для всех t из интервала т t ty. Доказательство. Пусть x(t) есть решение, точка х(т) которого принадлежит внутренности множества Д(т). Если бы точка х (f) для значения t из интервала т «С t Д была граничной точкой множества K(t), то вектор-функция x(t) была бы экстремальным решением. Но тогда точка х(т) лежала бы на границе множества Д(т). Поэтому x(t) на интервале должна быть внутренней точкой множества Д(Д. В теореме 2 показывается, что управление u(t) на переводит х0 в некоторую точку границы дК. (t^ множества К (Д) лишь в случае, когда т| (t) В (f) и (t) = max т] (f) В (t) и п. в. (почти всюду) ueQ для соответствующего сопряженного решения т](Д. Часто бывает так, что для каждой граничной точки Ру £ дК. (Д) существует единственное экстремальное управление и (t) £ Q (t0 t Д), пере- водящее х0 в Ру. Определение. Рассмотрим линейную управляемую систему (Я) х= A(t)xA-B(t)u-\-v(t), с ограничивающим множеством Q и начальным положением х0 в момент времени t0. Определенная таким образом задача назы- вается нормальной, если любые два управления Uy(t) и u2(t) (to^t^.t^, переводящие х0 в одну и ту же граничную точку Py^dKAt^, совпадают почти всюду. Теорема 3. Рассмотрим линейную систему в Rn х = A (t) х+В (t) м + у (t) с компактным ограничивающим множеством Q и начальным поло- жением х0 в момент времени t0. Задача (S, Q, х0, Д, Д) будет нормальной тогда и только тогда, когда выполнено следующее условие единственности: для каждого нетривиального решения т] (t) уравнения г] = — т]Л (t) и для любых двух управлений щ (t) и u2(f)c£i, удовлетворяющих условию г] (t) В (t) Uy (t) = т] (/) В (/) (t) = max г) (t) В (t) и п. в. и € Q
2.2 управляемость: множество достижимости 87 управления и± (f) и и2 (/) совпадают, т. е. иг (t) = и2 (0 почти всюду на интервале Если задача является нормальной, и если множество й содержит более одной точки, то множество достижимости K(t^ будет строго выпуклым-, тем самым, К (0) является компактным выпук- лым множеством с непустой внутренностью. Доказательство. Если множество й состоит из одной точки, то все управления равны между собой, и теорема, оче- видно, верна. Предположим теперь, что множество й содержит более одной точки. Пусть задача (J?, й, х0, /0, нормальна; покажем, что мно- жество К (0) строго выпукло. Предположим противное: пусть существует опорная гиперплоскость л, такая, что множество л П К (0) содержит более одной точки, а следовательно, содержит целый отрезок L. Пусть ua(t) и иь (/)сй переводят х0 соответ- ственно в концевые точки Ра и Рь отрезка L. Для любого измеримого подмножества De 3 рассмотрим дейст- вительный 2п-мерный вектор w (D) — Ф-1 (s) В (s) иа (s) ds D J Ф'1 (s) В (s) ub (s) ds где Ф(з), как обычно, фундаментальное матричное решение. Век- торнозначная функция множества w (D) принимает, вообще говоря разные значения. Так, например, w(3) = и ау(0) = О' О . J где 0— пустое множество. Ляпуновым показано (лемма 4А при ложения к этой главе), что существует такое множество D.ba.3 для которого «’(^•0 = Г//2 щ(5'-Р.в) = >о/2‘ гь/2 И Поскольку Pa=j£=Pb, то ra=£rb, и поэтому ни D.it ни 3—D.b не могут быть нулевыми множествами. Определим управления иг и и2 следующим образом: (О при W1 ~ (МО ПРИ t$3—D.b, = ПрИ l^3~~D*’ Ма ~\ub(t) при
88 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 I Тогда решение %! (О, соответствующее управлению Uj (0, имеет вид (0 = Ф &) х„ + Ф (/х) $ Ф(s) [В (з) иа (s) + v (s)]ds + D-. + Ф(^) $ ФЧ(«)[В(3)«6(3) + О(5)]^. Несложно показать, что х1(/1) = уРв4--^Р6, т. е. точка хх (fj есть , середина отрезка L. Решение, соответствующее управлению «2(0> также содержит точку х2 (/J = х1 (/х)=у Ра+у Рь. В силу нор- мальности задачи «1(0 = ««(О почти всюду на 3. Однако это оз- I начает, что ua(f) — иь (t) почти всюду на В5 и на 3— D.t. Но, | по предположению, Ра и Рь—разные точки отрезка L. Итак, мы | пришли к противоречию, и строгая выпуклость множества K(fx) I доказана. ! Пусть т] (0—нетривиальное сопряженное решение, и пусть л— | опорная гиперплоскость для строго выпуклого множества К(/х) 1 с внешней нормалью т]^). Если йх(0 и й2(0—любые два управ- и ления, Удовлетворяющие условию | т) (0 В (/) (t) = к] (t) В (?) й2 (?) = шах т] (?) В (?) и п. в. | и ей то оба эти управления переводят точку х0 в одну и ту же точку Рх из множества ллК(?х). В силу нормальности задачи j йх(?) = й4(?) почти всюду на 3. Обратно, предположим, что условие единственности теоремы 3 выполнено. Пусть Р£д/С(?х) и пусть я(0—нетривиальное сопря- женное решение, а вектор т]??х) является внешней нормалью к опорной гиперплоскости л к K(t^ в точке Р„ Пусть ых(?) и u2(t)(zQ—управления, переводящие х0 в точку Рх. По теореме 2 Я (?) В (?) «1 (?) = я (?) В (?) и2 (?) = max т| (?) В (?) и п. в. и € Q и из условия единственности вытекает желаемый результат: «1 (0 = «а (0 П. В. I Следовательно, задача (J?, Q, х0, ta, tr) является нормальной. 5 Теорема доказана. • Следствие. Если задача , 2, х0, ?0, Q нормальна, то для - любого т из интервала ?0 < т < ?х задача й, х0, tb, т) также будет нормальной. Доказательство. Предположим, что управления u^t) и и2(/), заданные на интервале переводят х0 в одну и ту
2.2 управляемость: множество достижимости 89 же точку Р0£дК(т). Тогда, используя соответствующее нетриви- альное сопряженное решение л (О, получаем т] (О В (О (/) = я (О В (0 ut (/) = max т] (t) В (t) и почти всюду на интервале Продолжим решение t\(t) на весь интервал t0 t tlt считая вектор л (t) внешней нормалью к опорной гиперплоскости щ для множества /С (0- Выберем уп- равление u(t)£Q на интервале т < t tx так, чтобы выполнялось соотношение Я (t) В (0 и (/) — max т] (/) В (/) и UGQ и затем продолжим ых (/) и иа (/) на весь интервал т t tlt полагая их равными на интервале т < t С Тогда иг (t) и и2 (/) переводят х0 в одну и ту же точку Р^К (^i)- По теореме 2 «х (/) и и2 (0 являются экстремальными управлениями, а следовательно, Рх€дК(/1). Однако (J?7, й, х0, /0, ^i)—нормальная задача, а зна- чит, «1(0 = (0 почти всюду на Поэтому и („S’, й, х0, t0, т)—нормальная задача. Замечание. Теорема 2 показывает, что управление «(0 (*0</</i), экстремальное для некоторой начальной точки х0, будет экстремальным_и для любой другой начальной точки 70, т. е. и(0 переводит х0 в граничную точку множества К(0, х0). Аналогично, теорема 3 показывает, что если („S’, й, х0, /0, — нормальная задача, то и задача (.S’, й, х0, t0, /х) лля любого другого начального положения хо С R" также будет нормальной. Позднее в этой главе мы продолжим исследование условий нормальности в связи с задачей синтеза оптимальных управлений. Используя первые три теоремы этой главы, мы убедимся, что свойства множества К(^), установленные в теореме 1, связаны с существованием оптимального управления, что теорема 2 опи- сывает и характеризует оптимальные управления как экстремаль- ные управления и что из теоремы 3 следуют теоремы единствен- ности, необходимые для синтеза оптимальных управлений. Следующая теорема показывает, что всегда можно ограничиться рассмотрением тех управлений и(()сй, которые лежат на гра- нице дй множества й. Для доказательства нам потребуется тео- рема 1А приложения к этой главе, так как придется рассмат- ривать в качестве ограничивающего множества множество й, не являющееся, вообще говоря, выпуклым. Поскольку управления и (/) £ дй часто реализуются физически при помощи механизмов, мгновенно переключающихся из одного крайнего положения на другое, то теорему 4 обычно называют общим принципом релейного управления (the general bang-bang principle).
90 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 Теорема 4. Рассмотрим линейную систему в Rn: С&) x = A(t)x+B (t)u-j-v(t), с компактным ограничивающим множеством й и начальным поло- жением х0 в момент времени f0. Пусть й0—компактное подмно- жество множества Й, выпуклая оболочка Н (Qv) которого совпадает с выпуклой оболочкой Н (й) множества й. Пусть есть множество достижимости для управлений ы(/)сй, определенных на интервале о Ко(О)—соот- ветствующее множество достижимости для а(/)сй0. Тогда мно- жество К(0) будет компактным выпуклым множеством, и Доказательство. По теореме 1А приложения к главе 2 множество /С(0) является выпуклым и компактным. Кроме того, в той же теореме доказывается, что во всех случаях, когда огра- ничивающее множество совпадает с одним из множеств Й, Й„ и Н (й), множество достижимости не меняется и совпадает с К(0)- Теорема доказана. Следствие 1. Пусть й0 = дй (й—ограничивающее множе- ство). Тогда соответствующее множество достижимости Ко(О) совпадает с K(t^. Следствие 2. Если й—выпуклый многогранник, а Йо—мно- жество его вершин, то Ko(t^=K{t^. Пример. Пусть для линейного процесса ограничивающее множество представляет собой m-мерный куб i=l, 2.....т. Пусть й0—совокупность его вершин. Тогда каждую точку из К(0) можно достичь, применяя релейное управление u(t), для которого | и1 (/)| = 1 при t sC tf Рассмотрим, однако, случай т=\, т. е. скалярную задачу x=b(t)u, — где b (t) = t* sin у и b (0) = 0 так, что b (t) С С1. Пусть х0 = 0, /0 = 0 и = 1. Тогда К (Q будет компактным интервалом — а < а= 1 = J | Ь (t) | dt. Заметим, что точки хх = а можно достичь лишь с О помощью управления u(t), имеющего бесконечное число переклю- чений на 1, а именно, в те моменты времени t, в которых 6(0 = 0. Этот пример показывает, что совокупность переключе- ний релейного управления вовсе не обязана быть конечной или иметь простую структуру.
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 91 2.3. Управляемость и устойчивость автономных систем Рассмотрим автономную систему (J?) x—Ax-j-Bu с действительными постоянными (п х и)-матрицей А и (пхт)-ма- трицей В. Мы предполагаем здесь, что начало координат х = 0 является положением равновесия для свободной, или неуправля- емой системы, для которой и = 0. Более общая автономная линей- ная система во многих случаях может быть приведена к такому же виду с помощью параллельного переноса осей координат в про- странствах х и и. В этом и следующем разделах мы будем зани- маться изучением управляемости, наблюдаемости и устойчивости автономных линейных систем; случай неавтономных систем разби- рается в упражнениях, а так же в теореме 6 главы 3. Мы не будем здесь накладывать никаких ограничений на управление, т. е. огра- ничивающим множеством £2 будем считать все пространство Rm. Наша задача—перевести систему из произвольной исходной точки х0 в произвольную желаемую точку за конечный промежуток времени. Определение. Автономная линейная система (J?) х = Ах+Ви с Q = Rm называется вполне управляемой (обладает свойством уп- равляемости) в случае, если для любой пары точек х0 и хх из Rn существует ограниченное измеримое управление u(t) на некотором конечном интервале 0</^^х, переводящее систему из точки х0 в точку хх. Следующая теорема дает удобный критерий управляемости ав- тономных линейных систем. Теорема 5. Автономная линейная система в Rn (.3?) х = Ах А-Ви, будет управляемой тогда и только тогда, когда ранг (пх пт)-мат- рицы [В, АВ, А*В....АП~1В] равен п. Доказательство. Предположим, что система 2! управляема, т. е. ее можно перевести из точки х0 в произвольную точку х, из R". Предположим, что при этом, вопреки предположению тео- ремы, rank [В, АВ, ..., А"-1В]< п. Тогда строки матрицы связаны линейной зависимостью, и сущест- вует ненулевой постоянный вектор-строка о такой, что о [В, АВ, ..., А"-1В]=0
92 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 ИЛИ vB = vAB = vAaB =... = vAn~1B = 0. По теореме Гамильтона—Кэли матрица А удовлетворяет своему характеристическому уравнению Ап = с1Аа-1 + сгАп~а+ ... +с„1, где сг, сг, ..., сп—некоторые действительные числа. Таким образом, vAnB = ctvAn~lB + ... + своВ = 0 и, по индукции, оЛв+*В = 0 для всех k — 0, 1, 2, 3, ... Отсюда = о [/+ Л?+-^j-+ ...] В = 0 для любого действительного t. Решение x(t), исходящее из точки хо = О и соответствующее управлению и (t), дается формулой t х (/) = eAi J e~AsBu (s) ds. о Поэтому vx (t) = J veA tt-^Bu (s)ds = 0 о для любого управления u(t). Таким образом, все траектории x(t) должны находиться в R" на гиперплоскости, ортогональной век- тору v. Однако это противоречит предположению об управляемости системы 3. Отсюда заключаем, что ранг матрицы [В, АВ, ... ..., Лв-1В] равен п. Обратно, предположим, что матрица [В, АВ, А2 В, ..., Л'!-1В] имеет ранг tv, докажем, что система S управляема. Пусть есть совокупность всех точек, в которые система может быть переве- дена из начала координат за промежуток времени 0 t 1 с помощью управлений, удовлетворяющих условиям |ы'|^1, t= 1, 2, ..., tn. Тогда множество будет компактным и выпук- лым в Rn. Предположим, что размерность множества меньше, чем п. Тогда существует единичный вектор v такой, что (1) \veA^~^Bu(s)ds = Q о для всех описанных выше управлений. Поскольку, если не считать ограничений на величину, управления u(i) являются произволь-
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 93 ными, то можно заключить, что (2) veA<l-s>B = 0, 0<8<1. При s=l получим vB = 0. Далее, дифференцируя равенство (2) по s и снова полагая 8=1, получаем vAB = Q. Продолжая этот процесс дифференцирования, выводим следующую цепочку равенств vB = vAB = vA*B = ... = vAn~1B = 0. Но это означает, что строки матрицы [В, АВ, ...,Аа~1В] ли- нейно зависимы, что противоречит нашему предположению, и зна- чит, размерность множества Ki равна п. Поскольку управление и(/) можно заменить управлением —«(/), то множество Ki симметрично относительно начала координат. Поскольку множество К® содержит открытое подмножество и вы- пукло, то оно должно содержать начало координат в своей внут- ренности. Если рассматривать управления, ограниченные условиями |и! |I, где 1= 1, 2, 3 ..., то соответствующие множества К® за- меняются на /KJ. Таким образом, множество достижимости К®, соответствующее точке х0 = 0, если не накладывать никаких огра- ничений на управления, будет представлять собой все простран- ство К". Рассмотрим теперь в качестве начальной точки произволь- ную точку х0 Rn- Тогда множество достижимости имеет вид К=елх0-|-К0, т. е. снова совпадает со всем пространством К”. Таким образом, система 2 управляема. Теорема доказана. Поскольку понятие управляемости автономной линейной си- стемы определялось нами геометрически, то свойство управляемо- сти никоим образом не зависит от выбора системы координат в Rn. Если мы произведем преобразование координат х — Рх, с действи- тельной невырожденной матрицей Р, то система 2 примет вид (2) х= Ax-f-Bu, где А = РАР~1 и В = РВ. Поэтому нам удобно ввести понятие линейной эквивалентности. Линейная автономная система (2) х — Ах + Ви называется линейно эквивалентной системе 2, если существует такая действительная постоянная невырожденная матрица Р, что А = РАР~* и В = РВ. Таким образом, линейно эквивалентные системы выражают одну и ту же физическую систему в разных координатах в пространстве Rn. Легко показать, что свойство управляемости инвариантно от- носительно преобразований координат, т. е. [В, АВ, А2 В, ..., = Р [В, АВ, Д2, ..., Ап~1В]
94 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 И rank [В, АВ, А*В, ..., Ап-Ч3] =гапк [В, АВ, А*В, ..., А'-'В]. Матрица [В, АВ, ..., ДП-1В] называется матрицей управляемости для системы «S’; ранг ее инвариантен по отношению к линейной эквивалентности. Для систем, обладающих свойством управляемости, управля- ющая функция может быть сделана непрерывной и сколь угодно гладкой без ущерба для ее управляющих качеств. Этот факт, ко- торый будет использован нами в теореме 8, доказывается в след- ствии. Следствие 1. Пусть система («S’) х=Дх+Ви обладает свойством управляемости в Rn. Тогда для любой пары точек хЛ и x^R" и любого произвольно малого интервала вре- мени 0 < / С существует гладкая управляющая функция и (I) € С” на интервале 0 <1Z переводящая систему из точки х0 в точку хГ Более того, для любого 8 > О существует управление и (/), удовлетворяющее ограничениям | и1 (t) | е, 11? (/) | ^ в, ... ..., (0 |^8 и переводящее систему 2 из начального положе- ния х0 в любую точку некоторой окрестности точки ел/«х0. Доказательство. Пусть /С»—множество достижимости, соответствующее начальной точке х0, интервалу времени 0 t (использование tr > 0 вместо = 1 не меняет дела) и ограничению на управления и (/)££“. Очевидно, что будет выпуклым мно- жеством. Поскольку любое ограниченное измеримое управление на можно равномерно аппроксимировать управлениями из С* (кроме, быть может, малых интервалов, на которых управ- ление равномерно ограничено), то Л® всюду плотно в R". Следо- вательно, /С« = Rn, и система может быть переведена из х0 в хх с помощью гладкого управления. Будем рассматривать теперь только гладкие управления и (f) € С“ на интервале удовлетворяющие условиям |и{(t) | 8, | и1 (t) | 8, ..., | (/)1 8. Пусть /С®—соответствующее мно- жество достижимости для начальной точки х0. Тогда /С^,—выпукло и симметрично относительно точки еА^х0. Если бы размерность Кга была меньше п, то существовал бы единичный вектор о такой, что v еА (s) ds = О о для всех допустимых управлений. Но отсюда следует, что 1>ел«1-5)В = 0 на интервале 0^s^/r Однако, как и при дока- зательстве теоремы, мы убеждаемся, что это противоречит управ-
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 95 ляемости системы 2. Отсюда следует, что Кг«, имеет размерность п и содержит внутри себя окрестность точки еА/1Хд, что и требовалось доказать. Понятие управляемости системы 2 играет важную роль при изучении области ё нуль-управляемости, т. е. множества тех точек в Rn, из которых система может быть переведена в начало координат за конечный промежуток времени с помощью допусти- мых управлений u(f), принадлежащих ограничивающему множе- ству QcRm. Область ё всегда связна; она будет открытой в том и только в том случае, если в ней содержится некоторая окрест- ность начала координат. Последнее утверждение непосредственно вытекает из теоремы о непрерывной зависимости решений систе- мы 2 от начальных условий х0 € Rn- Следствие 2. Рассмотрим автономную линейную систему в Ra: (j?) х=Ах+Ви с ограничивающим множеством QcRm, содержащим управление и = Ь в качестве своей внутренней точки. Тогда область ё нуль- управляемости является открытым множеством в R" в том и только в том случае, если система 2 обладает свойством управ- ляемости. Доказательство. Прежде всего заметим, что система 2 обладает свойством управляемости тогда и только тогда, когда таким свойством обладает система (2-) х = — Ах—Ви, поскольку матрицы [В, АВ, ..., Ап~1В] и [—В, АВ, —А2В, ... .... (— 1)” ЛИ-1В] имеют один и тот же ранг. Если управление и (/) переводит точку х0=0 в точку перемещая ее вдоль решения системы 2- на отрезке времени [О, /х], то управление u{tv—t) переводит точку хх в начало координат вдоль решения системы 2 за тот же промежуток времени. Отсюда следует, что множество достижимости /<_, соответствующее системе 2-, начальной точке х9 = 0 и управлениям и (f) <z й, в точности совпадает с областью # нуль-управляемости для системы 2. Итак, пусть система 2 (а следовательно, и система 2~) об- ладает свойством управляемости. Тогда, при дополнительном ог- раничении | и1 (t) | в для некоторого е > 0, соответствующее мно- жество КЕ_ содержит некоторую окрестность точки х0 — 0. Поскольку = то множество # содержит окрестность точки хо = О и, следовательно, ё является открытым множеством в R". Обратно, пусть ё—открытое множество в Ra. Тогда каждой точки С ё можно достичь, исходя из начала координат, двигаясь по решению 2- под действием управления из й. Следовательно,
96 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 # есть множество всех точек вида х = — еА <*~*йВи (s) ds, о где u(t)<=Q, а лежит в интервале О^^^оо. Предположим, что система «S’, не обладает свойством управляемости. Тогда существует единичный вектор v такой, что vB = v АВ—vA*B — ... = vA'^B = О, а значит, veAtB = О для любого действительного t. Но это означает, что область $ находится в гиперплоскости, ортогональной к вектору о, что не- возможно, так как # имеет непустую внутренность. Таким обра- зом, система S_, а следовательно, и система S, должна обладать свойством управляемости. Следствие 3. Рассмотрим автономную линейную систему в Ra: х=Ах-{-Ви с ограничивающим множеством QcRm. Предположим, что (а) и = 0 находится внутри £2; (б) система 2 управляема’, (в) матрица А устойчива, т. е. все собственные значения к матрицы А удовлетворяют условию Re к < 0. Тогда область нуль- управляемости ‘S совпадает с Rtt. Доказательство. Рассмотрим произвольную начальную точку Пусть на систему воздействует нулевое управление u(t)=O, пока соответствующая траектория x(t), приближаясь к точке хо = 0, не войдет в область <S. Но это означает, что тра- ектория х(/) может достигнуть начала координат за конечное время. Значит, т. е. 48=Rn, что и требовалось доказать. Если т— 1, т. е. В является вектором-столбцом Ь, то для си- стемы (<&) х—Ах+Ьи следующие три утверждения будут эквивалентными: (1) S обладает свойством управляемости; (2) rank [6, Ab, A2b, ..., Д',-1д1=п; (3) det [6, Ab, A2b, ... , A"-1 Z>] #= 0; (4) векторы b, bA, A4>, ... , A^b линейно независимы. Некоторые из этих элементарных критериев управляемости не годятся для т^2. Например, если взять 4 = 0 и В = 1, то
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 97 полученная система будет вполне управляемой, несмотря на то, что все столбцы матрицы АВ состоят из нулей. Таким образом, теория управляемости становится значительно более простой для случая т=1,|т. е. для скалярных управлений. Следующие че- тыре теоремы относятся именно к таким задачам управления. Часто линейным управляемым процессом в R" х = Ах+Ви с векторным управлением u(t)<=Rm можно эффективно управлять с помощью скалярного управления ц(0> если выбрать u(/)=qi(/), где с—постоянный вектор, а р (/)—скалярное управление. Тогда, обозначив через b постоянный вектор-столбец Вс, получим систему (jg\) x = Ax+bp со скалярными управлениями Такое сведение простран- ства управлений от Rm к R1 возможно практически всегда, кроме некоторых исключительных случаев; при этом свойство управля- емости системы остается неизменным. Возможность сведёния про- странства управления от Rm к R1 зависит лишь от жордановой формы матрицы А. Известно, что для любой комплексной (пхп)- матрицы А существует невырожденная комплексная матрица Р, такая, что РЛР-1 = (На§{Л1, Л2, .... Ak}, где каждая жорданова клетка ГХУ 1 О О Ху 1 О 0-] О О L0 О Ху 1 ОХу. / = 1,2, ... , k соответствует собственному значению Ху матрицы Л. Такая жор- данова каноническая форма матрицы единственна, с точностью до порядка расположения клеток А} вдоль главной диагонали. Если (п х п)-матрица Л имеет п различных собственных значений, то каждая клетка Лу=(Ху) будет (1 х 1)-матрицей. Матрица Л опре- деляет линейное преобразование комплексного n-мерного вектору ного пространства X в себя, причем каждой жордановой клетке Л- соответствует инвариантное подпространство Ху, в котором дейст- вует линейное преобразование Лу. Теорема 6. Рассмотрим автономную линейную систему (^) , х=Ах+Ви, x£Rn, u(f)czRm, обладающую свойством управляемости. Если любые две жордановы клетки матрицы А отвечают ее различным собственным значениям, Э. Б. Ли, Л. Маркуо
98 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 то существует такой действительный вектор с, что система (=2\) х = Лх + (Вс)р, y.ifyc.R1, является также вполне управляемой. В противном случае такого вектора с не существует. Доказательство. Если действительные матрицы А, В удовлетворяют условию полной управляемости rank [В, АВ, АгВ, ..А"-1 В]=и, то и комплексные матрицы А = РАР~1, В — РВ, где Р —невы- рожденная комплексная матрица, будут также удовлетворять этому условию. Пусть 4 = diag^lt Л2, ...,Ak} — жорданова каноническая форма матрицы А, где каждая из Aj является квадратной комплексной (п7 хп,)-матрицей вида Обозначим символом В строки матрицы В так, что ГРп 1 Р1»1 Pai Р«Ва Заметим, что щ-я строка матрицы А1 В имеет вид (^1)гР17г1 и в силу полной управляемости системы 2? 0ln, =# 0. Аналогично, ₽2„‘ 0, ... ...» Р^^О. Предположим теперь, что две какие-либо различные клетки, например, Лт и Л2, отвечают равным собственным значе- ниям, т. е. Х1 = Х2. Для такой матрицы Л и любого комплексного вектора b система х= Лх+ ftp (/) не будет обладать свойством управляемости при р^)_€J?1- Это сле- дует из того, что пг-я и пг-\-п2-я строки матрицы [b, АЬ,..., Ли-1д] равняются соответственно (blni, \blth, ..., Ь1П1) и (Ь2йа, X2fc2„,,...
99 2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ ..., и при \ = Х2 являются линейно зависимыми. Поэтому в этом случае система S не может быть сведена к обладающей свойством управляемости системе Обратно, предположим, что все клетки An . ..,АЙ соответст- вуют различным собственным значениям .... Выберем дей- ствительный постоянный вектор с так, чтобы для вектора Г b„ I Вс = Л = Ь1». Ki ^tn, выполнялись неравенства Л1И1 =#= 0, Л2„а #= 0,..., ЬкПк ¥= 0. (Этого можно добиться, взяв, например, элементы вектора b алгебраиче- ски независимыми над полем, порожденным элементами матрицы В.) Покажем, что тогда столбцы матрицы [Ь, А Ь, ..., А"~гЬ] будут линейно независимыми. Отметим прежде всего, что векторы b, (A—lkI) b, (А—\1)*Ь,.... (А—6 определяют в точности то же самое подпространство, что и век- торы Положим Ь, А Ь, А2 Ь, , А"*-1 Ь. I’Ll h = (A—'kkl)nkb= hti ^2п, т. е. h = А'Ч’Ь + линейная комбинация векторов {Л, А Ь, ... , А’- • -1 Ъ\. Тогда векторы h, (A—Kk.ll)h,...,(A—Xk.1l)^-t-ih определяют то же самое подпространство, что и векторы Л, АЛ, А«Л...................А»*-.-1 А. 4*
100 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Такими же вычислениями получим, что векторы b, (A—Kkl)b, (А-Ь.к1)*Ь, .... (Д— (A-%j)«*b, (Я—Vi)(4—М)"*£ • • •. (A—Vi /)п*->-‘(Л—К^Ь, (A-^lY>.. .(А-ХкГрЬ, (А-\/) (Д-М)"1.. • (А-Хк1)пк Ь, .... (А—%х Гр-1 (А—Ь31р ... (A—^Ip b определяют то же пространство, что и столбцы матрицы [b, АЬ, А'Ь,.... Д»-^. Последние пк строк векторов (Д—V)"*-1 b,.. .,(А—КкГ)2Ь, (A—Xkl)b, b образуют матрицу bknk 0 bknk 0 0 bknk , -0 0 0 ... Ькпк - у которой Ь*п*¥=0, а элементы под главной диагональю равны нулю. Заметим, что у вектора h последние пк элементов нули, и что ^Л-1, = Тогда легко вычислить, что векторы-столбцы (Д—М )”‘-1 (Л—[МГ • • • (Л—%*/)"» Ь,.... (Д—М) b, Ъ образуют треугольную матрицу с ненулевыми диагональными эле- ментами (%!—. (Хх—1Й)Л* Ь1Пу 0, ... , Ькпк #= 0. Поскольку определитель такой треугольной матрицы не равен нулю, то _ _ _ det [Б, АЬ...АВ-1Ь]^»О. Так как А = PAP-1 иЪ=Вс=РВс, то находим, что det [Вс, АВс, А*Вс, ..., А»-1 Вс] У= 0, так что система (J?x) х= Ах А-(Вс) и обладает свойствами управляемости при Теорема дока- зана.
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 101 В следующей теореме получена физически содержательная и с математической точки зрения удобная каноническая форма для управляемых процессов со скалярными управлениями. Теорема 7. Автономный линейный процесс х‘в)+а1х<”“1) + ... +а„х= и, и С R1 или соответствующая линейная система в фазовом пространстве Х1 = Х8 (й>) х"=— anxl— a„-t х*—... —а^Ц-и обладают свойством управляемости. Любая обладающая свойством управляемости система в Rn вида {2} х=Ах+Ви при управлениях u^R1 линейно эквивалентна системе вида S), Доказательство. Легко проверить, что для матриц условия вполне управляемости теоремы 5 выполняются. Рассмот- рим теперь вполне управляемый процесс 2. Определим действи- тельную невырожденную (пхп)-матрицу: Р = [Л"-1 Ь, Л»-8 &,..., A*b, АЬ, 6]. Введем новые координаты в R" преобразованием х=Р~*х, так что система 2 примет вид х= Р"1 АРх-{-Р~1Ьи. Непосредственным перемножением матриц проверяем, что 0 Ь = [Ап~*Ь, .... Ab,b] ... 0 Г 0 1 о или Р~*Ь = = Ьх и AP — PN или Р-1 АР = 7V, где # = г«1 а» 1 0 ... 0-] 0 1 ... о о L 1 J «»-t 0 0... 1 1_аж 0 0 ... 0.
102 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Постоянные ах, a2, ..., a„ однозначно определяются из разложения АпЬ — b + а2 Ап~2 &+...+ апЬ. Для системы ёТ> характеристическое уравнение соответствующей матрицы At имеет вид д;=—МГ1-МГа— • • • -ап/. Аналогично, применяя описанное выше преобразование координат Г 0 -] 0 к системе S), получим матрицы А и , если положить—ах= =av —a2 = a2, —ап = ап. Поэтому система 3? линейно экви- валентна системе 2). Теорема доказана. В следствиях из теоремы 5 мы изучали области нуль-управ- ляемости % для автономного линейного процесса S в простран- стве R", причем управления удовлетворяли условию и (f)a31ciRm. В следующей ниже теореме дается исчерпывающее описание того важного случая, когда область нуль-управляемости совпадает со всем пространством, т. е. когда можно, исходя из любой точки пространства, попасть в начало координат. Поскольку это будет уже не локальный, а глобальный анализ, то нам придется ввести некоторые предположения глобального характера относи- тельно 2 и Q. Теорема 8. Рассмотрим автономную линейную систему в Rn: (=?) х = Ax-j-bu, ugQ с компактным ограничивающим множеством QczR1, содержащим точку u = Q. Тогда область нуль-управляемости % совпадает cRn, если и только если выполнены следующие условия'. (а) система 3 обладает свойством управляемости', (Ь) все собственные значения А матрицы А удовлетворяют условию ReA^O. Доказательство. Если 2 не обладает свойством управ- ляемости, то в соответствии со следствием 2 из теоремы 5 суще- ствуют точки пространства Rn, из которых нельзя попасть в на- чало координат. Предположим, что матрица А системы 2? имеет собственное значение А с ReA>0. Тогда существует вещественное невырож- денное преобразование координат в Rn, у= Рх такое, что система 2 принимает вид где у = РАР~г у-\-РЬи, у1 = Ху1+Ьщ, если % > 0,
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 103 или + + t/2 = — P^ + a^ + M. если % = а+ф и а>0. Выберем начальную точку yQ£Rn так, чтобы yj было очень большим положительным числом (или чтобы число yf+yf было очень большим, во втором случае). Тогда > 0 (или (у1* + у2*) > 0 при t > 0 и любом управлении и из множества й. Таким образом, из точки уй нельзя попасть в на- чало координат под действием управления и (t)сй. Поэтому усло- вие % — Rn влечет за собой выполнение условий (а) и (Ь). Предположим теперь, что система 2 обладает свойством управ- ляемости и что для каждого собственного значения % матрицы А выполняется условие Rei^O. Покажем сначала, что можно ог- раничиться рассмотрением лишь случая, когда все собственные значения матрицы А чисто мнимые. Можно считать, что система 2 линейным невырожденным пре- образованием координат в Rn приведена к виду где каждое собственное значение \р матрицы Ар является чисто мнимым, а каждое собственное значение Х? матрицы Aq удовлет- воряет неравенству Re Х9 < 0. При нулевом управлении и (/) = 0 решения асимптотически устойчивой системы Xq := AqXq стремятся к х? = 0 при t—<--|-оо. Далее, если координаты xq вы- браны соответствующим образом, то радиальная составляющая скорости будет отрицательна, ^7 Xq Xq AyXq Xq для 0 Re Х^, и если в дальнейшем использовать управления и (t) с достаточно малыми нормами, то решение xq(t) будет оставаться внутри до- статочно малой окрестности Nq точки xq=0. Таким образом, если нам удастся, исходя из произвольной начальной точки, перевести обладающую свойством управляемости систему хр= АрХр+Ьри в достаточно малую окрестность Np точки хр = 0 с помощью уп- равлений u(t) с достаточно малыми нормами | и (/) |, то тогда из свойства управляемости системы 2 будет следовать, что %>=Rn. Поэтому можно свести нашу задачу к изучению такой вполне управляемой системы х = Ах + Ьи,
104 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 где матрица А имеет лишь чисто мнимые собственные значения. Нам надо показать, что такая система может быть переведена из произвольной точки x0£Rn в некоторую заданную заранее ок- рестность N точки х = 0 при помощи управления и (0 такого, что | и (0 | < 8 для ’ заданного 8 > 0. Этим завершится доказа- тельство нашей теоремы. В соответствии с теоремой 7, система 2 является линейно эквивалентной в R" системе S), определяемой следующим образом: (®) + + ... (D’ + Y,)x = «, где s>0, г^О—порядки дифференцирования, а т1( ..., — положительные постоянные; состояние системы определяется каж- дым из векторов (х, х, ..., х(п-1>) или (х, х', ..., х"-1). Рассмотрим сначала случай г = 0, s^l. Если $=1, то иско- мое управление легко построить (см. пример 1 главы 1). Более того, можно выбрать управление и (t) С С® на отрезке tQ t 0, переводящее систему из начальной точки х0 в точку xt = 0 так, что 1) и (0 = 0 в некоторой окрестности концевых точек t — ta и /=Л; 2) х\(0 = О в некоторой окрестности точки tv Эти ограничения накладываются на управления для того, что- бы можно было составить из них последовательность, сходящуюся к дифференцируемой функции. В оставшейся части доказатель- ства мы будем называть такие управления приемлемыми. Введем о-норму для управлений из С®: |и(О1о=|«(0Ц-|й(0|+... + |«(о)(0|; построение приемлемого управления u(t) с | и (01 „ в для задан- ных о^О и 8 > 0, переводящего систему Dx = u из произволь- ной начальной точки х0 в точку xt = 0, мы предоставляем читателю в качестве упражнения. Далее, считая, что такое приемлемое управление построено для системы Dx=u, применим математи- ческую индукцию, и будем считать, что существуют такие прием- лемые управления и для всех систем D'x=u, j = l, 2, ..., s—1. Рассмотрим систему] Dsx = и, которую мы разложим на две системы = | и Dg = «. Пусть ы(0—некоторое управление из С®, а х’(0, £(0 и г(0—соответ- ствующие ему решения с начальными условиями £0 = xis-1> и г0 = х0, zj1’=xJM, ..., z£s-s> =х?-2>. Заметим, что г (0 зх (0. Выберем сначала приемлемое управление «(0 на интервале 0 t 0 с ограничением | и (01 „ < 8, переводя щее систему D%=и
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 105 из начального состояния £0 = х^“1’ в конечное, состояние £х = 0. Это управление определяет также некоторое решение x(t) си- стемы Dsx = и, и переводит систему из состояния (х0, xj, ..., xj"1) в некоторое состояние (хх, х}, ..., xf“2, 0). Пользуясь предполо- жением индукции, найдем допустимое управление £ (/), определен- ное на интервале /х</</2 с ограничением |£(0L+i<e» пере- водящее систему Ds-1z = £ из состояния (хх, х}, ..., xsr2) в состояние (0, 0, 0). Положим теперь u(t)=Dl(t) на интер- вале /х < / /2; тогда и (/) будет приемлемым управлением на интер- вале переводящим вектор x(t) из начального положе- ния (х0, xj, .... Xs.'1) в конечное положение (0, 0, ..., 0), причем | и (/) 10 < е. Итак, заключаем, что для системы Dsx = и, s 1 всегда существует приемлемое управление и (/), для которого Iи (01 о < е> переводящее ее из любой начальной точки в начало координат (а:>0, «>0—наперед заданные числа). Теперь рассмотрим случай г 1, s — 0, так что система при- мет вид (Я* + Тх) (D* + ?2)... (£>2 + Тг) х = и. Для г = 1 используем метод, изложенный в примере 1 (раздел 1.2) и следствие 1 из теоремы 5 (глава 2) для построения приемле- мого (управления и (/) с ограничением | и (t) | „ < в, переводящего систему из заданного начального состояния в состояние покоя. Построение такого приемлемого управления мы вновь предлагаем в качестве упражнения. Пусть теперь г > 1, s = 0; снова приме- ним метод индукции. Запишем систему в виде (О» + ?2)... (D2 + Vr)2 = £, (D* + yJl = u, и рассмотрим некоторое управление и (t) 6 С" и соответствующие ему решения х(/), z(t), £(f) с подходящими начальными условиями ---- Y 5*1 —— 1*1 5г2Г-—3 у2Г—3 с0 ' л0’ ^0 — • • • > ^0 > £o = (Da + Y2)...(D2 + yr)x(0), £j = (£>2 + ?2) ... (D* + Tr)xJ(0), так что z(t) = x(t). Выберем сначала приемлемое управление u(t) на интервале 0 t /х с ограничением | и (/) | „ < 8, переводящее систему (О2 + у1)£=ы из положения (£., £J) в положение (0, 0). Это управление определяет решение x(t) системы S) и переводит ее из состояния (х0, xj, ..., х„г_1) в некоторое состояние (хх, х}, ..., ххг~1). Используя предположение индукции, найдем приемлемое управление £(/) на интервале с ограниче- нием | £ (/) | в+, < , переводящее вектор z (t) из начального
106 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 положения (xv х|, ...» хгг~3) в положение (0, 0, ..., 0). Положим и (t) = (D2 + уг) £ (/) на интервале tt; тогда и (t). является приемлемым управлением на интервале 0^/^/2, и переводит вектор х (0 из положения (х0, xj, ..., х2'-1) в положение (0, 0, , 0). Кроме того, ] g (/) | о+2 + Ti | В (01 „< е, откуда сразу следует, что Iи (01 е- Таким образом, при любых г 1, s = 0 для системы S) существует приемлемое управление и (t). Наконец, рассмотрим общий случай системы для г 1, s 1. Здесь положим (fH + Yi) ... (D* + Vr)z = £, = u и используем подходящие начальные условия для заданного управ- ления и(/)£С" и соответствующих ему решений x(Z), £(/), ?(/): — у* —1 ___ ^0 — л0» ^0 — л0’ • • • , *0 — л0 > I» = (О2+ ?!)... (Da + vz)x(0), ..., gs-1 = ps-i (D2 _|_ ?1) . . . (D* + Уг) X (0), так что z(f) = x(t). Сначала выберем приемлемое управление u(t) на интервале 0 t tt с ограничением | и (t) 10 < е, переводящее вектор Е (/) из положения (£0, ..., £s0-1) в конечное положение (0, 0, 0). Это управление переводит конец вектора x(t) из точки (х0, xj, ..., Xo'’+S~l) в некоторую точку (xv xj, ..., x2r+s-1). Выберем %(f) в качестве приемлемого управления на интервале t /2, переводящего вектор z (t) из положения (xlt хх, ..., х2'-1) в положение (0, 0, ..., 0) и удовлетворяющего ограничению | £ (/) |0+j < е- Положим и (/) = Dst (t) на интервале tt t tv Тогда и (/) является приемлемым управлением на интервале 0< * < Z2 с ограничением | и (t) | , < е, переводящим систему из состояния (х0, xj, ..., xjr+s-1) в состояние (0, 0, ..., 0). Теорема доказана для всех случаев. Следствие. Рассмотрим автономную линейную систему в R": (J?) х = Ах + Ви с компактным ограничивающим множеством Q а Rm, содержащим точку и = 0 внутри себя. Предположим, что никакие две жорда- новы клетки матрицы А не содержат одинаковых собственных значений матрицы А. Тогда область нуль-управляемости ё сов- падает со всем пространством R" в том и только том случае, если выполнены следующие условия: (а) система S обладает свойством управляемости; (Ь) все собственные значения А матрицы А удовлетворяют условию ReA^O. Доказательство. Если ё = R", то доказательство теоремы проводится совершенно так же, как и в случае т = 1. Обратно, если система 2 обладает свойством управляемости, и ReA^O,
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 107 то по теореме 6 мы можем заменить ограничивающее множество й некоторым компактным интервалом пространства R1, содержащим точку ы = 0. А тогда можно применить теорему 8, из которой следует, что ^=Rn. Если система (^) х — Ах + Ви обладает свойством управляемости в Rn, то ее можно, исходя из произвольной начальной точки х0, перевести в нулевую точку за конечный промежуток времени с помощью некоторого управления и (t) с Rm. Поведение такой системы резко отличается от ее пове- дения в случае, когда В = 0, т. к. тогда в силу устойчивости системы (все собственные значения % матрицы А имеют Re X < 0) все решения ее стремятся к началу координат при t— Определение. Автономная линейная система в Rn (J?) х = Ах -|- Ви называется стабилизируемой, если существует такое линейно зави- сящее от х управление u = Dx, что система х = Ах + BDx = (4 + BD)x устойчива, т. е. если найдется такая постоянная действительная тх «-матрица D, что действительные части собственных значений матрицы A-\-BD отрицательны. _ Если S и 3?—линейно эквивалентные системы, так что А = РАР-1_и В = РВ, и если 3?—стабилизируемая система, то и система 2 будет стабилизируемой. Действительно, если матрица (A + BD) устойчива, то и матрица P(A + BD)P-1 = A-f-BD (D = DP-i) также устойчива. Теорема 9. Рассмотрим автономную линейную систему в Rn (2) х=Ах + Ви с управлением и (t) с R1. Если система 2 обладает свойством управляемости, то она стабилизируема. Доказательство. По теореме 7 систему 2 можно заме- нить линейно эквивалентной системой вида х<п, + а1х(в-1>+... -\-апх — и, или х^х2, х2 = х8.....хл=—аус1—а„_1х^—...—а1хп + и. Возьмем произвольный постоянный вектор £)=(^л> •••» ^1)
108 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 и пусть и = djc1 н- . + drxn. Тогда наша система S) становится системой с обратной связью: +(^-<0 + ... + (a„-d„) X=0. В частности, можно получить устойчивую систему, если выбрать вектор D таким образом, чтобы характеристический многочлен имел вид %» + (ai_di)x»-i+ ... +(an_dn) = (X+ If; это можно сделать, полагая az—dt = (j^ при Теорема доказана. В последних двух теоремах этого раздела мы вновь вернемся к общему случаю многомерных управлений u(t)cRm, Мы изучим здесь некоторые, не обладающие свойством управляе- мости, системы, пытаясь либо выделить из них части, обладаю- щие управляемостью, либо аппроксимировать системами, облада- ющими управляемостью. Теорема 10. Рассмотрим автономную линейную систему в Rn: (d?) х = Ах+Ви. Существует единственное линейное подпространство С простран- ства Rn, такое, что (а) С—инвариантное подпространство для 2, т. е. каждая траектория системы, исходящая из точки, принадлежащей под- пространству С, целиком лежит в С и никакая траектория, начинающаяся вне С, не может привести в С. (Ь) если рассматривать только в подпространстве С, то си- стема 2 будет обладать свойством управляемости. Доказательство. Пусть С—множество всех тех точек в Rn, в которые система может быть переведена из начала коор- динат за конечный промежуток времени с помощью управлений u(t) а Rm. Покажем сначала, что С является линейным простран- ством. Пусть 0 < ti < /2; рассмотрим точки С: *1 xi (^i) ~ $ еА ’** (s) ds, о Хг (4) = $ (s)ds. о
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 109 В первом интеграле положим o = s-|-/2—tt и определим управ- ление следующим образом: 1 0 На 0 t ^2 — | Мп—Л + Q на /2—^<<т</2- Тогда *1 (*i) = $ еА и’~в) BUi (0)da и, следовательно, точки x1(i1) можно достичь из начала коорди- нат за время /2. Таким образом, линейной комбинации управле- ний U± (0 и м2 (0 на 0 < t < /2 соответствует аналогичная линей- ная комбинация точек хг{1^ и х2(/2). Следовательно, С является линейным пространством. Заметим, что множество С состоит из одной нулевой точки в том и только том случае, если 2? полностью неуправляемая система, т. е. если В = 0. В этом случае теорема верна, поэтому условимся считать, что размерность k подпространства С строго больше нуля. В силу конструкции пространства С никакая траектория си- стемы 2 из С не выводит. Ясно, что существует система коор- динат (х1, ..., х") в Rn такая, что подпространство С в R" задается уравнениями х*+1 = 0, ..., х" = 0, а система S может быть записана в виде Xi = Auxt + Д12х2 + BjU, Здесь мы использовали, что х2 = 0 на С. Заметим теперь, что ни- какая точка x = (xlt х2), для которой х2=/=0, не может быть пере- ведена в С, следовательно С—инвариантное подпространство. Будем теперь рассматривать систему 2? лишь на С, т. е. положим с) х2 = -AijXj+Вги, х2 = 0. Поскольку из начала координат можно попасть в любую точку С то на основании следствия 2 из теоремы 5 система 2?с обладает свойством управляемости в С.
по ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ Й ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 Пусть, наконец, С' есть любое инвариантное линейное под- пространство в Rn, в котором система S обладает свойством управляемости. Поскольку С инвариантно, то оно должно вклю- чать все точки, в которые можно попасть из начала координат, так что С с С'. Поскольку система S обладает свойством управ- ляемости в С', то из каждой точки С можно попасть в начало координат и, следовательно, С'а С. Поэтому С = С, и мы дока- зали единственность подпространства С, удовлетворяющего усло- виям (а) и (Ь) нашей теоремы. Тем самым теорема полностью доказана. Инвариантное подпространство С называется подпространст- вом управляемости для системы 2?, а система 2с—вполне управ- ляемой частью системы 2. Следствие. Пусть С—подпространство управляемости для системы (^) х = Ах 4- Ви. Тогда существуют координаты х — в Rn такие, что под- пространство С определяется в R" уравнением х2 = 0, а система 2 записывается в виде х1 Ахххх 4" А12хг 4* х2 == А22х2, Xi х2 . (Заметим, что хх = 0, причем размерность подпространства С совпадает с рангом мат- рицы [В, АВ, А2В, ..., Ап~1В]. Доказательство. Доказывая теорему, мы установили су- ществование требуемых координат х — если С = 0, т. е. если В = 0 и 2 полностью неуправляема.) Поскольку система 2С обладает свойством управляемости в С, то dim С = rank [Вх, AUBV А^В^ ..., A^i1B1]=k. Кроме того, rank[Bx, AUBV ..., =гапк[Вх, А11В1, ..., Однако АВ=| 0 I, 0</<п, где ГАи А1а1 ГВЛ [о 4J’ LOJ'
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ 111 Поэтому _ dimC = rank [В,ЛВ,Л8В, .... А-ЧЗ] и из инвариантности ранга матрицы управляемости относительно линейной эквивалентности следует утверждение следствия. Теорема И. Рассмотрим автономную линейную систему в Rtt: С?,) х=ЛоХЧ-Вои. Если система обладает свойством управляемости, то сущест- вует такое 8Х > 0, что любая автономнаяЧшнейная система (J?) х=Ах-{-Ви, для которой |Л—ЛО|<8Х, |В—Во|<8, будет также обладать свойством управляемости. Если система S? не является вполне управляемой, то для любого в > 0 существует обладающая свойством управляемости система (.З^) i = A^+BjU, такая, что |ЛХ—Ло| <е, |ВХ—Во|<8. Таким образом, множество обладающих свойством управляемости систем открыто и всюду плотно в метрическом пространстве всех автономных линейных систем в Rn, где расстояние между системами определяется по формуле | Лх—Л0| + |В1—Во|. Доказательство. Если система З’о обладает свойством управляемости в Rn, то строки матрицы [Во, Л0В0, .... Л?-1В0] образуют систему из п линейно независимых векторов в про- странстве Я"*. Если |Л—Ло | < 8Х и |В—Во | < 8Х для доста- точно малого 8Х > 0, то строки матрицы [В, АВ, ... ,Л"-1В] должны аппроксимировать эти п векторов, и поэтому также должны быть линейно независимыми. Но тогда система (S’) х=Ах+Ви также будет вполне управляемой. С другой стороны, предположим, что система не является вполне управляемой. Для заданного 8 > 0 выберем такие мат- рицы Лх и Вх, чтобы | Лх—Ло | < 8, | Вх—Во | < в и чтобы элементы матриц Лх и Вх были алгебраически независимы над полем ра- циональных чисел (т. е. чтобы не существовало полиномиальной (имеется в виду полином с рациональными коэффициентами) связи между элементами матриц Лх и Вх—существование таких мат- риц Лх и Вх есть стандартное свойство арифметики веществен- ных чисел). Тогда rank [Вх, ЛХВХ, .... Л?-ХВХ] = п, поскольку ни один из (п хп)-миноров матрицы не может рав- няться нулю, так как каждый из них представляет собой
112 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 многочлен от элементов матриц Ах и Вг Следовательно, систе- ма обладает свойством управляемости. Теорема доказана. Несмотря на некоторую искусственность построений при до- казательстве теоремы 11, она имеет важный физический смысл. Из нее следует, что, вообще говоря, произвольно взятая авто- номная линейная система 3 скорее всего будет обладать свой- ством управляемости, т. е. управляемость является типичным свойством автономной линейной системы. В частности, для описа- ния реальной физической системы с приближенно известными параметрами всегда можно подобрать вполне управляемую си- стему S’. Однако иногда время, требуемое для приведения так подобранной системы в желаемое состояние, может быть столь велико, что выгоднее в качестве математической модели исполь- зовать систему 3, не обладающую свойством управляемости. Упражнения I. Для системы х=и, cfограничением | и (/) | 1 вычислить и изобразить множество достижимости К (к) для /1=1 и /1 = 2 с начальным положением хо = 0, хо = О; с начальным положением хо = О, х0 = 4. Указание: использовать теорему 2 и пример 2 главы 1. 2. Рассмотрите линейную систему в /?": (=2?) х = Л (0 х+В (/)«+»(/) с компактным ограничивающим множеством йс/?“ и начальной точкой х0 в момент /0. Точка называется вершиной множества К (/i), если через нее проходит несколько гиперплоскостей, опорных для К (/J. Пока- жите, что если точка x(/i) = P является вершиной множества К (/i), то точка х (т) будет вершиной множества К (т) для всех т таких, что /0 < т < ti 3. Рассмотрите автономную линейную систему х(п)+а1Х(й-1)+ . +апх=рти^+ ... +₽он, ₽т * 0. Покажите, что ее можно из любого начального состояния (х0, х0, • • • » *о<п”1)) перевести в состояние (0, 0, 0, ... , 0) за конечное время с помощью управ- ления 4. Рассмотрим автономную линейную систему в 7?": (J?) х=Ах-\-Ви с ограничивающим множеством содержащим точку tt = 0. (а) Покажите, что К (t2) для 0 < < /2» если в качестве началь- ной точки принять х0 = 0. [Указание: см. теорему 10.] (Ь) Покажите, что если множество Q выпукло и имеет непустую внутрен- ность, то внутренность множества К (/i) содержится в К» (/i). Здесь под К» (G) понимается множество достижимости для исходной точки х0 и управ- лений u(t)£Ca> в Q. [Указание: управление и (/) с: Q можно слабо ап- проксимировать управлением из С00, лежащим внутри Q.] 5. Для каких значений действительного параметра р система pil [2 Р-3] Rj Ь 2J 1 0j [а2 и1
2.3 УПРАВЛЯЕМОСТЬ И УСТОЙЧИВОСТЬ АВТОНОМНЫХ СИСТЕМ ИЗ будет обладать свойством управляемости? Для каких р эту систему можно свести к обладающей свойством управляемости системе со скалярным управ- лением? 6. Рассмотрим автономную линейную систему в Rn: (X) х= Ax+Buf u£Rm. Если существует такой ненулевой m-мерный вектор w, что векторы Bw, ABw, A2Bw, , An~~1Bw линейно независимы, то система обладает свойством управляемости. Дока- жите это утверждение и приведите пример, показывающий, что обратное утверждение неверно. 7. Рассмотрим автономную линейную систему в Rn: (Jf) x — Ax-]-but u^R1. Пусть Л = Шаб{Л1, Л2, ... , Л*} —каноническая жорданова форма мат- рицы А, и пусть — соответствующий вектор t b, записанный, как в теореме 6. Докажите, что система <2? обладает свойством управляемости тогда и только тогда, когда выполняются следующие два условия: (а) никакие две клетки А^ и не имеют одинаковых собственных значений; (Ь) Ь1п^ 0, Ь2п* 9^ 0, ...» о* 8. В задаче Лурье—Летова из теории автоматического регулирования рассматривается линейная система в Rn\ (J?) х=Ах-\-Ьи с матрицей 4 = diag{%b %2, ••• » гДе все собственные значения X/ раз- личны. Покажите, что система линейно эквивалентна линейной системе с матрицей А=А и матрицей Г 1 “I 1 в том и только том случае, если система X обладает свойством управляе- мости. 9. В критерии устойчивости Рауса—Гурвица утверждается, что каждый корень X действительного многочлена Л« + а1Х«-1+...+ап=0 имеет отрицательную вещественную часть тогда и только тогда, когда > О,
114 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 k— 1, 2, ... Здесь а1 а3 аъ • • • а2Л-1 1 а2 а4 ... 1 Clt Uft 0 а3 ... а2£—з > » « Q II ел С? II 0 1 а2 ... a2k _ 4 0 0 ... йгЛ-5 0 0 0 ... ak где ak^Q. (а) Покажите, что если Re А «С О для всех корней А, то и для k~ 1, 2, ... , л. (Ь) Покажите, что если а^Ои для &=1, ...» л, то при л^З все корни А имеют отрицательную вещественную часть. Пример А4 + А2 +1 = О показывает, что это утверждение неверно при л = 4. 10. Покажите, что системы Dx — u и (D2-f-l)x = w обладают приемлемыми управлениями u(t) (в смысле теоремы 8), удовлетво- ряющими ограничению | и (/) j < 8, которые переводят их из произвольной начальной точки в начало координат. 11. Покажите, что автономные линейные системы (Я)\ х=Ах+Ви, обладающие свойством управляемости относительно скалярных управлений1) являются типичными в смысле теоремы 11. 12. Автономная линейная система в Rn (Jf) x=Ax+but u^R1 называется управляемой со сколь угодно малым управлением, если для любого 8 > 0 и любых двух точек х0 и Хх из Rn существует управление и (0, удовлетворяющее ограничению | и (t) | 8, которое переводит систему из состояния х0 в состояние Xi за конечный промежуток времени. Покажите, что система X будет управляемой со сколь угодно малым управлением в том и только том случае, если (а) £ обладает свойством управляемости; (Ь) каждое собственное значение А матрицы А является чисто мнимым. 13. Система из двух сцепленных пружин совершает в горизонтальной плоскости колебательное движение около положения равновесия. (Трение отсутствует.) Уравнения движения имеют вид х = — х), у = — k2 (у—х) + и, где х и у—отклонения свободных концов от их положений равновесия, > 0 и k2 > 0—коэффициенты жесткости пружин, a u(t) — управляющая сила, приложенная к концу второй пружины. Покажите, что такая система является управляемой со сколь угодно малым управлением (считать что движение происходит вблизи положения равновесия х=х=0, у = *у — ^). 14. Рассмотрим автономную линейную систему в Rn; (<S?) x=Ax-j~Bu х) См. теорему 6. (Прим, ред.)
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 115 с начальным положением xQ в момент /о = О и с компактным ограничивающим множеством Q. В предположении, что система обладает свойством управ- ляемости, множество И (Q) имеет непустую внутренность в а ранг мат- рицы В равен т, покажите, что компактное подмножество Z с Q обладает свойством «релейности», т. е. Kz (*i)333 (*i) Для всех 0 тогда и только тогда, когда Я(7) = Н(Й). [Указание: в теореме 4 утверждается, что из условия Н (Z) = H (Q) следует наличие у множества Z свойства «релейности». Для доказательства обратного утверждения предположим, что Н (Z) Ф Н (Q) и рассмотрим опорную гипер- плоскость л к Н (Q), не пересекающую множества Н (Z). Пусть тцВ — внешняя единичная нормаль к плоскости л при некотором гц. Возьмем точку (/J, в которой внешняя нормаль совпадает с гц. Это возможно, так как есть выпуклое тело и ранг матрицы В равен т. Тогда лю- бое управление uQ (t) cz Н (Q), переводящее систему из точки х0 в точку Ро, должно удовлетворять принципу максимума, а отсюда следует, что управле- ние u0(t) находится вне множества Н (Z) для всех t, близких к /J. 15. Пусть система х=Ах-\-Ьи обладает свойством управляемости, как в теореме 9. Покажите, что управление u = Dx можно выбрать таким обра- зом, чтобы собственные значения матрицы A-\-bD равнялись заранее задан- ным величинам (однако таким, чтобы матрица A-\-bD оставалась действи- тельной). 2.4. Управляемость и наблюдаемость Рассмотрим действительную автономную линейную систему (J?) х = Ах+Ви, где u£Rm—входной сигнал, или вектор управления, a x£Rn— решение, или вектор состояния системы. Может случиться, что лишь некоторые из составляющих вектора состояния или линей- ная комбинация его компонент имеют физический смысл, или вообще наблюдаемы. В этом случае описание системы дополняется уравнением наблюдения (6) со — Нх. Здесь Н—действительная постоянная (г хп)-матрица, определяю- щая наблюдаемый выход системы—r-мерный вектор со, завися- щий от n-мерного вектора состояния х. Совокупность уравне- ний S и 6, полностью описывающая зависимость выхода от входа, называется автономной линейной наблюдаемой системой. Пример. Рассмотрим систему х(л)+а1х(я-1)+ ... + апх = и, в которой наблюдаемым является лишь сам выход, но не его производные. Чтобы описать соответствующий процесс наблюдения,
116 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 надо к системе уравнений X1 1 о о —а, 0 о О добавить уравнение х» (О — [1 ... 0] О Для линейной наблюдаемой системы х= Ax-j-Ви, <л = Нх зависимость между входом и выходом дается формулой i со (t) = HeAt J e~As Bu (s) ds, о при начальных условиях хо = 0, / = 0. Если все составляющие вектора управления, кроме равны нулю, т. е. г 0 п “«-I о 1 =—ву на интервале О 8 и u(t) — O при остальных . значениях t, О j то , X a(t) = HeAt—\e~AsBejds при />в>0. В предельном случае, при в—*0, данная формула определяет решение, соответствующее единичному импульсу на входе системы, т. е. сигналу u(t) = d(t)ej (6(/)-функцию можно представить как
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 117 некоторую идеализацию ступенчатой функции, или, точнее, как некоторую меру с весом 4-1, сосредоточенную в точке / = 0). В пределе решение примет вид со (/) = HeAt Bej при t 0. Иначе говоря, элемент (», /)-матрицы W(t) = HeAtB при дает составляющую af(t) решения a(f), соответствующего импульс- ному сигналу и (0 = б (0 е}. Матрицей W (/) полностью опреде- ляются все связи между входом и выходом наблюдаемой системы. Действительно, для произвольного управления u(t) имеем t = (t—s)u (s) ds при f > 0, о где хо = 0 при / = 0. Поскольку соотношение между «(/) и ©(f) имеет вид свертки, то удобно применить преобразование Лапласа к функциям u(t) и <£>(/)• Обозначая их изображения через U (р) и Q(p), по- лучим матричную передаточную функцию Z (р) = L (W (t)) = e~pt dt. о Тогда соотношение, связывающее вход с выходом системы, примет вид Q(p) = Z(p)t/(p). Определение. Для автономной линейной наблюдаемой си- стемы (J?) х= Ах+Ви, матрица © — Н (х) при t^Q, пои t С 0 называется импульсно-переходной матрицей, или весовой матрич- ной функцией. Матрица, определяющая зависимость выхода от входа, СО Z (р) = L (W (0) = $ W (/) е-р* dt, о называется матричной передаточной функцией системы. В этом разделе мы убедимся, что весовая функция, так же как и передаточная функция, полностью характеризует все ас- пекты задачи наблюдения. В основной теореме 14 дается строгое оказательство точного соответствия между матрицами вида Z(p)
118 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 и процессами наблюдения. Сначала мы исследуем, какие из мат- риц Z(p) могут служить передаточными функциями; затем выде- лим два важных для приложений класса линейных процессов, а именно: класс вполне управляемых процессов, и класс вполне наблюдаемых процессов, а затем покажем, что эти классы в опреде- ленном смысле двойственны друг другу. В силу известных свойств матрицы eAt для постоянной (п х /^-мат- рицы А можно заключить, что HeAtB представляет собой (г х /и)-мат- рицу с элементами вида /°ea<cosp/ или /’e^sinf}/ (о = 0, 1, 2, 3,...) и действительными а, р, или конечными линейными комбинациями таких членов. Назовем такие (г х/и)-матрицы экспоненциально- полиномиальными матрицами. Теорема 12. Действительная г хт-матрица при U I 0 при t<Q является матричной весовой функцией для некоторого действи- тельного автономного линейного наблюдаемого процесса в том и только том случае, если является экспоненциально-полино- миальной^ матрицей. Далее, (гхт)-матрица Z(p) есть матричная передаточная функция для некоторой действительной автономной линейной наблюдаемой системы в том и только том случае, если каждый элемент матрицы Z (р) является действительной дробно-рациональ- ной функцией от р, степень числителя которой меньше степени знаменателя. Доказательство. Применяя элементарные формулы для преобразования Лапласа L (Ге** cos РО = (— 1)’ [(p_fa)2+p ] > L (t°eat sin ₽/) = (— 1)’ [ (P_a^+pa ] и обратные формулы L-1 = 777 Г/~~ iVTgg*l Для о>1, 0<р<о, \(р—ар J dtf L(°— О I J а также правила разложения на элементарные дроби, получаем, что 1FO(/) будет экспоненциально-полиномиальной матрицей тогда и только тогда, когда все элементы матрицы Z (р) являются дроб- но-рациональными функциями, у которых степень числителя меньше степени знаменателя. Таким обоазом надо доказать лишь первую часть теоремы.
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 119 Поскольку весовая матрица для любой действительной авто- номной наблюдаемой системы имеет вид HeAtB (t 0), то матрица и ее преобразование Лапласа Z(p) должны иметь вид, указанный в теореме. Пусть теперь We (t) есть экспоненциально-полиномиальная матрица. Для доказательства теоремы мы должны построить автономную наблюдаемую систему, весовая функция которой вы- ражается через W0(t), как указано в теореме. Пусть ^о(О = (/,7(О). где /,7(0, пред- ставляет собой конечную линейную комбинацию членов вида /eeatcos0/ и Z’eetsinp/. Каждый элемент //7(0 является решением некоторого однородного линейного дифференциального уравнения с постоянными коэффициентами, например уравнения некоторого достаточно высокого порядка N. Следовательно, каждая из функ- ций Z,7 (/) представляет собой элемент фундаментальной (W х ^-мат- рицы решений eAti‘Cij, и если выбрать постоянные матрицы и С;7 соответствующим образом, то элемент lijit) будет стоять в левом верхнем углу. Построим теперь систему дифференциальных уравнений по- рядка Nrm, х —Ах, где А — diag {Ли, Л12, • •., А1т, Л21,..., Л2Я1, ..., Аг1,..., Агт}. Положим С = diag {Сп, ..., С1т,..., Сп, ..., Сгт} и рассмотрим матрицу eAtC = diag{eA^Cu, ..., eA™1Crm}, содержащую каждый из элементов Z,7(Z) в верхнем левом углу соответствующей клетки ел‘?С/7. Теперь остается выбрать постоян- ные матрицы Н и В± так, чтобы имело место'равенство Wtt(t) — HeAiCBl = HeAtB. В качестве таковых можно взять, например, матрицы, состоя- щие из 0 и 1, расположенных определенным образом. Так, для случая г = 2, /п = 3 надо взять /10.. .0110.. .0i 10...0i00.. .OiOO.. .0i00...0\ n ~ \00...0i00...0i00...0i10...0i10...Oj10...Oj ’ так, что [fpAtf* (^11* • • • * ; ^12* • • • * ; . . * ; 0 . . . 0 ; 0 • • . 0 I 0 0 t \0 ... 0 i 0 ... 0 ; 0 . . . 0 : Z?1* . . . * i Z2J* . . . * • /gg* • . . * / ’
120 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ Затем возьмем гл. 2 Г 1 0 0 [0 - 0 0 0 0 1 0 0 0 0 0 0 0 1 0 В - .2... 0 1 [ 0 Вх- ! 0 0 ! I 0 0 0 0 0 1 0 0 0 0 0 0 1 I 0 1 0 L. 0 0 0 J так, что HeAtCB1 = Rn lAi 4а 4а 4з J что и требовалось доказать. Теорема доказана. Рассмотрим автономную линейную наблюдаемую систему в Rtt: (j^) x = Ax-srBu, а = Нх. Постоянное линейное невырожденное преобразование в 7?" X = Рх позволяет преобразовать систему 2 к такому виду: (j^j х = Ах-\-Ви, а = Нх, где A = PAP~l, В — РВ, и Н = НР~\ Системы 2 и 2 являются линейно эквивалентными относительно линейного преобразования
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 121 х = Рх; линейно эквивалентные наблюдаемые системы имеют одни и те же характерные свойства. Например, весовые матрицы таких систем совпадают, поскольку они не зависят от координат х в R", т. е. W(f) = HeiA В = HP~tetpAP~lPB = HetAB, t 0. Из теоремы 10 следует, что любая линейная автономная система, наблюдаемая в Rn, (&) х=Ах+Ви, ®~Нх, линейно эквивалентна наблюдаемой системе канонического вид %! = Л х1Хх “Ь ^12^2 “I” Bjlt , х,=Л82х2 и со = Я1х1 + Hsxa. _ (Xi \ _ Здесь х=1 - )—координаты в Rn, а уравнение ха = 0 определяет \xi / обладающую свойством управляемости часть системы S, причем система 3 обладает свойством управляемости тогда и только тогда, когда совокупность координат х4 пуста, т. е. хх определяет все пространство Rn. Наблюдаемая система 3 называется пол- ностью неуправляемой (или свободной), если пусто множество координат xlt т. е. В = 0. Каждую систему можно разложить на систему, определенную на х, = 0: х1 = Л11х14-В1« (эта система обладает свойством управляемости), и на систему ха = Лих,—про- екцию системы 3 на подпространство хх = 0, которая полностью неуправляема. Таким образом, вполне управляемую наблюдаемую систему можно определить, как систему, не содержащую пол- ностью неуправляемой части. Аналогично можно назвать полностью ненаблюдаемой систему вида х= Лх+Bw, со = О, т. е. систему, у которой Я=0. Наблюдаемую систему, не имею- щую такой полностью ненаблюдаемой части, естественно назвать вполне наблюдаемой. Определение. Автономная линейная наблюдаемая система в Rn (J?) х= Ax-j-Bu, © = Ях называется вполне наблюдаемой, если она не является линейно
122 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 эквивалентной никакой ’системе вида т&ьг %1 = “Ь ^12*^2 Н“ -^1^, ==: </422^2 “F -^2^ И ~ (0 ==:: // 2^2> ' /* Xi \ Г] где x=l -1 1 и множество непусто.^ Заметим, что если система S? допускает такое представление с непустой группой координат х1г то сужение системы S на подпространство х2 = 0 (например, для ы = 0), имеет вид х1 = А11х1, <о = 0. Последняя система является полностью ненаблюдаемой. Ниже мы определим разложение произвольной линейной автономной системы на вполне наблюдаемую и полностью ненаблюдаемую часть, и покажем, что система 3 будет вполне наблюдаемой лишь в том случае, дели свободная система с и ж 0 не имеет нетривиального решения x(t), для которого бы со (0 = 0. Теорема 13. Автономная линейная наблюдаемая система в R” {3) х = Ах+Ви, а> = Нх является вполне наблюдаемой в том и только том случае, если двойственная динамическая система (•$?") х = А'х + Н'и, а> = В'х будет вполне управляемой. А это будет тогда и только тогда, rank \Н', А'Н', А'гН',... ,А'я-хЯ'] =п. Доказательство. Система 3 не является вполне наблю- даемой лишь в том случае, если существует такое преобразование координат х=|^1|=Рх (с непустой совокупностью коорди- ____ L лса J нат Xj), что А = РАР~Х = [ Л11 d12 1, L 0 А22 J и Я = ЯР-Х = (О, Я2). В = РВ = " Bi В.
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 123 Но тогда под действием преобразования х = 5 = (в-i)' х - J коэффициенты системы S' примут вид Г Ап 0 1 L А'12 As* J и в'Р' = [в;, в;], p-i'H'= Г1 L я;] так что система S' будет неуправляемой. Аналогично можно показать, что если система S' неуправляема, то система S будет ненаблюдаемой. Итак, система S вполне наблюдаема в том и только том случае, если система S' вполне управляема, т. е. если rank \Н',А'Н',А'*Н'....А'п-1Н'] = п. Теорема доказана. Заметим, что система S' является двойственной к системе S и поэтому она вполне управляема тогда и только тогда, когда система S вполне наблюдаема. Отмеченное здесь свойство двой- ственности показывает, что теоремам об управляемости должны соответствовать двойственные к ним теоремы о наблюдаемости (см. ниже упражнение 4). Например, следующая лемма опреде- ляет ненаблюдаемую часть свободной наблюдаемой системы. Лемма 1. Рассмотрим линейную автономную систему (S) х = Ах, «> = Их, которая является полностью неуправляемой в Rn. Тогда сущест- вует единственное линейное подпространство И некоторой макси- мальной размерности 1(0^1^п) такое, что (а) подпространство ‘U инвариантно', (Ь) сужение системы S на подпространство QL есть полностью ненаблюдаемая система. Система S будет вполне наблюдаемой тогда и только тогда, когда ЭД = 0. В соответствующей системе координат х = ( -1 ), _ \ х2 ) в которой подпространство 41 задается уравнением хг — 0, данная система описывается так: х2 == Ац^1 "И A22х2, х2 == А22^2 и а = Я2ха.
124 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 На подпространстве хх = 0, которое будет нулевым система х2 = Л22х2, <о = Я«х2 при 1 = п, будет вполне наблюдаемой. Доказательство. Если 44х и 44,—два инвариантных под- пространства, на которых система 3 полностью ненаблюдаема, то со = Нх будет тождественно равняться нулю на подпространстве 44х4-44,. Следовательно, также будет инвариантным под- пространством системы на котором она полностью ненаблю- даема. Определим линейное пространство ‘IL как сумму всех инва- риантных линейных подпространств, на которых система 3 пол- ностью ненаблюдаема. Такое пространство ‘IL по построению будет инвариантным подпространством, на котором 3 полностью нена- блюдаема, причем любое другое подпространство с теми же свойствами будет иметь размерность, меньшую, чем ‘IL. т-> - Г X, В соответствующих координатах х= J L х. в которых под- '2 J пространство 44 задается уравнением х, = 0, система примет вид, указанный в формулировке леммы. Если /<п, то совокупность координат х2 система непуста, и спроектированная на это подпространство Х2 — Л22Х2, ю = Я2х2 будет вполне наблюдаемой; действительно, в противном случае пространство 44 допускало бы дальнейшее разложение х2 = -* , L х4 J что противоречило бы его свойству максимальности. Итак, размерность I typpt равняться п лишь в случае, когда Н = 0, т. е. когда система 3 полностью ненаблюдаема, и I = О лишь в случае, когда совокупность координат хх пуста, т. е. система 3 является вполне наблюдаемой. Таким образом, из равенства 44 = 0 [следует полная наблю- даемость системы 3. Обратно, если система 3 вполне наблюдаема, то в разложении, указанном в формулировке леммы, совокупность координат х~—пуста, т. е. 44 = 0. Лемма доказана. Ниже мы дадим удобную каноническую форму для линейных вполне наблюдаемых и вполне управляемых систем. Она потре- буется нам для построения примеров таких систем. Мы будем рассматривать здесь лишь случай т = 1, т. е. системы со скаляр- ными {управлениями u(t), так как для этого случая теорема 7 дает основную каноническую форму линейной вполне управляемой системы.
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 125 Л е м ма 2. Рассмотрим наблюдаемую автономную систему в Rn: (J?) х= Ax+bu, u^R1, <о = Нх. Тогда система S? будет вполне наблюдаемой в том и только том случае, если многочлены D(j)) = pn+a1pn~1+ ... +att и (Р) = Ь11Р^ + Ьир"-* + ... + 61в, Nr (Р) = ЬпР”-1 + Ьпрп~* 4-... +Ьгп не имеют общих корней. Доказательство. В силу теоремы двойственности система S будет вполне наблюдаемой тогда и только тогда, когда система х = Fx-\-Gu будет вполне управляемой. Здесь
126 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Таким образом, система 2 вполне наблюдаема тогда и только тогда,гкогда rank [G, FG,Fa G, ..., F'*-1G] = n. Введем обозначение А [Р, Q] = [Q, P Q, P* Q, • • •, P’^Q], где P—(пхт)-матрица, a Q—n-вектор-столбец. Тогда A[P, Q] есть матричнозначная функция двух матричных аргументов Р и Q, линейная по Q. Вычислим значение этой функции при P = F и Q = Py, где Ру—столбец матрицы G. Рассмотрим сначала последовательность elt е2, ..е„ векто- ров-столбцов единичной матрицы I. Заметим, что ei+1 = Fet для 1 i п— 1. Ясно, что A [F, et] = [е^ ... е„] = / и A [F, е,] = A [F, F'-MJ = FZ-1A [F, ej = Fi~1 для 1 i п. Запишем /-й столбец матрицы G в виде Р/ = bjnPi + • • • + Имеем А [F, PJ =^„1 + ^^+ ... + b/1F"~1 = NJ.(F). Таким образом, ранг матрицы [G, F G, ..., Fn-1G] равен рангу ма- трицы [JVj(F), Ni(F), ..Nr(F)], поскольку эти две матрицы отличаются друг от друга лишь расположением столбцов. При вычислении ранга матрицы [Л\(F), ..., Nr(F)] для задан- ных многочленов А\, ...,Nr удобно воспользоваться той систе- мой (возможно, комплексных) координат, в которой матрица F имеет треугольный вид, например, гх 0 0 ... (П * о ... О Здесь %lt %2, ..., —собственные значения матрицы А, и сле- довательно, корни многочлена D(p). Тогда ранг матрицы [А\ (F), .... Nr(F)] совпадает с рангом следующей матрицы:
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 127 Предположим, что среди корней Х2, ...» А,и многочлена D(p) имеется корень, скажем, Х1; являющийся также корнем каждого из многочленов N1(p), N2(p), ..., Nr(P)- Тогда первая строка матрицы [УИ] будет состоять из нулей, и значит, ранг ее мень- ше п, т. е. система 3 является ненаблюдаемой. Таким образом, если система 3 вполне наблюдаема, то многочлены D, Nt, N2, ..., Nr не имеют общих корней. Обратно, предположим, что многочлены D, Nlt Nt, ..., Nr не имеют общих корней. Тогда не обращает в нуль хотя бы один из многочленов Nj, например, JVyl. Выберем тот столбец матрицы [Af], который содержит элемент на главной диагонали соответствующей (п х п)-субматрицы матрицы [А1]. Выберем такие столбцы матрицы [А1] для каждого значения Х2, ..., ясно, что полученные таким образом «-столбцов будут линейно независимы. Значит, матрица [А4] имеет ранг п, и си- стема 3 вполне наблюдаема. Лемма доказана. Следующая теорема, являющаяся основным результатом на- стоящего раздела, объединяет два подхода в линейной теории управления: теорию передаточных функций и описание наблюдае- мых систем с помощью дифференциальных уравнений. Теорема 14. Пусть Z(p)—ненулевая (гхт)-матрица, эле- менты которой есть правильные дробно-рациональные функции (степени числителей меньше степеней знаменателей). Тогда суще- ствует действительная автономная линейная система (3) х — Ax-j-Bu, (л = Нх вполне управляемая и вполне наблюдаемая, для которой Z (р) слу- жит передаточной матричной функцией. При т = \ такая система единственна с точностью до линейной эквивалентности. Доказательство. На основании теоремы 12 матрицу Z(p) можно представить в качестве передаточной функции некоторой автономной линейной наблюдаемой системы в RN-. (3) х = Ах-(-Ви, <д = Нх. [ха\ , обладающую Хь1 свойством, сформулированным в следствии из теоремы 10, то вполне управляемая часть системы 3 получится сужением ее на подпространство хь = 0, а вся наблюдаемая система запишется в виде ха = А-ааха ^abxb "4” ХЬ = ^bbxb И <о = Наха-(-Ньхь.
128 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Заметим, что совокупность координат ха непуста, так как иначе матрица В равнялась бы нулю, т. е. система 2 была бы пол- ностью неуправляемой, а ее передаточная функция—нулевой. Далее, система рассматриваемая лишь на подпространстве хь = 0, обладает свойством управляемости и записывается в виде (=^о) = ® СО == Н аХа. Система 2а имеет ту же весовую матрицу, что и система 2, ибо 'eiAaa * 1 ГВ 1 Тем самым передаточной функцией системы 2 а будет матрица Z (р). [хЛ , как указано xaJ в лемме 1, с тем, чтобы выделить вполне наблюдаемую часть си- стемы 2а. Тогда система 2а запишется в виде («S’д) = ЛцХ^ “1“ ^12Х2 BjW, ^22Х2 ”1” ^2^ И (0 = Н 2Х2. Здесь множество координат х2 непусто, ибо в противном случае На = 0, система 2а полностью ненаблюдаема и, следовательно, имеет нулевую передаточную матричную функцию. Далее проекция системы 2а на подпространство Xj = О вполне наблюдаема (в лемме 1 рассматривался случай, когда Во = 0, однако свойство наблюдаемости системы не зависит от Ва) («S’) — Л22Х2 “Ь ^2^> со = Я2х2. Покажем теперь, что система 2 обладает свойством управляемости. Система 2а порядка па вполне управляема и, следовательно, . Г * * * ... * 1 ГаП В АВ А3 В АПа~1В Па’ Таким образом, строки матрицы [В2Л22В2Л^В2 ••• ЛТЧ] линейно независимы. Из теоремы Гамильтона—Кэли следует, что rank [В2, Л22В2, Л22В2, •••» А^1Ва] = п, где п—порядок системы 2. Поэтому система 2 вполне управ- ляема и вполне наблюдаема. Весовая матричная функция систе- мы «S’ в точности совпадает с весовой функцией системы 2 а,
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 129 так как ГВ.1 = Н etA”B Q J --11 2С ^2’ Таким образом, система 2 имеет требуемую передаточную функ- цию Z(p). Наконец, покажем, что, с точностью до линейной эквивалент- ности, система 2 единственна в 7?". Доказательство проведем для случая т=\. В этом случае система " в удобной эквивалентной форме: 0 0 ... 1 0 ... let/; HaetA««Ba = (0, Я2) Q * ^Л22 может О" О быть записана го _| О о [Л-1 о —а'п —а'п со — Ьщ Ь1г n_s bin bit я-1 • ьи • Ь21 X. X = И О О О О О и О О О 1 G2 aiJ О -Ьт Ьг b', Матричная передаточная функция системы 2' имеет вид Г^(Р)1 где D' (р) == р» + а^р"-1 + ... 4-а'п, N'1(p)=bi1pn~i+ N’r(p)==b'npn-1+...+b'rn. Поскольку система 2’ вполне наблюдаема, то многочлены D', N[.....N'r не имеют общих корней (обратите внимание на то, что знак (') не означает здесь дифференцирования). Мы докажем, что матричная передаточная функция PW] лм. Э. Б. Лж, Л. Марну*
130 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 определяет соответствующую вполне управляемую и вполне на- блюдаемую систему единственным образом. При этом многочлены, входящие в передаточную функцию, взаимно просты и имеют вид D (р) = рп+а1р"-1 + ... + ап, ^r(p) = brlPn~1+ +br„. Тем самым мы покажем, что две вполне управляемые и вполне наблюдаемые системы в Rn, обладающие одной и той же переда- точной функцией, будут эквивалентны. Имеем 1 о D(p)~p'(p)’ и, значит, г D(p)N'i(p) = D'(p)Nj(p). Если р = ^ есть корень многочлена D(p), то имеется многочлен (Р)> Для которого Хх не будет корнем. Следовательно, число \ должна быть корнем многочлена D' (р). Отсюда следует, что мно- гочлены D (р) и D' (р) имеют одни и те же корни, а поскольку коэффициенты при их старших членах равны 4-1, то D(p) = D' (р) (степени многочленов равны по условию). Аналогично доказывает- ся, что Nf(p)^Nl(p) (1</<г). Поэтому размерности г и п системы S' определяются разме- рами матрицы Z (р) и степенью общего знаменателя D (р) в матрице Z (р) однозначно. Также определены и сами коэффициенты вполне наблюдаемой системы S'. Итак, S' есть единственная канони- ческая форма вполне управляемой, вполне наблюдаемой автономной линейной системы с передаточной функцией Z (р). Теорема доказана. Пример. Рассмотрим случай r==m=l и построим вполне управляемую и вполне наблюдаемую систему, имеющую в ка- честве передаточной матрицы дробно-рациональную функцию ДЦр) Ь1Р"-14-Ь2р"-34--.4-Ьп Щр) рп4-щрп х4---Ь«п ’ где многочлены AZ(p) и D(p) действительны и взаимно просты, причем N{p) ф 0. Систему, соответствующую такой передаточной функции, можно описать дифференциальным уравнением, в пра- вую часть которого управление входит под знаком дифференци- ального оператора: 4- а\х^п~^ 4- • • • + Дп* = 4- &2«("~2) 4-... 4- Ъпи,.
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 131 Однако такое уравнение непосредственно не определяет наблюдае- мой системы, поскольку оно содержит производные от управляю- щей функции и (0. Здесь можно использовать разрывные релейные управления, однако при этом не обойтись без применения методов теории обобщенных функций. Но так как соответствующая теория нами не была предварительно развита, то мы обратимся к другому методу построения наблюдаемой системы, соответствующей данной передаточной функции. Рассмотрим систему х(в)+. + а„х=и, со = . + Ьпх, т. е. положим " 0 1 0 0 0 0 10 А= ’• 0 0 0 0 а„ —а„_х и Н = (bn, bn^lt .. •, &2> bi)- Такая система является вполне управляемой и вполне наблюдае- мой, а ее передаточной функцией будет N (p)/D (р). Напоминаем, что доказательство единственности системы, соот- ветствующей данной передаточной функции и обладающей свойст- вами управляемости и наблюдаемости, проведено нами лишь для случая т= 1 и опущено для более сложного случая /п> 1. Отметим также, что теорию управляемости и наблюдаемости можно распространить и на неавтономные линейные системы (см. упраж- нения), однако в этом случае удобные критерии, сформулирован- ные в теоремах 5 и 13, будут непригодны. Последней темой, обсуждаемой в этом разделе, будет задача следующего типа: найти такое управление, чтобы система из не- которого начального состояния х перешла за конечный промежуток времени в заданное непустое целевое множество G, и в дальнейшем оставалась в этом множестве. Наиболее интересным здесь будет случай, когда наблюдаемыми являются несколько компонентов вектора состояния—х1, х2, ..., хг и их требуется привести к нулю и далее сохранять их нулевые значения. В этом случае целевое множество G будет линейным подпространством х1 = 0, х2 — 0, ... ..., хг — 0 пространства Rn. Определение. Рассмотрим линейную автономную систему в Р”: (=2?) х = Ах + Ви 5*
132 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 с компактным ограничивающим множеством QcRm и целевым множеством GcRn. Назовем ядром множества G и обозначим через core(G) совокупность всех точек xr^G, для которых суще- ствует допустимое управление u(0<=Q на оо, такое, что под его воздействием система из точки xt перемещается далее по траектории x^tjcG на 0^/<оо. Из этого определения следует, что если требуется перевести систему в желаемую область G и затем удерживать ее в этой области, то можно просто сказать, что требуется перевести систему в область, являющуюся ядром области G. Таким образом, задача приведения системы из точки х0 в область G с дальнейшим удер- живанием траектории системы в G может быть сведена к задаче приведения системы в ядро области G без какого-либо рассмотре- ния дальнейшего поведения системы. Теорема 15. Рассмотрим автономную линейную управляемую систему в R": (J?) х= Ах+Ви, с компактным выпуклым ограничивающим множеством &<zRm и замкнутым выпуклым целевым множеством G. Тогда core(G) есть замкнутое выпуклое подмножество множества G. Более того, core (core (G)) = core (G). Доказательство. Пусть xt и x2—начальные состояния системы, из которых она переводится в область G с помощью управлений щ(t) и ut(t)£Q на 0t < со соответственно. Тогда t Xj (t) = eAtxt 4- eAt J e~ AsBut (s)ds, /=1,2. о Если 0 X 1, to Xxx (0 4- (1 -X) x2 (0 = eAt (Xxx 4- (1 -X) x2) 4- t 4- eAi $ e~AsB (Кщ (s) 4- (1 —X) ut (s)) ds, о и поэтому управление [Xax(04-(1—X)«2(0]c:Q на 0^/<оо переводит систему из точки [Ххх4~(1—-М*»] в область G. Таким образом, core(G) есть выпуклое множество. Пусть хх, х2, ...—последовательность точек из ядра множе- ства G и lim xft=x£ G. Пусть щ (0, и2 (t),... —соответствующие k -* 00 им управления, удерживающие хх, Xg, ... в G. Выберем такую под- последовательность _точек (мы будем обозначать ее снова хх, хг,...), чтобы lim uk(t) — u(t)c:Q в смысле слабой сходимости на любом k -+ 00
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 133 конечном интервале Тогда решение, соответствующее предельному управлению, будет х (t) = eAtx+eAt J е~ AsBu (s) ds о и _ x(t)= lim х*(0 k -* 00 для любого ^фиксированного Поскольку G—замкнутое мно- жество, то x(t)<=.G для всех ^>0. Поэтому xCcore(G) и core(G) является замкнутым множеством. Если точка х„ принадлежит ядру G, то некоторому управлению u(flcQ на интервале 0</<оо соответствует решение x0(t)cG. Но тогда для любого фиксированного t^O x0(f) служит началь- ной точкой некоторой траектории, целиком лежащей в G с управ- лением u(t)cQ. Следовательно, х0 (i) С core(G) для любого t^O. Таким образом, х0 С core (core (G)) и, значит, core (core (G)) = core (G). Теорема доказана. Часто бывает затруднительно установить, компактно ли ядро G, даже если G является линейным подпространством пространства R" (см. пример в разделе 1.3). Однако в задачах на быстродействие наиболее отдаленные части области G обычно исключаются из рассмотрения. Поэтому задачи с компактным целевым множеством встречаются достаточно часто. В случае, когда множество G является линейным подпростран- ством, соответствующую управляемую систему называют системой с регулированием по многим компонентам. Следующая теорема по- казывает, что такие задачи чаще всего можно свести к задачам с регулированием по одной компоненте. Теорема 16. Рассмотрим автономную линейную управляемую систему в Rn: (J?) х — Ах-[-Ьи с компактным ограничивающим интервалом QczR1, содержащим точку и = 0. Предположим, что система 3? обладает свойством управляемости, и возьмем некоторое подпространство я прост- ранства Rn. Тогда существует такая гиперплоскость л размер- ности п—1, что core (л) -»core (л). Доказательство, соте (л) является замкнутым выпуклым подмножеством множества л, непустым, так как оно должно содержать точку х = 0; следовательно, оно имеет непустую внут- ренность, порождающую некоторое линейное подпространство
134 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 в R" так, чтобы подпространство л. HjCn размерности (п—г)._сог&(л^ должно совпадать с core (л). Выберем координаты х Хг kJ X1 задавалось уравнениями х О (если лх состоит из одной х - точки—начала координат, то совокупность координат х2 пуста). Запишем систему 2 в виде %1 ЛцХ^ Ч” ^12^2^1^» Х% s= ^21X1 Ч" ^22^2 Ч" • Предположим, что Ьг = 0. Тогда в тех точках core (nJ, где хх = 0, имеем х=0 и Лиха = 0. Поскольку в подпространстве лх имеются внутренние точки core (nJ, то Л1а = 0. Но это означает, что Xj = Лиха, что противоречит управляемости системы. Поэтому ^#=0. Определим новые координаты в пространстве Ra так, чтобы подпространство лх задавалось соотношением ха = 0, причем ' го-i О \ и запишем i“i a)+i ... ап ^12 ~= 2г+1 • • • ап_ Предположим, что k-я строка матрицы А1г, 1 ненулевые элементы. Тогда х* = a*+1xr+1 Ч- •.. Ч- а£хп = О г содержит во всех точках core (nJ. Но это означает, что core (ла) содержится в пересечении подпространств х1 = х2= ... = хг = 0 и а*+1х,+1Ч-... Ч-ап^” = 0> что противоречит предположению о том, что размерность core (nJ равна (п—г). Таким образом, ГО 0 ... О П 2'+1 • • •
2 4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 135 Для любых двух точек (х1а, 0) и (х1Ь, 0) в /^существует управ- ление uflcR1, переводящее систему из первой точки во вторую вдоль траектории x(f). Но тогда управление й (0 = arr+1xr+1 (0 + ... + агпхп (0 + и (t) переводит систему из х1а в х1Ь в подпространстве Rr вдоль реше- ния системы х =Апхг + М(0. Таким образом, система £ обладает свойством управляемости в Rr и ____ ____ Р=[Л^, A^bv .... Anbv М является невырожденной (г х г)-матрицей. _ Введем новые координаты в подпространстве х2 = 0: хх = Ру. Тогда система 3? запишется в таком виде: У = + р-ч^и, хг= А21Ру + М- Теперь, так же как в теореме 6, непосредственным вычислением можно показать, что система 3? принимает простой вид: = + У2 = а2У1 + //3, У3 = а3'/1 + У4, .... t/r-1 = ar_1y1 + t/r, yr = а,*/1 + a'r+1xr+1 + ... + а£х" + и, И 2- _ _ _ _ х2 = Аг1Ру+ А22х2 +Ь2и, где ап а2, ... , аг—некоторые действительные постоянные. Рас- смотрим теперь гиперплоскость л, определяемую уравнением у1 = 0 в R". Тогда лхал, а значит, core (nJ с core (л). Возьмем точку Q, принадлежащую core (л). Существует решение, исходящее из точ- ки Q, соответствующее управлению «(0cQ, такое, что г/1 = 0, и значит, i/2 = 0; но тогда у2 = 0, и значит, t/3 = 0. Продолжая эти рассуждения, получим, что уг = 0, у2 = 0, у9 = 0,... ...,г/г = 0 для решения, исходящего из точки Q- Таким образом, Q С core (л2) и core (л) = core (лх) = core (л). Теорема доказана.
136 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Упражнения 1. Для автономной наблюдаемой системы с весовой функцией W (t) по- казать, что если на входе системы действует управлением^), гдем(/) = 0 при I < 0, то выходной сигнал системы при начальном состоянии хо = О будет иметь вид 00 ©(/) = J W (s)u(t — s)ds при t^Q. — оо 2. Построить линейную автономную систему, обладающую свойствами управляемости и наблюдаемости, и имеющую передаточную матричную функцию Г 1 "1 Z(p) = Р р*+р р D*— D 3. Показать, что для автономной наблюдаемой системы передаточная мат- ричная функция Z (р) может быть интерпретирована как амплитудно-частотная характеристика периодических колебаний, возникающих на выходе системы под действием синусоидального входного сигнала с единичной амплитудой. 4. Рассмотрим линейную систему в Rn: (J?) х=А (t)x+B(t)u с управлениями и (/) с: Rm и матрицами А (/), В (/), имеющими непрерывные элементы на всей оси /. Будем называть вполне управляемой системой, если для любой пары точек х0, х± из Rn и для любого начального момента /0 су- ществует управление u(t) на некотором интервале t< t19 переводящее систему из х9 в х1# В следующих упражнениях развивается теория управляемости для неав- тономных систем Для простоты будем обозначать начальное состояние х0 в момент времени /0, через {х0, /0}. (а) Пусть С (/0)—совокупность точек xQ£Rn таких, что из начального состояния {х0, /0} система может быть переведена в начало координат. Показать, что С (t0) есть линейное подпространство /?", и что существует момент времени /0 > /0, такой, что из любой точки {х0, /о}€{С(^о)> М си- стема может быть переведена в {О, /0}. (Ь) Из любой точки {х0, *о}€{С(*о), М система может быть переведена в любую точку {Xi, /1}£{С (/i), /i} для (с) будет вполне управляемой в том и только том случае, если каждое из множеств С (t0) совпадает с Rn. (d) Определим симметричную пол у определенную положительную матрицу tt V (<о. G) = J Ф (<о. О В (О В' (0 Ф' (<„ 0 dt, to гдеФ(/, /0)—фундаментальное матричное решение уравнения x~A(t)x, а Ф (^о» *о) = Л Показать, что преобразование W при — tQ переводит простран- ство Rn в область R [W (/0> ^о)] = С (/0)« Поэтому необходимым и достаточным
2.4 УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ 137 условием полной управляемости системы будет невырожденность матрицы №(/, при любом /об#1- (е) Говорят, что наблюдаемая система x=A(t)x-\-B(t)u, a) = H(t)x в пространстве Rn вполне наблюдаема при если двойственная к ней система (JT) х = — А' (/0—t)x— Н'(to—t)u, u = B' (tQ—t)x обладает свойством управляемости при i^tQ (т. е. С (/0) = /?”). Будем назы- вать полностью наблюдаемой, если это верно при всех Показать, используя эти определения, что автономная система будет полностью наблю- даемой тогда и только тогда, когда rank [Я', А'Н', ..., А'п-1Н'] = п. 5. Рассмотрим линейную систему вида (®) ^+<h (/) ...+«„(/) х = 6х (/) и<п~» + ...+Ьп (0 п, где коэффициенты Ьп (/) —гладкие функции,, принадлежащие С00 на всей оси t. Тогда, если заданы начальные условия х—х= ... = х(и“(а) (Ь) (с) * * * * * * * * 1) = 0 при 1 = 0 и входной сигнал u(t)(t^O) есть гладкая функция, то существует вполне определенное решение системы, или выходной сигнал х (/)• Рассмотрим наблюдаемую систему: (Jf) + x2 = x3 + G2(/)«, in-1 = x« + Gw_1(0tt, xn = — a„(t)x1—...—a1 (f)xn + Gn (/) и И (0 = X1. Пусть a0 s 1, Go = 0, а для 2 «С i «С n (а) Показать, что коэффициенты G,(/) можно вычислить, исключая после- довательно из 3? неизвестные х2, х8, ..., хп и требуя, чтобы оставшееся урав- нение для х1 совпадало с уравнением S). (Ь) Показать, что решение системы уравнений % щ — х1 (/) с начальной точкой хо = О, / — О и входным сигналом м (0) = н (0)= ... =ц<й*2> (0) = 0 в точности совпадает с соответствующим решением х(/) уравнения (с) Обычно утверждается, что система <=5? обладает свойством полной управ- ляемости, если 0„(/)^0. Исследовать управляемость системы xv^x*-{-tu9 х2 = и при этом условии. 6. Рассмотрим управляемую систему в J?2, определенную уравнением х=и с ограничением | и (f) |< 1. Пусть целевое множество G есть прямая х1+х2 = 0; определить core (G). 7. Рассмотрим множество всех автономных наблюдаемых систем в Rn с управлениями u£Rm и х==Лх4-Вн, (д = Нх. Показать, что типичная система (в смысле теоремы 11) будет вполне управляе- мой и вполне наблюдаемой.
138 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 2.5. Оптимальное по быстродействию управление для линейных систем В этом разделе мы докажем основные теоремы существования и единственности оптимального управления для линейных систем. Далее, мы установим принцип максимума, который определяет оптимальное управление как экстремальное управление, и исполь- зуем его для построения оптимального управления с помощью метода кривых переключения. В каждом случае мы вначале будем излагать общую теорию для систем, коэффициенты которых зави- сят от времени, а затем будем более подробно останавливаться на автономных системах, давая для них критерии, удобные для вычислений. Мы будем изучать задачу об оптимальном по быстродействию управлении для линейной системы в Rn: (2) х=А (0 х+В (0 и -f- v (I), где матрицы коэффициентов A(t), B(f) и v(t) интегрируемы на каждом конечном интервале оси t, в соответствии с предположе- нием первого раздела этой главы. Ограничивающее множество й будет неДустым компактным подмножеством в Rm, а целевое мно- жество G(t)—непустым компактным, непрерывно меняющимся во времени при Предполагается, что класс допустимых управлений Д состоит из всех измеримых вектор-функций и(/)сй, определенных на различных конечных промежутках времени т0 <7 Ti и переводящих систему из начального состояния х0 при t = r0 в целевое множество G(tj) при t = tv Теорема 17. Рассмотрим линейную управляемую систему в Rn: {2} х=Л(0х+В(0 + о(/) с компактным ограничивающим множеством Q<zRm, начальным состоянием x0£Rn и компактным целевым множеством G(t), не- прерывно меняющимся по времени на интервале To^Z^Tj. Если существует управление и (/)сй на т0 t ^т1; переводящее си- стему из состояния х0 в область G (^), то существует и опти- мальное по быстродействию управление и* (/) а й на т„ t Ti> переводящее систему из состояния х0 в область G (/*). Доказательство. Если х0€С(т0), то будем считать время управления равным нулю, т. е. /* = т0. Предположим теперь, что хо$С(то), и рассмотрим управления u(t) на интервале т0 t tlt где т0 < Zj^Tj. Рассмотрим множество достижимости К. (/J, соот- ветствующее начальной точке х9 в момент времени т0. Обозначим через t* точную нижнюю грань значений tlt таких, что множество К (fx) пересекается с G (Q. В силу непрерывной зависимости мно- жеств К (/J и G (/,) от времени t± совокупность моментов времени tlt таких, что пересечение множеств К (/х) и G (ZJ непусто, представ-
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 139 ляет собой замкнутое подмножество в R1. Поэтому есть первый момент времени, когда произошло пересечение К (/) и 6(f), и он определяет минимальное время управления. Пусть и* (0ей (т0 t t*)—некоторое управление, переводящее систему из х0 в К (Г) Л G (t*). Тогда и* (/) и является искомым оптималь- ным управлением. Теорема доказана. В доказанной выше теореме существования (теорема 17) мы отыскивали оптимальное по быстродействию управление и* (/)ей на интервале т0 < t < t*, переводящее систему из начального состоя- ния х0 при / = т0 в целевое множество G(f*). Если не фиксировать начального момента времени, а просто искать оптимальное управ- ление на некотором конечном интервале т0 tJ t t\ т, то можно доказать существование такого управления, рассматривая предел t*0 последовательности начальных моментов времени /ov) та- ких, что время управления /*('|)—?ov) монотонно убывает. Сформулированное ниже следствие дает критерий существова- ния оптимального управления для автономной системы. Следствие. Рассмотрим автономную линейную систему в R": (2} х=Ах+Ви с компактным ограничивающим множеством QczRm, начальным состоянием х0 и началом координат в качестве целевого множества системы. Предположим, что ((а) точка и = 0 лежит внутри £2; (Ь) система 2 обладает свойством управляемости; с) матрица А устойчива, т. е. каждое собственное значение X. матрицы А удовлетворяет условию Re X < 0. Тогда существует оптимальное по быстродействию управление u*(t)<zQ, переводящее систему из начального состояния х0 в начало координат на интер- вале времени 0 < / < Доказательство. В силу следствия 3 из теоремы 5 область нуль-управляемости для системы 2 совпадает со всем простран- ством R". Таким образом, существует управление м(/)с£2 на 0 t tt, переводящее систему из точки х0 в начало координат. По теореме 17 существует и оптимальное управление и* (t)cQ на переводящее систему из х0 в начало координат, что и требовалось доказать. Теорема доказана. Если т= 1, т. е. QaR1, то условие (с) можно заменить более слабым предположением: (с') все собственные значения X матрицы А удовлетворяют условию ReX^O (см. теорему 8). Для неавтономных линейных систем имеется полезный крите- рий глобальной устойчивости (см. упражнение 6), однако непо- средственно установить требуемую в нем управляемость системы бывает затруднительно.
140 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Следующая теорема, известная как принцип максимума для линейных систем, устанавливает важные экстремальные свойства оптимального управления. Фактически, при достаточно общих предположениях относительно нормальности системы, эти экстре- мальные свойства полностью определяют оптимальное управление. Во всех последующих теоремах этого раздела мы будем предпола- гать, что целевое множество системы есть компакт, непрерывно меняющийся во времени. Необходимо лишь предположить, что это множество замкнуто и меняется по времени непрерывно в том смысле, что его пересечение с любым постоянным компактным множеством меняется непрерывно. Теорема 18. Рассмотрим линейную систему в Rn: (J?) x=A(t)x+B(t)u + v(t) с компактным ограничивающим множеством QczRm, начальной точкой x0£Rn и непрерывно меняющимся на интервале т0 t компактным целевым множеством G(t). Пусть u*(t)cQ на интер- вале —оптимальное по быстродействию управление, пе- реводящее систему из состояния х0 в целевое множество G (t*) вдоль траектории Тогда управление u*(t) является экстремаль- ным, т.\е. т (/) = max л (/) В (/) и = л (t) В (t) и* (f), иеа а значит, М (f) = max т) (0 [Л (/)х* (t) 4- В (f) и 4- и (/)] = «ей = п (0 [ A (t) x*(t) + B (/) и* (0 4- V (0] почти всюду на интервале т0 Здесь под г] (/) понимается нетривиальное решение сопряженной системы п=—М(0, а Л (Г)—внешняя единичная нормаль к гиперплоскости, опорной для множества достижимости K(t*) в точке лежащей на границе дК (/*). Далее, если G(f) = G, т. е. целевое множество неизменно во вре- мени, то точка х* (/*) лежит на новой границе множества К (t*). В этом случае, если матричные функции 4(f), В (f) и v(t) непре- рывны, то нормаль л (f*) можно выбрать так, чтобы Af(f»)>0. Если, кроме того, множество G выпукло, то л (f*) можно выбрать так, чтобы удовлетворялось условие трансверсальности, а именно, чтобы вектор л (f‘) был нормалью к опорной гиперплоскости, раз- деляющей множества К (f*) и G.
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 141 Доказательство. Конечная точка траектории х*(Г) должна лежать на границе dK(t*). Действительно, если бы х*(/*) лежала внутри К (t*), то по теореме 1 некоторая открытая окрестность N точки х* (t*) лежала бы внутри К (/) для всех t, достаточно близких к t*. Но тогда из непрерывности G(t) следует, что G пересе- кается с N при некотором < Г, а это противоречит оптималь- ности и* (t). Следовательно, х*(Г)€М(**), а это означает, что «*(/)—экстремальное управление. По теореме 2 для экстремального управления u*(f) существует нетривиальное решение сопряженного уравнения rj (/), такое, что т(/) = П(0В(0«*(0 и м (0=Т) (О [Л (О X* (0+в (I) и* (0+V (0] почти всюду на интервале т0 < t < t*. В качестве т] (I) можно вы- брать любое решение системы т] = —т]Л (0, такое, что вектор г] (/*) является внешней нормалью к опорной гиперплоскости области К (/*) в точке х* (t*). Будем считать теперь G (/) = G постоянным непустым компакт- ным множеством в Rn. Тогда из оптимальности управления «*(/) по быстродействию следует, что х* (/*) С К (t*) Л G лежит на новой границе К (t*). Поскольку вектор-функция х? (/) может и не быть дифференцируемой при t = t*, то для доказательства того, что М(/*)>0, придется применить предельный переход. Для любого момента времени t найдется гиперплоскость л (/), лежащая посередине между К (0 и концом траектории х* (Г), иначе говоря, гиперплоскость, проходящая через середину кратчайшей хорды между х* (f) и К (/), и перпендикулярная к ней. Если вы- брать tx из интервала т0 < t*, то гиперплоскость л (/J будет разделять точки х*(/1) и х*(Г). Таким образом, в некоторый мо- мент > tlt составляющая скорости х* (?х) = А х* (?х) + 4- В (ii) и*(?х) -f-о (?х), направленная вдоль единичной нормали к) (/х) к гиперплоскости л(/х), смотрящей из полупространства, содер- жащего К(^), будет положительна. Выберем теперь ta из интер- вала ?х < ta < t*, и пусть ?2 > tt таково, что я (/2) х* (?2) > 0. Таким образом, определим последовательность моментов времени ^0 < ^1 < ^2 < • • • < ... < t*, для которых П (Q [Л (?„) х* (Q + В (<) U* (4) 4- V (Q] > 0. Воспользуемся теперь компактностью целевого множества Q и
142 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 сферы единичных направлений, чтобы выбрать подпоследователь- ность, которую мы по-прежнему будем обозначать tv, такую, что ’ существуют следующие пределы: limu*(Q = «£Q, lim я(Q = л(/*), lim 'n(Q = 1l(H- V СО V -> 00 V -+ 00 Тогда л(/*) является гиперплоскостью, опорной к K(t*) в точке с внешней единичной нормалью т] (t*). Из непрерывности матричных и векторных функций A(t), B(t), v(t) и х*(/) следует, что П (И [А (/*) х* (/*) + В (t*) и + v (/*)] > О, поэтому Л4(Н>0, что и требовалось. Если целевое множество G выпукло, то можно повторить все предыдущие рассуждения, считая n(t) плоскостью, перпендику- лярной к кратчайшей хорде между G и К (/) и делящей ее попо- лам. Тогда предельная гиперплоскость л (/*) и единичная нормаль »](/*) удовлетворяют условию трансверсальности. Для । автономных линейных систем принцип максимума может быть дополнен таким следствием: Следствие. Рассмотрим автономную линейную систему в Рп: (J?) х = Ax + Bu + v, с компактным ограничивающим множеством Qc Рт. Пусть u(t) ей —любое экстремальное управление, т.е. М (f) =з шах я (/) [Лх (t) + Ви 4-к] = т] (t) [Ах (f) + Ви (t) + о] «е й почти всюду для соответствующих решений x(t) и т) (/). Тогда вектор-функция M(t) постоянна на Доказательство. В силу леммы 2А приложения к на- стоящей главе вектор-функция М (t) абсолютно непрерывна и имеет производную почти всюду. Вычислим производную M (t) в некоторый момент t = ilt для которого она существует. Для t2 > имеем М (tJ-M (/х) > т) (f2) [Ax(t2) + Bu (/2)+u]-T) (it) [Ax(h)+Bu (tJ+v] ^2— A A в предположении, что вектор х (0 удовлетворяет системе 2? и век- тор-функция М (0 удовлетворяет принципу максимума в момент /г Прибавляя и вычитая в числителе правой части т, (/2) Ах (ZJ, а
2 5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 143 затем переходя к пределу при f2—находим (Q > П &) А 'х ft) + я (Q Ах ft) + л (Q [Ви (Q + v] И Л4ft) ^‘ЦА [Лх4-В« + п]—т)Д4х—[Bu+t>] = 0. Аналогичным вычислением можно показать, что М ft) 0, а сле- довательно, М (/) = 0 почти всюду на т0 < t < тх, т. е. функция М (t) постоянна. Теорема доказана. В следующей теореме доказывается, что при условиях нор- мальности, наложенных на систему, принцип максимума являет- ся как необходимым, так и достаточным условием оптимальности. Для этого достаточно показать, что оптимальное управление представляет собой единственное экстремальное управление, пере- водящее систему из состояния х0 в выпуклое целевое множество G и удовлетворяющее условиям трансверсальности. Используя результаты этой теоремы, мы получим возможность построить оптимальное управление как функцию положения х системы в пространстве R". Теорема 19. Рассмотрим линейную систему в R": (S) x=A(t)x+B(t)u + v(t), с компактным ограничивающим множеством QcRm, начальным состоянием системы x0£Rn и постоянным целевым множеством G. Пусть матричные и векторные функции A(t), B(t) и v(t) не- прерывны при и (а) задача (S, й, х0, т0, t) нормальна при t > т0; (b) G—компактное выпуклое множество в Rn; (с) для любой точки x(t)£G и момента времениТ^т0 имеет- ся управление и (t) а £2 на интервале / < оо с соответствую- щим решением х (t) с G, не экстремальное на любом интервале t <t Пусть щ (t) ей (т0 t и иг (/) сЙ (т0 t =С Q—экстре- мальные управления, удовлетворяющие условию трансверсальности, а именно, для соответствующих сопряженных решений (I) и т|2(/) векторы т|1 ft) и ц2 ft) являются внутренними единичными нормалями к гиперплоскостям, опорным в G. Тогда и Mi (0 — и2 (0 почти всюду при т0 t t*, и, следовательно, щ^) = и*(1) является единственным оптималь- ным по быстродействию управлением, переводящим систему из точки х0 в G.
144 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Доказательство. Если /х = ^2, то область достижимости пересекается с выпуклым множеством G в точках хх(/х) и х2(/х), конечных точках траекторий, соответствующих управле- ниям их(0 и «2 (0 соответственно. В силу нормальности системы область /С(/х) является строго выпуклой и не может содержать в своей границе никакого отрезка прямой. (Если /х=т0 или если множество й состоит из одной точки, то справедливость теоремы очевидна, и потому эти случаи опускаются). Однако в силу условия трансверсальности существует опорная гиперплоскость л, разделяющая множества К. (/х) и G. Если то отрезок, соединяющий эти точки, должен ле- жать в множестве К(/х)Лб. Следовательно, этот отрезок должен принадлежать гиперплоскости л, а значит, и множеству дК (/х). Но это противоречит строгой выпуклости К(/х), и следовательно, хх(^х)= х2(/х). А тогда из нормальности системы следует, что ых (/) = ы2 (t) почти всюду на интервале т0 t tv Предположим, что < /3- Тогда строго выпуклое множество К (t2) отделяется от множества G общей опорной гиперплоскостью. Однако из предположения (с) следует, что внутренность множества К (f) пересекается с G при всех t > tv и в частности, при t = /2. Но в этфм случае множество К(/2) не может иметь опорной ги- перплоскости, отделяющей его от G. Отсюда следует, что /х = /2. Итак, мы показали, что каждое экстремальное управление, удовлетворяющее условию трансверсальности, а в частности, и оптимальное управление u*(t) на интервале должно совпадать с их(/) почти всюду на = Теорема до- казана. Ниже мы приведем три следствия, в которых рассматриваются автономные линейные системы. Для таких систем предположения (а) и (с) можно заменить другими, легко проверяющимися гипо- тезами. Мы займемся также случаем, когда единственность опти- мального управления имеет место лишь при фиксированном на- чальном моменте времени, например, при 6<ZtsZt*, и даже при этом условии управление tf(t) определено лишь почти всюду. Следствие 1. Рассмотрим автономную линейную систе- му в Rn: (J?) x = Ax+Bu+v, с выпуклым многогранником QczRm в качестве ограничивающего множества и начальным состоянием x0$Rn. Предположим, что выполнено условие нормальности: (а) векторы Bw, ABw, ..., линейно независимы для любого ненулевого вектора w, направленного вдоль ребра много- гранника й (или просто вдоль й, если это отрезок). Тогда задача (S?, й, х0, 0, t) нормальна для всех t > 0. Если и, (0сй (0 t /х) есть экстремальное управление, то управле-
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 145 ние их(/) должно быть (почти всюду) кусочно-постоянной функ- цией, знамения которой лежат в вершинах многогранника й, и которая может иметь лишь конечное число разрывов, называемых переключениями. Если выполнено условие (а), и кроме того, (Ь) целевое множество G выпукло и компактно; _ (с) для любой точки x£G существует управление u(f)a.Q на интервале 0<Z/<oo, с соответствующей ему траекторией x(t)<zG, причем u(t) не является экстремальным управлением на открытом интервале 0 < / < fx, тогда любое экстремальное управление их(/)сй на интервале О t tx, переводящее систему из состояния хй в целевое мно- жество G и удовлетворяющее условию трансверсальности, должно совпадать почти всюду на с единственным оптималь- ным управлением Доказательство. Сначала мы должны показать, что из условия (а) следует нормальность задачи на любом интервале О t тг Предположим, что задача (S’, £2, х0, 0, тх) не являет- ся нормальной. Тогда существуют два различных управления «ДО и и2(0> такие, что т] (I) Виг (t) — я (/) Вщ (/) = шах т| (/) Ви ueQ почти всюду на 0<7^тх, где x\(t) = x\^~At, и на некотором ненулевом подынтервале S интервала Для каждого фиксированного момента t рассмотрим действи- тельную линейную функцию от и, Ft(u) — x\(t)Bu. Поскольку й есть выпуклый многогранник, то функция ГДм) достигает мак- симума при и g й, лежащем на той из граней й, где и постоян- но (здесь под гранью многогранника понимается либо пересе- чение опорной гиперплоскости с дй либо само Й). Таким обра- зом, в каждый момент t С S линейная функция Ft (и) принимает свое максимальное значение на некотором (возможно, на не- скольких) ребре et. Поскольку Й имеет конечное число ребер, то существует такой положительный промежуток времени 5хсЗ, в течение которого функция Ft (и) принимает максимальное значение, например, на ребре ег. Пусть о>=#0 — вектор, парал- лельный ребру тогда т]ое_<лВа» = О при Так как левая часть дифференцируема всюду, за исключением, быть может, счетного множества изолированных точек в St, то —W™ABw = 0 почти всюду на Sr Повторяя этот процесс, находим, что т]ое~tABw = 0, т]ое-<лЛВ«> = О, ..., r\ne~tAAn~,Bw~ 0.
146 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В . ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Но отсюда следует, что векторы Bw, ABw, A2Bw, ..., An~1Bw все ортогональны к вектору т1ве_м#:О, а значит, они линейно зависимы. Это противоречит предположению (а); отсюда заключаем, что рассматриваемая задача нормальна. Переопределим экстремальное управление щ(Г) на множестве меры нуль так, чтобы т] (0 Вщ (0 = max т] (0 Ви и € Q всюду на 0 t tv Тогда значения щ (0 будут почти всегда ле - жать в вершинах многогранника Q, поскольку максимум Ft(u) достигается лишь в вершинах в силу нормальности системы. Совокупность моментов t, когда Ft(u) достигает максимума на некоторой вершине, представляет собой открытое множество в R1, в то время как дополнение его, включающее в себя множество переключений, есть замкнутое множество. Если щ (0 имеет бес- конечное число разрывов, то выражение r| (Q Ви достигает мак- симума на целом ребре е многогранника й,в каждый из бесконеч- ного числа моментов времени {0}. Отсюда следует, что т] (0) Bw = О, где w—единичный вектор, параллельный ребру е. Поскольку т) (0 Bw является действительной аналитической функцией с бес- конечным числом нулей, то отсюда можно заключить, что г|(0Bw = 0 для всех t из интервала О^/^0. Но тогда г|ое_<лВи> = О, r)oe_tAABw = 0, ..., т]ое-/лДп-1Вда = О, что противоречит условию нормальности. Итак, у экстремального управления Uj(0 на интервале О^/^0 может быть лишь ко- нечное число переключений. Из предположений (Ь) и (с) следует, что ti — t* и (0 = и* (0 почти всюду на 0 t 0 = t*, как и в теореме 19, что и требовалось доказать. Следующее утверждение вытекает непосредственно из след- ствия 1, но мы сформулируем его отдельно в силу его важности для приложений. Следствие 2. Рассмотрим автономную линейную систему в Rn: х = Ах + Ви + и, с т-мерным кубом | и^ | 1 в качестве ограничивающего множест- ва й. Пусть выполнено условие нормальности: Bw, ABw, ... ..., An~1Bw линейно независимы при любом единичном векторе w, направленном вдоль ребра й, или вдоль й, при т = 1. Тогда любое экстремальное управление u(f)cCi на интервале O^/<i0 будет иметь вид jz(0 = sgn(T](0 В)' (почти всюду),
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 147 где x\(t) — ^e~tA—нетривиальное сопряженное решение. Таким образом, u(t) представляет собой релейное управление, т. е. и (t) кусочно-постоянно и каждая компонента вектора и (t) при- нимает^лишь значения ±1, и имеет конечное число переключений. Требование, чтобы векторы Bw, ABw, ..., An~1Bw были линейно независимыми при любом единичном векторе w, параллельном ребру выпуклого многогранника Q (либо самому Q, если это отрезок), называется условием нормальности. Если (J?) х = Ах-\-Ви, где wcQ удовлетворяет условию нормальности, то система 2 обладает свойством управляемости. Действительно, из существования хотя бы одного единичного вектора w, такого, что векторы Bw, ABw, ..., An~1Bw линейно независимы, следует, что векторы [В, АВ.....ЛП_1В] j = l, 2, ..., п линейно независимы, где через w(l> обозначены n/n-мерные векто- ры-столбцы, у которых на местах с номерами (i—1)/п+1, ..., im стоят компоненты вектора w, а на остальных местах—нули. Если т = \, т. е. Q есть отрезок оси R1, то условие нормально- сти является необходимым и достаточным условием управляемо- сти системы J-?. Следствие 3. Рассмотрим автономную линейную систему в R": (.S?) х=Ах-}-Ви, с многогранником в качестве ограничивающего множества QcRm, содержащим внутри себя упоавление и = 0, и началом координат х = 0 в качестве целевого множества G. Предположим, что система S’ удовлетворяет условию нор- мальности. Тогда для любой точки х9 из области нуль-управ- ляемости б существует единственное экстремальное управление u*(f), переводящее систему из х0 в начало координат, и это управление u*(f) будет оптимальным. Если матрица А устойчива, то б = Rn, и поэтому из любой точки x0£Rn систему можно перевести в начало координат с помощью единственного экстремального, а именно, оптимального управления. Доказательство. Существование единственного экстре- мального управления, переводящего систему из х0 в начало ко- ординат, следует из теоремы 17 и следствия 1. Утверждение, что б = Rn, если А устойчива, верно в силу следствия 3 тео- ремы 5.
148 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Теперь мы можем использовать теорему 19 для синтеза опти- мального управления с помощью кривых переключения и попятного движения от целевого множества (для автономных управляемых систем, подобных тем, которые рассматривались в следствии 1). Для синтеза оптимального управления надо проделать следующее: 1. Рассмотреть систему дифференциальных уравнений нашей задачи и сопряженную систему с обратным отсчетом времени х = —Ax—Bu(t)—v, т| = 1]Л, с начальными условиями х(0)адСи с вектором т|(0)—в качестве внутренней единичной нормали к опорной гиперплоскости мно- жества G в точке х(0). Используются лишь те начальные усло- вия, для которых М es max г] (0) [ Ах (0) + Ви + о] 0. Управле- «ей ние u(t) определяется из принципа максимума т] (t) Bu(f) = max т] (t) Ви. ueQ 2. Найти единственные начальные условия (х(0), т](0)), кото- рым соответствует решение x(t), проходящее через началь- ную точку х (0) в некоторый момент /* > 0. 3. Снова вернуться к прежнему отсчету времени и положить х*(0 = х(Г—0 и т1*(0 = П(^—0 на Тогда управление u*(f), определяемое из соотно- шения Я* (0 Bi? (t) = max if (/) Ви на 0^ будет оптимальным управлением, а х* (/)—соответствующей ему траекторией, по которой система переходит из начальной точки х9 в G. Вычисления на этапах (1) и (2) могут выполняться на анало- говых или цифровых вычислительных машинах, если заданы уравнения системы и ограничения. Тогда для каждой начальной точки х9 £ /?“ соответствующее оптимальное управление может сохраняться в запоминающем устройстве машины для дальней- шего использования. Для запоминания информации об оптималь- ном управлении удобно пользоваться описанием кривой переклю- чений. Кривая переключений W в Rn—G состоит из всех тех точек x(t), которые соответствуют моментам, когда управлением (t) пре- терпевает разрыв. Подразумевается, что т] (/) Ви (/) — max ц (/) Ви. UEQ Здесь x(t) и т](0—экстремальные решения, удовлетворяющие соответствующим условиям трансверсальности в G, описанным
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 149 в п. 1. Для случая т = 1, когда Q представляет собой отрезок кривая переключений имеет сравнительно простой вид— это некоторая кривая на фазовой плоскости (как показано в примерах главы 1), или гиперповерхность в пространстве боль- шей размерности Rn. В этом случае кривая W разделяет R"—G на два открытых множества: Л4+, на котором и 7И_, на котором и——1. Синтезирующая функция ч / +1 для х£М+, У (х) = < , _ .. ( —1 для х£Л4_ и дает нам искомый синтез оптимального управления для си- стемы х— Дх4-ВЧг (х)4-о. Если m> 1 и Q есть m-мерный куб|и11< 1 в Rm, то удобно рассматривать кривую переключений отдельно для каждой компо- ненты экстремального управления u(0=sgn(r|(/)B)'. Изложение общих свойств таких кривых переключений является слишком громоздкой задачей. Однако в следующих двух приме- рах подробно показан этот важный метод синтеза оптимальных управлений. Пример 1. Рассмотрим автономную управляемую систему в R*-. хг = х2 + и, х2 — —х2 4- и, с ограничивающим множеством Q: | и | 1 в R1. Мы хотим син- тезировать оптимальное по быстродействию управление, приводя- щее систему на прямую х1 = 0, с последующим удерживанием ее на этой прямой. Таким образом, целевым множеством системы будет G = core{x1 = 0}. Если траектория системы лежит на прямой х1 = 0, то х1 (/) = О, х2(0 = —u(t) и, значит, |х2|<1. Обратно, из любой точки xj = 0, | х21 1 система может быть переведена в область |х2|<1 с помощью управления u(t) = —x$e~2t для t^Q. Таким образом, G = {x1 = 0, |х2|< 1}. Заметим, что G—компактное вы- пуклое множество в R2; кроме того, систему можно из любой точки (xj, Хо) С G перевести в G с помощью не экстремального управления «(0 = —xfy~2i (f^O). Проверяем, что условие нор- мальности для матриц В =
150 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 и вектора &у=»1, направленного вдоль Q, выполняется; тем самым система 3 вполне управляема, и по теореме 8 областью нуль- управляемости для нее будет все пространство /?*. Тогда из теоремы 17 и следствия 1 из теоремы 19 вытекает, что из любого началь- ного состояния система может быть переведена в область G с по- мощью единственного экстремального управления, удовлетворяюще- го условию трансверсальности, а именно, оптимального упра- вления. Мы воспользуемся методом «попятного» движения от целевого множества. Запишем систему 3 и сопряженную систему при об- ратном отсчете времени: хг =—х*—и и u = sgn(t]1-|-T|a), ? = Х2 — и, П1 = 0, П, = П1 — Па- Заметим, что вдоль решения сопряженной системы, где ^ = 0, и •П1 + Па=П1 — Йа=— П1 — Па. ТЭК ЧТО Г]1-|-Т]2 = C1-j-C2e-/. Таким образом, экстремальное управление u(t) может иметь не более одного переключения на 0 t < оо. Рассмотрим все экст- ремальные управления, удовлетворяющие условию трансверсаль- ности, и попытаемся построить кривую переключений W в R2—G. Возьмем начальные условия xJ = O, |х?| < 1, Пю = ± Ь п20 = 0. Тогда T)a + 11i = ±2Te~t и, значит, такие управления вовсе не имеют переключений. Возьмем значение и— — 1, и определим кривую Г_ = {х1 = — 2e‘+2f+2, № = 2ef—1, f>0}, исходящую из точки xJ = O, xg=4~l. Покажем, что все точки кривой Г_ принадлежат кривой переключений W. Экстремаль с начальными условиями xi==0, 4-1, i]lo==cos0, T)M = sin0 при любом фиксированном 0 из промежутка л 0 2л совпадает с Г_ до тех пор, пока Hi (0 + П» (0 < 0- Но tli(O + T12(O = (sin9—cos0)e~* + 2cos0 при Таким образом, для каждого 0 из интервала л 0 ^Зл/2 находим u(0 = sign(T)x(0+ns(0) = —1 ПРИ Для каждого 0 из интервала Зл/2 < 0 < 7л/4 функция (sin 0 — — cos0) e“* + 2cos0 имеет лишь один нуль на положительной полуоси (0) > 0. Легко показать, что функция (0) монотонно убывает от + оо до 0 при возрастании 0. Таким образом, сущест- вуют экстремальные управления, удовлетворяющие условию транс- версальности в G, имеющие переключение с и =» -f-1 на и = — 1 в заранее заданной точке кривой Г_, и далее ведущие систему вдоль траектории Г_ в целевое множество G.
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 151 Определим Г+ как кривую, симметричную кривой Г_ относи- тельно начала координат. Тогда получаем кривую переключения № = Г+иГ_. Заметим, что соответствующая кривая x2 = W(x1) разбивает множество R*—G на две части. Определим синтезирую- щую функцию — 1 для x*>W(x1) и на х* = Г_(х1), 4-1 для х* < W (х1) и на х’ = Г+ (х1). ^(х1, х2) = Оптимальные траектории, соответствующие различным начальным состояниям из R*—G, изо- бражены на рис. 2.1. Пример 2. Рассмот- рим автономную управляе- мую систему в R3 X = и или (J?) х1 = х2, х2 = х9, х’= и, Рис. 2.1. Кривая переключения и синтез опти- мальных управлений для системы хг=х2 + и, х*=-х*+и, целевое множество GJ х»=0, 1. с ограничивающим множе- ством Q:|и| 1 в R1. Тре- буется найти оптимальное по быстродействию управ- ление, переводящее систему в начало координат. Теоре- мы 8 и 17 гарантируют существование такого управления для любого начального состояния из R3, а следствие 3 из теоремы 19 показывает, что это опти- мальное управление и есть единственное экстремальное управле- ние, переводящее систему в начало координат. Для построения кривой переключений снова применим метод «попятного» движения. Запишем систему «S’ и сопряженную сис- тему при обратном отсчете времени: х1 = —х2, х2 = —х9, х8 = —и, где и — sgn т]8 (/), т]1 = 0, п2 = т|1, Пз = П2- Заметим, что т]3 = 0, так что т]8(/) = Лзо 4-П20 4* Пю **/2; поэтому каждое экстремальное управление имеет не более двух переклю- чений, соответствующих нулям функции т|в (/), расположенным на положительной полуоси. Определим кривую Г+ как траекторию, /3 исходящую из начала координат при и = 41, т. е. х1 = —g-,
152 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 х» = -^-, х8 = —t при t > 0. Поскольку начальные условия т]10, ц20, ц30 можно выбрать так, чтобы т]3 (t) > 0 при 0 < t < tlt Яз (0 < 0 при tx<t < < 4-оо и Яз (О > О ПРИ t > произвольных О < ti < <4-00, то каждая точка кривой Г+ может оказаться точкой переключения управления с и — — 1 на управление и = 4-1 для экстремального управления, переводящего систему в начало координат вдоль траектории Г+. Для каждой точки Г+, определяемой некоторым значением t > 0, вычисляем решения системы дифференциальных уравнений с обратным отсчетом времени, соответствующие значению управ- ления и — — 1. Обозначая независимую переменную через s (s > 0), запишем эти решения в виде , s8 s2/ st» I» . s2 ... t» , , х ~ 6 2 2 6 ’ Х ~ 2 ++ 2 ’ х ~s Для t > 0, s О эти уравнения определяют поверхность переклю- чений 1F_, содержащую кривую переключений Г+. Определим теперь кривую Г_ как траекторию, исходящую из начала ^координат и соответствующую управлению и= — 1: /3 /2 Xх = -Г-, х8 = —=-, x3 = t При t > 0. О £ Теперь интегрируем нашу систему с обратным отсчетом времени, используя в качестве начальной точки любую точку Г_, а в ка- честве управления и — 4-1. Тогда получим поверхность переклю- чений tF+: , I» . t»s . is» s» . I» . , s2 . . „ * — 6 + 2 + 2 6’ X ~ 2 2 ’ X ~ t S при s > 0,f > 0. Полная поверхность переключений W = W_ U1F+ будет содержать полную кривую переключений Г = Г+иГ_. Пока- жем, что поверхность W разбивает пространство R3, а кривая Г разбивает поверхность W (в Г включается начало координат). Действительно, W есть однозначная функция^переменных (хх, х8). Чтобы проверить это, возьмем произвольную точку (х1, х8) и убе- димся, что единственное значение параметров (s, t) определяет точку (х1, х2, х8) на поверхности W. На WL имеем хх = ^—s/2 (s>0, t>Q), а на W+ xx = ^4-s/2 (s>0, />0). Таким образом, если х = (х8)8/6, то s = 0. Если х1 <0, то следует
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 153 выбрать точку на Г_, где х2 = (х8)а/2; в противном случае выби- раем точку на Г+, где х2 =—(х8)8/2. Если х1 < (х3)3/6, то ищем точку на если же х1 > (х3)8/6, то на W+. Пусть, например, х1 < (х8)3/6, тогда ищем корень t > 0 уравнения s^+jx1—<^]=0 или (х8 + 0^+[х1—-^]=0. Поскольку левая часть этого уравнения представляет собой мно- гочлен третьей степени от t и в точке f = 0 касательная к его графику горизонтальна, то легко видеть, что этот многочлен имеет лишь один положительный корень. Аналогичным образом можно показать, что и на W+ имеется лишь одна точка, в которой х1 > (х3)8/6. Таким образом, поверхность W разбивает пространство R3 на две области: М+, где х2—>4-°°. и Л4_, гдех2—>—оо. Поскольку кривая Г_ соответствует границе Wгде параметры принимают значения t = Q, s > О и, аналогично, Г+ соответствует границе IF+, то ясно, что Г разбивает поверхность W на две части. Если начальная точка (xj, xj, х?) лежит в М+, то мы приме- няем управление и = + 1 > пока траектория не достигнет W+. Затем производим переключение, и используем управление и = — 1, пока не достигнем Г+, затеи переключаемся на и — 4-1, и вдоль Г+ пе- реводим систему в начало координат. Если начальная точка при- надлежит 7И_, то всюду в переключениях будут обратные знаки. Таким образом, синтезирующая функция имеет вид V (х1, х2, х8)= < + 1 в М+, — 1 в М_, — 1 на W_’— Г+, + 1 на W+—Г_, 4-1 на Г+, — 1 на Г_. ПримерЗ. Рассмотрим автономную управляемую систему в Rn, определяемую уравнением x(n,+a1x(B-1)-}-aax<"-2)+ ... 4-а„х=и, с ограничением на управления | и | 1 в R1. Требуется перевести систему из начального состояния (х0, х{,п, ..., xj”-1’) в х = 0 за минимальное время и в дальнейшем удерживать ее в этом состоя- нии. Соответствующая система дифференциальных уравнений в R* будет иметь вид (-2Э х = Ах 4- Ьи,
154 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 где ” 0 1 0 0... 0“ 1 ” 0 1 0 0 1 0 ... 0 0 Л = , 6 = . . . 0 0 0 0... 1 0 _~~ап —ап-1 ... —ах_ 1 1 _ 1 _ Легко видеть, что множество соге(х1 = 0) есть начало координат; оно является целевым множеством нашей задачи. Система 2 вполне управляема, а следовательно, нормальна. В этом случае область нуль-управляемости % является открытым связным под- множеством Rn и мы предположим, что начальная точка хоё#. Тогда существует единственное экстремальное управление, пере- водящее систему из х0 в начало координат, и оно является опти- мальным управлением и* (t) на интервале с соответст- вующим решением х* (/) и сопряженным решением ч* (0- Здесь под ч* (/) понимается нетривиальное решение системы Ч= — М или ч' = — Я'ч', где Ч = (П1. Чя> •••» П»)- Имеем * 41=а„Чя, %= — П1+а»-14», п»=— Ля-1+О1Чл. Последовательно исключая переменные, получим дифференциальное уравнение относительно чп(0: —«хПл —а.С’э> +•••+(— 1 )"ад» = 0. Оптимальное управление удовлетворяет принципу максимума Ч* (f)bu* [t) = max 4* (0 bu, так что u*(t) = sgn4n(0 почти всюду на интервале Заметим, однако, что при рассмотрении общего вида системы n-го порядка практическое применение метода кривых переклю- чений и изучение геометрии множества Ч? сопряженно с большим трудностями. Эти трудности в исследовании кривых переключений и запоми- нании их описаний (в вычислительных устройствах) указывают на нецелесообразность применения описанных методов для управляе- мых систем порядка выше третьего. В приложении А мы опишем метод, позволяющий непосредственно определять оптимальное управление системы без рассмотрения этих геометрических тонкостей.
2.5 оптимальное по выстреДйЙ519ЯХ> управление 155 Однако, хотя в общем случае полное описание кривой пере- ключений для систем высокого порядка весьма затруднительно, существуют два важных случая, для которых легко установить некоторые свойства, относящиеся к переключениям управлений системы. Теорема 20. Рассмотрим автономную линейную систему в R": (£?') х=Ах+Ьи, с ограничивающим множеством й:|ы|^1 в R1. Предположим, что система вполне управляема, а значит, нормальна. Если все собственные значения матрицы А действительны, то любое экстремальное управление имеет не более п— 1 переключе- ний на полуоси 0^/ < оо. Если все собственные значения матрицы А имеют ненулевую мнимую часть, то любое экстремальное управление имеет беско- нечное число переключений на полуоси 0^/< оо. Таким образом, для любого положительного числа N > 0 существует такое началь- ное состояние х0 С R”, для которого соответствующее оптимальное управление, переводящее систему из х„ в начало координат, имеет более N переключений. Доказательство. Поскольку система S вполне управляе- ма, то по теореме 7 можно ввести такую систему координат, в которой матрицы коэффициентов системы примут такой вид: " 0 1 0 0 ... О' i 0 - 0 0 1 0 ... 0 0 А = • • • • • , ь = • 0 6 0 6 ... 1 6 1 ап ^я-1 . . . 1 1 _ 1J Тогда систему S можно описать с помощью одного уравнения n-го порядка: xw4-а1х<я-1>-+-... -|-o„x=u, |ы|<1. Экстремальное управление u(t) имеет вид u(0 = sgmi(0. где т] (t) есть последняя компонента нетривиального решения системы
156 ОПТИМАЛЬНЕЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Собственные значения {Хх, Х2, 1Г} матрицы —А' равняются собственным значениям матрицы А, взятым с обратными знаками, следовательно, они будут действительными или комплексными одновременно с собственными значениями матрицы А. Предположим, что все собственные значения матрицы А дейст- вительны. Тогда т| (/) — Рх (/) eKit 4-... + Pr(t) е***, где действительные многочлены Pj(t) имеют степени —1, а п.]—кратность собственного значения Ху (1 j г). Но пх 4- и24-... ... 4- пг = п и в силу известного свойства экспоненциальных многочленов (см. ниже упражнение 13) функция т] (t) может иметь не более п—1 действительных нулей (—оо < t < оо). Отсюда следует, что экстремальное управление u(t) имеет не более п—1 переключения на 0 t < оо. Предположим теперь, что все собственные значения матрицы А имеют ненулевые мнимые части, а значит, то же самое верно и для собственных значений Xy=ay4-iPy матрицы—Д'. В этом случае П (0=[Рх (0 cos рх (О 4- Qi (0 sin р^] 4- • • • ' ... 4-& [Р, (0 cos Р/ 4- (0 sin pr /], где Рх(0» Qi(0» •••• Рг(0» Qr(0—действительные многочлены, не все равные нулю. Для простоты обозначим через ах наиболь- шее из чисел ах, а2, .... аг, входящих с ненулевыми коэффициен. тами в выражение для я (0- Тогда Я(/) 2 (ayCosPy/4-6ySinP/)4-P(0- Здесь ^0 и тригонометрическая сумма Т(0 = 3 (Д/cosРу/4-6/SinР/) не равняется тождественно нулю. Остаточный член Р (/) таков, что lim e-»*4-feR(t) = 0. t -* 00 Заметим, что Т (t) является конечной тригонометрической сум- мой с нулевым средним значением на интервале 0 < оо. Кроме того, для некоторого 8 > 0 найдется такое L > 0, что сумма Т (I) принимает значения, большие, чем 8 и меньшие, чем —в, на каж- дом интервале длины L. (Это следует из теории почти-периоди- ческих функций, или из непосредственного изучения выражения Пусть Г>0 таково, что
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 157 для Тогда функция (/) = т (/)+е~^Ч~к R (t) должна иметь нуль в каждом интервале t tr + L при > t. Тем самым функция я (0 имеет бесконечное число нулей, а управле- ние u(t) имеет бесконечное число переключений на интервале О «С t < 00 • Поскольку оптимальное управление для заданного начального состояния х0 получается из экстремального управления с помощью попятного движения из начала координат, то существуют такие точки х0 g Rn, для которых оптимальное управление и* (t) на ин- тервале 0 t t* имеет число переключений, большее наперед заданного числа N. Теорема доказана. Другой метод синтеза оптимального управления основан на применении изохронных гиперповерхностей в Rn. Пусть Т (х)—ми- нимальное время, требуемое для перевода системы из начального состояния х в целевое множество; тогда геометрическое место точек в R", для которых T(x) = t при />0, называется изохронной гиперповерхностью, отвечающей значению параметра t. Вдоль оптимальной траектории х*(0 на интервале имеем Т(х*(0) = -< VT(x*(/)) x*(Z) = —1 всюду, где существуют вектор-строка vT«=gradT и производная х*(0. Ниже мы покажем, что вектор—VT (х) можно использовать вместо сопряженного решения я (О ПРИ синтезе оптимального управле- ния u*(t). Чтобы упростить доказательство этого факта, будем предполагать, что целевое множество G есть начало координат, и что существует единственное экстремальное управление, перево- дящее систему из начального состояния в начало координат, как в следствии 3 из теоремы 19. Теорема 21. Рассмотрим автономную линейную систему в R": (3?) х= Ах+Ви, с компактным ограничивающим множеством QcRm, содержащим внутри себя точку и = 0. Предположим, что система {.S?, £2} нор- мальна на любом интервале, а область нуль-управляемости совпа- дает со всем пространством Rn. Пусть Т(х)—минимальное время, требуемое для перевода системы из начального состояния x£Rn в начало координат. Тогда Т (х) непрерывна в Rn, а изохронные
158 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 гиперповерхности Т ( x) — t для каждого t > О образуют семейство замкнутых выпуклых гиперповерхностей, моно- тонно и неограниченно ^раздувающихся* с ростом t. Доказательство. Рассмотрим множество достижимости для tt > 0, начального состояния хо=*О и управлений из Q. Каждое из множеств /С (/J является компактным строго выпук- лым, причем для (см. замечания после теоремы 3, а также упражнение 4 к разделу 3). Мы докажем, что геометрическое место точек, для которых Т (х) = t±, в точности совпадает с границей множества К (it) в Rn. Пусть хх С дК (0) так, что существует лишь одно экстремальное управление щ (0 на интервале 0 t < tt, переводящее систему из состояния х0 в состояние хх. Поскольку —0 есть оптимальное управление, переводящее систему из хх в х0, то Т (xj = tt. Обратно, точка х*, для которой Т (х*) = tlt является концом оптимальной траектории х* (0, по которой система переходит из х0 в х* (0) = х*. Таким образом, точка х* принадлежит границе множества К(1д, и мы показали, что изохронная поверхность Т (х) = есть не что иное, как замкнутая выпуклая граница множества К(0) в R". Заметим, что изохронные гиперповерхности семейства Т (х) = для 0 > О не пересекаются, и каждая из них замыкается вокруг начала ко- ординат. Кроме того, эти гиперповерхности монотонно и неогра- ниченно расширяются с ростом от 0 до оо, поскольку также меняются множества К(0). Для доказательства непрерывности вектор-функции Т (х) в R" положим Т (xj ss: ti. Далее, для некоторого е > О рассмотрим слой, заключенный между гиперповерхностями T(x) = t1—ей Т (х) — = 04-е. (Если х1 = 0, то Т(х1) = 0 и рассуждения не меняются.) Тогда для достаточно малого б > 0 окрестность | х—хх | < б лежит внутри этого слоя, а значит, | Т (х)—0 | < е. Таким образом, Т (х) непрерывна в точке хп а следовательно, в каждой точке Rn. Тео- рема доказана. Следствие. Предположим, что Т(х)^С1 в некотором от- крытом подмножестве 6cRn, не пересекающемся с кривой пере- ключений автономной системы {2} х=Ах-{-Ви. Тогда тах[—v?(х)] [Ax-j-Bu] = 1 в 6. и € Q Если, кроме того, ограничивающее множество Q есть т-мерный
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 159 куб | и11 1, то для каждой точки х С 6 оптимальное управление имеет значение Т (х), где T(x) = -sgn[VT(x)B]. Доказательство. Пусть x*(t) —оптимальная траектория, по которой движется система, переходя из точки хг С 6 в начало координат под воздействием управления u*(t). Тогда Т(х*(0) = -< и, значит, V Т (х* (0) х* (0 = V Т (х* (0) [ Ах* (0 + Ви* (0 ] = — 1 при и х*(0с6. Таким образом, вектор V? (хх) на мно- жестве 6 не обращается в нуль, а значит, определяет вектор внешней нормали к гиперплоскости, касательной к изохронной гиперповерхности в точке хг. Отсюда ясно, что вектор VT (хг) отличается лишь на положительный множитель от вектора г] (/*) сопряженного решения, соответствующего оптимальному управле- нию u*(t*—t), которое переводит систему из точки хо = 0 в точку хх. Тогда вектор—Ви*(0) имеет максимальную возможную проекцию на направление ^Т(хг), или — VT (хх) Ви* (0) = max [— VT (хх) Ви]. ueQ Отсюда шах {— V? (хх) [Лхх + Ви]} = — VT (хх) [4х + Ви* (0)] = 1. Поэтому в каждой точке х£в имеем max [—VT (х)] [Ax-|-Bu] = 1. ueQ Наконец, рассмотрим в качестве Q /n-мерный куб|и7’|^1. Тогда оптимальное управление, переводящее систему из точки хо = 0 в точку ххСб, будет иметь вид и* (/*— 0 = sgn [—ц (0 В] и поэтому в каждой точке хх£б 44x0 = sgn[—n(/*)B] = -sgn[VT(xi) В], что и требовалось доказать- Из этого следствия вытекает метод синтеза оптимального управления u*(t), использующий изохронную функцию Т(х). Сформулируем его следующим образом: 1. Найти явно функцию Т'(х), решив систему дифференциаль- ных уравнений в частных производных: У>Т[Лх -|- В] = —1 в Л4+, У Т[Ах — В] = — 1 в Af_.
160 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ.2 Здесь под й понимается интервал | и | 1, а М + и —области, где оптимальное управление принимает значения соответственно j-1 и — 1. 2. Определить синтезирующую функцию Т (х): Т(х) = — sgn [VT (х) В] для x^Af+(jAf_. Этот метод, однако, содержит все те трудности, с которыми мы сталкивались в методе кривых переключений. Действительно, ведь для определения областей М+ и Af_ необходимо найти кривую переключений. Затем придется решать задачу Коши для уравне- ний в частных производных относительно Т (х), где краевые усло- вия есть значения функции Т (х), вычисленные на кривой пере- ключений. Оптимальные траектории являются характеристиками этих уравнений в частных производных, поэтому для вычисле- ния Т (х) должны быть вычислены и оптимальные траектории. Метод изохронных поверхностей интересен теоретически; иногда он представляет интерес и с вычислительной точки зрения, однако было бы затруднительно дать достаточно полное и общее изложение этого метода. Мы завершим эту главу об управлении линейными системами доказательством того факта, что минимальное оптимальное время t* и оптиккльное управление «*(/) в некотором смысле непрерывно зависят от всех условий задачи управления {.S?, й, х0, tn, G}. Эта непрерывная зависимость позволяет заменять сложные физические задачи их идеализированными математическими моделями, и по- лучать при этом достаточно близкие к действительности прибли- женные оптимальные управления. Для простоты будем рассматри- вать автономные системы с началом координат в качестве целевого множества G и многогранную область й в качестве ограничиваю- щего множества. Поскольку ребра многогранника й играют важ- ную роль в условии нормальности, мы обозначим через Eq мно- жество всех единичных векторов в Rm, параллельных ребрам й (или самому й, если это отрезок). Теорема 22. Рассмотрим автономную линейную систему в Rn: (<?} х^Ах-\-Ви, с выпуклым ограничивающим многогранником QcRm, содержащим и = 0 внутри себя. Пусть выполняется условие нормальности: векторы Bw, ABw, ..., An~l Bw линейно незавцсимы для любого w £ Eq. Пусть далее х0—начальная точка из области % нуль-управляемости, а и* (f)c£i (0 /*) — оптимальное управление, переводящее систему из состояния х0 в начало координат вдоль траектории х* (/). Рассмотрим возмущенную автономную систему в R": (^) х = Ах+Ёи,
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 161 с выпуклым ограничивающим многогранником и начальным состоянием х0. Тогда для любого е > 0 существует такое S > О, что из неравенства | А—Л| + |В—В|-j-|x0—*ol + dist(Q, й) + dist(Eq, Eq) <6 следует, что точка х0 лежит в области нуль-управляемости % системы Д, что система {Д, й, х9} нормальна, и что сущест- вует единственное оптимальное управление u*(t)c& на интервале переводящее систему из состояния х0 в начало коорди- нат вдоль траектории х* (/). Далее, ?|<е и |х*(/)—х*(0|<8 на ^т*=тш[/*, ?*], т* $ I и* (t) — U* (/) I dt < 8. о Доказательство. Поскольку всякий определитель непре- рывно зависит от своих элементов, то существует > 0, такое, что из неравенства Д — Д1А—А | + |В—В | +1 х„— х01 + dist (Й, й) + + dist (Eq, Eq) <6x следует, что det[Bo>, ABw,.. .,A"-1Bffi>]5^0 для w£Eq. Выберем теперь > 0 столь малым, чтобы существовала компакт- ная кубическая окрестность N управления и = 0, лежащая вну- три всех тех й, для которых dist (й, й) бг Мы будем рассма- тривать лишь те задачи {Д, Й, х0}, для которых \Д— каждая из них является нормальной, вполне управляемой, и имеет в качестве области нуль-управляемости некоторое открытое мно- жество Возьмем любое 8 из интервала 0 < 8 < 1 и пусть $ (е/2, N)czRn есть множество тех точек, в которые система может быть переве- дена из начала координат за время 8/2 с помощью управлений и(/)аМ вдоль траекторий, являющихся решениями системы Д. В силу управляемости системы Д каждое из множеств ^(в/2,М) должно содержать вписанный шар радиуса г > 0 с центром в на- чале координат. Небольшое изменение коэффициентов Д приводит к некоторому изменению множества % (s/2, N), причем для нового & Э. Б. Ли, Л. Маркус
162 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ гл. 2 выпуклого множества радиус вписанного шара будет больше, чем г—£ для заданного £ > 0. Таким образом, г является полунепре- рывной снизу функцией матриц Л и В, а поэтому г имеет поло- жительный минимум ге>0при |Л—Л| + |В— Пусть ы*(/)сй (()++<:/*)—оптимальное управление, перево- дящее систему из состояния х0 в начало координат вдоль реше- ния х* (t) системы и пусть и (t)cCl—любое управление с ре- шением x(t) системы такое, что | и* (t)—м(/)|<б2 на интер- вале 0 sC t < t* + 1 (и* (t) = 0 для t > t*). Тогда, если | 3?—S? | < < б2 < бх, где б2 > 0 достаточно мало, то мы находим, что | х* (/) — — х(/)| 1 на интервале 0^/^/* + 1. Это следует из формулы вариации произвольных постоянных, которая выражает решение x(t) как непрерывную функцию от Л, В, х0 и "«(/). Но тогда |x(f*) | < (г6/2|еЛе/21"1, а значит, е^е/2х (/*)£# (е/2, N). Та- ким образом, система может быть переведена из точки x(t*) в на- чало координат с помощью управления из Май вдоль траектории системы S? в течение промежутка времени 8/2. Отсюда следует, что ХоС&Ди оптимальное время управления для перевода системы из начальной точки х0 в начало координат будет /* < t* + 8/2. Если те же рассуждения провести, поменяв местами задачи {J?, й, х0, /*} и Й, х0,/*}, то получим, что /*</* +8/2 и, значит, |/*—?*1<е для 1^—J4< 62 (62 > 0). Пусть теперь \S?—3? | < б2, и*(/)ай, (0^/^/*) и и* (/) ей, (0<+^7*)—соответствующие оптимальные управления, а х* (/) и х* (/)—их траектории. Из непрерывной зависимости решений от Л, В, х0 и и (/) вытекает, что существует 8Х > 0, такое, что из не- равенства т» ] и* (i) — й* (/)1 dt < 8Х < е для т* = min (/*, ?*) о следует, что (возможно, при меньшем б2 > 0) I х* (/) —х* (/) | < 8 на интервале 0 t т*. Мы докажем, что для любого е2 > 0 существует такое положи- тельное б < б2, что из неравенства | 3?—S | < б следует, что |и*(0—и*(/)|<82 вне некоторого промежутка времени длитель- ностью в2 из интервала 0^/^т*. Этим мы завершим доказа- тельство теоремы.
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 163 Принцип максимума гласит, что т] (/) Ви* (0 = шах т] (/) Ви ue Q для некоторого сопряженного решения x\(t), так что управление и* (0 кусочно-постоянно в вершинах множества й. Отсюда следует, что существует такое постоянное 0 > 0, что решения^х* (/) и x(t) системы 3?, соответствующие управлениям и* (t) и и (/) из й, мо- гут удовлетворять неравенству |х*(/*)—х(/*)| < 0 лишь при । и* | вне некоторого промежутка времени длины е2 из интервала 0 t t*. Используя непрерывность оптимального времени управления t*, доказанную выше, найдем положительное б8 < 62, такое, что | х* (/*)— — х* (/*) | < у при | 2—21 < 68. Выберем положительное S4<68 так, чтобы при | .S’—S? | < 64 существовало бы управление и(t)ай, для которого | «*(/)—«(0|<б4 на И |х*(Н-х(Н| <у. Тогда Iи*(t)-u*(0|<[и*(t)—u(t) | +1 й* (0 -й(01 < -J-+б4 всюду вне некоторого промежутка длины е2 из интервала 0 f t*' Положим, наконец, 6 = min , 64) . Тогда из неравенства \3? — — S | < 6 следует, что | и* (t)—и* (01 < в2 всюду вне некоторого промежутка времени длины е2 из интервала Итак, при подходящим образом выбранном в2 > 0 и соответст- вующем ему 6 > 0, имеем X* J | и* (t)— и* (01 dt < 8Х < е о и |х*(0—х*(0|<е на (К Кт*, что и требовалось доказать. Если от нормальной задачи {.S’, й, х0} перейти к некоторой возмущенной задаче {J’, й, х0}, такой, что |Л—Л01 + |В—Я0| + |х—x0| + dist(^ Й)<6, то мы не можем утверждать, что эта возмущенная задача имеет
164 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 единственное оптимальное управление u*(t) c:Q, переводящее си- стему из х0 в начало координат за время ?♦. Однако можно показать, что каждое оптимальное управление u*(f) задачи {&, Q, £0} аппроксимирует управление u*(t) в смысле теоремы 22. Упражнения 1. Рассмотрим управляемую систему х=А (t)x+B(t)u с управлениями и cz Q. Требуется перевести систему из начального состояния х0 при / = 0 за минимальное время в движущуюся точку х = G(t), скользящую по гладкой кривой. Покажите, что подстановка у=х—G(t) сводит эту задачу к задаче о переводе соответствующей системы из точки 0о=хо—6 (0) в точку 0 = 0 вдоль траектории, являющейся решением уравнения у=А (/) 04-В(/)и+ +у(/). Вычислите v(t). 2. Рассмотрим управление, приводящее за минимальное время в начало координат систему хх = — a^+^w, х2 =— а2х2 + &ам» хп = —апхп-{-Ьпи, где все fy # 0, ау > 0 и | и | < 1. Покажите, что координаты начальной точки х0 и моменты переключений /х < t2 < ... < /г_х экстремального управления и, переводящего эту точку в начало координат за время trt связаны системой трансцендентных уравнений: bj °7 L z ...+(_l)r-ieaA-. (/=1 2......п} Знак (±) определяется первоначальным значением управления u=± 1. Покажите, что можно считать г^п и определить оптимальное время t* как минимальное tr, для которого такое решение (0 < < /2 < • • • < М указан- ной системы уравнений существует. 3. Для каких значений действительного параметра р управляемая система 1 | ~2 Р х2 J L 0 —1 с ограничивающим множеством Q: | и11 1, | а21 1 будет удовлетворять ус- ловию нормальности. 4. Вычислите кривую переключений W и наметьте синтез оптимального по быстродействию управления для системы х = и с ограничением | и |«С 1 и целевым множеством G: (х1)2 + (х2)2 1 (круг на фазовой плоскости). Про- верьте выполнение условий устойчивости, нормальности и трансверсальности. 5. Рассмотрим задачу минимального по быстродействию управления системой хх =— х1—x2-j-w1, х2 = — x2+wx + «2 в /?2, с ограничениями ] и11 <; 1 и | и21 1 и началом координат в качеств
2.5 ОПТИМАЛЬНОЕ ПО БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЕ 165 целевого множества. Найдите кривые переключений и для составляю- щих w1 и и2 управления, и наметьте решение задачи синтеза оптимальных управлений. Проверьте выполнение условий устойчивости, нормальности и трансверсальности. 6. Пусть А (0, ^0—действительная непрерывная (пХп)-матрица. Пред- положим, что существует такое 8 > 0, что собственные значения симметриче- ской матрицы A (t) + А' (0 в любой момент /^0 будут меньше, чем — е. Доказать, что система дифференциальных уравнений х = А (0 х устойчива в начале координат, т. е. для любого ее решения х (0 lim х(0 = О. t -* 00 ^Указание: (х'х) = х' (Д + Д') 8 (х'х). j 7. Рассмотрим линейную управляемую систему (<£) х—Ах-\-Bu-\-v (t), где А и В—постоянные матрицы, удовлетворяющие условию управляемости rank [В, АВ, А*В, ..., А*-*В] = п, а вектор-функция v (/) непрерывна йа /?х. Предположим, что ограничивающее множество Q cz Rn компактно и строго выпукло, а целевое множество G удовлетворяет условиям (Ь) и (с) теоремы 19. Докажите, что в этом случае управляемая система нормальна и обладает свойством единственности экстре- мальных управлений, трансверсальных к G, как и в теореме 19. Разберите случай, когда и = 0, G есть начало координат, и точка w = 0 лежит внутри Q. 8. Рассмотрим множество всех автономных управляемых систем (J?) x—Ax-^Bu+v в Rn, с фиксированным выпуклым многогранником Й с: Rm в качестве ограничива- ющего множества. Требуется показать, что, вообще говоря, система удов- летворяет условию нормальности; точнее, что пары матриц (4, В), соответствую- щие нормальным системам, образуют открытое плотное множество в метрическом пространстве, состоящем из всевозможных пар матриц (см. теорему 11). 9. Рассмотрим систему х= 4х+&н, где Д—действительная (2х2)-матрица с комплексными собственными значениями а ± (0 > 0) с ограничивающим множеством й:| и | 1 в R1. Предположим, что система обладает свойством управляемости. Тогда для t > 2л/0 множество К (t) не имеет вершин, т. е., в каждой граничной точке множества К (0 существует единственная опорная гиперплоскость (см. упражнение 2 к разделу 3). 10. Рассмотрим линейную управляемую систему (&) х=4 (t)x+B(t)u+v(t) в с непрерывными в У?1 А (0, В (0 и v (0, начальным состоянием х0 и компакт- ным ограничивающим множеством й ci Rm. Покажите, что множество К (0 зависит от t непрерывно в смысле Липшица на некотором компактном интер- вале т. е. dist (К (ti), К (t2)) < k | ti—t21 (т0 <ti<t2< r2) для некоторого постоянного k > 0. 11. Рассмотрим линейную управляемую систему (%) x=A(t)x+B(t)u+v(t) в Rn с непрерывно меняющимся, непустым, компактным выпуклым ограничивающим множеством Й(0с;7?от(тр^/^Т1). Пусть Xq—начальное достояние системы,
166 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 a G (t) — компактное непрерывно меняющееся целевое множество Докажите, что K(t) есть компактное, выпуклое, непрерывно меняющееся ножество. Получите отсюда теоремы, аналогичные теоремам существования 1 м 17. Докажите аналог теоремы 2 и сформулируйте принцип максимума для икстремальных управлений т) (/) В (t) и (0 = max т] (/) В (/) и почти всюду. 12. Рассмотрим линейную управляемую систему в Rn x=A(t)x + B(t)u + v(t)t начальным состоянием х0 в момент времени т0 и фиксированным компактным целевым множеством G. Рассмотрим управления и (/) на различных интервалах времени т0 < i «с с ограничениями || и ||2 = J ц2 (s) ds «С 1, и (/) с Q, где Q —- То замкнутое выпуклое множество в содержащее и = 0. Докажите, что К (t) есть компактное, выпуклое, непрерывно меняющееся множество, и получите отсюда аналоги теорем существования 1 и 17. Определив новую функцию х° (/) = J u2 (s) ds, получите соответствующую То управляемую систему в Rn+1: х = А (/) х+В (/) u-\-v (t), х*=и? (О, с начальным состоянием (х0, 0) и компактным цилиндром 6Х[0^х°^1/ в качестве целевого множества. Единственным ограничением на управления теперь будет и (t) a Q. Принцип максимума для такой нелинейной системы будет обсуждаться ниже. 13. Пусть Pj{t)—действительный многочлен степени 1 (1^/^г) и пусть Xi < Х2 < ... < Хг, где Ху—различные действительные числа. Дока- жите, что функция Т1(0 = ^1(0^*<+--.+Рг(0еМ имеет не более ni + na+ • • • +лг— 1 действительных нулей. (Указание использовать индукцию по г. Если функция rj (t) e~Krt имеет п1 +пг действительных нулей, то ее пг-я производная должна иметь nx+ ... + действительных нулей.) 14. Рассмотрим автономную систему в /?", обладающую свойством управ- ляемости (J?) х=Ах-\-Ви с компактным выпуклым ограничивающим множеством Q a Rm, содержащим точку и = 0 внутри себя. (а) пусть Ui(0 (0<: t< fi) и u2(f) суть экстремальные управ- ления, переводящие систему из состояния х0 в начало координат. Покажите, что /1==/2 = /*—минимальное оптимальное время управления. (Ь) Если {£, Icq, —любая достаточно близкая управляемая система того же типа, то ?* близко к /*. 15. Рассмотрим линейную систему в Rn <%) jf=A(t)x+B(t)u+v(t),
2.5 ОПТИМАЛЬНОЕ rid БЫСТРОДЕЙСТВИЮ УПРАВЛЕНИЙ ief с выпуклым многогранником в качестве ограничивающего множества Q с: Rm> начальным состоянием xQ в момент времени то = О и постоянным компактным целевым множеством G. Предположим, что л(о=ло+м1+^л2+..., в (о=во+/в1+/ав2+-.«, v (0 = ио+^1+*Ч+ — суть действительные аналитические матрицы при /^0. Покажите, что если задача нормальна, то оптимальное управление и* (/) на интервале ()</</♦ кусочно-непрерывно (если доопределить его на множестве меры нуль), и имеет конечное число переключений между вершинами Q. Более того, если п = 2, то из условия det | В0зу, ( —ЛоВо+Вх) оу | #0 для любого ребра w множества □ следует нормальность задачи управления. 16. Рассмотрим линейную управляемую систему (J?) x=A(t)x+B(t)u в /?л, р де A(t)£Llt B(t)£Lqt \^q< оо, на некотором интервале t < Т. Класс приемлемых управлений составляют m-мерные векторы u(t) на различных интервалах удовлетворяющие условию о m \ 1/Р I и1 (0 dt ) 1.1. где—ф—= 1, а при р=оо берется ограничение ess sup |wz(/)|^l. 0< 1 Покажите, что множество достижимости К (/х), соответствующее начальному состоянию х0, будет компактным, выпуклым, непрерывно меняющимся по времени Для заданного компактного, выпуклого целевого множества G сформулируйте соответствующую теорему существования для оптимального по быстродействию управления и* (t) системы на интервале Пред- положим, что А и В постоянны, и выполнено условие управляемости rank [В, АВ, А2В, ..., Аи"1В] = п, а также предположим, что 1 < р < оо, так что единичный шар в Lp является строго выпуклым множеством. Докажите, что оптимальное по быстродействию управление и* (/) на интервале 0 является единственным и удовлет- воряет принципу максимума и{* (0 = | tA (/) \^Р sgn (0 (i = 1, ..., m), где и (/) = т]* (/) В, а т)* (/) = т]ое“^ — некоторое нетривиальное сопряженное решение. Кроме того, управление и* (/) лежит на границе единичного шара в Lp (Указание: использовать слабую компактность и выпуклость единич- ного шара в Lp для доказательства свойств К (/х) и теоремы существования. Принцип максимума следует из неравенства Гёльдера и соответствует его крайнему частному случаю — случаю равенства.)
168 оптимальное управлений в Линейных системах Гл. 2 Приложение Выпуклые множества Подмножество Р действительного векторного пространства V называется выпуклым, если отрезок (1 —X) Р2, 0 % 1, соединяющий любые две точки Р1( Р8 множества К., целиком лежит в Р. Примерами выпуклых множеств могут служить пустое множество, одна точка P$V, отрезок, соединяющий две точки Рп Р8€К а также все пространство V. Пересечение выпуклых подмножеств V есть выпуклое множество. Мы будем иметь дело в основном с выпуклыми подмножествами действительного n-мерного векторного пространства Р". Выпуклые подмножества R" всегда являются связными множествами, однако они могут быть открытыми или замкнутыми, или ни теми и ни другими, как показывают следующие примеры: п 1) гиперплоскость л: 2 fl,xz4-6 = 0, где а#=0, в декартовых i=l координатах (х1, ..., х") в Р"; п 2) замкнутое полупространство 2 aix‘ + (или ^0); п 3) открытое полупространство 2 aix' + b > 0 (или < 0); п 4) открытый (или замкнутый) шар 2 (х‘—xj)2 < г2(или ^г2) /=1 с радиусом г > 0 и центром в точке х0; 5) n-мерный куб | х* | a, i = 1, ... , « с длиной ребра 2а > 0 или «-мерный куб, у которого выброшены некоторые из гранич- ных точек. Замыкание К, а также внутренность К (int К) выпуклого мно- жества К с Rn являются выпуклыми множествами; более того, int /С == и int Р = int К.. Размерностью выпуклого множества KcRn называют размерность г^п единственного наименьшего линейного многообразия L (Р) cz Р", содержащего К. Непустое выпуклое множество К имеет непустую внутренность относительно L (Р); далее, если Р компактно, то Р топологически эквивалентно замкнутому r-мерному шару. Для произвольного подмножества М с Rn определим его вы- пуклую оболочку Н (М) как пересечение всех выпуклых множеств, содержащих М, т. е. Н (М) есть наименьшее из выпуклых мно- жеств, содержащих М. Таким образом, множество М будет вы- пуклым тогда и только тогда, когда М = Н (М). Если множество М компактно, то и множество Н (М) компактно, и каждая точка множества Н (М) есть выпуклая комбинация некоторых л-f-1 точек из М. Выпуклая оболочка конечного множества точек
ВЫПУКЛЫЕ МНОЖЕСТВА 169 ПРИЛ. Я(Р0, Рг......Рк) называется выпуклым многогранником. Если точки Ро> Pi> • • • > линейно независимы в Rn (точнее, век- торы Pt—Ро> Р2—Ро, .... Pk—Ро линейно независимы), то Я(Р0, Pi......РА) называется k-мерным симплексом. В частности, одномерный симплекс—это отрезок, двумерный симплекс—тре- угольник, а трехмерный—тетраэдр. Можно доказать, что ком- пактное подмножество McR" является выпуклым многогранником тогда и только тогда, когда оно представляет собой пересечение конечного числа замкнутых полупространств. Произвольное зам- кнутое выпуклое подмножество KcRn есть пересечение счетного числа замкнутых полупространств. Говорят, что гиперплоскость л разделяет два множества Afj и /И2, если М± лежит в одном из замкнутых полупространств, ограниченных л, а Л12—в другом замкнутом полупространстве. Два непересекающихся выпуклых множества и /С2 можно разделить гиперплоскостью в Rn, если множество имеет не- пустую внутренность, или если замкнуто, а множество К, компактно. Пусть R—замкнутое выпуклое множество в R”. Гиперпло- скость л, имеющая общие точки с К и такая, что /("лежит в одном из полупространств, образованных л, называется опорной гипер- плоскостью к /С. Через каждую точку множества дК проходит гиперплоскость, опорная к замкнутому выпуклому множеству KcR*- Точка Р называется крайней точкой выпуклого множества К с. Rn, если Р не лежит ни на каком из отрезков Н (Р1г Р2), соединяющих точки Р^Р и Р2 =/= Р из К. Каждая опорная гипер- плоскость к компактному выпуклому множеству KcRn содержит по крайней мере одну крайнюю точку К. Более того, К есть выпуклая оболочка множества своих крайних точек. Замкнутое выпуклое множество К, содержащее более одной точки, называется строго выпуклым, если любая его опорная гипер- плоскость имеет только одну общую точку с R. Строго выпуклое множество KcRa всегда имеет непустую внутренность, и каждая из его граничных точек является его крайней точкой. Теперь мы предлагаем несколько лемм, необходимых для дока- зательства теорем 1 и 2, а также для получения более сильного результата в теореме 1А. Все эти результаты будут затем исполь- зованы при исследовании линейных управляемых систем («S?) x = A(t)x+B(t)u + v(t) с управлениями «(/), определенными на 3: и прини- мающими значения из ограничивающего множества Q с Rm. Здесь A(f), B(t) и v(t) — интегрируемые матричные функции. Лемма 1А. Пусть Q—компактное выпуклое множество в Rm, a —семейство всех измеримых вектор-функций и (t) на
170 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 действительном компактном интервале 3. Тогда множество & является слабо компактным. Доказательство. Пусть Uj(0, 0,(0,..., «А(0—после- довательность функций из гГ, и мы хотим выбрать из нее подпо- следовательность Uk( (t), слабо сходящуюся к некоторой предельной функции и (0 в т. е. такую, что lim $ h (0 Ukt (0 dt = J h (0 и (0 dt “ s 3 для любой ограниченной измеримой n-мерной вектор-функции h(t) на интервале 3. Нам требуется лишь доказать слабую сходимость для каждой компоненты «*,(0. Поэтому рассмотрим последова- тельность вещественных скалярных функций wk(t), равномерно ограниченных на интервале 3: Ясно, что функции wk(f) принадлежат гильбертову пространству ^2 (^0» 0)’ Пуср> <рх(0, <р2(0, ••• > ф*(0 •••—полная ортонормальная система действительных функций (например, тригонометрическая система). Разложим функцию wk(t) в обобщенный ряд Фурье по этой системе: ayft (0 ~ (0 + a|<p2 (0 + ... Обобщенные коэффициенты Фурье а{ равномерно ограничены, поскольку / = » 3 Поэтому можно выбрать такую подпоследовательность wkl(t) по- следовательности wk(t), что существует предел lim ah=Y1. /г! -> оо Далее из последовательности wkl выберем подпоследовательность wki(t) такую, что существует предел lim о&=т«. /г 2 -► оо Продолжая аналогично, для каждого / построим подпоследова- тельность wkj такую, что для всех соответствующая после- довательность i-x коэффициентов Фурье сходится к нулю. Затем из этих ^подпоследовательностей выберем диагональную подпоследо-
ПРИЛ. ВЫПУКЛЫЕ МНОЖЕСТВА 171 вательность Wv(t)=Wu(t), .... О»Л'(0=И»»(0. ••• . элементы которой имеют разложения1) (0 ~ ₽1<Р1 (О + (0 + ••• liin = (/ = 1,2,...). k -+ 00 Для каждого конечного целого k и действительного 6 > О имеем (т1)2+(т2)2+---+(т*)2<С!4-б. Таким образом, и значит, по теореме Рисса—Фишера существует измеримая функ- ция w(t) на 3, имеющая разложение W (!) ~ У (0 + ?аФ2 (0 + • • • Мы утверждаем, что lim Wk'(t) = w(t) kf -* со в смысле слабой сходимости на 3. Действительно, пусть ф(/)— действительная ограниченная измеримая функция, такая, что 1ф(0КС2 на 3. Тогда существует конечная сумма (например, тригонометрический многочлен) р(О=ь»ф1(0+...+ьЧ(0> являющаяся хорошим приближением для ф(/): $|ф(0—Р(0 |2d/<62 3 для заданного е > 0. Заметим, что lim J Р (0 wk- (/) dt = lim 4-... 4- bzpzfe) = k' -► 00 Cj k -* co = 61y14-... 4-^zYz = J P 3 r) Автор пользуется стандартной процедурой, часто именуемой «канторз- вым диагональным процессом». (Прим, ред.)
172 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Произведем оценку | $ Ф (0 wk- (0 dt — $ ф (0 w (/) di | < IJ Р (wk—w) dt I + з з з + | $ (Ф—P)Wk'dt—(ф— P)aydd. з з Используя неравенство Шварца, получим | $ ф —w) d/1 е + Сг8 + Cjg, 3 для всех достаточно больших k'. Таким образом, слабая сходи- мость Wk< (t) установлена. Из векторной последовательности ик (t) выберем подпоследо- вательность ик1 (t), которая покомпонентно слабо сходится на интер- вале 3 к некоторой вектор-функции и (/) так, что lirn ( h (/) (0 dt = 5 h (t) и (t) di для любой ограниченной измеримой вектор-функции h(f) на 3. Остается показать, что и (f) а й на интервале 3 (заметим, что и (t) может быть изменена на множестве меры нуль, без изменения интеграла J h (t)u (t) dt). Пусть 3 (л) OjX1 + ... +а„хп + b = 0 или ах + b — О есть гиперплоскость, опорная к й, так что й лежит в замкнутом полупространстве ах + 6^0. Пусть Е—подмножество интервала 3, на котором аи (t) ф- Ь > 0. Тогда в силу слабой сходимости последовательности ukl(t) lira ( х£ (0 (aukl (t) + b)dt = J %£(/) (ай (t) + b) dt, 3 3 где равняется +1 на E и 0 на 3—E. Но 3 и если множество Е имеет положительную меру, то $Хв(0(^(0 + ^)^>0. 3 Это противоречие показывает, что Е имеет меру нуль, а значит, точка u(t) находится по одну сторону от плоскости л почти всюду
приЛ ВЫПУКЛЫЕ МНОЖЕСТВА 173 на 3. Однако множество Q является пересечением счетного числа замкнутых полупространств, и значит, и (/) a й всюду, кроме некоторого объединения счетного числа множеств меры нуль. Таким образом, и (/) а Й почти всюду на 3. Лемма доказана. Замечание. В предположении, что |«| равномерно ограни- чено, можно усилить эту лемму, а именно: lim $ h (0 uk( (0 dt = $ h (/) dt з 3 для каждого интегрируемого вектора h(t) на 3. Для доказатель- ства достаточно получить соответствующий результат для после- довательности скалярных функций wk(t), слабо сходящейся к w(f) на 3. По условию, существует константа С такая, что и |о»(/)|<С на 3. Пусть функция ф(/) интегрируема на 3-, выберем полином так что $|ф(0—P(f)\dt<&. 3 Для подпоследовательности Wk’(t) получим lim ( Р (t) (w^ (t)—w (t)) dt — O. k' <“ 3 Тогда из оценки, полученной в лемме, следует, что lim J ф (/) (o»v (0 —w (/)) dt = О, и соответствующий результат справедлив для последовательности векторов Uk{(t). В частности, пусть Л(8) = х*(8)Ф“1(5)б(8) на t^s^t^ где функция xf(s) = l на интервале и 0 на остальной части интервала 3, функция Ф($) непрерывна, а функция B(s) интегрируема на 3. Тогда для любого фиксированного t из 3 t t lim $ Ф"1 (s) В (s) uk( (s) ds = J ф-i (s) В (s) й(s) ds. t, t. Лемма 2A. Пусть й—компактное множество в Ra, a r|(i) абсолютно непрерывный вектор на 3. Для каждого t£3 положим т (/) = max т] (/) В (/) и. иеа
174 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Тогда функция m{t) интегрируема на 3. Если матричная функ- ция В (/) непрерывна {или абсолютно непрерывна), то т (t) непре- рывна {или абсолютно непрерывна). Доказательство. Пусть Е—некоторое замкнутое подмно- жество в 3, на котором матричная функция В (/) непрерывна; покажем, что функция m{t) измерима на Е. Возьмем любое дей- ствительное число а и рассмотрим множество Еа а Е, на котором т (/) а. Покажем, что каждое из таких множеств Еа замкнуто, а следовательно, функция m{t) измерима на Е. Если Еа не замкнуто, то существует последовательность _ tk *t, где tk и t принадлежат Е, и m{tk) а> но т (/) < а. Для соответствующей последовательности точек fn{tk) = n{tk)B{ik)u/e^a. Выберем подпоследовательность, обозначаемую также так чтобы ик —> и Q. Тогда v ___ т {t) lim т {tk) = т) (/) В (/) и а. k -► ао Это противоречие показывает, что множество £а замкнуто. Пусть теперь Е1г Ег, ... , Et, ... — последовательность замкну- тых подмножеств в 3, таких, что мера {3—Ег)^2-1, /=1,2,3 и функция В (/) непрерывна на Et (существование таких множеств Et следует из измеримости В (/)). На каждом из множеств функция m{t) измерима, а значит, m{t) измерима и на их объе- динении, которое отличается от 3 на множество меры нуль. Таким образом, функция m{t) измерима на интервале 3. Поскольку величины | г] (/) | и | и | ограничены на 3, то функция m{t) инте- грируема на 3. Предположим теперь, что матричная функция В {f) непрерывна либо абсолютно непрерывна на 3. Фиксируем tt и t2£3 и пусть т (h) = Л (ti) В (ti) ui> € Й, i — 1, 2 ... Тогда m (tt)—m {Q < я (Q В (Q «2—n (Q Ж)м2 = = [я(^)В(4)-п(/1)В(/1)]«8, /п (Q—т {IJ > я (h) В {Q и^—я (О В {Q иг = = [я(4)ад-п(/х)В(/1)] «1-
ВЫПУКЛЫЕ МНОЖЕСТВА 175 ПРИЛ. Из этих оценок непосредственно следует непрерывность или абсо- лютная непрерывность функции m(t), что и требовалось доказать. Лемма ЗА. Пусть Q—компактное множество в Rm, а <р(/, и)—действительная т-мерная вектор-функция, непрерывная по (t, и) для u£Q и любого действительного t. Для произвольного фиксированного t множество Q) = {x€/?n|x = B(0q>(*> “) Для Й} есть компакт в Rn. Пусть g(t)—измеримая п-мерная вектор- функция такая, что g(f)£B (/) <р (t, Q) для любого действительного t. Тогда существует измеримая т-мерная вектор-функция и (t) с Q такая, что g(t)=B(f)<p(t, u(t)) для всех действительных t. Доказательство. Для каждого фиксированного t0 рассмот- рим все точки и £ й, для которых B(Q<P(6>. u)=g(t0). Выберем u(t9) так, чтобы его первая компонента «*(/„) имела возможно меньшее значение. Если имеется более, чем одна такая точка и, то потребуем, чтобы «2(/0) было наименьшим, и так далее. Таким путем определим единственный вектор и (/0) a Q. Докажем, что u(t) есть измеримая функция. Достаточно показать это для компактного интервала 3. Предположим, что компоненты и1 (/), ... , и5"1 (t) измеримы на 3 (если $=1, то ничего не предполагается), и докажем, что us(t) измеримо на 3. Рассмотрим систему замкнутых множеств Et <= 3, 1=\, 2, 3, ... такую, что мера (3— и функции и1^), ..., B(t), g(f) на Et непрерывны. Выбе- рем произвольное число а и покажем, что подмножество в Elt на котором us (/) а, замкнуто. Предположим противное, т. е. будем считать, что существует последовательность tk—► ?, где tk и t принадлежат Et, и (*л) < а < hs (t). Выберем подпоследовательность, вновь обозначаемую tk, такую, что limu(/A)==u£Q. k-><x> В силу непрерывности соответствующих функций на множестве
176 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Е[ имеем u' и1 (t) — и1, 1 = 1,2, ..., s— 1, —g(0. B(Q —В(0, так что B(F)(p(F, w) = g(F). Но us а < us (?), что противоречит определению us(t). Следовательно, функция us(t) измерима на Е(. Отсюда, как и в лемме 2А, следует, что функция us(f) измерима на интервале 3. В силу предположения индукции вектор-функция u(t) будет измеримой на 3. Отсюда видно, что вектор-функция и (t) измерима на всей действительной оси, что и требовалось доказать. Лемма 4А. Пусть y(t)—интегрируемая т-мерная вектор- функция, определенная на компактном интервале 3. Для любого измеримого подмножества Еа.3 рассмотрим т-мерный вектор xE=^y(t)dt. \ Е Совокупность векторов хЕ, отвечающих всевозможным измеримым подмножествам Е в 3, обозначим через К. Тогда К—выпуклое подмножество в Rm. Если, кроме того, вектор-функция y(t) огра- ничена, то К есть компакт. Доказательство. Мы предлагаем здесь сжатое доказа- тельство этого важного факта из теории меры. Будем рассматри- вать интервал 3 и о-алгебру & всех измеримых по Лебегу под- множеств 3. (о-алгеброй называется совокупность подмножеств 3, замкнутая относительно операций взятия счетных объединений и пересечений, а также дополнений; в частности, в ст-алгебру вхо- дят само 3 и пустое множество 0.) Мы будем рассматривать также некоторые о-подалгебры ‘Нс.® (причем все такие подал- гебры будут неатомистическими, что означает, что если лебегова мера р(Е) > 0 для Е^Щ, то существует подмножество Е^сЕ из ‘IL такое, что 0 < р (Et) < р (Е)). Прежде всего отметим, что для любой o’-алгебры сущест- вует непрерывное семейство множеств Da, O^a^l, где Da^‘U, Da,c:Da,t тогда и только тогда, когда ax^a2, и р(Da) — ар(3). Для простоты будем считать р(5) = 1, так что p(Da)=a при O^a^l. Такое непрерывное семейство легко построить с по- мощью аксиомы выбора как некоторую максимальную линейно упорядоченную цепочку множеств в ‘И. Пусть теперь f(t)—действительная интегрируемая функция на 3, а ‘U—a-алгебра. Тогда существует a-алгебра ‘IL^cz'U, на кото-
ПРИЛ. ВЫПУКЛЫЕ МНОЖЕСТВА 177 рой J f di = n (Е) J fdt (для упрощения вычислений положим е я р (3) = 1 и J f dt = 1 ) . Для доказательства этого факта мы сна- 3 чала построим множество 2^6% на котором Jfd/ = l/2n Bi р(£1) = 1/2. Для того чтобы убедиться в существовании Е1г используем непрерывное семейство Da, Osg^as^l в eU. Заметим, что u.(Da—D 1 \=4- для а из интервала l/2<a^ 1 и ин- I а~) 2 теграл от функции f по множеству Da—D i представляет ““Т собой действительную непрерывную функцию q>(a), такую, что fq>(l) + q>^y^j^2 = y. Таким образом, для некоторого проме- жуточного ах из интервала 1/2получим <р(а1) = 1/2. Далее, разделим каждое из множеств Е1 и Е2~3—Ег на два подмножества E3,Et и Es, Et соответственно так, чтобы J fdt = El — l/4 = p(£z). Продолжая аналогично, получим счетное множество таких множеств Е, и затем рассмотрим a-алгебру ‘U1, порожден- ную всеми этими множествами. Поскольку fdt и р (Е) Е являются мерами, определенными на <М1, и они совпадают на ука- занном выше счетном семействе множеств Еи Ег, ..., то имеем j f dt = р (£) для всех Е £ (llv Е Повторяя это рассуждение конечное число раз, получим сле- дующий результат. Пусть f = (f1, ..., fft) —действительный ft-мер- ный вектор, состоящий из интегрируемых функций на 3. Тогда существует о-алгебра 41 а: S3, на которой ^fdt = n(E)\fdt для всех Е^'Н. е з Теперь легко доказать выпуклость 2С= (0 | . j Предположим, что = \y(t)dt = a3, Ft Е, и рассмотрим промежуточную точку для некоторого А из промежутка 0<А.< 1,
178 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Возьмем 2т-мерный вектор у* (t) = (у (f) (t), у (t) %2 (/)), где Xi(0 и Хг(0—характеристические функции множеств Ft и F2 соответственно. Пусть 41—о-подалгебра алгебры такая, что $ У* (t) dt = V^(E)^ у* (t) di = Н (Е) (01), Е g 41. Е 3 \аи/ Пусть Da—непрерывное семейство множеств из 4L такое, что p(Da) = a. Положим F = (DxПЛ)U [Р—^x)nF2]. Тогда ^y(t)dt = $«/(0X1(0^+ 5 ^(ОХг^^^ + П—%)a2. F dk 3-ox Следовательно, К. является выпуклым множеством. Компактность К мы здесь доказывать не будем, но доказательство может быть получено использованием рассуждений, аналогичных примененным для доказательства теоремы 1А. Лемма доказана. Теорема 1А. Рассмотрим, линейную управляемую систему в Ra {3} x = A(t)x + B(t)u + v(t), с компактным ограничивающим множеством й, начальным состоя- нием х' и управлениями и(/)сй на интервале 3: Тогда множество достижимости К(^) является компактным, выпуклым, и непрерывно меняется по при Более того, если множество й заменить его выпуклой оболочкой И (й) и через обозначить соответствующее множество достижимости для управлений u(t)<=H(Q) на интервале то Доказательство. Используя, как и при доказательстве теоремы 3, результат Ляпунова, легко показать, что множество K(ii) выпукло. Формула вариации произвольных постоянных для управления н(/)с:й и соответствующего ему решения x(t) имеет вид t х (0 = Ф (0 х0 + Ф(0 Ф -1(s) [S (s) u (s) + v (s)] ds. Поскольку й есть компакт, матричная функция Ф({) непрерывна на 3, a B(f) и v(t) интегрируемы на 3, то ясно, что множество K(tj) ограничено. Следовательно, замыкание К(^) является ком- пактным выпуклым множеством в Rn. Мы покажем, что К (ti) = К (Q или, короче, К—К. _ _ Пусть Ро—некоторая точка в К. Поскольку внутренность К совпадает с внутренностью К, то выберем Р0£дК. Предположим
ПРИЛ. ВЫПУКЛЫЙ МНОЖЕСТВА 170 сначала, что существует опорная гиперплоскость л к /С, такая, что лГ|К=Ро- Пусть т](/х)—единичный вектор, ортогональный к л и направленный в сторону того полупространства, которое не содержит К. Рассмотрим сопряженное решение: т] (/) = г]оФ-1 (0. где т1(/1) = т]0Ф-1(/1). Тогда в силу лемм 2А и ЗА существует управление u(f)czQ, для которого tj (t) В (t) и (t) = max ц (/) В (/) и = т (t). Для соответствующего ему решения х (/) в R" имеем т] (tj) х = max т| (tj x = max ц (/x) x. xeK x6X Таким образом, х(/х)^лГ)^ и_x(t1) = P0^K. В случае, если точка Р0£дК не является единственной точ- кой пересечения опорной гиперплоскости с К, следует выбрать опорную гиперплоскость л так, чтобы пересечение лЛК было компактным выпуклым множеством Зх наименьшей возможной размерности. Мы покажем, что Зхс:/(, если Зх представляет собой отрезок прямой, и укажем, как изменить рассуждение в случае более высокой размерности. Определим q(Z) для гиперплоскости л так же, как и раньше. Для каждого t £ 3 рассмотрим компактное подмножество Qf в Q, такое, что i\(t) В = Управление u(t) переводит систему из точки х0 в некоторую точку отрезка Sx тогда и только тогда, когда u(/)c:Qt почти всюду. Пусть т]1(/1)—внешняя нормаль к Зх в его крайней точке Рх. Определим соответствующее сопряженное решение т]х(/) и пусть тх (t) = max т)х (/) В (/) и. u£Qt Тогда, используя небольшое обобщение лемм 2А и ЗА, покажем, что /пх(/)—измеримая функция, и что существует измеримое управление ux(f)czQt такое, что П1 (0^(0 «1(0 = "4 (9- Мы докажем, что их(/) переводит систему из точки х0 в крайнюю точку Рх отрезка Зх.
180 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ В ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 Поскольку Р^К, то существует последовательность управле- ний ц,(0ай с решениями Xj(t) такими, что limx/(0) = P1. /-►со Так как П (h) (ti) П (0) Pi = П (ti) Po, TO limr)(0B(t)Uj(t) — m(t) no мере, /-►CO т. e. для любого 8 > 0 существует подмножество 3 меры s, вне которого 1^(0—i\(t)B(t)Uj(t)\<& для всех достаточно больших j. Для каждого в > 0 положим те (0 = max цх (0 В (0 “> где под й/, в понимается подмножество в й, на котором т| (0 В (t)u ^m(t)—8. Заметим, что множество Й/, 8 компактно и те(0 — измеримая функция. Кроме того, для каждого t € 3 lim Qit в = й|, lira mt (t) = tn (t), 1 e-*0 * e->0 причем обе последовательности являются невозрастающими. Иначе говоря, если управление u(t) переводит систему из х0 в некото- рую точку вблизи Sx в /С, то оно должно лежать в Йй , всегда, за исключением, быть может, некоторого малого промежутка вре- мени. Выберем малое 8 > 0. Тогда для достаточно больших j имеем И/(0<=Й#,. на 3, за исключением, быть может, его некоторого подмножества меры в. Поскольку лЛ/С = 31, lim t]i (0) Xj (Q = lim sup тц (0 х == (Q Pv j-*V> /-*00 X где верхняя грань берется по всем х € К таким, что Я(0)х>п(0)^о—у- Таким образом, для заданного 8 > 0 существует 8Х (0 < < в) такое, что I (0 — (0 В (0 Uj (0 | < 8 всюду, кроме множества меры 8, для всех достаточно больших /. По теореме Егорова lim m, (0 = /пх (0 е-»о
ПРИЛ. ВЫПУКЛЫЕ МНОЖЕСТВА 181 почти равномерно на 3 и, следовательно, lira Tii (t) В (/) иj (t) = /пх (t) в смысле сходимости по мере на 3. Отсюда следует, что сущест- вует последовательность, которую мы снова будем обозначать Ujit), такая, что почти в каждой точке t$3 lira т) (/) В (0 и, (/) = /п (/)== т] (О В (t) ux (/), /-►со lira ть (О В (0 uj (0 = т1 (t) = т)1 (t) В (/) ux (t). }->» Поскольку управление Uj(t) переводит систему из точки х0 в точку <-Plt то предельное управление их(/) переводит систему из х0 в Р1г и значит, Таким же образом можно построить управление иг (t) € й, переводящее систему из х0 в другой конец Р4 отрезка Sv Поскольку множество К выпукло, то весь отрезок S^K. _ Если же Р0£дК не лежит ни на какой опорной гиперплос- кости, пересекающейся с К по отрезку прямой, то выберем та- кую опорную гиперплоскость л в Ро, чтобы пересечение л Л К было компактным выпуклым множеством S наименьшей возможной раз- мерности. Если S имеет размерность два, то рассмотрим границу S относительно плоскости L(S), натянутой на S. Каждая точка границы может быть отделена опорной прямой к S в плоскости L(S) или же лежит на отрезке, являющемся пересечением S с такой прямой. В любом случае повторение приведенного выше рассуждения показывает, что граница множества S относительно L(S) лежит в К, а значит, и само S принадлежит выпуклому множеству К. Если множество S имеет размерность три или выше, то рассмотрим границу S относительно линейного много- образия L(S), натянутого на S и далее теми же рассуждениями, что и прежде, докажем, что Sc/C. Таким образом, каждая точка P«GdK принадлежит К, и значит, К=К. Наконец, покажем, что /С(/1) = Кн(<1) или К.=Кн- Оба мно- жества /С и Кн выпуклы и компактны, и К.С.К.Н- Поэтому, если показать, что К плотно в Кя, отсюда будет следовать, что К = Кн. Предположим сначала, что ин (f) <= Н (О)—ступенчатая функция с конечным числом значений, принимаемых на пересекающихся интервалах 3t, ..., 3S, покрывающих 3. Запишем ин(t) = UHt+ ... + ин,, где инj постоянно на j-м интервале 3jc,3 и равняется нулю на остальной части 3. Управление unt может быть представлено на L
182 ОЙТИМАЛЬНбЕ УПРАВЛЕНИЕ & ЛИНЕЙНЫХ СИСТЕМАХ ГЛ. 2 интервале З^.^^Л^тг в виде «я. = Xo«oi+...+%„ып1> т. е. как выпуклая комбинация вектора ы01, ..., ип1 из □. В силу выпуклости Л существует управление uJ/jcQ на Зи переводя* щее систему из х0 в ту же точку Хя(тх), что и uHl. Теперь возь- мем хн (тх) в качестве начальной точки и воспользуемся управ- лением ин, на 3a:r1^t^.xa, чтобы найти управление иа(/)<=□ на За, переводящее систему из хн (тх) в ту же точку, что и управ- ление ин,. Продолжая этот процесс, построим управление «(О = “i (0 + и, (0 + ... + us (0 с Q, где Uj(t) = Q на при i#=j, переводящее систему из х0 в ту же точку Xh^i), что и управление un(t) на 3. Каждое управление u(t)<zH(Q) на 3 непрерывно на замкну- том подмножестве ЕсЗ таком, что мера множества (3—Е) сколь угодно мала. Поскольку множество Н (Q) выпукло, то можно изменить u(t) на открытых интервалах, покрывающих 3—Е, продолжив и (t) туда линейным образом так, чтобы полученная функция. u(t)cH(Q) была непрерывна на 3. Затем выберем точки на u(t) и построим ступенчатую функцию «н (Q), равно- мерно аппроксимирующую u(t) всюду, кроме некоторого мно- жества сколь угодно малой меры. Таким образом, решение xn(t), соответствующее «я(0, равномерно аппроксимирует решение x(f), соответствующее u(t) на 3. Следовательно, К плотно в Кн и К=Кн- Теорема доказана.
ГЛАВА 3 ОПТИМАЛЬНОЕ УПРАВЛЕНИЕ ДЛЯ ЛИНЕЙНЫХ СИСТЕМ С ИНТЕГРАЛЬНЫМ ВЫПУКЛЫМ КРИТЕРИЕМ КАЧЕСТВА В настоящей главе мы изложим теоретические основы оптими- зации систем с интегральным критерием среднеквадратической ошибки (и с некоторыми более общими критериями) на фиксиро- ванном отрезке времени. В первой части главы рассматривается лишь критерий среднеквадратической ошибки и применения соот- ветствующей теории. Во второй части вводятся общие выпуклые интегральные критерии и рассматриваются системы, в которых на управляющую функцию наложены дополнительные ограниче- ния. Полученные результаты, а именно, необходимые и достаточ- ные условия оптимального управления, выводятся из геометри- ческих свойств множества достижимости. 3.1. Значение интегрального критерия качества Интегральный критерий качества используется в тех случаях, когда главным является оценка показателей системы управления в среднем на выбранном промежутке времени, а кратковременными отклонениями от идеала можно пренебречь. Так, например, при построении систем управления часто употребляется критерий мини- мума среднеквадратической ошибки. Этот критерий достаточно детально изучен, и оптимальное управление определяется как яв- ная функция некоторых линейных параметров управления, зави- сящих от коэффициентов и начальных условий линейной системы (см. примеры ниже, в разделе 3.3). Несмотря на то, что системы, рассматриваемые в этой главе, являются линейными, они сыграют важную роль в исследовании нелинейных задач наведения и управления, используемых при полетах в космическом пространстве, в силу того, что уравнения в вариациях, получаемые с помощью линеаризации в окрестности известного решения нелинейной системы, являются линейными уравнениями.
184 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Во многих физических задачах выбор конкретного интеграль- ного критерия качества является достаточно сложной проблемой. На практике, если выбор критерия не очевиден, обычно стараются найти такой критерий, чтобы соответствующее ему оптимальное решение было бы нетрудно построить, и в то же время, чтобы оно служило достаточно близким приближением к идеальному. После того как оптимальное управление построено, необходимо прове- рить, удовлетворяет ли управляемая таким образом система ос- тальным физическим требованиям. Пока свойства различных опти- мальных управлений не изучены более подробно, этот метод ап- проксимации и последовательной корректировки является наиболее эффективным. Таким образом, мы видим, что изучение отдельных оптимальных управляемых систем полезно с той точки зрения, что такие исследования можно сформулировать в виде определен- ных* математических задач, решение которых дает различные ме- тоды синтеза оптимальных управлений. 3.2. Интегральный квадратичный критерий качества Оценка качества управляемой системы с помощью интеграла от квадрата ошибки, взятого по фиксированному промежутку вре- мени, дает критерий качества системы, для которого сравнительно легко найти оптимальное управление. Мы начнем с изучения об- щих свойств линейных управляемых систем этого класса. Будет показано, что оптимальные управления являются экстремальными управлениями, удовлетворяющими принципу максимума, и соот- ветствующими границе множества достижимости (необходимое ус- ловие). Будет установлено взаимно однозначное соответствие между такими граничными точками и экстремальными управлениями (достаточное условие). В следующем разделе мы используем раз- витую здесь общую теорию для решения целого ряда отдельных задач. В этом разделе будет рассматриваться линейная управляемая система х=Л(0х+В(0«. где Л (0 и В (0—непрерывные (пхп)- и (пх/п)-матрицы на заданном конечном промежутке времени t Т. Пусть n-мер- ный вектор состояния системы x(t), имеющий в исходный момент времени заданное значение х(/0)=х0, под действием /п-мерного управляющего вектора u(f) в конечный момент времени Т полу- чает значение х(Т). Критерий качества управления выражается так: т C(u)=g (х (Т)) + J [х’ (s) W (s) х(s) + и' (s) U (s) и (s)]ds. t.
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 185 Здесь g(x)— заданная действительная непрерывная функция на Rtt, a W (s) и U (s)—действительные квадратные матрицы, непрерыв- ные и симметричные на интервале ta s Т. Предполагается также, что матрица W (s) неотрицательно определена, а матрица U (s) по- ложительно определена для всех s, т. е. W (s) = W (s) 0 и U (s) — U' (s) > 0, так, что х' (s) W (s) х (s) — || x(s) ||if 0 и и' (s) U (s) и (s) = || и (s) ||Ь > 0, если и (s) =£ 0. Найти оптимальное управление—это значит найти минимум функционала С (и) на мно- жестве всех измеримых управлений и (s), для которых т $ II “(s) l|yds< оо. ^0 Ниже в этом разделе мы будем придерживаться указанных сейчас обозначений и предположений. Кроме того, мы можем потребовать, чтобы управление приводило систему в заданное целевое множество в R". Поскольку положительно определенная матрица U (s) не- прерывна и ограничена, то легко видеть, что т J||«(s)||(?ds< оо *9 тогда и только тогда, когда вектор-функция u(t) принадлежит гильбертову пространству L2(t0, Т), т. е. т т $ и’ (s) и (s)ds = J || и (s) ||2 ds < оо. t, t» Такие допустимые управления всегда интегрируемы, и соответствую- щие им непрерывные решения x(t) ограничены на интервале В силу неотрицательности (полуопределенных) норм х' (s) W ($) х (s) = || х (s) ||ur > О, и' (s) U (s) и (s) = || и (s) ||b > 0 при и (s) =£ О, можно ожидать, что функционал С (и) имеет минимум, во всяком случае при некоторых ограничениях на g(x(T)), обсуждаемых в теореме 2. Для удобства обозначений положим t Хи (0 = $ [|| Xtt (s) ||£ 4-1| и (s) lib] ds *9 и рассмотрим решение ха (t) = (х„ (t), ха (t)) в Ra + 1 для каждого уп- равления u(t). Сначала мы рассмотрим случай g-(x)==0; при этом
186 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 мы убедимся, что полученные результаты являются основой для исследования общего случая. Определение. Рассмотрим управляемую систему в Rn: (J?) х — A(t)x+B(t)u, с критерием качества т Со («)= $ [||x(s) 11^ + 11 ^0 Множество достижимости К = К(Т, х0) есть совокупность конеч- ных точек траекторий хи(Л = (4(Л. ха(Т)) в Rn+1, соответствующих всевозможным допустимым управлениям u(t) на Всюду в этом разделе через будет обозначаться множество достижимости для системы (J?) с критерием качества Со (и). В силу нелинейности функционала Со (и) множество К (Т, х0) существенно зависит рт точки х0. Очевидно, что К. лежит в полупространстве х° > 0, за исключением, быть может, одной точки, соответствую- щей нулевому управлению и (t) == 0. Выпуклость множества Л вы- текает из соотношений выпуклости для нормы II 1цх (s) + (1 -1) и2 (s) ||8У = №II и, 111г + 21 (1 -1) uiUu2 + + (1 -1)М| «2 |с/ С V || ||Ь + 1(1 -1) [|| и. ||2У + || и2 ||М + +(1Ik II Ъ=Ml «1 (s) ||Ь+(1 -Л) II «з (s) ||М и, аналогично, II и, (S) HSz < 1 И Xtti (S) |[Sz + (1 -1)|| XU2 (s)||^ при 0^1^ 1. Лемма. Рассмотрим управляемую систему в R": (2) x = A(t)x + B(t)u, с критерием качества т C0(u)= $[l|x(s)||^ + ||u(s)||Mds /о и множеством достижимости К с /?п+1. Тогда ортогональная проекция множества К на гиперплоскость х° = 0 есть линейное многообразие. Кроме того, если точка у = (уа, У)€.К, то вся по- лупрямая х°^у°, х — у лежит в К.
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 187 Доказательство. Формула вариации произвольных по- стоянных т ха (Т) = Ф (Г) х0 + Ф (Т) $ Ф-* (S) В (s) и (s) ds, to где Ф(0—решение уравнения x = A(t)x с начальным условием ф(/0) = /, показывает, что точки хи(Т)—Ф(Т)х0 заполняют все линейное подпространство х° = 0, когда и пробегает линейное пространство L2(/0, Т) допустимых управлений. Пусть теперь управление и (t) переводит систему из начального состояния (0, х0) в точку (у°, у) из К. Построим управление «(/) = «(/) + такое, что т (1) $®-1(s)B(s)u?(s)Js = 0, ^0 Т (2) 5||х0(з)|^ + ||м(з)||уа8 = 1/0 + 6 to для заданною Ь^О. Пусть ul(s) = X(s, T)Pi + x(s, I±^)₽2+...+x(s, ^jp„+1 и и'р (s) = 0 для j = 2, 3, ... , tn при t0 s Т. Здесь функция X (s, h) определяется по формуле ( 1, если sCA, X (s, h) = < „ ( 0, если s > «, а постоянные Р1( Р2, ..., Ря+1 будут определены ниже. Для того чтобы выполнялось условие (1), потребуем, чтобы T + tp Т 2 Рх J®-4s)b1(s)ds+₽g J Ф-*(«Ж(з)Л+ ... i» t, T + ntp n +1 ..•+₽.« $ ®-1(s)^(s)ds = O, to где b^s)—первый столбец матрицы В (s). Таким образом, усло- вие (1) выполняется, если определить п-f-l действительных чи- сел рх, р8, ..., рл+1 как нетривиальное решение системы п ли- нейных однородных скалярных уравнений. Для каждого действи- тельного р Q значения рР = (рР1( рР2, ..., ррп+1) вместе 9
188 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 соответствующим управлением « (S) = Й (s) + Up? (S) =й (8) + ри₽ (S) удовлетворяют условию (1). Выберем теперь р#=0 так, чтобы выполнялось условие (2). Имеем т т Со («) = $ [|| Ха || V + II и ||М ds = j [|| x-+pup IIV +1| й + pup (IM ds. Для краткости положим xB(s) = O(s)x0 + Po(s), так что т Со («) = $ III X- + рРа IIV +1| й + рИр ||u] ds = ^0 р Т Т = $ IK IIV +||й||М^ + 2р $ [x-WP +u'Uu?] ds + t. *' т +р‘ S [II Л, II» +ll“fIIM*- /0 Поскольку Up (s) ф 0, то коэффициент при ра положителен, сле- довательно, выбрав р соответствующим образом, мы можем по- требовать, чтобы два последних члена равнялись наперед задан- ному числу Тогда Со («)=!/*+&• Лемма доказана. Теорема 1. Рассмотрим управляемую систему в Rn: (S) х = A(t)x+B(t)u, с критерием качества т Со («)=$ [||Х ||V+||u НМ ds. ^0 Тогда множество достижимости K<zRn+1 выпукло и замкнуто. Доказательство. Пусть x1 — (}d>l,x^nxi = ()^, хг) две точки в К, соответствующие управлениям ux (s) и иг (s) на интер- вале t9^s^T. Пусть У = (У°, У) = ^х1-\-(1—Х)хг для 0<Х<1. Для того чтобы доказать выпуклость К, необходимо построить управление, переводящее систему из (0, х0) в у. Положим u(s) = Auj (s) 4- (1 —К) и, (s).
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 189 Тогда (s) = Хх± (s) 4- (1 —X) х2 (s), так что (Т) ~ Ххх 4- (1 —%) х2 = у. В силу выпуклости норм получим т т (Л=$ [|| хй II2»7+II « НМ ds < к S til А II + II «х им ds+ tn *0 + (l-l)$[||x8||^ + ||u,HM^ И Однако К содержит всю полупрямую х°^х£(Т), х = у, и сле- довательно, содержит у. Значит, К выпукло. Полезно также показать, что даже в нелинейных координатах (|/х®, х1, ...» х") в полупространстве х®0 пространства /?”+1 множество К выпукло. Для этого нам потребуется построить управление, переводящее систему из точки (0, х0) в точку z = (z°, z)=X(]/’xj, xj + fl—ха). Снова получаем, что управление й (s) = (s) 4- (Г— X) иг (s) переводит систему из состояния х0 в состояние х- (Л = ^х + (1 — Ц х2 = z. Введем теперь обозначение t(s)__(хts) \ = 0 \ \«(s)y‘ () ^0 U(s)J и определим норму lll^lll2 = $ II S(s)l|v ds. ^0 Тогда из неравенства треугольника III Х5х 4- (1 -X) 111 < к HI III + (1 -X) III III следует, что
190 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 По предыдущей лемме точка г вновь принадлежит К и, значит, множество К является выпуклым и относительно координат (j/х®, х1....х"). В дальнейшем мы используем координаты (|/х®, х1, ..., х") в х® 0; множество К замкнуто по отноше- нию к этим координатам тогда и только тогда, когда оно замкнуто в обычных координатах (х®, ... , х"). Мы будем считать также, что множество К имеет непустую внутренность; в противном случае все дальнейшие построения можно проводить внутри линейного многообразия, натянутого на К. Как показывает лемма, каждая граничная точка р = (|/р°> р) множества К имеет опорную гиперплоскость с внешней нор- малью, направленной в сторону гиперплоскости х° = 0. Следова- тельно, существует точка q — (0, q) такая, что р— единственная точка в К, ближайшая к q. Точнее, р определяется как единст- венная точка из К, удовлетворяющая условию |Р°1 + 1|Р—<?ll2 = inf {|r°|-H|r—<7||2}- г еК Мы закончим доказательство теоремы, показав, что для каждой заданной точки (0, q) существует точка р в К, удовлетворяющая этому условию. Рассмотрим последовательность управлений mz(s) таких, что т lim { J [|| xt (s) ||^ + Цц,- (s) ||2У ] ds 4-1| xz (Т)—q ||®} = а, i -> со / 4о где а= inf {|r®| + ||r—<71|2}. г <=к Для каждого управления uz(s) запишем решение xz(s) = Hz(s) + Pz(s), где S Н(S)=Ф(s) х0, Pl(s) = ф(s) J Ф"1 (ст)В (ст) И,- (tf) da, и определим функционал т j(“) = $ [||X (s) UJk +1| U(s) ||&] ds + II x(T)—q IP— т - IM-||ff(T)- *9
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 191 J (и) = 2Р' (Г) (Я (T)—q) +1| Р (Г) IP + + $ [|| Р (s) |ft + 2Я' (s) W (s) Р (s) +1| и (s) ||М ds. f» Непосредственным вычислением находим + = (B,)+1,/W + + (Я (T)—q)' (Pi (T)-Pj(T»+ 5 Н’ (s) W (s) (P{ (s)-Pj(s))ds. t O i Далее имеем -$ tf4s)WWPz(s)-P,(s))ds = I Pi (T)-Pj (T) 11» fry Pi (s)—Pj (s) II» | Ui (S)-UJ (s) IP 1 “I 2 К + J Lil 2 |k+| 2 llt/J /о (ц. _|_ ц. \ —P. так что л J 1 rr, 4, Г/ Ч OQ1^ р;(’’)-Р/(П||« I f Г] Я,И-Р;(!) «,(>)-»/<!) IM. + J [|-----2---- r+ -------2----IH*; /о так как левая часть J (и,-) + J (ыу)—20 положительна и стремится К НУЛЮ При I, /—>-00, то т lim J||«z(s)—uAs)\\uds = O. г. / -» « <0 По теореме Рисса—Фишера последовательность {и,} сходится в Ц (t<>> Т) к некоторому предельному управлению и* (s) с соответ- ствующим решением x* (s). Таким образом, $ [|| х* (s) ||Sz +1| «*(s) ||ft ds +1| x* (T)-q |p = a, /о
192 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 и следовательно, точка (|/р°, р) = (Ух^*(Т),х* (Т)) принадле- жит. /С Поэтому К = К и множество К. замкнуто. Теорема доказана. Управляемой системе в Rn: х= A(t)x + B(t)u, можно поставить в соответствие критерий качества 1/2 ГТ ^0 и определить, таким образом, соответствующее множество дости- жимости К. с Rn+1, состоящее из всех точек (С (и), х(Т)). Отме- тим, что доказательство приведенного ниже следствия содержится в доказательстве теоремы 1. Следствие. Рассмотрим управляемую систему в Rn: (J?) х = A (t) x-f- В (f) и, с критерием качества Г т [1И1^ 1/2 Сои — первый для Тогда соответствующее множество достижимости К а /?"+1 вы- пукло и замкнуто. Аналог следующей теоремы существования, а также и другие результаты этой главы, верны как для критерия g(x(T))-|-C0 («), так и для g(x(T)) + C0(u), однако мы будем проводить все дока- зательства лишь для критерия второго типа, оставив самостоятельных упражнений. Теорема 2. Рассмотрим управляемую систему в (.S?) x=A(t)x+B(t)u, с критерием качества т C(«)=g(x(T))+$[||x|^+||u||?/]ds. /о Rn: Если либо a) S(x) > а» т- е- функция g(x) ограничена снизу, b) ^(^i + (l+^)^)<^(^i) + (l— tyg(x2), 0< g(x) есть выпуклая функция, то существует оптимальное управление, минимизирующее наш критерий. Доказательство. Рассмотрим множество достижимо- сти К с 7?"+1, соответствующее управляемой системе 2 с крите- рием качества (который рассматривается как дополнительная либо
3,2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА ИЗ а? Рис. 3.1. Оптимальное решение» лежа- щее в выпуклой области достижимости. т r -1 координата) х° (Т) = $ || х ||V +1| и ||у ds. Тогда по теореме 1 мно- л J жество К. выпукло и замкнуто. Поскольку каждое приемлемое управление и (0 определяет точку (х® (Т), х0(Т)) то нужно лишь показать, что минимум дей- ствительной функции g(x)+x° достигается в К (рис. 3.1). Если g (х) > а, то lim [g(x) + x°] = +оо X® —> CD равномерно на К. Таким образом, существует число а > 0, такое, что минимум [g(x) + x°] на К до- стигается на компактном множе- стве [х°^а]. Предположим теперь, что g(x) выпуклая функция. Для любого действительного числа сх подмножество в l?n+1, для которого Я(х) + х°<с1( является замкнутым и имеет непустую внутренность. Кроме того, это множество выпукло, поскольку из неравенства g(*l)+*l<Cl и g(x2) + x«<C! следует, что g (Ххх + (1—X) х2) + Хх?+(1 — %) х% < сх. Рассмотрим постоянное число сх такое, что соответствующее ему множество пересекается с К, и докажем, что это пересечение ограничено, и следовательно, компактно. Из этого утверждения будет непосредственно следовать существование оптимального управления. Пусть л—гиперплоскость в Яп+1, такая, что g{x)-\-x<>^!.cl Адя точек (х°, х), лежащих ниже л; например, можно взять гипер- плоскость, опорную к этому выпуклому множеству. Мы покажем, что для точек (х®, х) б К с достаточно большими | х | выполняется неравенство x°>ZQx| для заданного постоянного й > 0. Такие гочки (х°, х) из К должны лежать выше л, а значит, удовлетво- ряют неравенству g(x)4-x° >сг. Установив это, мы получим требуемую компактность, чем и завершим доказательство теоремы. Для точек (х°, х) из К имеем т |х(Т)|<|Ф(Т)х0|+ $ |O(T’)O~1(s)B(s)||u(s)|ds. t о ? Э. Б. Ли, Л. Маркус
194 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Если | х(Т) | >2|Ф (Т)х„1 и |Ф(Т)Ф-Чз)В(5)|<Л1 (te^s^T), то т \ Iи ($) I ds 2м Iх I* П Пользуясь неравенством Шварца, получаем Т гт --«/г J\u(s)\ds^c2 J || и (s) l[2ds LZo для постоянного с2 > 0. Таким образом, если I х (Т) I >2|Ф(Т)х0|, то т |х (Т) I2 С J II и (s) II2 ds < csx° (Т). ^0 Следовательно, для достаточно больших | х (Т) | имеем x»(T)>fe|x(T)| и точки (х°(Т), х(Т)) из К лежат выше гиперплоскости л. Ог- сюда следует, что замкнутое пересечение множеств gMH-x’CCj и К ограничено, а значит, компактно. Теорема существования доказана. Поскольку действительная функция g(x)4-x° монотонно убы- вает с убыванием х°, то оптимальное управление должно перево- дить систему в точку, лежащую на границе К в 7?п+1. На самом деле мы рассматриваем выпуклое множество К внутри линейного многообразия L(K), натянутого на это множество; оптимальное управление должно переводить систему в точку, лежащую на границе К относительно L(K). Таким образом, наиболее, важное значение имеют те управления, которые переводят систему в точки, лежащие на границе К относительно А (К). Определение. Рассмотрим управляемую систему в Rn (.3?) х= A(t)x + B(t)u, с множеством достижимости Л с: Rn+1, соответствующим крите- рию качества С0(и). Управление u(t) на интервале переводящее систему из точки (0, х0) в некоторую граничную точку множества /( (относительно линейного многообразия ЦК)), называется экстремальным управлением, а соответствующая ему траектория — экстремальной траекторией.
3 2 интегральный Квадратичный критерий качества 195 Следующая теорема, которая является выражением принципа максимума для рассматриваемой нами задачи, [утверждает^ что выражение По ||“11у + 11 (0 и достигает максимального значения при u=u(t), где u(t)—неко- торое экстремальное управление. Здесь т] (!) = (л#> Л (0) представ- ляет собой (п+1)-мерный вектор-строку с постоянной компонен- той Ло < 0- Поскольку то максимум выражения л® IIи Ну + достигается лишь при U(4~ 2|Ло1 Теорема 3. Рассмотрим управляемую систему в Rn: (J?) х= A(t)x+B(t)u. Управление u(t) с соответствующим решением x(t) (tQ^t^T), является экстремальным в том и только том случае, когда су- ществует (п + \)-мерный вектор л (/) = (л0, И (0)> удовлетворяющий уравнению Л — —2ц0 х' (t) W (t)—л^ (/), постоянная л0 < 0» такой, что По II«(0 Пу + И (0 В(0«(0 = max КII “ Ни + Л (0^(0“} ueRm или и (0 = — gi- U~* (/) В' (!) л' (0 почти всюду. Доказательство. Пусть x(t)—решение, соответствующее управлению гдел(0 = (Ло> Л(0)—вектор, удовлетворяющий дифференциаль- ному уравнению Л = — 2л.х'(0№(0—л4(0, а постоянная ц0 < 0. Поскольку в предположениях теоремы участ- вует, по существу, лишь отношение л/Ло> то Для удобства изло- жения можно выбрать Ло = —1/2. Мы докажем. что Л(Т)х(7’)> п(Т)щ для всех точек со = (со0, со) из R, отличных от х (Т) = (х° (Т), 7*
196 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 х(Т)). Из этого неравенства мы заключим, что х(Т) лежит на границе (относительной) множества К. Здесь со(/) есть общее ре- шение, соответствующее управлению u(t)9 и определенное равен- ствами ®° (0 = $[Н ® (8) ||^ + II U (s) ||^]ds, t co (t) = Ф (t) х0 + J Ф (О Ф-1 (з) В (s) и (s) ds. Имеем 27 (П (0 ® (Ь) = — у со® + W + П® = = — у [11®11»' + 11ы11у] т]Л(о + яЛ<о + г]5н. Интегрирование от /0 до t дает — у ®° (0 + П (0 ® (0—П (Z<X = * = j ( — у [1| ® Ни/ + II« НМ + [<»'№ (з) х (а) + т)В (а) и (а)]}• ds. Для случая, когда «(s) = «($) = £/-1 ($) В'(s) rf (s) и ю(а) = х(а), это выражение имеет более простой вид: - у*(0+Ч (0*(0-n^Xo^jjDlx^iruz + IIrj'^ll^-B'Jds. Очевидно, что выражение—у || и ||у + т|Ва достигает максимума лишь при u = t/~x (а) В'(a) rf (s). Значит, если u(s)=^u(s), то -у II «(8) Ну + r\B (a) и (8) < у1| П' (8) . Далее, из неравенства ||x(s)—«»(s) ]|«z >0 следует, что у || X(s) IIV > (а) х-11| е(a) ||V • Таким образом, если почти всюду на не выполняется равенство u(0 = u(0> то — у х® (0 + Т| (/) х (0—п (/») х0 >—у со® (0+п (0 <о (/)—n (te) х0.
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 197 Следовательно, П(7)£(7)>п(7)й(7) . - для всех ю(Т)^х(Т) из К. Но это неравенство означает, что существует гиперплоскость, опорная к Д’ в точке х(7) с внеш- ней нормалью т) (7). Поскольку т]0 < 0> то опорная гиперпло- скость не может пересекаться с множеством К. по его внутрен- ним точкам, а может пересекать К лишь по граничным точкам (относительным). Таким образом, управление u(t) и решение x(t) экстремальны. _ Обратно, предположим, что управление u(t} порождает траек- торию х(0 = (х°(0, х(0), ведущую в точку х(Т)£дК. Пусть rj(7") = (—у, rj (7))—внешняя нормаль к К. в точке х(Т); опре- делим п (0 как решение сопряженной системы Ч=Р(0У(0-Л4(0. Мы должны показать, что = почти всюду на интервале Предположим, что и(0 не удовлетворяет принципу максимума на некотором подмножестве А —интервале ненулевой длины [можно считать подмножество А компактным, а управление и(0 ограниченным на А], где —у|1ы1|у + + iq(0B(0 u(0+6^ max Г—-^-||u||y+:q(0jB(0u] для некого- рого б > 0. Для каждого малого в > 0 определим возмущенное управление и (0 — / (0Л(О на подмножестве А, меры в из А, I «(0 на остальной части 0«^^7. Пусть соответствующим решением будет х,(0 так, что |х,(0—х(0|С<ав для некоторой постоянной q. Как и выше, получим т П(7)5(7)—(7) < jy II*—x.l&dt—j f>dtбе Дв для постоянной с,. Таким образом, для достаточно малых 8 > 0 П(Лх.(7)>п(7)х(7), что невозможно, еслн_т)(7) есть внешняя нормаль к Д в точке х(7). Следовательно, и(0 должно удовлетворять принципу мак- симума. Теорема доказана.
198 .ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 В теореме 3 утверждается, что управление u(t) является эк- стремальным тогда и толькб тогда, когда оно максимально (в смысле главы 1). Поэтому мы в дальнейшем не будем пользоваться тер- мином «максимальное управление». Следствие. Рассмотрим управляемую систему в Rn: (&) x = A(t)x + B(t)u с критерием качества т C(u)=g (X (Т)) + J[|| X (S) ||2^ + If и (S) ||&] ds. ^0 Пусть и* (t)—оптимальное управление с соответствующим реше нием x*(t) на интервале Тогда u*(t) является экстре- мальным , управлением, т. е. существует п-мерный вектор л (t), удовлетворяющий уравнению л=?'(0^(0—л^(0, такой, что и* (/) = U'1 (/) В7 (/) л' (0 почти всюду. Условия нормальности, ‘ которые обеспечивают единственность экстремального управления, переводящего систему из точки (0, х0) в граничную точку множества К., для наших систем, линейных, с интегральным квадратическим критерием качества, выполняются автоматически. Таким образом, максимальное условие теоремы 3 является как необходимым, так -и достаточным условием опти- мальности данного управления.. В теореме 4 мы докажем эту единственность, а в теореме бив примерах следующего раздела будем применять доказанные свойства к построению оптимальных управлений. Теорема 4. Рассмотрим управляемую систему в R": (&) • x=:A(t)x+B.(t)u, с множеством достижимости К с. Rn+1, соответствующим крите- рию качества С0(и). Пусть ut(i) и u^t)—экстремальные управле- ния с соответствующими решениями x^t) и x2(t) в Rn+1 на ин- тервале t0^.t.^.T. Если . х1(7’) = х2(Т), то почти всюду. Доказательство. Пусть л (Т) =.(— у > ’i (Т)) есть внеш- няя нормаль к К в точке х1(Т) = х1(Т) и. пусть л(0—соответ- ствующее решение уравнения л=х;(/)и7(/)-лЛ(0
3 2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 19Й Тогда, как показано в теореме 3, u1(t) = u2(t) = U~1(t)B'(1)ц' (/) почти всюду. Действительно, в противном случае ~ число т] (Т) х1(Т) = = ?](Т)х2(Т) было бы меньше, чем т|(Т)<в для некоторого w С Теорема доказана. Теорема 5. Рассмотрим управляемую систему в Rn: (2) x=A(t)x + B(t)u, с критерием качества т C(u) = g(х (Т)) + $ [|| х ||2uz +1| и ||Яds = g(x(Т)) + Со (и), /о где g(x)—некоторая выпуклая функция из С1. Тогда существует единственная гиперповерхность Sm из семейства g(x)+x° = c, касательная к . следовательно, т есть оптимальное значение критерия качества. Кроме того, существует единственное экстре- мальное управление, а именно, оптимальное управление u*(t), с помощью которого достигается та единственная точка, где Sm касается К- Далее, система дифференциальных уравнений х A(t)x-YB(t)U~i(t)B,(t)’f\', имеет единственное решение, удовлетворяющее граничным условиям хЦп) = хй и т](Т) = —ygradg(x(T)), а именно, оптимальное решение х*(/) и т]*(/) такое, что управ- ление u*(t) = U-l(t) В' (ОС (О является оптимальным на интервале tQ t Т. Доказательство. Прежде всего мы покажем, что имеется единственное постоянное т такое, что Sm касается К [множества достижимости, соответствующего критерию Со(«)], т. е. выпуклое множество g (х) + х° т пересекается с К, но отделяется от его относительной внутренности общей опорной гиперплоскостью л*, касательной к Sm. Отсюда будет следовать, что т есть минималь- ное значение критерия. По теореме 2 пересечение множества К с совокупностью точек, удовлетворяющих неравенству g(x) -|-х0 с, является компактным множеством для всех достаточно больших с-
200 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Поэтому мы определим т как нижнюю грань всех таких чисел с, для которых рассматриваемое пересечение непусто. Для с > т гиперповерхность 8С пересекается с К по относительно внутрен- ним точкам множества К, а для с<т гиперповерхность вовсе не пересекает К- Таким образом, только при с=т гипер- поверхность 8С может лишь касаться К. Пусть Р—точка, принадлежащая К Л $т и пусть л*—каса- тельная гиперплоскость к Sm в точке Р. Тогда л* не будет раз- делять К. и Sm лишь в том случае, если л* пересекает множе- ство К по его внутренним точкам. Предположим, однако, что имеется (относительно) открытое множество N внутренних точек в К, лежащее ниже гиперплоскости л*. Тогда и весь конус с ос- нованием N и вершиной Р лежит ниже л*, и внутри /С. Однако Sm касается л* в точке Р, так что Sm будет пересекать К по внутрен- ним точкам. Но это невозможно по определению т. Следовательно, гиперплоскость л* разделяет К и Sm. Предположим теперь, что множество K(]Sm содержит две различные точки Рг и Ра. Тогда и весь отрезок, соединяющий их, лежкт в К Л Sm, а значит, он входит в относительную границу К. Рассмотрим экстремальные управления u1(f) и ua(t) с решениями хг (t) и х2 (0, приводящими в точки Рх и Р2 соответственно. Заме- тим, что управления их(0 и ua(t) должны отличаться друг от друга на некотором множестве ненулевой меры из Рассмотрим управление у [их (0 + иа (0] с соответствующим решением х(0 = (х®(0, х(0). Здесь х(Т) = |[х1(Т)+х2(Т)]. Однако мы покажем, что ^(T)<4[x?(T)+xS(T)]. Имеем «• т=j [|| +1| “(i)+“’w ||’„] * - /о Т =J{Tll^llr+yx;^(S)x2+l||x2||^+i|iM^ + +у и'г и (s) иа + у || U2||y } ds.
3.2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 201 Используем очевидные неравенства 24 (з) W (з) х, (з) < || хх (s) HV +1| ха ||’г и (з) и (s) иа (з) < II«! (з) ||2У 4- II иа На, справедливые всюду, где иг (з) =/= «2 («)• Тогда т т х» (Т) < у J [|| хх || V + II «г II?/ ] ds 4- у J [II Ц*г 4- II «з ||&] ds, to *0 так что х°(Т) < у [х?(Т)4-х?(7,)]1 как и утверждалось выше. Полупрямая х°> х°(Т),х=х(7’) лежит внутри К, откуда следует, что и середина отрезка, соединяющего точки Рх и Ра, лежит внутри К. Но -^-(Р^Р^ находится на относительной границе множества К. Это противоречие доказывает, что множество К П Sm состоит в точности из одной точки Р. По теореме 4 существует единственное экстремальное управле- ние, переводящее систему из точки (0, х0) в точку Р£К, значит, это и есть оптимальное управление u*(t). Следовательно, точка Р = (х0*(Т), х*(Т)) должна быть достигнута при движении по оптимальной траектории х*(/). Вектор г)*(Т)==^—-1, является нормальным к Sm в точке Р=х*(7’), где т]*(Г) =—g-gradg'(P). По теореме 3 функции х*(<) и 1]*(0 удовлетворяют уравнениям х= A (t)x+B (О U-1 (t) В' (0 rf, i] = x'W (t)—i]A(t) с граничными условиями х* (/о) = ХО, if (Л = - 4 grad g (х* (Г)). Пусть теперь x(t), ц(£)—любое решение этой совместной системы дифференциальных уравнений с заданными граничными условиями. Тогда х(^) = (х°(0, х(0) есть решение, определяемое экстремаль- ным управлением и (/) = U~l (/) В’ (t) rf (t). Более того, П (Т)х(Т) = - |х« (Т) 4-n (Т)х (Г) > п(Т) ® для всех <оу=х(71) из К.. Таким образом, вектор rj(T) = f—у>л(Л)
202 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 является внешней нормалью к опорной гиперплоскости п множе- ства К в точке х(Т). Кроме того, х\(Т) есть внутренняя нормаль к гиперповерхности Scb х(Т), поскольку г] (Т) = — 4-gradg(x (Т)). Таким образом, гиперповерхность Sc касается множества Л в точке х(Т) ил есть их общая опорная гиперплоскость. Но тогда Sc — Sm и х(Т) — х*(Т). В силу единственности экстре- мального управления, переводящего систему из состояния (0, х0) в состояние х* (Т), находим, что u(t) — u*(t) почти всюду, и зна- чит, х(/)=%*(/) на интервале Итак, окончательно, т)(0 есть единственное решение уравнения П = х*'(0^(0—М(0 с п(л = — ^&adg(x*(T)) и, значит, П (0 = П* (0 на /0 < t < Т. Теорема доказана. Если нам нужно перевести систему из заданной начальной точки х0 £ Rn в некоторое желаемое состояние, то естественно потребовать, чтобы система (jg7) х= A(t)x+B(t)u обладала свойством управляемости. Система 2 будет вполне управляемой, если для любой пары точек х0, xt С Rn существует ограниченное измеримое управление и it), переводящее систему из точки х(/0) = х0 в точку х(Т) = х1. Случай полной управляемости легче поддается геометрическому анализу, так как тогда множе- ство достижимости К имеет непустую внутренность в 7?”+1, и сле- довательно, граница множества К относительно L (К) — Rn+1 со- впадает с обычной границей. Теорема 6. Рассмотрим управляемую систему в Rn: (2} х=Л(0х+В(0«, с множеством достижимости KczRn+1, соответствующим крите- рию качества С „(и). Система 2 обладает свойством управляемо- сти на интервале t0^.t^T тогда и только тогда, когда мно- жество К имеет непустую внутренность в Rn+1, а это будет в том, и только в том случае, если матрица Т М(Т) = \ ф-1 (0 в (0 В' (/) (Ф-1 (0)' dt _ *9 невырождена.
3,2 ИНТЕГРАЛЬНЫЙ КВАДРАТИЧНЫЙ КРИТЕРИЙ КАЧЕСТВА 203 Доказательство. Ортогональная проекция множества К на подпространство х° = 0 представляет собой совокупность всех концов траекторий в Rn: т х (Т) = Ф(Т)х0 + Ф (Т) J Ф-1 (/) В (t)u (0 dt. Если система S! обладает свойством управляемости, то множество всех концов траекторий {х (Т)} совпадает со всем пространством Rn, и значит, множество К имеет непустую внутренность. С другой стороны, если К имеет непустую внутренность, то в силу леммы к теореме 1 {x(T)} = Rn. Но это означает, что множество всех точек вида т заполняет все пространство. Значит, совокупность всех концов траекторий, начинающихся в произвольной фиксированной точке пространства 7?", совпадает со всем Rn. [Здесь u(t) пробегает пространство L2, однако, так как измеримые ограниченные функ- ции плотны в 12, можно считать, что все управления u(t) огра- ничены]. Таким образом, в этом случае система £ обладает свойством управляемости. Рассмотрим теперь (л х п)-матрицу М (Т). Поскольку т М' (Т) = J [Ф-1 (0в (t) В' (О (Ф-1 (/))']'dt=м (ту ^0 а также т £'М (Т) £ = $ (В’ (ф-1)' £)' (В' (Ф-Х)Х) dt О *0 для любого n-мерного вектора С, то матрица М (Т) симметриче- ская и неотрицательно определенная. Предположим, что матрица М (Т) невырождена, и докажем, что система 3? вполне управляема. Для заданных точек х0 и определим управление u{t)^B'(t)^(t))^9 где постоянный вектор £ определяется формулой ^м-чтиф-чОл^х,]. о этом случае х1^Ф(Т)х0 + Ф(Т)Л1(Т)^
204 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 ИЛИ т X,=ф (Г) ХО+ф (Г) $ Ф-1 (/) в (0 U (0 di, /о что и требуется. С другой стороны, предположим, что система S обладает свойством управляемости. Если матрица М (Т) вырождена, то существует постоянный вектор £#=(), такой, что т ?м (Т) С = $ II В' (f) (Ф-1 (0)' С |М=0- t о Но это означает, что В’ (/) (Ф"1 (/))' £ = 0 на интервале t Т. Поскольку система 3! обладает свойством управляемости, то ко- нечная точка Ф (Т) £ может быть достигнута системой, исходя из начала координат, с помощью управления u(t) и, значит, т £=$<D-i (t)B(t)u(t)dt. Но тогда V т т о < п= $ £'Ф-1 (0 В (t) и (0 dt = $ (В'(0 (Ф-1 (О)=0. t, /. Это противоречие указывает на то, что М(Т)—невырожденная матрица. Теорема доказана. В частности, если матрица Ф-1 (/) В (/) В' (/) (Ф-1 (/))' невырож- дена хотя бы в один из моментов t, то матрица М (Т) будет не- вырожденной матрицей, и система 3 будет обладать свойством управляемости на интервале 3.3. Иллюстрирующие примеры и специальные задачи В этом разделе мы рассмотрим вопросы синтеза управления с обратной связью для различных оптимальных управляемых систем, опираясь на теорию, изложенную в предыдущем разделе. Вначале будут рассматриваться задачи, в которых целевое множе- ство не задано заранее, затем задачи с заданным целевым множе- ством и, наконец, задачи с неограниченным временем управления. Критерий качества т C(u)=g (х (Т)) + $ [|| х (s) ||^ +1| и (s) ]|Ь] ds. /о Пример 1. C(u) = x'(T)Gx(T) + xa(T), где постоянная сим- метричная матрица G = G'^0, т. е. g(x)=x'Gx, является неотри- цательно определенной квадратичной формой, и значит, выпуклой функцией. По теореме 5 существует единственное оптимально
3.3 иллюстрирующие примеры и специальные задачи 205 управление и* (t) с соответствующим решением х* (f). Они опре- деляются как единственные решения уравнений х = Л(0х+В(0[/-1(0В'(Оп'» П = х'№(0 —гИ(0, удовлетворяющие условиям х(/0)=х0, т]'(7’) = — Gx(T), где «♦(0=с/-Ч0В'(0п*'(0- Оптимальная траектория х* (t) = (х°* (0, х* (/)) приводит систему в ту единственную точку, в которой квадратичная поверхность Sm;Xo_|_x'Gx = m касается множества К (см. рис. 3.1). В этой задаче можно получить оптимальное управление в явном виде, применив линейную цепь с обратной связью и переменным по времени усилением. Целесообразность такого метода следует из анализа примера 4 первого раздела главы 1. Мы попытаемся выразить оптимальное управление в виде u*(t) = E*(t)x* (0, где Е* (0—известная матрица, не зависящая от х0, а именно, = где E(t) есть решение нелинейного матричного дифференциального уравнения Ё (0 = W (t)—A' (0 Е—ЕА (t)—EB (0 U-1 (0 В' (0 Е с начальным условием Е(Т) =— G. Поскольку G—симметричная матрица, и матрица Ё(0 также симметрична, как видно из напи- санного выше выражения для нее, то решение Е(0 есть одно- значно определенная симметричная матрица. Мы покажем, что решение х(0 уравнения х = А (0х+В(0 [£/-1 (0 В' (0Е(0х], х(/0) = х0 является оптимальной траекторией х*(0 и, таким образом, управ- ление и* (0 = U-1 (0 В' (t) Е (0 х* (0 является оптимальным. Пусть х(0—указанное выше решение; положим т| (0 = х'Е (/). Тогда непосредственным вычислением можно показать, что (х(0, т](0) есть решение системы х = А (0 х+В (0 U-1 (0 В' (0 я', Я = х'1Г (0 — тр4 (0, удовлетворяющее условиям x(Q=x0, rf (T) = — Gx(T). Таким образом, х(0=х*(0 и n(0=tl*(0 в силу свойства единственно- сти, установленного в теореме 5. Таким образом, управление с обратной связью и*(0 = Е*(0х
206 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ. КРИТЕРИЙ КАЧЕСТВА гл. 3 автоматически дает нам оптимальную траекторию х* (/) для любого начального состояния х0. Если состояние системы внезапно изме- нилось в результате воздействия внешнего импульса, то управле- ние с обратной связью вернет систему из возмущенного состояния на оптимальную траекторию. Заметим, что мы вычисляем матрицу Е* (f) = В (/)£(/) после того как найдено решение Е (t) нелинейного дифференциаль- ного уравнения. Это нелинейное уравнение является уравнением типа Риккати, и может быть проинтегрировано в элементарных функциях лишь в некоторых отдельных случаях (см. ниже упраж- нения 1 и 2). Однако существуют стандартные численные методы, позволяющие получить достаточно точно матрицу E*(f). Остается одна тонкость—надо доказать, что решение Е(/) указанного выше нелинейного уравнения определено на всем интервале Если это не так, то норма | Е (/) | стано- вится неограниченной при t, стремящемся к ^ерхней границе Т. Тогда для любого заданного а существуют /0 и х0 такие, что ХцЕ(1^ х0> а при | х01 = 1 и /0 < Го < Т. Но, поскольку матрица Е (f) не зависит от х0 и то используя ^оптимальную траекторию, исходящую из точки х0 на интервале можно записать т|* (/q, хо) х* (/0, х0) ~ XqE (^о) хо a. Однако любое сколь угодно малое возмущение х0 4- 6х0 начального состояния х0 вызывает малое смещение соответствующей траекто- рии; поэтому точка х*(Т, х04-6х0) должна находиться внутри некоторого компактного множества, лежащего под гиперповерх- ностью Set с> tn. Отсюда следует, что норма ] х* (Т, х0) | равно- мерно ограничена при | х01 = 1 и tQ < Т, а значит, и соот- ветствующие решения х*(/, х0), г|*(/, х0) указанной выше линей- ной системы дифференциальных уравнений также равномерно ограничены. Это противоречит предположению о том, что x'qE (/о) х0 > а для произвольного а, и следовательно, норма | Е (t) | ограничена и решение Е (/) суще- ствует на всем интервале tQ^.t^T. т Пример 2. С(и) = е’ (T)Ge(T) + $[||e(OHV + ||«(OHM^. W to ошибка выражает отклонение траектории х (t) от желаемой идеальной траектории £(/) на интервале Как и раньше,
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 207 предположим, что . . G = G'>0, W = (0>0, -U (t) = U' (0 > О, а |(/)—непрерывно дифференцируемая вектор-функция. Кроме того, мы перейдем к более общей линейной управляемой системе 2?, вводя известную непрерывную возмущающую силу п(<): х= A (t)x + B(f)u + v(t). Рассмотрим в качестве переменной нашей управляемой системы не x(t), а ошибку e(f). Тогда получим уравнение: (£+) A + + e(Q = e0 = x0—g(/0), где функция со (/) вычисляется следующим образом: «(/)= + Положим еще е(/) = (е°(/), e(f)), где t (/) = $ || е (s) ||V +1| и (s) ||1/ ds, /о t t е (0 = Ф (/) е0 + Ф (0 $ Ф"1 (s) В (s) и (s) ds + $ Ф (/) Ф-1 (s) со (s) ds, *0 ^0 и определим множество достижимости К+= {е(Т)} = {е°(Т), е(Т)}. Это множество К+ есть результат параллельного переноса множе- ства К для со (/) = 0 на постоянный горизонтальный вектор У ч О, Ф (Т) Ф-1 (s) со (s) ds \ Следовательно, К+ замкнуто и выпукло ^0 ' в Rn+1. К линейной системе 2+ с критерием качества С(и) = т = e'(T)Ge(T) + ^ [h(s)||V + [I и (s) ||у] ds приложима вся теория пре- дыдущей главы. В частности, существует единственное оптималь- ное управление и* = П'(О с соответствующим ему оптимальным решением Действи- тельно, е* (/) и ц* (/) представляют собой единственное решение системы ё = А (/) е+В (О U-1 (О В' (0 т|' + со (О, ri — e'W (/)-—(/) с граничными условиями e(tQ) =е0 = х0—1(/0) и ^'(Т) = — Ge(T). Оптимальное управление и* (/) является, конечно, оптимальным
208 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 управлением и относительно решения х* (0 = <?*(/)+ £(/). Попробуем рассчитать оптимальное управление в виде цепи с обратной связью и переменным коэффициентом усиления: и*(0=Л*(04-£*(0«*(0- Здесь = и £•(/)= С/"1 (0 5'(0^(0» где функции h(t) и E(t) определяются из уравнений E = ®(t)—A'(f)E-—EA(t)—EB(f)lJ~'l(t)B'(f)E, где Е(Т) = —G, Л = — [E(t)B (t)B' (0 + Л' (0] h—Е (/)©(/), где ft(T) = 0. Тогда, как показано в примере 1, Е (убудет симметричной матри- цей на интервале a h(t) определяется из указанного Рис. 3.2. Синтез системы с обратной связью. выше дифференциального линейного уравнения. Заметим, что h(t) и Е (/), а тем самым и h* (/) и Е* (f), не зависят от х0. Легко показать, что решение e(t) уравнения е --= А (0 е + В (/) [Л* (0 + Е* (/) е] + <о (/) с начальным условием e(t0) = ee является оптимальным решением Положим и проверим, что пара (е (/), л (/)) удовлетворяет системе дифферен- циальных уравнений, единственным решением которой является (е*(0, Таким образом, оптимальное управление, построенное как управление с обратной связью, дается выражением «*(0=Л*(0+£*(0« или и* (0 = h* (0—Е* (0 g (0 4- Е* (t)x. На рис. 3.2 мы даем блок-схему управляемой системы с этим управлением.
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 209 Замечания. Имеется интересная интерпретация множества К. для системы примера 1 (или сдвинутого множества К.+ для си- стемы примера 2). Рассмотрим множество К в (п-|-1)-мерном пространстве с координатами (х°, х); очевидно, что если система 3? вполне управляема на интервале t0 t Т, то граница множе- ства К представляет собой однозначную функцию К (х) векторного аргумента х. По определению, К(х) есть минимальное значение критерия C0(w) = x° при перемещении системы из х0 в целевую точку х. Вычислим теперь это минимальное значение т V (х0, Q = х*' (Г) Gx* (Т) + $[ || х* |Г^ +1| и ||Ь] ds to для управляемой системы с начальными условиями x(rf0) = x0. Рассмотрим производную от x'E(t)x вдоль оптимальной траекто- рии x*(t), исходящей из х0, при оптимальном управлении и* (/)= = и~г (/) В’ (t) Е (I) х* (t); тогда получим х’Е (0 х + х'Е (t)x+х'Е (t) х= = [Ax-\-BU~1B'Ex]'Ex-\-x'E [Ax-\-BU~1B'Ex]A-x'Ex. Интегрируя и используя дифференциальное уравнение, определяю- щее Е (t), получим т х*' (Т) Е (0 X* (Т) -х9Е (Q х0 = $ [ II х* (s) ||uz +1| «* ||5] ds. t. Когда основной функционал С (и) принимает значение С (и) = =х' (Т) Gx (Г) 4-х° (Т), то V (х0, /0) = — х'0Е (t0) х0. Это явное вы- ражение для минимального значения критерия подтверждает ре- зультаты, полученные на основе метода динамического программи- рования в примере 4 первого раздела главы 1. Пример 3. С (и) = £х (Т) + х° (Т), где £ =/= 0 —фиксированный n-мерный вектор-строка. В силу теоремы 5 существует единствен- ное оптимальное управление u*(t) с соответствующим решением х* (0- Оно определяется через единственное решение системы х = А (/) х+ В (0 U-1 (/) В' (t) т]', т| = х'Ц7(/)—г]А(0» удовлетворяющее начальным условиям х (t0) = х0, х\(Т) = — у С, причем И*(О = {/-1(ОВ'(ОЛ*'(О-
210 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Мы не будем здесь строить оптимальное управление в виде цепи обратной связи (см. упражнение 9), а дадим непосредственное реше- ние двухточечной краевой задачи для системы с постоянными коэффициентами. Пусть задана система в R2: X1 = X2i х2 = и, с начальными условиями х1 (0) = xj, х2 (0) = xj. Пусть критерий качества имеет вид 1 С (и) = х1 (1)+Х* (1)4- $ {(X1 (0)2 4- («(0)2} dt о для скалярных управлений и (0 на интервале 0 t 1. Система для определения оптимальных решений х* (0 и r|* (t) имеет вид Х1 = Х2, X2 = Т|2, TIj^X1, П2 = —Т11- причем х1 (0) = xj, х2 (0) = xj, r]1(l) = r|2(l) = —у и и* = Для любых начальных условий Л1(0) = Лю, Л2 (0) = Лго можно определить решение указанной выше системы с начальными усло- виями (xj, xj, r|io> Лао)- Действительно, Л1 (0=Ф (0 *• + Ф (0 Х14- Ф (0 Лю + Ф (0 Лоо, Л2 (0 = —ф (0 xj — ф (0 X2—ф (0 Т]1О 4- ф (0 т]20, где 1 Г t , t t , t 1 ф(0 = —sin —T=-ch —cos-7=^sh—= . KT L /2 /2 К2 KT J Однако (т]10, t|20) связаны конечными условиями: —у = ф(0^4-ф (l)^o 4-ф(0 Лю 4-Ф (l)il2o, —у=—Ф(1)х1—ф(1)х2—ф(1)111о4-ф(1)П2о- Из этих двух уравнений определим г]10 и т]20 как функции от (xj, х„). Таким образом, решение (х1^), х2(0, г|1(0, г|2(0) вполне определяется управляемой системой критерием качества С (и) и начальными условиями (xj, х0. Если в каждый момент времени t из интервала 0 t 1 определить (Лю, Лго) в зависимости от текущего или возмущенного состояния системы (х1 (0, х2 (0), то можно рассматривать управ- ление «*(0 = Л2(0 4- как управление с обратной связью.
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 211 Задачи с подвижными концами Существуют такие задачи управления линейными системами с интегральным критерием качества, в которых систему требуется перевести из одной заданной точки не в фиксированную точку, а в любую из точек некоторого целевого множества. Здесь мы рассмотрим те дополнительные условия, которые возникают в связи с требованием, чтобы конец траектории принадлежал целевому множеству. Снова рассмотрим систему в 7?": G?) x=A(t) + B(t)u, с критерием качества т Со («) = х« (Т) = $ [||х (s) ||uz +1|«(s) ||iz] ds, как и в разделе 3.2. Пусть G—непустое компактное выпуклое целевое множество в 7?". Требуется выбрать такое управление u(t)cRm, минимизи- рующее критерий С0(ы), которое переводило бы систему из точки х (t0) = хв в некоторую точку х (Т) £ G. Для простоты предположим, что система S обладает свойством управляемости на интервале /0 t Т, так что область достижимости К = {х° (Т), х (Т)} является замкнутым выпуклым множеством, обладающим внутрен- ними точками в 7?п+1. Если бы система S не обладала свойством управляемости, то все рассуждения можно было бы проводить внутри линейного многообразия L (Л), натянутого на множество К в Rn+1, если только G пересекается с L(K). Множество G лежит в пространстве 7?” с координатами х. Рассмотрим в пространстве 7?"+l с координатами (х°, х) цилиндри- ческое множество G = G х R1. Поскольку система 3 обладает свой- ством управляемости, то пересечение G с К есть замкнутое выпуклое множество. Мы хотим перевести систему из точки (0, х0) в Gf|7< так, чтобы значение х°(Т) было минимальным. Очевидно, что оптимальное управление u*(t) существует. Минимальное значение х° на G Г) К достигается в некоторой общей граничной точке х* (Т) = (х°* (Т), х* (Т)) множеств G и К [если только оптимальное управление, минимизирующее Со (и) в задаче с нефиксированным целевым состоянием, не переводит систему из х0 в G—этот случай сводится к примеру 1, и поэтому здесь не рассматривается]. Таким образом, оптимальное управле- ние u*(t), переводящее систему из состояния (0, х0) в состояние х* (Т), дается выражением
212 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Здесь я(0=(—у’ таково> что П^х'№(0—т]Л(0, а т|(Т)—нормаль к К в точке х*(Т). Рассмотрим горизонтальное поперечное сечение Р:х° = х°*(7) в R"+1. Тогда, если считать, что G совпадает с Ъ Л Р, можно показать, что множества G и К П Р разделяются общей опорной (п—1)-мерной плоскостью л в Р. Действительно, г\(Т) есть нормаль к л, причем внутренняя по отношению к G. Теми же рассуждениями, что и в теореме 5, можно показать, что задача обладает единственным оптимальным управлением и* (0, а х* (t), я* (0 находятся как решения системы х = А (0 х + В (0 и-1 (0 В' (0 Т|', n = x'W (t)—v\A (0, где x(t0) = x0, x(T)£dG и t](7)—внутренняя нормаль к G в точ- ке х(Т). Пусть целевое множество G в Rn определяется неравенством у(х)^0, где у(х)—выпуклая функция из С1 такая, что grad у О на 9G. Тогда граничные условия принимают вид: х(/0)=х0, •у (х (7)) =¥ 0 и т) (7) =—k grad у (х (7)) для некоторого k > 0. По - следнее условие называют обычно условием трансверсальности. Пример 1. Рассмотрим линейную систему в Р2: хх=ха, х* = и со скалярным управлением и (0 на интервале 0 t 1 и крите- рием качества 1 C(«)-J(«(0)a^. о Начальное состояние системы (х1 (0), х2 (0)) = (0, —3), а целевое множество есть круг G: (хх)а-|-(х2)2<1 в R*. Эта система обладает свойством управляемости, и следовательно, существует единственное оптимальное управление и* (t). Мы найдем и*(0 = пИ0 из системы дифференциальных уравнений х1=ха, х2 = т]а, ^ = 0, ii2 = —П1 с граничными условиями х1 (0) = 0, х2 (0) = — 3 и условием транс- версальности ЙЯ)]—k[5(1)] при <х1<1))2+<ха(1))2=1> k>Q-
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 213 При любом выборе начальных данных ч1(0) = г|м, Ла (0) = Лао мы можем найти соответствующее единственное решение данной системы дифференциальных уравнений . Tli(O = 1lio> П2(0 = — W+Пм» Х1 (0=^+^-3<, #(/) = -^+W-3. Для того чтобы при t = 1 удовлетворялись условия трансверсаль- ности, нужно потребовать выполнения следующих соотношений: T|i (1) = Пю ~ k*1 (D = б" Лю ~2 Ла® * П2(1) = — Л1о + Л2» = — Ь2(1) = — — уЛю + Л*®— з) . и (Лю)2 + (—Л1в+Л2о)’ = £* Для некоторого k>0. Два линейных условия на (г]10, т]2()) дают _ З6(т+Л) 12(fe*+6&) Ли— fca_|_ 16*4-12 ’ г,20-_*24-16*+12' Окончательное квадратичное условие будет выполнено, если урав- нение #4-32#—80#—480/г—2448 = 0 будет иметь положительный корень. Но этот многочлен четвертой степени можно разложить на множители: (k—6) (# + 38# + \48k + 408) = 0. Таким образом, уравнение имеет положительный корень fe=6, а второй множитель не имеет положительных корней. Следователь- но, k = G, т]1о==6, к]20 = 6 и оптимальное управление имеет вид «*(/) = _6/4-6 (0</<1). Пример 2. Рассмотрим автономную систему в /?", обладаю- щую свойством управляемости (^) х= Ax-i-Bu, с критерием качества С (и) = j и' (s) Uu (s) ds. о Мы хотим привести систему из состояния х (0) = х0 в состояние х(Т) = = 0 с минимальным показателем качества С (и). Найдем решение системы уравнений х= Ах-\-я=— т]Л,
214 интегральный выпуклый Критерий качества гл. 3 удовлетворяющее условиям х(О)=хо, х(Т) = 0. Оптимальным управлением будет «*(/) = С/Здесь r]*(/) = C'e~At, а по- стоянный вектор С определяется из условия х(Т) = 0, так что -Т -1-1 J e~AsBU~lB'e~A's ds х0. _о J Для случая п = 2, т=1 задача примет вид 2Л С (и) = J u2 (s) ds, о и надо вычислить /2« ____| С Г COS S Lsins Тогда —sins’ coss coss sins’] —sins cossJ —x0Ml — «/o/nj Уо. ’ u* (t) = — sin t—— cos t. Этот пример показывает, каким образом ошибка x(t) может быть приведена к нулю за конечный промежуток времени с минималь- ной затратой энергии. Соответствующее оптимальное управление можно выразить в явном виде как функцию начальных условий и некоторых других параметров для широкого круга линейных управляемых систем. Регулирование на бесконечном интервале Если рассматриваемый интервал tv t Т становится беско- нечным, т. е. Т =-[-оо, то изложенная выше теория приводит к проблеме регулятора т. е. к задаче поддержания общей ошибки системы на оптимально малом уровне. Мы упростим исследование, рассматривая лишь автономные линейные системы в Rn: (З?) х = Ах + Ви, где А и В—постоянные матрицы. Далее, критерий качества для управлений u(t)c:Rm на интервале 0^/ <оо имеет вид со C(«) = nik(s)||^ + ||«(s)||2dds, о где W =W' > 0 и U = U'>Q также постоянные матрицы. До- пустимыми считаем управления u(t), измеримые на интервале 0 t о° и такие, для которых критерий качества сходится
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 215 к конечному значению. В частности, допустимыми будут все управ- ления u(t) из пространства L2(0, оо) интегрируемых с квадратом функций; кроме того, отметим, что все соответствующие им реше- ния x(t) также принадлежат L2(0, оо). В самом деле, можно по- казать, что litnx(Z) = O. t -* оо Задача может и вовсе не иметь допустимых управлений, на- пример, при В = О, А = I, х9 ф 0. Если система 3? обладает свой- ством управляемости, то для того, чтобы определить допустимое управление на интервале 0^/<оо, можно взять управление, переводящее систему из точки х9 в начало координат за конечное время и далее равное нулю. В следующей ниже теореме дается синтез цепи обратной связи для оптимального управления в задаче построения регулятора. Предварительно, однако, нам придется доказать лемму Ляпунова для отрицательно определенных матриц. Лемма. Рассмотрим уравнение, коэффициентами которого являются действительные матрицы H'E' + EH = Q, где Q = Q' > 0. Тогда решений Е = Е' <0 существует в том, и только в том случае, если Н —устойчивая матрица (т. е. все собственные значения матрицы Н имеют отрицательную действи- тельную часть). Доказательство. Если Н—устойчивая матрица, то тре- буемое решение дается сходящимся интегралом Е = —-^ен'{ QeHtdt. о Очевидно, что Е = Е' < 0; интегрированием по частям получим Я'Е' = — J Н'ен'* QeH‘dt = —[<?«'' QeHt ] “ + J ен'{ QeHt dt о о или H'E' = Q—EH, что и требовалось. Обратно, предположим, что матрица Е = Ег < 0 есть решение нашего уравнения. Рассмотрим систему линейных дифференциаль- ных уравнений в R": х = Нх. Продифференцируем по времени квадратичную функцию v (х) = = —х'Ех (имеющую эллипсоидальные поверхности уровня,
216 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 заключающие начало координат) вдоль решения х (t) О —х'Ех—х’Ех=х’ [—Я'Е'—ЕН] х. Тогда ^= — x'Qx<0 и x(t)—>0. Таким образом, Н—устойчивая матрица. Лемма до- казана. Теорема 7. Рассмотрим автономную систему в Rn, обладаю- щую свойством управляемости, («S’) х= Ах+ Ви, с критерием качества * I C(«)=5[|lx(0l^ + ||«(0||y]dt W = W’>0, U = U’>0, о определенным на множестве всех допустимых управлений и (t) a. Rm (О < оо). Тогда существует единственная симметричная отри- цательно определенная матрица Е, удовлетворяющая уравнению А'Е + ЕА + EBU-'B'E = W, для любого начального состояния x0£Rn существует единственное оптимальное управление u*(f), определяемое формулой j Таким образом, оптимальное решение x*(t) удовлетворяет асимп- тотически-устойчивой системе дифференциальных уравнений х = (Д + BU~1B'E) х, С (и*) — — х'ЛЕха есть минимальное значение критерия качества. Доказательство. Предположим, что существует решение x*(t), я*(0 системы уравнений х = Ах + В U ~ 1В 'я', т| = х'1Г —т)Д, удовлетворяющее условиям х(0) = хо, х(оо) = 0, т](оо) = 0. Тогда покажем, что соответствующее управление и* (t) = U~1B'v^'(t) является единственным оптимальным управлением, a x*(t)—оп- тимальной траекторией, исходящей из точки х*(0) = х. Поскольку x*(f), т]*(0 являются решениями автономной линейной системы, и поскольку они убывают при /->оо, то они должны убывать экспоненциально, и следовательно, u*(t) является допустимым управлением.
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 217 Пусть <&(t)—решение, соответствующее любому допустимому управлению u(t) на интервале 0^/<оо. Положим t “° (0 = Пие <s) И* + И “ II»] ds’ о и дальше будем рассуждать так же, как в теореме 3. Если «(/) отличается от и* (0 на некотором положительном промежутке времени, то из доказательства теоремы 3 следует, что — ух°(оо) + т](оо)х(оо)—г](0)хо > — —у <0° (оо) + Т] (оо) (О (оо)—г] (0) х0 и значит, Со (и*) < Со (и). Следовательно, u*(t) является единственным оптимальным управ- лением. Теперь построим необходимые нам решения x*(t), т|*(/) ука- занной выше системы дифференциальных уравнений, используя постоянную симметричную отрицательно определенную матрицу Е. Определим х* {t) как решение системы дифференциальных уравнений х = (Л+В(/-1В'Е)х с начальным условием х0 и положим i\* = x*'(t)E. Тогда, используя решение Е уравнения А'Е 4- ЕА + EBU^B'E = №, легко проверить, что x*(t) и rj* (/) являются искомыми решениями. Покажем, что х* (оо) = т|* (оо) = О, установив, что матрица (A-]-BU~1B'E) устойчива. Из условия, наложенного на Е, непосредственно следует, что (Л + BU~1B'E)' Е + Е(А + BU-^B'E) = W + EBU-'B'E. Поскольку EBU~1B'Е = Еу U как симметрич- ная матрица, то из леммы следует, что (Л -\-BU~1B'E) есть устой- чивая матрица, что и требовалось. Чтобы вычислить оптималь- ное значение критерия качества, продифференцируем выражение х'Ех вдоль оптимальной траектории х*(/); тогда получим [**' (0 Ех* (/)] = х’Ех+х'Ех= = (Ax + BU-'B'ExY Ех+х'Е (Ах+BU~lB’Ex).
218 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Используя алгебраическое условие на Е, интегрированием послед- него соотношения получим t х*' (0 Ех* (/) — х'0Ех0 = J [|| х* (s) ||uz + II и* (s) I|y] ds. о Таким образом, —x'0Ex0 = G(u*). Вопрос о существовании и единственности отрицательно опреде- ленной матрицы Е для вполне управляемых систем рассматривается в упражнениях, следующих за этим разделом. Теорема доказана. Пример 1. Рассмотрим скалярное уравнение х = — x-\-u.(t), х(О) = хо и критерий качества C(«)=J[x* (/) + «»(/)] Л. о Уравнение для определения Е имеет вид (-1)£ + Е(-1) + Е8=1. Выберем Е=\—У 2 < 0; тогда оптимальное управление будет u*(/) = (l—K2)x*(f), а оптимальное решение х* (/) = х^-^. Упражнения 1. Уравнение движения ротора имеет вид х=и, где х—кинетический момент ротора, a u(t) —скалярный управляющий момент относительно неподвижной оси вращения. Если управление и (t) на интервале 0 «С t < 1 пропорционально силе тока, то общая затрачиваемая энергия равна 1 ан2 (/) dt,где а > 0 — постоянный коэффициент. Мы хотим уменьшить на- о чальную скорость х0 вращения ротора. а) Использовать критерий качества С (и) — х (1)2+ аи2 (/) dt и синтези- о ровать оптимальное управление в виде управления с обратной связью. Вычис- лить минимальное значение критерия качества. Ь) Использовать критерий качества С (и) — х (1)+ aw2 (/) dt и вычислить о его минимальное значение.
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 219 1 с) Рассмотреть критерий качества С (и) — txu2 (t)dt для управлений, при- о водящих систему из состояния xQ в состояние покоя. Вычислить минималь- ное значение критерия качества. 2. Уравнение движения осциллятора имеет вид х+х—и, где (х, х) — состояние системы, а и (t) — управляющая сила на интервале 0=С?^2л. При / = 0 система находилась в состоянии (0, 1) и мы хотим сдви- нуть фазу колебания на л/2, получив движение g(/) = cos/. Пусть 2Л С (и) = J [(х— cos /)3 + (*+ sin i)2 4-и2 (/)] di. Записать дифференциальные урав- о нения для элементов матрицы обратной связи Е (/), как в разобранных выше примерах. Заменить e(t) разностью [е (t + h)~е с малым шагом h > 0 и наметить схему численного решения соответствующих разностных уравнений. 3. Синтезировать оптимальное управление и* (/) для задачи x~j~x — u 00 с критерием качества С (и)— J [х2 (/) + х2 (/) + м3 (/)] dt. Найти минимум С (и) о при начальном состоянии системы х(0) = 0, х(0) = 1. 4. Найти оптимальное управление и* (/) на интервале которое переводило бы систему из состояния (0, 0, — 3) в целевое множестве G:(x1)2 + (x2)2-|-(a:3)2=C 1. Система имеет вид х=и или, в 7?3, 1 х1 — *2, х2 = х3, х3 = м, С (и) = J и2 (/) dt. о 5. Рассмотрим управляемую систему в Rn: (^) x=A(t)x+B(t)u Т с критерием качества Со (и) = [|| x(s) ||uz + l|и || заданном на множе- но стве управлений и (/), определенны хна. интервале в Rm. Пусть R=^>(T), х(Т)} — множество достижимости в Rn+\. Показать; что любой точки xgК можно достигнуть, используя непрерывное управление и (i) (tQ^t^T). ... . : & Рассмотрим уп ра вл яющукг систему в Rn: (^) x=A(i)x+B(i\u V2 т определённым на L^o. J множестве управлений й (/) из Rm на интервале t^^t . Пусть К — мно- жество всех точек {С© («)» хи (Т)} в Rn+1- а) Доказать, что единственным оптимальным управлением и* (t) является управление, минимизирующее функционал Со (и) = [Со (и)12.
220 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Ь) Пусть g(x)—строго выпуклая функция из С1, т. е. g(Xxi + (l — м*2) < tygfa), 0 < % < I, Ж15*Ж2, и пусть функция g(x) ограничена снизу. Доказать, что если критерий качест- ва имеет вид С (w) = g(x(T)) + C0 (и), то имеется единственное оптимальное управление, а именно, и* = (/) В' (0 т)*'(0 с соответствующей оптималь- ной траекторией х* (0. Здесь вектор-функция (х* (0, л* (0) есть решение си- стемы уравнений x=A(t)x+B(t)U-i(t)B'(t)n', 4 = x'W(t)-^A(t), удовлетворяющее условию X (/о) = х«. П (Г) = - /ёда grad g (х (Т)). 7. Рассмотрим систему в Rn: (J0 х==Л(0х+В(0|4 т а) с критерием качества С (и) = J |[ х (s) ds, определенным на мно- жестве управлений и (0 с Rm (/0 t «С Т), удовлетворяющих ограничению т Доказать, что в этом случае существует оптимальное уп- равление и* (i). Если (0 > 0, то показать, что оптимальная траектория х* (0 единственна. [Указание: использовать слабую компактность единич- ного шара в La (f0, T).J т b) Пусть критерий качества С (и)*= J || u (s) ||^ ds задан на множестве h управлений u(t)cRm таких, что соответствующие им решения т удовлетворяют условию J || x(s) 1. Доказать существование единст- во венного оптимального управления и* (0 при условии, что существует хотя бы одно допустимое управление. [Указание: пусть и№ й слабо, так что C(u(*>)\infC(w). ТоЬда limC (и№)£*С (и). Это последнее неравенство^ следует из того факта, что обобщенные коэффициенты Фурье вектор-функции и сходят- ся к соответствующим коэффициентам вектор-функции и*.] 8. Предположим, что матрица Е(0=Е'(0 есть решение уравнения E — W (0-А' (0 Е—ЁА (0—ЕЙ (.0 U-1 (0 В' (t)E, удовлетворяющее условию £(Т)=—G, как и в примере 1 раздела 3.3. Дока- зать, что Е (0=[фз (О-Ф* W GJ (Ф1 (О-Фз (О О-1, где ¥(/)= р**1’М
3.3 ИЛЛЮСТРИРУЮЩИЕ ПРИМЕРЫ И СПЕЦИАЛЬНЫЕ ЗАДАЧИ 221 есть фундаментальное матричное решение системы х= Л (0 х+В (0 U-1 (0 В' (0 if, П = х'Г(0 —т]Л (0, удовлетворяющее условию ^(Т) = /. Написанное равенство для Е (0 выпол- няется в некоторой окрестности точки t = T, точнее, до тех пор, пока матрицы [фз—Ф^] и невырождены. 9. Рассмотрим управляемую систему в Rn: (<#) х=Л(0х+В(0и, т с критерием качества С (и) = & (Г) + J [|| *(s) ||тг + ||и (s) ||а} ds> гДе 2 есть ненулевой постоянный вектор. Проверить, что оптимальное управление реали- зуется в виде цепи обратной связи и* (/)=(/ -1 (0 В’ (t) [h (0 + Е (0 х* (0), где £ = W (i)E—EA (t)—EB (f) V1 (0 В' (0 E, h= -[£ (0 В (0 U-1 (0 В' (t)+Af (0] h с граничными условиями £ (Т)=0, ft(T)=—^'/2. 10. Рассмотрим автономную систему в Rn: х=Ах-$-Ви, СО с критерием качества С (и)— J [||x(s) ||^ + || w(s) ||^]ds (см. теорему 7). Пока- о зать, что V (х) = — х'Ех есть функция Ляпунова для оптимизированной системы x^lA+BU-'B'Elx. Иначе говоря, проверить, что: a) V (х) > 0 для х * 0 и V (0)=0; b) V (х (0) < 0 для х 0. 11. Пусть Q = Q'^O и пусть Л—действительная устойчивая (пХ^-мат- рица. Показать, что CD £„ = IlZ.!.)”-1 С tneA,tQe^ dt, n=0, 1,2, ... ЛI J есть единственная симметричная матрица, удовлетворяющая уравнению (Л Э»*1 F+ (Л+1 (Л')« FA+/”+4 (Л')»-1 FA*+ • • • \ / . \\.^ / /л+ 1 \ ... + ( ) ЛТЛ«+ГЛ«+1 = р. \ п / /п-4-1 \ Здесь биномиальные коэффициенты имеют, как обычно, вид ( ) = \ г / =(„4.” jlr) jf । • [Указание: проверить, что Л'Fn+FnA = Fn.lt F-X = Q,
222 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Для доказательства единственности упростить вычисления, сделав преобра- зование координат 4 =P~14P, F — P'FP, Q = P'QP.] 12. Решить уравнение A'F -\-FA-Q относительно F — F', где л Г 0 И л Г1 1 — 1J’ [о 1J’ 13. Рассмотрим автономную систему в Р": (J£) х=Ах-\-Ви, с критерием качества C(u)=J[||x(S)||2z + ||«(S)||2,]dS, W = W'>0, U = U'>0, О как и в теореме 7. Пусть и (/) < оо) —некоторое допустимое управле- ние, т. е. управление, для которого С (и) < оо. Доказать, что lim х(/) = 0. (Указание: если lim | х (t) | > в > 0, то для любого X > 0 существует бес- /->00 конечное количество моментов времени 71 00, таких, что |х (^1)] = в, но |х(0|<-|- в некоторый момент t из интервала + Фиксируем достаточно малые в > О и т > 0. Тогда найдется такое б > О, что /i + Т ’ J | и (t) | dt > б. Поэтому существует £ > 0 такое, что || u(t) ||ц dt > £> О для бесконечной последовательности моментов времени Zj-^oo.) [et е “ ДЛЯ уп- e е2 J равляемой системы х—ах = и, 00 с критерием качества С(«)= J [x'lFx+yw2] dt, где О (Указание: согласно теореме 7 надо решить относительно Е уравнение A'E-\-EA = W — — Г** е*21, где 4=Г011, V Lee, ef J [а о] г__s___— 1 и проверить, что если е — — уа—у у2а2~Ру^1, e1 — w—~ееъ—ае%> е2 — — — yw2 — 2уе, то матрица Е является действительной и отрицательно опре- деленной). 15. Рассмотрим управляемую линейную систему в Rn: (<£) х=Ах+Ви,
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 223 с критерием качества 00 C(“)=ni№+ll“l|cdd/- w >°> и > °’ о как и в теореме 7. Доказать существование и единственность отрицательно определенной матрицы Е, удовлетворяющей уравнению W—A'E—ЕА— ЕВ[/“1В'Е = 0, и такой, что u—U~rB'Ex есть оптимальное управление, минимизирующее критерий качества, причем С(а) = — xqExq. Ход доказательства намечен в следующих пунктах: а) В примере 1 раздела 3.3 симметричная матрица D(t) на интервале удовлетворяющая уравнению D = W + A'D + DA— DBU-'B'D, D(0) = 0, определяет усиление в цепи обратной связи Е (t) = — D (— t) для соответст- вующей оптимальной управляемой системы на конечном интервале §<КТ. Оптимальное значение критерия качества при начальном состоянии х0 равно (Т) х0. b) Если 0 < 7\^Т2, то 0 < D (7\)D (Т2) в том смысле, что x'D (Ti) x<x'D (Т2) х для всех x£Rn. с) Пусть D—стабилизирующая матрица для системы (J?) х= Ах + Ви, u = Dx, т. е. такая, что матрица A—A-[~BD является устойчивой. Проверить, что lкачение критерия качества для допустимого управления u(t)~DeAtx0, x(t) = eAtxQ на 0«Cf<oo со равно С(и)~Хо0хо, где 0= J eAt\W -\~D'UD}eAt dt. Следовательно, D(T)^0 о для всех О «С Г < оо. d) lim D (Т) — Da> существует и D (Т) < D& 0. т -><х> е) Матрица D& является решением уравнения W-\-A'D-[-DA — — DBU~1B'D = Q. Тогда Е=—D® и есть искомая отрицательно определен- ная матрица. Единственность решения Е следует из формулы С (и*) ——х'0Ех0. 3.4. Интегральный выпуклый критерий качества Мы займемся теперь линейными управляемыми системами в Rn: U7) x = A(t)x + B(t)u, с интегральным критерием качества т с (и) =g (х (Т)) + $ [f° (/, х)+Л° (/, u)]dt, ^9
224 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 где А (/), B(t), g(x), f° (t, x), h°(t, u)—непрерывные матричные и векторные функции своих аргументов (t0 t Т, х £ R", и g Rm). Будем также предполагать в этом разделе, что /°(/, х) и Л°(/, «) — выпуклые функции при любом фиксированном /; кроме того, f°(f, х)>0, h°(t, u)>a|u|/' для некоторых постоянных а>0 и р>1. Эти предположения о положительности, которые, как будет показано в упражнениях, могут быть ослаблены, необходимы для существования оптималь- ного управления (минимизирующего критерий качества) в классе измеримых управлений с конечным значением критерия качества. Прежде всего мы рассмотрим случай g (х) = 0. Как и раньше, мы изучим геометрию множества достижимости К = К(х„, T)czRn+1, состоящего из конечных точек х (Т) всех траекторий х (0 = = (x°(f), x(f)) системы x = A(f)x+B(t)u(t), х° = /»(/, x) + h°(t, u(t)) с заданным начальным состоянием х0 (/) = (0, х0). Здесь под управ- лением и (t) на интервале t„ t Т понимается любое допустимое управление. Используя неравенство т т Со (и) = J [/° (t, х)+/г° (t, u)] dt > a J | и (t) dt, мы получим, что любое ограниченное измеримое управление u(t) является допустимым; кроме того, каждое допустимое управление u(f) принадлежит Lp(to, Т), а значит, и L^o, Т). Из предполо- жения о выпуклости функций f°(t, х) ц h9(t, и) легко извлечь, что выпуклая комбинация допустимых управлений также будет допустимым управлением. Конец траектории х(Т) можно вычислить, как обычно, по формуле вариации произвольных постоянных, t х(Т)=Ф (Т) х0 + Ф (Т) $ Ф’1 (s) В (s) и (s) ds. 11> Кроме того, х°(Т)=С0(и). Для упрощения наших рассуждений предположим, что систе- ма 3? обладает свойством управляемости на интервале t0 t Т. Отсюда будет следовать, что проекция множества К(х0, Т) на подпространство в Rn+1 с координатой х есть все Rn, иначе нам пришлось бы все время вводить линейное многообразие, натяну- тое на К. Многие из наших результатов являются непосредствен-
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 225 ними обобщениями теорем раздела 3.2. Однако в силу большей общности задач, рассматриваемых в этом разделе, мы не сможем получить здесь элементарный синтез оптимального управления в виде цепи обратной связи, как это делалось для квадратичных критериев качества; вместо этого мы будем сводить построение оптимального управления к двухточечной краевой задаче, которую можно решать различными численными методами. Лемма. Рассмотрим систему в Rn, обладающую свойством управляемости: (^) x = A(t)x+B(t)u, с критерием качества Со (и) и множеством достижимости KcRn+1. Тогда ортогональной проекцией К на гиперплоскость х® — 0 будет все Rn. Далее, множество К, представляющее собой совокупность вертикальных лучей, лежит выше гиперповерхности х° = а1|х|^ для всех достаточно больших | х | и некоторого постоянного at > 0. Доказательство. Поскольку система 2 вполне управляе- ма, то точки х(Т) должны заполнять все пространство Rn, когда управление «(/) пробегает линейное пространство ограниченных измеримых функций. Так как каждое допустимое управление и (t) из (/0, Т) можно аппроксимировать ограниченным управлением, и поскольку выпуклая комбинация допустимых управлений есть снова допустимое управление, то очевидно, что проекция множе- ства К на гиперплоскость х° = 0 представляет собой все про- странство Rn. Пусть управление u(t) переводит систему из точки (0, х0) в точку у = (г/°, у) в К. Построим управление uf (t) = u(t)-\- Р«₽ (0> такое, что т (1) $O-1(s)B(s)«₽(s)ds = 0 и (2) С0(И(,) = 1/« + 6 для любого заданного Этим будет показано, что К есть совокупность вертикальных лучей. Пусть Е—замкнутое подмно- жество_ненулевой меры из интервала t0 t Т, такое, что управ- ление u(t) непрерывно и ограничено на Е. Положим XB(t) = l при t из Е и XE(t) =0 в остальной части интервала, и построим разбиение интервала [?0, Т] /0 < tr < t2 <... < tn+1 < Т, такое, что т т ^XB(t)dt=i^XE(f)dt, tk ' t9 Й==1, 2, п+1. 8 Э. Б. Ли, Л. Маркус
226 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Тогда, используя те же обозначения, что и в лемме, предшествую- щей теореме 1, положим 4 (s) = [X (s, tn+1) рх + X (s, tn) . + X (s, Q р„+1] ХЕ (О и u'p(s) = 0 для /=2, 3, ...,т на Снова выберем ненулевой вектор Р = {РХ, р2, .... 0„+1} так, чтобы уСЛОВиё (1) ВЫПОЛНЯЛОСЬ ДЛЯ И. (0^0. __ Поскольку ир(0 = О при t^E и управление u(t) ограничено на Е, то управление uf (t) является допустимым при любом фикси- рованном р^О. Заметим, что Со (и0) = Сл (и) = у°, и С0(и.)> т г > a J | ир (0dt, так что ^0 lim С0(Ир)= 4-оо. р -> 00 Поскольку С0(Ир) непрерывно по р, то существует такое р^О, что Co(Hp) = #o4-£> что и требуется. Чтобы получить оценку, указанную в лемме, заметим, что для каждого1 допустимого управления и (0 т |x(7)KA14-/5|n(0|d/, *0 где kt = | Ф (Т) х01 и 1= max |Ф(Т)Ф_1(0В(0|. В силу выпук-' t т лости | и к как функции от | и | имеем неравенство "Т ~\р т J|«(0|dZ <$|и(0КЛ|Т— J t. Таким образом, х«(Т) = С0(и)>а Гг V J|u(0|dd >а Г1 ।~fel 1р|Т—/0|i-/>. J Отсюда следует, что для всех | х (Т) | 2kt имеем *в(П>й?|х(Т)р|т-г.Гл Лемма доказана. Теорема 8. Рассмотрим систему в R", обладающую свой- ством управляемости: {S} x=A(t)x + B(t)u,
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 227 с критерием качества т Co(«)=$[f°(^ x)+h0(t,u)]dt. to Тогда множество достижимости KcRn+1 замкнуто и выпукло. Доказательство. Доказательство выпуклости множества д проводится так же, как и в теореме 1. Для доказательства замк- нутости множества К воспользуемся неравенством lim inf Со (uk) Со (а), k -► оо где uk(t)— последовательность управлений, слабо сходящаяся к й(/). Доказательство этого неравенства, которое является вы- ражением одного общего свойства выпуклых функций, приведем в заключительной части доказательства теоремы. Рассмотрим последовательность точек хк (7) == (х%(Т)~, хк(Т)), соответствующую управлениям uk(t), и сходящуюся к х = (х°, х) в Rn+1. Поскольку последовательность х^(7) = С0(ыА) ограничена, то функции ик (t) лежат внутри некоторого замкнутого шара в банаховом пространстве L р (t0, Т). Следовательно, можно выбрать подпоследовательность, которую мы вновь обозначим uk(t), слабо сходящуюся к u(t). Предполагая, что указанное выше неравенство верно, легко получаем, что u(t)—допустимое управление с соот- ветствующим ему решением (х°(/), x(t)) и lim xk(t) = x(t), lim inf х£(7) > (7). k -> co k —* co Таким образом, x(T)—x и х°(Т)^х°. Поскольку множество К представляет собой совокупность вертикальных лучей в Rn+1, за- ключаем, что точка х принадлежит К, и значит, К замкнуто. Докажем ^теперь использованное нами неравенство. В силу того, что ик (t) и и (/) лежат в некотором замкнутом шаре пространства ^(^о» 7), они должны быть равномерно ограничены в простран- стве Lj (t0, Т) и, значит, для нормы | хк (t) | и x(t) также имеет место некоторая равномерная оценка. Таким образом, г т lim $ f° (t, хк (0) dt=\f<> (t, х (0) dt. k -* “ t. Итак, остается лишь показать, что Г т lim inf J й° (i, ик (/)) dt > f h° (t, и (t)) dt. 8*
228 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Пусть С — некоторое замкнутое подмножество интервала /0 t Т, на котором управление и (/) непрерывно, а следова- тельно, ограничено, a S—компактный шар в Rn, внутри которого содержится а (С). Для каждого фиксированного t рассмотрим вы- пуклую гиперповерхность в Rm+1, описываемую уравнением ua = h0(i, и). Для каждого и t из интервала рассмотрим все опорные гиперплоскости к поверхности и) в точке (о, h°(t, о)), т. е. гиперплоскости и° = у(0(«—v)+h.°(t, о). Множество Н всех таких гиперплоскостей является компактным подмножеством (2т-}~ 1)-мерного евклидова пространства с коор- динатами (/, v, у). Поскольку ни одна из опорных гиперплоско- стей не является вертикальной, то ясно, что имеет место равно- мерная оценка |Т|<С1ВД. Зададимся теперь некоторым е > 0 и определим управление v (/) = t\XE1 (/)+vsXEa (t) + ... + vgXEg (0 для t € С, и v(t)=u(t), если t не принадлежит С. Здесь под XEi(t), XEi(t).. .XEq(t) понимаются характеристические функции непере- секающихся измеримых множеств Ег, ..., Е9, на которые разбито С, а постоянные векторы vlt v9 выбраны так, что |«(0-*Ф)|<8|Т-/о+1|-Ч?г\о(0с:5, и Для каждого t £ Ег построим опорную гиперплоскость к гипер- поверхности u° = h°(t, и) в точке (t>v h°(t, t>x)). Пусть ее уравнение Можно считать, что функция ух(/) ограничена и измерима на Ег (см. приложение к главе 2). Так как гиперповерхность ы°=Л°(/, и) лежит выше своей опорной гиперплоскости, то получим h°(t, и)—h*(t, для всех u£Rm. Таким образом, для t^,Ei имеем fc = l, 2, 3, ... Используя аналогичные неравенства для каждого из множеств Ег, ..., Ед, а также разложение у (0 = ух (0 XEl (/) + у, (/) ХЕг (0 + ... + у9 (0 XEq (О,
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 229 получим ((t «А (0) Л > J Л® (л I» (0)л + $ Т (0 («А (0 -° (0) dt. с с с Для больших k —► оо в силу слабой сходимости имеем $ V (0 («ДО—«(0 + « (0—v (0) dtl < 8 + е. с I Кроме того, по предыдущей оценке J | h° (t, v (t))—h9 (t, и (0) | dt < 8. c Поэтому J Л® (t, uk (/)) dt $ h° (t, и (0) dt—38. c c Очевидно, что существует последовательность замкнутых мно- жеств С^сС^СцС.... такая, что lim Cz = [/0, Г], и на каждом I -* оо из которых управление u(t) непрерывно; повторим наши рассуж- дения для каждого из них. Поскольку' последовательность т uk(t))dt ограничена, а последовательность Л°(/, u(/))XCi(0 ^0 монотонна по Z, то очевидно, что существует предел т lim J Л® (t, и (0) dt = ft® (t, и (/)) dt. Итак, для любого заданного 8 > 0 существует константа С, та- кая, что т т ^h*(t, ик (0) Л > $ Л® (/, ик (0) Л > J ft® (t, и (0) dt—4в Cl для всех достаточно больших k. Следовательно, т т lim inf U®(/, uttfidt. t. t. Теорема доказана. Следствие. Рассмотрим, систему в Rn, обладающую свой- ством управляемости (^) x=A(t)x+B(t)u с критерием качества C(u) = g(x(T)) + Cor(u).
230 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Если: а) функция g(x) > b, т. е. g(x) ограничена снизу в Rn или Ь) функция g(x) выпукла в Rn, то для системы («S’) существует оптимальное управление. Доказательство. Доказательство следует из теоремы 2 и оценок, установленных в лемме предшествующей теореме 3. Для системы «S’, обладающей свойством управляемости с кри- терием качества С0(и), управление u(t), переводящее систему из точки (0, х0) в граничную точку множества К в 2?n+1, называется экстремальным управлением, а соответствующая траектория — экстремальной траекторией. Конечно, оптимальное управление системы «S’ с показателем качества C(u)=g(x(T)) + C0(u) также переводит систему по траектории х(/) = (х°(/), x(t)) в граничную точку множества К и, значит, является экстремальным. Как и раньше, мы охарактеризуем экстремальные управления с помощью принципа максимума. В этой части теории под сопряженным решением, соответствую- щим и(ф и x(t), мы будем понимать n-J-1-мерный вектор-строку т1(О = (т1о, л(0), координаты которого удовлетворяют линейной системе (Л) Ло = 0, n = —Ло^(Л т]Л(О. В дополнение к обычному предположению о непрерывности, упо- мянутому в начале этого раздела, мы будем в дальнейшем пред- dfQ полагать, что функция х) непрерывна на интервале при х б Rn. Из свойства выпуклости f° (t, х) тогда следует, что f° (t, x)—f° (t, х)^д£ (t, х) (х—х). Т е о р е м а 9. Рассмотрим систему в Rn, обладающую свойством управляемости x=A(t)x+B(t)u, с критерием качества т Со (и) = $ [/«(t, x) + h° (t, м)] dt. _ ^0 _ Управление u(i) с решением x(t) будет экстремальным в том и только том случае, если существует вектор ?) (t) — ("По» Л (0), удовле- творяющий системе (Л) ло = О, Ло<О» Л=—*(0)—М(0>
2 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 231 и такой, что принцип максимума выполняется почти всюду на интервале [/0, Т]: Я0Л° (*» “(0) + Я(0В (/)«(0 = max [я<Л° (Л «) + Я(0В (t)и], и Доказательство. Пусть управление «(/), соответствующее решение х (/) = (х° (t), ~х (/)), и сопряженное решение я (t) = (я0. Я (0) удовлетворяют системе # ' =A(t)x+B(t)Z(t), 1 ’ x« = fo(t, x)+h«(t, u(t)), x(fe)=(O, x0), а также системе А при Яо < 0 и сформулированному выше прин- ципу максимума. Мы покажем, что Я(7’)х(0>Я(Т)®(7’), где со (/) — (со0 (0> ®(0) есть решение, соответствующее произволь- ному допустимому управлению и(/). Из этого неравенства сле- дует, что точка х(Т) лежит на границе множества К и что век- тор я (Т) есть внешняя нормаль к К в этой точке. Из уравнений 3? и А следует, что 37 [Я (0 ® (0] = Яо®° + Я® + Я® И я (Т) а (Т) — я (/о) Хо = =j {яо р°(Л ®) —*)®] + [я<Л° (t и) + я5«]|^. Пусть теперь управление u(t) равняется u(t), а решение равно x(t); тогда получим я(Пх(Т)-я(их0 = {яо [f° (Л X)—d-^(t, х)х-] +[я0Л°(/, ы) + яВм]}^. Из принципа максимума и условия выпуклости следует, что ПоЛ°(^ ^(О) + я(ОВ(О«(О>Пой°(Л + и Л(Л (о)-Л(Л £)>^(U)(0-I), откуда вытекает, что я(Т)х(Т) >я(Г) ® (Т). Тем самым u(t) является экстремальным управлением.
232 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Обратно, предположим, что u(t)—экстремальное управление, так что соответствующая траектория х (0 = (х®(0, x(t)) ведет из точки (0, х0) в точку х(Т), лежащую на границе множества X- ! Пусть л(Т,) = (ч]0, к\ (Т))—внешняя нормаль к К в точке х(Т). Очевидно, что т]0 < 0; для простоты примем т]0=—1. Определим я(0 как решение сопряженной системы Л с заданными гранич- ными условиями т](Т) при /=Т. Требуется доказать, что —Л°(6 «(0)4-т|(0В(0«(0=тах[—А°(Л и) 4- т| (0 В (0 и] 5 и почти всюду на интервале Доказательство усложняется из-за того, что сопряженная си- стема Л зависит от основного решения х(0. Чтобы обойти эту трудность, мы введем одно построение, которое в дальнейшем будет применено при доказательстве принципа максимума для наиболее общих нелинейных систем. Сущность этого метода со- стоит в том, что в течение некоторого короткого промежутка . времени tY t tх 4- в на управление и (t) накладывается импульс- ’ ное вдЬмущение; на этом промежутке управление ы* (0 не удов- летворяет принципу максимума. Возмущенное управление u* (t) т J&.&T приращение, выражаемое формулой J [тъ/*0 ы) 4~ Я (0 X ~ » 'о I ХВ(0«]Л ПРИ вычислении т] (Г) со (Т), что противоречит пред- положению о том, что х(Т) лежит на границе К. Изложим теперь это доказательство подробно. Предположим, что управление u(t) не удовлетворяет принципу максимума в те- । чение некоторого положительного промежутка времени из интер- вала Определим управление ы(0 по формуле —h°(t, й(0)4-т](0В(0и(0=тах [— h°(t, u)-\-x\(t)B{t)u]. ? и 1 Очевидно, что управление u(t) ограничено, и его можно выбрать I измеримым, как показано в приложении к главе 2. Пусть С— I компактное подмножество_ненулевой меры из интервала t0 < t < Т, на котором управления и (t) и и (0 непрерывны, и удовлетворяют неравенству —Л" (0 и (0) + п (0 В (0 и (0 < — h° (I, й (0)+П (0 В (0 и (0 -6 для некоторого постоянного 6 > 0. Выберем момент 0 € С, для которого множество (0, 0 4-е) П С имеет меру в [14-0 (в)] для
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 233 малого 8 > 0 рдесь lirnO (e)==OJ. Определим возмущенное управ- ление = / на Сп^’ *1 + 8>’ 8' \ и (/) в остальной части интервала /0 t Т. Тогда, для достаточно малых 8>0, решение x*e(t), соответствую- щее управлению u*(t), равномерно аппроксимирует x(t). Точнее, легко показать, что I х» (/) —х (О I < Й8 для некоторого k > О на интервале Поскольку производная ^-(f, х) непре- рывна, то IP(t, x(t))(xt(t)-x(t))<eO^. Из предыдущих вычислений для rj (Т) со (Т) следует, что П(Т)Х(Т)-П(Т)^(Л< т < J [р(л хио)-Р(^ х(о)(хе*(о-х(о)] dt- -б8[1+0(8)]. Тогда, для достаточно малого 8 > О r\(T)'Xe(T)>i\(T)x(T). Однако это невозможно, поскольку л(Т) является внешней нор- малью к К в_граничной точке х(Т). Следовательно, экстремальное управление u(t) должно удовлетворять принципу максимума с сопряженным решением Теорема доказана. Следствие. Рассмотрим систему в R", обладающую свой’ ством управляемости: Г(^) x = A(t)x+B(t)u с критерием качества т C(«W(x(T)) +J [p(t x) + h*(t, u)]dt, ^0 где 'функция g(x) 'выпукла, а функция h°(t, и) строго выпукла, т. е. для 0< 1 < 1 и иг=^и2 и для любого фиксированного t h*(t, ХМ1 + (1—X)u8)<W(/, u1) + (l— иг). Тогда любые два экстремальных управления, переводящие систему из точки (0, х0) в одну и ту же граничную точку множества
234 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 К, должны совпадать почти всюду. Кроме того, существует единственное оптимальное управление. Доказательство. Пусть и(t)—экстремальное управление, а х(0 = (х° (t), x(t))—соответствующее решение. Пусть далее т](0 = (—1> л(0)—соответствующее сопряженное решение, так что вектор т] (Т)_является внешней нормалью к К в точке х (7). Тогда управление u(t) удовлетворяет принципу максимума —№(t,u (0) -|- т) (t) В (0 и (0 = max [—ft® (t, и) + я (0 В (0 и] = т(0. и Пусть теперь управление и(0 вдоль соответствующего реше- ния а>(0 переводит систему из (0, х0) в ту же самую точку ©(Т)=х(Т). Если управление и(0 не удовлетворяет принципу максимума при заданном т|(0, то т $[—ft°(f, й(0)4-т)(0В(0«(0]Л> Т I > $[—й°(0 и (0) + я(0В(0ы (0] dt. *0 Тогда вычисления, проведенные в теореме 9, показывают, что п(Т)х(Т)>п(П®(П=п(Пх(Т), что невозможно. Таким образом, заключаем, что управления u(t) и и(0 удовлетворяют принципу максимума почти всюду на интервале Рассмотрим теперь управление у[и(0 + «(0]. Из строгой выпуклости ft°(/, и) следует, что -А°(л (0+у« (0) +п (0 B(t)^ [й (0 + и (0] > >l/n(0 + 4-m(0 всюду, где u(0=#u(0. Из предыдущих рассуждений заключаем, что управления и(0 и а(0 совпадают почти всюду. Поскольку g(x) есть выпуклая функция, то должно сущест- вовать оптимальное управление и* (t), являющееся экстремальным и переводящее систему из точки (0, х0) в то подмножество гра- ницы множества К, где функционал x9-\-g(x) достигает своего минимума. Из теоремы 5 следует, что функционалах0+ g'(x) может достигать минимума лишь в одной точке Р множества К. Следо- вательно, и*(0 есть единственное экстремальное управление, пе-
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 235 реводящее систему из точки (0, х0) в точку Р, что и требовалось доказать. Замечания. Даже в случае, если Л®(/, и) не является строго выпуклой функцией, можно получить вполне определенное экстремальное управление u*(t, т| (/)) для каждого заданного со- пряженного решения А именно, для каждого фиксирован- ного t и заданного г] следует выбрать u*(t, ц), исходя из прин- ципа максимума —h°(t, и*) + т]В(0“* = 1пах + и Если функция Л® (t, и) строго выпукла при каждом t, то прин- цип максимума однозначно определяет управление и* (t, т]). Одна- ко, если даже Л® (t, и) просто выпуклая функция, то можно одно- значно определить u*(t, т|), выбрав среди точек Rm, удовлетворя- ющих принципу максимума, точку с наименьшими координатами. Иначе говоря, выберем u*(t, r]) = (u*1, и*2, ..., и*“) так, чтобы и*1 было минимальным из всех возможных решений принципа максимума, затем выберем и*2 минимальным среди всех решений с выбранным значением и*1 и так далее, пока не получим u*(t, т)). Если вектор-функция т] (/) непрерывна, то u*(t) = =u*(t, л(0) будет приемлемым управлением (см. приложение к главе 2). Следующая теорема показывает, что u*(t, т]) можно интерпре- тировать как оптимальное управление, определенное на основе синтеза цепи обратной связи. Теорема 10. Рассмотрим управляемую систему в Rn (^) x = A(t)x+B(t)u, с критерием качества т С(«) = я(х(Т))+$[/®(/, x)+h°(t,u)]dt. ^0 Предположим, что функция g{x)^O выпукла в Rn. Тогда суще- ствует решение x?(t), if (t) системы уравнений x=A(t)xA-B(t)t?(t, ц), n = ^(t,x)—r[A (0, такое, что x(Q=x0, nCO = — gradg(x(T)). Здесь управление u*(t, т|) определено из принципа максимума —h°(t, u*) + i\B(t)u*=max[—h°(t, и)+ (/)«], a u*(t)^=u*(t, rj* (t)) является оптимальным управлением с соот- ветствующей оптимальной траекторией %♦(/).
236 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Если функция h°(t, и) строго выпукла при любом, t, то реше- ние х*(1), т]*(/) единственно, и u*(t) есть единственное опти- мальное управление. Доказательство. ^Рассмотрим гиперповерхности <$с: x°4-g(x) = C в Rn+1. Тогда, как и в теореме 5, существует един- ственная гиперповерхность Sm из этого семейства, такая, что Sm касается К, а т есть оптимальное значение критерия качества. Пусть = (—1, т]* (Т))—нормаль к касательной гиперплоско- сти к S„ в некоторой точке Пусть, далее, «•(/) — экстремальное управление, переводящее систему из точки (0, х0) в точку Р=^*(Т) вдоль траектории х*(/)==(х°*(/), х*(/)). Опре- делим ц*(/) = (—1, т]*(/)) как решение системы **(/))-nA (t), удовлетворяющее условию т]*(Т)= — gradg(x*(T)). Из теоремы 9 следует, что управление u*(t) удовлетворяет принципу максимума с сопряженным решением if(/), т. е. u*(t)~ ~u*(t, tf(/)). Таким образом, x*(Z), Л* (0 есть искомое решение указанной выше нелинейной краевой задачи. Е<упйЛ°(/, и)—строго выпуклая функция от и при любом фиксированном t, то множество 5ЛЛК содержит единственную точку Р, как показано в процессе доказательства теоремы 5. Тогда из следствия из теоремы 9 вытекает, что оптимальное управление «*(/) и соответствующее ему решение ^(^единствен- ны. Точно так же и т]*(/) определяется однозначно, как решение линейной системы дифференциальных уравнений с граничными условиями т] (Т) = —grad g(x*(T)). Теорема доказана. Примечания к задаче с подвижными концами. Рассмотрим систему в R”, обладающую свойством управляемости (^) х=Л(/)х4-В(/)и, с критерием качества C(a)=g(x(T)) + C.(U), как и в теореме 10. Мы хотим перевести систему из начального состояния х0 в заданное целевое состояние ХхСД" с минималь- ным значением критерия качества. Будем считать h°(t, и) строго выпуклой функцией при любом фиксированном t из интервала При этих условиях система обладает единственным оптималь- ным управлением и’ (/), переводящим ее из точки х0 в точку хг. Действительно, рассмотрим подмногообразие/: х=хх в /?л+1. Здесь /ПК есть отрезок вертикальной прямой. Тогда и*(/) переводит 1
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 237 систему из точки (0, х0) в точку (х°*(Т), xj, где х°*(Т) есть са- мая низкая точка отрезка /ПК и С(и*) ==g(Xi) + x°*(T). Далее, если x*(t), я* (О—некоторое решение системы уравнений х = A (t)x+B(t)u*(t, я), n=^-(t *)—М(0» такое, что х(/0)=х0, х(Т) = хх, то u*(t) = u*(t, я*(0)> а пред- ставляет собой оптимальное решение, соответствующее Рассмотрим теперь при тех же предположениях [система 2 обладает свойством управляемости на и/г*(/, и) строго выпуклая функция от и при любом /] задачу о приведении си- стемы из начальной точки х0 в фиксированное компактное вы- пуклое целевое множество G: у (х) О в Rn. Здесь у (х)—некоторая выпуклая функция класса С1, причем grady(x)=/=0 на границе G, представляющей собой гладкую выпуклую гиперповерхность. Как и в рассуждениях раздела 3.3, рассмотрим цилиндрическое множество G=GxR1 в «+1-мерном пространстве с координатами (х°, х). Поскольку система вполне управляема, то множество G пере- секается с множеством К по замкнутому выпуклому множеству, и значит, существует оптимальное управление u(f), переводящее систему из состояния х0 в G и минимизирующее функционал С (и). Для того чтобы еще более упростить задачу, предположим, что g(x) = 0, так что С(«) = С0(и). Тогда минимальное значение х° достигается в СПК в единственной общей граничной точке х*(Т) = (х°*(7'), х*(Т)) [если только оптимальное управление, ми- нимизирующее С0(ц) вне зависимости от целевого состояния, не будет все же переводить систему из точки х0 в G; этот особый случай, соответствующий равенству я (Т) = 0 в теореме 10, мы исключаем из рассмотрения, так как он имеет место тогда и только тогда, когда излагаемый ниже метод не дает решения за- дачи]. Таким образом, существует единственное оптимальное управление «*(/), переводящее систему из точки х0 в G, причем соответствующая траектория заканчивается в точке х*(Т). В точ- ности как в разделе 3.3, можно получить управление u*(t) из любого решения х*(/), я*(0 системы x = A(t)x+B(t)u*(t, я), П = х)—яЛ(0, удовлетворяющего условию х(/0)=х0, у(х(Т)) = 0, а также усло- вию трансверсальности П (Г) = — k grad у (х (Г))
238 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 для некоторого k > 0, полагая и* (/) = «*(/, т]*(/)). При этомх*(/) будет соответствующей оптимальной траекторией. Пример 1. Скалярное уравнение х — х-\-и описывает простую управляемую динамическую систему; в каче- стве критерия качества рассмотрим функционал С(и) = ±- о Задача управления заключается в том, чтобы пере- вести систему из начального состояния х(О)=хо в целевое со- стояние х(1) = 0 с минимальным значением критерия качества. Из принципа максимума следует, что и** । * Г । 1 —+ =max T + n«J или и*=р/гь Таким образом, надо решить систему х=х+^тГ. П = — П с граничными условиями х(О)=хо, х(1) = 0. Поскольку т] = т|ов“<> имеем х=е*х0-~ пУ’ [e~tl3—е‘]. Граничные условия дают nJ/a = ^ 1)-х и оптимальное управление будет иметь вид и* (/) = х0 (е~ I)-1 е~ Ч*. Пример 2. Рассмотрим управляемую систему в Rn-. x = A(f)x-\-B(t)u, с критерием качества I с V/₽ для некоторого заданного р (1 < р < оо). Требуется минимизиро- вать функционал С (и), переведя систему из заданного началь- ного состояния х0 в целевое состояние хх в Rn. Рассмотрим множество К (k) с R" достижимости, соответству- ющее совокупности управлений, удовлетворяющих условию
3 4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 239 Легко показать, что множество K(k) выпукло, компактно и непрерывно расширяется с ростом k, поскольку множество Д' (k) есть объединение горизонтальных слоев К(х0, Т) a Rn+1 при постоянном уровне х° = £р. Наименьшее k, при котором множество K(k) включает в себя точку хп будет минимумом критерия качества. Оптимальное уп- равление u*(f) единственно, как показано в теореме 10 и после- дующих замечаниях. В случае скалярного управления, /п=1, надо решить уравнения х — A(f)x + B(f)u*(t, t|), т) = —М(0 при граничных условиях х(/0) = х0, х(Т) = хг Тогда м*(0 = =«*(/, я(0)> где ( I 1 । -J— — я 5(f) р-1, если | —— т]В(/)р’-1, если т]В(/)<0. В предельном случае р = оо положим || и || «, = sup | и1 (/) |, 1 i /и, (фактически, lim ||u||/,=sup|u/(Z)|, где супремум не р -* со учитывает значения на множестве меры нуль1). Для простоты рассмотрим автономную систему (S) х = Ах+Ви, с критерием качества С(ы) = [|и||ю на интервале и предположим, что система S нормальна в m-мерном кубе | и11 1. Как следует из главы 2, множество Д' (k) является вы- пуклым, компактным, и непрерывно расширяется с ростом k. Поскольку система S обладает свойством управляемости, то существует такое минимальное k*, при котором точка хх = 0 будет впервые принадлежать множеству /((#•). Таким образом, сущест- вует единственное k* > 0, при котором имеется решение системы уравнений х = Ах -|- В sgn (т)В)' k, т] = — т]Д, удовлетворяющее условиям х(О)=хо, х(Т) = 0. Единственным оп- тимальным управлением будет и* (0 = sgn (if (0 В)'(0</<Т), То есть II «||« = max (ess sup |), t = l, 2. m, t £((<>, T] (Прцм. ped.)
240 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 ибо и* (/) есть также оптимальное >по быстродействию управление, удовлетворяющее ограничению || и ||« Л*. * Если отбросить условие, что промежуток времени управления должен быть фиксированным, и рассматривать произвольные ко- нечные интервалы то оптимальное управление может и не существовать. Например, рассмотрим скалярную управ- J ляемую систему | х = и, где требуется перевести систему из состояния х(0)=0 в состояние х (^) = 1 за некоторый конечный промежуток времени 0 t * с минимальным значением показателя качества С (и) —1| и || р, | 1 <р^оо. Для каждого 8>0 рассмотрим управление м(0=тф1 на интервале оо ж S8 dt J -j-r-r расходится, I в-» о г + 1 | и значит, хотя и существует интервал 0 /х (е) такой что . х (/х (е)) = 1, но оптимального управления на любом интервале О t tf, удовлетворяющего условию || и* (/) || р = 0, не суще- ствует. Примечания к задаче о регулировании на бес- конечном интервале. Пусть теперь промежуток времени будет бесконечным, при сохранении всех остальных предположений, перечисленных в начале раздела 3.4. Мы объеди- ним все результаты для этого случая в одной большой теореме. Теорема 11. Рассмотрим автономную систему в R”, обла- дающую свойством управляемости: (J?) х — Ах-\-Ви, с критерием качества <х> C(u)=l[F>(x)+he(u)]dt, О где функция /°(х)^0 является выпуклой, причем fe(x) — O тогда и только тогда, когда х = 0; функция h°(и)^а\и\? строго вы- пуклая и й°(0) = 0. Тогда существует. единственное оптимальное управление и* (t) на интервале 0 t < оо с соответствующим решением x*(f). Предположим, что ни одно собственное значение матрицы А не имеет нулевой действительной части. Тогда для того, чтобы допустимое управление и (t) было оптимальным с соответствую- щим решением x(t) на интервале < со, необходимо и доста-
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 241 точно, чтобы u(t) удовлетворяло принципу максимума т)оЛ° (и (t)) + rj (t) Ви (0 = max [л<Л° («) + П (О 5«] и почти всюду, где я (t) = (я0, Я (0) удовлетворяет сопряженной си- стеме уравнений т1о = 0> Я = —По —я А, с Ло < о и И (°0)= О- Доказательство. Поскольку система 3 обладает свойст- вом управляемости, ее можно перевести из начального состояния х0 в начало координат при /=1, а затем удерживать ее там при помощи управления и = 0. Таким образом, существует по край- ней мере одно допустимое управление, с конечным значением М критерия качества. Построим теперь оптимальное управление u*(t) на интервале 0^/<оо, как предел слабо сходящейся последовательности оптимальных управлений на конечных интер- валах времени. Считая, что в начальный момент времени t = 0 система нахо- дилась в состоянии х0, для каждого конечного интервала вре- мени k—\, 2, 3, ... обозначим через uk(t) опти- мальное управление, минимизирующее критерий качества k Ck(u) = [f°(x) + ^e(u)l dt. Положим Ck(tu*k) — mk, и заметим, что О /иА^тА+1^Л1, поскольку управлению ы£+1(/) на интервале 0^/^^ не может соответствовать меньшее значение критерия СО качества, чем управлению u*k(t). Так как J [мы о можем положить u*k (/) 0 для t > й], можно выбрать подпосле- довательность Ukt(t), слабо сходящуюся к пределу u*(f) на каждом компактном интервале. Для каждого конечного Т > 0 будем иметь т о т < lim inf J [f°(x*. (0) 4-Л0 (uk. (/))] dt < lim mki M. ki-*a> q kf+n Поэтому u*(t) есть допустимое управление с конечным значе- нием критерия качества С(и*) = т^.М. Покажем теперь, что т = lim tnk, и что u*(t)—единственное оптимальное управление k -* <ю
242 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 на интервале 0^/< оо. Так как последовательность управлений Uk. (t) слабо сходится к и* (t) на конечном интервале О t то т $ [Г (X* (0)+Л° («* (0)] dt С lim inf mk( 0 и, значит, m lim tnk. k-*a> 1 Однако никакому допустимому управлению на интервале | 0^/<оо не может соответствовать значение критерия качества, меньшее tnk (для некоторого k), так как это противоречило бы оптимальности управления u*k(t) на интервале Таким образом, пг= Нттл и управление u*(t) на интервале 0^/<оо является оптимальным управлением, доставляющим минимум т критерию качества С (и). Пусть u*(t)—другое оптимальное управление, отличающееся от «*(/) на некотором ненулевом промежутке времени из интер- вала 0’^ t < оо. Рассмотрим управление и* (t) = у [u* (t) + и* (/)] на интервале 0^ t < оо. В силу строгой выпуклости функции Л° (ы) С (и*) < | [С («*) + С (й*)] = т,^ что невозможно. Следовательно, u*(t) является единственным (почти J всюду) оптимальным управлением. fl {Покажем теперь, что управление u*(t) удовлетворяет принципу | максимума, причем под сопряженным решением = (r]J, т]*(0) I понимается предел соответствующих сопряженных решений для I управлений u*k{(t) на конечных интервалах времени. Для каждого 1 ki пусть r\k( (t) = (т]о*4, тМО)—есть сопряженное решение, coot- I ветствующее i4t(f) на интервале где гр-ДО) есть еди- " ничный вектор, Лолг < 0» = 0 и ПокЛ0 (ы*г (0) + Пй (0 ВиЬ (0 = max [т]о*Л° (“) + (0 Ви]. и ’ Выберем теперь подпоследовательность, сохранив прежнюю ну- мерацию, так чтобы lim (0) = Л* (0), fef-* со и определим т)*(0 как сопряженное решение, соответствующее u*(t) с этими начальными условиями. Предположим, что управление u*(f) не удовлетворяет прин- 1 ципу максимума с вектором т|*(0 в качестве сопряженного реше- ।
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 243 ния на интервале 0^/<оо. Тогда для некоторого конечного Т > 0 и 6 > 0 имеем пЖ (и* (0) + П* (0 Вы* (0 + 26 < т]^0 («(0) + П* (0 Вы (0, для некоторого управления u(t) на компактном подмножестве А длины 6 > 0 из интервала 0 t <1 Т [можно считать, что управ- ления «*(/) и u(f) непрерывны и ограничены на А]. Тогда для достаточно больших Л,- и для имеем i\okih° (и* (0) + (0 Ви* (0 + 6 < r]ofei/i° (uki (0) + tiftj (0 Вм а; (/) Это неравенство имеет место, так как вектор-функции равномерно аппроксимируют вектор-функции rf (/) на интервале а управление u’ki(t) удовлетворяет принципу макси- мума с вектором г]^^) в качестве сопряженного решения. Отсюда, как и в теореме 9, следует, что kt kt $ [Л(х*(/))+/г°(ы*(0)]Л-62>$ [f9(x*kt(t)) + h°(uki(t))]dt=mki. 0 о Но тогда С(м*)^624-/и, что невозможно. Итак, u*(f) должно удовлетворять принципу максимума на интервале 0 t < оо с вектор-функцией г]*(0 в качестве сопряженного решения. Покажем теперь, что r|J < 0 и rj* (оо) = 0. Очевидно, что Яо < 0, так как иначе Ло = 0, и в принцип максимума будет входить ли- нейное однородное условие, которое не может быть выполнено. Заметим, что вектор-функция т]* (t) удовлетворяет системе линей- ных дифференциальных уравнений 1i = — Так как х*(оо) = 0 [решение, соответствующее любому допусти- мому управлению, должно стремиться к началу координат; см. упражнение 13 раздела 3.3] и f°(x) = O в том и только том слу- чае, когда х = 0, то lim (х*(/)) = 0. Действительно, неболь- шое уточнение этого рассуждения показывает, что для каждого 8 > 0 существует момент времени Т > 0, такой, что (0)| < 8 и | ~ (х* (0) | < е для всех t>T и для всех достаточно больших k[. Напомним также, что lim я** (0 = П* (0 ki -> 00 равномерно на компактных интервалах, и более того, что x\ki(ki)=O. Пользуясь принципом максимума, найдем, что последовательность
244 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 сходится к управлению а последовательность х^(/) сходится к и, следовательно, последовательность -^-(хлД/)) df° сходится к (х* (/)), причем все это равномерно на любом компактном интервале. Теперь формула вариации произвольных постоянных дает t П*(О=П*(О)«"Л<+ С -^^(х* (з))е-л «-‘'ds. о Если все собственные значения матрицы А имеют положительную действительную часть >%>0, то |e~Af | С1е-И на интервале 0<7<°° при постоянном Cv Пользуясь тем, что-~>(х*(/))—*0, легко доказать, что rf(oo) = 0. С помощью линейной замены переменных т] всегда можно при- вести матрицу А к виду А = 0 Л_ где каждое из собственных значений матрицы А+ имеет положи- тельную действительную часть [и значит, ему соответствуют ком- поненты вектора стремящиеся к нулю при t—>оо], а все собственные значения матрицы Л_ имеют отрицательные дейст- вительные части. При таком разделении компонент т] очевидно достаточно доказать, что т|*(оо) = 0 для случая, когда Л = Л_, и мы в дальнейшем рассмотрим именно этот случай. Имеем (0) + j — (Xkt (s)) eAsds о ki о и, значит, (0) = ^т] о л(^(х*((з)) ds. Покажем далее, что о ОО П* (0) = J По -57 (** (S)) eAs ds. о Имеем т]*(0)= lim W0)= lim f e^ds. ki-* <ю fri -> co g OX Для любого 8 > 0 существует конечное Т > О, такое, что | 57 (Xki (0) I < 8 и I (х* (0) I < 8 При t>T и достаточно
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 245 больших kt. Тогда для больших k( I j eAs ds~^1)0 * тг eAs ds I < J | По’ (S))—По m (X*ki (s)) 11 e-4i I ds + ki +j h« if —t>° <***) 11eAs ids+ T 1 + JIч* 'дГeA418 + 36 J ।eAS।ds' kt 7 Следовательно, n*M = l^^tf(s))eAllds 0 и W) = l^^(*4s))eAis-"ds. t Поэтому при t>T имеем И* (О К s J \eA | ds=8 J | eAi | dg, t о т. e. if (°°) = 0, что и утверждалось. Наконец, мы докажем, что всякое допустимое управление и (t) с соответствующим решением x(t) и сопряженным вектором (т]0, т|(/)) на интервале Q^.t < оо, для которого выполняется принцип максимума, и п0 < 0» И (оо) =0» является единственным оптимальным [управлением. Пусть ы(0 — произвольное допустимое управление с соответствующим решением <в(0 = (®°(0, ®(0)- Замечая, что х(оо) = <в(оо)=0 и используя вычисления, проделанные при доказательстве теоремы 9, полу- чим, что По (?) + И (ТГх (Т) > По (Т) +п (Т) G) (Т) для каждого конечного Т > 0. Поскольку каждый из членов этого неравенства имеет предел при Т—>-оо, а т)о < 0, то нахо- дим, что С(ы)<С(ы).
246 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 Итак, и (t) является искомым оптимальным управлением. Теорема доказана. Пример. Рассмотрим задачу построения регулятора для скалярного уравнения х = и с критерием качества C(„)=jpjfi+^>ps. о В этом примере «*(/, т)) = т1. как следует из принципа максимума, и соответствующая система дифференциальных уравнений имеет вид х = т]> т] = х8. Если х0 = 0, то возьмем u* (t) 0. Если х0 < 0, то положим %*(/)= Г 1 t I-* х0 V~2 J ’ х0 > 0, то х* (t) = Г 1 «о и «*(/) =— 2-1/* - -8 . Если х0 VT t /~2 Г 1 4-'г1 х0 / 2 Часто^ бывает важно уметь вычислять и* в виде цепи обратной связи, т. е. в зависимости от состояния х. Чтобы определить т] как функцию х, проинтегрируем уравнение 1*11 Л о Л = - и получим Т]2 = -. Таким образом, / х% при х>0, [ 7Т при х<0- Примечания к задаче с интегральными ограни- чениями. Рассмотрим линейную систему в Rn: (^) x = A(t)x-\-B(t)u, которая обладает свойством управляемости на каждом интервале ^.Т <_ оо. Мы хотим перевести систему из заданного на- чального состояния х0 в момент времени t0 в целевое состояние за минимальное время Т. На различных интервалах t0 t Т мы вводим ограничения на управления и (t) интеграль- ного вида: т ^0
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 247 Здесь ft0 (/, и) строго выпуклая функция, и при каждом выполняются также все остальные обычные условия непрерывно- сти и выпуклости. Предположим, что существует некоторое управ- ление и (/), переводящее систему из точки х (/0)=х0 в точку х (7) = Xj при Со (и) 1. Пусть (t) —последовательность таких управле- ний, где /<*> стремится к Т*. убывая. Продолжим каждое из управлений по формуле «<*’(/) = О на’интервал 7*4-1. Из неравенства Гёльдера можно заключить, что Т* > t0 и что совокупность интегралов т»+1 | u(ft> (0dt равномерно ограничена. Поскольку р>1, мымо- жем выбрать подпоследовательность последовательности «<W(Q, вновь обозначаемую через и<й>(0> которая бы слабо сходилась к управлению u*(f) на интервале t0^.t Очевидно, что ц*(/)=0 на интервале Т* < t Т*+ 1. Легко вычислить для соот- ветствующих решений, что lim x(ft) (/) = х* (/) на интервале t0 t Т* 4- 1, а также, что х* (7*) = Хх и Со (и*) 1 на интервале t Т*. Следовательно, оптимальное управление u*(t) существует. Рассмотрим теперь множество достижимости К(х0, 7*) в Rn+1. Если С0(и*)<1, то существуют (n4~1) управлений их(/), ... ..., и„+1 (t) на интервале t0 t 7*, каждое из которых перево- дит точку х0 в вершины симплекса, содержащего точку х1( причем Со(«,)<1 Д'151 i=l. 2, ...,«+1. Возьмем 8>0 такое, что управления uz(/) на интервале /0^г‘^7*—8 переводят систему из точки х0 в вершины симплекса, содержащего точку х1( причем так, что все еще Со («/) < 1. Выбрав некоторую выпуклую ком- бинацию управлений un+1(t), можно построить управ- ление и'(С0(м) < 1), которое переводит систему из точки х0 в точку хг за время 7*—8. Но это противоречит оптимальности 7*. Следовательно, Со (и*) = 1. Более того, и* (t) среди всех управлений и (/) на интервале t0 t 7, переводящих систему из состояния х0 в’состояние хх, дает наименьшее значение критерия С0(и). Таким образом, оптимальное время 7* есть минимальное время 7 > /0, такое, что существует решение х* (/), т|* (/) системы
248 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 уравнений x=A(t)x-j-B(t)u*(t, ti), ii=^(t х)—M(o, с граничными условиями х(/0) = х0, х(Т) = хг, так что Со («*)=!. Здесь и* (0 = и* (/, я* (0) есть оптимальное управление. В каче- стве иллюстрации рассмотрим следующую задачу. Пример 1. Требуется остановить тележку, движущуюся по гладким рельсам, что соответствует управляемой системе х = и. т Наложенное ограничение имеет вид Мы хотим пе- о ревести систему из начального состояния хо = 0, х0 = 3 в точку (0,0) за минимальное время Т* > 0. Соответствующая система дифференциальных уравнений имеет вид 1 х1 = х2, x2=4n2. iii = 0, ii2= — ili- Решением с начальными условиями х1 (0) — 0, х2 (0) = — 3, (0) = =1110, П2(О) = т12о будет %1 (0 = у [ ~Т1110+Т1120—3/] Ъ (0 = Ию, %* (0 = "2" 2~ Ию + W , Ц2(/) = Ц1(/ Изо* Из условия на конце х1 (Т) = х2 (Т) = 0 получаем ’ll.—JT» 1120 = ^-, так что u(t) = — ^/+4- на интервале т Ограничение J и2 (/) di = 1 позволяет установить минимальное о оптимальное время Т* = 9. Пример 2. Рассмотрим задачу на быстродействие, в которой ограничение ^выражается в том, что задается средняя Гэнергия а2 > 0, которая может быть использована при управлении,?т. е. т J u2(/)d/<a2T. 6 Теория линейных управляемых систем с такими ограничениями
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 249 вполне аналогична той, которая излагалась перед примером 1. В качестве примера рассмотрим управляемую систему х — и, или систему X1 = X2, хг = и, которую требуется перевести из состояния (xj, х2) = (0, —3) в точку (0, 0) за минимальное время Т* > 0 так, чтобы удовлетво- рялось ограничение на среднюю величину энергии. Для этого мы ищем минимальное Т > 0, для которого имеется решение системы х1 — х2, х2 = уТ)2. П1 = 0, П2 = — Ях» с граничными условиями х1(0) = 0, х2(0) = — 3, х1(7') = 0, т х2(7') = 0, причем <\uidt = a?T, где и (0 = 4* Л* (О- Требование о dt = a?T о дает оптимальное время = тем самым u*(t) =— Эти два примера, а также упражнение 3, следующее ниже, иллюстрируют задачи управления со свободным временем. Обыч- ный метод состоит в том, что неопределенное свободное время Т сводится к фиксированному времени Т* для эквивалентной задачи оптимального управления. В действительности, часто можно при- нять Т*=1 после изменения масштаба, который обычно опреде- ляется в процессе решения данной задачи. Упражнения 1. Для скалярной управляемой системы х~и вычислить оптимальное управление и* (/) с критерием качества: 1 а) С(«)=х(1)+-1.^(х4-|-«*)Л при х(0) = — 37« [ехр З"*7*]-1; о оо Ь) С = J (x4-|-u4) dt при х(0) = 1. о 2. Рассмотреть демпфированный линейный осциллятор и управление, переводящее систему из точки хо = О, хо = О в точку (1, 1) на интервале 0 t 2. Вычислить минимальное значение критерия качества 2 С (и) = (/) dt. о
250 интегральный выпуклый Критерий качества гл. 3 3. Рассмотреть систему х — и, которую требуется перевести из точки х0=1, х0 —0 в точку (0, 0) на интервале 0 t «С 1 с минимальным значением крите- рия качества С (и) = sup | и (/) | . Показать, что эта задача может быть сведена к задаче приведения системы из точки , 0 j в точку (0, 0) за минималь- ное время /*=1 при условии | и | < 1. Наметить решение этой задачи с по- мощью метода кривых переключения. 4. Показать, что при любых начальных условиях (х1 (0), х2 (0)) из множе- ства S = {х1, х21 х1 = 0, | х2 | «С 1}, система i1=x2+«, х2 == — х1—x2-j-w, |w|^l, т имеет решение, доставляющее минимум функционалу С (и) — (х1 (Z))2 dt для о каждого Т > 0. Найти соответствующее оптимальное управление и* (/). 5. В систему х1 = х2, х2 = — х1—x2 + (w)3 управление входит нелинейно. Рассмотреть в качестве критерия качества функ- ционал С (и) = J w4 dt и исследовать возможность сведения такой задачи к о задаче оптимального управления, рассмотренной в теореме 10. 6. Рассмотрим скалярную управляемую систему х—х-\-и с критерием ка- 1 чества С (и)= £ | и (t) | dt при х(0) = 0. Показать, что множество достижимо- 0 сти К с "начальной точкой х(0) = 0 не является замкнутым подмножеством в Rm. (Указание: если управление и (/) переводит систему из состояния х(0) = 0 в состояние х (1) = е, то е-4 и (t) dt — 1 и значит, J|a(/)|df>l. о о Но если положить (/)==( 1—е-6)-1 на интервале и ц6 (t) = 0 при 8< / <;1, то легко вычислить, что lim С(«е) = 1. Следовательно, не сущест- £-> о вует оптимального управления, переводящего систему из состояния х(0) = 0 в состояние х (1) = е.] 7. Уравнения движения тела в плоском линейном центральном силовом поле имеют вид г = —/-]- r02_|_w> r0 = __2r0+v, где и и v—радиальная и трансверсальная составляющие управляющей силы (на единицу массы). Требуется перевести тело с круговой орбиты г=1, 0=1 на другую, концентрическую ей орбиту г = 2, 0 = 1, сохраняя 9(0в1. Найти оптимальное управление, если критерий качества имеет вид С (и)= J (w2 + o2)d/ о на интервале 0 «С t 1. 8. Показать, что для функции F (х) класса С1 в Rn все следующие усло- вия выпуклости являются эквивалентными: a) F^Xi + U — %)x2)<X/?(xi) + (l— X)F(x2),
3.4 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА 251 b) F (Xi)—F (х2) > (х2) (xt—х2); с) множество х°+^(*)^0 выпукло в R”*1. 9. Доказать, что функция Л° (н) = | и1 p+l и21^+» • . + |ww в Rm является выпуклой, если 1«Ср<оо, и строго выпуклой, если 1 < р < оо. 10. Доказать, что нижняя граница множества К, рассмотренного в тео- реме 8, представляет собой непрерывную гиперповерхность над Rn. 11. Рассмотрим нелинейную управляемую систему в Rn: x=A(t)x+h(t, w), х(/о) = *о, с критерием качества Со (м)=х° (Т), где i° = f0 (/, х) + (U) и х° (/0) = 0. Предположим, что А (/), h(t, и), f°(t, х), hQ(t, и) и (dfQldx)(t, х) непрерывны по всем аргументам. Предположим также, что /° (/, х) выпуклая функция при любом фиксированном t, и рассмотрим управления и (i) на фиксированном интервале tb<t Пусть и* (t)—допустимое управление с соответствующим решением х* (/), удовлетворяющее принципу максимума ц*)+т) (/) h (/, и*) = шах [—А0 (/, к)+л(0М*> И)1 и для почти всех /, где г| (/) есть решение системы • df0 П = х*(/))-тМ(0, и т|(Т) = 0. Доказать, что и* (t)—оптимальное управление. 12. Рассмотрим линейную управляемую систему в Rn: (<#) х = А (t) х+ В (0 и, х (tQ) = х0, с критерием качества Со (u) = x° (Т), где x° = f°(^ х) + Л0(/, «), x°(Q = 0, как и в теореме 9. Предположим, что система обладает допустимыми управле- ниями и (/) на интервале tQ < t «С Г, с соответствующими решениями х (/), лежащими внутри некоторого заданного выпуклого замкнутого множества А сг /?", и будем искать среди них оптимальное управление. Для решения такой задачи с ограниченными фазовыми координатами рас- смотрим выпуклую непрерывную функцию F (х) в Rn, причем F (х) = 0 на А и F (х) > 0 вне А. Рассмотрим модифицированный критерий качества т Сх («)= J If0 (*, х) + Ь° (t, u) + KF (х)] dt fo для больших % > 0. Пусть u^(t) — оптимальное управление (не зависящее от А) для каждого % > 0, и предположим, что Um<fc(0=B*(0 для некоторой подпоследовательности таких управлений, сходящейся в ^i(/o, Л- Доказать, что и* (/)—допустимое управление, т. е. С0(и*) < со и x*(/)czA. Доказать, что «*(/) —оптимальное управление данной задачи с ограниченными фазовыми координатами.
252 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 13. Рассмотрим линейную управляемую систему (X) x=A(i)x+B(t)u, с критерием качества т С(И)=£(х(Т)) + $[а(О+Р(0«+/о(Л *)+Л°(*. u)]dt, *0 где функции а (0 и р (/) непрерывны на интервале /0 «С t «С Т и выполняются все остальные обычные условия непрерывности и выпуклости (без предположе- ния об управляемости системы «#). Сформулировать и доказать теоремы, ана- логичные теоремам 8, 9 и 10. 14. Рассмотрим автономную управляемую систему в х= Ах-{-Ви, с начальным состоянием х0 при /о = 0 для каждого интегрируемого с квадра- том управления u(t) на интервале Получить оценку ✓ Т ч V, max [л/(0|<Л1( f[«(s)p ds ) . 1 / Здесь ' V/e М = max I \ wt (T9 s) ds ) * '0 / есть константа, где (ш/у (/, s)) = еА В, ®z= S tt’z/.“2= 3 I"7!*’ /=1 7=1 3.5. Интегральный выпуклый критерий качества при ограниченных управлениях Мы будем рассматривать теперь линейные управляемые системы в R": (J?) i=AXt)'x+B(f)u, с интегральными критериями качества т С (и) =g(x (Г)) + $ [/• (t, х)+Л° (t, и)] dt. *0 Мы примем здесь следующие предположения: Л (0 и В (f)—дейст- вительные непрерывные матрицы на заданном конечном интервале функции g(x), f°(t, х) и h°(f, и)'непрерывны при всех значениях аргументов u£Rm, x£Rn. Кроме того, f°(t, х) и h° (t, и)—выпуклые функции при любых фиксированных t из интервала t0^.t^.T. Дополнительно к этим предположениям, ко- торыми мы пользовались и в разделе 3.4, мы еще будем предпо- лагать, что каждое управление и (/) на интервале 70 t Т
3.5 КРИТЕРИЙ КАЧЕСТВА ПРИ ОГРАНИЧЕННЫХ УПРАВЛЕНИЯХ 253 лежит в некотором заданном выпуклом компактном множестве Q<zRm. Это ограничение u(f)c:Q дает возможность обойтись без каких-либо условий положительности или ограниченности роста на функции f°(t, х) и h9(t, и). Для простоты изложения будем также считать, что задача (S, S2, х0, t0, Т) является нормальной. Тогда область достижимости /С (7) в Rn будет строго выпуклым компактным множеством с непустой внутренностью (предполагаем, что Q содержит более одной точки; см. теорему 3 главы 2). Тогда система S будет обладать свойством управляемости, и далее, каждая граничная точка /f (7) может быть достигнута с помощью единственного экстремального управления. Мы воспользуемся здесь методами, разработанными в раз- деле 3.4. А именно, прежде всего рассмотрим случай, когда g(x)== 0 и рассмотрим множество достижимости KcRn+1, состоя- щее из всех концов х (7) траекторий х ((), исходящих из точки x(Q = (0, х0). Здесь х(0—решение системы дифференциальных уравнений х= А (0 х+ В (0 и (0, х° = f° (t, х)+h° (t, и) при любом измеримом управлении и (t)cQ на интервале /0 t Т. Таким образом, х°(7) = С0(и) и х(7) определяется из формулы вариации произвольных постоянных t x(t) =Ф(0х„+Ф(0 $ ф-1 (S) В(s)и(s)ds. /о Поскольку управление и (/) принадлежит компактному ограни- чивающему множеству Q, то множество достижимости К ограни- чено в Rn+1. Проекция множества К на пространство Rn с коор- динатами х,- (i — 1, 2, ..., п) есть как раз множество К (Т), однако верхняя граница множества К. может быть весьма неправильной формы. Поскольку мы ищем управление с минимальным значением критерия качества, то нас интересует лишь нижняя граница мно- жества К. Мы докажем, что эта нижняя граница представляет собой выпуклую гиперповерхность, определенную на множе- стве К (Т). Определение. Пусть KcR"*1—множество достижимости для управляемой системы (S) x = A(t)x+B(t)u, соответствующее критерию качества т C0(4) = l[f4t,x)+h°(t,u)]dt
254 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 и выпуклому компактному ограничивающему множеству Q<=Rm. Множество Kv, состоящее из точек (х°, x)£Rn+1, для которых имеются точки (t/°, х) 6 К такие, что у0 х°, назовем вертикаль- ным насыщением множества К. Тогда нижняя граница множе- ства Kv, ' очевидно, совпадает с нижней границей множества К, и управление, а также соответствующая ему траектория, при- водящая систему в точку из этой границы, называются экстре- мальными. Теорема 12. Рассмотрим управляемую систему в R": (&) x = A(t)x + B(t)u, с критерием качества т СЛи) = \\Га,х)^а,и)\(И t, и компактным выпуклым ограничивающим множеством QcRm. Пусть ^cRtt+1—множество достижимости. Тогда его вертикаль- ное насыщение будет замкнутым выпуклым множеством в Rn+1. Нижняя граница множества K.v принадлежит К и представляет собой выпуклую гиперповерхность, определенную на множестве K(T)<=Rn. Доказательство. Для доказательства замкнутости множе- ства рассмотрим- последовательность точек yk = (yk, У к) в Д’®» сходящуюся к (у°, у) в R"+1. Так как является вертикаль- ным насыщением множества К, то мы можем найти последова- тельность управлений u{k} (t) с соответствующими решениями xk (t), таких, что xk(T~) — yk и хк(Т)^ук. Далее, можно считать, что некоторая подпоследовательность u<ft)(f) слабо сходится к допус- тимому управлению u(f)<zQ и соответствующие решения xk(t) сходятся к x(t), как в главе 2. Из неравенства, полученного в теореме 8, вытекает, что Следовательно, траектория (х°(/), х(/)), соответствующая управ- лению u(f), переведет систему в точку (х°(Т), у)£К- Поэтому точка (^®, у) лежит в и Kv замкнуто_в Rn+1. Предположим теперь, что точка (t/°, у) лежит на нижней гра- нице множества К. Тогда, повторяя те же рассуждения, получим, что х® (Т) — у° и х (Т) = у, так что управление и (t) переводит сис-
3.5 КРИТЕРИЙ КАЧЕСТВА ПРИ ОГРАНИЧЕННЫХ УПРАВЛЕНИЯХ 255 тему из состояния (0, х0) в состояние (у°, у). Следовательно, нижняя граница множества принадлежит R. Доказательство того, что нижняя граница К. является выпук- лой гиперповерхностью над Д(Т) и, значит, является выпук- лым множеством в Rn+1, проводится так же, как в теореме 8 этой главы. Теорема доказана. Следствие. Рассмотрим управляемую систему в Rn: x = A(t)x + B(t)u, с критерием качества Т с (и) = g (х (Т)) + $ [/’ (/, X) + (t, «)] dt ^0 и компактным выпуклым ограничивающим множеством QcRm. Тогда система обладает оптимальным управлением. Доказательство. Мы ищем минимум действительной не- прерывной функции g(x) + x° на ограниченном множестве Ka.Rn+l. Поскольку функция g(x) + x° монотонно убывает по х° для каж- дого фиксированного х, то нижняя грань g(x) + x° как раз и будет минимумом g(x)+x° на нижней границе множества Д’. Используя неравенство предыдущей теоремы, мы получим, что искомый минимум достигается, что и требовалось доказать. Оптимальное управление u*(t) для системы «S’ с критерием качества C(u) = g(x(T))4-C0(u) и ограничивающим множеством й должно переводить систему из точки (0, х0) в некоторую точку нижней границы множества К и, следовательно, u*(t) должно быть экстремальным управлением. Как и раньше, экстремальные управления будут характеризоваться принципом максимума. Пред- положим, что производная (д/°/5х)(Д х) непрерывна, и заметим, что из предположения о выпуклости следует, что f° (t, x)—f9 (t, (Л *) (x—x). Теорема 13. Рассмотрим нормальную управляемую систему в R": (&) х = A(t) x + B(t)u, с критерием качества Т *0 и выпуклым^ компактным ограничивающим множеством QczRm. Управление u(t) с соответствующим решением x(t) будет экстре- мальным в том и только том случае, если существует ненулевой п+1-мерный вектор-строка п(0)> удовлетворяющий
256 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 системе уравнений 4=0. лоСО, л=—л» (t (о)—л^ (0. и принципу максимума Л<Д° (/, и (0) + л (0 В (0 и (0 = max [л0Л° (0 «) + Л (0 В (t) и] ueQ почти всюдуАш интервале ta t Т. Доказательство. Пусть управление и(0 с решением х(0 = (х°(0, х(0) и сопряженным решением л(0 = (Ло» Л(0) удовлетворяет системам 2 и А и принципу максимума. Тогда, как и в теореме 9, мы получим, что л (Т) х (Т) л (Т) ® (Т), где й(Т)—решение, соответствующее произвольному допустимому уп- равлению ы(0. Из этого неравенства следует, что точка х(Т) лежит на нижней границе множества К, если л» < 0, и на боко- вой дранице множества Kv, если Ло = 0- Но если Ло = т0 реше- ние х (У) системы 2? является экстремальным (в смысле главы 2) и, значит, x(t) лежит на границе множества К(Т) в 7?". Более того, поскольку задача {2\ й, х0, t0, Т} нормальна, то и (t) является единственным управлением, переводящим систему из точки х0 в граничную точку х(Т). Следовательно, х(Т) = = (^(П. х(Т)) является единственной точкой множества д, ле- жащей выше х(71). Итак, х(Т) лежит на нижней границе мно- жества К в любом случае, и значит, w(0 есть экстремальное управление. Обратно, предположим, что и(0—экстремальное управление, так что соответствующая ему траектория х(0 = (х°(0, х(0) исхо- дит из точки (0, х0) и заканчивается в точке х(Т) на нижней границе множества К. Пусть лЮ=(Ло» Л (Т))~внешняя нормаль к выпуклому множеству в точке х(Т). Очевидно, что Ло^О и Ло = О в том случае, когда точка х(Т) лежит на границе мно- жества 7<(Т). Определим вектор л (0 как решение сопряженной системы А с заданными граничными условиями л(^) ПРИ t = T. Надо доказать, что почти всюду на интервале ЛоЛ°(0 и(0) + л(0В(0й(0 = тах [л<Л°(0 «) + л (0В(0м]. иеа Если Ло = 0> т0 Л (Л есть внешняя нормаль к К(Т) в точке х(Т) и, значит, принцип максимума выполняется, как и в главе 2.
3.5 КРИТЕРИЙ КАЧЕСТВА ПРИ ОГРАНИЧЕННЫХ УПРАВЛЕНИЯХ 257 Если т]0 < 0, то доказательство проводится так же, как и в тео- реме 9. Теорема доказана. Следствие. Рассмотрим нормальную управляемую систему (^) х = Л(0х+В(0«. с критерием качества т С (u)=g(x (Т)) 4- J (t, х)+h> (t,«)] dt и с компактным выпуклым ограничивающим, множеством й в Rm. Здесь g(x)—выпуклая функция, a h°(t, и)—строго выпуклая функ- ция при любом t. Тогда любые два экстремальных управления, переводящие систему из состояния (0, х0) в одну и ту же гранич- ную точку множества R, должны совпадать почти всюду. Иначе говоря, существует единственное оптимальное управление. Доказательство. Рассмотрим два экстремальных управ- ления, «1(0 и «а (0, переводящие систему из состояния (0, х0) в одну и ту же точку х(Т) нижней границы множества К. Если (т]о = О, г] (Г)) определяет внешнюю нормаль к К, в точке х(Т), то из нормальности задачи {&, й, х0> А>» Т} следует, что u^t) = = ut (0 почти всюду. Если Ло < 0 для внешней нормали в точке х(Т), то можно применить доказательство следствия к теореме 9, и получить, что (t) = (О- Единственность оптимального управления следует, как и в теореме 5, из того факта, что функционал x°4-g'(x) принимает минимальное значение в единственной точке множества К, что и требовалось доказать. Как и в рассуждениях раздела 3.4, мы можем определить вектор u*(t, г|) по принципу максимума (для случая г]0 = —1): —h°(t, и*) + т]В (0 и* = max [—№(t, и) 4- т)В (/)«]. «€ Q Если вектор-функция г](/) непрерывна, то u*(t) = u*(t, i](0) явля- ется допустимым управлением из й. Следующая теорема показывает, как можно интерпретировать управление u*(t, г]) как управление в цепи обратной связи для задачи синтеза оптимального управления. Теорема 14. Рассмотрим нормальную управляемую систему в R": (^) х = A(t)x + B(t)u, с критерием качества т C(u)=g (х (Т)) 4- $ If® (t, х) 4- Л® (t,«)] dt ’ Э. Б. Ли, Л. Маркус
258 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА гл. 3 и компактным выпуклым ограничивающим множеством Q<zRm. Предположим, что g'(x)$C1—выпуклая функция Rn. Тогда суще- ствует решение я* (0 системы уравнений x=A(t)x+B(t)u*(t, т|), n = х)—1)4(0 с граничными условиями x(te)=x0, r\(T) = — grad g(x(T)). Здесь управление u*(t, rj) определяется из принципа максимума — h° (t, и*) + qB (0 и* = шах [— Л° (/, и) + i)B (t) и]. и € Q Оптимальное управление u*(t) = u*(t, л‘(0) с соответствую- щим оптимальным решением я? (t). Если h° (t, и) строго выпуклая функция от и для всех t, то решение i)*(0 единственно, и u*(t) является единственным оптимальным управлением. Доказательство. Среди гиперповерхностей семейства Se x°-|-g(x)=c в Rn+1 имеется в точности одна (а именно, Sc при с = т), которая касается множества Kv, и т есть оптимальное значение критерия качества. Поверхность Sm касается множе- ства Kv\a некоторой точке Р, лежащей на нижней границе мно- жества К. Касательная гиперплоскость к Sm является также опор- ной гиперплоскостью к в точке Р, и поэтому можно считать вектор т]*(7') = (—1, i]*(T)) нормалью к этой гиперплоскости. Пусть u*(f)—экстремальное управление, переводящее систему из точки (0, х0) в точку Р = х* (Т) вдоль траектории х? (t) — (х°* (/), х? (0)- Пусть т)*(0 = (-^1, 11(0) определяется как решение системы П = (t, х*(0)-1И(0, удовлетворяющее условию i)*(T) = — grad g (х* (Т)). По теореме 13 находим, что u*(t) удовлетворяет принципу максимума при со- пряженном решении т)*(0 = (—1» Ч*(0)> т- е- «*(0 = ы‘(0 Ч*(0)« Если h°(t, и) строго выпуклая функция от и для каждого t, то гиперповерхность Sm касается К лишь в одной точке Р. В этом случае u*(t), x?(t), а значит, и i]*(0 определены однозначно. Теорема доказана. Следующий пример показывает, как можно свести задачу на быстродействие с интегральными ограничениями к задаче с инте- гральным критерием качества. Пример. Рассмотрим нормальную управляемую систему в Р": (J?) х = А (t)x-\-B(f)u, с компактным выпуклым ограничивающим множеством Q: | ui | 1,
3.5 КРИТЕРИЙ КАЧЕСТВА ПРИ ОГРАНИЧЕННЫХ УПРАВЛЕНИЯХ 259 / = 1, 2, .... tn. Требуется перевести систему из начального со- стояния х0 в момент времени t0 в точку х1=/=х0 за минимальное время Т* > ta. Кроме того, задано интегральное ограничение т Co(«)=(ll«|IZ=S П"1 Г+ • • • +|ия|лл<м ^0 для 1 С Р < 00 и данной границы М. Для каждого^ Т > /0 рас- смотрим соответствующее множество достижимости К(Т), состоя- щее из концов траекторий х(Т) — (х°(Т), х(Т)). Здесь x(t) есть решение системы S, отвечающее управлению u(t) на интервале и х°(Т) = (||и ||р)р, где u(t)aQ. Изучим ограниченное множество К(Т) Л [х0^ A1J. Сначала покажем, что К (Т) выпукло, компактно и непрерывно зависит от Т. В силу принципа релейного управления каждая точка из множества К (Т), являющегося проекцией множества К (Т) на гиперплоскость х° = 0, может быть достигнута системой при управлении, удовлетворяющем условию (|| и = (пгТ). Таким образом, верхняя граница множества Д' (Г) представляет собой часть горизонтальной гиперплоскости х°=(тТ), над вы- пуклой областью К (Т) в R". Нижняя граница К(Т) есть выпуклая гиперповерхность над К(Т). Обе эти границы пересе- каются над границей дК(Т). Пусть управление и (f) на интервале t0 t Т переводит систему из точки (0, х0) в точку (х° (Т), х(Т)), лежащую на нижней части границы множества К(Т). Для каждого подынтервала t„ t s определим vs (t) как релейное управление, переводящее систему из точки х0 в точку x(s) за время t = s. Определим для каждого s управление Г о, (О на ( и (t) на $ < t Т. Тогда управление us(t) переводит систему из точки х0 в точку х(Т), и функционал C0(uJ непрерывно меняется вместе с s от значения С0(и0)=х°(Т) до значения С0(»г) = /пТ. Следовательно, множество достижимости К (Т) включает в себя все точки, заклю- ченные между его верхней и нижней границей, т. е. множество К(Т) выпукло и компактно. Поскольку каждое управление u(t), заданное на интервале t0 t Т, можно продолжить для t>T нулем (и(/) = 0), то легко проверить, что множество К(Т) непре- рывно зависит от Т. Это верно и для множества К(Т) Л [х°<М]. 9*
260 ИНТЕГРАЛЬНЫЙ ВЫПУКЛЫЙ КРИТЕРИЙ КАЧЕСТВА ГЛ. 3 Минимальное время Т*—это наименьшее время Т > t„, для которого множество К (Т) П [х® 7И] пересекается с вертикальной прямой х = хг в Rn+1. Таким образом, если существует приемлемое управление, переводящее систему из состояния х0 в состояние в R", то существует и оптимальное по быстродействию управле- ние u*(t) на интервале Более того, u*(t) можно рас- сматривать как управление, заданное на фиксированном интервале < Т* и доставляющее критерию качества наименьшее значе- ние С0(и) = (||ы||/,)/’ среди всех измеримых управлений из Q, пере- водящих систему из точки х0 в точку xt. Если р > 1, то и* (t) единственно. Итак, Т* можно определить как наименьшее Т > /0, для ко- торого существует решение x*(Z), т|*(/) системы уравнений х = А (/) х + В (0 tf (0, ’4 = — удовлетворяющее условиям x(tQ)=x0, x(t1) = x1 и Со (u*)<: Af. Следовательно, оптимальное управление и* дает максимум выра- жению т), [| и1 |р+ • • • +1 +4 (0 В (/) и, для все\с исЙ и для некоторого постоянного т]0 0. Имеются два наиболее интересных случая. Если М тТ*, то интегральное ограничение является излишним, и задача сво- дится к оптимальной по быстродействию задаче (принять т]0 = 0) подобно задачам, рассмотренным в главе 2. Если М < пгТ*, то можно принять 110 = —1 и использовать «*(/) = «*(/, г)* (/)) из принципа максимума. В этом случае С0(и*) = Л4. Упражнения 1. Рассмотрим скалярную управляемую систему х = и с ограничениями т I и (/) | 1 и J и2 (/) dt «С А1. Перевести систему из состояния х0 = 0 в состоя- о ние хх=1 за минимальное время Т*. Вычислить оптимальное управле- ние «* (/) для каждого заданного М > 0. 2. Рассмотрим скалярную управляемую систему х = и с интегральным ограничением ^u2(t)dt^4 на заданном интервале времени 0аС*«С1-Тре- о буется перевести систему из точки хо = 0 в точку при минимальном значении критерия качества С (и) —1| и 11оо = sup | и (/) |. Найти оптимальное управление. [Указание: найти наименьшее k > 0, для которого существует управление и (t) на интервале удовлетворяющее ограничениям J u2(t)dt<u и | u(t)\^k и переводящее систему из точки х0 в точку I о J
3.5 КРИТЕРИЙ КАЧЕСТВА ПРИ ОГРАНИЧЕННЫХ УПРАВЛЕНИЯХ 261 3. Рассмотрим автономную систему в Rnt нормальную в ограничивающем кубе | | 1 в Rm'- с критерием качества а> C(u)= J [fo (x) + h<>(u)] dt. о Предположим, что функция f°(x)^O выпукла и, кроме того, f (х) = 0 тогда и только тогда, когда х=0; А°(и)^0 строго выпуклая функция и ^о(О) —0. Предположим также, что А — устойчивая матрица. Доказать, что тогда существует оптимальное управление и* (/) на интервале 0«с/ < оо, при- чем единственное. Доказать также, что допустимое управление и (/) на интер- вале < оо будет оптимальным тогда и только тогда, когда оно удовлет- воряет принципу максимума при некотором сопряженном решении (т)0, г] (/)). таком, что rjo < 0 и tj (оо)=0 (см. теорему 11 раздела 3.4).
ГЛАВА 4 ПРИНЦИП МАКСИМУМА И СУЩЕСТВОВАНИЕ ОПТИМАЛЬНЫХ УПРАВЛЕНИЙ ДЛЯ НЕЛИНЕЙНЫХ СИСТЕМ В этой главе мы рассмотрим основные геометрические свойства множества достижимости и докажем принцип максимума: конец траектории принадлежит границе множества достижимости лишь в том случае, если выполняется условие максимальности. Во втором разделе даются общие результаты, касающиеся существования оптимальных управлений при наличии ограничений, а в третьем разделе^ рассматриваются теоремы существования для неограничен- ных управлений. 4.1. Геометрия множества достижимости Рассмотрим нелинейную систему, описываемую системой диффе- ренциальных уравнений в Rn: (&) x = f(x, t, и), где f есть функция класса С1 в Rn+i+m, Допустим, что управления и (/) заданы на конечном интервале t Т и образуют некоторое семейство <F измеримых /n-мерных вектор-функций. Начальная точка х0 лежит в заданном компактном начальном множестве Хй в R" и мы предполагаем, что каждое решение x(t, х0, t^=x(t), соответствующее и (t) С <F, определено на интервале /0 t < Т. Для примера рассмотрим случай, когда для каждого управления и (0 € & соответствующее решение удовлетворяет ограничению |х(Л х0, /0)|<b и, кроме того, |f(x, t, ц(0)| + |g-(x, t, ц(0)|ст(0, т /0 < /< Т, |х| < Ь, причем < оо. Тогда единственное о
4 1 ГЕОМЕТРИЯ МНОЖЕСТВА достижимости 263 (абсолютно непрерывное) решение х(1, х0, /0), исходящее из точки х0 при t = /0> определено на всем интервале t0 t Т. В этом случае мы говорим, что управлению и (t) соответствует ограниченное реше- ние. Если число b и интегрируемая функция m (t) могут быть выбраны независимо от управления u(/)£<F, то задача {&, х9, t9, Т} называется равномерно ограниченной. Пример 1. Рассмотрим нелинейную систему в R": (^) x = f(x, t, и), где /€ С1 в /?п+1+'я. Пусть семейство управлений состоит из всех измеримых функций и (t) на интервале t9 t Т, удовлетво- ряющих ограничению и (f)c:Q<=Rm, где Q —компактное множество. Предположим, что существуют положительные постоянные Л и В такие, что |f(x, t, ы)|<Л|х| + В для и |х|^(В/Л + |х0|)ел<г-/«)—В/А. Тогда каждому управлению ц (/) 6 aF соответствует ограниченное решение х(0, определенное на интервале Более того, задача будет равномерно ограниченной. Действительно, имеем t f k(0Kkol+$ |Н*($). s> м(8))|<&<|х0| + $(Л |x(s)|-f-B)ds, f о ^0 так что t i*(oi+4< (k»i+4)+j л<| x<s) i+4)ds’ /о откуда следует, что I х (01+4 < (ко I + 4) еА(‘~‘°> < (к« 1+4) eAiT~t,}> так что искомое ограничение на | x(t) | установлено. Отсюда ясно также, что функции | f (х, t, ы(/))| и |^(х, t,u(t)) | равномерно ограничены для всех управлений u(/)£<F. Определение. Рассмотрим нелинейную систему в Rn: (a?) X = f(x, t, U) В 7?я+1+'в, с начальным состоянием х0 в момент t9 (f (х, t, и) ^С1 (Rn+1+m)). Предположим, что семейство & допустимых управлений и (t) С Rm совпадает с некоторым подмножеством множества всех измеримых вектор-функций на интервале для каждой из которых существует соответствующее решение х(/)=х(/, х0, /0). Множество достижимости Д’ (х0, t) — К. (О для каждого момента времени из
264 ПРИНЦИП МАКСИМУМА гл. 4 интервала /0 t Т состоит, как обычно, из концов всех траекторий х(/), соответствующих всем управлениям из В управляемых системах, рассмотренных в главе 3, решение, соответствующее каждому допустимому управлению, было ограни- чено, однако не было равномерной ограниченности, и множество достижимости было неограниченным. В следующей теореме иссле- дуется поведение множества R(t) для равномерно ограниченной задачи. Теорема 1. Рассмотрим нелинейную систему в R": (<^) x = f(x, t, и), где f ^С1 (Rtt+1+m) с начальным состоянием х0 в момент ta и семейством допустимых управлений <F на интервале t Т. Предположим, что задача {§f, х0, &, /01Т} равномерно ограничена. Тогда К (/) есть компактное, непрерывно зависящее omt на интервале i0 t Т множество в Rn. Доказательство. В силу условия равномерной ограничен- ности задачи каждое решение удовлетворяет неравенству т |х(/)|<|х0|+ \m(t)dt, где m(t) такая интегрируемая функция, что If (х(0, t, «(0)l + |g(x(0, t, U(0)|<m(0. Таким образом, множество достижимости K(t) лежит в некоторой ограниченной области пространства Rn, и —компактно. Чтобы доказать, что множество R(t) непрерывно зависит от t, выберем Pi К (/J и 8 > 0. Тогда существует решение x(t), такое, что |х(/1)—P1I < 8/2 и t | х (0—X (Q К J т (s) ds < -|- при |/ — < 6(e). Таким образом, каждая точка РХ€К(О на- ходится на расстоянии, меньшем 8, от некоторой точки x(Q из для всех |/ — | < 6 (в). Но, аналогично, каждая точка К(/) удалена меньше, чем на 8 от К (tj), если только 6 (s) > 0 доста- точно мало. Таким образом, dist [W3> AT#)] < « при |f—/1|<6(8) и, значит, функция t—является непрерывным отображением действительного интервала в метрическое пространство непустых компактных подмножеств в R". Теорема доказана.
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 265 Замечание. Если начальное множество Хо компактно, то полагаем К(Х0, /)= U К (х0, О- Предположим, что для всех Х0€Х0 управлений и всех начальных точек х0£Х0 имеется общая мажорирующая функция т (/)• Тогда очевидно, что множе- ство К (Хо, /) компактно и непрерывно меняется со временем. Следовательно, множества U Х(Х0,0 в R" и (t, Х(Х0, 0) в Я"+1 также компактны. Пусть теперь семейство управлений S' состоит из всех изме- римых функций и (t) на интервале t0 t Т со значениями в Q, где Q—некоторое компактное ограничивающее множество в Rm. В этом случае, если f(x, t, и)^Сг в Rn+i+mt и если имеется рав- номерная оценка |х(£)| < b для всех решений, соответствующих то существует и равномерная оценка для |f(x(O, t, И(0)| + |^(х(0, t, ц(0)|. Теорема 2. Рассмотрим нелинейную систему в R": (<^) х = f (х, t, и), feC1 (Rn+^m), с начальным состоянием х0 в момент tn. Допустимыми управле- ниями являются все измеримые функции u(t)cQ (t0^t ^Т), где Q есть компактное ограничивающее множество в Rm. Предположим, что-. а) | х (О I < Ь, т. е. существует равномерная оценка для всех решений на интервале Ь) множество V (х, /) = {f (х, t, и) | и € Q} выпукло для каждого фиксированного вектора (х, t), т. е. множество V (х, t) векторов скорости при каждом фиксированном наборе (х, t) компактно и выпукло. Тогда множество достижимости K(t) компактно и непрерывно меняется во времени на интервале /0 t Т. Доказательство. По предположению а) все решения си- стемы определены на интервале а функция |f(x(f), t, u)|+ t> u)| ограничена. Тогда множество R(t) компактно и непрерывно зависит от t на интервале < t < Т. Теперь исполь- зуя предположение (Ь) о том, что множество скоростей V (х, t) компактно и выпукло, мы докажем, что K(t) = K.(t).
266 ПРИНЦИП МАКСИМУМА гл. 4 Рассмотрим решения xt (t), соответствующие управлениям Uj(t)ей на интервале Тогда t Xi(t)=x9+\f (Xi(s), s, и,-(s)) ds *0 и Xt(i)^K(t) для i=l, 2, 3, ... Докажем, что любая предель- ная точка x(fj последовательности {x,(/j)} для каждого момента времени из интервала принадлежит множеству К(tj). Пусть, например, некоторая подпоследовательность, которую мы вновь обозначим х;(/)> такова, что lim Xi(t^ =x(t1). i -> оо Поскольку | f (xt (t), t, Uj(t)\^,m для некоторой постоянной tn, то последовательность интегралов J f (xt (s), t, ut (s)) ds образует рав- /о номерно ограниченное и равностепенно непрерывное семейство функций. По теореме Асколи1) подпоследовательность сходится к некоторой функции, удовлетворяющей условию Липшица. Пусть t t \ lim 5 f (*i (s), s, щ (s)) ds = <p (s)ds, '^4, t. где <p(Z)—интегрируемая функция. Таким образом, т т lim $ Хе (s) f (Xi (s), s, Ui (s)) ds = $ Xe (s) Ф (s) ds, t. где Xe—характеристическая функция подынтервала E. Однако каждое измеримое множество может быть аппроксимировано ко- нечной суммой непересекающихся открытых интервалов, и, значит, указанная выше формула будет верна и для любого измеримого множества Е из интервала t0 t Т. Значит, последовательность f (х{, t, и() слабо сходится к ср (t). Если положить t *(О = *о+ $ ф(з)^8, /о х) Имеется в виду следующая теорема (Арцела—Асколи). Из каждого бесконечного семейства функций f(t, %) (AgA, где А—компакт в /?л), равно- мерно ограниченного и равностепенно непрерывного на отрезке a<t<b, можно выделить равномерно сходящуюся на [а, Ь} последовательность f (/, Ал) (6=1, 2, A^gA). (Семейство функций /(/,А) (fg[a, Ь], AgA) называется равномерно ограниченным на [а, Ь], если существует постоянная М такая, что max | f (/, A|<M (IgA); оно называется равностепенно непрерывным на / €[в, д] [а, &], если для каждого 8 > 0 существует д > 0, не зависящее от 1 и такое, что |/(/', А)—А)| < е, если только — < д, t”£[a, &J. (Прим, ред.)
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 26? то _ . . lim Xi(t)=x(t) i оо всюду на интервале t0 < t < Т. Остается доказать, что_ф (/) = — /(#(/), /, «(0) Для некоторого допустимого управления u(f) с Q. Сначала мы покажем, что <р (/) £ V (х (/), t) для почти всех /. Предположим, что <р(0 лежит вне компактного выпуклого мно- жества V{x(t), t) для некоторого подмножества W положительной меры из интервала Тогда для каждого t^W сущест- вует гиперплоскость, даже с рациональной единичной нормальюх), отделяющая ф (/) от V(x(/), t). Поскольку множество рациональ- ных чисел счетно, то существует постоянный единичный вектор- строка у, такой, что yy(t) > lim supz/f (х(0, t, lim swpyf (x,(/), t, I -> oo i -> co для любого t из множества ненулевой меры. Тогда $ у<р (/) dt > J lim sup yf (xt (t), t, u{ (/)) dt t * 03 и, используя лемму Фату из теории интеграла Лебега, мы получим § у<р (t) dt > lim sup yf (x(- (t), t, ut (t)) dt, W, W, что противоречит тому факту, что последовательность f(xh t, слабо сходится к q> (t). Таким образом, <р (t) С V (х (t), t) почти всегда. Можно доопределить ср(/) на множестве меры нуль так, что Ф(0€/(х(0. /,Q) = V(x(0, О для всех t из интервала t9 t Т. Тогда, по лемме ЗА главы 2, существует измеримый /n-мерный вектор u(i)cQ, такой, что T(/M(*(0>U(0) при ИтаКд допустимое управление u(t) порождает решение x(t), при- чем х (/J /С (/г). Следовательно, множество К(/х) компактно и K(t) = K (0 для всех t0 t Т. Теорема доказана. Компактность (или хотя бы замкнутость) множества К (О является основой для доказательства общей теоремы существова- ния оптимальных управлений. В главах 2 и 3 мы уже отмечали *) То есть с нормалью, имеющей рациональные направляющие косинусы. (Прим, ред.)
268 ПРИНЦИП МАКСИМУМА гл. 4 компактность множества достижимости для различных линейных систем. Ниже, в этой главе, мы докажем несколько теорем су- ществования оптимальных управлений для нелинейных систем при различных ограничениях. Приведем теперь несколько примеров, иллюстрирующих зна- чение свойства равномерной ограниченности решений и свойства компактности множества достижимости. В некоторых из этих примеров оптимального управления не существует, т. е. сущест- вует последовательность управлений такая, что после- довательность соответствующих значений критерия качества С (и) стремится, убывая, к конечной нижней грани, однако сама эта нижняя грань не может быть достигнута ни при каком до- пустимом управлении из семейства if. Пример 2. Рассмотрим систему в Я4: x=sin2n«, «/ = cos2nu, z ——1, а) = х24-//24-1, с начальным состоянием (0, 0, 1, 0) и ограничением на управление |и(0|<1 на интервале Тогда существует равномерная оценка для решений ( |*| + |Z<l + lzl + la'ICl + l + l+3 = 6, так что множество К(1) ограничено. Мы покажем, что множество К (1) не является замкнутым. Выберем управления ut (t) = И (mod 1) для Z=l, 2, 3, ..., так что sin2n«z (/) = sin2nZf, cos2n//z(Z) = = cos 2nit. Выпишем соответствующие решения 1—cos2л// ... sin 2л// , МО-------2Й----: У^ = ~2пГ' и t СГ1 — cos2n/s , « мо=л г*»?* +1F- о В К(1) содержатся точки (0, 0, 0, (2л2/2)"1-}-1), Z=l, 2, ... Но для любого допустимого управления u(Z) 1 ш(1) = J [xa4-fz»4-> 1. о Таким образом, точка (0, 0, 0, 1) лежит в К(1), но не в /<(1) и, значит, множество /<(1) не замкнуто в R*. Пример 3. Рассмотрим систему в R3: sin 2л« __ cos 2ла ; — 1 Х~х2+у2+1 ’ У~х2+у2 + 1 ’ Z~x2+y2+l ’ с начальной точкой (0, 0, 1) и ограничением на управление | и (t) | 1. Требуется перевести систему из точки (0, 0, 1) в точку (0, 0, 0) за минимальное время t* > 0.
4.1 ГЁОМЁТРИЯ МНОЖЁСТВА ДОСТИЖИМОСТИ 269 Для каждого управления u(t) и решения x(t), y(t), z(/) опре- делим новую независимую переменную т по формуле t х(0= S [x4(s)+^(s)+l]-1<fc. о Положим далее и (т) = и (t (т)). Тогда ^=sin2n«(T), ^=cos2hm(t), ^= —1 и dt/dx=xi+yi+l. Используя вычисления примера 2, получим, что можно перевести систему из состояния x=y=t = O, z=l в точку х= y = z = 0, /> 1. Однако сделать это за оптимальное время /*=1 нельзя, и значит, оптимального управления для этой задачи не существует. Пример 4. Рассмотрим систему в Я2: х=1, у— — хе?и, с ограничением на управление 0^и(£)^2. Семейство всех допустимых управлений состоит из всех измеримых функций u(t) на интервале 0^/^2, переводящих систему из точки (—1, 0) в точку (1, 0). Требуется минимизировать критерий качества 2 1 C(m)=J(2—y)dt= J (2—y)dx. о -i Для каждого решения x(t) = i—1, y(t) положим y(x) = y(t(x)). Пользуясь управлением u(t) = 2, получим неравенство 0^у(х)^ — 1пх2 при х=5& 0. Но кривая у = — 1пх2 не ограничена, и значит, множество К (2) замкнуто в R2, но не ограничено. Имеем С (и) > J (2 + In х2) — 0. Однако на последовательности управлений — 1 ие(/) = 2—в для малых 8>0 критерий качества С (и) стремится к нулю. Таким образом, оптимального управления, которое бы минимизировало С («), не существует. Изучим теперь границу множества К(Х0, t) и докажем, что экстремальное управление u(t), переводящее систему в некоторую точку границы дК(Хо, /), должно удовлетворять принципу макси- мума. Поскольку х (/) может принадлежать дК (Хо, f), лишь если х(/0) лежит в d/C(x0, t), где х(/0) = х0£Х0, то будем считать, что множество Хо состоит из одной точки х0, и будем в дальнейшем писать вместо Х(х0, t). Удобно сначала доказать принцип максимума для автономных систем в Rn: (&) x=f(x,u).
270 ПРИНЦИП МАКСИМУМА гл. 4 где f(x, и) и ^(х, м)—непрерывные вектор-функции в Rn+m. Слу- чай неавтономных систем будет рассмотрен в следующей главе в связи с выводом необходимых условий оптимальности управле- ний. Допустимыми управлениями являются все измеримые функ- ции и (/) на конечном интервале времени О t Т, значения которых принадлежат некоторому ограничивающему множеству причем Q не обязательно компактное множество. Мы предполагаем, что каждое допустимое управление ограничено, и значит, существует соответствующее решение x(t) (х(0) = хо), определенное на интервале 0 t < Т. Мы получим здесь непо- средственное обобщение принципа максимума для линейного слу- чая на нелинейные системы. Для этого нам потребуется разрабо- тать метод линеаризации системы of вблизи заданного решения х (t) с помощью бесконечно малых касательных векторов и исполь- зовать систему (дифференциальных) уравнений в вариациях, которые будут описаны ниже. Для удобства этот предварительный материал разбит на три части, посвященные следующим вопросам: понятию переноса касательных пространств, понятию касательного конуса возмущений и одному аппроксимационному результату. Перенос касательных пространств вдоль x(t) Пусть —допустимое управление с соответствующим реше- нием x(t) на интервале Потоку, определяемому урав- нением x — f(x, соответствует перенос или смещение касательных векторов v вдоль x(f). которое определяется уравнениями в вариациях Поясним это. Пусть х = <р (в)—гладкая кривая в Rn, определенная при малых значениях параметра 8 и проходящая через точку хх при 8 = 0. Такая кривая определяет (контравариантный) касатель- ный вектор о1 = ф(0) к Rn в точке хх. [В действительности под касательным вектором к Rtt в точке хх можно понимать класс всех гладких кривых ф(е), удовлетворяющих условию ф(0) = хх и имеющих одну и ту же «производную» ф(0). ] Если кривая ф (в) определяет касательный вектор в точке х1=х(/1), то можно опре- делить смещенную кривую, полагая X,t,4>(6) = x(Z2, ф(8)), где х (t, г)—решение уравнения х = /(х, u(t)) с начальным уело-
4Д ГЕОМЕТРИЯ МНОЖЕСТВА достижимости 271 вием x(tl,z) = z. Мы определяем перенос (или смещение) вектора о1 = ф(0) из точки хг в точку х2, полагая V» = [ЛЛф (8)],=0 = g (4, z) |г=х, ф (0). Таким образом, n-мерное касательное пространство в точке хх=х(^) отображается на касательное пространство в точке х2=х(/2) при помощи линейного преобразования с матрицей (dx/dz)(tt, хх). Но и значит, (дх/дг) (t, х^ есть фундаментальная матрица решений уравнений в вариациях, причем матрица (dx/dz) (tvxj совпадает с еди- ничной матрицей. Следовательно, смещенный вектор v (t) = Att<p (0) является решением уравнения в вариациях (^) v=[^(x(i),u(t))v с начальным условием о(/х) = ф(0). Из линейности системы Ч/3 следует, что и преобразование Atti также линейно. Ясно также, что матрица (dx/dz)(t, x(tx)) преобразования Atti непрерывно зави- сит от t, Определив смещение касательных пространств вдоль решения х(/) мы тем самым определили и смещение (п—1)-мерной гипер- плоскости лх (гиперплоскость является геометрическим местом нулей действительного линейного функционала, определенного на касательном пространстве). Пусть т](/х)—направляющая нормаль к гиперплоскости в точке хх (действительный линейный функ- ционал т](/х)ох обращается в нуль при fi€nt|). Определим т](/) как решение сопряженной системы М) rj = — Я^(х(0. «(0) со значением т](/х) при Z = ix. Тогда т|(0^(0 = 0 для всех о(/) из поскольку Т) (Zx) v (tj = 0 и Таким образом, каждое нетривиальное решение (т. е. не обращаю- щееся тождественно в нуль) tj(/) системы («4) определяет парал- лельное смещение гиперплоскости л, вдоль решения х(/) и всякое параллельное поле получается именно таким путем.
272 ПРИНЦИП МАКСИМУМА гл. 4 «„(*» 8) = { Элементарные возмущения и касательный конус возмущений Дадим некоторое возмущение основному управлению u(z), меняя его значение на некоторую постоянную величину щ С Q вблизи момента tv т. е. положим щ на —/xe^Z^/x, u(t) на остальной части 0^/^Т, где параметры возмущения л1 = {/1, lv щ} для 0 </х < Т, Zx О и ux^Q. Для достаточно малых е^О возмущенная функция u^{t, в) является вполне определенным управлением с соответст- вующим решением хХ1(/, в), исходящим из точки хЯ1(0, 8) = х„. Более того, легко видеть, что limx_ (t, 8) = х(0 равномерно на е-0 Далее, хЯ1 (t, в) есть непрерывная функция от параметров tlt llt щ, 8, t. Потребуем, чтобы точка была лебеговой (или правиль- ной) точкой, т. е. ' $ и(/)) — u(Zx))|d/ = o(8), G-e так что _ _ _ $ f(x(t), и H(fx))8 + o(e). /t-е Такие лебеговы точки /х образуют плотное подмножество интер- вала [О, Т]; точнее говоря, почти все точки из являются лебеговыми, и поэтому мы в дальнейшем для простоты будем считать, что все точки интервала обладают этим свой- ством. Итак, определим иЯ1(/, б) как элементарное возмущение и (/), определяемое данными лх = {/х, /х, их} и 8> 0. Пусть теперь uKl(f)—элементарное возмущение управления u(t) при лх = {/х, /х, Uj}. Тогда соответствующее решение хЯ1 (/, в) дает касательный вектор в момент t±, определяемый кривой ф(е)=хЯ1(/х, в). Именно, Ф(О)= lim 4 К,(Л» »)—xtfj] = [/(х(/х), щ)—F(x(Zx),u(fx))] I,. Это следует из оценки ti xr. Vv 8) = X + J f (хя, (t, e), ux) di
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 273 или хЯ1(/х, е) = х(/1)—f (x(Q, + f (x(tlf Mj)/х?-I 0(8), где lim—= 0. г-0 8 Касательный вектор в точке x(/J OxI(^i)=[f(^(/i)> “J—f(*('i). называется вектором элементарного возмущения с параметрами Л1 = ^х, lt, mJ. Заметим, что параметрам {/1Э при соответствует вектор возмущения ^(G), и значит, векторы эле- ментарных возмущений образуют конус, лежащий в касательном пространстве в точке х(/х). Образом при параллельном смещении вектора пК1(/х) в момент времени t является вектор vKi(t)—реше- ние системы уравнений в вариациях (Т3), совпадающее в момент времени t=tt с Определение. Касательным конусом возмущений Kt для любого момента из интервала 0 t Т называется наименьший замкнутый выпуклый конус в касательном пространстве в точке х(/), содержащий все векторы, полученные переносом векторов элементарных возмущений для всех лебеговых точек tv из 0 < К <_ t. Заметим, что AjtKt с Кт для t < t, и Кт = U о</< 1 A~t Kt. В частности, окончательный предельный конус есть Кт = U о</< тА-rtKf. Чтобы глубже понять природу конуса Кт, рассмотрим выпук- лую комбинацию векторов элементарных возмущений в Кт, 41=^14^ (О(0+ • • • +\°я,(0 S с ненулевыми причем 2 — 1 • Здесь = {/,, ut}, где О < ti < t, 0 и и,- € Й; кроме того, для простоты будем считать все различными. Определим совокупность параметров {^1’ • • • > ts, ^l/i, • • • » ^1» • • • > wj и соответствующее возмущение: ы/ ПРИ ti—^Ji e^t ^.tj для i=l, ..., s, и (0 в остальной части 0 t Т. щЦ, 8) =
274 ПРИНЦИП МАКСИМУМА гл. 4 Тогда для малых е > 0 функция ик (t, е) будет представлять собой допустимое управление с решением x*(t, е) на интервале Соответствующее решение xK(t, е) будет непрерывной функцией от 4s аргументов из я и (t, в), что является непосредственным следствием теоремы о непрерывной зависимости решений системы дифференциальных уравнений от коэффициентов и начальных условий. Мы докажем теперь, что кривая <р(е)=хж(/, е) имеет каса- тельный вектор ож_в точке x(t). На интервале 0 < t < имеем хж(/, e)=x(t) и тогда, как было показано выше, (/х, 8) = X (fj + 8\ЦЖ1 (Q + О (в). Таким образом, при в —»0 вектор хк (i, 8) определяет кривую, имеющую в точке х(/х) касательный вектор (ZJ. На интер- вале —Х2/2е управление u*(t, = а значит, и кри- вая x„(fx, в) переходит в кривую с касательным вектором —М»8) 8 точке x(Z2—Х2/2в), т. е. xAh — М28» в) = Х(/2 — М88) + 8МЖ102) + о(8) или М.«» 8)=*(Q—f(x(t2), u(/2))V28+8M„(Q+o(8)- Однако xjts, + $ f(xK(t, в), U2)dt ИЛИ хж(/2, е) = хж(/2—A,2/28) + f (хя(/2—X2Z28, 8), u2)A,2/28 + o(e). Таким образом, xK(t2, s)=x(t2)—f(x(tt), й(1г))к212в + + 8Мж, (*») + f (*< (t2—М28, 8), U2) 12/2в + О (8). Поэтому вычисляем при t = t2. X* (tt, 8) = X (t2) + еХхоЖ1 (Q + (ta) + о (б). Продолжая тот же процесс для Т > ts, получим основную формулу возмущений: (*) х, (7, 8) = х (7) + (7) + ... 4- 8%,сЯ1 (7) 4-о (е), и значит, 1йп° = цж(7) = 4- • • • 4-•
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА достижимости 275 Важно отметить, что для фиксированных параметров возму- щения ts, llt .... ls, щ, ..., u,} всегда имеем lim^ = 0, е - 0 6 равномерно на интервале и для всех Это последнее замечание следует из очевидной оценки: —> 1 равномерно на интервале 0 X 1, о(е) и из того факта, что вектор функции xT(t, в) и x(t) равномерно близки, если исходить из априорных границ для f(x, u(t)) и | (*. «(0) • Основная формула возмущений (*) показывает, что любая выпуклая комбинация элементарных векторов возмущений (в раз- личные моменты) определяет точку x(t) + во,, принадлежащую, с точностью до о(е), множеству достижимости /С(/). Таким обра- зом, касательный конус возмущений Кт, рассматриваемый уже в макроскопических размерах, может служить для достаточно точной оценки множества достижимости (t). Пользуясь этим, мы можем описать некоторые геометрические свойства границы К (i) и тем самым установить принцип максимума. Определение. Пусть ..., о„—независимые векторы из Kt, каждый из которых является выпуклой комбинацией век- торов элементарных возмущений, причем все моменты времени, в которые произведены возмущения, различны (для возмущений, составляющих каждое с(, и даже для разных oz). Элементарным симплексным конусом $ мы будем называть совокупность всевоз- можных выпуклых комбинаций векторов р1, ..., v„. Поскольку мы требуем, чтобы моменты времени, в которые произведены возмущения, были различными (в противном случае нам понадобился бы более сложный предельный переход), то из основной формулы для возмущений (*) следует существование решения х(/, 8, Х) = х(0 + е(%1о1+ ... +X„t>n) + o(e), соответствующего каждому вектору X^j 4- ... 4- Х„и„ из 8. Лемма 1. Пусть о — вектор, внутренний для Kf Тогда най- дется элементарный симплексный конус $, содержащий вектор и внутри себя. Доказательство. Поскольку конус Kt есть замыкание всевозможных выпуклых комбинаций элементарных векторов возму- щений, и поскольку вектор v лежит внутри Kt, то существуют независимые векторы vlt ..., vn, образующие конус в Kt, внутри которого лежит вектор о, и являющиеся выпуклыми комбинациями
2?6 Принцип максимума tn. 4 векторов элементарных возмущений. Попытаемся изменить век- торы о1, ..., vn, чтобы получить комбинации векторов элемен- тарных возмущений с различными моментами возмущений. Параметрам элементарного возмущения л1 = {/1, /х, щ} отве- чает вектор возмущения M*i)=lf(x(^), uj-f^x), Поскольку tt есть лебегова точка, то имеются достаточно близкие к ней лебеговы точки t'lt например, |/х—/х|<£, для которых If «(Ф)—f (*(G), «(/J)| < £ для любого малого £ > 0. Па- раметры = llt Uj} порождают вектор v'n,. Так как линейное преобразование Atti непрерывно по t и Atiti есть единичное пре- образование, то можно потребовать, чтобы вектор о'Л1 (t) достаточно точно аппроксимировал вектор Таким путем мы можем модифицировать все элементарные воз- мущения, входящие в ..., vn, и перейти к аппроксимирующим их векторам v'lr ..., vn с различными моментами возмущений. Очевидно, что векторы о[, ..., v'n порождают элементарный сим- плексный конус S, содержащий вектор v внутри себя. Лемма доказана^ Топологическое отступление. В этом пункте мы докажем топологическую теорему, являющуюся аналогом теоремы о неявных функциях для случая, когда трудно установить, вы- полнены ли предположения о дифференцируемости. Схолия. Пусть f (х)—непрерывное отображение компактного выпуклого подмножества Вп с Rn, имеющего внутренние точки, в пространство Rn. Пусть Р—внутренняя точка множества В", и предположим, что l)f(x)-х|| <||х— Р|| для каждого х из границы дВп. Тогда точка Р входит в образ f (Вп). Доказательство. Можно считать, что Р есть начало координат в Rn, поскольку параллельные переносы не влияют на справедливость наших предположений. Рассмотрим топологическоех) отображение х—>/i(x) множества Вп на единичный шар В? с центром в начале координат, полученное линейным растяжением или сжатием каждого луча, исходящего из начала координат. Каждой точке х из Вп поставим в соответствие вектор п(х) с началом в точке х и концом в точке x-f-f(x). Положим х = Л(х) и рассмотрим порожденное отображением и (х) = и (h-1 (х)) непре- рывное векторное поле на единичном шаре BJ. Из условия llf(x)—х||<||х—ВЦ вытекает, что вектор v(x) образует острый угол с вектором Рх для каждого х £ дВп. Поэтому вектор v (х) для х) То есть взаимно однозначное и непрерывное в обе стороны. (Прим, ред.)
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 277 каждой точки х£дВ* имеет радиальную компоненту, направлен- ную вне В?. В этом случае v (х) должно обращаться в нуль в В? или v (х0) — О Для некоторого х0 £ Вп, т. е. f (х0) = 0 и следовательно, точка Р = 0 является образом х0. Это последнее утверждение, хорошо известное в теории век- торных полей, следует из теоремы Брауэра о неподвижной точке. Рассмотрим векторное поле—v(x), имеющее отрицательную ра- диальную компоненту на границе шара В", и вблизи нее. Тогда для достаточно малого положительного числа а конец сегмента х—>х—av(x) лежит внутри В?. По теореме о неподвижной точке, в BJ существует точка х0, для которой ха = х0—а»(х0), так что о(х0) = 0. Тогда точку х0 = Л-1(х0) в В" можно принять за иско- мую точку, в которой v (х0) = f (х0) = 0, что и требовалось доказать. В качестве особого случая отметим следующий результат. Следствие. Пусть f(x)—непрерывное отображение шара В": || х || 1 в Rn; предположим, что ||/(х)—х||1—е для всех ||х|| = 1 и е > 0. Тогда каждая точка z внутри шара || г || < е входит в образ при отображении f. Касательный конус возмущений лежит в касательном про- странстве в точке x(t), и следовательно, состоит из инфинитези- мальных векторов. Однако можно рассматривать касательное про- странство х(0 как векторное пространство с началом в x(t). В этом случае Kt превращается в макроскопический конус в R" с вершиной в точке х (/), и он может служить приближением для K(t), по крайней мере вблизи x(t). Лемма 2. Пусть v—ненулевой вектор, внутренний для Kt- Тогда существует элементарный симплексный конус % в Kt, такой, что 1)3 (как инфинитезимальный конус) содержит внутри себя v, 2) 3 лежит внутри К (0 [как макроскопический конус, т. е. усеченный конус 3 без вершин лежит внутри K(t) вблизи х(/)]. Доказательство. По лемме 1 в Kt существует элементар- ный симплексный конус Зп содержащий вектор v внутри себя. Пусть ... , v„—выпуклые комбинации векторов элементарных возмущений, порождающих 3j. Каждой выпуклой комбинации %it»i + ... + соответствует решение x(t, е, Л)=х(0 + в(М1+ ••• +V«) + ®(e). Рассмотрим множество 3t в Rn как макроскопический конус с вершиной в х(0- Можно выбрать векторы ..., и„ так, чтобы их концы лежали на гиперплоскости, проходящей через конец вектора и и ортогональной к V. Тогда каждая точка
278 Принцип максимума Гл. 4 из однозначно описывается барицентрическими координатами Хх, ... , Х„ и высотой 0 < I || v |(, отсчитываемой от x(t) вдоль и. Выберем в > 0 столь малым, чтобы множество точек, описы- ваемое концом вектора х (I, ъ1, X) = х (/) 4- &l (Ххох 4" ... 4- Хиоп) 4- о (ъ1), лежало в полупространстве I > 0. Таким образом, мы определили отображение конуса $х [без вершины х(/)] в полупространство / > 0: (ХхУх + • • • + ^в°в) I —*•х (I, Для каждого вектора г £ Rn обозначим через р его проекцию на гиперплоскость, ортогональную к вектору V, а через I—орто- гональную проекцию вектора г на вектор о, отсчитываемую от точки x(t). Тогда (р, I)—координаты в Rn. В этих координатах определенное выше отображение при под- ходящем выборе ограничения будет иметь вид L = L(p, = R = R(p, Z)=p4-o(p). Здесь v lim = 0 i - о 1 равномерно по p. Далее, выберем b > 0 так, чтобы 1К(р, /)-Z||’+||R(P, 0-р||»<1^ в соответствующем усеченном конусе $х. Пусть S—очень узкий симплексный конус с осью v и высо- той l=bfi. Возьмем точку Р = (1й, г0) в 3 с 0^/о^&/3. Рас- стояние от Р до точки Q = (/, г), лежащей на границе £х, удовлет- воряет неравенствам /0/2, если 0 I 2/0, Z/2, если 2/0 < I Ь. В силу приведенной выше топологической схолии можно утвер- ждать, что Р лежит в образе $х. Следовательно, усеченный конус S, исключая вершину, лежит внутри образа Зх, а значит, и внутри множества достижимости K(t), что и требовалось доказать. Получив эти предварительные результаты, мы можем приступить к доказательству принципа максимума для нелинейных автоном- ных систем с произвольным ограничивающим множеством Q, не обязательно компактным. Теорема 3. Рассмотрим систему в Rn: (fif) x = f(x, и), llp—Q||>/
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 279 где f(x, и) и (х, и)—непрерывные функции, определенные в Rn+m. Пусть —множество всех измеримых управлений и (t) на интервале 0 < t С Т, удовлетворяющих ограничению и (/) a Q <= Rm и имеющих ограниченные решения, исходящие из точки х0. Пусть некоторому управлению и (/) £ «Г соответствует решение х (/) с кон- цом х(Т), лежащим на границе множества достижимости К(Т). Тогда существует нетривиальное сопряженное решение я (t) системы (Л) П = ~ й(0), так что принцип максимума H(r[(t), x(i), u(t)) = М (x\(t), x(t)) выполняется почти всюду. Далее, если управление и (t) ограничено, то функция х(/)) почти всюду постоянна. Здесь функция Гамильтона имеет такой вид: Н (я, х, и) = я/ (х, и) = Л1Р (х, «)+...+ x\nfn (х, и) и 7И(я, х) = тахЯ(я, х, и) (всюду, где обе части определены), иё Й _ Доказательство. Поскольку точка х(Т) лежит на гра- нице множества К. (Т), то существует последовательность точек {Р„} вне /С(Т), таких, что Рп->- х(Т), и единичные векторы вдоль отрезков, соединяющих х(Т) с Р„, стремятся к предельному единичному вектору w(T), исходящему из точки х (Т). Заметим, что вектор w(T) не может лежать внутри касатель- ного конуса возмущений Кт, так как иначе, по лемме 2, суще- ствовала бы макроскопическая коническая окрестность $ вектора w(T) в К (Т). А это противоречило бы предположению, что точки Рп все лежат вне К (Т). Таким образом, существует гиперплоскость л(Т), проходящая через точку х (Т) и отделяющая вектор w (Т) от Кт. Пусть я (Т) — единичная внешняя нормаль к п(Т) в точке х(Т)-, определим тог- да я(0 как соответствующее решение линейной системы дифферен- циальных уравнений Л. Тогда Я(7‘)»(Т) = я(0°(0^0 Для всех t^.T, где v(t)—произвольный вектор возмущений из Kt. Предположим, что принцип максимума не выполняется, т. е. Н (я (t), х (t), й (t)) < Н (я (0, X (t), щ (0) ля u^tj^Q на некотором ненулевом промежутке времени из
280 ПРИНЦИП МАКСИМУМА гл. 4 0</ Т. Пусть tx есть лебегова точка интервала 0 < < 7 для / (*(0> ы(0)» в которой q(/i)f(x(4), (х(^), «,) при некотором их С Q. Рассмотрим вектор элементарного воз- мущения: «i)~f(*(O. с параметрами = Ь uil- Тогда, поскольку принцип максимума не выполняется, то что противоречит предположению о том, что q 0 для всех t и для всех v(0€Kt- Значит, tf(q(0, x(t), = x(t)) почти всюду на интервале (и правая часть существует почти всюду). Наконец, покажем, что функция М (q (t), x(t)) абсолютно непрерывна и имеет нулевую производную на интер- вале Ог^/^Т. Здесь мы предполагаем, что управление «(/) ограничено, т. е. | u (t) | 0 на интервале Пусть m(q, х) = max Н (q, х, и), так что Af(q, x)^m(rj, х), но | и К 0, WGQ M(q(Z), x(t))i=rn(x\(t), x(t)) почти всюду. Покажем сначала, что функция m (q (/), х (t)) постоянна всюду на интервале 0 t 7. Если точка (q, х) принадлежит компактному множеству Q из RnxR"xRm, содержащему все точки вида^(/), x(t)), а |«Х0, то для любых двух точек (q, х, и) и (q', х', и) имеем |Я (q, х, и)—#(q', х', u)\^.kd, где d = |q—q'| + |x—х'|, a k—константа Липшица, мажорирующая функции |f(x, u)| и ^•(х, ы)| в Q. Пусть управления и и и' из Q, с ограничениями |и'ХР, выбраны так, что /n(q, x) = H(ri, х, и) и /n(q', x') = Zf(q', х', и').
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА ДОСТИЖИМОСТИ 281 Тогда Н (т), х, х, и) и Н (т]', х', и)г^Я(т|', х', «')> так что — kd^H(x\, х, и')—Н(х\’, х', и')^Н(г\, х, и)—Н(х\', х', ы')=С ^Н(г\, х, и)—Н(х\’, х’, u)t^kd и 1т (т], х)—т(х\', х')|<М Тогда /п(т], х) непрерывна по Липшицу в Q, и значит, т(г\ (0, х(0) абсолютно непрерывна на интервале Пустьт(0<т< <Т)—точка, в которой т(т) = /и(т](т), х(т)) и функции х(т) и т) (т) имеют производные. Тогда для /' > т имеем m(t')^H (я(/')> x(f), и (г)) и m(t')—т (х)^Н (т)(О> и(х))— —Я(я(Г),х(т), ы(т)) + Я(т](Г), х(т), й(т))—Я(т](т), х(т), й(0), откуда iim m(t')—m(x) dm\ dx' . dr),- I _n t'—x dt [(=т^дх1 dt так как дН dx1 dfi tl dH dr],- n ( dfJ \ dxi dt 4dxff, diy dt~f \ дх‘)' При V < т получаем |Z_T^ 0» так что ^(П(0, х(0) = О почти всюду. Поскольку функция /п(т](0, х(0) абсолютно непре- рывна и имеет нулевую производную, то она должна быть посто- янной, равной т почти всюду на интервале 0^/^Т. Из определения М (к], х) непосредственно следует, что функция Л4(т](0, х(0) полунепрерывна снизу на интервале O^/s^T, т. е. М(т](/1), х(0))<Л4(т|(0), х(0)4-8 для всех t, достаточно^близких к 0, и для заранее заданного 8 > 0. [Если М (х (0), т] (0)) = оо, то соответствующее утверждение также имеет место.] Итак, Л!(1](0), х(0))</п (т)(7), х(7)) = т4-8 для любого 8>0 и, следовательно Л1(т|(0, х(0)^/и всюду на интервале Таким образом, УИ(т|(0, х(0) = /и всюду на интервале Теорема доказана.
282 ПРИНЦИП МАКСИМУМА гл. 4 Для линейных систем управление и (/) удовлетворяет принципу g максимума тогда и только тогда, когда оно является экстремаль- * ным, причем х(Т)£дК(Т). Для нелинейных же систем принцип ’ максимума еще не гарантирует, что траектория х (t) заканчивается i на границе множества достижимости, хотя нетрудно видеть, что ’ из х(Т)СдК(Г) следует, что x(t)GdK(t) при всех Сле- I дующие два примера^ демонстрируют это свойство нелинейных I систем. Пример 5. Рассмотрим в R* систему Х = уи— XV, у = — хи—yv с ограничениями на управления | и (/) | 1 и |с(/)|^1. В поляр- ных координатах эта система уравнений примет вид г = — rv (0. ф = — и (i). В качестве начальной точки рассмотрим г0= 1, фо = 0 и будем изучать поведение системы в интервале времени 0 t л. Управ- ляющие функции и (t) и v (/) входят независимо в уравнения для г и для ф. Поэтому нетрудно видеть, что множество достижимости К (л) представляет собой кольцо е~* г ек, 0 ф < 2л. Здесь управляемая система равномерно ограничена и множество К (л) j компактно. Однако множество К. (л) будет не только не выпуклым, I но даже и не связным. Здесь понятие [новой границы введенное для линейных систем в главе 2, не имеет смысла. Например, точка (—1, 0) сперва появляется в /((л) как внутренняя точка. Кроме того, управление u(f)=l, v(7) = 0 удовлетворяет принципу максимума на интервале 0^/^л, однако соответствующая траектория не приводит к границе К (л). Пример 6. Рассмотрим управляемую систему в R*, получен- ную видоизменением системы примера 5: г = — го(/)Л(ф), j Ф = — u(0[l— (sin2£^7)/i(n—Ф)], J где функция Л(ф) = Л(—ф)£С“ удовлетворяет ограничению 0<Л(ф)< 1, причем Л(ф) = 0 при £<ф^л и Л(ф)=1 при ф, л/2 близком к нулю. Далее, R = exp J ft (ф) dtp. На управление нало- о жены ограничения | и (/) | 1, | v (/) | 1, а начальной точкой является точка г0 = 1, Фо = 0. При / = л/2 множество /С (л/2) пе- ресекается с лучом ф = л/2 лишь при так что ф=1. Тогда г = — пф)Л(0 и, значит, отрезок ф = л/2, яв-
4.1 ГЕОМЕТРИЯ МНОЖЕСТВА достижимости 283 ляется ребром множества /С (л/2). Аналогично, отрезок <р = — л/2, 1 /R г R из множества /С (л/2) может быть достигнут лишь при и (0^+1- Таким образом, множество /С (л/2) является полу- кольцом с центром в начале координат, шириной (е"/2—е-я/2) при <р = 0, и (R — 1/R) при ф = ±л/2. Рассмотрим теперь множество /С (л). Лишь некоторые из точек, принадлежавших лучу <р = ± л/2, при t — л/2 будут лежать на луче <р = л, в момент t = n. В левой полуплоскости система диф- ференциальных уравнений имеет вид . . Г / р___г\ 4 / 1 X *1 г = 0, ф = —м(0[1—ф^ . Таким образом, множество /С (л) пересекается с лучом ф —л лишь при значениях радиуса, удовлетворяющих уравнению (R—ry sin2 = О, т. е- на счетном множестве точек с точкой накопления ф = л, r = R. Итак, мы видим, что К (л) представляет собой кольцевую об- ласть, ширина которой достигает минимума (R — 1/R) при ф = л; из этой области вдоль луча ф = л вырезано бесконечное число непересекающихся открытых областей. Таким образом, /С (л) яв- ляется бесконечносвязным множеством, и его граница не может быть представлена в виде конечного числа гладких замкнутых кривых. Упражнения 1. Рассмотрим управляемую систему в Rn: (<Я x = f(x,t,u), f£C1(Rn'+1+m), с компактным ограничивающим множеством Предположим, что для некоторого постоянного k x'f(x, t, и) < k (| x I2 + 1), для всех всех t из компактного интервала # и всех u^Q. Показать, что для любого управления и (t) cz Q на интервале существует решение х (/) для всех Кроме того, для любого заданного начального состояния х0 множество К (х0, t) достижимых точек равномерно ограничено. 2. Рассмотрим управляемую систему в Rn: (&) x=f(x,u), /еСЧЯ"+т), с начальным состоянием х0 в момент /о = 0 и компактным ограничивающим множеством QczRm. В качестве допустимых управлений рассмотрим все из- меримые функции u(t)a:Q на интервале и предположим, что каж- дому управлению соответствует решение x(t) на всем интервале 0-С/^/р Предположим далее, что управлению и* (t) соответствует решение х* (/), где точка х* (/J принадлежит границе множества достижимости К (fx). Показать, то в этом случае x(t)£dK (/) для всех t из интервала
284 ПРИНЦИП МАКСИМУМА гл. 4 3. Рассмотрим управляемую систему в /?»: (^) x=f (х, 0 м), ff^C1 (7?w+1+w),. с измеримыми управлениями и (0 на интервале 0 «с t «С 1 и компактным огра- ничивающим множеством (а) Пусть управлению и* (t) соответствует решение х* (t) на интервале Показать, что существует такое в > 0, что каждое управление ue(0CZQ на такое, что ] wg (0—и* (0 ( < 8 на множестве меры 1—8, с начальным состоянием х6 (0), | х6 (0)—х* (0) < 8, определяет решение хе (0 на интервале Более того, хе (0 х* (0 равномерно на 1 при 8 —>• 0. (Ь) Показать, что для каждого начального состояния |х0|«Са и момента времени существует общий промежуток времени /0<*<+ ?(«, т), такой, что решение х(0 х0, /), соответствующее произвольному управлению u(0<zQ на интервале + определено на всем интервале t0^t^ Н-?' 4. Рассмотрим управляемую систему в Rn: СЯ х=Д (х, 0 + В(х, 0и, где Л(х, 0 и В (х, 0 принадлежат С1 в Rn+1, и управления и(0 на интер- вале 0«С t< 1 удовлетворяют ограничению [] и ||х = J | и (0 dt | 1. о (а) Пусть управлению и* (0 соответствует решение х* (0 Показать! что существует 8 > 0, такое, что любому управлению и« (0 || ие—и* [|1 < 8 с начальным состоянием хе(0), | хв (0) —х* (0)| < 8, соответ- ствует решение хе (0 (0«С£«С1). Более того, х8(0->х*(0 равномерно на интервале при 8->0. (Ь) Для любого начального состояния | х0) а и времени |/0 I < * сущест- вует общий промежуток времени т) такой, что решение x(tt х0, /0), соответствующее любому управлению «(0 с ограничением t0+1 J | и (0 | dt «eg , будет определено на всем интервале t0^ t /0+£. 4.2. Существование оптимального управления при дополнительных ограничениях В этом разделе мы докажем основные теоремы существования оптимальных управлений для нелинейных систем в случае, когда ограничивающее множество Q является компактным. Мы восполь- зуемся теми же методами, что и в предыдущей теореме 2. На самом деле следующая теорема существования является непосредственным следствием теоремы 2 в случае, когда множество начальных со- стояний Хо состоит из одной точки, а начальный момент /0 и ог- раничивающее множество Q фиксированы. Позднее мы распрост- раним эти результаты на слабые и импульсные управления. Теорема 4. Рассмотрим нелинейную систему в Rn: (<Я x = f(x, t u), f^C1 (Rn+1+m). Исходные данные таковы;
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 285 1) Множество начальных состояний X0(f) и целевое множество Хх (0 — непустые компактные множества, непрерывно меняю- щееся по t в R", на некотором заданном промежутке времени x^t^xv 2) Ограничивающее множество £2 (х, t) есть непустое, компакт- ное, непрерывно меняющееся в Rm по (х, t) С Rn X [т0, тх] множество. 3) Имеется совокупность (быть может, пустая) ограничений на состояние системы h1 (х) 0, (х) О, ..., где №, №, ... — конечное или бесконечное семейство действительных непрерывных функций из Rn. 4) Семейство S' допустимых управлений состоит из всех из- меримых функций и (t) на различных промежутках времени из интервала [т0, тх], таких, что каждому управлению u(t) соответствует решение x(t) на интервале t^^t^t^ пере- водящее систему из точки хЦй)£Хй(Ц) в точку xit^^X^ty, при этом u(t)££l(x(f), t), h1 (х (/)):> О, ..., hr(х(/))0. 5) Каждому управлению u£$F соответствует значение крите- рия качества t, C(u)=g (х (^)) + $ f° (х (0, t, и (0) dt + max т1(х (/)), где Р^С1 в Rn+1+m, a g(x) и у(х) непрерывные функции в R". Предположим, что: (а) семейство HF допустимых управлений непусто; (Ь) существует равномерная оценка | х (/) | b при t<i^.t^.tl для всех x(t), соответствующих управлениям u^f; (с) множество обобщенных скоростей V (х, t) = {f° (х, t, и), f(x, t, и) | и € О (х, /)} выпукло в Rn+1 для любых фиксированных (х, t). Тогда существует оптимальное управление и* (t) из oF, на ин- тервале t J t ti минимизирующее С (и). Доказательство. Поскольку при |х|^6 и множество £2 (х, t) лежит в некоторой ограниченной области пространства Rm, то все и (t) € %F и решения х (t) должны быть равномерно ограничены. Таким образом, существует конечная ниж- няя грань значений критерия качества при допустимых управлениях. Выберем последовательность ик (/) (/* t ф управлений из 3~ так, чтобы соответствующая последовательность С (ик), убывая, монотонно стремилась к inf С (и) для ugF, и пусть xk(t) —соот- ветствующие траектории, переводящие систему из Хо($ в Хх(ф. Выберем теперь подпоследовательность ик, не меняя обозначений, так, чтобы ti -> / J, ti 1; и хк(ti) xj g Хо (t*9) при k-» оо. Нужно
286 ПРИНЦИП МАКСИМУМА гл. 4 показать, что последовательность uk(t) стремится к допустимому управлению доставляющему минимум критерию каче- ства. Если то lim С (uk)=g(xi) + у (xj) и х0‘ € Хо (Ц) П (ф, &->оо так что на любом управлении н* (Q £ Q (xj, /J) критерий качества принимает минимальное значение g’(xj)+ у (х„). Поэтому, предпо- ложим, что < ti. Как и при доказательстве теоремы 2, выберем подпоследова- тельность управлений, обозначенную снова uk(t), так, чтобы со- ответствующая последовательность f(xk(t), t, uk(t)) слабо сходи- лась к интегрируемому (п-f- 1)-мерному вектору Ф(0=(ф°(0^ф(0)на интервале /J t tk. [Заметим, что f = (f°, f), и мы здесь пред- полагаем, что /о =С и ti, так что каждое из управлений ик (/) определено на интервале tJ t другие случаи будут рассмотрены ниже.] Пусть t х* (/) = xj + $ ф (s) ds при где x*(0 = (x°’(0. и хо’ = (0, х0‘). Тогда limxft(Z) =х*(/) всюду на интервале А-*оо введем обозначение t = « хк) и xj[(O= $f°(xk(s), s, uk(s))ds. Поскольку {xk(t)}—равностепенно непрерывное семейство функ- ций, |хА(ф—xft(/;)|-*0 и |хА(ф—х*(ф|—>-0, так что x*(ZJ) = =xj С Хо (f J) и х* (/[) £ Xi (t*), то по теореме Асколи можно счи- тать, что xk(t)—>-х*(0 равномерно на интервале и значит, удовлетворяются ограничения fti(x#(O)>o, ...,hr(x*(t)y^Q на Более того, из установленной сходимости следует, что Ч lim С (uk)=g(x* (<;))+ 5 ф°(з)^4- max y(x*(f)). Таким образом, нам остается только показать, что существует управление с соответствующим решением х*(/), такое, что f(x*(0, t, u*(t)) = <p(i).
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 287 Для того, чтобы найти и* (t), сначала покажем, что <р (/) £ V (х* (/), t) для любого t [после доопределения ф (t) на мно- жестве меры нуль, как в теореме 2]. Предположим, что ф(0 лежит вне V (х* (/), 0 на некотором ненулевом промежутке вре- мени Тогда существует постоянный единичный п-|-1-мерный вектор-строка у такой, что Й (0 > lim sup yf (х* (/), t, ик (0) k-»<X> для всех t из промежутка и uk(t) есть точка, ближайшая к uk(t) в Q(x*(t), t). Но для каждого фиксированного lira хк (t) = х* (t) k-+<x> И lim liik(t)—uk(t) 1 = 0. k-+CD Таким образом, Й (0 > lim sup yf (xk (t), t, uk (/)), но это противоречит слабой сходимости последовательности f (хк (/), t, uk(t)) к ф(0- Следовательно, <p(t)£V (x?(t), t). Рассмотрим теперь компактное множество Q(x*(/), t) в Rn, непрерывно зависящее от t. Так как ф(0€/(х*(0, t, Й(х*(0, /)), то с помощью некоторого обобщения леммы ЗА главы 2, которое предоставляется читателю, можно показать, что существует изме- римая функция и* (/) £ Q(x* (Z), t), такая, что $(0 = f(x*(a t, u*(t)). Тогда u*(t) на интервале будет допустимым управле- нием из семейства аГ с соответствующим решением x*(f) и зна- чением критерия качества С (и*) =g(x* (ti)) + $ f° (х* (0, t, и* (0) dt + max у (x* (t)). /J i0< t < Отметим, наконец, что если управление uk(t) не определено на всем интервале то можно расширить область опре- деления так, чтобы u(t)$Q(x, t) и полученная функция была ограниченной и измеримой на требуемом интервале. Для доста- точно больших k решения xk(t) (хк(фgХо(/*)) будут определены
288 ПРИНЦИП МАКСИМУМА гл. 4 на всем интервале t t\ и образуют равностепенно непре- рывное семейство функций. Далее доказательство проводится так же, как в предыдущем случае. Теорема доказана. Следствие 1. Пусть задан начальный момент времени из интервала и пусть семейство <F0 a состоит из всех допустимых управлений u(t) на различных подынтервалах из [fj, tJ. Пусть выполнены предположения 1—5 тео- ремы, и кроме того, (a) oFo непустое-, (в) | х (/) | b при t*B t sC ti для всех и (t) € (с) множество V(x, t) выпукло в Rn+1 для любых (х, t). Тогда существует оптимальное управление u*(t) из <F0, на интервале t*o^.t^.t*, минимизирующее функционал С (и) на мно- жестве всех u£<iF9. Аналогичная теорема существования верна и в случае, если семейство <F0 заменить подсемейством <F01 с состоящим из допустимых управлений на фиксированном промежутке времени из интервала [т0, tJ. Следствие 2. Рассмотрим управляемую систему в Rn: (У)\ х — А(х, + t)u с критерием качества C(«) = g(x(/1))+$ [4°(х(0> 0 + ^0 + B0(x(0, t)u(t)\dt+ ess sup y(x(f), u(t)), to< t < /, где А, В, A0, В0 есть матрицы класса С1 в Rn+1, g(x) и у(х, и) непрерывны в R"+m, и у(х, и) является выпуклой функцией от и для каждого фиксированного х. Предположим, что ограничиваю- щее множество Q (х, t) компактно и выпукло для всех (х, t). Тогда выполняется предположение (с). Если мы также будем предпола- гать выполнение условий 1—4, (а), (в), то на интервале t t\ существует оптимальное управление из Зг. Доказательство. Пусть uk(t) =^i)—последова- тельность допустимых управлений из для которых последова- тельность С (ик) монотонно убывает, стремясь к inf С (и) для и и пусть xk(t)—соответствующие траектории, переводящие систему из Хо(/§) в ^х(Ф- Выберем теперь подпоследователь- ность управлений, вновь обозначенную uk(t), так, чтобы t*— —-»t*, xk (/„) —> xj £ Xo (tJ), и последовательность uk (f) слабо схо- дилась бы к управлению u*(t) на интервале Снова предположим, что to t* и и по теореме Асколи выберем
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 289 новую подпоследовательность управлений так, чтобы равностепенно непрерывное семейство решений сходилось lim хА(0 = **(0 равномерно на k-> СО Здесь х«(0 = (4(0> *л(0) и = каки в теореме. Из установленной сходимости следует, что lim f(xk(t), t, u*(t)) k -* 00 в смысле слабой сходимости на интервале £ t t*, где ? = (А04-В°и, А-\-Ви). Кроме того, поскольку f линейно по и, имеем [t хк (0) + J ? (хк (s), s, ик (s)) ds , так что t X* (t) = Хо + $ f (х* (s), S, и* (s)) ds. *0 Таким образом, в этом следствии роль функции <р (/) из теоремы 4 играет функция f(x* (t), t, Проверим теперь, что управление u*(t) принадле- жит семейству F и что lira С (ик) — С (и*). Как и в теореме 4, k 00 управление и* (t) переводит систему из состояния х*а С Хо (/J) в (О), так что выполнены ограничения: hl (х* (/)) 0, ..., hr (х* (0) 0. Предположим теперь, что управление u*(t) лежит вне множества й (х*(0, t) в течение некоторого ненулевого промежутка времени Тогда существует постоянный единичный m-ме рный вектор-строка у, такой, что i/u* (О > lim sup уйк (t) k -> <х> для всех t из промежутка —точка, ближайшая к ик (t), в й(х*(0, /)• Как и при доказательстве теоремы, мы заключаем, что yu*(0> Нт sup уик (О k -> 00 для каждого t из Но это противоречит слабой сходимости последовательности uk(t) к u*(t) на интервале /0*<О • Следо- вательно, u*(0 (tj t 0) есть допустимое управление из с со- ответствующим решением х*(0- Вычислим теперь значение Ю Э. Б. Ли, Л. Маркус
290 ПРИНЦИП МАКСИМУМА гл. 4 критерия качества С (и*). Поскольку 4 lim g(xk(t$) + $ [A*(xk(t), t)+B»(xk(t), t)uk(t)]dt = k-* a> fk -=g(**W))+ $ 0+B°(x*(0. то нужно лишь проверить, что lim ess sup ? (**(/), uk(t))^ ess sup y(x*(0» “*(0)- В противном случае существовало бы е > 0 такое, что esssup y(xk(t), uk(t))< esssup y(x*(/), для всех достаточно больших k. Однако тогда esssup y(xft(/), uft(0)< esssup y(x*(0, u*(0)—e- Отсюда ^следует, что ess sup у (x* (/), uk (i) < ess sup у (0» u* (0)—v для всех достаточно больших k. В этом случае существует нену- левой промежуток времени Wt из интервала та- кой, что при у (х* (0, ик (0) < V (х* (0 «* (0) —| Для всех больших k. Теперь, применив рассуждения о выпуклых функциях из теоремы 8 главы 3 [где роль у(х*(/), и) играет Л°(/, и)], найдем, что lim inf J ?(х*(/), ( T(JC*(0» k * ® wt w, Но это приводит к противоречию Jу(х*(0, u*W)dt < j Гу(х*(О, 11 dt. Итак, заключаем, что lim С(мй)>С(и*), k co и значит, управление u* (/) доставляет минимум критерию качества. Заметим, наконец, что если последовательность uk(t) не опре- делена на всем tJ t t*, то можно расширить ее область опре-
4 2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 291 деления, как показано в доказательстве теоремы 4. Как и раньше, определим управление u?(t) из на интервале i*0 t < t* и соответ- ствующее решение х*(0- В этом случае надо также показать, что lim ess sup y(xk{t), uk(t))^ ess sup y(x* (t), u*(t)). В противном случае, существовали бы т] > О и е > О такие, что esssup y(xk(t), uk(t))< esssup для всех достаточно больших k. Но ик (/) определено на /о+л —т] и слабо сходится к u*(t) на этом интервале. Полу- чаем противоречие, как и прежде. Итак, и в этом случае lim С (ик)^С (и*), k “► 00 и u*(i) является искомым оптимальным управлением на интервале t* < t t*u что и требовалось доказать. Замечания. Существование оптимального управления для задачи, сформулированной в следствии 2, с начальным моментом времени ZJ, или с промежутком управления как в следствии 1, легко доказать. Заметим, что критерием качества в следствии 2 может служить функционал С(ы)= esssup [a max |х*(0| + ₽ шах |м/(0|] 1 < i < п 1</<т с постоянными а и р 0. Для нелинейной системы, рассмотрен- ной в теореме 4, можно принять критерий качества равным ука- занному выше С (и) с 0 = 0. Таким образом, нами доказано сущест- вование оптимальных управлений для довольно широкого класса так называемых минимаксных задач, т. е. задач, где требуется минимизировать максимум u(t)) на промежутке управления. Следующий пример иллюстрирует важность предположения о выпуклости в теореме 4, без которого оптимальное управление, вообще говоря, не существует. Пример. Рассмотрим управляемую систему на плоскости х = — у* + и*, у = и с ограничением |«(/)|^1. Требуется перевести систему из со- стояния x(O) = t/(O) = O на отрезок Х1{х=1, за мини- мальное время t* > 0. В этой задаче существует равномерная оценка 1*(01 + |У(0|<12 при 0</<2 для всех измеримых управлений, удовлетворяющих указанному Ю»
292 ПРИНЦИП МАКСИМУМА гл. 4 выше ограничению. Поскольку х (t) 1, то существует нижняя граница для t*, а именно, /*^1. Действительно, для каждого управления и (t) на интервале 0 t равенство x(Q = S [«’(0-^(0] ^=1 о возможно лишь для /х> 1. Для того чтобы построить минимизи- рующую последовательность управлений, разделим интервал 0^/^2 на отрезки длины 1/£, и пусть uk(t) равняется’ 4-1 или —1 на соответствующих отрезках. Тогда соответствующее решение удовлетворяет условиям: кИ01<4- и £=1,2,3,... Система достигает целевого множества в момент из интер- вала 1 £3/(£а — 1) и lim = 1. k -> со Таким образом, минимальное оптимальное время /*=1 не может быть достигнуто ни при каком допустимом управлении. Заметим, что множество V = {1, и, —уа + иг} не является выпуклым в У?3, и значит, основная теорема существования для оптимальных управлений неприменима. Интуитивно ясно, что «почти оптималь- ное» управление должно все время переключаться с и = 4-1, на и ——1 так, чтобы интеграл у (t) = J и (s) ds был почти1 нулем, о t а функция х(/) = $ [ua(s)—«/a(s)]ds была бы близка к t. На каж- о дом промежутке времени и (t) должно примерно половину . вре- мени быть равным 4-1, а половину —1; иначе говоря, ц(/) = 4-1 с вероятностью 1/2, и «(/) =—1 с вероятностью 1/2 в каждый момент t. Мы покажем сейчас, что если ослабить понятие управ- ления, введя в рассмотрение вероятностную меру на Q, завися- щую от времени, то это даст возможность доказать общую теорему существования оптимальных управлений без предположения выпук- лости. Определение. Рассмотрим управляемую систему в Rn'. (50 x = f(x, t, и) с правой частью из класса С1 в #п+1+я’ и с компактным ограничи- вающим множеством й (х, /) с Rm, непрерывно зависящим от (х, /). Слабым управлением ц(/) на интервале с реше-
4 2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 293 нием х (0 будем называть управление, которое определяется неко- торой вероятностной мерой на множестве Й(х (/),?) в каждый момент времени t. Мы будем рассматривать слабые управления вида р, (/) = ах (0 6 («! (0) + • • • + a„+i (0 6 («»+1 (0). я 4-1 где ах (0 > 0, ..., а„+1 (/)> 0—измеримые функции, и 2 1; их (/), ..., ив+1 (0—измеримые функции со значениями из Q (х (0 t), называемые вибрационным базисом для р. (0, а б (и) есть б-мера, приписывающая 'вероятность 1 каждому измеримому подмноже- ству Q, содержащему и, и вероятность нуль остальным множествам. Решение, соответствующее р(/), определяется формулой х(t) =х04- J К f (х, t, u)dp dt t„ La J или t х(1)=х0 + ^(х, t)dt, io где (x, t) = ax (0 f (x, t, ut (0) + • • • 4- a„+J (x, ^n+1 (0)- Заметим, что (классическое) управление u(t) можно рассмат- ривать как слабое управление б («(/)), и значит, решение (клас- сическое) всегда является [слабым решением. Для того чтобы единообразно интерпретировать решения, соответствующие клас- сическим и слабым управлеияям, введем понятие дифференциального включения x£U (х, t). Здесь U (х, t) есть непустое множество касательных векторов в точке х £ Rn для каждого момента t из некоторого интервала тв</^тг Решение x(t) является, по определению, абсолютно непрерывной кривой (на подынтервале касательный вектор х (0 к которой принадлежит множеству U (х (t), t) почти для всех моментов t. Лемма. Рассмотрим управляемую систему в Rn: (<Ю x = f(x, t, и), f$C1(Rn+1+m), с компактным ограничивающим множеством Q(x, t), непрерывно зависящим от (х, t)£Rn х [т0, тх]. Пусть V (х, t) = f(x, t, Q(X, 0) —множество скоростей. Тогда кривая х (t) на интервале является классическим ре- шением системы тогда и только тогда, когда x(t) есть
294- принцип МАКСИМУМА гл. 4 решение дифференциального включения x£V(x, t). Пусть И (V (х, /))—выпуклая оболочка множества V (х, t). Тогда кривая х (?) на интервале является слабым решением системы ef тогда и только тогда, когда x(t) есть решение диф- ференциального включения 'х£Н(У(х, 0). Если множество V (х, f) выпукло при каждом (х, I), то каж- дое слабое решение x(f) является классическим решением. Если множество V (х, t) не выпукло, но множество Q (х, t) — £l (0 не зависит от х, то каждое слабое решение x(f) является равномер- ным пределом классических решений на интервале t0 t tx. Доказательство. Пусть u(t) —классическое управление с решением х (t). Тогда x(t) = f(x(t), t, u(t))^f(x{t), t, Q(x(t), 0) и значит, x(t) есть решение дифференциального включения I x(t)eV(x(t), t). Обратно, пусть х (t) на интервале /0 t tr удовлетворяет диф- ференциальному включению x(0Cf(x(0, t, Q(x(t), t)). Мы хотим найти измеримую функцию и (ffcQ (х(0, /), такую, что f (х(0, t, u(t)) = x(t). Но из леммы ЗА главы 2, если ее модифици- ровать, добавив непрерывную зависимость й от t, следует существо- вание искомого управления и (I), с соответствующим решением x(t). Рассмотрим теперь слабое управление р. (0 = ах (0 6 (их (0) + ... + а„+1 (0 6 («п+1 (0) с решением x(t), удовлетворяющим уравнению х (0 = ах (0 f (х, t, ut (0)+.. •4-a»+i(0f(x, t, «„+i(0)- Тогда для почти каждого момента t f(x(i), t, иЛУ), f{x(t), t, ut(ty.f (X(/), t, ua+1(t)) принадлежат V(x(t), t), и значит, i(0€/7(V(x(0, 0). Обратно, пусть x(/) такая абсолютно непрерывная на интервале кривая в Rn, что х(0€Я(У(х(0, 0).
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 295 Рассмотрим непрерывную функцию h(t, A) = a1f(x(t), t, . +a„+1f (x(0, t, u„+i), где A = (a,, .... an+1, uu ..., мп+1) принимает значения из некото- рого подмножества 2хй"+1(0 пространства Rn+1+ (n+l)“. Здесь 2 есть единичный симплекс в Rn+1 и Qn+1 (t) = Q(x (t), t) x ... ... X Q (x (0, 0 (n + 1 —сомножитель). Для каждогоХмомента t и каждого А € 2х £2n+1 (0 точка h(t, 4) принадлежит H(V(x(t), 0). Действительно, поскольку выпуклая оболочка множества V (x(t), 0 представляет собой объединение всевозможных симплексов с вершинами из V(x(0, 0,^то^заме- чаем, что h(t, 2xQn+l(0) = H(V(x(0, 0). Поскольку x’(0gft(0 2xQn+1), то из леммы ЗА главы 2 вытекает, что можно выбрать измеримую функцию А (0 = («! (0, . . . , С&П+1 (0> «I (0> • • • » ^п+1 (0) на интервале t0 t 0 так, чтобы X (0 = ССХ (0 f (х (0, t, (0) -р . . . -|- 0&n+i (0 f (х (0, ^9 Un + 1 (0) почти всюду. Значит, x(t) есть решение, соответствующее слабому управлению р (0 = ах (0 6 (Ы1 (0) + ... + ап+1 (0 6 (а„+1 (0). Предположим, что множество V (х, t) выпукло при всех (х, 0. Тогда Н (V (х, 0) = V (х, 0. Следовательно, слабое решение х (0 является абсолютно непрерывной кривой в R", причем x(0€H(V(x(0, 0) = V(x(0, 0. Итак, слабое решение х(0 яв- ляется также классическим решением. Наконец, предположим, что множество V (х, 0 не обязательно выпукло. Пусть х(0 на интервале слабое решение, соответствующее слабому управлению И (0 = (0 б («х (0) + ... + а„+1 (0 б (un+1 (0). Мы хотим аппроксимировать x(t) с помощью абсолютно непрерыв- ных кривых хА(0, для которых x*(0€V(xft(0, 0, 6=1,2, 3,... Имеем t X (0 = хо+$ [ax(s)f (x(s), S, «х (s))+... ^0 • • • + a«+l (s)f(x(s), s, w„+x(s))]ds. Мы можем так изменить вектор-функцию a(0 = («x(0,.. .,an+1(0) на малом промежутке времени, чтобы a(Z) была непрерывна, а решение x(t) изменилось бы очень мало (по норме). Предположим,
296 ПРИНЦИП МАКСИМУМА гл. 4 что такое изменение уже произведено, и заметим, что мы все еще имеем Для i=l,...,n+l и x(t)£H (V (x(t), /)), как и требовалось. Определим теперь вектор ( (/, О, О,...,О, 0) на /* х, I (°» Д 0) на/*’„ ат (/) = < I (0, 0, 0,...,0, /) на/й,п+1, где Ikt j — сумма конечного числа подынтервалов интервала ПРИ k^\ и Для получения /А1у разделим интервал на равных последовательных интервалов точками t0 = tM < tkl<.tki< ... <. tkk = и разделим каждый из этих k подынтервалов на (п+1) интервалов, длины которых пропорциональны (ах (/*z), а2 (tkl), ... , а„+1 (tkl)) для 1 = 0, 1, 2, ... ,k—1. Тогда /й, х есть объединение первых кусков всех интервалов tkl<.t <tk, I+1, a Iktj, аналогично, объединение /-x кусков всех интервалов tkl < t < tky 1+1. Тогда легко проверить, что для^ каждого I из [/0, lim J alk)(t) dt = $ a (t) dt, k-^CB J I и значит, lim a(ft) (t) = a(t) k-*<x> в смысле слабей сходимости на интервале tQ t sgC tr Определим теперь классическое решение xk(t)\ t п+1 Ч (t) = Хо + \ 2 a/ft) (s) f (xk (s), s, Ui (s)) ds = i=I t =x0+p(xA(s), s, H(s))ds. Заметим, что хк (t) является решением (на всем интервале как показывает нижняя оценка), соответствующим классическому управлению ( <(/) на Iktl, u(t) = . ^л+1 (0 на k, п+1> причем й(0€^(0- Для того чтобы показать, чю xk(t) сходится
УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 297 к х(0, произведем оценку л + 1 * | X (0—xk (0|= 5 5 а< (s) f (X (8), S, Ui (s)) — —a/» (s) f (x(s), s, a, (0) + а}к> (s) f (x (0, s, и,- (0) — —a}ft>(0f(xA(0. s, Ui(s))ds I x(t)— xk(t) |<8A + К $ | x (s)—xk (s) | ds, ^0 где 8ft—>0 и константа К зависит от значения максимума |^|. Но тогда 1*(0—*л(01<«л<?К|,,~/<'1 и lim xft(0 = x(0 k -* оо равномерно на интервале Лемма доказана. Замечание. Если множество Й(х, 0 зависит от х, то наше доказательство просто дает последовательность абсолютно непре- рывных функций хй(0, сходящихся равномерно к слабому реше- нию х (0 на интервале но являющихся лишь прибли- женными решениями для управлений «й(0, т. е. dist (uk (0,гй (хк (0, 0) < у И dist (хл(0, V(xk(t), 0)<±. Однако, в случае, когда й (х, 0 = й (0, мы получаем тот важ- ный результат, что классическое оптимальное^управление является также оптимальным среди всех слабых управлений для системы (как в теореме 4): (<S0 x = f(x, t,u), с управлениями из й(0 и критерием качества С («)=S (х (0)) + $ Г $ f° (х (t), t, и) dpi dt + max у (x (0), L Q J /ф -C t -C ti если только целевое множество совпадает со всем пространством Xj (0 = Rn. Это легко получается из следующего выражения
298 ПРИНЦИП МАКСИМУМА гл. 4 для С (и)’. C(«) = g(x(^))+x°(Q+ max (x(Z)), t где t x° (0 = $ [«1 (s) f° (x (s)> s,(S)) + ... 4-a„+1 (s) f° (x (s), s, un+1 (s))] ds, ti и из существования классических решений xk (/), равномерно сходящихся к оптимальному слабому решению. Если целевое множество Xi=#7?n, например, Хх = 0в Rtt, то классические ре- шения xk(t) могут не достичь Хх и значит, они не могут претендо- вать на минимальное значение критерия качества, и наше пред- положение неверно. Однако, даже в случае Х1 = 0, можно все же заключить, что классический оптимум равняется слабому оптимуму, если только система обладает свойством управляе- мости вблизи х = 0, « = 0, как [это будет показано в следующей главе. Наконец, последний результат относительно слабых управле- ний—это общая теорема существования без предположения (с) теоремы 4 о выпуклости. Однако в силу присущих слабым управ- лениям свойств выпуклости эта теорема является простым следст- вием теоремы 4. Теорема 5. Рассмотрим нелинейную систему в R" (<^) x=f(x, t, и), f^C1 в Я»+1+«. Выполнены следующие условия: 1) Начальное и целевое множества Хо(/) и X^lt) суть непу- стые компактные множества, непрерывно меняющиеся в R" в за- висимости от t, когда t принадлежит основному заданному ин- тервалу управления, т0 t ^тх. 2) Ограничивающее множество Q(x, t) есть непустое компакт- ное множество в Rm, непрерывно зависящее от (х, /)€R"x[t0, тх]. 3) Имеются ограничения на состояние системы (в конечном или бесконечном числе) .... /Г(х)>0, где ft1, .... hr—действительные непрерывные функции из R1. 4) /Семейство <F допустимых управлений состоит из всех слабых управлений p(0=«i(06(«1(0)+ ••• + «n+x(0'6(«»+i(0) на Р03’ личных подынтервалах времени из интервала [т0, тх], таких, что каждому ji(/) соответствует решение i х(0 = +$[«!<«)Z(x(s), s, M1(s))+... + a„+1(s)f(x(s),s,«n+1(s))]ds /о ра интервале переводящее систему из состояния
4 2 управление При дополнительных ограничениях 299 x(U€Xe(U в состояние x(t^$XM- Функции u((t) (t=l, 2 «4-1) составляют соответствующий вибрационный базис «х(0€й(х(0.0. .... «»-н(0бО(*(0.0. причем Л1 (х (0) > 0.hr(x (0) > 0. б) Критерий качества для всех имеет вид tt C(n)=g(x (Q) + $ [a, (s) f° (х (s), s, щ (s)) +... ^0 • • • +an+i(s)Г(x(s), s, un+1 (s))] ds+ max у (x(0), *1 где в 7?я+1+и, а функции g(x) и у(х) непрерывны в Rn. Предположим, что: (а) множество oF допустимых слабых управлений непусто-, (в) решения равномерно ограничены |х(01<Ь при для всех слабых управлений p(O€<F. Тогда существует слабое оптимальное управление н* (О=(t) 6 («: (0) +... + а;+1 (О 6 («;+х (О) из Зг, минимизирующее С(р). В этом случае оптимальное управ- ление разлагается по базису и* (t), ..., и^+1 (О с соответствующими вероятностями а£ (f)..а*+1 (/), в каждый момент времени t из интервала t J t t*. Доказательство. Рассмотрим управляемую систему в R" Wr) x = fr(x, t, u') = a1f(x, t, щ)+ .^+c'nilf(x,t,un+1) с классическим управлением «(О=(«1(0. •••. «п+1 (0» “1(0. .... «п+1(0) из компактного множества 2хйя+1(/). Здесь S есть единичный симплекс из Rn+1, и Qn+1 (t) = Q (х (/), t)xQ(x (t), t) х... х й (х (t), t). Начальное и целевое множества, ограничения на состояния и кри- терий качества сг (ц)=g(x (0)) + Р® (х (s), s, и (s)) ds 4- max у (х (0) t0 to t G такие же, как и выше. Каждому классическому управлению а (О системы соответствует слабое управление р, (/) = ах (0 6 («х (0) + • • • + ап+1 (t) 6 (ы„+1 (/)) системы
300 ПРИНЦИП МАКСИМУМА гл. 4 УДх, 0=< более того, каждое слабое управление р (t) системы получается именно таким образом. Решения системы соответствующие р (0, совпадают с решениями системы &г, соответствующими и(0; совпадают также и значения критерия качества Cr(u) = C(p). За- метим, однако, что для задачи &г множество скоростей из Rn+1 а^Цх, t, Q(x, 0)4- •• • +an+J°(*> t, Щх, 0)» ajtx, t, Q(x, /))+...+ an+lf(x, t, Q(x, 0), где вектор (ax, ..., an+1) пробегает множество S, будет с необхо- димостью выпуклым множеством при любых (х, t). Действительно, Vr (х, t)~H(V (х, 0), где под V (х, 0 понимается множество ско- ростей для первоначальной классической задачи <§?. Отсюда сле- дует, что задача с классическими управлениями удовлетво- ряет всем условиям и предположениям теоремы 4, и следова- тельно, классическое оптимальное управление и*(0 = (aj(0, ... ..., a^+1 (0, и* (0, ..., u„+1 (0) существует на интервале t^.t^.t*, и доставляет минимум критерию качества Сг(и). Но тогда р* (0 = aj (0 б («I (0) 4-... + а„+1 (0 б (и'+1 (0) будет искомым слабым оптимальным управлением для данной задачи Теорема доказана. Следствие. Рассмотрим управляемую систему в Ru (<§0 х= Л(х, 04-В(х, 0ы с критерием качества С (u)—g(x (0)) + J [Л® (х (0,0 ч- В° (х (t), 0 и (0] dt + max у (х (0), t с G где матрицы А, В, Л®, В° принадлежат С1 в Rn+1, a g(x) и у(х)—непрерывные функции в R". Предположим, что компакт- ное ограничивающее множество Q(x,f)cRm непрерывно зависит от точки (х, 0, принадлежащей множеству Rn х [т0, тх]. Тогда каждое слабое управление из Q (х (0, 0 р (0 = ах (0 б (их (0) 4- ... 4-an+i (0 6 («п+1 (0), с соответствующим решением х(0 системы $, определяет клас- сическое управление й (0 = ах (0 щ (0 4-... 4- а„+хаи+1 (0, принадлежащее слабому ограничивающему множеству Н (Q (х(0, 0). Обратно, каждое классическое управление u(t) с Н (Q (х (0, 0) системы возникает из некоторого слабого управления р(0 из й(х(0, 0; более того, обоим управлениям соответствует одно и то же значение критерия качества.
4 2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 301 Поэтому оптимальное слабое управление p*(Z) мз 0 определяет классическое оптимальное управление и* (t) системы принадлежащее слабому ограничивающему множеству Н(£1(х, /)). Доказательство. Соответствие р(/)—»«(/) вытекает непо- средственно из свойства линейности системы и из того, что подынтегральное выражение критерия качества зависит от и._Для того чтобы определить р(0. соответствующее заданному u(t), поступим так же, как и при доказательстве теоремы 5; так как выражения для С (и) и С (р) идентичны, то следствие доказано. Это следствие показывает, что для линейных систем переход от множества й к множеству Н (Й) эквивалентен введению в Й слабых управлений р. Ниже мы продолжим изучение таких управлений, но сначала целесообразно показать, что такие обоб- щения вовсе не обязательны для линейных систем обычного типа. Мы получим теорему существования для оптимальных управ- лений без всяких предположений о выпуклости, и без ослабления понятия множества допустимых управлений. Управление входит в систему нелинейно, однако основные динамические характери- стики входят в нее линейно. Поэтому можно использовать то свойство выпуклости, которое следует из результатов Ляпунова о. выпуклости области значений векторной меры. Эти сведения из теории меры можно найти в приложении к главе 2 (лемма 4А), а также в некоторых упражнениях после этого раздела. Теорема 6. Рассмотрим систему в Rn (<^) x=A(t)x + B(t, и), где A(f) и B(t, и)—непрерывные матрицы в R1+m. Исходные дан- ные таковы: 1) начальное и целевое множества XB(t) и Xr(t)—непусты, компактны, непрерывно зависят от t в R", при t из некоторого заданного компактного интервала т0^^^тх; 2) ограничивающее множество Й(/) есть непустое компактное множество, непрерывно меняющееся в Rm, при 3) заданы интегральные ограничения на состояние системы G t, u(t))dt^O, ..., \hr(t,u(t))dt^O и t, (множество этих ограничений конечно или пусто), где h1, .... hr — действительные непрерывные функции из R1+m; 4) семейство^ gF допустимых управлений состоит из всех изме- римых функций и (t) на различных подынтервалах t0 t tr в 1то» Ti], таких, что каждому управлению соответствует траек- тория х (t) на интервале t9 t tv переводящая систему из со-
302 ПРИНЦИП МАКСИМУМА гл. 4 стояния x(t0)^X0(t0) в причем выполняются как ограничения на управление u(t)c Q(t) на интервале так и интегральные ограничения 3); 5) критерий качества, определенный для u^F, имеет вид с (и) = g (X (/J) 4- $ Л® (t) X (0+В» (t, и (0) dt, ^0 где g(x), Л® (t), В®(/, и) непрерывны при всех (х, t, и). Предположим, что множество & допустимых управлений не- пусто. Тогда существует оптимальное управление u*(t) из ¥, на интервале минимизирующее С (и). Доказательство. Дополнив систему Pf, получим систему х® = Л® (Ох4-0°(О, (<SZ) х— A(t)x-\-v(t), x* = va(t) а=1,2, ...,г и рассмотрим семейство всех измеримых управлений * v(t) = (xP(t), v(t), v'(t)) на интервале с соответствующими решениями x(£) = (x®(Z), x{t), xa(t)) в R1+n+r, переводящих систему из состоя» ния Хо (Q = (0, Хо (/„), 0) в состояние Хг (/х) = (х®, Xt (/х), х“ (^)), причем Xе (Q > 0, а управление и (/) удовлетворяет ослабленному ограничению v (/) с Н(£1 (/)), где Q (/) = В® (t, □ (0) XВ (t, Q (0)хЛ1 (/, Q (0)X... Xhr (t, Q (0). Заметим, что множество & непусто, так как о® (0 == В® (/, и (0), о (t) = В (t, и (t)), о* (0 = hr (t, и (0), где iz(0C<F обозначает допустимое дополненное управление. Из свойства линейности системы по х следует существование рав- номерной оценки |х(0 для всех решений. Поскольку система линейна по отношению к управлениям v, а Н (Q (/)) — непрерыв- ное выпуклое множество в R1+m+r, то можно непосредственно применить теорему 4 и доказать существование оптимального управления о*(/) на интервале минимизирующего функционал g (х (/х)) + х® (/J. Пусть оптимальная траектория будет j? (iJ) = (х®* (/), х*(/), х“*(0) (to^.t^.ti). Тогда множество достижимости XH(^y (t) в R1+n+r, состоящее из решений, исходящих из х*(^), пересекается с мно- жеством Xx (/) (компактным при | х® | < Ь, | х“ | «С 6) в момент t — t*,
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 303 так что действительная функция g(x) + x° достигает при этом ми- нимума. Но теорема 1А из приложения к главе 2 утверждает, что Kg (0 [обобщение этой теоремы не случай, когда множество Й (/) зависит от t, дается в качестве упражнения]. Итак, существует управление о* (t) a й (/) на интервале < t < tv ко- торое также доставляет минимум критерию качества. Однако из леммы ЗА того же приложения, также обобщенной на случай, когда* Й(/) зависит от t,—следует существование до- пустимого управления и* (/) из & на интервале /£ t t*, такого, что = u*(0), v*(O = B(f, «*(/)), оа*(0 = А’(^. Таким образом, u*(i) доставляет то же самое минимальное значение критерию качества С (и*) = g (х*(/?))+х°* (t*). По- скольку каждое допустимое управление и (/) аГ определяет неко- торое расширенное управление v то С(и)^С(и*), и u*(t) является искомым оптимальным управлением. Теорема доказана. Здесь следует повторить обычные замечания относительно су- ществования оптимальных управлений при предположениях тео- ремы 6, с фиксированным начальным моментом времени /J или на фиксированном подынтервале из интервала [т0, Tt]. Заметим, что основная идея теоремы 6 [для линейных систем множество й заменяется его расширением Н (й) и, кроме того, вводятся слабые управления р, в й] нисколько не облегчает дело по сравнению с применением обычных классических управлений Рассмотрим теперь теорему существования оптимальных управ- лений для нелинейных систем при различных других обобщениях понятия управления, в частности, при импульсных управлениях. Траектория системы будет тогда определяться как решение неко- торого интегрального уравнения, и может не быть непрерывной, а иметь скачки, соответствующие импульсам управления. Поэтому описание таких систем потребует особой аккуратности. Пусть вектор-функция u(f) со значениями из R” определена на некотором интервале 3 из R1. Определим ее полную вариацию, k var и (0 = sup£ | и (t'l+1)—u (ф |, /=о где < ^ <...</* < ^+1— произвольное конечное подмножество из 3, а супремум берется по всевозможным таким конечным набо- рам точек. Вектор-функция u(t) имеет ограниченную вариацию в 3, если varu(Z) < оо, а это будет тогда и только тогда, когда каж- дая ее компонента u(t) имеет ограниченную вариацию в 3. Если
304 ПРИНЦИП МАКСИМУМА гл. 4 интервал 3 компактен, и функция u(t) непрерывна и удовлетво- ряет условию Липшица на‘Я, то очевидно, что varu(t) < оо. Однако функция u(t) ограниченной вариации может иметь’ конеч- ное число разрывов первого рода. Такие функции мы всегда будем доопределять (на конечном множестве точек), чтобы [они* были непрерывными справа на открытом интервале 3. Если функция и (t) имеет ограниченную вариацию на’открытом интервале 3, то ей можно сопоставить векторную меру* Du] как (обобщенную) производную от u(t), полагая для каждого подын- тервала t'f < t t'j+i яз 3 Du(t'h /;+11 = «(/)+1)—м(^), и продолжая ее затем на всех лебеговых подмножествах интер- вала 3 обычным образом так, чтобы полученная мера была счетно аддитивной. Каждая (векторная) мера на 3 порождается некото- рой функцией ограниченной вариации, и две такие функции дают одну и ту же меру лишь в том случае, если они отличаются на постоянную. Если, кроме того, функция и (/) непрерывна, то мера Du приписывает нулевой вес каждой точке в 3\ если же u (t) имеет скачок в V, то Du [Г] =u(/')—и(Г—) = 3 (и (t’)). Таким образом, ^Du есть обычный интеграл Римана — Стилтьеса. 3 В частности, в случае п = 1 и _ ( 0 при — оо < t < О, и ()= ( 1 при О t < оо. Du представляет собой 6-функцию, или, точнее, Du есть мера, при- писывающая вес +1 каждому измеримому множеству, содержаще- му точку / = 0, и вес 0 множествам, не содержащим этой точки. Пусть функция u(t) имеет ограниченную вариацию на откры- том интервале 3 из R1. Тогда мы можем рассматривать меру Du на любом подмножестве 3. В частности, норма Du на компактном интервале /0 t в 3 определяется так: ||Du||=J|Du| = p(u(/0))| + var u(t). Рассмотрим теперь обобщенную, или импульсную дифференциаль- ную систему в Rn Dx = f(x, t, u) + e(t) Du, где вектор-функция и (I) имеет ограниченную вариацию на откры- том интервале 3, а функции f (х, t, и) и e(f) всюду принадлежат С1.
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 305 Тогда решение x(t), проходящее через х0 в момент t0£3, есть некоторая функция ограниченной вариации в открытой окрестно- сти точки i = t0 (и непрерывная справа в /0), удовлетворяющая интегральному уравнению t t x(t) =x0+$f(x(s), s, u(s))ds+\e(s)Du, t, t, где интеграл понимается в смысле Римана — Стилтьеса. Заметим, что x(t0 и начальное значение принимается именно в этом смысле. Теорема существования и единственности решения для этого интегрального уравнения может быть доказана методом последовательных при- ближений, так же как и теорема о непрерывной зависимости ре- шения от начальных условий. Управлением для импульсной системы Dx = f(x, t, u) + e(t)Du на компактном интервале будет функция ограниченной вариации ы(/)в некоторой открытой окрестности 3 интервала |70, fx], определяющая, следовательно, траекторию x(t), по которой система переходит из начального состояния х(/0—) = х0 в заданную цель х(/т). Заметим, что норма соответствующей меры Du зависит, так же как и полная вариация функции u(t) на интервале от скачка J (и (/„)). Заметим также, что интервал t0 t может быть вырожденным, т. е. состоять из одной точки / = /0; следую- ющий ниже пример иллюстрирует именно такой случай мгновенного скачка системы в целевую точку. Пр имер. Рассмотрим импульсную систему в R1'. Dx — u-{-Du, со скалярными управлениями u(t), обладающими ограниченной вариацией в некоторой окрестности интервала 0^7^^. Мы хо- тим перевести систему из точки х0 = — 2 в точку хх = 0 с помощью управлений, удовлетворяющих ограничениям | и (/) | 1, || Du || 1, fl минимизируя критерий качества С (и) = J | и (/) | dt. Легко видеть, что управление */А f °’ —00 < ^ < 0» “ ( 1, = 1 с соответствующим решением
306 ПРИНЦИП МАКСИМУМА гл. 4 переводит систему из точки х0 в точку за минимально возмож- ное время /i = 1, поскольку при управлении и (/)==+1 решение обладает максимально возможной скоростью, и это сочетается здесь с максимально возможным положительным скачком. Таким образом, управление и* (t) доставляет также минимум критерию качества 1 С(«*)=$|м*(0|Л=1, о так как x(f) = u в интервалах между скачками u(t), и с помощью скачков мы приблизились к точке х0 =—2 как только возможно. Итак, оптимальное управление получается наложением импульса в виде 6-функции при t = 0 на управление и = 1. Ослабим теперь ограничения на управление до | и (t) | 2, || Du || 2. Оптимальное управление 0, —оо < t < 0, так что и+ (0 = x+i(0 = 2, — 2, —оо < t < 0, 0, / = 0. Тогда минимальное время fx = 0, и минимум критерия качества С (и+) = 0. Если бы не допускать таких скачков из точки х0 = — 2 в точку Xj = 0, то оптимального управления вовсе не существовало бы. Конечно, всегда можно аппроксимировать импульсное управление и* (/) с помощью гладкого управления и (/) из С1, с соответствую- щим гладким [решением х(/)=§ [ и (0 + и (£)] dt, причем значение о критерия качества также будет приближаться к минимуму. Чем круче будет функция и (/) на все меньшем интервале 0 t tlt т. е. чем ближе она будет к 6-функции и+ (/), тем ближе С (и) к нулю. Однако нулевое значение не будет достигнуто ни при каком гладком управлении; для этого необходимо введение им- пульсного управления. Теорема 7. Рассмотрим импульсную управляемую систему в R”: Dx = f(x, t, u)-\-e(t) Du, где f(x, t, u) принадлежит С1 в Rn+*+m, Исходные данные таковы: 1) начальное и целевое множества Хо(/) и (t) суть непустые, компактные множества, непрерывно меняющиеся eR" с изменением t, когда t принадлежит основному интервалу т0 t тг;
4.2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 307 2) ограничивающее множество Q(x, t) есть непустое компакт- ное множество в Rm, непрерывно зависящее от точки (х, t) в К"х[т0, т,]; 3) существуют ограничения на состояние (в конечном или бес- конечном числе) № (х, t, u)^0, hr(x, t, ы)^0, непрерывные в Rn+i+m (возможно, множество этих ограничений пусто)', 4) семейство S допустимых управлений состоит из функций ограниченной вариации u(t) на различных подынтервалах t0 < t tx интервала [в действительности вектор-функция u(t) имеет ограниченную вариацию в открытой окрестности, не- прерывна справа вместе с соответствующим решением x(t) и порожденной им мерой Du]. Далее, функция u(t) на интервале (/0—удовлетворяет ограничениям и (t)<zQ(x(t), t), №(х(Г), t, u(0)>0, hr(x(t), t, u(t))^O и ||Du||<E для заданного конечного E^O. Траектория же х (t) переводит систему из точки х (tc,—) ^X0(t„) в точку x(t^^.Xx(t^. 5) Критерий качества, определенный на управлениях u(t) (tQ t из семейства S имеет вид с (и) = g (х (Q, и (t J) + $ (X (t), t, U (t)) dt + + $ g°(OD“+T(sup|x(O|> IP" II). где функции g, f°, у непрерывны no всем действительным аргументам, а функция у монотонно не возрастает по каждому из аргументов. Предположим, что: (а) семейство управлений S непусто; (в) существует равномерная оценка |x(f)|^b на интервале (to—) t для решений, соответствующих всем управлениям usS. Тогда существует оптимальное управление и* (t) из семейства S на интервале to^t^t*, минимизирующее функционал С (и). Доказательство. Пусть имеется последовательность управ- ления uk(t) с соответствующими решениями xk(t), k=\, 2, 3,... (f* t q). такая, что ^0 * to, ti- и соответствующая последовательность С (ик) монотонно стремится к нижней грани своих значений. Для удобства положим uk (!) = uk (tko—) для t < t* и uk (t) = uk (Ц) для t > Ц,
308 ПРИНЦИП МАКСИМУМА гл. 4 и рассмотрим решение xk(t), соответствующее этому управлению в’’некоторой окрестности интервала + е > 0. Выберем достаточно малое 8 > 0. Тогда для всех достаточно боль- ших k решения xk(t) будут определены и равномерно ограничены на интервале —2s < t < -J- 2е. Поскольку функция | ик (t) | + var ик (t) равномерно ограничена на интервале £—е^Х/й^-г-е, то по теореме Асколи существует подпоследовательность [назовем ее снова и4(0], сходящаяся в каж- дой точке к предельной функции и* (/) ограниченной вариации. Сделаем функцию и* (t) непрерывной справа на t‘n— (изменив ее значения на счетном множестве точек, не включаю- щем концы интервала), и пусть х* (t)—соответствующее решение уравнения t t x*(/)=x*(/J—в)-)- J f(x(s), s, u*(s))d$ + J e(s)Du*, где хл(/;—8}—>x*(/J—в). Заключаем также, что varи*liminfvarик при /;—8</^/J4-8 » k ч 00 и, следовательно, ||Du*|KE при Поскольку функ- ции xk(f) имеют равномерно ограниченную вариацию, то состав- ленная из них подпоследовательность [вновь обозначаемая хА(/)] сходится и, используя теорему Лебега о сходимости, а также тео- рему Хелли—Брея* 1), получим limxA(f)=x*(/) при + £->оо исключая точки разрыва и* (/). Поэтому решение х* (t) определено нанесем интервале —8^f^/J4-8. Легко проверить, что limx*(f?—)=х*(Г0—) и управление и*(/) удовлетворяет всем ограничениям, наклады- ваемым на допустимые управления из F. х) Теорема (Хелли—Брей). Если { ап } есть последовательность функций равномерно ограниченной вариации на отрезке [0,1] и если существует функ- ция а ограниченной вариации на [0,1] такая, что ап(х)—чх(х), где х при- надлежит некоторому всюду плотному подмножеству отрезка [0,1], содержа- щему 0 и 1, то 1 1 J f (s) а„ (ds) -> J f (s) a (ds), f [0,1J. о о (Прим, ред.)
4 2 УПРАВЛЕНИЕ ПРИ ДОПОЛНИТЕЛЬНЫХ ОГРАНИЧЕНИЯХ 309 Из теоремы Хелли — Брея следует, что 4 + е + E lim $ g°(s)Du* = J g°(s)Du*. *-• Поскольку sup I x* (о I < lim inf (sup | xk (t) |), k -► co и || Du* |K lim inf || Du* ||, k -► 00 TO C(u*)—>C(u*). Итак, u* (0 (/J < t < tl) и есть искомое оптимальное управление. Теорема доказана. Следствие 1. Рассмотрим линейную импульсную систему в R": (J?) Dx=A(t)x+B(t)u+e(t)Du, где A(t), B(t), и e(t) непрерывны в R1. Предположим, что выпол- нены условия теоремы 1)—5) и пункта (а). Тогда необходимо су- ществует равномерная граница [см. (в)], и оптимальное управле- ние и*(t) на интервале существует. Следствие 2. Рассмотрим нелинейную систему в R": (<Ю x=f(x, t, и) т. е. частный случай теоремы при e(t)==O. Предположим, что выполняются условия 1)—5), включая ограничение || Du |К£» а также условия (а) и (в), а критерий качества С (и) остался без изменений. Тогда в & существует оптимальное управление и* (/) на /|К t*- Разумеется, и здесь верны обычные замечания о существовании оптимального управления в подсемействе eF для фиксированного начального момента, или фиксированной длины интервала. Упражнения 1. Обобщить теорему 4 на системы в Rn: (<ff) i=f(x, t, и), где функция f(x, t, и) кусочно-непрерывна по t на интервале r0«C/sCTi, т. е. существует конечное разбиение т0==а0 < Oi < о2 < ... < такое, что на каждом замкнутом интервале az</<oz+1 функции f (х, t, и) и ~ (х, t, и) непрерывны в ₽wX[o/, а/+1]Х₽т. Остальные условия остаются такими же, как в теореме 4. 2. Обобщить следствие 2 из теоремы 4 на системы в (<Л х = А (х, 0 + B(x, t)u
310 ПРИНЦИП МАКСИМУМА гл. 4 с критерием качества С(«)=«г(х(4))+иЛо(х(П. t)+h«(t, u(0)]d/ + esssup Y(x(/), «(0), to t -С где функция Л° (/, и) непрерывна по (/, и) и выпукла по и при каждом фи- ксированном t. Предполагается, что ограничивающее множество Q (х, t) ком- пактно и выпукло при всех (х, t) и непрерывно зависит от этих аргументов. Все остальные условия такие же, как и в следствии. 3. Рассмотрим управляемую систему в Rn: x=f(x, t, и), f^C1 в /?«+!+« с начальным состоянием х0 в момент tQ и заданным целевым множеством G. Допустимыми управлениями являются абсолютно непрерывные функции и(1) на интервалах tQ «С t < t± с ограничениями | и (t) | «С 1, | и (/) | «С 1. Показать, что замена обозначений приводит к задаче с ограниченными фазовыми коорди- натами , где допустимыми являются измеримые управления. 4. В задаче Больца из вариационного исчисления рассматривается минимум *8 интеграла С — J f° (z, t, z) dt на всех абсолютно непрерывных кривых z (t)cRn, G соединяющих две точки z0 и и удовлетворяющих дифференциальному урав- нению 1 z=w(z, t). Вводя новые обозначения, свести эту задачу к стандартной задаче