/
Author: Понтрягин Л.С.
Tags: математика математический анализ дифференциальные уравнения математическое моделирование теория управления принцип максимума
ISBN: 5-354-00817-4
Year: 2004
Text
Л. С. Понтрягнн
ПРИНЦИП МАКСИМУМА
В ОПТИМАЛЬНОМ
УПРАВЛЕНИИ
Издание второе, стереотипное
МОСКВА
УРСС
ББК22.1я44 22.18 22.19
Понтрягин Лев Семенович
Принцип максимум! в оптимальном управлении. Изд. 2-е, стереотипное.
М: Едиториал УРСС, 2004.
64 с.
ISBN 5-354-00817-4
В небольшой по объему книге дано четкое и очень ясное изложение
основного результата теортш оптимального упраатения, известного в
литературе под названием принципа максимума Понтрягина. Кроме того, изложены
основные применения этого принципа к линейным оптимальным системам.
Для широкого круга читателей — математиков и инженеров, изучающих
оптимальное управление или испатьзующих принцип максимума в своей
практической деятельности.
Илл. 14.
Издательство «Едиториал УРСС». 117312, г. Москва, пр-т 60-летия Октября, 9.
Лицензия ИД № 05175 от 25.06.200l г. Подписано к печати Q7.06.2004 г.
Формат 60x90/16. Тираж 500 экз. Печ. л. 4. Зак. Ns 2-1410/587.
Отпечатано в типографии ООО «РОХОС». 117312, г. Москва, пр-т бО-лэтия Октября, 9.
ISBN 5-354-00817-4
УРСС
издательство
НАУЧНОЙ И УЧЕБНОЙ ЛИТЕРАТУРЫ
E-mail: URSS@URSS.ai
Каталог изданий
в Internet http://URSS.ru
Тел./факс: 7 (095) 135-42-16
Тал./факс; 7 (095) 135-42-46
' Л. С. Понтрягин, 1989. 2004
> Едиториал УРСС, 2004
2599 ID 22435
9"785354"008179">
ОГЛАВЛЕНИЕ
Предисловие . , , . . . . 4
Глава 1. Принцип максимума, формулировка 5
§ 1. Управляемые системы 5
§ 2. Задача оптимального управления 8
§ 3. Основной результат: «Принцип максимума» .... 9
Глава 2. Некоторые вспомогательные сведения 10
§ 4. Уравнение в вариациях 10
§ б. Выпуклые множества 13
Глава 3. Доказательство принципа максимума 18
§ 6. Вариации Макшейна 18
§ 7. Сложение вариаций Макшейна 23
§ 8. Расширение класса рассматриваемых вариаций ... 25
Глава 4. Задача быстродействия 31
§ 9. Линейная задача быстродействия .. ..,.., 33
Глава 5. Синтез некоторых задач быстродействия ..... 39
§ 10. Быстрейшая остановка движущейся по инерции точки
в заданном месте . 39
§ П. Быстрейшая остановка математического маятника
ограниченной по модулю силой 44
Приложение. Оптимизация и дифференциальные игры . . 51
ПРЕДИСЛОВИЕ
Настоящая книжка имеет целью изложить
важнейшие результаты, входящие в книгу «Математическая
теория оптимальных процессов» четырех авторов —
Л. С. Понтрягина, В. Г. Болтянского, Р. В.
Гамкрелидзе, Е. Ф. Мищенко, не нанося при этом ущерба полноте
и точности изложения. При написании ее я старался
дать наиболее простые доказательства всем излагаемым
результатам. Не знаю, удалось ли мне упростить
доказательства, имеющиеся в книге четырех авторов, но, во
всяком случае, объем книги резко сокращен — вместо
двадцати печатных листов предлагаемая книжка
содержит не более трех.
В процессе написания книжки я часто встречался с
трудностями при проведении доказательств. В этих
случаях мне было достаточно обратиться за помощью к
Р. В. Гамкрелидзе, который безотказно и немедленно
давал разумный совет, за что я ему горячо благодарен.
Выражаю также благодарность С. М. Асееву за
помощь при редактировании рукописи.
3 севтя5ря 1987 г.
Л. Понтрягин
ГЛАВА 1
ПРИНЦИП МАКСИМУМА, ФОРМУЛИРОВКА
Всюду в дальнейшем будут употребляться
сокращенные обозначения для суммирования: именно, если в
одночлене два раза встречается греческий индекс — один
раз вверху и один раз внизу, — то одночлен этот
означает сумму по всем значениям индекса. Так, например,
я^х", а = 0, 1, ..., п,
означает сумму
4?«*° = Фо*° + *i*! + ... + *«Л
§ 1. Управляемые системы
Работа многих физических процессов и технических
приборов описывается обыкновенными
дифференциальными уравнениями, в которых независимым переменным
является время t. Осуществляется это следующим
образом.
Предполагается, что состояние технического прибора
в данный момент времени определяется несколькими
величинами. Обозначим их через х\ х2л ..., хп. Величины
эти называются фазовыми координатами прибора, а
пространство /?", в котором они являются координатами,
называется фазовым пространством прибора. В
соответствии с этим вектор
х = (х\х2 хп) (1)
называется фазовым вектором прибора. Оказывается,
что скорость изменения каждой фазовой координаты х1
со временем, т. е. -^- = л:', определяется фазовым
вектором ж, так что мы имеем
*' = -ir = /V. *\ .... *")-f (*). (2)
б
или, в векторной форме,
±=■§■=/(*>• <3>
Система уравнений (2), записанная в векторной
форме (3), определяет поведение прибора в процессе
изменения времени. Для того чтобы получить конкретное
изменение вектора состояния x(t)t достаточно задать
начальное состояние x(to) = xQ в момент времени to- Тогда
решение x(t) системы (3) даст определенное поведение
прибора во времени.
В качестве примера рассмотрим движение
материальной точки в трехмерном евклидовом пространстве.
Механическое состояние этой точки в каждый момент
времени определяется шестью величинами: геометрическими
координатами точки у\ у2, у3 и скоростями у1, у2, у3.
Совокупность у\ у2, у3 объединим в один вектор у =
— (У1. У2> У3)- Тогда совокупность скоростей ylt у2г У3
будет составлять векторную скорость у = (у2, у2, у3).
Движение точки в пространстве определяется
следующим уравнением:
my = f{y). (4)
о - d2y
Здесь т — масса точки, ^==-^1 ее ускорение, а
f(y) — сила, действующая на точку, которая
предполагается здесь зависящей от положения у точки в
пространстве. Для того чтобы переписать (4) в форме (2), (3),
введем в рассмотрение вектор г, состоящий из двух
частей; вектора Z\ = у и вектора г2 = у, т. е.
2 = (*i> z2) = (s(, V)-
Тогда уравнение (4) перепишется в виде
i = (*„ *2)=(>2, 1М).
Может случиться, что процесс изменения
фазового вектора х в уревнении (3) зависит не только от
фазового состояния х объекта, но также от некоторых
других величин. Наиболее ярким примером может служить
самолет, в котором мы следим за движением его центра
тяжести, так что здесь речь идет о движении точки в
пространстве. Однако в действительности движение
самолета зависит от его ориентации в пространстве как
твердого тела и тяги двигателя. Ориентация твердого
6
тела в пространстве определяется тремя числами z\% 22,
z3, а тягу двигателя обозначим гА. Правая часть
дифференциального уравнения (4) определяется не только
вектором положения у центра тяжести самолета, но и
значениями параметров zb 22, 23, 24. Объединяя эти
параметры вместе, получаем параметр и. Тогда уравнение
(4) запишется в виде
my = t(y> «)•
Величина и называется управлением.
В общем случае мы можем уравнению (3) придать
вид
*«/(*. •). (5)
Здесь и называется управлением и определяется
несколькими величинами. Предполагается, что функция /
непрерывна по совокупности всех переменных и имеет
непрерывные производные по каждому xL
Для того чтобы получить определенное решение
уравнения (5), нужно задать не только начальное значение
x(to) — XQ, но также задать управление и как функцию
времени t: u=u(t). В дальнейшем будем считать, что
управление u(t)—кусочнонепрерывная функция со
значениями в г-мерном пространстве Rr9 непрерывная слева
в каждой точке разрыва и имеющая предел справа.
В нашем примере с самолетом величина у
определялась в зависимости от ориентации самолета в
пространстве и тяги двигателя. Утверждение, что ориентация
самолета в пространстве определяется тремя числами,
неточно. Ориентация твердого тела в пространстве
определяется тремя числами только локально. В
действительности же совокупность всех положений твердого
тела в пространстве при фиксированном центре тяжести
представляет собой множество, являющееся
естественным образом некоторым топологическим пространством.
Таким образом, в случае самолета управление и не
является просто числовой функцией, а принадлежит
некоторому топологическому пространству Й.
Система (5) называется управляемой системой
уравнений, а и — ее управлением. Как правило, управление и
принадлежит некоторому множеству О, которое будем
считать подмножеством г-мерного евклидова
пространства /?г.
7
§ 2. Задача оптимального управления
Пусть
* = /(*, и), «еО,
(см. (5))—управляемая система, заданная в я-мерном
фазовом пространстве Rn. Допустим, что существует
такое управление и =«(/), которое переводит фазовое
состояние хо в фазовое состояние х\. Это значит, что
существуют два таких значения времени /о < <ь чт0 Ре*
шение уравнения x = f(x, u{t)) удовлетворяет условиям
*(/0) = *о> *(<i) — *i.
Здесь предполагаются фиксированными только точки
Хо и хи но не моменты времени /0 и t\.
Задача заключается в том, чтобы выбрать такое
наиболее выгодное управление u(t)eQ9 которое также
переводит фазовую точку х0 в фазовую точку *i.
Выгодность управления и(t) описывается
функционалом L. Управление считается наиболее выгодным, если
функционал L имеет минимальное значение. В нашем
случае функционал L задается в виде интеграла
L«$P <*(')■ u(t))dt, (6)
и
где
f°(x, u) = f>{x4t) xn(t)t «(/))
— заданная функция указанных переменных.
Важным частным случаем является тот, когда
f°(x,u)Es 1. В этом случае
т. е. наиболее выгодным управлением считается такое,
которое переводит фазовое состояние х0 в фазовое
состояние хх за наименьшее время. Это задача
быстродействия.
Математика обладает свойством универсальности.
Именно, решая конкретную задачу, мы получаем
результат, пригодный для решения многих других задач.
Так, например, функционал L может оценивать
количество топлива для придания космическому объекту
заданной ориентации. В виде задачи оптимального
управления могут быть сформулированы некоторые
экономические задачи и задачи естествознания.
8
§ 3. Основной результат: «Принцип максимума»
Включим фазовое пространство Rn в л + 1-мерное
пространство Sn+1, присоединив к координатам хК ..., хп
координату х°. Вектор пространства 5Л+1 будем
обозначать
*»(**, л-1 хп).
Наряду с вектором х рассмотрим вектор
*«==(*<» *ь •••» Фл)
и вспомогательную функцию
К{х, *, а) —ф„/"(*, а), а«0, 1 *,
двух n + 1-мерных векторов х,у и точки и множества Q.
Для удобства номера координат векторов х и } будем
писать вверху, а вектора \р— внизу.
Теорема 1. Рассмотрим систему уравнений
t __ дК (х. +, и) „
х — дъ ■ v>
+1--5¾^. (8)
Система уравнений (7), (8) содержит 2(п+1)
уравнений. Она неполна, так как наряду с 2(л+ 1)
неизвестными функциями х19 ф/, / = 0, 1, ..., п, содержит еще
неизвестную точку u(l)sQ. Система уравнений (7)
содержит систему (5) управляемого объекта, а также
определение функционала L (см. (6)). Оказывается, что
для того чтобы управление u(t) было оптимальным при
заданном функционале L, необходимо, чтобы
существовала ненулевая векторная функция tjp(/),
удовлетворяющая системе уравнений (7), (8), и, кроме того, чтобы
для любого t из отрезка /0 ^ / ^ t\ и для любой точки
veQ выполнялось неравенство
K{x(t), ¢(/), а (/))>* (*(/), *(*), v). (9)
Последнее неравенство так дополняет неполную
систему (7), (8), что система уравнений (7), (8) вместе с
(9), вообще говоря, определяет величины £(/), ф(/) и
Неравенство (9), составляющее центральный пункт
теоремы 1, дало основание назвать теорему 1 принципом
максимума.
ГЛАВА 2
НЕКОТОРЫЕ ВСПОМОГАТЕЛЬНЫЕ СВЕДЕНИЯ
В этой главе будут даны некоторые вспомогательные
результаты из математики, которые я буду использовать,
но которые я не считаю общеизвестными.
§ 4. Уравнение в вариациях
Здесь мы рассмотрим систему уравнений
i'-ZV. **. ■■-. *",0 = /'(i, 0. (1)
Здесь
X —— \Х у X , • • • , X )
есть вектор п + 1-мерного векторного пространства
Sn+\ так что систему (1) в векторной форме можно
записать в виде
*«f(*./). (2)
В дальнейшем нам придется рассматривать частную
производную от функции /*(ж, /) по х1. Поэтому мы
введем для нее обозначение. Именно, положим
Система уравнений (1) имеет бесконечное множество
решений;^для того чтобы выделить одно определенное
решение x(t), нужно задать начальное значение. Именно,
для заданного значения /0 задать начальное значение
функции x(t). Это начальное значение обозначим rj.
Тогда начальным условием
*('о) = Ч
решение x(t) однозначно определяется. Поскольку
решение x(t) определяется величинами /0 и tJo> выпишем
зависимость функции x(t) от этих величин в явном виде,
положив
£(*) —Ф(П, t0, t).
Функция ф, состоящая в правой части последнего
равенства, удовлетворяет условию
ф(*Ь <о, ^)) = 4.
10
Допустим, что в момент t = t0 функция x(t) имеет
начальное значение дго. Заменим теперь это начальное
значение начальным значением
П = *о + е|о + о(е),
где е — малое положительное число, |о — некоторый
вектор, а о(е) — величина более высокого порядка малости,
чем е, т. е.
.. о(е) п
lim 0 =0.
£-►0 8
Посмотрим, как будет себя вести решение x(t) с этим
начальным значением. Мы имеем
-0T<P(*o + eio + o(e), t0t /) =
= f (Ф (io + 4) + о (8), t0, 0, t) (3)
(см. (2)). Разложим обе части последнего равенства по
степеням е.
Разлагая левую часть равенства (3) по степеням е,
получим
-37 Ф* (*э + 4о + О (в), /0, /) =
а*
^ф'<*о. 'о. ') + е^1^Г^(*о, /о. 0Й + в(в).
Разлагая правую часть равенства (3) по степеням е,
получим
/' (Ф (io + elo + о (8), tQ, 0. /) = /' (Ф (*0. 'о, 0, 0 +
+ *-&•$&' '» 0. 0афРу °£оа + 3(8).
Положим
б'(0—гпгф'(50. /о. ОЙ.
Тогда функции £'(/) удовлетворяют системе
I'-fk". /-0. 1,..., Л, (4)
и начальным условиям
б1 (<о)-Во-
И
Решение уравнения (2) с начальным значением io+eCi-f
+ о(е) записывается в виде
x(t) + u(t) + o(*)>
где 1(/) — решение уравнения (4) с начальным
значением !(/о) = 1о- Здесь о {г) непрерывно зависит от %, и
■2^1 равномерно стремится к 0 при г -*0. Уравнение (4)
в
называется уравнением в вариациях для уравнения (2).
A) Если в точке / = т начальное значение
управляемой величины равно х(т) + е§(т) + о(в), то в любой
точке-/ отрезка /0^/^/i значение управляемой
величины x(t)9 по доказанному ранее, будет иметь вид
х (/) + *!(/) + о (е), и вектор |(/) будем считать
переносом вектора f (т) из момента времени т в момент
временя /.
Перенося вектор 1(т) из момента времени т в момент
времени /, мы получим вектор |(/). Будем считать, что
вектор |(т) задан в точке х(х)9 а вектор f(/)~- в
точке £(/).
Положим
!(/) = Л,,Д(т).
В силу линейности и однородности уравнения в
вариациях (4) оператор AtiX — линейный, АХуХ есть
тождественное преобразование и, кроме того, выполнено
соотношение
где /, s, т—уточки отрезка /0 < / ^ /ь
Вектор tf (/), являющийся решением системы (8)
главы I с начальным условием ф(т) в момент времени
т, будем считать переносом вектора г|э(т) из момента
времени т в момент времени /.
B) Если £(/)—вектор, являющийся решением
уравнения в вариациях (4), a ¢(/)— вектор, являющийся
решением системы (8) главы 1, то скалярное
произведение этих векторов постоянно:
^(0.*(0> —6eW4»a(0-COnst.
Для доказательства последнего соотношения
покажем, что производная по / скалярного произведения
12
(!, if) есть нуль, используя при этом уравнение (4) в
уравнение (8) из главы 1:
ir 14«=£ч+14«=тЧа - tafito - о.
§ 5. Выпуклые множества
С) Множество М точек евклидова пространства R*
называется выпуклым, если вместе с двумя точками а и
6, принадлежащими множеству М, множеству М
принадлежит и весь отрезок, соединяющий точки а и 6.
Точка ое/?л называется граничной для множества
М, если она является предельной для М и для
множества Rn\M, дополнительного к М в пространстве /?л.
Здесь под предельной точкой некоторого множества
А подразумевается точка, к которой сходится
последовательность точек из А.
Совокупность всех точек множества М, не
являющихся его граничными точками, называется
внутренностью М% а совокупность всех граничных точек М
называется границей.
D) Координаты вектора \|>е/?Л естественно считать
координатами гиперплоскости, проходящей через начало
координат в пространстве /?". Именно, вектору
ур = (Ъи ..., фЛ)
ставится в соответствие гиперплоскость Г из /?Л,
определяемая уравнением
<я|>, *) = я|>а^ = 0, а=1, .... л. (5)
Так поставленная в соответствии вектору ф
гиперплоскость Г разбивает пространство Rn на две части:
отрицательную, состоящую из тех точек х, для ко-
TODblX
<ф, *><0, (6)
и положительную, для которой
<Ч>, х)>0. (7)
Каждая гиперплоскость Г пространства /?", проходящая
через начало координат, может быть задана уравнением
вида (5).
Будем считать, что два множества А, В
пространства Rn отделены друг от друга гиперплоскостью Г, если
одно из этих множеств находится в отрицательном полу-
13
пространстве (6), а другое — в положительном (7).
В смысле этого определения два множества А и В,
лежащие в гиперплоскости Г, отделены друг от друга этой
гиперплоскостью, даже если они пересекаются или
совпадают. Так что слово «отделены» не имеет здесь того
интуитивного смысла, который ему естественно
приписать.
Если некоторая гиперплоскость Г' не проходит через
начало координат, то она может быть задана
гиперплоскостью Г, параллельной ей, проходящей через начало
координат, и некоторой точкой а, через которую она
проходит. Произвольная гиперплоскость Г" также
разбивает пространство Rn на две части — положительную
и отрицательную, и в отношении нее также можно
говорить, что она отделяет друг от друга два множества А
и В из Rn.
Е) Пусть а — граничная точка выпуклого множества
М. Гиперплоскость Г пространства Rn называется
опорной гиперплоскостью к множеству М в точке а, если она
проходит через точку а и множество М лежит целиком
по одну сторону от гиперплоскости Г.
Докажем, что для каждой граничной точки а
выпуклого множества М существует опорная гиперплоскость.
Пусть с — некоторая точка пространства /?Л, не
принадлежащая ни множеству М, ни его границе. Пусть,
далее, Ь — точка из множества М или его границы,
ближайшая к с. Проведем через точку Ь гиперплоскость Г,
перпендикулярную отрезку cb, и покажем, что все
множество М лежит по одну сторону («слева») от
гиперплоскости Г. Для этого спроектируем ортогонально
множество М на прямую, содержащую отрезок сЬ, и покажем,
что все точки этой проекции М* лежат по одну сторону
(«слева») от точки Ь.
Если это не так, то найдется точка d из множества
Му проекция которой на прямую, содержащую отрезок
cb, лежит правее точки Ь, и в этом случае точка d лежит
правее гиперплоскости Г. Проведем через точки с, 6, d
двумерную плоскость Р и будем рассматривать чертежи
в этой плоскости. Геометрически ясно, что угол cbd —
острый и на отрезке db найдется точка Ь\ лежащая к с
ближе, чем 6, что противоречит предположению.
Пусгь теперь а — произвольная граничная точка
выпуклого множества М. Пусть аь а2, .... а*,
...—последовательность точек из /?л, не принадлежащих ни М, ни
его границе, сходящаяся к точке а, и пусть Ьк — точка
14
из М или его границы, ближайшая к а*. По
доказанному через точку bk проходит опорная гиперплоскость Г*.
Из последовательности гиперплоскостей Г* можно
выбрать подпоследовательность, сходящуюся к некоторой
гиперплоскости Г, и эта гиперплоскость является
опорной к множеству М в точке а.
Итак, через каждую граничную точку а выпуклого
множества М можно провести опорную гиперплоскость.
F) Конусом С в пространстве Rn с вершиной о
называется такое множество, которое наряду с любой точкой
а из множества С содержит весь луч /, выходящий из о
и проходящий через точку а.
Конус С называется выпуклым, если он является
выпуклым множеством.
Если выпуклый конус С не совпадает со всем
пространством Rny то его вершина о является граничной
точкой выпуклого множества С. По доказанному ранее
через нее можно провести опорную гиперплоскость Г к
выпуклому конусу С.
G) Конус С является выпуклым, если наряду с
любыми двумя своими точками а, Ь он содержит точку
а + Ь.
Действительно, если точки а, Ь входят в конус С, то
лучи, ведущие в эти точки, также входят в конус и
точки afl, (1—a) 6, 0^ a^ 1, входят в С. Следовательно,
наряду с двумя точками а и 6 в конус С входит точка
aa + (l—a)ft, 0^ a ^1. А это означает, что конус С
является выпуклым множеством.
Н) Пусть С — выпуклый конус из пространства Sn+]
с вершиной о и /—некоторый луч, выходящий из
вершины о конуса С и не проходящий во внутренности С.
Тогда существует опорная гиперплоскость Г в точке о
к конусу С такая, что луч / и конус С лежат по разные
стороны от гиперплоскости Г.
Для доказательства утверждения Н) рассмотрим
разность С — / конуса С и луча U т. е. множество точек вида
а — Ь, где точка а принадлежит С, а точка Ь — лучу L
Непосредственно видно, что множество С — / —
выпуклый конус с вершиной в начале координат. Далее,
луч / не пересекается с внутренностью конуса С и,
следовательно, начало координат не является внутренней
точкой конуса С—/, а лежит на его границе. Отсюда
в силу предложения Е) получаем, что через начало
координат можно провести гиперплоскость Г', опорную к
конусу С — /. Тогда луч I и конус С лежат по разные
15
стороны от гиперплоскости Г, параллельной
гиперплоскости Г" и проходящей через точку о.
Опишем простейшее выпуклое множество — n-мерный
симплекс.
I) Пусть xot Хи .. •, Хп — л+ 1 точек евклидова
пространства /?г, r^z п. Предположим, что векторы
Х\ X$f • • •, Хп — Xq
линейно независимы. В каждую точку xt поместим груз
К1 ^ 0. Тогда центр тяжести х определяется формулой
*--£*-. (8)
Предполагая, что
E*'=l, (9)
формула (8) принимает вид
х = Хаха. (10)
Совокупность всех точек вида (10), где Я°, ..., № —
неотрицательные числа, удовлетворяющие условию (9),
называется симплексом. Из самого определения симплекса
видно, что он представляет собой выпуклое множество.
Числа Я6, ..., %п называются барицентрическими
координатами точки х симплекса, который мы обозначим
через Тп. Точку симплекса, для которой все
барицентрические координаты равны между собой, будем
называть центром симплекса.
Если одна из координат К1 равна нулю, то формула
(10) описывает п—1-мерный симплекс, составляющий
п — 1-мерную грань л-мерного симплекса Тп.
Совокупность Бсех п— 1-мерных граней симплекса Тп будем
называть границей симплекса Тп.
Если г = л, то каждую точку х = (х1, ..., хп)
пространства Rn можно записать в виде
X = А ха,
где \1 — уже необязательно неотрицательные числа, но
соотношение (9) сохраняется. Для доказательства этого
достаточно разрешить относительно Х°, V кп си-
16
стему уравнений
*-0
Рассмотрим матрицу системы (11). Она имеет вид
/1 1 ... 14
Вычтем из всех столбцов этой матрицы ее первый
столбец. Мы получим
/1 0 ... О \
\ Xq Х\ —- Xq • • . Хп """* *0 /
Так как векторы х\—х0, ..., хп — х0 линейно
независимы, то ранг последней матрицы равен л+ 1-
Следовательно, матрица системы (11) имеет определитель,
отличный от нуля, а система (11) имеет, причем
единственное, решение.
Таким образом, в этом случае каждой точке х
пространства Rn соответствует последовательность чисел
А,0, V, ..., Xя, определяемая из системы уравнений (11).
Числа А,0, V, ..., к" называются барицентрическими
координатами точки ж. Координаты эти непрерывно
зависят от точки х.
Если точка х принадлежит границе симплекса Тп, то
к ней сходится некоторая последовательность точек из
Гл, а также некоторая последовательность из Rn\Tn.
Таким образом граница симплекса Тп состоит из всех
граничных точек выпуклого множества Тп в
пространстве Rn.
J) Пусть ре (ж)—непрерывная функция, заданная на
n-мерном симплексе Тп со значениями в Rn (же Тп9
е^О). При е = 0 отображение Ро(*) — тождественное
и ре(*)—* равномерно стремится к нулю при в->-0.
Тогда при достаточно малых g центр симплекса Тп
принадлежит множеству $е(Тп)
Это утверждение я привожу здесь без
доказательства.
17
ГЛАВА 3
ДОКАЗАТЕЛЬСТВО ПРИНЦИПА МАКСИМУМА
§ 6. Вариации Макшейна
Если величина принимает числовые значения, то
малое ее изменение принято называть приращением.
Аналогично малое изменение функции принято называть ее
вариацией. Здесь мы будем заниматься вариациями
управления u(t) (h^ t ^ t\). Обычно считается, что
замена управления u(t)
управлением u*(t)
является вариацией, если
выполнено условие
!«•(/)-и (О К е,
где б — малое
положительное число. Макшейн
рг предложил изменить и (t)
не на всем протяжении
to ^ / s^ t\ на малую
величину е, а на малом
промежутке значений t на конечную величину. В этом его
главное, на мой взгляд, нововведение. Дадим точное
определение вариации Макшейна.
А) Пусть т — некоторое значение /, принадлежащее
интервалу I: t0<C t <с tu являющееся точкой
непрерывности управления u(t), и а—некоторое неотрицательное
число, е — малое положительное число. Изменим теперь
управление u(t) на отрезке / = /(т; а; е):
U
Г-€6Г
Рис. 1
*
т — ест < / ^т,
заменив функцию u(t) на этом отрезке некоторым
постоянным значением i/eQ (см. § IA)). Говорят, что так
полученное управление и* (О получается из u(t) при
помощи одночленной вариации Макшейна, которую
обозначим через М(х; a; v; е) (рис. 1).
Выясним теперь, как изменится управляемая
величина x(t), определяемая уравнением
* — /(*, **(/))
при замене управления u(t) управлением и (t) и при
сохранении начального значения, т. е. при условии
is
* о Со) = х Со). Именно, мы хотим сравнить значения
ж*(т) и х(т), т. е, сравнить обе управляемые величины,
после прохождения отрезка У.
В) Оказывается, что
£'(т)-£(т) = ва(7(*(т), v)-f(x(x), а(т))) + 5(в). (1)
Докажем соотношение (1). Ясно, что
£ = ^ (т) - i (т) = 5 (f (*' (/), V) - } (х (/), а (0)) Л. (2)
т—ВО
Далее,
f&uh *)-№(*). г) = о(в),
где 0(e) стремится к нулю вместе с е. Аналогично при
т — еа < / ^ т и в силу непрерывности «(/) в точке т
f (*(/), e(/))-?(i(T)f а(т)) = д(е).
Таким образом,
/£'(/), *)-?(*(/). «(/))-
-f (*'(*). *)-7(*(т), в(т)) + в(в).
Следовательно, интеграл (2) может быть записан в виде
S - J <f (*' (0, *) - f (* </), и (/))) Л =
= J (f(*'(f), *)-/~(*(т), o(x)))d/ + ead(e).
Таким образом,
£ = га {Кх9 (т), р) - ? (S (т), « (т))) + ?(в). (3)
В силу формул (2) и (3) имеем
xm(r)-i(r) = Eo(fCx(x)t v)-J(x(T)t и(т))) + о(е). (4)
Заменяя в первом члене правой части формулы (4)
f(x' (т), v) на /(ж(т), v), получим^ изменение правой
части этого равенства иа величину о (в). Таким образом,
будем иметь
С = еа (f (* (т), v) — f(x (%)9 и &))) + 5(e).
19
г
Следовательно,
i#(T)-i(T) = ea(f(*(x)f v)-}(2(t), а(т))) + о(е). (5)
Эта последняя формула (5) дает ответ на вопрос,
сформулированный перед предложением В).
Усложним несколько одночленную вариацию Мак-
шейна (см. А)), изменив управление u(t) не на одном
отрезке времени / вблизи т, а на нескольких отрезках
/ь /2, ..., /5, близких к т.
C) На отрезке времени t0^L t ^ t\ выберем момент
времени т, h < т < /ь являющийся точкой
непрерывности управления u(t)9 а затем s отрезков времени
/ь h, . •., Л слева от
момента времени т так,
чтобы эти отрезки шли,
примыкая друг к другу в
направлении возрастания
времени, причем так,
чтобы s-й отрезок заканчи-
_^. вался в момент времени т.
*" Длина отрезка Jkt k =
== 1 s, равна ест*, где
е — малое
положительное число, а ок — неотрицательное число. На отрезке Л
управление u(t) заменим постоянным управлением v* е
е Q. Вне отрезков /ь ..., Л- управление ы(/) менять не
будем. В результате этой операции получим новое
управление а*(0- Будем говорить, что новое управление
и* (t) получено из управления u(t) при помощи
вариации Макшейиа, которую обозначим через
М(х\ аи .. ., as\ vu ..., vs\ е) (6)
(рис. 2).
D) Сравним теперь управляемую величину х,
заданную уравнением
* = f(*. «(/)),
с управляемой величиной ж*, определяемой уравнением
$
Рис. 2
?«№. а-(/)),
в момент времени т, т.
через отрезки /ь /2,
вариацией (6).
е. после прохождения времени t
, /fl где ***(/) получается из u(t)
20
Так же, как в предложении В), доказывается
формула
i-(T)-i(x) = eEa,(/V(T), vt)-J(x(%), и(т))) + 5(е).
(7)
Е) Определим теперь многочленную вариацию Мак-
шейна М как вариацию, полученную в результате
последовательного применения конечного числа вариаций
i i i
Рис. 3
Ми М2у ..., Mr, где каждое Mt представляет собой
вариацию, описанную в пункте С) с т = т/, при этом
'о < Т1 < т2 < . . . < тг < tx
— точки непрерывности управления u(t) (рис. 3).
F) Сравним управляемую величину х, заданную
уравнением
x = f(x, u{t)\
с управляемой величиной #*, определяемой уравнением
£*-№. «*<*)).
в момент времени т = тг, т. е. после прохождения
времени / всех отрезков, на которых u(t) подвергалось
изменению, где u*(t) получается из u(t) многочленной
вариацией Макшейна Mf описанной в пункте Е).
Пусть М\9 М2, ..., Mr — вариации Макшейна,
описанные в пункте С), последовательное применение
которых образует вариацию М. Для простоты
изложения рассмотрим только случай г = 2. Обозначим через
е|, +о(е) и е|2 + о(е) те приращения, которые получает
управляемая величина x(t) в результате применения ва-
21
риаций Мх и М2 в точках п и т2 соответственно (см. D)).
В результате последовательного применения вариаций
Макшейна М{ и М2 управляемая величина получит в
точке т=Т2 приращение (см. пункт А) § 4)
еЛТ21 Xl|i + eh + o (е).
G) Если управление u(t) подвергается вариации
Макшейна М (см. А), С), Е)), то мы получаем новое
управление u*(t). Если исходная управляемая величина
x(t) задавалась управлением u(t), а новая
управляемая величина x*(t) задается управлением u*(t), то в
момент времени т, взятый после прохождения всех
отрезков времени, ка которых u(t) подверглось
изменению, управляемые величины x(t) и х* (t) имеют,
вообще говоря, разные значения. Именно,
*'(т)-*(т) = е£(т) + о(в).
Если примененная вариация Макшейна была
одночленной, то
1(т) = а(/(*(т), v)-f(x(x), и (г)))
(см. В)). В случае вариации Макшейна, описанной в
предложении С),
I(т) = t о, (Г(х(х), vt) -Jd(т), и (т)))
(см. D)). В случае многочленной вариации Макшейна
Т = %г И
I (т) = А т, t|, + Ах, т|2 + ,.. + Ь (8)
(см. F)).
Если вектор |(т), заданный в точке х(х)у перенести
из момента времени т в момент времени t\ (см. А) § 4),
то обозначим полученный в точке x(t\) вектор через
ф(Л4), т. е. положим
<P(Af)=I(/|).
Так что в конце отрезка времени /0 ^ t ^ t\ мы
имеем
22
§ 7. Сложение вариаций Макшейна
Определим прежде всего сумму двух одночленных
вариаций Макшейна, описанных в предложении А).
Н) Пусть
М = Л1(т; a; v; е) (9)
Af, = Ai,(T/; а'; v'\ е) (10)
— две одночленных вариации Макшейна, описанные в
предложении А). Если т =» т', то их сумму определим
следующим образом:
Af(x; a; v\ e) + Af/(x; а'; t>'; в) = М(т; а, а'; и, и'; е)
(см. С)). Если т'^т, то сумму Af + ЛГ вариаций (9),
(10) определим как многочленную вариацию,
получающуюся в результате последовательного применения
вариаций М и М' (см. Е)). Из формул (7), (8) следует,
что
Ф (Af) + ф (МО = ф (Af + Af').
I) Определим сумму двух вариаций Макшейна,
описанных в пункте С),
Af = Af(r; аь а2, ..., а,.; t>lf и2 и,; в),
Mf = M/(x/; а\, crj, .... а'р; v\% v'v ..., ^; е)
при т' =^= т, как последовательное применение этих двух
вариаций. Если же т' = т, то сумму определим
следующим образом:
Af + АГ =
= Af (т; сгр ..., сг,, а', ..., о£ vx vs, v[y ..., v'j e).
Так же, как в предложении Н), ясно, что
Ф (Af + М') = ф (Af) + ф (МО.
Заметим, что многочленная вариация Макшейна Af
(см. Е)) может быть представлена в виде суммы
M = Af, + ... + Afr,
где Mi — вариация, описанная в пункте С).
J) Определим теперь сумму двух многочленных
вариаций Макшейна, описанных в предложении Е). Для
этого прежде всего заметим, что можно считать
встречающиеся в этих вариациях т одинаковыми, так как в
23
каждую вариацию можно ввести дополнительное т,
считая, что соответствующие а = 0. Пусть
М — Мг+... + Mr, (11)
М' = М\+ ... +М; (12)
— две такие вариации, где Mt и М\ — вариации,
описанные в пункте С). Сумму этих двух вариаций зададим
формулой
Af + Af' = £ (Л*, + AfJ), (13)
где первоначально суммируются вариации Макшейна,
описанные в пункте С) с одинаковым т/ (см. I)), а
затем берется сумма всех парных сумм.
Сумма парных сумм получается в результате
последовательного применения каждой парной суммы и
поэтому является многочленной вариацией Макшейна.
Для каждой парной суммы имеет место формула
(см. I))
«р(л*, + м;)-ф(м,) +q>(Ai;).
Для суммы же парных сумм (13) имеет место
формула (см. F))
Ф (g (Mt + M't)) - t <f (Mt + M't).
Таким образом, для суммы двух многочленных вариаций
Макшейна (11) и (12) получаем
Ф (М + М') «= ф (М) + ф (ЛГ).
Определим теперь умножение вариации Макшейна
на действительное неотрицательное число.
К) Для того чтобы умножить некоторую вариацию
Макшейна М на действительное неотрицательное число
Я ^ 0, следует каждое число а, входящее в определение
вариации Макшейна, умножить на к. В результате этой
операции мы получим новую вариацию Макшейна Так,
умножение одночленной вариации Макшейна (см. А))
fca X описывается формулой
кМ (т; a; vt е) = М (т; Ла; v; в),
24
а умножение на X вариаций Макшейна, описанных ■
предложении С), задается формулой
kM(i; аи ..., os; v{9 ..., v3; е) —
= Л/(т; Хаи ..., Xas\ vXf ..., ut; •).
Аналогично определяется произведение многочленной
вариации Макшейна М на число X.
Далее, непосредственно видно» что если М есть
вариация Макшейна, то
Ф(Ш)«Я,ф(ЛГ), Х>0.
Таким образом, отображение <р является линейным
отображением при неотрицательных коэффициентах.
И потому множество всех векторов <р(Л1), где М — про*
извольная многочленная вариация Макшейна,
представляет собой выпуклый конус с вершиной x(t\).
§ 8. Расширение класса рассматриваемых вариаций
Расширим класс рассматриваемых вариаций
Макшейна, присоединив к ним еше один действительный
параметр а, который может быть как положительным,
так и отрицательным. Новую вариацию управления
u(t) мы обозначим V(M,a) в знак того, что она
зависит от вариации Макшейна М и действительного числа
а. Применяя эту вариацию к заданному управлению
и(0 *о ^ 15¾ *ь получим новое управление н*(0>
которое будет задано не на отрезке t0 ^ t ^ t\y а на новом
отрезке *0 ^ t ^ t\ + ва. На отрезке t0 < / ^ t\ будем
считать, что «*(/) получено из u(t) вариацией
Макшейна М, а затем вблизи, t = t\ определено в зависимости
от а. При положительном а управление u*(t) задано на
большем отрезке, чем исходное управление u(t), а при
отрицательном а — на меньшем отрезке. При
определении вариации V(Mt а) надо внимательно различать
случаи положительного и отрицательного а. При а > О
мы определим управление u*(t) на отрезке fi < / ^ t\ +
4- еа, положив
так что на этом отрезке времени управляемая величина
£*(0 задается формулой
*' {D = *' (/4) + (t- ti) FixVJ. и (t{)) + Ъ (в).
25
При а<Омы определим и* (/) на отрезке t\ + еа <
<С / ^ /ь положив
к* (/) = и (/), а < 0, /, + еа < / < /ь
Так что при Л + еа < / ^ /i имеем
t
x (/) = х- (/,) + J f (*' (/), и- {t))dt =
= £• (/0 + (/- /О f (i (/i)> «(/0) + ^ (8).
Таким образом, при t = t\ + ea имеем
i- (/, + ea) = *# (/0 + ea/V(/i). « (/0) + о (e)
(как при положительном, так и отрицательном а).
Итак, новое управление и* (0 определено на отрезке
/0^/^/* = /, +eat и мы имеем
i"W)-i*(/i) + ea/V(/i). « (/1)) + 0 (в). (14)
Определим теперь сумму двух вариаций V(Mua{) и
VlM2t с*2), положив
V (Ми а,) + К (Л*2, (¾) = V (Л*, + М2, а, + а2).
Далее, определим умножение вариаций V(M,a) на
неотрицательное число X ^ 0, положив
ЯУ(Л*, a) = V (Л/И, Ла).
Определим, далее, линейное отображение ср примени*
тельно к вариации V(M,<x), положив
*(V(M9 а)) = ф(М) + аГ(х(/,), тШ
Здесь q: (М) есть вектор, выходящий из точки х(({) (см. G)),
a f(x(ti), «(/О) мы будем рассматривать как вектор,
также выходящий из точки *(/]). Таким образом, все
векторы
4>(V(Mt a))
выходяг из точки x{t\) и совокупность их образует
выпуклый конус С с вершиной в точке ж(/0 (см. К) § 7).
Если к управлению u{t) применяется вариация
V(M,a), то первоначально применяется вариация М к
26
управлению u(t) на отрезке to^ t ^ t\. При этом
(см. G)) для соответствующих управляемых величин
выполнено соотношение
i'(t[)-i(t{) = e^(M) + o(e). (15)
Если, далее, в окрестности точки t\ применить
вариацию, соответствующую числу а, то мы получим
соотношение (14).
Таким образом, применяя к управлению u(t)
вариацию V(Mt а) получим новое управление u* (t)9
заданное на отрезке *0^/ ^/, -{- еа = /*, причем для
управляемой величины x*(t) имеет место соотношение
(14). Сопоставляя соотношения (15) и (14), получаем
x(t\)-x(tx) = *p{V(M, а)) + о(е). (16)
Перенесем теперь начало координат пространства
Sn+1 в точку x(t\). При этом ось, полученную
перенесением х*> обозначим у1. Координатную гиперплоскость, в
которой лежат оси ух, ..., уп, обозначим Уп.
L) Оказывается, что если отрицательное
направление оси у0 проходит внутри конуса С, то взятое нами
управление u(t) не оптимально.
Для доказательства этого в гиперплоскости Yn
выберем «-мерный симплекс Тп с вершинами йо, йь ..., а*,
с центром в начале координат. Оператор
проектирования в направлении оси у0 на гиперплоскость Yn
обозначим х- Параллельно переместим симплекс Тп в
направлении отрицательной полуоси у0 на некоторую
величину h. Тогда для достаточно большого Л получим
симплекс 7л с вершинами £o=f ~ )»..., &/i = ( ~~ Y
лежащими в конусе С, причем а* —х(£/)> Кроме того,
все точки bi имеют ненулевую координату &?= —Л.
Пусть а — произвольная точка симплекса Тп. Тогда
точка а может быть записана в виде
где X' — барицентрические координаты точки а (см. I)
§ 5). Точка а^Тп является проекцией точки
* - t Я'»|
27
из симплекса Th. Для каждой вершины 6/ выберем
такую вариацию V (Mit аД что
6, = ф(1/(Л*„ а,)).
Тогда
Ь = £ Х'ч (V (Mi9 а,)) = Ф ( £ Л'V (Mh a,)).
Таким образом, точке а поставлена в соответствие
вариация
V (М% а) = £ ЛlV (Mh щ) = V (Z Л'М,, Е A,'a,).
Конец траектории соответствующей вариации V(M,a}
записывается в виде (см. (16))
*'('!) —*(*0 + в» + о(в).
Тогда отображение
Po(a) = af
где a — произвольная точка симплекса Р\ определено
для малых неотрицательных е, непрерывно и §я(а) — а
равномерно стремится к нулю при е-> 0. Следовательно,
при достаточно малых е среди точек вида Ре (а)
содержится начало координат пространства Yn (см. J) § 5).
Таким образом, найдется такая вариация V (Мщ, aj, что
соответствующая траектория х* (t) удовлетворяет
условию %(х* (t\) — x(t[)) = 0. При этом разность л:*0(^1) —
— х° (tx) = — eft + о (е) — отрицательная величина
порядка я. Следовательно, функционал L для управляемой
траектории х* (t) с управлением и (t) имеет меньшее
значение, чем для управляемой величины x(t) с
управлением и (t).
Следовательно, управление u(t) не является
оптимальным в отношении функционала L. Итак,
оказывается, что если отрицательное направление оси у0
содержится внутри конуса С, то управление u(t) не
оптимально.
Теперь мы рассмотрим случай, когда отрицательное
направление оси у0 не лежит внутри конуса С.
28
М) Предположим, что отрицательное направление
оси у0 не лежит внутри конуса С. Тогда существует
гиперплоскость Г, отделяющая конус С от отрицательной
полуоси у0 (см. Н) § 5). Пусть ^0, фи ...» фл —
координаты гиперплоскости Г, причем знак их выбран так,
что конус С лежит в отрицательном полупространстве
этой гиперплоскости Г, а отрицательная полуось у0 — в
положительной части.
Пусть М — некоторая вариация Макшейна и а —
некоторое действительное число такие, что, применяя
вариацию V(M, а), мы получаем управление ы*(/), для
которого ф(У(Л1, а)) лежит в конусе С, Тогда
<Ф(К(А*. а)), Ч>><0.
Перенося вектор у из момента времени t\ в момент
времени t, являющийся точкой непрерывности управления
u(t) {см. А), В) § 4), получим
<*(/Ч*(0, v)-7(x(t), ii(0)), *(/)><0
для одночленной вариации Макшейна M(t\ о; v\ в).
Переписывая последнее соотношение в терминах
функции К, получим
*(5(0. *W, v)<K(x(t), *«, «(')).
т. е.
*(*</). *(0, u(t))>K(x(t), ^(/), v).
Таким образом, мы доказали принцип максимума
для точек непрерывности управления u(t). Для точек
разрыва управления u(t) принцип максимума
получается при помощи предельного перехода.
Таким образом,теорема 1 доказана.
Сформулируем теперь дополнение к принципу
максимума.
Дополнение к принципу максимума. Для
оптимального управления u(t) и соответствующей ему
траектории x(t) существует такая гиперплоскость Г
(см. М)), {проходящая через точку x(t{), с координатами
*('i) = (*o('i). ---. 4>«('i)). wo
</(«('i). «Ci». * №)>-0,
20
Последнее равенство выполняется для произвольного /,
т, е. /С (i (/), й(0, a (0) = 0. Кроме того, фс(0 —
неположительная постоянная величина.
Докажем это утверждение. Поскольку вектор
af(x(ti), u(t{)) лежит в конусе С, то выполняется
неравенство (см. М))
(а/Ч*(/,), u(tx))9 *(<|)>-а<f(i(tx), иШ *(/,)><0,
а так как а может принимать значения обоих знаков, то
<f(ift), « ft». $ft)> = 0,
т. е.
/C(i(/,), ¢(/0, в (/|))-0.
Покажем теперь, что функция K(t) = K(x(t), tj?(/), и(/))
постоянна. Пусть /о ^ /2 < /з ^ /i, причем на
полуинтервале /2 < / ^ /3 функция и(/) непрерывна. Докажем,
что на этом полуинтерьале функция K(t) постоянна.
Возьмем две произвольные точки то и Ti полуинтервала
/2 < t 5¾ /3. В силу (9) гл. 1 имеем
/C(i(T0), ♦(то), и(т0))-К(£(т0), ¢(¾). a (^))^0,
—/C(i(T,). ¢(^), a(Ti)) + /C(i(r,)f $(тх)9 к(т0))<0.
Прибавляя к обеим частям этих неравенств разность
K{xi)—К (to), получим неравенства
-*(£(то), ф(т0), a (^)) + /((^), ¢(^), а(т0))<
</C(T!)-#C(T0)</r(S(Tl)l *(т,), аМ-
-*(*(■*), Ф(т0), а(т,)). (17)
Далее, так как функция /С (#(/), ¢(/), я(т))
переменного t на отрезке /2 < t <С <з непрерывна и имеет
производную, равную нулю в точке / = тв силу (7), (8) гл. 1,
то a (Ti) —/с (то) стремится к нулю при ti—то-►О. Сле-
Ti ~™~ То
довательно, функция /((/) имеет производную, равную
нулю в каждой точке т интервала /г < / <Г /з, и потому
/С(/) = const на полуинтервале /2 < * ^ /з-
Пусть то — точка разрыва функции u(t). Докажем,
что, тем не менее, функция /((/) непрерывна в ней, т. е.
докажем, что
/С(т0) = *(т0-0) = *(т0 + 0).
30
(Величины К(то — 0), /((то + 0) существуют, так как по
условию существуют пределы слева и справа а(то — 0),
и(то + 0).) Равенство /((то) = К(то — 0) выполняется в
силу определения из А) § 1. Докажем равенства
/((то)= ЛГ(то + 0). Из условия (9) гл. 1 вытекает
К(х0) = КСхЫ1 ♦(то), в(То))>
ЖСх (т0), $ (т0), и (т0 + 0)) = К (т0 + 0).
Для доказательства обратного неравенства
предположим, что точка Ti стремится к то справа. Тогда
*(*(Ti), *(т,), и(т}))-+КЫ + 0),
К(*(*х). *(Т|). m(T0-Q))->K(TQ-Q)9
причем для всех п в силу условия (9) гл. 1 имеем
*(£<*,). ^(ti), «(*!»>* (*<*i>. *(т,), в (т0-0)),
следовательно,
/С(т0 + 0)>*(т0-0).
Из доказанного вытекает постоянство функции
K(x(t)% ¢(/)), и(0) на всем отрезке to^t^tu а так
как в конце отрезка она равна нулю, то функция эта
равна нулю всюду.
Из системы уравнений (8) гл. 1 следует, что 1^ = 0*
так как К(х> ф, и) не зависит от х°, так что \р0 —
постоянная величина.
Пусть ¢ = (-1, 0, ..., 0) — вектор,направленный по
оси у0 в отрицательном направлении. Тогда
произведение (е, ij>) неотрицательно,
так как вектор ф разделяет отрицательную полуось у0
и конус С и направлен в противоположную от С сто»
рону.
Следовательно, фо('0^ 0.
ГЛАВА 4
ЗАДАЧА БЫСТРОДЕЙСТВИЯ
Пусть /?л — л-мерное евклидово векторное простран»
ство, так что вектор же/?" записывается в виде
31
Допустим, что в пространстве Rn задана
управляемая система (см. § 1)
или, в векторной записи,
* = /(*, и), иеО. (1)
Предположим, что существует управление u(()t
переводящее вектор Хо в вектор х\9 т. е. уравнение
i = /(*, ii(0)
имеет решение *(/)» удовлетворяющее условиям
*(/0) = *о. *('i) = *i
для некоторых значений t0 ^ t\.
Тогда возникает задача: найти такое управление
u*(t)t для которого переход из состояния xQ в состояние
х1 происходит за кратчайшее время. Это и есть задача
быстродействия.
Для задачи быстродействия функционал L
записывается в виде
т. е. функция f°(x,u) определяется соотношением
f°(x, U)m*l.
Таким образом, функция К(х, ф, и) в задаче
быстродействия записывается в виде
К(х, tf, а) = фо+*аГ(*. и), а=1, ..., п.
А) Положим
Я (ж, -ф, u) = ^Ja(xt и), а=1, ..., п.
Тогда функция К записывается в форме
К(х, *, u) = $0+H(xt ф, и),
условие максимума (см. (9) гл. 1) принимает вид
Я(*<0, ♦(/), *)<Я(*(/). *(/). и(/)),
32
а системы уравнений (7) и (8) (см. гл. 1) получают вид
дх1
Из дополнения к принципу максимума следует, что
функция \f(0—ненулевая.
Это и есть принцип максимума для задачи
быстродействия.
§ 9. Линейная задача быстродействия
Задача быстродействия называется линейной, если
управляемая система (1) записывается в следующем
простом виде:
х = Ах + и, (4)
а множество Q, которому принадлежит управление и,
является выпуклым многогранником пространства Rn.
Здесь А есть линейное отображение пространства Rn в
себя или, в случае координатной записи, А является
квадратной матрицей порядка nt а х — одностолбцовая
матрица высоты п.
В линейном случае уравнение (3) переписывается в
виде
Ч>=-+Л, (5)
где справа стоит произведение однострочной матрицы \р
длины п на квадратную матрицу А порядка п.
Для получения некоторых результатов характера
единственности мы будем налагать на управляемую
систему (4) нижеследующие условия В) и С), роль
которых выяснится в дальнейшем.
В) Пусть w — некоторый вектор из Rn> имеющий
направление какого-либо из ребер многогранника Q;
тогда вектор w не принадлежит никакому истинному
подпространству пространства /?п, инвариантному
относительно оператора А. Условие это равносильно тому,
что векторы
wt Aw, ..., An"lw (6)
линейно независимы.
В самом деле, если бы существовало истинное
подпространство R пространства Rn, инвариантное относи-
33
тельно А, то все векторы (6) принадлежали бы
пространству /? и, следовательно, были бы линейно
зависимы, так как Й имеет размерность меньше п. Напротив,
если бы векторы (6) были бы линейно зависимы, т. е.
если бы имело место соотношение
c0w + C\Aw +...+ cn^An"xw = 0, (7)
то, выбирая наименьшую степень р, входящую в
соотношение (7), мы из последнего соотношения (7)
получили бы
Apw = bp^Ap~]w +...+ ft0w,
и векторы w, Aw, ..., Ap~]w все содержались бы в
некотором истинном подпространстве R размерности р,
инвариантном относительно оператора А.
C) Выпуклый многогранник Q содержит начало
координат 0 е Л" и не состоит только из нуля.
В линейном случае функция H(xtty,u) записывается
в виде
Н(х, Ц\ «) = *Л* + (Ц>, и). (8)
Здесь трАх представляет собой произведение трех
матриц, где яр есть однострочная матрица длины п, А —
квадратная матрица порядка л, х — одностолбцовая
матрица высоты п, а скалярное произведение <я|>, а> = фи
есть произведение однострочной матрицы ф на
одностолбцовую матрицу и.
Из формулы (8) следует, что функция Я(х, ф, и)
переменного и достигает своего максимума вместе с
функцией <ф, «>. Максимум функции <Х>, **> переменного и
при заданном ф обозначим Р(ф). Из условия С) следует,
что величина Я(г|5) неотрицательна:
В силу принципа максимума (см. А)) оптимальное
управление u(i) должно быть выбрано так, чтобы
функция #(x(f)»$(0»tt)i как Функция переменного и,
достигала своего максимума при u = u(t). А это значит,
что оптимальное управление и(t) удовлетворяет
условию
<*(/), «'/)> —/>(*('))■ (9)
D) Рассмотрим линейные системы уравнений
х = Ах (10)
34
и
«=-iM. (11)
Решения уравнений (10) и (11) тесно связаны между
собой. Именно, если x = x(t) есть решение уравнения
(10), a if = \p(/)—решение уравнения (И), то
скалярное произведение Сф(0»*(0) постоянно:
Of (/), х (/)) = *(/)* (/) = const. (12)
Для доказательства этого продифференцируем
скалярное произведение <ф(0»*(0)- В силу уравнений
(10) и (11) получаем
-5Г<*(0, * (0> = (*(0, * (0> + (*(0, ±(0>~
= -Ч>(0Лж(0 + Ф(0 Л*(0==0.
Пусть
М0 = (у}(0 УЧЩ '=1, ..., л, (13)
— фундаментальная система решений уравнения (10),
удовлетворяющая начальным условиям
а
*'(0==(*f(0. •-., *J(0). '=Ь 2, ..., я
— фундаментальная система решений уравнения (11),
удовлетворяющая начальным условиям
*K'o)-*f-
Тогда мы имеем
*' (0^(0=6; (и)
при произвольном t.
Действительно, при t = t0 равенство (14) имеет
место, а, следовательно, в силу соотношения (12) оно
выполняется для произвольного t.
Е) Решим уравнение
i*=Ax + u(t) (15)
при помощи вариации постоянных, исходя из
фундаментальной системы (13). Именно, пусть
*(0 = Уа(0са(0, а—1, .... п.
— решение уравнения (15). Подставляя это решение в
уравнение (15), получаем
Уа(*)6а(0 = и(0.
35
Умножая это соотношение слева на V(0 (см- (14)),
получаем
*у (0-¢£(/)^(0-
Интегрируя это соотношение от /0 до t, получаем
t
to
откуда
t
* (t) = Уа it) (xa (t0) + 5 Ц (a) uP (a) da
F) Управление u(t) называется экстремальным, если
оно удовлетворяет принципу максимума, т. е. если
существует такое неравное нулю решение ф(0 уравнения
(11), для которого выполняется условие
<* (/), и (/)> = * (/) и (/) - Р («(/)). (16)
Ясно, что всякое оптимальное управление является
экстремальным.
Теорема 2. Экстремальное управление u(t) для
линейной задачи быстродействия (4), в которой
множество допустимых управлений Q представляет собой
выпуклый многогранник, для которого выполнено уело-
вие В), представляет собой кусочно-постоянную
функцию, значения которой равны вершинам многогранника
Q; более точно, экстремальное управление u{t)7 за
исключением конечного числа значений t, однозначно
определяется условием максимума как некоторая
вершина многогранника Q.
Доказательство. В силу F) значение
управления u(t) определяется как величина «, дающая
максимум произведения <\|?(0>"> при a^Q или, в виде
формулы,
<ф(/), «(*)>—max<♦(*), и), «ей. (17)
Если соотношение (17) не определяет u(t) как
некоторую вершину многогранника £2, то это значит, что
при заданном значении / скалярное произведение
<ф(0>и> достигает своего максимума на некоторой
грани Г многогранника Q. Если W есть некоторое ребро
грани Г, a w — вектор, имеющий направление этого
ребра, то
(1>(0, ©> —0. (18)
■
36
Действительно, если ии и2 — вершины многогранника Q,
образующие ребро w*, то
<Ч>(0. «i-*2> = <*('). «!> — <♦ (0. и2> = 0.
Если формула (17) не определяет u(t) как вершину
многогранника Q для бесконечного множества значений
t, то существует такой вектор w, имеющий направление
некоторого ребра w* многогранника Q, что разенство
(18) имеет место для бесконечного множества значений
t, расположенных на конечном отрезке переменного t.
Так как yp(t) является решением линейной системы
с постоянными коэффициентами, то (\p(t),w} есть
аналитическая функция /, и
(440, »> = 0 (19)
для целого интервала значений t, а потому соотношение
(19) можно дифференцировать по t, и мы получаем
последовательность равенств
<гр(/), w> = 0, <$(t)A, w) = 0, ..., (ip(t)An-\ ™> = 0.
Так как в силу предположения В) векторы
о/, Aw, ..., An~lw (20)
составляют базис пространства Rn, то оказывается, что
вектор yp(t) ортогонален каждому вектору базиса (20),
т. е. любому вектору пространства Rn, а отсюда следует
¢(0 = 0, что противоречит предположению о том, что
¢(0 есть ненулевое решение уравнения (11).
Итак, доказательство теоремы 2 закончено.
G) Экстремальное управление u(t) для линейной
задачи быстродействия (4), в которой многогранник Q
удовлетворяет условиям В), С), и переводящее точку дг0
в начало координат 0 пространства /?п, единственно в
той мере, в какой оно определяется равенством (16).
Докажем это утверждение. Выпишем прежде всего
решение управляемой системы (15) для произвольного
управления u(t) (см. Е)):
х (0 = Уа (0 (ха (to) + J ¢5 (а) ир (a) da
\ и
Из этого равенства видно, что если начальное значение
дг(/о) есть начало координат пространства /?л, то
нулевое управление и(0 = 0 не выводит из начала
координат.
■
37
Допустим теперь, что существуют два экстремальных
управления tii(t), /о ^ * ^ Л и u2(t), /0^/^/2,
переводящих точку *0 в точку 0. Допустим для
определенности, что /2 ^ /1. Доопределим управление «i(/) на
отрезок t\ < t ^ f2t положив
щ (/) = 0 при /, </</2.
Тогда управление щ (/) определено на отрезке to ^ / ^
^ /г и переводит точку х0 в начало координат 0.
Действительно, x(t\) = 0 является начальным условием для
нулевого управления и\ (/)г=0 на отрезке t\ ^ / ^ t2 и,
следовательно, не смещает начало координат.
Так как векторы yi(t), ..., yn(t) линейно
независимы,
0 = х (t2) = уа (t2)(х* (t0) + J tf(a) «f (а) аЛ.
и
0 = х (/2) = jfa (/,) f *« (/0) + J *g (a) if (a) *Л,
то мы имеем
/, и
х* (to) + 5 4» (а) и? (a) da = xl (t0) + ) Ч>» (a) «£ (a) da,
и и
откуда
и и
\ *J (*) «Р (a) da = $ ф£ (or) u§ (a) da. (21)
Пусть $*(t) — то решение однородной системы (11),
для которого управление u2(t) удовлетворяет равенству
(16), т. е.
♦'(О »2(0 -WW).
Умножим соотношение (21) слева на \|>* (/0) и
просуммируем по /. Тогда получим
и и и
\ *' (°) Щ (о) da = J Ч>* (or) и2 (a) da = $ Я (if (a)) da. (22)
и и и
Так как Р(Ч?*(/))>0, кроме, быть может, конечного
числа точек /, то t\ = t2. Действительно, если w —
направление некоторого ребра многогранника Q, то так
38
же, как в доказательстве теоремы 2, <tf*(/),u>> может
равняться нулю только в конечном числе точек /.
Далее, из равенства (22) получаем
оПО, *,(/)>«=/>(*•(/))■
Таким образом, экстремальное управление u(t)
единственно в той мере, в какой оно определяется
равенством (16).
ГЛАВА 5
СИНТЕЗ НЕКОТОРЫХ ЗАДАЧ БЫСТРОДЕЙСТВИЯ
В этой главе мы рассмотрим применение принципа
максимума к решению некоторых простых задач
быстродействия. Из рассмотрения этих задач выяснится
новая важная постановка задачи об оптимальных
процессах— задача синтеза оптимальных управлений.
§ 10. Быстрейшая остановка движущейся;
по инерции точки в заданном месте
Пусть по прямой движется по инерции точка.
Задача состоит в том, чтобы наискорейшим образом
остановить движение этой точки в заданном месте прямой,
которое мы примем за начало координат, применением
к ней силы, ограниченной по модулю. В виде
дифференциального уравнения движение точки описывается
следующим образом:
х = и, | и |^ 1.
В фазовых координатах
I 2 dx
X = X X =
это уравнение переписывается в виде следующей
системы:
х1 = х\
х> = и. 0>
Мы рассматриваем задачу быстродействия из заданного
начального состояния х0 в конечное положение *,,
которым служит начало координат: X] = 0.
Функция Н в рассматриваемом случае имеет вид
Н = урхх* + \p2Ut
39
а матрица А записывается в виде
Далее, для вспомогательного вектора ф мы получаем
уравнение
или, в координатном виде,
^1 = 0.
откуда я|>1 ■■ Сь ^2 ■■ С2 — c\t (с\, с% — постоянные)
Соотношение (9) главы 4 ваписывается тогда в виде
Ч>2" = (^2 — cxt) u = \c2 — cxt 1,
откуда получаем
и (t) «= «ign tfo (t) = sign (c2 — CjO- (2)
Из этого следует, что каждое оптимальное управление
u(t), to ^ t ^ t\, является кусочно-постоянной функцией,
принимающей значения rfcl и имеющей не более двух
интервалов постоянства (ибо линейная функция с2 — C\t
не более одного раза меняет знак на отрезке *о < i <
^ *i). Обратно, любая такая функция u(t) может быть
получена из соотношения (2) при надлежащем выборе
констант Си Сг-
Для отрезка времени, на котором и ss 1, мы имеем
J[b силу системы (1))
** — / + *»,
^1-^+^ + 1--4^ + ^ + (^--¾^).
где s\ s2 — константы; отсюда получаем
^-4-(^ + ^ (3)
где J — константа. Таким образом, кусок фазовой
траектории, для которого и и 1, представляет собой дугу
параболы (3) (рис. 4, а).
Аналогично, для отрезка времени, на котором и га
ег —1, мы имеем
„2 /+^
40
(r\ г2 —константы), откуда получаем
^--у(дг2)2 + г, (4)
где г — константа (см. рис. 4,6). По параболам (3) фа-
эовы# точки движутся снизу вверх Г ибо -57-= ы— + 1 J,
а по параболам (4) — сверху вниз f-jjp-«■«=—-1J .
Как было указано выше, каждое оптимальное
управление u(t) является кусочно-постоянной функцией t^
принимающей значения ±1 и имеющей не более двух
интервалов постоянства. Если управление u(t) сначала,
в течение некоторого времени, равно +1 а затем равно
— 1, то фазовая траектория состоит из двух кусков
парабол (рис. 5), примыкающих друг к другу, причем
второй из этих кусков лежит на той из парабол (4),
которая проходит через начало координат (ибо искомая
траектория должна вести в начало координат). Если
41
же, наоборот, сначала и = —1, а затем н = +1, то
фазовая траектория заменяется ценчрально-симметричиой
(см. рис. 5). На рис. 5 написаны на дугах парабол
соответствующие значения управляющего параметра и.
На рис. б изображено все семейство полученных таким
образом фазовых траекторий Г АО — дуга параболы я-1 =
= у(х2)2, расположенная в нижней полуплоскости; ВО —
дуга параболы х1 — — у (г2)2, расположенная в верхней
полуплоскости). На плоскости чертежа (рис. 6)
выделена линия переключения АОВ. Выше этой линии
управление и =—1, а ниже w = +l.
Если начальное положение х0 расположено выше
линии АОВ, то фазовая точка должна двигаться под
42
воздействием управления w = —1 до тех пор, пока она
не попадет на дугу АО; в момент попадания на дугу
АО значение и переключается и становится равным + 1
вплоть до момента попадания в начало координат. Если
же начальное положение х0 расположено ниже линии
А ОБ, то // должно быть равным +1 До момента
попадания на дугу ВО, а в момент попадания на дугу ВО
значение и переключается и становится равным —1.
Итак, согласно принципу максимума (см. теорему 1)
только опнсанные траектории могут быть оптимальными.
Из проведенного построения видно, что через каждую
точку фазовой плоскости проходит одна и только одна
траектория описанного вида. Из некоторых
дополнительных соображений следует, что все полученные
траектории оптимальны.
Полученное здесь решение задачи можно
истолковать следующим образом. Обозначим v(xl, *2)= v(x)
функцию, заданную на плоскости я1, х2 следующим
образом:
( + 1 ниже линии АОВ и на дуге АО>
* 1—1 выше линии АОВ и на дуге ВО.
Тогда на каждой оптимальной траектории значение
u(t) управляющего параметра (в произвольный момент
/) равно v(x(t)), т. е. равно значению функции v в
точке x(t):
u(t) = v(x(t)).
Это означает, что, заменив в системе (1) величину и
функцией v(x), мы получим систему
х1 = х2,
x2 = v(x\ я2), (5)
решение которой (при произвольном начальном
состоянии Xq) дает оптимальную фазовую траекторию,
ведущую в начало координат. Иначе говоря, система (5)
представляет собой систему дифференциальных
уравнений (с разрывной правой частью) для нахождения
оптимальных траекторий, ведущих в начало координат.
В данном случае мы получили возможность
определить управление как функцию v (х) точки х фазовой
плоскости. Такое решение задачи называется синтезом
оптимального управления.
43
§11. Быстрейшая остановка математического маятника
ограниченной по модулю силой
В виде дифференциального уравнения
сформулированная задача описывается следующим образом:
х + х = ил | и |^ 1.
Это уравнение эквивалентно системе
х1 = х\
^=-^ +и, <6>
для которой мы, как и в предыдущем параграфе, изучим
задачу о быстрейшем попадании в начало координат.
Функция Н здесь имеет вид
а матрица А имеет вид
Далее, для вспомогательного вектора \р имеем
уравнение
или, в координатном виде,
^2 = - Ч>1»
откуда я|>2 = ^ sin (f— ао), где а>0 и а9—некоторые
постоянные. Условие максимума (см. (9) гл. 4)
записывается в виде
г|?2« = a sin (/ — Oq) и = \ a sin (/ — olq) |,
откуда получаем
и = sign $2 = sign (a sin (* — Oq)) = sign (sin (t — aa)).
Отсюда следует, что управление u(t) получается из
функции sign (sin 0» равной поочередно +1 и —J на
интервалах длины я, при помощи сдвига на некоторый
отрезок а0 (рис. 7).
Для изучения кусков траекторий, соответствующих
значениям «==±1, рассмотрим вспомогательную
однородную систему
*'—Л (7)
Произвольное решение этой системы может быть
записано в виде
х1 = — г cos(/ + y),
*2 = rsin(/ +y), (8)
где г, у — константы (г ^ 0, 0 ^ у < 2л). Таким
образом, фазовыми траекториями системы (7) являются
окружности с центром в начале координат:
(х1)2 + (х2)* = г2 (9)
(рис. 8, а). Из (8) видно, что движение фазовой точки
по окружности (9) совершается по часовой стрелке,
причем равномерно, с линейной скоростью 2лг (один оборот
ML
Рис. 7
за время 2л). Отметим, в частности, что за промежуток
времени, имеющий длину л, фазовая точка, двигаясь по
часовой стрелке, описывает половину окружности (9).
При и = 1 система (6) принимает вид
^ = -^ + 1,
(10)
или, иначе,
dt * '
^--^-1).
(И)
Вспоминая соотношения (7) и (9), находим, что
фазовые траектории системы (11) (или, что то же самое,
системы (10)) представляют собой окружности z
центром в точке (1, 0):
(х1 - 1)2 + (*2)2 = г2. (12)
Эти окружности фазовая точка, движущаяся по закону
(10), пробегает по часовой стрелке, обходя за время п
ровно половину окружности (см. рис. 8,6).
Аналогично при и = —1 система (6) принимает вид
х1 = х2,
45
ее фазовыми траекториями являются окружности
(xl+l)2 + (x2)* = r>
с центром в точке (—1,0). По этим окружностям
фазовая точка движется по часовой стрелке, проходя ровно
половину окружности за время л (см. рис. 8, в).
Как было указано выше, каждое оптимальное
управление u(t) является кусочно-постоянной функцией,
получающейся из функции sign (sin/), равной поочередно
9 I
Рис 8
+ 1 и —I на интервалах длины я, при помощи сдвига
на некоторый отрезок а0 (рис. 9). Если оптимальное
управление u(t) имеет вид, показанный на рис. 9, т. е.
поочередно равно +1 и —1 на интервалах (to, а),
(а, я + а), (я + а, 2я + а), ... и, в заключение, на
некотором интервале длины 0<я равно +1, то
соответствующая оптимальная траектория может быть
построена следующим образом.
В течение заключительного отрезка времени длины р
фазовая точка движется по окружности вида (12) (ибо
и = 1 на этом отрезке времени), причем по той из этих
окружностей, которая проходят через начало координат
46
%
A
Рис. 9
£i£La.
(ибо искомая траектория должна вести в начало
координат). Такой окружностью является окружность
радиуса 1 с центром в точке 0\ (рис. 10). По этой
окружности фазовая точка попадает в начало координат,
проходя дугу, меньшую половины окружности (ибо р<Сл).
Таким образом,
обозначив нижнюю
полуокружность этой окружности
через MjO, мы найдем,
что заключительный
кусок оптимальной
траектории представляет собой
некоторую дугу АО
полуокружности М}0.
Далее, в положение А фазовая точка попала,
двигаясь в течение отрезка времени длины я под
воздействием управления и = —1 (рис. 11), т. е. предыдущий
кусок фазовой траектории представляет собой
полуокружность ВА с центром в точке 0_ь заканчивающуюся
в точке А (см. рис. 11). Так как дуга ВА равна
полуокружности, то точка В симметрична А относительно
Z/r+a
г21
' С>
1
i - А
Ш"'
г'
Рис. 10
Рис. 11
центра 0-1, и потому точка В лежит на полуокружности
N\N2, симметричной полуокружности ОМ\ относительно
центра 0-|. Точно так же предшествующая дуге В А
дуга СВ, соответствующая отрезку времени длины л,
на котором и = 1, есть полуокружность с центром Оь
и потому точка С лежит на полуокружности М2М3,
которая симметрична полуокружности iViiV2 относительно
центра 0\ (рис. 12) и т. д. Таким образом,
соответствующая фазовая траектория имеет вид, показанный на
рис. 12 (начальный кусок фазовой траектории будет
меньше половины окружности, если только 0 < а— /0 <
< л; см. рис. 9).
47
Фазовая траектория, соответствующая оптимальном
управлению u(t)> которое на заключительном отрез*
длины р равно —1 (а не +1)* получается из траектори
Рис. 13
изображенной на рис. 12 с помощью центральной сим
метрии (рис. 13). Для такой траектории точка «стыкам
дуг окружностей будут лежать на полуокружностям
ON и М\М2, N2> Nz, ..., симметричных (относительно
начала координат) полуокружностям ОМи NiN2
М2М%9 ..,
46
Объединяя оба эти случая (см. рис. 12, 13),
получаем всю картину поведения фазовых траекторий
(рис. 14). На рис. 14 надписаны на дугах фазовых
траекторий соответствующие значения управляющего
параметра и. Из рис. 14 видно, что если начальная
точка расположена выше линии ., . МзМгЛ^ОЛ^Л/гЛ/з ••.,
Рис. 14
составленной из бесконечного числа полуокружностей
радиуса 1, то фазовая точка должна двигаться под
воздействием управления и = —1 до тех пор, пока она не
попадет на дугу . ,.М^М2М\0\ в момент попадания на
эту дугу значение и переключается и остается равным
+ 1 (фазовая точка при этом движется ниже линии
. ..M$M2MiON\N2N2...) до момента попадания на дугу
ON1N2N3...; затем точка снова движется выше линии
... MbM2M\ONiN2Nb... под воздействием управления
и = —1 и т. д. Последний кусок фазовой траектории
(ведущий в начало координат) представляет собой дугу
полуокружности М\0 или полуокружности N\0.
Совершенно аналогично движется точка и в том случае,
если начальная точка х0 расположена ниже линии
. ..MzM2M\ON{N2Nz^.: выше этой линии фазовая
точка движется под воздействием управления и = —1,
а ниже этой линии — под воздействием управления
и = +1.
Итак, согласно теореме 1 только указанные
траектории могут быть оптимальными. Из проведенного по*
49
строения видно, что через каждую точку плоскости
проходит одна и только одна траектория описанного вида,
ведущая в начале координат, которая может быть
оптимальной. Из некоторых дополнительных соображений
следует, что все описанные нами траектории
оптимальны.
Как и в предыдущем § 10, полученное решение
задачи можно истолковать следующим образом.
Обозначим через v(x\x2)=v(x) функцию, заданную на
плоскости хх% х2 соотношениями
{+1 ниже линии ... М^М2М{ОЫ{Ы2М^ ,..
и на дуге ... М3М2М10;
— 1 выше линии ... MzM2MxON{N2N^ ...
и на дуге ONxN2N$ ...
Тогда вдоль каждой оптимальной траектории х (/)
соответствующее оптимальное управление u(t) имеет вид
u(t) = v(x(t)).
Это, как и в § 10, означает, что, заменив в системе (6)
величину и функцией v(x)t мы получим систему (с
разрывной правой частью)
х1=х2,
x* = -xi + v(x\ х\ (13)
решение которой (при произвольном начальном
состоянии xq) дает оптимальную в смысле быстродействия
траекторию, ведущую в начало координат. Иначе
говоря, системы (13) представляет собой систему
дифференциальных уравнений (с разрывной правой частью)
для нахождения оптимальных в смысле быстродействия
траекторий, ведущих в начало координат.
ПРИЛОЖЕНИЕ
ОПТИМИЗАЦИЯ И ДИФФЕРЕНЦИАЛЬНЫЕ ИГРЫ
Научное сообщение*)
Вопрос о том, чем следует заниматься, стоит для
математиков, быть может, острее, чем для специалистов в
других областях знания. Математика, возникшая как
чисто прикладная наука, и в настоящее время имеет своей
основной задачей изучение окружающего нас
материального мира с целью использования его для нужд
человечества. В то же время она имеет свою внутреннюю
логику развития, следуя которой математики создают
понятия и даже целые разделы, являющиеся продуктом чисто
умственной деятельности, которые никак не связаны с
окружающей нас материальной действительностью и не
имеют в настоящее время никаких приложений. Эти
разделы зачастую обладают большой стройностью и
некоторого рода красотой. Однако такого рода красота не
может служить оправданием их существования.
Математика—не музыка, красоты которой доступны
большому количеству людей. Математические красоты могут
быть поняты лишь немногими специалистами. Создавая
такие красоты, математики практически работают
только на себя.
Невозможно, однако, утверждать, что обладающие
внутренней стройностью, но лишенные приложений
разделы математики не имеют права на существование. Они
составляют внутреннюю ткань науки, иссечение которой
могло бы привести к нарушению всего организма в
целом Кроме того, оказывается, что некоторые отделы
математики, лишенные приложений в течение многих
веков, позже находят эти приложения. Классическим при-
•) Впервые опубликовано в «Вестнике АН СССР». 1978, № 7,
с 10—17.
51
мером служат кривые второго порядка, созданные в
древности из внутренних потребностей науки и
нашедшие лишь позже очень важное применение. С другой
стороны, некоторые разделы математики, занимающиеся
лишь внутренними проблемами, постепенно
вырождаются и почти наверняка оказываются ни для чего не
нужными.
В этой обстановке вопрос о выборе тематики
исследований становится для математиков весьма
тревожным. Я считаю, что если не все, то во всяком случае
многие математики должны в своей работе обращаться к
первоисточникам, то есть к приложениям математики.
Это необходимо как для того, чтобы оправдать свое
существование, так и для того, чтобы влить новую свежую
струю в научные исследования.
Исходя из этих соображений, а также находясь под
некоторым давлением руководства Математического
института им. В. А. Стеклова, я и три моих сотрудника
Е. Ф. Мищенко, Р. В. Гамкрелидзе и В. Г. Болтянский
решили заняться поиском прикладных тем для своих
исследований в теории колебаний, точнее, в
математическом изучении электронных приборов и в теории
регулирования, которую более общо теперь разумнее назвать
теорией управления. Мы заранее исключили из своего
рассмотрения математические задачи, уже
сформулированные техниками. А основали свой поиск на
ознакомлении с техническими проблемами, устанавливая контакты
с многими специалистами в области техники. При этом
мы не просто стремились найти приложения математики,
но старались найти новые постановки математических
задач, интересные с точки зрения самой математики.
Среди многих технических задач, с которыми мы
ознакомились, была следующая. Некий специалист в области
авиации сказал: «Если один самолет преследует другой
самолет, то пилот преследователя, конечно, умеет это
делать, но интересно было бы иметь теорию, быть может,
даже такую, которая позволяла бы осуществлять
преследование при помощи автомата». Мы все понаслышке
знаем, что существуют самонаводящиеся ракеты. Но
ракета обладает такими преимуществами в скорости и
маневренности перед самолетом, что теория, на которой
основано ее поведение, может быть очень грубой.
Хочу сразу обратить внимание на странность этой
задачи, которая на первых порах казалась нам
совершенно неприступной. В самом деле, самолет-преследователь
52
очевидным образом не должен лететь в то место, где в
настоящее время находится убегающий самолет, так как
последний, конечно же, уйдет с того места, где он сейчас
находится. В то же время бессмысленно предполагать,
что убегающий самолет движется по прямой: он может
повернуть, причем, неизвестно куда.
Задача о преследовании одного самолета другим
самолетом, насколько я знаю, до сих пор не решена.
Рассмотрены упрощенные модели преследования, которые
составляют предмет так называемой теории
дифференциальных игр. Слово «игра* указывает на то
обстоятельство, что будущее поведение каждого из самолетов
неизвестно: оно зависит от воли пилота.
Дифференциальной эта игра называется потому, что закон движения
самолета описывается дифференциальными уравнениями.
Для того чтобы применить математику к решению
какой-либо технической задачи, прежде всего надо дать
ее математическое описание. В данном случае мы
начнем с математического описания движения самолета.
При этом, как всегда это делают математики, мы будем
отвлекаться от излишней конкретности, стремясь уловить
лишь главные характерные черты технической задачи,
подлежащей решению. Мы будем рассматривать самолет
как точку, движущуюся в пространстве. Известно, что
положение точки в пространстве определяется тремя
координатами. Их мы обозначим через хи *2, х3. Так как
точка (самолет) движется, то она имеет и некоторую
скорость-вектор. Компоненты этого вектора мы
обозначим через х4, x5f дсв. Величины хи х2, ..., хь определяют
состояние движущейся точки в данный момент времени
и называются ее фазовыми координатами. Для того
чтобы отвлечься от излишней конкретности, мы будем
рассматривать объект, состояние которого в данный момент
времени определяется не шестью, а произвольным
числом фазовых координат. Их мы обозначим через *„ х2>...
..., хп. Совокупность всех этих величин вместе принято
обозначать одной буквой, так что мы полагаем х =
= (хи х2, ..., хп). Здесь х есть точка фазового
пространства нашего объекта, или фазовый вектор нашего
объекта. Произвольную фазовую координату объекта
обозначают через хи где i может принимать любое значение:
1= 1,2, ..., п. Так как состояние объекта меняется со
временем, то величина х\ также меняется со временем, и
скорость ее изменения обозначается обычно через xL. Это
63
есть производная величины я* по времени /. Физическая
закономерность поведения объекта, как правило,
заключается в том, что скорость xi изменения фазовой
координаты х( нашего объекта однозначно определяется
фазовыми координатами объекта хи x2t ..., хп, что
математически записывается в виде формулы
xi = fi(xux2, ..., xn) = fi(x)t / = 1, 2, ..., я. (1)
Это значит, что xt есть функция величин хи х2, ..., хп,
то есть может быть вычислена, если величины хи x2t. -.
...,хп известны. Здесь мы имеем п неизвестных величин
Х\, JC2? - -., Jcrt, которые меняются со временем, то есть
являются функциями времени */ = */(/), и п
дифференциальных уравнений, так что задачу можно решать
математически, то есть получить закономерность
изменения состояния объекта со временем, найти х как
функцию времени: х = x(t).
При помощи уравнений вида (1) могут быть описаны
весьма разнообразные объекты. Объекты могут быть не
только механическими, но и другого рода, например,
химический процесс может быть описан уравнениями типа
(1). В этом случае массы различных веществ, входящих
в реакцию, являются фазовыми координатами x]t x2t...
...,хп нашего объекта. Такими же уравнениями может
быть описан и биологический процесс, например
сосуществование на острове волков, зайцев и травы.
Экономические закономерности также допускают описание при
помощи системы уравнений типа (1).
Приведенное здесь описание движения самолета не
содержит главного для нас элемента. В самолете сидит
пилот, который по своей воле может менять
закономерность его движения, приводя в действие рули
управления. Так, пилот может менять тягу двигателя, положение
хвостового руля, положение закрылков. Положение
каждого из элементов управления определяется некоторым
числом. Все эти числа мы обозначим через ии ^2,..., иг,
а их совокупность обозначим одной буквой, положив
и = (мь и2%..., иг). Здесь и есть вектор, компоненты
которого определяют положение рулей. Таким образом,
движение самолета описывается не уравнениями (1), а
уравнениями
где в правую часть входит вектор управления и. Вектор
64
управления и меняется со временем по воле пилота
самолета и потому является заданной функцией времени:
u = u(i). Таким образом, уравнения (2) в
действительности имеют вид
** —Ы*. «(')]» 1—1, ..., *. (3)
где u(t) есть конкретно осуществляемое в течение
времени управление объектом. Систему уравнений (3) уже
можно решать.
Следует отметить одно очень важное обстоятельство.
Величины ui, «2,..., «г, определяющие положение рулей,
не могут быть произвольными. Так, если щ есть
величина тяги двигателя, то ясно, что она может меняться
лишь в некоторых пределах от 0 до некоторой
величины а, 0 г^ щ ^а. Точно так же и хвостовой руль может
поворачиваться лишь в определенных пределах, так что
если и2 есть угол его поворота, то он удовлетворяет
некоторым неравенствам: — Ь ^ и2 ^ Ь.
Чтобы отвлечься от излишней конкретности, мы
может просто сказать, что вектор и не есть произвольный
вектор г-мерного пространства, а принадлежит
некоторому заданному множеству этого пространства. Система
дифференциальных уравнений (2) вместе с заданным
множеством Q дает математическое описание
возможностей поведения управляемого объекта. Такой объект мы
будем называть управляемым, поскольку поведение его
зависит от того, какой функцией u(t) времени / является
управление и объекта.
Для того чтобы начать решать задачу о
преследовании одного самолета другим самолетом, мы должны
были бы и второй самолет описать в виде управляемого
объекта, а затем точно сформулировать задачу
преследования. Но, как я уже сказал раньше, сама игровая
постановка задачи содержит в себе настолько большую
странность, что мы предпочли вначале попытаться
решить другую задачу, в которой элемент игры
отсутствует. Мы предположили, что второй объект
неподвижен, или, говоря в терминах самолета, речь стала идти
о том, чтобы перевести самолет из одного состояния в
другое в кратчайшее время.
Математически эта задача формулируется так. В
начальный момент времени задается некое исходное
фазовое состояние объекта, которое мы обозначаем через *°.
Кроме того, имеется какое-то другое фазовое состояние
объекта — х1. Если, управляя объектом каким-нибудь
65
способом, мы можем перевести его из фазового
состояния х° в фазовое состояние х1у то возникает задача о том,
каково должно быть управление, которое переводит
объект из фазового состояния х° в фазовое состояние х1
в кратчайшее время. Это есть задача оптимизации на
быстродействие. Получаемое в результате решения этой
задачи управление u(t) называется оптимальным в
смысле быстродействия, а само движение объекта
оптимальным движением в смысле быстродействия.
Если в процессе движения объекта меняется не
только время, но и какая-либо другая величина,
представляющая для нас особый интерес, например, расходуется
топливо, то можно поставить вопрос об оптимизации
расхода топлива при переходе из состояния х° в состояние
х\ Такая задача весьмэ важна, например, при
рассмотрении перехода космического корабля с одной орбиты
на другую, где минимальность расхода топлива играет
огромную роль.
Так сформулированную задачу оптимизации могло бы
решать вариационное исчисление, если бы не было
ограничения на управляющий вектор а, то есть если бы
вектор и был произвольным вектором. То обстоятельство»
что вектор и принадлежит к заданному множеству Q,
сразу выводит сформулированную задачу оптимизации
из круга тех, которые способно решать классическое
вариационное исчисление. Если вектор и произволен, то
сформулированная задача является задачей
классического вариационного исчисления. Но следует отметить,
что она никогда не решалась в вариационном
исчислении в гой постановке, в какой она приведена здесь.
Формулированные в классическом вариационном исчислении
задачи носят более общий характер, чем приведенная
здесь, и лишены той конкретности, которая возникла у
нас благодаря рассмотрению технического объекта.
Оказалось, что этот более конкретный характер
вариационной задачи, связанный с тем, что мы рассматриваем
управляемый объект, привел к новым возможностям
решения самой задачи, дал возможность прийти к
догадкам, к которым в общей вариационной задаче прийти
было бы чрезвычайно трудно.
Формулирую теперь то решение, которое было
получено нами для задачи на быстродействие. Вводятся
вспомогательные величины фь фг,..., фл числом п$
совокупность которых обозначается одной буквой ф = (ф1,ф2, ..
.-,фл), где ф — вектор с компонентами фь ф2». • -» фя.
56
Составляется вспомогательная величина
Н = ♦,/, (*, и) + yp2f2 (х,и)+ ... + ypnfn (ж, и) =
-Л(*. *, и). (4)
Сразу видно, что величина Н зависит от трех векторов:
ф, х и и. Новая вспомогательная величина (4) была
обозначена через Н потому, что нужные для нас уравнения,
получаемые из нее, очень похожи на уравнения
Гамильтона, всем известные из механики. Они суть следующие:
** Щ •
• _ дН (Ч>, *, и) <5>
Полученная система дифференциальных уравнений (5)
состоит из 2л уравнений. В них входят неизвестные
функции хи *2,..., *п> фь фа,..., урп, u\, u2t..., иг, то есть
число неизвестных функций равно 2п + т. Таким образом,
система эта неполна. Решать ее невозможно. Однако
эта система уравнений дополняется одним условием.
Управляющий вектор и должен выбираться так, чтобы
при любых фиксированных значениях if, х функция
//(ф, x9fi) достигала своего максимума при этом
значении и. Дополненная этим условием система уравнений
(б) уже является полной, и именно эта система
соотношений должна решаться при отыскании оптимального по
быстродействию решения задачи.
Этот результат был назван принципом максимума.
Задачи на оптимизацию какой-либо другой величины, а
не времени, например, расхода горючего, решаются очень
похожим образом. Здесь я не формулирую ее решения.
Целью движения объекта мы считаем определенное его
фазовое состояние х1, то есть прибытие точки в
определенное место с определенной скоростью. Принцип
максимума годен, однако, и для решения других задач,
например, целью может служить прибытие в определенное
место с произвольной скоростью.
Если управляющий вектор и может принимать
произвольные значения, а не связан условием
принадлежности к множеству Q, то из условия максимальности
функции #(ф, х, и) по переменному и следует, что все
частные производные этой функции по переменным ии ы*...
...,ы, равны нулю, то есть должны быть выполнены
57
соотношений:
«"(»*■■> ,о, /-1,2 г. (6)
Этот результат вытекает из общих результатов
классического вариационного исчисления, но в такой форме он
никогда не был сформулирован, так как в классическом
вариационном исчислении вообще не рассматривались
управляемые объекты. Следует отметить также, что и в
случае произвольно меняющегося и соотношение (6)
слабее, чем условие максимальности Н по и.
Дадим теперь решение одной очень простой задачи
оптимизации на быстродействие, которое можно
получить при помощи принципа максимума, но невозможно
получить методами классического вариационного
исчисления.
Рассмотрим математический маятник, то есть движе-
Hve некоторой точки по прямой, которая притягивается
к некоторой фиксированной точке 0 этой прямой с силой,
пропорциональной расстоянию до нее. Прямую, по
которой движется точка, примем за ось абсцисс, а
точку 0 — за начало координат. Координату движущейся
точки обозначим через х. Тогда уравнение движения
этой точки запишется в виде
х + х = 0, (7)
где х есть вторая производная координаты х по
времени, то есть ускорение движущейся точки. Одно
уравнение (7) можно переписать в виде двух уравнений
первого порядка
Пусть х = x(t)t у = у (t) — произвольное решение
системы (8). Для геометрического его изображения
рассмотрим на фазовой плоскости переменных (х, у) точку
[*(/), y(t)], движущуюся с течением времени /.
Получаемая так в результате движения точки по фазовой
плоскости траектория называется фазовой траекторией. Для
системы (8) она представляет собой окружность с
центром в начале координат, по которой точка движется с
постоянной угловой скоростью, равной одному радиану
в секунду, причем движение происходит по часовой
стрелке. Допустим теперь, что на нашу движущуюся
68
точку х воздействует внешняя сила величины и, которая
не может превосходить по модулю единицы. Тогда
уравнение движения точки записывается в виде х-\-х = и
или в виде системы уравнений
Система уравнений (9) описывает движение
управляемого объекта, где и есть управляющий параметр.
Постараемся теперь привести точку, находящуюся в
начальный момент времени в произвольном положении (х°, у0)
в состояние покоя, то есть в начало координат фазовой
плоскости за минимальное время, используя для этого-
управляющий параметр и. Из принципа максимума
непосредственно следует, что оптимальное управление и
может принимать только значения ±1. При и= +1
фазовой траекторией системы (9) является окружность с
центром в точке (1,0), а при и = —1 фазовой
траекторией системы (9) является окружность с центром в точке
(—1,0). Зная, что оптимальное значение ц=±1, мы
должны теперь только указать, как меняется и между
этими двумя значениями в процессе движения. Из
принципа максимума легко вывести, что значение и зависит
лишь от положения фазовой точки на фазовой плоскости,
а именно, вся фазовая плоскость разбивается на две
части, в одной из которых и должно иметь значение +1,
Рис. 15
а в другой —значение —1. Разбиение фазовой
плоскости на две части осуществляется линией, начерченной на
рис. 15. Она состоит из полуокружностей радиуса еди-
59
ница, опирающихся как на диаметры на отрезки оси
абсцисс. Причем на положительной части абсциссы
полуокружности обращены вниз, а на отрицательной части
абсциссы полуокружности обращены вверх. Две
полуокружности, примыкающие к началу координат, сами
являются оптимальными траекториями, так что если
начальная точка находится на одной из них, то движение
в начало координат осуществляется по соответствующей
полуокружности. Оказывается дальше, что если фазовая
точка находится под начерченной линией раздела, то и
должно иметь значение +1, а если над линией раздела,
то значение и должно быть равно —1. Легко
вычертить траекторию оптимального движения точки (см.
рис. 15), исходя из произвольного начального положения
(х°, у0). Начиная с какой-либо точки плоскости (х°, у0),
движение определяется уравнением (9) с определенным
значением «= ±1, причем значение это переключается
на противоположное, когда соответствующая траектория
доходит до линии раздела переключения. В конце
концов точка попадает на одну из полуокружностей линии
раздела, примыкающих к началу координат, после чего
точка движется по соответствующей полуокружности к
началу координат.
Принцип максимума является всеобъемлющим
универсальным методом для решения задач оптимизации.
Он нашел многочисленные применения в различных
областях знания и оказал существенное влияние на
развитие вариационного исчисления. В игровых задачах
достигнуть разультатов столь общего характера нам не
удалось. Ими занимается сейчас большое число
математиков, среди которых следует отметить группу
сотрудников Математического института им. В. А. Стеклова и
школу академика Н. Н. Красовского в Свердловске. Ими
достигнуты значительные результаты. Здесь я
ограничусь тем, что приведу один конкретный пример задачи
преследования.
В пространстве /? произвольной размерности п, где
п ^ 2, рассмотрим две точки х и р, каждую из которых мы
можем одновременно трактовать как вектор. Точку ж
будем считать преследующей точкой, а точку у —
убегающей точкой. Процесс преследования считается
законченным, когда х совпадает с у. Движение этих точек
описывается следующими уравнениями;
х + ах = и, y+£y = v. (10)
60
Здесь и и v — векторы пространства К. В нашей задаче
они являются управляющими векторами. Их можно
выбирать произвольными по направлению, но они
ограничены по длине, а именно, для них выполнены условия:
|ы|^р, |f|^o. Числа а, (3, р, а положительны. Таким
образом, уравнение (10) описывает движение точки с
линейным трением а под действием внешней силы п,
которая может быть выбрана произвольной по направлению,
но не превосходит по величине числа р. Аналогичное
верно и для точки у. Процесс преследования можно
рассматривать с двух точек зрения. При первой точке зрения
мы отождествляем себя с преследователем. Наша задача
заключается тогда в завершении преследования путем
выбора надлежащего управления и. При этом в
процессе преследования мы все время наблюдаем за
поведением уходящего объекта. При второй точке зрения мы
отождествляем себя с убегающим объектом и наша
задача состоит в том, чтобы уйти от преследования,
выбирая надлежащим образом управление v. При этом мы
все время наблюдаем за преследующим нас объектом.
Основной результат, имеющийся здесь, следующий. 1.
Задача преследования всегда может быть решена
положительно, то есть преследование завершено, если
выполнены два неравенства
£>Т- р>"- (П)
2. Задача убегания имеет всегда положительное
решение, если выполнено неравенство а > р. Оказывается,
что при решении задачи преследования в случае, когда
выполнены условия (11), мы всегда имеем наилучший
способ поведения преследователя, то есть имеется
единственное оптимальное управление преследователя u(t)t
отклонение от которого неизбежно увеличивает время
преследования. При этом оптимальное управление
преследователя u(t) определяется постепенно с
возрастанием времени / в зависимости от поведения убегающего
объекта.
Я Издательство УРСС
И специализируется на выпуске учебной и научной лиггсратуры, в том
Н числе монографий, журналов, трудов ученых Российской Академии
^ наук, научно-исследовательских институтов и учебных заведений.
т
«а
*1
Уважаемые читатели! Уважаемые авторы!
Основываясь на широком и плодотворном сотрудничестве с Российским
фондом фундаментальных исследований и Российским гуманитарным научным
фондом, мы предлагаем авторам свои услуги на выгодных экономических условиях.
При этом мы берем на себя всю работу по подготовке издания — от набора,
редактирования и верстки до тиражирования и распространения.
Среди вышедших и готовящихся к изданию книг мы предлагаем Вам следующие:
Л. С. Понтрягин: Серия ♦Знакомство с высшей математикой»
Метод координат.
Анализ бесконечно малых.
Алгебра.
Дифференциальные уравнения и их приложения.
Другие книги Л. С. Понтрягина:
Основы комбинаторной топологии.
Гладкие многообразия и их применения в теории гомотопий.
Обобщения чисел.
Жизнеописание Льва Семеновича Понтрягина, математика, составленное им самим.
Калман Р., Фалб П.% Арбиб М. Очерки по математической теории систем.
Зеликин М. И. Оптимальное управление и вариационное исчисление.
Софиева Ю, Н, Цирлин А М. Введение в задачи и методы условной оптимизации.
Галеев Э. М. Оптимизация: теория, примеры, задачи.
Ковалев М. М. Дискретная оптимизация (целочисленное программирование).
Ковалев М. М. Матроиды в дискретной оптнмизиции.
Балакришнан А. Введение в теорию оптимизации в гильбертовом пространстве.
Хинчин А. Я. Работы по математической теории массового обслуживания.
Смолъяков Э. Р. Неизвестные страницы истории оптимального управления.
Дубровин Б. А у Новиков С. 77., Фоменко А. Т. Современная геометрия. Т. 1-3.
Александров П. С. Введение в теорию множеств и общую топологию.
Клейн Ф. Неевклидова геометрия.
Клейн Ф. Высшая геометрия.
Клейн Ф. Лекция об икосаэдре и решении уравнений пятой степени.
Данфорд Н., Шварц Дж. 71 Линейные операторы. Общая теория.
Фейнман Р., Лейтон Р., Сэндс М. Фейнмановскне лекции по физике. В 9 томах.
Задачи и упражнения с ответами и решениями к фейнмановским лекциям. В 2 томах.
Вайнберг С. Мечты об окончательной теории.
По всем вопросам Вы можете обратиться к нам:
тел./факс (095) 135-42-16, 135-42-46
или электронной почтой URSS@URSS.ru
Полный каталог изданий представлен
в Интернет-магазине: http://URSS.ru
Издательство УРСС
Научная и учебная
литература
Издательство УРСС
Представляет Вам свои лучшие книги:
Босс В. Лекшш по математике: анализ.
Босс В. Лекции по математике: дифференциальные уравнения.
Краснов М.Л. и др. Вся высшая математика. Т. 1-6.
Краснов М. Л. и др. Сборники задач с подробными решениями.
Боярчук А. К. и др. Справочное пособие по высшей математике (Антндемидовггч). Т 1-5.
Дифференциатьные и интегральные уравнения
Филиппов А. Ф. Введение в теорию дифференциальных уравнений.
Петровский И. Г. Лекшш по теории обыкновенных дифференциальных уравнений.
Петровский И. Г. Лекции по теории интегральных уравнений.
Трикоми Ф. Дифференциальные уравнения.
Эльсгольц Л. Э. Дифференциальные уравнения и вариационное исчисление.
Амеяькин В. В. Автономные и линейные многомерные дифференциальные уравнения.
Ачелькин В. В. Дифференциальные уравнения в приложениях.
Кузьмина Р. И Асимптотические методы для обыкновенных диф. уравнений.
Беллман Р. Теория устойчивости решений дифференциальных уравнений.
Лефшец С. Геометрическая теория дифференциальных уравнений.
Картон А Дифференциальное исчисление. Дифференциальные формы.
Теория чисел
Вейль А. Основы теории чисел.
Вейль Г. Алгебраическая теория чисел.
Хиннии А. Я. Три жемчужины теории чисел.
Хинчин А. Я. Цепные дроби.
Понтрягин Л. С. Обобщения чисел.
Карацуба А. А Основы аналитической теории чисел.
Виноградов И. М. Особые варианты метода тригонометрических сумм.
Ожигова Е. П. Развитие теории чисел в России.
Оре О. Приглашение в теорию чисел.
Жуков А. В. Вездесущее число «пи».
Теория вероятностей
Гнеденко Б. В.. Хинчин А. Я. Элементарное введение в теорию вероятностей.
Тнеденко Б. В. Курс теории вероятностей.
Гнеденко Б. В. Очерк по истории теории вероятностей.
Боровков А А Теория вероятностей.
Боровков А. А. Эргодичность и устойчивость случайных процессов.
Заютаревская Д. И. Теория вероятностей. Задачи с решениями.
Пытъев Ю. П. Возможность. Элементы теории и применения.
Кац М. Вероятность и смежные вопросы в физике.
Шикин Е. В. От игр к играм. Математическое введение.
Издательство УРСС
Представляет Вам свои лучшие книги:
Брайан Грин
ЭЛЕГАНТНАЯ ВСЕЛЕННАЯ
Суперструны, скрытые размерности и поиски окончательной теории
Книга Брайана Грина «Элегантная Вселенная» — увлекательнейшее путешествие
по современной физике, которая как никогда ранее близка к пониманию того,
как устроена Вселенная. Квантовый мир и теория относительности Эйнштейна,
гипотеза Калуцы—Клейна и дополнительные измерения, теория суперструн и
браны, Большой взрыв и мульти-вселенные — вот далеко не полный перечень
обсуждаемых вопросов.
Используя ясные аналогии, автор переводит сложные идеи современной физики
и математики на образы, понятные всем и каждому. Брайан Грин срывает завесу
таинства с теории струн, чтобы представить миру 11-мерную Вселенную, б
которой ткань пространства рвется и восстанавливается, а вся материя порождена
вибрациями микроскопических струн.
Книга вызовет несомненный интерес как у специалистов естественно-научных
дисциплин, так и у широкого круга читателей.
Роджер Пенроуз
НОВЫЙ УМ КОРОЛЯ
О компьютерах, мышлении и законах физики
Монография известного физика и математика Роджера Пснроуза посвящена
изучению проблемы искусственного интеллекта на основе всестороннего анализа
достижений современных наук. Возможно ли моделирование разума? Чтобы найти
ответ на этот вопрос, Пенроуз обсуждает широчайший круг явлений:
алгоритмизацию математического мышления, машины Тьюринга, теорию сложности, теорему
Геделя, телепортацию материи, парадоксы квантовой физики, энтропию, рождение
вселенной, черные дыры, строение мозга и многое другое.
Член Лондонского королевского общества, профессор математики Оксфордского
университета, сэр Роджер Пенроуз — выдающийся ученый современности, активно
работающий в различных областях математики, общей теории относительности
и квантовой теории; автор теории твисторов.
Книга вызовет несомненный интерес как у специалистов, так и у широкого круга
читателей.
Издательство
УРСС
(095) 135-42-46,
(095) 135-42-16,
URSS@URSS.ru
Наши книги можно приобрести в магазинах:
«Библю-Глобус» (кЛубяша, ул. Мжняцяая, §. Тел. (095) 925-2457)
«Moaotcml дон княгм» (и. Арбатом, ул.Нош1 Арбат, 6. Тел. (095) 203-8242)
«Мост» (н. Охотный ряд, ул. Персия, I. Тел. (095) 229-7155)
«Молод» пардт» (и. Помня, ул. Б. Полями, 28. Тел. (095) 238-5083, 238-П44)
«Дои дело»! нага» (м. Пролетарсия, ул. Марясястаая, 9. Тел. (095) 270-5421)
«Гноэк» (м.УннмрсятЕТ, 1 гун.юрпус МГУ, юин.141. Тел. (095) 939-4713)
«У Кентаяра» (РГГУ) (м. Нояослободаая, ул.Чаянояа, 15. Тел. (095) 973-4301)
«СПб. дом пмгя» (Неясжя! пр, 28. Тел. (812) 311-3954)
Лев Семенович
ПОНТРЯГИН
(1908-1988)
Выдающийся советский
математик, академик АН СССР,
Герой Социалистического
Труда (1969).
Родился 3 сентября 1908 г.
в Москве. В 14 лет потерял
зрение в результате несчастного
случая. Окончил Московский
государственный университет
им. М.В.Ломоносова (1929).
С 1930 г. работал
в Московском университете,
где в 1935 г. получил ученое
звание профессора,
и одновременно с 1939 г.
занимал должность
заведующего отделом
Математического института
им. В.А.Стеклова АН СССР.
Академик АН СССР
ш Л.С.Понтрягин
ПРИНЦИП МАКСИМУМА
В ОПТИМАЛЬНОМ
УПРАВЛЕНИИ