Text
                    Основы теории управления
А.И. Егоров


УДК 517.2, 519.7, 62-50, 531.36, 681.5 ББК 22.161.6 Е30 Егоров А. И. Основы теории управления. — М.: ФИЗМАТЛИТ, 2004. — 504 с. - ISBN 5-9221-0543-4. Рассматриваются основные направления современной математической теории управ- управления. В нее включены следующие разделы теории: математическое моделирование управляемых систем; основы теории устойчивости нелинейных и управляемых систем; периодические колебания нелинейных систем; основы теории управляемости; наблю- наблюдаемости и идентифицируемости; методы теории оптимального управления; элементы теории стохастических управляемых систем. При этом рассматриваются системы с сосредоточенными и распределенными параметрами. Теоретический материал сопровож- сопровождается анализом многочисленных примеров. Для студентов и аспирантов университетов и технических вузов, а также для научных работников, интересующихся теорией управления и ее приложениями. Ил. 89. Библиогр. 202 назв. © ФИЗМАТЛИТ, 2004 ISBN 5-9221 -0543-4 © А. И. Егоров, 2004
Предисловие Теория управления представляет собой довольно обширную область нау- науки. Она находит применение в различных сферах человеческой деятельности, начиная с управления конкретными объектами и кончая управлением в обла- области политики и общественных отношений. Во всех этих сферах работают свои законы, определяющие динамику соответсвующих систем. Взаимодействие ма- материальных точек и системы твердых тел описываются законами механики, которые достаточно хорошо изучены. Известны также законы молекулярного и атомного взаимодействия. Во многих случаях они выражаются четкими ма- математическими соотношениями. Тогда основные понятия теории управления и свойства управляемых систем можно сформулировать в математических тер- терминах и на этой основе получать новые закономерности в достаточно общем виде. Гораздо сложнее ситуация в сфере экономики и общественных отношений. Математические зависимости в этой сфере человеческой деятельности удает- удается получить лишь в отдельных случаях. Поэтому в настоящее время здесь не столь высока роль математических методов. Тем не менее, основные поня- понятия теории управления (управляемость, наблюдаемость, оптимальность и т. д.) здесь используются достаточно широко. В предлагаемой книге излагаются основные направления теории управле- управления при решении тех задач, которые формулируются для процессов, описыва- описываемых в форме тех или иных уравнений с соответствующими дополнительными условиями. Следовательно речь идет о математически методах исследования задач теории управления. Рассматриваются следующие основные направления этой теории. 1. Математическое моделирование управляемых процессов. В отличие от других работ подобного рода, здесь достаточно подробно рассмотрено примене- применение уравнений в частных производных, операторных уравнений и общей теории систем в описании управляемых процессов. 2. Основы общей теории устойчивости и устойчивости замкнутых систем. Изложенный здесь математический аппарат затрагивает основные направле- направления этой важной и содержательной части теории управляемых систем. 3. Нелинейные колебания в замкнутых системах управления. Здесь рас- рассмотрены методы построения периодических решений нелинейных уравнений, основанные на методах А. Пуанкаре, A.M. Ляпунова и А.Н. Крылова, а также метод гармонической линеаризации, используемый при анализе уравнений с разрывной правой частью. 4. Управляемость и наблюдаемость в теории управляемых систем. Здесь рассмотрены соответствующие задачи для систем с сосредоточенными и рас- распределенными параметрами.
4 Предисловие 5. Задачи об оптимальном управлении для систем с сосредоточенными и распределенными параметрами. Изложена теория необходимых условий опти- оптимальности, а также теория условий второго порядка и особых управлений. 6. Простейшие задачи управляемых стохастических систем. Сначала изла- излагаются основные свойства линейных систем, преобразующих случайные сигна- сигналы. Затем рассматриваются простейшие задачи прогноза и фильтрации. Этот материал излагается достаточно подробно, с решением многочислен- многочисленных иллюстративных примеров. Ясно, что основы теории управления в одной книге изложить невозможно, если пытаться описать различные ее разделы с одинаковой полнотой. Поэтому отбор материала, вошедшего в книгу, и его объ- объем в значительной мере определялся научными интересами и вкусами автора. В тех случаях, где это казалось необходимым, автор указывал дополнительные источники по теме в сносках на соответствующих страницах. Список литера- литературы, представленный в конце книги, предназначен тем читателям, которые захотят более или менее подробнее ознакомиться с материалом изложенным в соответствующей главе. Этот список не претендует на полноту. Он включа- включает лишь те работы, которые по мнению автора наиболее близки к методам и идеям, которые изложены в книге. Автор выражает признательность редактору Елене Юрьевне Ходан за пло- плодотворное сотрудничество в подготовке к изданию этой книги. Работа выпол- выполнена при частичной финансовой поддержке РФФИ, грант 01-01-00121. А. Егоров
ГЛАВА 1 Математическое моделирование управляемых систем 1. Понятие об управляемых системах Под управляемой системой обычно понимается любая совокупность мате- материальных объектов, на поведение которой во времени можно влиять выбором целенаправленных внешних воздействий. Возможность такого выбора отлича- отличает управляемую систему от неуправляемой. Брошенный со скалы камень летит по траектории, которая однозначно определяется его положением и скоростью в момент броска. Однако траектория полета дельтаплана существенным обра- образом зависит от действий спортсмена в процессе полета. Эти действия целена- правлены, и поэтому движение дельтаплана является управляемым. Математически управляемая система характеризуется, вообще говоря, дву- двумя группами параметров. К первой группе относятся все те параметры, ко- которые определяют состояние системы. Их совокупность обычно обозначают через ж, у или z. В частности, если рассматривается механическая система, состоящая из конечного числа материальных точек, то в качестве х может фигурировать любой набор обобщенных координат и обобщенных импульсов системы. В этом случае х можно рассматривать как элемент конечного евкли- евклидова пространства. В других случаях х может оказаться элементом какого- либо функционального пространства. Однако в каждом случае совокупность этих параметров должна однозначно определять состояние рассматриваемой системы. Ее поведение во времени характеризуется функцией х = x(t). При этом важно отметить, что для различных систем целесообразно считать вре- время, изменяющимся непрерывно или дискретно. Если х — конечномерный вектор евклидова пространства Еп, то функция х = x(t) при непрерывно изменяющемся времени определяет некоторую линию в Еп. Ее называют фазовой траекторией системы. Иногда этот же термин используется и в том случае, когда t принимает дискретные значения или ког- когда х является элементом функционального пространства. Процесс перехода системы из одного состояния в другое состояние иногда называют переходным процессом. Однако этот же термин используется для характеристики реакции управляемого объекта (системы) на внешнее воздействие в виде единичного ступенчатого сигнала. Такую характеристику мы введем ниже. Вторая группа параметров (их совокупность обычно обозначают через и) определяет внешние управляющие воздействия. Их называют рулями, (управлениями) или управляющими параметрами. Поведение рулей, во вре- времени определяется функцией и = u(t). Тип управляемой системы зависит от того, каким конкретным пространствам принадлежат параметры х и и, какова зависимость между функциями х = x(t) и и = u(t) и какие (непрерывные или
6 Гл. 1. Математическое моделирование управляемых систем дискретные) значения может принимать числовой параметр t. Пара (x(t),u(t)) называется управляемым процессом. В научной литературе термины "управля- "управляемый процесс" и "управляемая система" часто употребляются для обозначения одних и тех же понятий. Рассмотрим несколько примеров управляемых процессов, для которых ис- используется различное математическое описание. Пример 1.1. Согласно второму закону Ньютона движение материальной точки массы т в пространстве можно описать системой уравнений mxi = Fi, mx2 = F2, тх3 = F3, to<t<T, A.1) где Fi, F2j F3 — проекции вектора F = {Fi,F2iF3} внешних сил на соот- соответствующие оси декартовой системы координат. Если функция F = F(t) задана, то состояние движущегося объекта в каж- каждый момент времени t однозначно определяется начальными условиями Г Xl(to) = Ж?, X2(t0) = Х%, X3(t0) = X°3J \x1(t0)=x\, x2(t0)=xl, x3(t0)=xl. Чтобы определить это состояние, достаточно проинтегрировать уравне- уравнения A.1) с условиями A.2) на отрезке 0 ^ t ^ Т. Однако в реальных условиях часто встречаются ситуации, когда сила F заранее не задана, а ее величина и направление выбираются во время движения объекта в зависимости от тех или иных конкретных целей и возникших условий. Чтобы в этом убедиться, достаточно вспомнить полет птицы. Траектория ее движения не может быть однозначно определена начальным состоянием A.2). Она определяется не толь- только начальным состоянием, но и теми решениями, которые птица "принимает" в каждый момент времени. Состояние объекта в произвольный момент времени t = т определяется набором шести параметров: х\(т) = хъ ±i(r) = ж2, х2(т) = ж3, х2(т) = ж4, хз(т) = ж5, xs(r) = х6. Параметры ui, u2 и и3, заданные соотношениями u1=F1{t), u2 = F2(t), u3=F3(t), A.3) определяют управление. Функции xi = Xi(t), t > to, г = 1,..., 6, характеризуют поведение управляемого объекта во времени, а функции ui(t), u2(t), u3(t) опре- определяют поведение "рулей". Связь между этими функциями однозначно опреде- определяется системой дифференциальных уравнений A.1) и представляется в виде х2 = m~1u\^ ?4 = т~хи2, A-4) ±6 = т~хи3. Таким образом, в рассматриваемом примере управляемым объектом явля- является материальная точка массы га, а управляемым процессом является пара (x(t),u(t)), где x(t) — вектор-функция размерности б, a u(t) — трехмерная вектор-функция. Параметр t (время) изменяется непрерывно, а процесс опи- описывается обыкновенными дифференциальными уравнениями A.4). Пример 1.2. Пусть некоторое тело находится в температурном поле и предположим, что внутри тела тепло распространяется согласно закону Фурье, а его теплообмен с внешней средой подчиняется закону Ньютона. Для
1. Понятие об управляемых системах 7 описания процесса распространения тепла в теле введем следующие обозначе- обозначения: u(t, si, 52, S3) ~~ температура тела в точке s = (^1,52,53) в момент време- времени t, а щ — температура внешней среды у границы тела. Если заданы температура щ и интенсивность / внутренних источников тепла, то температура тела в любой его точке и в любой момент времени т > to однозначно определяется начальным температурным полем тела в момент вре- времени t = to : u\t=tQ =(/?oO). A.5) Процесс распространения тепла в теле описывается уравнением теплопровод- теплопроводности ди —- = div(/cgrad и) +/, sGll, t > t0, A.6) и граничным условием СУ 1J к —— = h[uo(t,s) — u(t,s)}, s e S, A.7) где к — коэффициент теплопроводности, п — направление внешней нормали к границе S области Q, h — коэффициент теплообмена. Для определения темпе- температуры и в любой точке sgDhb любой момент времени t достаточно решить уравнение A.6) с граничным условием A.7) и начальным условием A.5). Процессом можно управлять путем целенаправленного изменения плот- плотности внутренних источников /(?, s) и изменением температуры окружающей среды uo(t,s). В этом случае состояние управляемого объекта в произволь- произвольный момент времени t = т характеризуется функцией ip(s) = u(r,s). Изме- Изменение этой функции с течением времени определяет "траекторию" управля- управляемого объекта. Параметром управления является вектор-функция v(s) = = {/(т, s), щ(т, s)}. Управляемым процессом в этом случае является пара (ix(t,5),v(t,5)), и он описывается краевой задачей A.5)—A.7). Для описания того же физического процесса можно использовать другие параметры, характеризующие состояние управляемого процесса и управляю- управляющих рулей. Они появляются в результате разложения решения краевой задачи A.5)—A.7) в ряд Фурье по собственным функциям задачи Штурма-Лиувилля div(/cgradix) + Aix = O, (fc-^ + Zm) =0. A.8) \ an J s Пусть {Xn(s)} — полная ортонормированная в 1^(^) система собствен- собственных функций задачи A.8), а {Ап} — соответствующая ей последовательность собственных значений. Тогда решение краевой задачи A.5)—A.7) можно пред- представить в виде u(t,s) = J2<un(t)Xn(s), un(t)= / u(t,x)Xn(x)dx. Отсюда находим, что un(t)= / ut(t,x)Xn(x)dx. A.9) Jn С другой стороны, учитывая, что u(t, s) — решение краевой задачи A.5)—A.7), с помощью формулы Грина получаем:
Гл. 1. Математическое моделирование управляемых систем / div (kglad) и) Xm(x) dx = / к( —- Хт — и т ) dS+ Jn Js \дп дп J f f + / udiv (kgidbd) Xm)dx = / {Н(щ — и) + hu}Xm dS — Jn Js f f — Xn / u(t,x)Xrndx = / hUmXmdS — \шиш. A.10) Поэтому, согласно соотношениям A.9)-A.10), имеем /¦ Г / [ut — div (/с grad) u)] Xm dx = um + Amixm — / кщХт dS. Ju Js Учитывая уравнение A.6), отсюда получаем систему уравнений Um + Amixm = /ш + гхОш, m = 1, 2, ..., A-И) где fm= f(t,x)Xm(x)dx, щт= / hu0XmdS. Jn Js Таким образом, управляемый процесс описывается бесконечномерной системой уравнений A.11). Бесконечномерный вектор и = {^i,^2,---} опи- описывает состояние управляемого объекта. Управляющим параметром является бесконечномерный вектор ио = {Д + г>1, /2 +^2, • • • }, а управляемым процессом является пара (ix(t),cj(t)). Приведенные рассуждения показывают, что управляемый процесс рас- распространения тепла в твердом теле можно описать либо краевой задачей для уравнения в частных производных, либо бесконечной системой обыкновенных дифференциальных уравнений. Замечание 1.1. Тот факт, что управляемый процесс распространения теп- тепла в твердом теле можно описать с помощью бесконечной системы уравнений, справедлив не только для рассмотренного простейшего случая. Изложенную методику можно использовать и в гораздо более общем случае. В подтвер- подтверждение этого кратко опишем процедуру для случая распространения тепла в твердом теле произвольной формы1). Рассмотрим управляемый процесс, который описывается функцией u(t,x), определяемой уравнением d^+Cu = f(t,xI 0<t<T. A.12) Здесь х = {xi,...,xn} G G С Еп\ С — эллиптический дифференциальный оператор, который в области G удовлетворяет следующим условиям. 1. Функции ctij(x) и с(х) измеримы и ограничены в G, причем с(х) > 0. 1) Более подробно этот вопрос рассмотрен в работе В.И. Плотникова "О сходимости конечномерных приближений (в задаче об оптимальном нагреве твердого тела произвольной формы)" (ЖВМиМФ, т. 8, № 1,
1. Понятие об управляемых системах 9 2. Существует постоянная 7 > О такая, что п п п V^ aijaiOtj ^ 7/_^°^ ПРИ /_\°% 7^ ^ и х ^ G. i,j=l г=1 г=1 Предположим, далее, что на границе S области G функция u(t, x) должна удовлетворять условию ди —+аи = g(t,x,w(t,x)), 0 < t < Т, х е S, где а(х) — ограниченная измеримая функция, удовлетворяющая условию а > > 0, g — непрерывная по w, a w(t,x) — измеримая функции, a v — конормаль к поверхности S. В дальнейшем предполагается, что область G ограничена, а S кусочно гладкая. Начальное условие зададим в виде и@,х) = (р(х), A.13) где (р(х) — заданная функция из L/2(G). Управляющими функциями могут быть / и w. Для четкого определения понятия решения рассматриваемой краевой зада- задачи следует вспомнить некоторые обозначения классов функций и функ- функциональных пространств, используемые в функциональном анализе. Символом W^{G) обозначается пространство функций и(х) G ^(G), обобщенные произ- ди . водные ——, г = 1,...,п, которые также принадлежат b2(G), а скалярное OXi произведение и норма определяются формулами и ||2 Г?ед4 w = G гг Пусть, далее, Q = ((t,x) : 0 < t < Т, х е G), Q(tut2) = ((t,x): h < t < < ^2, x G G), S(ti,t2) — боковая поверхность области Q(ti,t2). Через W2(Q) обозначим класс функций u{t,x) таких, что u{t,x) G L/2(Q) и обобщенные про- du(t,x) . изводные —^ -, г = 1,..., п, также принадлежат L2{Q). OXi При выполнении перечисленных условий решение краевой задачи опре- определяется однозначно как функция u(t,x) из класса W2(Q), удовлетворяющая почти при всех t\ и ^2 из (О, Т) интегральному тождеству (при произвольной функции Ф е J J / = 0 A.14) j и, кроме того, условию Г lim / [u(t, x) - (р(х)]ф(х) dx = 0 A.15) j
10 Гл. 1. Математическое моделирование управляемых систем при любой функции ф(х) G L/2(G). Оказывается, что при указанных выше условиях рассматриваемой крае- краевой задаче соответствует обобщенная проблема собственных значений, которая состоит в том, чтобы найти функции v(x) G W^(G) и такие действительные значения параметра Л, чтобы выполнялось интегральное тождество v(x) Ъ~"Ъ 1суФЫ<3+ I av<Pds = X v<Pdx, A.16) g l^=1 % s g какова бы ни была функция Ф G W^(G). Тождество A.16) определяет счет- счетную последовательность {Am} (Am+i ^ Ат, Ат —> сю при т —> сю), среди которых могут быть и равные, и соответствующую последовательность {vm} ортонормированных в L2{G) функций, каждая из которых является решением интегрального тождества A.15) при соответствующем значении А. Эта после- последовательность полна в пространстве L2(G). Поэтому решение исходной краевой задачи можно представить в виде _ i. A.17) k=l Вычисление коэффициентов Uk(t) производится по той же методике, что и в примере 1.2, но с учетом того, что решение задачи определяется интеграль- интегральным тождеством. Делается это следующим образом. Запишем тождество A.16) для конкретной собственной функции v = vm(x) и положим в нем Ф = u(t,x) при фиксированном t. В результате получим Е dVm Эй IT,/ 7 л [ 7 аа\х) ~^—т; \- сити\ах + / avmuds = \ / vmudx. G -ы=1 бХг J i i Интегрируя полученное равенство по t в пределах от t\ до ?2, будем иметь dvm ди dQ + / avmuds = X / vmudx. j j S(t!,t2) Q(t!,t2) A.18) Аналогично, полагая в A.14) Ф = vm(x), получаем: ^ aij(x)—— —^ + (сгх - /(t,x))vm dQ+ + / (аи- g)vmds = 0. A.19) Сравнивая соотношения A.18) и A.19) и учитывая, что m = 1,2,..., при- приходим к равенствам uvmlll dx + \ / uvrndQ= I fvmdQ+ / gvmds, m = l,2,...
1. Понятие об управляемых системах 11 Положим в этих равенствах t^ = t и продифференцируем по t получен- полученный результат. В итоге будем иметь систему дифференциальных уравнений, которую можно записать в виде diii -^ + \um = fm+gm, m=l,2,..., A.20) где иш — коэффициенты Фурье в разложении A.17), а Г Г fm= fvmdx, gm= gvmds. A.21) J J G S Начальное условие A.13), которое понимается в "слабом смысле" (см. A.15)) приводит к начальным условиям для системы A.21) Г ит@) = ipm, ipm = ip(x)vm(x) dx, m = 1,2,... A.22) j G Таким образом, для описания теплового процесса мы вместо краевой за- задачи A.12)—A.13) имеем бесконечную систему дифференциальных уравнений A.20) с начальным условием A.22). Связь между этими двумя описаниями определяется формулой A.17), в которой ряд Фурье сходится и определяет функцию u(t,x) G W2(Q). Как будет показано в параграфе 1.8, для нас этот результат чрезвычай- чрезвычайно важен, поскольку он позволяет работать в различных функциональных пространствах при использовании операторных уравнений в описании управ- управляемых процессов. Пример 1.3. Рассмотрим динамику поголовья стада на животноводческой ферме, исходя из следующих предположений. 1. Коэффициент размножения животных является постоянным во все рас- рассматриваемые годы. Это означает, что если x(t) — количество животных на ферме в t-м году, то в результате размножения в (t + 1)-м году будет ax(t) животных, где а = const. 2. На мясозаготовки в t-м году сдается u(t) животных, причем заготовки производятся один раз в конце года. В этих предположениях, очевидно, справедливо соотношение x(t + 1) = ax(t) - u(t), ? = 1,2,..., A.23) которое представляет собой уравнение в конечных разностях. При заданной функции u(t) оно однозначно определяет функцию х(?), если задать начальное условие х@) = х°. Однако функцию u{t) можно не задавать заранее, а рассматривать ее как управление. Тогда, выбирая значения и для каждого конкретного года, мож- можно целенаправленно изменять значения x(t) при заданном начальном х°. В этом случае управляемым процессом является пара (х(?),и(?)), в которой вре- время ? принимает дискретные значения, а сам процесс описывается уравнением в конечных разностях A.23). "Фазовая траектория" представляет собой набор дискретных точек @, х@)), A,хA)), ... в плоскости переменных tux. Рассмотренные примеры (а их число, очевидно, можно увеличить) слу- служат достаточным основанием утверждать, что управляемые процессы могут быть описаны обыкновенными дифференциальными уравнениями, краевыми
12 Гл. 1. Математическое моделирование управляемых систем задачами математической физики, уравнениями в конечных разностях и т. д. Эти уравнения обычно используются для описания различных явлений приро- природы, технологических процессов. Однако в теории управления они имеют одну важную особенность: одна или несколько функций, характеризующие внеш- внешние возмущения, заранее не заданы. Они могут выбираться целенаправленно в процессе функционирования системы и играют роль управлений. Классификация управляемых процессов дается по различным признакам. Здесь уместно привести ее в зависимости от типа фазового пространства и типа тех уравнений, которыми описывается процесс. Определение 1.1. Управляемый процесс (x(t), u(t)) называется процессом с сосредоточенными параметрами (или конечномерным), если фазовое про- пространство параметров х является конечномерным. Если же это пространство является пространством последовательностей или функций, то процесс назы- называется процессом с распределенными параметрами (или бесконечномерным). Процессы, рассмотренные в примерах 1 и 3, конечномерны, а процесс из примера 2 имеет распределенные параметры. Определение 1.2. Управляемый процесс (x(t),u(t)) называется непрерыв- непрерывным или дискретным в зависимости от того, непрерывно или дискретно из- изменяется параметр t. 2. Принципы управления. Основная задача теории управления 2.1. Принципы управления. Классификация управляемых процессов, данная в предыдущем параграфе, опирается на типы уравнений, которыми описываются эти процессы. Однако чрезвычайно плодотворным оказывается другой подход к классификации, основанный на понятии структурной схемы управляемой системы. Тот факт, что для каждого управляемого x(t) объекта воздействие u(t) порождает функцию x(t), схематически представлен на рис. 1.2.1. Прямоугольник изображает объект управления (ОУ), u(t) называется сигналом на входе, x(t) Рис. 1.2.1 — сигналом на выходе. При таком изображении управляемого процесса (x(t),u(t)) не указывается форма связи x(t) и u(t). Из- Известно лишь, что на вход объекта управления подается сигнал u(t), а на его выходе появляется сигнал x(t). Часто на схеме указывается не только управляющий сигнал u(t), но и дру- другие неконтролируемые внешние воздействия, которые влияют на объект во вре- время его движения (функционирования). К ним относятся случайные помехи, де- детерминированные неконтролируемые внешние воздействия и т. д. На рис. 1.2.2 они отмечены сигналом r(tJ). Предложенная схема позволяет сравнительно просто проанализировать различные принципы управления и дать классификацию управляемых процес- процессов не по их математическому описанию, а по функциональному назначению. До сих пор мы предполагали, что управляющий сигнал u(t) выбирается в зависимости от времени в процессе функционирования системы. Величины ОУ ) Напомним, что при любом фиксированном t каждый из параметров ж, и и г может быть вектором или элементом какого-либо функционального пространства.
ОУ 2. Принципы управления. Основная задача теории управления 13 всех компонент этого сигнала определяются исключительно моментом вре- времени, в который он должен быть подан на вход системы. Такое управление называется программным. Однако на практике особый интерес представляют управления, которые строятся на иных принципах. Суть их состоит в следую- следующем. Как уже неоднократно отмечалось выше, главная особенность управляемой системы сос- состоит в том, что в каждый момент времени t управляющий сигнал u(t) выбирается так, что- чтобы сигнал х на выходе системы обладал каким-то заданным свойством. Поэтому естественно стре- стремиться выбирать сигнал u{t) с учетом состояния системы в момент времени t. ис' ' ' Иначе говоря, требуется выбирать управление вида и = u\t,x(t)\. Схема- Схематически такой способ управления изображен на рис. 1.2.3. Прямоугольник У У (управляющее устройство) схематически изображает объект, у которого х яв- является сигналом на входе, aw- сигналом на выходе. Тип такого объекта, а также способ преобразования сигнала х в сиг- сигнал u[t,x(t)] определяется конкретной ситуаци- ей и представленной схемой не учитывается. Од- нако в схеме отмечается то важное обстоятель- УУ ство, что сигнал и порождает сигнал ж, а при формировании и учитывается x(t). Таким образом, в представленной схеме яв- явно выражена не только прямая связь (x(t) зави- зависит от u(t)), но и обратная связь (х определяет и). Именно такой способ управления называется управлением по принципу обратной связи. Рис- -1--2-3 Система управления, схематически представленная на рис. 1.2.3, назы- называется замкнутой системой управления, а система, которая изображена на рис. 1.2.2, называется системой программного управления (разомкнутой). Для иллюстрации изложенных общих положений рассмотрим несколько простейших примеров. Пример 2.1. Спортсмен, летящий на дельтаплане, принимает решения по управлению аппаратом в каждый конкретный момент времени, оценивая об- обстановку именно в этот момент времени. В эту его оценку входит определение положения и скорости аппарата, а также определение влияния внешних сил. Здесь управляющее устройство в системе аппарат—спортсмен состоит из само- самого спортсмена и тех рулей, с помощью которых он влияет на полет аппарата. Спортсмен фиксирует фазовое состояние x(t) дельтаплана и с помощью соот- соответствующих устройств выдает управляющее воздействие и = u[t,x(t)]. Главной особенностью этой системы является участие человека в форми- формировании управляющего воздействия u\t,x(t)\. Иными словами, человек в этом случае является одним из элементов управляющего устройства. Пример 2.2 (регулятор Уатта). Регулятор предназначен для управления угловой скоростью вращения вала паровой машины. Объектом управления в этом случае является котел машины, а точнее, давление пара в нем. Этот пар,
14 Гл. 1. Математическое моделирование управляемых систем выходя из котла, вращает вал АВ (рис. 1.2.4), состояние которого характери- характеризуется угловой скоростью оо. С помощью зубчатой передачи вращение вала АВ передается валу CD, на котором шарнирно закреплены стержни 1\ nl^ с мас- массами т на концах. Стержни Zi и /г соединены с помощью стержней Is и U с подвижной муф- муфтой М, которая может скользить по валу CD и связана с задвижкой к. Когда муфта поднимается, задвижка делает меньше щель в трубе, по которой пар по- поступает в паровую машину. Если муфта опускается, то задвижка поднимается и щель в трубе увеличивается. Вся система работает следующим образом. Если по каким-либо причинам в машину начинает поступать пара боль- больше, чем требуется, то происходит увеличение скорости оо вращения вала АВ. Увеличивается также скорость вращения вала CD. Возросшие центробежные силы, действующие на массы т, поднимают муфту М. В результате задвижка к опускается, уменьшая тем самым щель в трубе. Это приводит к уменьшению потока пара в машину, и скорость вращения вала уменьшается. Если рассматриваемую систему предста- представить структурной схемой в виде замкнутой си- системы управления, то ее можно изобразить так, как это показано на рис. 1.2.3, где объ- объектом управления (ОУ) является паровая ма- машина с вращающимся валом АВ. Координа- Координатой х на выходе объекта управления являет- является угловая скорость оо. В качестве управляю- управляющего параметра можно брать давление пара на входе в машину (можно также взять поло- положение задвижки, регулирующей поступление пара). Все остальные элементы, изображенные на рис. 1.2.4, образуют управляющее устройство. В него, в частности, входят шарнирная передача, вал CD со стержнями /i, /2, h, h и муфтой М. К нему же относится задвижка к, соединенная с муфтой М. С точки зрения специалиста по теории управления, регулятор Уатта имеет две особенности. 1. Он представляет собой устройство для поддержания постоянного значе- значения скорости оо. 2. Он работает автоматически, без участия человека. Приведенные рассуждения позволяют сделать некоторые выводы о прин- принципах управления и дать классификацию систем управления, отличную от той, которая была дана выше и опиралась на математические модели. Системы управления (в зависимости от их конструкции) могут реализо- вывать либо программное управление и = u(t), либо управление по принципу обратной связи и = u[t,x(t)], когда и определяется в зависимости от текуще- текущего состояния х системы. Тип используемого управления (u(t) или u[t,x(t)]) и определяет тип системы управления. Если управляющее устройство работает без участия человека, то систе- система управления называется автоматической. Таким образом, в примере 2.1 рассматрена неавтоматическая система управления, а в примере 2.2 система является автоматической. Система управления, которая предназначена для поддержания парамет- параметра х на заданном стационарном уровне, называется системой регулирования. Рис. 1.2.4
2. Принципы управления. Основная задача теории управления 15 Рис. 1.2.5 На основании введенных понятий регулятор Уатта следует считать авто- автоматическим регулятором, работающим по принципу обратной связи. 2.2. Элементы систем автоматического регулирования и их ха- характеристики. Системы автоматического регулирования, которые работают по принципу обратной связи, обычно содержат некоторый стандартный набор элементов, анализ которых как по отдельности, так и вместе в виде системы, составляет содержание научной дисциплины, называемой теорией автома- автоматического регулирования. Некоторые вопросы этой теории рассматриваются ниже в различных разделах этой книги. Здесь же ограничимся перечислени- перечислением основных элементов систем регулирования и краткой их характеристикой. Основным элементом системы регулирования, оче- очевидно, является объект регулирования, для характе- характеристики которого выбирается некоторый набор х его параметров. Вспомогательные элементы, предназна- предназначенные для выполнения операции регулирования объ- объектом, в приведенной выше схеме (рис. 1.2.4) были от- отнесены к управляющему устройству. В него входят: 1) задающее устройство, которое определяет ста- стационарный желаемый уровень х параметра ж; 2) чувствительный элемент, оценивающий величи- величину А рассогласования х — х, где х — реальное сос- состояние объекта; 3) усиливающий элемент, который предназначен для усиления сигнала А; 4) преобразующий элемент, преобразующий сигнал А в сигнал другой при- природы (например, сигнал механического перемещения в электрический сигнал); 5) исполнительный элемент. Чтобы пояснить особенности каждого из этих элементов, рассмотрим еще один пример. Пример 2.3 (регулятор Ползунова). Этот регулятор предназначен для поддержания постоянного уровня воды в паровом котле. Система в целом схематически представлена на рис. 1.2.5. Она состоит из парового котла (объект управления), в который входят две трубы, Т\ и Т^. На поверхности воды в котле плавает поплавок П, который с помощью стержней Zi и Z2 соединен с клапаном к. Этот клапан регулирует поступление воды в котел по трубе Т\. По трубе Т2 отводится пар. Если по каким-либо причинам уровень воды в котле понизится ниже номинала, то поплавок П опускается и с помощью стержней Zi и Z2 открывается клапан к. В результате увеличивается поступление воды в котел. Если же уровень воды в котле повышается выше номинала, то поплавок поднимается и клапан к уменьшает поступление воды. В этой системе регулируемой величиной является h — глубина воды в кот- котле. Чувствительным элементом является поплавок. Стержень 1\ представляет собой задающее устройство. Его длина определяет стационарный уровень h. Стержень I2 вместе с упором Y является преобразующим и усиливающим эле- элементом, а клапан к является исполнительным механизмом. При математическом описании процесса регулирования в этой системе по- получаются линейные дифференциальные уравнения, коэффициенты которых
16 Гл. 1. Математическое моделирование управляемых систем зависят от указанных параметров. Варьируя значения этих параметров, мож- можно изменять свойства решений уравнений. Таким образом, появляется возмож- возможность аналитически анализировать динамику процессов в системе и подбирать значения параметров, оптимизирующих систему по тому или иному критерию ее качества. 2.3. Основная задача теории управления. Создание реальных систем управления неизбежно связано с решением целого комплекса разнообразных задач. Одни из них являются чисто инженерными (выбор материала для раз- различных элементов системы, определение средств защиты от коррозии и помех и т. д.). Вместе с тем возникают и теоретические вопросы, для решения кото- которых следует применять математические методы. Остановимся лишь на тех из них, которые имеют непосредственное отношение к теории управления. Математический анализ управляемой системы требует прежде всего со- создания математической модели. При этом требуется не только получить урав- уравнения движения (поведения) системы, но и дать достаточно полное описание целей управления и разнообразных ограничений, предъявляемых к системе и к ее модели. После того как завершено математическое описание, необходимо исследо- исследовать управляемый процесс с целью поиска того поведения системы, которое удовлетворяет поставленным целям и ограничениям. Итогом такого исследо- исследования обычно является получение управления в виде и = u[t, x(t)]. Подставляя его в уравнение движения системы, получим уравнение замкнутой системы относительно фазовой переменной х. Эти уравнения должны быть дополни- дополнительно исследованы на предмет поиска периодических решений, устойчивости, непрерывной зависимости решений от параметров и т. д. Для простых систем некоторые из этих вопросов решаются по интуиции или перебором различных разумных вариантов. Тем не менее все эти задачи специфичны и возникают, как правило, при исследовании управляемых систем. Лишь после выполнения таких исследований специалист по теории управления может дать заключение по конструированию и эксплуатации системы. Таким образом, основная задача математической теории управления со- состоит в математическом исследовании специфичных задач, связанных с со- созданием и эксплуатацией управляемых систем. 3. Математическое описание управляемых систем. Основные требования к математическим моделям 3.1. Математическая модель системы. Объектом исследования в тео- теории управления является управляемая система, а математика — средство (при- (причем основное) для решении разнообразных задач этой теории. Поэтому в каж- каждом конкретном случае для применения математических методов необходимо дать математическое описание объекта или, как говорят, требуется составить его математическую модель. В параграфе 1.1 рассмотрены простейшие приме- примеры математического описания управляемых объектов. Здесь мы остановимся на этом вопросе несколько более подробно. При этом основное внимание обра- обратим на непрерывные системы с сосредоточенными параметрами. Прежде всего следует заметить, что технические системы управления обычно являются довольно сложными устройствами, динамика которых опи- описывается дифференциальными или интегро-дифференциальными уравне-
3. Математическое описание управляемых систем 17 ниями, краевыми задачами математической физики или другими функцио- функциональными уравнениями. Достаточно полное и точное описание процессов мо- может быть получено лишь на основе глубокого знания соответствующих законов (физики, механики, химии и т. д.), определяющих поведение системы. Поэтому каждый математик, приступающий к составлению модели того или иного конкретного управляемого процесса, должен вникнуть в содержа- содержательную (не формальную!) суть задачи и работать в постоянном контакте со специалистом, предложившим эту задачу. Разумное сочетание инженерной интуиции и математической строгости в анализе явления составляют основу обоснованного выбора математической модели. Здесь вряд ли уместно давать какие-либо рецепты по применению матема- математических моделей конкретных задач. Они будут либо малосодержательными, либо потребуется анализ многих конкретных примеров. Поэтому отметим лишь некоторые общие особенности математических моделей управляемых систем, главным образом систем с сосредоточенными параметрами. Для таких си- систем состояние объекта определяется вектором х конечномерного евклидова пространства Еп, а управляющий параметр и является элементом векторного пространства Ег. Управляемый процесс (x(t),u(t)) при этом обычно описыва- описывается дифференциальным уравнением x = f(t,x,u). C.1) Это уравнение должно удовлетворять ряду требований, которые опреде- определяются как конкретным содержанием задачи, так и чисто математическими методами, используемыми при ее исследовании. Прежде всего, при выводе уравнения C.1) нужно позаботиться о том, что- чтобы оно достаточно точно описывало процесс при каждом конкретном управ- управлении и = u(t). Затем также из естественных требований, предъявляемых к задаче, нужно обеспечить единственность решения уравнения x = f(t,x,u(t)), t>t0, C.2) с начальным условием ж(*о) = х°, C.3) где х° — заданный вектор, определяемый обычно конкретной задачей. Функция f(t,x,u(t)) в конечном счете зависит от времени t и вектора х. Поэтому уравнение C.2) можно записать в виде х = <p(t, ж), <p(t, х) = /(?, ж, u(t)). C.4) Из курса дифференциальных уравнений известно, что уравнение C.4) име- имеет единственное решение х = x(t), удовлетворяющее условию C.3), если функ- функция (p(t,x) непрерывна по t и удовлетворяет условию Липшица по х (теорема Коши существования решения). Однако для задач, рассматриваемых в теории управления, этого результата недостаточно по следующим причинам. Каждая задача накладывает определенные требования как на область до- допустимых значений управляющего параметра и, так и на тип управляющих функций и = u{t). Допустимые значения и обычно заполняют некоторую замкнутую область U в пространстве Ег. В частности, в примере 1.1 сила F(t) формируется с помощью какого-либо конкретного технического устройства. Поэтому естественно считать, что если
18 Гл. 1. Математическое моделирование управляемых систем вектор F является управлением, то все его возможные реализации должны удовлетворять требованию \F\ ^ с, с = const, ибо технически невозможно сконструировать устройство, способное создать силу неограниченной величины. Значит, в соответствии с формулами A.3) из примера 1.1 в математической модели A.4) параметры ui, 1x2, Щ должны удовлетворять условию и\ + и\ + и\ < с2. C.5) В пространстве Е3 управляющего параметра и = {щ,и2,из} неравенст- неравенство C.5) определяет множество точек, принадлежащих замкнутому шару ра- радиуса с, центром которого является начало координат. Таким образом, в этом примере областью допустимых значений управляющего параметра является замкнутый шар. Пример 3.1. Управление движением автомобиля, грубо говоря, произво- производится с помощью баранки руля поворота, тормозной педали и педали, регу- регулирующей работу двигателя. Поэтому здесь управляющий параметр и так- также является трехмерным: и = {^2,^2,^3}, и\ — угол поворота баранки ру- руля. Он, очевидно, ограничен условиями —а ^ щ ^ а, а = const, 1x2 — глу- глубина погружения тормозной педали. Этот параметр удовлетворяет условию О ^ U2 ^ Ь, b = const, us — глубина погружения педали, регулирующей работу двигателя. Этот параметр также удовлетворяет условию 0 ^ щ ^ с, с = const. Таким образом, в рассматриваемом примере областью допустимых значе- значений управления является прямоугольный параллелепипед в пространстве Е3. Число подобных примеров можно увеличить. Однако и без того ясно, что при математическом описании управляемых процессов следует учитывать воз- возможность того, что область U допустимых значений управляющего парамет- параметра может быть замкнутой. В силу разнообразных требований, предъявляе- предъявляемых к управляемым системам, особо следует отметить так называемую "без- инерционность" рулей. Она заключается в том, что такие рули практически мгновенно могут переключаться с одного значения на другое, далеко отстоя- отстоящего от первого. В примере с автомобилем "руль" тормоза должен быть устроен так, чтобы тормоз в любой момент времени практически мгновенно мог быть включен на максимальное значение его тормозного усилия. Из приведенных примеров ясно, что среди всех допустимых управлений, принимающих значения в области [/, должны быть и кусочно непрерывные функции. Поэтому множество допустимых управлений в задаче может пред- представлять собой совокупность всевозможных кусочно-непрерывных функций, принимающих значения в области U С ЕТ. Число точек разрыва должно быть конечным и при этом каждая из них должна быть точкой разрыва первого рода. Поэтому функция ip(t,x) = f(t,x,u(t)) в уравнении C.4), вообще говоря, может и не быть непрерывной по t на каждом допустимом управлении. На некоторых управлениях она кусочно непрерывна по t. В итоге в силу инженерных требований, предъявляемых к системе управ- управления, задачу Коши C.3), C.4) нужно решать при условии, что (f(t,x) кусочно непрерывна по t и удовлетворяет условию Липшица по х. Практически реше- решение такой задачи может быть определено следующим образом.
3. Математическое описание управляемых систем 19 Пусть допустимое управление и = u(t), to < t < Т является скалярной кусочно непрерывной функцией с двумя точками разрыва t\ и t2i to < t\ < t2 < T (рис. 1.3.1). Тогда если в уравнении C.1) функция /(t,x,ix) непрерывна по ?, то функция </?(?, х) в урав- уравнении C.4) имеет разрывы в точках t\ и t2. Во всех остальных точках она непрерывна по t. В силу теоремы Коши, задача C.3), C.4) имеет единственное решение х = х°(?), определенное на полуинтервале to ^ t < t\. U \t? т Рис. 1.3.1 Оно, очевидно, непрерывно дифференцируемо на ука- Полагая lim x°(t) = ж1, рассмотрим задачу Коши ?—>?i —О занном полуинтервале. (± = <p(t,x) = f(t,x,u(t)), h<t<t2, \x(t1)=x1. В силу теоремы Коши эта задача имеет единственное непрерывно диффе- дифференцируемое решение х = x1(t), t\ ^ t < ?2- Полагая lim xx{t) = ж2, находим ?—>?2— О решение х (?), ^2 ^ t < Т, задачи Коши = /(*, ж, tx(t)), t2<t<T, \x(t2)=x2. Функцию (рис. 1.3.2) t <T называют решением задачи C.3), C.4) па полуинтервале to ^ t < Т. Оно, очевидно, непрерывно и на каждом из интервалов to < t < t\, t\ < t < t2 и t2 < t < T дифференцируемо, а в точках t\ и t2 имеет односторонние производные, причем производная слева не совпадает с производной справа. Таким образом, мы можем определить решение задачи Коши C.3), C.4), учитывая при этом инже- инженерные требования, предъявляемые к управляемому объекту. Однако с точки зрения математика полу- полученный ответ является неполным. Эта неполнота за- заключается в том, что задачу C.3), C.4) в замкнутой форме практически обычно решить не удается, и для построения приближений приходится использовать различные итеративные процедуры. При этом итера- итерации приходится строить не только для определения x(t), но также и для нахождения управления u(t). Последовательность построенных приближений {un(t)} должна сходиться в некоторой метрике. Поэтому естественно потребовать, чтобы выбранное множество допустимых управлений было замкнутым именно в этой мет- метрике. В частности, во многих задачах теории управления требуется, чтобы до- допустимые управления были ограниченными измеримыми вектор-функциями to Рис. 1.3.2
20 Гл. 1. Математическое моделирование управляемых систем со значениями в области U Е Ег'. Класс этих функций, как известно, явля- является замыканием множества кусочно непрерывных функций по чебышевской метрике p(u(t),v(t)) = sup \u(t)-v(t)\. В других случаях требуется, чтобы допустимые управления принадлежали классу L^to, T), т. е. множеству таких функций u(t), для которых < 00. Каждый раз при этом оказывается, что число точек разрыва у допустимых управлений может оказаться счетным. В итоге число точек "излома" решений задачи C.3), C.4) тоже будет счет- счетным. Во всех остальных точках решения этой задачи являются гладкими. До- Достаточные условия, при которых задача C.3), C.4) имеет единственное решение такого типа, даются следующей теоремой Каратеодори, которую приведем без доказательства. Теорема Каратеодори. Пусть вектор-функция (p(t,x) определена в об- области G пространства Еп+1 переменных tux, причем в каждом цилиндре а ^ t ^ Ъ, \х — х°\ ^ N из этой области при фиксированном х измерима по t, а при фиксированном t непрерывна по х, и существует интегрируемая по Лебегу функция M(t), a ^t ^b, такая, что \(p(t,x)\ ^ M(t). Тогда существует единственная абсолютно непрерывная функция х = = x(t), которая удовлетворяет начальному условию x(to) = х°, to E (а, Ь), и равенство x(t) = (p(t, x(t)) выполняется почти при ecext из отрезка а ^ t ^ Ь. Подводя итоги изложенному, можно сделать следующие Выводы. 1. При математическом анализе задач управления непрерывными система- системами с сосредоточенными параметрами допустимые управления определяются требованиями инженерной постановки задачи и математическим аппаратом, используемым при исследовании таких систем. 2. Допустимые управления и = u{t) характеризуются тем, что они должны принимать значения из некоторой заранее указанной области U С Ег, которая часто может быть замкнутой и ограниченной. Они могут быть кусочно непре- непрерывными функциями с конечным или счетным числом точек разрыва. Каждая из этих точек является точкой разрыва первого рода. Все допустимые управ- управления в каждой задаче целесообразно выбирать так, чтобы они образовали замкнутый (по некоторой метрике) класс. 3. Математическая модель должна быть такой, чтобы каждое допустимое управление однозначно определяло движение управляемого объекта, если за- задано его состояние в некоторый начальный момент времени. Завершая обсуждение вопросов математического моделирования для систем с сосредоточенными параметрами, отметим, что в случае дискретных систем (когда время t принимает лишь дискретные значения) также справедли- справедливы перечисленные выводы. Нужно лишь сделать соответствующие поправки на
3. Математическое описание управляемых систем 21 дискретность времени. В частности, для дискретных (в указанном выше смыс- смысле) систем решениями и допустимыми управлениями являются функции, опре- определенные лишь для дискретных значений аргумента, например, х = x(t), и = = u(t) ? = 1,2,... 3.2. Модель системы с распределенными параметрами. На прак- практике объекты с распредеденными параметрами приходится изучать при созда- создании и эксплуатации систем управления, включающих в себя водяные, масляные или газовые трубопроводы, высокочастотные электротехнические элементы и устройства и т. д. Как уже отмечалось в параграфе 1.1 (см. пример 1.2), управляемый про- процесс с распределенными параметрами может быть описан краевыми задачами для дифференциальных или интегро-дифференциальных уравнений с частны- частными производными или бесконечными системами обыкновенных дифференци- дифференциальных уравнений. Требования, предъявляемые к допустимым управлениям, в этом случае остаются в основном теми же, что и для непрерывных систем с со- сосредоточенными параметрами. Основные сложности в этом случае возникают при определении тех достаточных условий, при выполнении которых каждое допустимое управление определяет единственное решение краевой задачи, опи- описывающей рассматриваемый процесс. Трудность состоит в том, что классический аппарат краевых задач для уравнений в частных производных недостаточно приспособлен к исследова- исследованию задач, связанных с бесконечномерными управляемыми системами. Необ- Необходимость учета того, что множество допустимых управлений должно быть некоторым замыканием кусочно непрерывных управлений, вынуждает нас рас- рассматривать краевые задачи с неоднородными граничными условиями, причем слагаемое, определяющее эту неоднородность, принадлежит или классу огра- ограниченных измеримых функций, или пространству L^. Такие задачи в математической физике на- начали обстоятельно рассматриваться лишь в свя- связи с различными проблемами теории управле- управления. Они потребовали разработки специальных методов и доказательства новых теорем суще- существования и единственности обобщенных реше- решений краевых задач. Применение бесконечных си- систем обыкновенных дифференциальных уравне- уравнений при решении этих задач оказалось возмож- возможным лишь в простейших случаях. Однако их ис- использование также приводит к ряду сложных ; ¦-:. L > проблем существования и единственности реше- решений таких систем уравнений. рис ^ з 3 Пример 3.2. Рассмотрим систему автоматического регулирования, схема- схематически изображенную на рис. 1.3.3. Объектом регулирования является тру- трубопровод 1. Регулятор состоит из чувствительного элемента 2 (мембранный измеритель давления), усилителей 3 и 4 (струйная трубка и пневматический двигатель) и исполнительного механизма 5 (стержень 6 с закрепленным на нем клапаном). Система предназначена для автоматического регулирования давления газа в трубопроводе, который представляет собой объект с распределенными пара- I ¦>!
22 Гл. 1. Математическое моделирование управляемых систем метрами. Предполагается, что трубопровод прямолинейный, а все потребите- потребители газа сосредоточены на правом его конце. Состояние объекта характеризу- характеризуется тремя параметрами: w — скорость движения газа, р — его давление и р — его плотность. Изменение этих параметров во времени и по координате /, направленной вдоль трубопровода, описывается уравнениями dw dw 1 dp ?> 3-6 p dt dw где р° и р° — плотность и давление газа в трубопроводе, соответствующие установившемуся режиму работы системы. Дифференцируя по t уравнение C.8), получаем к(р V1 др -1 др и, следовательно, ~di = ~^\j) ~d~V где а — скорость звука в газе, определяемая формулой Рассматривая малые колебания газа, можно считать, что р/р° = 1, р/р° = = 1. Далее будем пренебрегать сопротивлением движения газа в трубопроводе, dw dp не учитывая тем самым сравнительно малые величины w -—, w —-. В итоге из уравнений C.6), C.7) и C.9) получим d^w=_^dp^ dw_ = -\_др dl p° dt' dl p°a2 dt' [ ' } Для дальнейшего анализа объекта регулирования удобно воспользоваться обозначениями о о / ф = к ^—, ip =—^—, ^=7? О < Л < 1, C.11) где ip представляет собой относительное отклонение регулируемой величины р от ее установившегося значения р°, а Л является относительной координатой вдоль трубопровода. Тогда из C.10) получаем о dib dip dip дф где To = i, 7 = —- C-13)
3. Математическое описание управляемых систем 23 Величина То представляет собой время прохождения газа по трубопроводу в установившемся режиме, а 7 — отношение установившейся скорости газа к скорости звука в нем. Исключая из уравнений C.12) переменную ф, получаем волновое уравнение Решение этого уравнения (и системы уравнений C.12)) однозначно опреде- определяется, если будут заданы соответствующие начальные и граничные условия. Если ввести обозначения: G — ежесекундный расход газа по весу, F — площадь сечения трубопровода, д — ускорение силы тяжести, то можно записать G = gpFw. C.15) Считая расход газа в начале трубопровода (Л = 0) заданной функцией, коор- координаты перемещения регулирующего клапана (см. рис. 1.3.3) можно записать так: G\x=0 = GB(x). Здесь символом Gb обозначено значение G, соответствующее началу трубы. Аналогично, через Ge обозначено значение G для конца трубы. Теми же ин- индексами будем отмечать соответствующие значения других величин. Таким образом, имеем wb = Gs/igpeF) и, следовательно, \ (дуо \ / Owb \ Л ^ (дуов \ Л wB-w0 = AwB = т^~ AGB + ^— Арв = т^ AGB + ^Арв = ^= \dGBJ \дрв/ P°gF Если учесть соотношения C.8) и C.9), то будем иметь \дрв) а2' Вновь введем безразмерную координату — "относительное" изменение коорди- координаты регулируемого клапана ? = (х — хо)/ху, где ху — условно нормальное значение х, равное г® Г/яг Согласно формуле C.13) имеем ujq = G°/(gFp°). Поэтому из C.16) имеем граничное условие в начале трубопровода: ^Рв + Фв = С ПРИ Л = 0. C-17) Расход газа в конце трубопровода, согласно формуле C.15), определяется фор- формулой GE=gpEFwE. C.18) С другой стороны, при критическом истечении газа из трубопровода выполня- выполняется равенство Ge = Qa 2g—, C.19) V VE где Q — площадь некоторого эквивалентного сечения на конце трубопровода у потребителя, рЕ и рЕ — давление и плотность газа в конце трубопровода перед
24 Гл. 1. Математическое моделирование управляемых систем его выходом к потребителю, ve — удельный объем газа. Из формулы C.18) имеем AGE = GE- Ge = Учитывая обозначения C.11), отсюда получаем G% = gFw°EApE + gpEFAwE. AGE = -± к Аналогично, из формулы C.19) находим ч>е). C.20) Учитывая, что из C.21) получаем где f(t) = AQ Q0' C.22) Сопоставляя формулы C.20) и C.22), получаем граничное условие у второго конца трубопровода фЕ = kf(t) - [ 1 - - при Л = 1. C.23) Следовательно, процесс, протекающий в трубопроводе как в объекте регу- регулирования, описывается системой уравнений в частных производных C.12) с граничными условиями C.17) и C.23). Опишем теперь процессы в управляющем устройстве. Это устройство со- состоит из следующих элементов. 1. Чувствительный элемент. Это мембрана 2 (см. рис. 1.3.3), реагирующая на отклонение давления р от его стационарного состояния р°. Полагая можно записать уравнение этого элемента в виде Т2т) + Т\Г) -\- г] = — ki^pв при Л = 0, C.24) где Ti и Т2 — постоянные. Рассматриваемый пример носит иллюстративный характер, и нас не ин- интересуют конкретные значения 7\, Т2 и к. Поэтому здесь не приводится пол- полный вывод уравнения C.24), а указываются лишь те закономерности, на осно- основании которых его можно получить. Оно получается из следующих сообра- соображений. Струйная трубка в устройстве и мембрана скреплены жесткой связью и по- поэтому их можно рассматривать как единую массу, подвешенную на пружине.
3. Математическое описание управляемых систем 25 На эту массу через мембрану действует внешняя сила, пропорциональная от- относительному изменению давления газа в трубе. Считая пружину упругой, получаем уравнение C.24). 2. Усилитель. Он состоит из струйной трубки, закрепленной на упругой пружине. Вводим обозначения (см. рис. 1.3.3) a = (Ay-Az)/yc, ( = Az/yc, где ус — условно номинальное значение величины Y. Тогда очевидно, что а = С - С C.25) 3. Пневматический двигатель. Он состоит из цилиндра, внутри которо- которого под действием перепада давления газа между верхней и нижней частями цилиндра перемещается поршень. Уравнение этого элемента (пневматическо- (пневматического двигателя), составленное на основе второго закона Ньютона, в линейном приближении аналогично уравнению C.24). Однако, учитывая большую инер- инерционность поршня и большое сопротивление (трение о стенки цилиндра), на- находим, что слагаемое со второй производной мало по сравнению с остальными слагаемыми. Поэтому уравнение такого двигателя берется в виде Т ^ = с. В заключение отметим, что конструктивно регулятор обычно выполняется так, чтобы ? = С C.26) Таким образом, полная система уравнений, описывающая процессы в рас- рассматриваемой системе регулирования, состоит из уравнения в частных произ- производных C.12) с краевыми условиями C.17) и C.23) и уравнений C.24)-C.26). Наша задача состоит в том, чтобы избавиться от уравнений в частных про- производных и тем самым попытаться упростить полученную математическую модель. Уравнение C.14), как известно, имеет общее решение <p(t, А) = Ф(? - 7Т°А) + Ф(? + 7Т°А), C.27) где ФиФ- произвольные, дважды дифференцируемые функции. Учитывая уравнения C.12), отсюда получаем ф(г, А) = - ГФ(* - 7Т°А) - Ф(* + 7Т°АI . C.28) 7 Согласно граничному условию C.17), имеем G + 1)Ф(?) + G — 1)Ф(?) = т?- Аналогично, из C.23), C.27) и C.28) следует, что к 1\ 0 / к 2 7/ \ 2 Исключая из этих уравнений функцию Ф, находим / к* i \ / т \ C.29) аФ(Ь) + ЪФ(Ь - т) = cf It - - I + 7?, C.30)
26 Гл. 1. Математическое моделирование управляемых систем где т = 27Т0, а = 7 — 1, Далее, из уравнений C.25) и C.26) получаем T°i = 0 C.31) и, согласно соотношению C.30), аФ + ЬФ(* - г) = с/ ft - T-V C.32) Подставляя значение (f(t,O) из C.27) в уравнение C.24) и учитывая C.29), будем иметь T2ii + Тхц + ц = Щ) + ЙФ(* -r)+ef(t-^\, C.33) где d = fcbG — I)? e = fccG — 1). Таким образом, совокупность уравнений C.32) и C.33) описывает процесс в системе автоматического регулирования. Эти уравнения содержат две неиз- неизвестные функции, rj и Ф. Однако функция Ф входит в уравнения не только с аргументом ?, но и с t — т. Именно поэтому уравнения такого типа называют- называются обыкновенными дифференциальными уравнениями с запаздывающим аргу- аргументом. Если каким-либо способом нам удается решить эту систему уравнений и тем самым определить неизвестные rj(t) и Ф(?), то с помощью формул C.27), C.28) и C.29) определяем функции (/?(?, Л) и -0(?, Л), а тем самым находим давле- давление р(?, Л) и плотность p(t, Л) в трубопроводе. Функция rj(t) вместе с функцией ф(г), найденной из C.31), определяют процессы, протекающие в управляющем устройстве. Рассмотренный пример иллюстрирует тот факт, что управляемый про- процесс в системе с распределенными параметрами может быть описан не только краевой задачей для уравнений с частными производными или бесконечной системой обыкновенных дифференциальных уравнений. Иногда его можно описать обыкновенными дифференциальными уравнениями с запаздывающим аргументом. 3.3. О допустимых управлениях и начальном состоянии систем с распределенными параметрами. Для изучения проблем устойчивости и оптимального управления системами с распределенными параметрами требу- требуется максимально общее и в то же время наиболее естественное определение понятия состояния системы. В случае конечномерных систем понятие состояния системы определяется достаточно просто. Если процесс в системе описывается уравнением dx — = f(t,x,u), ?>0, at где х = {xi,... ,хп}, то x(s) = {xi(s),... ,xn(s)} является ее состоянием в мо- момент времени t = 5, где х = x{t) — решение уравнения при некотором управ- управлении и = u(t).
3. Математическое описание управляемых систем 27 Для систем с распределенными параметрами понятие состояния существен- существенно сложнее. Для механических систем его удобно вводить исходя из вариа- вариационных принципов, о чем свидетельствует рассматриваемый ниже пример о поперечных колебаниях пластины. Исключительная общность этих принципов позволяет сравнительно просто распространить полученные здесь результаты и методику анализа на иные (термодинамические, электромеханические и дру- другие) системы. Пусть потенциальная и кинетическая энергия пластины определяются фор- формулами3) C-34) JJ\Tt) C-35) п где А — оператор Лапласа. Толщина пластины h, модуль Юнга Е и коэффи- коэффициент Пуассона а предполагаются постоянными. Пусть, далее, Р — действующая на пластину внешняя сила, отнесенная к единице площади ее поверхности и направленная по нормали к ней. Из формул C.34) следует, что полная энергия пластины определяется через производные ди д2и д2и д2и dt' дх2' дхду" ду2' причем требуется не только существование этих производных, но и чтобы каж- каждая из них была интегрируема с квадратом по области О,. Сама же функ- функция и(?,х,г/), определяющая величину прогиба пластины в каждый момент времени ?, должна быть непрерывной. Эти требования являются минимальными математическими ограничения- ограничениями, при выполнении которых И[и] и Т[и], определяемые формулами C.34), имеют смысл. Для определения И[и] достаточно, чтобы перечисленным тре- требованиям подчинялись указанные выше производные функции и по прост- пространственным переменным.Эти требования естественны и с позиций механики. Как показывает дальнейший анализ задачи, с математической точки зрения целесообразно считать, что интегрирование в формулах C.34) следует рас- рассматривать по Лебегу. Это придает всем вводимым понятиям достаточную общность, вполне соответствующую требованиям механики. Согласно принципу Гамильтона действительное движение пластины опре- определяется функцией и(?, х, г/), на которой функционал S= [T[u]-n[u]+Pu]dt C.36) Jt! достигает своего минимального значения при любых t\ и t^ из [to, T]. Это озна- означает, что вариация ft2 5S= [ ST[u] - SU[u] + PSu ] dt Jt! См., например: Ландау Л.Д., Лифшиц Е.М. Теория упругости. — М: Наука, 1966.
28 Гл. 1. Математическое моделирование управляемых систем функционала S должна быть равна нулю на виртуальных перемещениях 8и. При этом варьирование смещения u(t, x, у) должно выполняться в указанном выше классе функций, а вариация 5u(t, x, у) должна удовлетворять условию Su(tux, у) = Su(t2, х, у) = 0. C.37) Полагая Ф(?, ж, у) = 5u(t, x, у) и выполняя необходимые вычисления, получаем равенство4) " " ' ди дФ Eh2 C.38) которое должно выполняться для любой непрерывной функции Ф, удовлетво- удовлетворяющей условиям Ф(^1,х, г/) = Ф(^2,х,г/) = 0 и имеющей производные дФ дЧ д2Ф дЧ dt ' дх2' дх ду1 ду2 ' интегрируемые с квадратом по области Q = {to ^ t ^ Т, (ж,?/) Е ?1}. Перечисленные естественные ограничения на функцию и и ее вариацию Ф не позволяют получить уравнение колебаний пластины. Нужно еще потребо- потребовать, чтобы функция u(t, х, у) имела производные второго порядка по перемен- переменной t и четвертого порядка по переменным х и у. Эти производные должны быть интегрируемы с квадратом по области Q = {to ^ t ^ ti, (ж, у) е(]}. Если принять эти допущения, то правую часть полученного равенства можно преобразовать, используя связь между интегралом по области и ин- интегралом по ограничивающей его кривой. В итоге можно получить следую- следующее тождество (см. цитированную выше книгу Л.Д. Ландау и Е.М. Лифшица, с. 64-67) *2 *2 C.39) где I — контур, ограничивающий область О, п — направление внешней нормали к Z, в — угол меж:ду осью х и внешней нормалью к /. Моменты времени t\ и ?2 B этом равенстве могут быть произвольными. Поэтому можно положить t\ = to, а ^2 = Т, где Т — момент окончания процесса. В качестве Ф будем брать те ) Равенства такого типа называются интегральными тождествами.
3. Математическое описание управляемых систем 29 же функции, что и в предыдущем соотношении. Поэтому они удовлетворяют условиям (см. формулы C.37)) Тогда в соответствии с основной леммой вариационного исчисления функ- функция u(t,x,y) должна удовлетворять уравнению f Д2 ~ Р' (ж'у)еГ2' *о<*<Т, C.40) и граничным < дАи дп dt2 12A условиям -cr)(sin2<9 а -)д U A a)di\\ -а2) д2и дхду sin ду2 ) =0. дхду \ при (х, г/) G /, to < t < Т. Для однозначного определения функции u(t, х,г/), удовлетворяющей уравнению C.40) и граничным условиям C.41), нужно за- задать еще начальные условия: u(to,x,y) = <ро(х,у), ,у), y>i(x,y), в которых функции (fo(x,y) и (fi(x,y) должны быть такими, чтобы соот- соответствующее им решение u(t,x,y) краевой задачи C.40), C.41) имело произ- производные по ?, х и у указанных выше порядков. В теории уравнений математи- математической физики доказываются теоремы о достаточных условиях существования таких решений. Вместе с тем функция сро(х,у) определяет энергию пластины в начальный момент времени t = to. Она выражается интегралом Ii[(fo] (см. формулу C.34)). Поэтому функция Lpo{xiV) должна быть непрерывной и иметь интегриру- интегрируемые с квадратом производные дх2 ' дхду1 ду2 Однако этих условий недостаточно, чтобы функция u(t,x,y) удовлетворяла уравнению C.40) и граничным условиям C.41) в каждой точке области Q. В частности, нужно потребовать, чтобы функция tpo(x-> у) удовлетворяла гранич- граничным условиям C.41) и имела производные четвертого порядка по совокупности переменных х и у. Несколько более слабые ограничения должны быть наложе- наложены на (pi(x,y). При этих предположениях можно определить работу распреде- распределенных по пластине внешних сил Р(х, у) : J[<p]=JJp(x,y)<p(x,y)du, а затем вариационными методами найти (ро(х, у), выписывая необходимое усло- условие минимума функционала П[</?] — J[np]. Оно состоит в том, что вариация этого функционала должна быть равна нулю: 6И[ср] — SJ[cp] = 0.
30 Гл. 1. Математическое моделирование управляемых систем Следовательно, функция сро(х,у) должна удовлетворять интегральному тождеству Е"' <¦ •¦-2A-,) 12A -а2) 1 д2ср дхду дхду \1 ^ \ = 0 C.42) 2 \ от2 ш/2 ду2 ох2 ) \ ) ) при любой функции Ф из того же класса, что и </?о- От этого интегрального тождества можно перейти к уравнению с краевыми условиями, если дополни- дополнительно потребовать, чтобы функция tpo(x, у) имела интегрируемые с квадратом производные четвертого порядка по совокупности перменных х и у. В этом слу- случае интегрированием по частям получаем, что функция (ро(х, у) удовлетворяет уравнению Eh2 12A - а*) Д2Ц ~ Р = °' (ж'у)е^' C-43) и граничным условиям C.41). Таким образом, заботясь о том, чтобы функция u{t,x,y) была решением краевой задачи C.40), C.41), мы вынуждены вводить дополнительные требования к сро и <?]_, которые не являются необходимыми для определения энергии пластины в начальный момент времени. Более то- того, полученная таким образом функция u(t,x,y) при t > to имеет производ- производные второго порядка по t и четвертого порядка по пространственным перемен- переменным х и г/, которые не требуются для определения полной энергии пластины в момент времени t. Такие "излишества" определяются не физическим содержа- содержанием задачи, а обусловлены исключительно математическим методом анализа, основанным на допущениях, при которых из интегрального тождества C.38) удается получить уравнение C.40) с граничным условием C.41). Чтобы избавиться от избыточных требований гладкости функций (ро(х, г/), tpi(x,y) и u(t,x,y), характеризующих состояние пластины, очевидно, необхо- необходимо пользоваться обобщенными решениями, определяемыми непосредствен- непосредственно интегральными тождествами C.38) и C.42), соответствующими уравнени- уравнениям C.40) и C.43) с граничными условиями типа C.41). На каждом из таких решений можно определить кинетическую и потенциальную энергию и работу внешних сил. Приведенные рассуждения дают основания для введения следующего опре- определения понятия состояния колеблющейся пластины. Определение 3.1. Пару функций {(fo(x,y),(pi(x,y)} будем называть на- начальным состоянием колеблющейся пластины, энергия которой определяется формулами C.34) и C.35), если (fi(x,y) E L2(^), а (ро(х,у) непрерывна и при- принадлежит классу W^i^l) и существует функция Р(х,у) Е L/2(?l) такая, что функционал ¦*-[(&)'-(?)($)])-
3. Математическое описание управляемых систем 31 достигает своего наименьшего значения при и = (ро(х,у). Если, в частности, сро(х,у) имеет непрерывные частные производные чет- четвертого порядка по совокупности переменных х и г/, то она удовлетворяет урав- уравнению C.43) и граничным условиям C.41). Из этого определения, в частности, следует, что множество начальных со- состояний Ф(х,у) = {(fo(x,y),(pi(x,y)} пластины представляет собой линейное гильбертово пространство (обозначим его через Еи), скалярное произведение в котором можно определить по формуле Поэтому величину можно рассматривать как меру уклонения начального состояния пластины от состояния равновесия Ф = 0. Аналогичным образом определяем понятие колебания пластины. Определение 3.2. Пару функций f u(t,x,y), ^^v ' —- ) будем называть V ot ) колебательным процессом (колебанием) пластины, энергия которой определя- определяется формулами C.34) и C.35) в области Q = {to < t < Т, (ж, у) Е &}, а начальным состоянием в момент времени t = to является {cpo(xi у)-, ^Pi(xi у)}-> если cpi(x,y) E Z/2(^), а (ро(х,у) непрерывна и принадлежит классу И/21(^) и существует функция P(t,x,y) E L/2(Q) такая, что функционал C.36) достигает своего минимального значения при и = u(t,x,y) и выполняются условия u(t, х, у) - сро(х, у)]ф(х, у) dU = О, ,,) , ^ <з-44) п при любой функции ф(х,у) Е Условие C.44), можно заменить на требование, чтобы функция u(t,x,y) удовлетворяла тождеству C.38) при любой функции Ф(?, ж, г/), которая удовле- удовлетворяет условиям Ф(^1,х,г/) = Ф(Ь2,х,у) = 0 и имеет производные дФ д2Ф д2Ф д2Ф dt ' 5ж2' дхду" ду2' интегрируемые с квадратом по области О. В теории уравнений с частными производными доказывается, что введен- введенная функция u(t,x,y) принадлежит классу W2' (Q). Определив таким образом понятие колебательного процесса, можно ис- использовать величину как меру уклонения от нуля состояния процесса в момент времени t = т. Если существует начальное состояние пластины {^o(^?2/)?^i(^?2/)} такое, что функция u(t, х,г/), имеющая в области Q = {to < t < Т, (х, г/) Е ?2} непре-
32 Гл. 1. Математическое моделирование управляемых систем d2u(t,x, у) рывную производную —^ и все непрерывные производные до четверто- го порядка включительно по пространственным переменным хиу, удовлетво- удовлетворяет уравнению C.40), граничным условиям C.41), а также начальным усло- условиям ди@ х t/1 гх(О, ж, у) = ipo(x, у), -^— = ipi(x, у), C.46) то функцию u(t, х, у) будем называть классическим решением краевой зада- задачи C.40), C.41) и C.45). Отсюда, в частности, следует, что не каждое началь- начальное состояние пластины может определять классическое решение этой краевой задачи. Кроме того, чтобы решение было классическим, необходима непрерыв- непрерывность функции Р(х, г/), определяющей внешние возмущения. 3.4. Применение метода Фурье для получения обобщенного ре- решения. В теории вариационных методов математической физики доказыва- доказывается5), что краевая задача Eh2 А2 + \()(р = 0, (х,у) ей, 12A-а2) - A - a) (sin2* *Е- - sin20 ** - со,2О **) = 0, \ дхду дх2 ду2) имеет полную в 1^(^) ортонормированную систему собственных функций Хп(х,у), п = 1, 2, ... Это означает, что каждая функция Хп(х,у) опреде- определяется интегральным тождеством (при любой функции Ф G И7^(^)), в котором Лп — собственное значение, а вся система удовлетворяет условиям ортонормированности (,y) \l 10 при п Ф т. Если в некотором конкретном случае оказывается, что функции Хп(х,г/), п = 1, 2, ..., имеют непрерывные производные четвертого порядка, то Хп(ж, у) удовлетворяет уравнению C.46) при Л = Лп, т. е. справедливы тождества Eh2 д2х(, у) + Ап Хп(х, у) = 0, (ж, у) е П, п = 1, 2, ..., а также граничным условиям C.47). Как это обычно делается при решении задач методом Фурье, сначала ищем формальное решение u(t,x,y), представляя его в форме ) См., например: Михлин С.Г. Вариационные методы математической физики. — М.: Наука, 1970.
3. Математическое описание управляемых систем 33 п=оо u(t,x,y) = ^ un(t)Xn(x,y). C.49) n=l Для определения коэффициентов un(t) N-ю частичную сумму этого ряда обо- обозначим через uN(t,x,y) и подставим ее в интегральное тождество C.39). В итоге получим равенство n=1 "tl п JJ 12A — a2) [ l дх ду дх ay _ 1 /a2xn(x,i/) а2Ф a2xn(x,i/) а2Ф^ 2 V дх2 ду2 ду2 дх2 которое должно выполняться для любой непрерывной функции Ф(?,ж,?/) из W^iQ), удовлетворяющей условиям C.41). Если учесть интегральное тож- тождество C.48), то отсюда получим 4=N ±l Л ^ du дФ \ рХп(х,у)—^ — - \nun(t) Хп(х,у) Ф + Р Ф J dUdt = O, п = 1, 2, ..., N. Полагая в этом равенстве Ф(Ь,х,у) = г>т(?)Хт(ж, г/), где vm(t) — произ- произвольная непрерывно дифференцируемая функция, удовлетворяющая услови- условиям vm(ti) = vm(t2) = 0 (см. условия C.37)), получаем интегральные тождества = 0, т = 1, 2, ..., N, C.50) где Pm(t) — коэффициент Фурье функции P(t, х, г/), определяемый формулой Pm(t) = f[p(t,X,y)Xm(x,y)dn. Q Так как р — постоянный коэффициент, a t\ и t^ — произвольные точки от- отрезка [?о,Т], то непосредственной проверкой можно убедиться, что интеграль- интегральным тождествам C.50) удовлетворяют функции Um(t) = С^ COS pm(t- t0) + (?ш SHI pm(t - t0) + t I Pm(s)smpm(t-s)ds, pm = J — , m = l, 2, ..., iV, C.51) to где с^ и c^ — произвольные постоянные. Если теперь функции сро(х,у) и <^i(x, г/), определяющие начальное состояние пластины (см. определение 3.1), разложить в ряд Фурье:
34 Гл. 1. Математическое моделирование управляемых систем n=l n=l <p°n = jj у>о(я, y)Xn(x, y) dO, vl то постоянные с^ и с^ в формулах C.51) можно выбрать конкретными, пола- полагая <4 = ?>т> Ст = ^ш/Рш. C.52) Тогда, учитывая, что в формулах C.51) N - произвольное число, получа- получаем, что ряд C.49) с коэффициентами un(t), определяемыми формулами C.51) и C.52), является формальным решением, которое определяет колебание пластины. Однако с помощью вариационных методов (см, цитированную вы- выше книгу С.Г. Михлина) можно показать что этот ряд действительно является обобщенным решением, определяющим колебательный процесс. Приведенный анализ показывает, что если при описании колебательного процесса пластины исходить из предположения о том, что она обладает кинети- кинетической и потенциальной энергией, то начальное состояние процесса не следует задавать произвольными функциями. Они должны принадлежать определен- определенным классам (см. определение 3.1). То же самое относится к характеристике самого колебательного процесса. Лишь при правильном выборе этих характе- характеристик можно естественным образом определить меру уклонения пластины от ее состояния равновесия, а эта характеристика является основной в задачах устойчивости и оптимального управления. Кроме того, следует также отметить, что в рассматриваемой ситуации внешние возмущения, приложенные к пластине, также должны подчиняться определенными ограничениям. В частности, они не должны приводить к раз- разрывам пластины, т. е. обобщенные решения и(?,х, г/), определяемые интеграль- интегральным тождеством C.38), должны быть непрерывными. Этот факт необходимо учитывать при выборе класса допустимых управлений, в качестве которых мо- может выступать функция P(t,x,y). Рассмотренный пример не является исключением. Подобные выводы мож- можно получить для других систем с распределенными параметрами. Для меха- механических, электромеханических и иных подобных систем, основной характе- характеристикой которых является энергия, минимальные требования к функциям, характеризующим состояние системы, определяются энергией. Аналогичную характеристику можно дать и для систем, определяющих химические, ядер- ядерные и иные процессы. Во всех таких системах можно естественным образом ввести понятие начального состояния системы, динамического процесса и ме- меры уклонения состояния системы от ее положения равновесия. Указанные особенности систем с распределенными параметрами принци- принципиально отличают их от конечномерных систем. 4. Математические модели линейных непрерывных систем с сосредоточенными параметрами 4.1. Общая дифференциальная форма уравнений движения уп- управляемого объекта. В предыдущих параграфах при описании управляе- управляемых процессов в конечномерных непрерывных системах мы исходили из того, что уравнения движения имеют каноническую форму Коши х = /(t, х, и).
4- Математические модели линейных конечномерных систем 35 Если предположить, что процесс линеен относительно х и и, то это урав- уравнение принимает вид х = A(t)x + B(t)u + ф(Ь), D.1) где A(t) и ?>(?) — матрицы размерностей п х п и n x r соответственно, a, ijj(t) — n-мерная векторная функция. Однако при исследовании линейных управляемых процессов не всегда це- целесообразно дифференциальные уравнения высокого порядка приводить к ка- канонической форме D.1). В некоторых разделах теории управления удобно ис- использовать общую форму системы дифференциальных уравнений высокого по- порядка M(t,D)y = N(t,D)v + <p(t), D=l D.2) at где M(t, D) и iV(?, D) — полиномы относительно D (степеней k и s соответ- соответственно) с матричными коэффициентами M(t,D) = 2_^Mi(t)D\ N(t,D) = 2_^Nj(t)DJ, s < k. i=0 j=0 Число столбцов и строк у матриц Mi(t) равно п, т. е. равно размерности вектора у, а число столбцов у матриц Nj(t) равно q, т. е. совпадает с размерностью вектора v. Здесь у — век- j т тор, характеризующий координаты управляемого объ- /а а \ екта, a v — вектор управления. / / дДД \ / Пример 4.1. Рассмотрим систему, состоящую из / \ двух математических маятников длины I, соединен- mJ -у v V" ных пружиной на расстоянии а от точек подвеса *"" (рис. 1.4.1). Их точки подвеса находятся на одной и той же высоте. Маятники управляются двумя равны- ми и противоположно направленными силами v, кото- которые приложены к маятниковым грузам массы т каждый. Нетрудно показать, что уравнения системы можно записать в виде {ml26i + ka2@i — 62) + mgWi = —v, 2 - 2 D'3) ml 02 + ka @2 — 0i) + mgW2 = v. Если эти уравнения записать в форме D.2), то получим n = 2, g = l,/c = 2, 5 = 0, М ~ l -ka2 ml2D2 + ka2 mi2 0 \ ^2 , (ka2 + 7П^/ —/ca2 \ ЛГ 0 mlz / V —/caz mz Ясно, что введением новых дополнительных переменных систему D.3) можно привести к виду D.2). В частности, в рассмотренном примере это можно сделать, полагая х\ = 0]_, х2 = 0i, ^з = 02, ^4 = 02- Тогда уравнения движения D.3) приводятся к виду х = Ах + 5ix,
36 Гл. 1. Математическое моделирование управляемых систем где х = {хъ х2, ,в = {-i,i}, / о ка2 а А = ml2 О ка I \ О ка2 О ко2 О 1 °/ В дальнейшем в зависимости от конкретных условий мы будем исполь- использовать или каноническую форму уравнений движения D.1), или их общую форму D.2), имея в виду, что уравнение D.2) всегда можно привести к ви- виду D.1) путем введения вспомогательных переменных. 4.2. Операторная форма уравнений движения для стационарного процесса. Если процесс стационарен, то матрицы М и N в уравнении D.3) не зависят от t. Таким образом, в этом случае имеем at D.4) где М и N — полиномы относительно D с постоянными матричными коэффи- коэффициентами г=О j=O При этом матрицы Mi квадратные. Полином det М(Л) комплексного параметра Л называется характеристи- характеристическим полиномом системы M(D)y = 0, а уравнение detM(A) = 0 — ее харак- характеристическим уравнением. От уравнения D.4) в дифференциальной форме с нулевыми начальными условиями можно перейти к эквивалентному ему уравнению в операторной форме с помощью известного преобразования Лапласа Ф) =Р Iy(t) e~ptdt, v(t)e~ptdt. Так как оо оо р J y(t)e-pt dt = у@) + р2 J y(t)e-pt dt = y@) + рф), dtn о г=0 dt*Jt=0 то, умножая обе части уравнения D.4) на е pt и интегрируя по t полученный результат, будем иметь г=0 х ~" 7 *=0 г=0 V J t=0 Считая, что в начальный момент времени t = 0 система находилась в состоянии покоя, это уравнение запишем в виде Mip)^ = N(p)u + x(p), D.5)
4- Математические модели линейных конечномерных систем 37 где х(р) = v ( По форме уравнение D.5) совпадает с уравнением D.4). Отличие лишь в том, что операция дифференцирования D здесь заменена комплексной пере- переменной р. Его обычно называют уравнением движения объекта в операторной форме. С его помощью в теории управления вводится ряд важнейших характе- характеристик управляемого объекта и различных систем управления в целом. Здесь мы отметим некоторые из них. 4.3. Передаточная функция. Структурная схема системы. Преж- Прежде всего определим понятие передаточной функции, играющей чрезвычайно важную роль в теории управления. С этой целью уравнение D.5) разрешим относительно rj (p). В итоге получим г]{р) = Wi(p)uj(p) + W2{p)x{p), D-6) где \Уг(р) = M-\p)N(p), W2(p) = М-\р). D.7) Отсюда находим, что г](р) = \?г(р)и;(р), D.8) если в уравнении D.4) (p(t) = 0, и Ф) = W2(p)X(p), D.9) если в том же уравнении v(t) = 0. Соотношение D.8) показывает, что W\(p) представляет собой матрицу, с помощью которой из изображения и(р) управля- управляющего сигнала v(t) получается изображение rj(p) сигнала y(t) на выходе управ- управляемого объекта.При этом предполагается, что на объект не действуют другие внешние возмущения. Начальное состояние объекта также характеризуется нулевыми начальными усло- условиями. Иначе говоря, соотношение D.8) определяет зависимость в "чистом виде" сигнала y(t) от сигнала v(t). Именно поэтому W\(p) называется передаточ- передаточной функцией объекта управления (ОУ), и этот с> факт изображается так, как это указано на рис. 1.4.2. Схема, изображенная на этом рисунке, называется структурной схемой управляемого процесса (объ- (объекта или системы). Матрицы М и N в уравнениях D.4) отличаются от со- соответствующих матриц в уравнении D.5) лишь тем, что вместо аргумента р пишется аргумент D. Однако следует иметь в виду, что такая схема являет- является лишь символическим изображением зависимости, указанной на рис. 1.4.2, ибо W\(D) нельзя рассматривать как оператор, преобразующий сигнал v(t) в сигнал y(t). Объясняется это тем, что M(D) и N(D) являются полиномами относитель- относительно операции дифференцирования D = ^. Значит, элементы матрицы W(D) = = M~1(D)N(D) являются дробно-рациональными функциями относительно этой операции. W(p)
38 Гл. 1. Математическое моделирование управляемых систем Такая матрица не определяет операции над v(t). Чтобы в этом убедиться, достаточно рассмотреть "зависимость" Ее можно понимать только как зависимость между изображениями: V v(p) = 2и(р). В этом случае множитель при ио(р) имеет смысл. Он является дробно- рациональной функцией относительно комплексной переменной р. Однако, что- W(t) Щ(Р) Щр) Рис. 1.4.3 Рис. 1.4.4 ? -1 А G W, ¦ щ У Рис. 1.4.5 бы подчеркнуть тот факт, что сигналом на входе является v(t), а сигналом на выходе служит y(t), структурную схему часто имеет смысл представ- представлять в виде, указанном на рис. 1.4.3. В дальнейшем будем использовать обе схе- схемы. Первая из них указывает на то (рис. 1.4.2), с помощью какой операции из одной величи- величины получается другая. Вторая схема (имеющая символический характер) определяет в явной форме сигналы, поступающие на вход системы, и какие сигналы имеем на ее выходе. Анализ та- такой схемы делать удобнее. Возвращаясь снова к соотношению D.6), заметим, что матрица И^(р) характеризует влияние возмущения (p(t) на y(t). Так как это возмущение не является управляю- управляющим, то в дальнейших рассуждениях мы будем считать cp(t) = 0 при t > 0 и вместо D.6) будем брать соотношение D.8). Отметим простейшие свойства передаточной функции. Свойство 4.1. Передаточная функция двух последовательно соединен- соединенных объектов равна произведению передаточных функций этих объектов, т. е. если справедливы равенства (рис. 1.4.4) щ(р) = Wi(p)uj, щ = W2(p)rji(p), то r]2(p) = W2(p)Wi(p)ou(p) = W(p)ou(p)J где W(p) определяется формулой W(p) = W2(p)W1(p). Свойство 4.2. Передаточная функция W(p) системы, состоящей из п последовательно соединенных элементов, определяется формулой W(p) = Wn(p)Wn-i(p)... Wi(p), где Wi(p), г = 1,..., n, — передаточные функции элементов системы.
4- Математические модели линейных конечномерных систем 39 Доказательство очевидно, и его приводить не будем. Рассмотрим теперь замкнутую систему управления, работающую по принципу обратной связи. Ее структурная схема изображена на рис. 1.4.5. Из этого рисунка следует, что уравнения движения системы можно представить в виде (y(t)=W1(D)[<p(t)-(r(t)], \a(t)=W2(D)y(t). { • } В систему введем элемент -1, преобразующий а в —а. Это сделано лишь для того, чтобы последующие формулы имели более привлекательный вид. Исключая из системы D.10) переменную а, получим систему уравнений авто- автоматического управления, представленную в виде одного матричного уравнения [Е + W1(D)W2(D)]y = WtiDMt). Следовательно, справедливо следующее Свойство 4.3. Передаточная функция W(p) замкнутой системы автома- автоматического управления, представленной на рис. 1.4.5, определяется формулой W(p) = [E + W1(p)W2(p)]-1W1(p), где Е — матрица тождественного преобразования. Попутно рассмотрим вопрос о характеристическом уравнении замкнутой системы автоматического управления. 4.4. Характеристическое уравнение замкнутой системы. Учиты- Учитывая, что передаточные функции W\(p) и W2{p) в системе D.10) можно пред- представить в виде (см. D.7)) Wi(p) = M-1(p)Ni(p), г = 1,2, уравнениям D.10) можно придать вид N2(D)y - M2(D)a = 0. ( ' ' Полагая </?(?) = 0 и вводя новые обозначения у\ = у, у2 = сг, вместо D.11) будем рассматривать систему <Ml{D)yl+Nl{D)y2=0, \ M2{D)y2 - N2(D)yi =0. ( " } Характеристический определитель этих двух систем, очевидно, один и тот же. Операционная матрица системы D.12) имеет вид M2(D)/ Определитель этой матрицы (обозначим его через Д(М)) не изменится, если элементы второй строки умножить слева на матрицу — Ni(D)M^1(D) и сло- сложить вновь полученную строку с первой строкой. В итоге получим матрицу -N1(D)M^1(D)N2(D) О -N2(D) M2(D)y которая эквивалентна исходной матрице. Поэтому A(M(D)) = A(M(D)) = A[Mi(L>) + N1(D)M-1(D)N2(D))A(M2(D)).
40 Гл. 1. Математическое моделирование управляемых систем С другой стороны, выражение, стоящее в квадратных скобках в правой части последней формулы, можно преобразовать следующим образом: и согласно определению передаточных функций Wi(D) получаем окончатель- окончательную формулу для вычисления характеристического многочлена замкнутой системы A(M(D)) = A(Mi(L>))A[? + W1(D)W2(D)]A(M2(D)). D.13) Из нее, в частности, следует, что нулями этого многочлена являются не только нули характеристических многочленов элементов системы A (Mi) и А(М2). Могут появиться дополнительные нули, определяемые сомножителем А[Е + Wi(D)W2(D)}. В замкнутой системе блоки ОУ (объект управления) и УУ (управляющее устройство) соединены последовательно (рис. 1.4.5). Поэто- Поэтому согласно свойству 1 передаточной функции формулу D.13) можно записать в виде A(M(D)) = A(M!(D))A[E + W (D))A(M2(D)), где W(D) = W1(D)W2(D). 4.5. Переходные функции управляемой системы. В заключение этого параграфа введем еще одну характеристику линейной стационарной уп- управляемой системы, поведение которой описывается уравнением D.4). Запишем эту систему в операторной форме D.8) (т. е. с учетом нулевых начальных условий и при нулевом внешнем возмущении, cp(t) = 0). Согласно определению матрица W\(p) в соотношении D.8) имеет вид (см. D.7)) W1(p) = M^(p)N1(p). Обозначая через rai(p) присоединенную матрицу для матрицы Mi(p), бу- будем иметь р)- DЛ4) Поэтому соотношение D.8) можно переписать в виде Ф) = A(jj(p)) ™i(p)^i(p)"(p). D-15) или, в скалярной форме, где riij(p) — элементы матрицы rai(p)iVi(p), которые по построению представ- представляют собой полиномы относительно р. Таким образом, множители при ujj{p) представляют собой дробно-рацио- дробно-рациональные функции относительно р. Их оригиналы можно вычислить путем раз- разложения этих функций на простейшие дроби. Зная корни характеристического уравнения A(Mi(p)) = 0, эту операцию можно выполнить без особого тру- труда. Применяя затем теорему свертки из операционного исчисления, от равен- равенства D.15) переходим к соответствующему равенству оригиналов y(t)= / K(t-s)v(s)ds, K(t) = 0 при ?<0, D.16) Jo
4- Математические модели линейных конечномерных систем 41 где функция K(t) является оригиналом изображения 1 Функция D.16) получена при условии, что начальные условия при t = О для у и v взяты нулевыми (см. D.5)). Если же задавать такие условия при t = to, то вместо функции D.16) получим y(t,to) = / K(t — s)v(s) ds, t > to, K(t) = 0, при ? < to- Jt0 Предположим, далее, что оо [ \\K(t)\\dt< ос. to Тогда в формуле D.16) можно перейти к пределу при to —> —сю. Полагая 2/(t)=toljmoo2/(*,*o), находим t оо Г Г y(t)= / K(t-s)v(s)ds= K(s)v(t-s)ds. j j -оо О Так как по определению K(t) = О при t < 0, то оо оо Г Г y(t) = / K(t-s)v(s)ds= / K(s)v(t- s)ds. D.17) j j — oo —oo Формула D.17) определяет так называемый установившийся процесс в сис- системе D.4) при cp(t) = 0, т. е. она определяет реакцию системы на внешнее возмущение v(t) независимо от начальных возмущений у и v в момент време- времени t = to- В теории управления существенную роль играет, кроме того, так называемый переходной процесс, который определяется как решение того же уравнения D.4) при ip(t) = 0 для значений ?, близких к to, причем to является конечным. Это решение определяет динамику системы в период ее выхода на установившийся режим. Пример 4.2. Пусть объект описывается уравнением (D2 + 3D + 2J/ = (D + l)v, t>t0, D.18) с начальными условиями у (to) = у0, У (to) = у1. D.19) Требуется описать установившийся и переходной процессы. Сначала выписываем уравнение собственных колебаний объекта: у + Зу + 22/ = 0. Так как его характеристическое уравнение имеет корни г\ = —1, г2 = —2, то общее решение этого уравнения можно представить в виде „. (j-\ гч „ —(t—to) i r^ л~2(?—to) //1 огЛ
42 Гл. 1. Математическое моделирование управляемых систем где С\ и С2 — произвольные постоянные. Используя, например, метод вариации произвольных постоянных, находим частное решение уравнения D.18) Общее решение уравнения D.18) имеет вид Если же воспользоваться условиями D.19), то исключаем постоянные С\ и Съ из решения D.20) и получаем решение уравнения D.19) в виде y(t,t0) = - [ [2e-<-t-s^-3e-2<-t-s'>}v(s)ds + Jto + Bу° + у1 - v°) е-('-*> - (у0 + у1 + г;0) е^"^, D.21) где v° — значение v(t) при t = to. Эта функция определяет переходной процесс при конечных t и to, причем он имеет две составляющих. Первая из них уо(Мо) = Bу° + у1^-^) - (у0 + y^e-W-'l определяет, как говорят, собственные колебания объекта. Они описываются однородным уравнением D.12) с начальными условиями D.19). Вторая состав- составляющая представляет собой реакцию объекта на внешнее возмущение v(t) с начальными условиями y(to) = y(to) = 0. Она имеет вид (Mo) = -v° \e-^to) - е-2^-^} - Г ds. По мере того как величина t — to увеличивается (т. е. to "устРемляется" к —сю), решение D.21) все более приближается к решению, определяющему установившийся режим оо y(t) = ^lirn^ y(t, t0) = I K(t- s) v(s) ds, — OO где Функция K(t), определяемая формулой D.22), является переходной функ- функцией. Ее еще называют функцией веса или импульсной переходной функцией для рассматриваемого объекта. Приведенный пример показывает, что матричная функция K(t) в форму- формуле D.16) представляет собой некоторое обобщение известной функции Коши, с помощью которой решается задача Коши M(D)y = f(t), Di2/(to)=0) * = 0 А-1.
4- Математические модели линейных конечномерных систем 43 Как известно, решение y(t) определяется формулой y(t) = f W(t-s)f(s)ds, Jto где W(t) — матричная функция Коши. С помощью этой формулы соот- соответствующее решение уравнения D.4) при ip(t) = 0 и нулевых начальных дан- данных можно представить в виде y(t) = f W(t- s)N(Ds)v(s) ds, Ds = ^-. D.23) Поэтому если интеграл справа в этой формуле вычислить интегрированием по частям и принять нулевые начальные значения для функции v и ее производ- производных, то из формулы D.23) получим y(t)= f [N(Ds)W(t-s)]v(s)ds. Jt0 Таким образом, решение y(t) представлено в виде D.16), где K(t-s) = N(D3)W(t-s). Определение 4.1. Функция K(t), определяющая решение уравнения D.2) при (p(t) = 0 по формуле D.16), называется функцией веса системы или им- импульсной переходной функцией. Пример 4.3. Пусть управляемый процесс описывается уравнением 2 + 1 5 \(У1 О D + 2j{y2 Требуется построить функцию веса K(t). Если это уравнение записать в форме D.4), то будем иметь Сначала воспользуемся аппаратом операционного исчисления. Так как +1 то D2 -AD-7 3-D где (X) (X) Vi(p)=pfyi(t)e-ptdt, wk(p) =p J vk{t)e-ptdt. о о
44 Гл. 1. Математическое моделирование управляемых систем Таким образом, = д [(Р2 - 4р - 7)ол - (р - 3)w2 + Bр + 4)w3], [C +2 + Отсюда находим, что 1 4 \ / 1 р-1 J + U Используя теорему свертки, получаем yi( J + (sin(t-s) -cos(t-s) +e(*"s) \v2(s) + 2v3(s) sin(t - s) l(s)l(t - s) ds, (t) = J Г^-48т(* - 8) (t) = J y2(t) = -s)- - s)ds, где S(t) — функция Дирака, а 1 при t> О, О при t < О. Таким образом, функция веса K(t) в рассматриваемом примере имеет вид e-2t _ 4sint sin t — cost — e~2t 2 sin A _e-2t 0 I, t>V, где 0 — нулевая матрица. 5. Основные характеристики переходных процессов в управляемых системах В предыдущем параграфе были введены характеристики систем управле- управления — передаточные и переходные функции. С их помощью можно определять реакцию системы на те или иные внешние возмущения. Иначе говоря, зная эти функции, можно найти решение системы, описывающей процесс при конкрет- конкретных управлениях и заданных начальных условиях. Здесь этот вопрос рассматривается более детально. Вводятся дополнитель- дополнительные характеристики, которыми удобно пользоваться при анализе реакции си- системы на гармонический входной сигнал.
5. Характеристики переходных процессов в управляемых системах 45 5.1. Частотные характеристики. Пусть управляемая система описы- описывается уравнением M(D)y = N(D)v, E.1) где M(D) — матрица размерности п х n, a N(D) — матрица размерности пхт, причем каждая из них является полиномом относительно D (см. D.4)). В соответствии с формулой D.14) передаточную функцию этой системы можно представить в виде W(D) = J где A(D) — характеристический полином системы, L(D) — присоединенная матрица для матрицы M(D). Пусть, далее, сигнал на входе в систему имеет вид v(t) = A cos out = -A(elu;t + e~iujt), E.2) где А — m-мерный постоянный вектор. Тогда исходное дифференциальное уравнение E.1) принимает вид M(D)y = \N(D)A(eluJt + e~luJt). E.3) Если ги не является корнем характеристического уравнения А(р) = 0, то уравнение E.3) имеет частное решение y(t) = ^(B1eMt+B2e-i"t), E.4) где векторы В\ и В^ можно определить непосредственной подстановкой функ- функции E.4) в уравнение E.3). Так как M(D)eiwtA = M(iu)Aeiw\ то эта подстановка дает y(t) = - [W(iout)Aelu;t + W(-iout)Ae-lu;t] E.5) и, следовательно, В\ = W(iu)A, B2 = W(—iu)A. Функцию E.5) удобно записать в скалярной форме I ш yq(t) = -^№и(ш)А,е™г +wqj(-iw)Aje~iu't], q = 1, 2, ..., п. E.6) Каждую комплекснозначную функцию wqj(iui) вещественной переменной со можно представить в виде wqj(iou) = Rq3(uj)e^^\ q = 1, 2, ..., n, j = 1,..., m, E.7) где Rqj = Rqj(ou) является модулем этой функции, a i/jqj(ou) — ее аргументом. Матричная функция R(u) с элементами Rqj(uo) называется амплитуд- амплитудной частотной характеристикой системы (АЧХ), матрица Ф(о;) с элемента- элементами ijjjk{oo) — ее фазовой частотной характеристикой (ФЧХ), (ФЧХ), a {wqj(iou)} — амплитудно-фазовой частотной характеристикой (АФЧХ). Полагая, далее, wqj(iuo) = Pqj{uj)JriQqj{uoI получаем еще две характеристи- характеристики: Pqj(oj) — действительная частотная характеристика, Qqj{uo) —мнимая частотная характеристика.
46 Гл. 1. Математическое моделирование управляемых систем Отметим, что все введенные в настоящем параграфе характеристики, опре- определены аналитически на основе математического описания. Однако их можно определить путем непосредственного измерения сигналов на выходе из систе- системы управления при подаче специальных сигналов на ее вход. Делается это следующим образом. Сигнал E.2), поступающий на вход системы, выберем так, чтобы компо- компоненты А\,..., Ап имели вид А\ = 1, А^ = ... = Ап = 0. Тогда функции E.6) на выходе будут иметь вид yq = \ [wql(iou)elujt + wql(-iou)e-lujt], q = 1, 2, ..., п. Учитывая формулу E.7), отсюда получаем Уд = RQi(w) cos[cjt + i/>qi(u)], q = 1, 2, ..., п. Этот сигнал на выходе из системы легко измеряется и, следовательно, функции Rqi(uj) и ijjqi(cj) можно вычислить по замеренным значениям yq(t) при различных значениях параметра ии. Аналогично, полагая А\ = 0, А2 = 1, As = ... = Ап = 0, вычисляем Rq2{oj) И фд2(ш) И Т. Д. В итоге, согласно формуле E.7), находим все элементы матрицы W(iu). Тот факт, что матрицу W(iuS) можно вычислить экспериментально, яв- является принципиальным в теории управления. В ряде случаев полное анали- аналитическое описание отдельных звеньев системы или значения их параметров получить не удается, хотя известно, что эти звенья описываются линейными дифференциальными уравнениями с постоянными коэффициентами. 5.2. Логарифмическая частотная характеристика. В том случае, когда управляемая система является одномерной, используется еще одна ха- характеристика, которая вводится следующим образом. Пусть дана одномерная управляемая система f(D)y = g(D)v, E.8) где f(D) и g{D) — скалярные полиномы, определяемые по формулам f(D) = a0Dk + ахВк-х + ... + ak^D + ak, g(D) = b0Dl + b.D1'1 + ... + b^D + bh где ai и bj — вещественные постоянные. Передаточную функцию этой системы запишем в виде w(D) = kowo(D), E.9) где fc0 = —• При v(t) = l(t) дифференциальное уравнение E.8) имеет реше- ние y(t) = fco- Таким образом, fco представляет собой реакцию системы E.8) на единич- единичный сигнал. Поэтому коэффициент fco называется коэффициентом усиления разомкнутой системы управления. Записывая функцию w(iou) в виде w(iou) = R{u)e%^u\ легко находим, что (см. формулу E.9)) R{uo) = fcoi^o(^)? -Ro(^) — |^о(^)|- Отсюда, логарифмируя, получаем \gw(iu) = lgfco + \gRo(w) + гф(п)).
6. Типовые элементы систем и их характеристики 47 Логарифмической амплитудной частотной характеристикой будем на- называть функцию L(uj) = 201gi?(cj), а функция ф(и) = SiTgw(iuj) называется логарифмической фазовой частотной характеристикой. 6. Типовые элементы систем автоматического регулирования и их характеристики Наиболее распространенные элементы систем автоматического управления описываются линейными обыкновенными дифференциальными уравнениями. Эти элементы обычно входят как составные части в различные измеритель- измерительные и управляющие устройства. Поэтому их описание и анализ представляет определенный интерес для специалистов по теории управления. 6.1. Стандартные формы уравнений звеньев систем управления. При описании переходных процессов в различных звеньях системы обычно придерживаются определенных стандартов, чтобы облегчить анализ системы. Эти стандарты состоят в следующем. 1) Уравнения звеньев записываются в скалярной форме и соответствую- соответствующими преобразованиями приводятся к одному уравнению, чтобы сигнал на выходе объекта был скалярной величиной. 2) Линейные дифференциальные уравнения записываются так, чтобы сиг- сигнал на выходе объекта и его производные находились в левой части уравнения, а остальные члены — в правой части. Кроме того, принято, чтобы сам сигнал на выходе имел в уравнении коэффициент, равный единице. Таким образом, стандартное линеаризованное уравнение непрерывного зве- звена имеет вид E$Z>S Т0=0, F.1) г=0 j=0 где и — управляющее воздействие, а функция f(t) характеризует неконтроли- неконтролируемые внешние возмущения. Коэффициенты fco,..., ^m+ъ называются коэф- коэффициентами передачи, а То,..., Тп — постоянными времени. Так как каждое звено является элементом системы, то в уравнении F.1) в качестве и может выступить сигнал на выходе из предыдущего элемента системы (рис. 1.6.1). Термин "коэффициент передачи" можно пояснить следующим образом. На вход звена подадим сигнал и = const при условии, что f(t) = 0. Тогда уравне- уравнение F.1) имеет решение х = к$и. Поэтому _ коэффициент fco представляет собой отноше- отношение сигнала на выходе к сигналу на входе в установившемся режиме. Второй стандарт- стандартной формой линеаризованных уравнений яв- и ляется представление связи сигналов на входе и выходе объекта через пере- передаточные функции (см. параграф 1.4, п. 2). При этой форме не обязательно добиваться того, чтобы в уравнении звена сигналом на выходе была скалярная величина. 6.2. Типовые звенья систем управления. В настоящее время прак- практика конструирования систем накопила достаточно богатое количество раз- разнообразных типовых звеньев систем управления. Поэтому не представляется
48 Гл. 1. Математическое моделирование управляемых систем возможным дать их более или менее подробный анализ. Ограничимся лишь их краткой характеристикой, имеющей непосредственное отношение к математи- математическому моделированию систем. Прежде всего отметим, что все звенья делятся на три большие группы: а) позиционные, в) интегрирующие и с) дифференцирующие. Эта классифика- классификация основана на типе тех уравнений, которыми описывается переходный про- процесс. Функция f(t) в уравнении F.1) не определяет тип звена. Поэтому в даль- дальнейшем полагаем f(t) = 0. 1) Позиционные звенья. Звенья такого типа описываются дифференциаль- дифференциальным уравнением F.1), в правой части которого т = 0. Простейшие из этих звеньев: а) безынерционное звено (п = 0) х = б) инерционное звено первого порядка (п = 1) Т\х + х = кощ в) звено апериодическое второго порядка (п = 2) Tl'x + Тхх + х = kou, Ti > 2Т2; F.2) г) колебательное звено второго порядка (п = 2) Т%х + Т1х + х = кощ Ti < 2T2. F.3) Передаточной функцией инерционного звена является W{D) = fco. Пере- Передаточная функция апериодического звена первого порядка имеет вид W(D) = ^. F.4) Звенья второго порядка различаются лишь тем, какие корни имеет харак- характеристическое уравнение однородного дифференциального уравнения Tl'x + Т\х + х = 0. F.5) Для апериодического звена оно имеет два вещественных корня. Положим т т2 Тогда уравнение такого звена можно записать в следующей операторной фор- форме: (Т3°?> + 1) (T4°L> + 1)х = кои. Следовательно, Это означает, что апериодическое звено второго порядка F.2) эквивалент- эквивалентно системе, образованной последовательным соединением двух апериодических звеньев первого порядка с передаточными функциями (см. F.4)) w Для колебательного звена второго порядка F.3) характеристическое уравне- уравнение соответствующего однородного уравнения F.5) имеет пару комплексно
6. Типовые элементы систем и их характеристики 49 сопряженных корней, и поэтому оно не эквивалентно паре последовательно соединенных апериодических звеньев первого порядка. Его передаточная функция имеет вид Частным случаем такого звена является так называемое консервативное звено (Т\ = 0). Характеристическое уравнение в этом случае имеет лишь чисто мнимые корни. 2) Интегрирующие звенья. Главная их особенность состоит в том, что диф- дифференциальное уравнение, описывающее процесс, содержит производные от сигнала на выходе и не содержит самого сигнала: ^ l dt% ^ 3 dP 1=1 j=0 Простейшими звеньями такого типа являются: а) идеально интегрирующее звено х = кощ б) интегрирующее звено с замедлением Тх = кощ в) изодромное звено х = к$и + к\й. Характеристическое уравнение для всех этих звеньев имеет один нулевой корень. Передаточные функции для этих звеньев имеют вид щу соответственно. 3) Дифференцирующее звено. Звенья такого типа описываются уравнением вида F.1), и основная их особенность состоит в том, что в F.1) коэффициент fco равен нулю. Простейшие из них следующие: з)идеально дифференцирующее звено; х = к\щ б)дифференцирующее звено с замедлением Т\х + х = к\й. Их передаточные функции определяются формулами W1(D) = k1D, W2{D) = Y-^T-V соответственно. 6.3. Заключительные замечания. Анализируя простейшие звенья систем управления, мы ограничились тем, что указали уравнения, описыва- описывающие процессы в них, а также соответствующие передаточные функции. По- Получение других характеристик таких звеньев (фазовые характеристики, им- импульсные передаточные функции и т. д.) не представляет больших трудностей. Их можно выписать по известным формулам (см. параграф 1.4 п. 5 и пара- параграф 1.5). Для этих целей можно также использовать учебники и учебные по- пособия по теории автоматического регулирования, предназначенные для студен- студентов инженерных специальностей, где эти характеристики не только выводятся, но и тщательно анализируются. Отметим, что приведенная классификация простейших элементов систем управления не является единственной. Она опирается на форму дифференци- дифференциальных уравнений, описывающих процессы в этих элементах. Однако предпо- предполагается, что эти уравнения являются обыкновенными дифференциальными.
50 Гл. 1. Математическое моделирование управляемых систем Для полноты такой классификации приведенные уравнения, очевидно, следу- следует дополнить уравнениями с запаздываниями, с частными производными и уравнениями в конечных разностях. Соответствующие элементы часто встре- встречаются в реальных системах и называются элементами с запаздыванием или с распределенными параметрами. Другие классификации элементов исходят из иных свойств (устойчивость, линейность, нелинейность и т. д.). 7. Качество систем автоматического регулирования В этом параграфе рассматривается система автоматического регулирова- регулирования, т. е. система управления, которая, во-первых, работает по принципу об- обратной связи, во-вторых, работает автоматически (без участия человека) и, в- третьих, предназначена для поддержания стационарного уровня регулируемой величины. Предполагается, что на систему действуют некоторые возмущения, в результате чего регулируемая величина x(t) в некоторый момент времени (его выбираем за начало отсчета t = 0) не совпадает с требуемым стационарным его состоянием хс. Величина Ах = x(t) — xc называется ошибкой системы. Для ее характеристики используются разнообразные показатели. Они опре- определяют качество переходного процесса. Некоторые из них приводятся в насто- настоящем параграфе. Остальные рассматриваются в последующих главах. Современные методы анализа качества переходных процессов в системах управления вообще, а в системах автоматического регулирования в частности, можно разделить на две группы. К первой группе относятся прямые методы оценки качества, основанные на непосредственном решении уравнений движе- движения и их последующем анализе. Ко второй группе относятся косвенные мето- методы. В их основе лежат разнообразные косвенные характеристики описываемого процесса (распределение полюсов передаточной функции, свойства частотных характеристик и т. д.). Те и другие методы нашли широкое применение на практике. Однако здесь их рассматривать не будем, а ограничимся анализом показателей качества пе- переходного процесса и вычислением ошибок системы. 7.1. Характеристики качества систем автоматического регулиро- регулирования. С позиций специалиста по теории автоматического управления ка- качество системы регулирования определяется главным образом свойствами его переходного процесса. Именно с этих позиций будем рассматривать систему регулирования. Чтобы характеристики были достаточно наглядными, ограни- ограничимся случаем, когда регулируемая величина х является скалярной, а на вход системы подается скачкообразный сигнал 1 при t > 0, 0 при t<0. Тогда, не нарушая общности, можно считать, что х@) = 0, а желаемым стаци- стационарным состоянием системы является хс = а = const. В процессе функционирования системы ее сигнал на выходе x(t) изменяет- изменяется и определяет на плоскости tOx некоторую кривую (рис. 1.7.1), исходящую из начала координат. Так как назначение системы состоит в поддержании сигна- сигнала х вблизи состояния х = а, то параметры системы должны быть выбра- выбраны так, чтобы выполнялось неравенство \x(t) — а\ < ?, начиная с некоторого момента времени t = Т.
7. Качество систем автоматического регулирования 51 Величина е обычно задана и характеризует допустимое отклонение сигна- сигнала x(t) от желаемого его стационарного состояния, а Т является одной из ха- характеристик переходного процесса и называется временем переходного процес- процесса. В ряде случаев оказывается, что выход объекта на заданное стационарное состояние происходит путем "перехода" величины x(t) через х = а (рис. 1.7.1). 2е а Рис. 1.7.1 Рис. 1.7.2 Максимальная величина получаемого отклонения называется перерегули- перерегулированием. На рис. 1.7.1 она обозначена через S. Величина ?/жтах называется величиной перерегулирования. Если переходной процесс определяет кривую х = x(t) вида, изображенного на рис. 1.7.2, то 5 = 0. В этом случае величина x(t) не достига- достигает желаемого стационарного состояния, хотя и приближается к нему асимптотически. Переходной процесс называется колеба- колебательным, если при скачкообразном воз- воздействии на систему сигналом y(t) = l(t) пере- переменная x(t) при изменении t от 0 до Т несколь- несколько раз отклоняется в обе стороны от желаемо- желаемого стационарного состояния (рис. 1.7.1, а). В отличие от него процессы, изображен- изображенные на рис. 1.7.1, б и рис. 1.7.2, неколебательные, причем последний из них является монотонным. В частности, если затухание колебательного процесса можно описать формулой x{t) — хс = Ae~at cos(out + ф), то величина d = аТ называется логарифмическим декрементом затухания, а величина /х = со/а — степенью колеблемости. 7.2. Ошибки системы. Приведенные характеристики переходного про- процесса предназначены для оценки его качества, определяемого в конечном счете свойствами ошибки системы 5х = x(t) — xc. В ряде случаев оказывается полез- полезным давать различные оценки величины 5х и с их помощью характеризовать качество переходного процесса. Такие оценки могут быть достаточно разнообразными, однако широкое распространение в теории автоматического управления получили различного рода интегральные оценки.
52 Гл. 1. Математическое моделирование управляемых систем Оценки такого типа оценки определяются с помощью интегралов, в кото- которых подынтегральные функции выбираются так, чтобы получаемое интеграль- интегральное выражение характеризовало качество переходного процесса и достаточно просто вычислялось в каждом конкретном случае. Если внешнее возмущение задается сту- ступенчатой функцией 1(?), а сигналом на выходе является скалярная функ- ция x(t), то разли- различие между хс и x(t) можно характеризовать линейной интегральной ошибкой ГТ JT = I \x(t) - xc] dt. -I Она определяет площадь фигуры, ограничен- ограниченной линиями х = x(t) и х = хс (рис. 1.7.3 и Рис. 1.7.3 рис. 1.7.4). Величина этой площади зависит и от времени Т переходного процесса, и от фор- формы кривой х = x(t). Если при этом процесс описывается линейным дифферен- дифференциальным уравнением dnx dx то величина интегральной ошибки в конечном счете зависит от коэффициентов этого уравнения и от момента времени Т окончания переходного процесса. При этом, очевидно, предполагает- предполагается, что все корни характеристическо- характеристического уравнения имеют отрицательные ве- вещественные части, т. е. решение урав- уравнения G.1) обладает свойством lim \x(t) - II2 =0. В силу этого свойства величина Зт незначительно отличается от интегра- интеграла Рис. 1.7.4 J= / (*(*)- JO l)dt. Значит, вместо критерия Jt можно брать J. Такая подмена критерия оказы- оказывается достаточно привлекательной, поскольку величину интеграла J можно вычислить непосредственно через коэффициенты а&, не решая дифференци- дифференциального уравнения G.1). В самом деле, полагая у = х — 1, уравнение G.1) преобразуем к виду dny dn~1y G.2) а интегральная ошибка J принимает вид ОО Jx= fy(t)dt. о
7. Качество систем автоматического регулирования 53 Пусть, далее, решение y(t) удовлетворяет начальным условиям 3/@) =з/о, -.., У{п~1)=Уп-1. G-3) Так как корни характеристического уравнения aoXn-\-aiXn~1-\-.. . + 1 = 0 имеют только отрицательные вещественные части, то лп-1 lim y(t) = 0, ..., lim f = 0. G.4) Из уравнения G.2) находим oo oo T / /_l\ 1-L 1 / \ a У . . ""У ^i — / 2/W ^ = / ao~7 г • • • + ап_1 — J Gin J I dtn dt о о ^_ d |/ G K\ dfi I (IT/ J i r» Учитывая условия G.3) и G.4), получаем Таким образом, критерий G.6) определяется параметрами уравнения и на- начальными данными G.3) и не содержит самого решения задачи G.2), G.3). Полученная формула может служить основой для выбора параметров системы, оптимизирующих интегральную ошибку при заданных ограничениях на эти параметры и на начальное состояние системы. Аналогичный результат можно получить и для интегральной квадратич- квадратичной ошибки оо J2 = Jy\t)dt. 0 Делается это следующим образом. Пусть процесс описывается уравнением второго порядка с постоянными коэффициентами аоу + агу + а2у = 0, G.7) причем любое его решение y{t) удовлетворяет условиям lim y(t) = lim y(t) = 0. t—>oo t—>oo Пусть, далее, 2/@) =2/o, 2/@) = 2/1- Подставим решение y(t) в уравнение G.7) и, умножая почленно полученное тождество на y(t) и y(t), будем иметь оо Ь) (ЛЬ — U, G-8 y(t)y(t) dt + сы y(t)y(t) dt + a2 y\t) dt = 0, 0 0 0 oo oo oo J y(t)y(t) dt + aif y2(t) dt + a2f y{t)y{t) dt = 0. 0 0
54 Гл. 1. Математическое моделирование управляемых систем Полагая ОО О из уравнений G.8) получим a2J2 ~ a0J3 = аоуоуг + - г ¦ -2 1 aiJ3 = 2 Отсюда находим Полученной формулой можно воспользоваться с целью выбора парамет- параметров ао, «1 и п2 (в допустимых пределах), на которых минимизируется инте- интегральная квадратичная оценка. Другие показатели качества переходного про- процесса при этом в расчет не принимаются. Если же требуется учесть ограни- ограничения и на эти показатели, то приходится рассматривать задачу на условный экстремум. Такого типа задачи часто возникают при конструировании конкретных систем. Поэтому методы анализа и улучшения качества системы по различным критериям занимают значительное место в теории автоматического регулиро- регулирования и управления. 7.3. Инвариантные системы. Разнообразные характеристики качества переходных процессов, рассмотренные в настоящем параграфе, относятся к процессам, порожденным либо начальными, либо постоянно действующими возмущениями. Если процесс описывается линейными уравнениями и характеристическое уравнение имеет корни только с отрицательными вещественными частями, то влияние начальных возмущений сравнительно быстро затухает, и система про- продолжает функционировать исключительно под влиянием постоянно действую- действующих внешних воздействий. Эти воздействия (или отдельные их компоненты) зачастую ухудшают качество процесса, и с их влиянием приходится бороться. Некоторые из способов устранения таких влияний предлагает теория ин- инвариантности. Определение 7.1. Система автоматического регулирования называется инвариантной по отношению к внешнему воздействию, если после заверше- завершения переходного процесса, определяемого начальными условиями, регулируе- регулируемая величина системы не зависит от этого воздействия. Сначала дадим математическое описание инвариантной системы. Пусть y(t} = x(t) — х1 — ошибка системы, и ее изменение во времени описывается линейным дифференциальным уравнением L(D)y = M{D)ip{t), G.9) где L(D) и M(D) — скалярные полиномы, а Lp{t) — функция, характеризующая постоянно действующее внешнее возмущение.
7. Качество систем автоматического регулирования 55 Полагая ОО ОО = J y(t)e~pt dt, ф) = J V{t)e~pt dt, о о и считая нулевыми начальные данные для уравнения G.9), получаем М(р)А(р) _, . А{р) при Ф) = Жр)- GЛ0) Отсюда следует, что решение уравнения G.9), определяемое исключитель- исключительно внешним воздействием, будет тождественно равным нулю в одном из сле- следующих случаев: 1) А(р) = 0; 2) М{рА{р)) = 0. В первом случае внешнее возмущение отсутствует, так как из того, что А(р) = 0, вытекает, что (р(р) = 0 и, следовательно, (p(t) = 0. Этот случай тривиален и не представляет интереса. Во втором случае cp(t) ф 0. Однако при этом, согласно формуле G.10), выполняется равенство у(р) = 0, а значит, решение уравнения G.9) с нулевы- нулевыми начальными данными тождественно равно нулю, хотя внешнее возмущение отлично от тождественного нуля. Это случай абсолютной инвариантности системы по отношению к постоянно действующему возмущению. Тип возму- возмущающих функций при этом (с учетом некоторых естественных ограничений) может быть произвольным. Аналогичным образом можно также определить системы, инвариантные по отношению к внешним возмущениям определенного типа. В самом деле, пусть pf1, г = 1,...,/, — нули полинома М(р), а р?, j = = 1,..., /с, — нули полинома В(р). При этом предполагается, что каждый нуль выписан столько раз, какова его кратность. Тогда = m(p-pf)...(p-pfI) Ь{р) Ь(р-р?)-...-(Р-рву Если некоторые из чисел pf1 совпадают с числами из системы {pf}, то вместо формулы G.10) будем иметь w GЛ1) где М\(р) и В\{р) получаются из М(р) и В(р) соответственно после сокращения на общие двучлены (р — р^) и (р — p^f). В итоге такой операции мы получа- получаем, что число нулей функции L(p)Bi(p) в формуле G.11) меньше, чем число нулей функции L{p)B{p) в формуле G.10). Это означает, что в оригинале y{t) функции G.11) будут отсутствовать слагаемые вида соответствующие сокращенным двучленам р — pf'. Относительно таких слага- слагаемых система оказывается инвариантной. Внешние возмущения другого типа влияют на поведение системы. Именно поэтому систему такого типа называют частично инвариантной.
56 Гл. 1. Математическое моделирование управляемых систем 8. Применение операторных уравнений Известно, что при решении многих математических задач алгебраические, дифференциальные и иные уравнения записываются в операторной форме. Это позволяет избегать излишней детализации в анализе рассматриваемых уравне- уравнений и получать максимально общие результаты в решении уравнений, которые можно представить в такой форме. Однако операторные уравнения представ- представляют не только теоретический интерес. В теории управления ими целесообраз- целесообразно пользоваться для того, чтобы применять аппарат функционального анали- анализа для исследования различных свойств решений таких уравнений и краевых задач, которыми описан тот или иной класс управляемых систем. Это дости- достигается тем, что рассматриваемое уравнение (система уравнений) или краевая задача представляется как операторное уравнение в некотором функциональ- функциональном пространстве. Такой способ описания имеет свои достоинства. Особенно часто операторные уравнения используются при решении задач в теории управления системами с распределенными параметрами6). В этой главе ограничимся описанием некоторых управляемых процессов с помощью опера- операторных уравнений с тем, чтобы в последующих главах использовать такие уравнения при решении различных задач теории управления. Анализ рассматриваемых здесь проблем начнем с описания краевых задач для уравнений математической физики, которые в терминах функционально- функционального анализа можно рассматривать как операторные уравнения. В ряде случаев можно использовать аппарат банаховых пространств В. При этом в качестве элементов В зачастую целесообразно брать линейные операторы, определяе- определяемые краевыми задачами математической физики. В других случаях достаточ- достаточно ограничиться гильбертовыми пространствами. Поэтому сначала напомним некоторые определения и факты из теории операторов, относящиеся к урав- уравнениям математической физики и необходимые в дальнейшем как при рас- рассмотрении теоретических вопросов, так и, особенно, при анализе различных примеров. 8.1. Краевые задачи и операторы. Начнем с описания процессов, в которых искомые величины не изменяются с течением времени. Характери- Характеризующие их функции зависят только от пространственных координат. В линей- линейном приближении такие процессы обычно можно описать уравнениями эллип- эллиптического типа с граничными условиями первого, второго или третьего рода. Простейшим из таких уравнений является уравнение Лапласа относительно функции u(x,y,z) Типичные граничные условия для него имеют вид: и du s = f(x, у, z) (условие третьего рода), dn f du l— + hu d s = f(x, у, z) (условие Дирихле), (8.2) = f(x,y,z) (условие Неймана) (8-3) l \dn s ) См., например: Балакришнан А.В. Прикладной функциональный анализ. — М.: На- Наука, 1980.
8 Применение операторных уравнений 57 где S — граница области G, а функция / характеризует влияние внешней среды на рассматриваемый процесс. В других случаях уравнение и граничные условия могут быть более слож- сложными. Уравнения могут быть более высокого порядка, как это имеет место при описании изгиба пластин и балок. Изгиб пластины можно описать уравнением четвертого порядка A2u = f(x,y), (x,y)eD, где А — оператор Лапласа, и(х, у) — величина прогиба пластины в точке (ж, у). Если при этом края пластины жестко закреплены, то этот факт математически определяется граничными условиями . N ди ди / \ ^ / ч и(х,у) = — + — =0 при (x,y)eS, (8.5) где S — граница области D. Если края пластины свободно оперты, то вместо (8.5) следует брать гра- граничные условия ди и = 0, Аи + а —— = 0 при (ж, у) Е S, где а — некоторая постоянная, a v — внешняя к D нормаль в точке (ж, у) Е S. В более сложных ситуациях процесс удобно описать краевыми задачами для систем уравнений в частных производных. Однако пока эти случаи рас- рассматривать не будем. С каждой краевой задачей математической физики можно связать некото- некоторый оператор —оператор краевой задачи, действующий в подходящем функци- функциональном пространстве. Этот оператор выбирается так, чтобы краевую задачу можно было бы записать в виде одного уравнения Ли = /, (8.6) где Л — оператор краевой задачи, ии f — элементы выбранного функциональ- функционального пространства. Наиболее просто эту процедуру получения уравнения (8.6) можно выполнить для краевой задачи Дгх + /(Р)=0, Ре Д (8.7) u(P)\s=0. (8.8) Здесь D — область в n-мерном евклидовом пространстве, Р — переменная точка этой области, a S — ее граница. Заданная функция f(P) предпола- предполагается непрерывной в замкнутой области D = D + S. Введем в рассмотрение пространство непрерывных функций7) (D). Очевидно, что функция f(P) принадлежит этому пространству. Обозначим через М множество функций из L2{D), обладающих следующими свойствами. 1. Они непрерывны в D вместе со своими первыми и вторыми производ- производными. 2. Они обращаются в нуль на границе S. ) В рассматриваемой ситуации выбор пространства непрерывных функций не являет- является принципиальным. Вместо него можно взять Lp(D) или какое-либо другое пространство функций. Однако в дальнейшем при рассмотрении часто встречающегося в теории управ- управления уравнения Риккати в функциональных пространствах базовое пространство должно быть банаховой алгеброй.
58 Гл. 1. Математическое моделирование управляемых систем На множестве М зададим оператор Д, определяемый формулой Ли = -Аи. (8.9) Ясно, что задачу (8.7), (8.8) можно записать в виде (8.6). Аналогично можно строить операторы и выписывать соответствующие опе- операторные уравнения для других краевых задач, если их краевые условия однородны. В случае неоднородных краевых условий эта процедура несколь- несколько усложняется. Один из путей использования операторного представления краевой задачи в этом случае основан на том, что сначала ищется функция (/?°(Р), которая определена и непрерывна на D, внутри области D имеет непре- непрерывные вторые производные, а на границе S удовлетворяет неоднородному граничному условию рассматриваемой краевой задачи. Например, если речь идет об уравнении (8.7) (при п = 3) с краевым усло- условием (8.2), то эта вспомогательная функция <р°(Р) должна обладать свойством <p°(P) = f(P) при PeS. Кроме того, она должна быть достаточно гладкой. Это последнее требование обычно весьма обременительно в задачах теории управления. Вводя затем замену переменной v = u-<p°(P), приходим к тому, что функция v должна удовлетворять однородной краевой задаче (8.7), (8.8), которую можно представить в виде операторного уравне- уравнения (8.9). Пример 8.1. Рассмотрим обыкновенное дифференциальное уравнение Г (р(х)г) + r(x)u = /(*)> a<x<b, (8.10) ах \ ах ) с краевыми условиями (auf(a)-f3u(a) = k, где се, /3, 7> S, к, I — постоянные. Сначала определяем функцию (р°(х), удовлетворяющую неоднородным граничным условиям (8.11). Считая, что а5 -\- f3j ^ 0, в качестве ср°(х) берем полином <p°(x)=px + q. (8.12) Подставляя этот полином в условия (8.11), получаем систему уравнений от- относительно коэффициентов р и q. Ее определитель отличен от нуля. Поэтому функция (8.12) определяется однозначно. Теперь вводим замену v = и — <ро(х). В результате вместо (8.10), (8.11) получаем краевую задачу с однородными граничными условиями: av'la) -Cv(a) = 0, jv'(b)+ 6v(b) = 0, [ ' '
8 Применение операторных уравнений 59 где /!(*) = /(*) ~ т{х) V\X) - ^ Теперь вводим множество М дважды непрерывно дифференцируемых при а < х < Ъ и непрерывных при а ^ х ^ Ъ функций, удовлетворяющих однородным условиям (8.14). На этом множестве определяем оператор Д, по- положив d ( , ч dv Тогда краевая задача (8.13), (8.14) может быть представлена в виде оператор- операторного уравнения (8.6). Приведенный пример показывает, что изложенная процедура получения уравнения состояния системы в операторной форме весьма просто реализуется в случае обыкновенного дифференциального уравнения и при достаточно глад- гладких неоднородностях в граничных условиях. Если же рассматривается урав- уравнение в частных производных, определенное в области с достаточно сложной границей, то довольно трудно подобрать подходящую функцию <?°(х), удов- удовлетворяющую неоднородным граничным условиям. Завершая анализ стационарных процессов математической физики, отме- отметим, что описывая его операторным уравнением вида (8.6), мы считаем, что в нем и является элементом того или иного функционального пространства. Этот факт определяет совершенно естественный переход к операторному опи- описанию нестационарных процессов. Если процесс нестационарный, т. е. функция u(t,P), характеризующая со- состояние системы (объекта), зависит от времени ?, то операторное уравнение получается дифференциальным. Для определенности рассмотрим краевую за- задачу ^ ^)=Mt), (8.16) в которой се, /3, 7 и 8 ~ постоянные, удовлетворяющие условию аб + /З7 ф О, а функции /(t,x), tp°(t) и ipi(t) заданы и непрерывны. Сначала определяем абстрактные функции и = u{t) со значениями в ^2(а, Ъ). Выбираем, далее, ска- скалярную функцию (/?°(?,ж), удовлетворяющую неоднородным граничным усло- условиям (8.16). Ее можно однозначно определить в виде где p(t) и q(t) получаются непосредственной подстановкой (p°(t,x) в краевые условия (8.16). Эту функцию можно рассматривать как абстрактную функцию и0 (?), принимающую значения в пространстве L2(a, Ь). Затем так же, как и в примере 8.1, введем множество М функций w(x), непрерывных на отрезке а ^ х ^ Ъ и дважды непрерывно дифференцируемых на интервале а < х < Ъ. Кроме того, требуется, чтобы эти функции w(x) удовлетворяли однородным граничным условиям (8.14). На функциях w(x) G М определим оператор Л, положив d ( , ,dw\ . ч Aw = — —- р(х)—— + r(x)w. ах V ах I
60 Гл. 1. Математическое моделирование управляемых систем Множество М будем рассматривать как область значений абстрактных функций vP(t). Их совокупность обозначим через М^. Решение исходной краевой задачи (8.15), (8.16) определяет абстрактную функцию u(t). Тогда оче- очевидно, что функция v(t), определяемая формулой v(t) =u(t)-u°(t), (8.17) принадлежит множеству Mt. Отсюда следует, что уравнение ^ (8.18) является операторным представлением краевой задачи для уравнения (8.15) с однородными граничными условиями du(t,a) „ , ч а—)-^- -Cu(t,a) =0, ох Решив уравнение (8.18) и воспользовавшись формулой (8.17), находим абстрактную функцию u(t), соответствующую решению исходной краевой за- задачи (8.15), (8.17) с неоднородными граничными условиями. Приведенные рассуждения показывают, что операторное дифференциаль- дифференциальное уравнение ставится в соответствие нестационарному процессу, описывае- описываемому краевой задачей для уравнения в частных производных лишь с однород- однородными граничными условиями. В других случаях операторное представление (8.18) неоднородной краевой задачи (с неоднородным граничным условием) можно получить иным спосо- способом. Им мы уже пользовались при математическом описании тепловых процес- процессов в твердом теле (см. параграф 1.1). Он состоит в том, что вместо краевой задачи рассматривается соответствующая бесконечная система обыкновенных дифференциальных уравнений. Такую систему можно рассматривать как опе- операторное уравнение в пространстве последовательностей. Те же методы можно применять при описании колебательных процессов, например колебаний пластин и оболочек. Однако сейчас для нас эти детали не представляют особого интереса. Важен лишь сам факт, что краевой задаче можно поставить в соответствие некоторое функциональное пространство и определенный на нем оператор, с помощью которых краевая задача может быть представлена в виде операторного уравнения, например вида (8.18). 8.2. Операторное уравнение Риккати в математической физике. Выше уже отмечалась большая роль уравнений Риккати в решении различных задач теории управления. Эти задачи будут рассматриваться в последующих главах. Анализ различных типов уравнений Риккати в математической физи- физике начнем с того, что выпишем общее уравнение такого типа в произвольной банаховой алгебре В. Пусть Q — некоторый элемент из Б, а Л, В и 1Z — линейные (ограниченные или неограниченные) операторы, действующие из В в Б, с общей областью определения. Тогда стационарное (алгебраическое) уравнение Риккати можно записать в виде б>, (8.19)
8 Применение операторных уравнений 61 где в — нулевой элемент алгебры В. В том случае, когда оператор В является элементом алгебры В8), вместо уравнения (8.19) получаем более общую форму уравнения Риккати Q + АХ + ХВ + ХПХ = 0. Если банахова алгебра В является пространством значений абстрактных функций Х(?), то можно выписать дифференциальное уравнение Риккати 7 ~\7~ — = Q(t) + A(t)X + XB(t) + X1Z(t)X. Пример 8.2. В качестве банаховой алгебры возьмем пространство С(а,Ь) функций (р(х), непрерывных на отрезке [а, Ь]. На этих функциях определим интегральный оператор JCcp = / K(s,<j)cp(<j) da, J a где ядро K(s,a) предполагается непрерывным при а ^ s,a ^ Ъ. Тогда интегро-дифференциальное уравнение dxlt s) fb —^^ = q(t, s) + a(t, s)x(t, s) + x(t, 5) / K(t, a)x(t, a) da (8.20) можно рассматривать как операторное уравнение Риккати. Для этого нужно ввести абстрактные функции X(t) со значениями в С{а,Ъ). Это означает, что при каждом конкретном значении t = т Х(т) представляет собой некоторую функцию (p(s) G C(a,b). Аналогично определяем абстрактную функцию Q{t) со значениями q(t, s) при каждом значении t E [a, 6] и функцию A(t) со значе- значениями a(t,s). При этом A(t) мож:но рассматривать как оператор A(t). В этих обозначениях уравнение (8.20) можно представить в виде ^ = Q(t) + Л@Х + X/C(t)X, QjV где оператор i^ не зависит от t. Пример 8.3. Пусть заданы непрерывные на отрезке 0 ^ t ^ T функ- функции qij(t), cJfjit), bki(t) и r!?j(t), i,j,k,l = l,...,n. Соотношениями n n X ^ hi X ^ hi • Угз = 2_^aijxkU % = 2^ rijXkU hJ = l,.-,n, fc,/ к ,1=1 определяются операторы A(t), B(t), отображающие матрицы X = {хы} в матрицы Y = {^/с/} и Z = {%}, соответственно. Если теперь ввести абстракт- абстрактные функции х(?) со значениями на матрицах X, то систему уравнений kl k=l q=l kl можно представить в виде операторного дифференциального уравнения х = Q(t) + A(t)x + xB(t) + x1Z(t)x. ) Именно такая ситуация имеет место при рассмотрении матричного уравнения Риккати.
62 Гл. 1. Математическое моделирование управляемых систем Пример 8.4. Рассмотрим краевую задачу для нелинейного уравнения теп- теплопроводности -^ = D(t)u—^+a(x,t)u + f(t,s), 0<ж<1, t > О, (8.21) ^)_/ЗЦМ) = О) 7^i)+,w(M) = 0. (8.22) Сначала введем множество М дважды непрерывно дифференцируемых функций <р(х), 0 < х < 1, удовлетворяющих однородным граничным усло- условиям (8.22). На этих функциях определяем линейные операторы = -D(t) ^, А{Ь)ч> = a(t, х)<р, 0 < х < 1, t > 0. Введем теперь абстрактные функции u = u(t) со значениями на М. Тогда краевую задачу (8.21), (8.22) можно представить в виде операторного диффе- дифференциального уравнения Риккати ПИ — = - где f{t) — абстрактная функция, принимающая значение f(t,x) при каждом конкретном ?, t > 0. 9. Применение общей теории систем 9.1. Основные понятия и определения. До сих пор мы рассматри- рассматривали системы, которые можно было описать конкретными математическими соотношениями. В одном случае это были обыкновенные дифференциальные уравнения, в другом — краевые задачи для уравнений в частных производ- производных, в третьем — уравнения в конечных разностях. Каждое из этих описаний можно рассматривать как некоторую конкретную реализацию операторного уравнения в некотором функциональном пространстве. И, таким образом, в каждом конкретном случае мы получаем математическую модель процесса, для исследования которого можно использовать не только аппарат конкрет- конкретных уравнений (дифференциальных или разностных), но и мощные средства функционального анализа. Однако понятие управления и связанные с ним математические задачи яв- являются настолько общими, что этого аппарата оказывается недостаточно, что- чтобы охватить все типы практически интересных и содержательных задач управ- управления. Представляют значительный интерес системы управления, со- состоящие из подсистем различного типа. Одна подсистема может описывать- описываться уравнениями в конечных разностях, другая может характеризоваться набо- набором неравенств (как это имеет место в задачах линейного программирования), третья — дифференциальными уравнениями. В системе могут содержаться и конечные автоматы. Однако подсистема может описываться в чисто лингвисти- лингвистических терминах, не содержащих никаких математических соотношений. Все словесное ее описание может содержать лишь некоторые утверждения относи- относительно элементов системы управления и отношения между ними. При анализе такого типа систем возникают различные задачи управления, и поэтому вполне естественно рассматривать их математические модели.
9. Применение общей теории систем 63 Общая теория систем предоставляет возможность создавать такие моде- модели в максимально общей форме. Основой для этого служит понятие систе- системы, определенное в теоретико-множественных терминах. Система определяет- определяется как отношение на языке теории множеств следующим образом. Предполагается, что задано семейство множеств V = {Уг : г е I}, где / — множество индексов. Определение 9.1. Под системой S, заданной на У, понимается некоторое собственное подмножество декартова произведения xV : Scx{Vi-. iel}. Все компоненты V^, г Е /, декартова произведения xVi называются объектами системы S, а / называется индексирующим множеством системы. Определение 9.2. Пусть 1Х с /, 1У С / образуют разбиение множества /, т. е. 1хП1у = 0, 1ХУМУ = /. Множество X = x{V^, г Е 1Х} называется входным объектом, а множество Y = х{Уг, i E /у} называется выходным объектом. Тогда система 5 определяется отношением S = X xY. (9.1) В дальнейшем такая система называется системой "вход-выход". Определение 9.3. Если S является функцией S: Х^У, то соответствующая система называется функциональной. При этом будем ис- использовать обозначение F: (X) —> У, чтобы подчеркнуть, что F не обязательно определена на каждом элементе множества X, т. е. F является не глобаль- глобальной, а частичной функцией. Область определения F будем обозначать через T>(F) С X, а область ее значений (т. е. ее кообласть) — через 1Z(F) С У. Аналогичные обозначения будем использовать и в нефункциональных системах, т. е. V(S) = {х: (Зу) ((х,у) е S)}, TZ(S) = {у: (Зх) ((х,у) е S)}. Замечание 9.1. В дальнейшем, если не оговорено противное, будем счи- считать, что V(S) = X. Пример 9.1. Рассмотрим систему, определяемую уравнением х = Ах + Вщ (9.2) в которой х Е Еп, и Е ЕТ, А и В — постоянные матрицы. Допустимыми управ- управлениями будем считать функции u{t) E L^OjT). Если X(t) — фундаментальная матрица решений уравнения у = Ау, то общее решение уравнения (9.2) при конкретном управлении и = u{t) можно представить в виде x(t)=X(t)c+ [ X(t)X-\s)u(s)ds, (9.3) Jo где с Е ^п, — произвольный постоянный вектор. Определим три объекта: 1) V\ — множество всех абсолютно непрерывных вектор-функций х(?), О < t < Т; 2) V2 — множество всех функций из L^O, T);
64 Гл. 1. Математическое моделирование управляемых систем 3) Уз — множество всех векторов из Еп. Тогда систему управления, заданную уравнением, можно рассматривать как систему в терминах определения 1.1 S С Vi х V2 x У3, где S состоит из тех троек {x(?),u(?),c}, x(t) E Vi, u(?) E V2, с Е V3, которые связаны между собой соотношением (9.3). Если рассматривается система, заданная уравнением (9.2) и начальным условием х@) = а, то, полагая X = Vi, F = V2, получим систему с двумя объектами вида (9.1), где S состоит из пар {x(t),u(t)}, x(t) E X, u(?) E У, связанных соотношением /о Определяя систему как предельно общее теоретико-множественное отно- отношение, мы начинаем с наименее структурированных и наиболее широко при- применяемых понятий. При этом система определяется в терминах ее наблюдае- наблюдаемых свойств, а точнее, в терминах взаимодействия между этими свойствами, а не тем, что на самом деле она собой представляет (т. е. не с помощью физи- физических, биологических, социальных или других явлений). В рассмотренном примере множества (объекты) наделены определенными структурами (метри- (метрика, непрерывность и т. д.). В других случаях соответствующие структуры мо- могут оказаться менее четкими, и даже расплывчатыми, особенно тогда, когда удается дать лишь словесное описание системы. Определение 9.4. Пусть С — произвольное множество и для системы S существует функция R : (С х X) —> Y такая, что справедливо утверждение (х,у) eS <=> (Зс) [R(c,x)=y]. Тогда С называется множеством или объектом глобальных состояний, а его элементы — просто глобальные состояния системы, функция R при этом называется глобальной реакцией системы S. В примере 9.1 множество глобальных состояний системы (9.2) можно рас- рассматривать как множество С векторов с Е Еп, а глобальная реакция опреде- определяется соотношением (9.3). Теорема 9.1. Каждой системе соответствует некоторая глобальная реакция, и эта реакция не является частичной?), т. е. R: (С х X —> Y). Доказательство. Обозначим через F множество всевозможных функ- функций, отображающих X в У, т. е. F = Yx = {/ : X —> Y}. Пусть, далее, множество G = {/с: с Е С} С F таково, что /CGC <=> fc С S, где С — ин- индексирующее множество для G. Определим теперь R: С х X —> Y с помощью условия R(c,x) = fc(x). Покажем, что из этого условия следует, что S = {(ж, у): (Зс) у = R(c,x)}. Пусть S' = {(х,у) : (Зс) у = R(c,x)}. Рассмотрим произвольную пару (х,у) Е S. Тогда у = R(c,x) = fc(x) для некоторого с G С. Следовательно, (ж, у) Е 5, так как /с С 5. Значит, S^ С 5. ) Здесь учитывается замечание 9.1.
9. Применение общей теории систем 65 Обратно: возьмем произвольную пару (ж, у) Е S. Так как V(S) = X и х G I, то множество 5 непусто. Выберем некоторое /с Е G и положим / = = (/с \ {(ж,/с(ж)}) U {(ж, 2/)}. Тогда / е F и / е 5. Поэтому / = /с/ для некоторого с' G С и, следовательно, г/ = fc'{x) или (^? 2/) ? ^х- Отсюда следует, что S С. S'. Это означает, что S = S'. Теорема полностью доказана. 9.2. Абстрактные линейные системы. Следующий естественный шаг в изучении абстрактных систем состоит в разработке некоторой их классифи- классификации. Начнем с определения понятия линейной системы. Такая методика в исследовании представляется вполне естественной, так как линеаризация про- процессов всегда была первым шагом в изучении поведения объектов любой при- природы С этой целью напомним необходимые в дальнейшем понятия общей алгеб- ры10). Пусть в множестве R задана непустая система подмножеств 1Z. Эта система называется алгеброй, если11): а) 0,Д е ?г; б) S е П => R \ S е П- в) объединение любой конечной совокупности множеств из 1Z принадле- принадлежит 1Z, т. е. из того, что Si E 1Z, г = 1..., п, следует, что U I S% e П. г=1 Если свойство в) справедливо при п = сю, то алгебра называется а- алгеброй. Алгебра называется линейной, если она является множеством с одной внут- внутренней и одной внешней операциями, удовлетворяющими аксиомам векторного пространства. Такими операциями могут быть сложение элементов (внутрен- (внутренняя операция) и умножение элементов множества на элементы скалярного поля (внешняя операция). Определение 9.5. Пусть Л — некоторое скалярное поле, X и Y — линей- линейные алгебры над Л, а отношение S С X х Y непусто. Пусть, далее: 1) s e S & s' e S => s + s' e 5; 2) s e S & а е А => as e 5; где + обозначает (внутреннюю) операцию сложения в X х У, а через as обо- обозначен результат (внешней) операции умножения на скаляр12). Тогда S называется абстрактной (полной) линейной системой. Упоминание термина "полнота" в определении линейной системы не явля- является случайным, так как в приложениях довольно часто встречаются неполные ) См., например: Колмогоров А. Н., Фомин С. В. Элементы функционального анализа. — М.: Наука, 1989. ) 0 — пустое множество. ) Операция сложения и умножение на скаляр определяются на X х Y естественным образом: (ж, у) + (х\, гц) = (ж + х\, у + у\) и а(х,у) = (ах, ау), где (ж, у) е S, (x\,yi) e S, а е Л.
66 Гл. 1. Математическое моделирование управляемых систем системы. К таковым, например, относятся системы, которые описываются ли- линейными дифференциальными уравнениями, множество допустимых началь- начальных условий которых не определяет линейное пространство. Однако в тео- теории управления обычно не накладывается никаких ограничений на начальные условия. Поэтому в дальнейшем мы будем предполагать, что каждая линейная система является полной, если, конечно, не оговорено противное. Основной результат, относящийся к линейным системам состоит в сле- следующем. Теорема 9.2. Пусть X и Y — линейные алгебры над одним и тем же полем Л. Система S С X х Y является линейной тогда и только тогда, когда существует глобальная реакция R: С х X —> Y такая что: 1) С является линейной алгеброй над полем Л] 2) существует пара таких линейных отображений R\: С —> Y и R2 : X —> У, что для всех (с,х) Е С х X справедливо равенство R(c,x) = Ri(c) + Доказательство этой теоремы достаточно громоздко и его приводить не будем13), так как оно мало что дает в приложении рассматриваемой теории к решению задач теории управления. Тем не менее следует особо подчеркнуть, что практически каждый результат теории общих линейных систем опирается на сформулированную теорему. Определение 9.6. Пусть S с X х Y — линейная система. Отображение R : С х х —> Y называется линейной глобальной реакцией системы тогда и только тогда, когда: 1) R согласуется с S, т. е. (х, г/) Е S <=> (В с) [у = R(c, х)]; 2) С является линейной алгеброй над полем Л скаляров линейных алгебр ХиУ; 3) существуют два линейных отображения R\ : С —> Y и R2 '. X —> Y такие, что для любых (ж, у) Е S справедливо равенство При этом С называется линейным объектом глобальных состояний, R\ — глобальной реакцией на состояние, a R2 — глобальной реакцией на вход. Здесь следует обратить внимание на следующее важное обстоятельство. В определении глобальной реакции требуется выполнение лишь условия: R согласуется с S, т. е. (х,г/) Е S <=> (Зс) [у = R(c, x)], а для определения ли- линейной глобальной реакции необходимо выполнение еще двух условий (условия 2) и 3)). Поэтому поведение линейной системы может описываться и реакцией, которая не является линейной. С учетом введенного определения получается следующее важное следствие из теоремы 9.2. Следствие 9.1. Система является линейной тогда и только тогда, когда для нее существует линейная глобальная реакция. ) Оно приведено в книге: Месарович М., Такахара Я. Общая теория систем: матема- математические основы. — М.: Мир, 1978.
9. Применение общей теории систем 67 9.3. Общие временные системы. Чтобы строить содержательную тео- теорию систем, основанную на определении 9.1, необходимо наделить систему (как отношение) некоторой структурой. Это можно сделать одним из следующих способов. 1. Ввести дополнительную структуру для элементов объектов системы (на- (например, рассматривать сам элемент Vi Е V% как некоторое множество с подхо- подходящей структурой). В рассмотренном примере элемент x(t) E V\ можно рас- рассматривать как множество векторов из Еп, зависящих от параметра t. 2. Ввести структуру непосредственно для самих объектов V^. В первом случае определяется понятие абстрактной временной системы. Во втором случае получаем алгебраическую систему. Чтобы ввести общее понятие временной системы, необходимо формализо- формализовать понятие времени. Эта формализация должна использовать минимальную математическую структуру, отражая при этом наиболее существенные черты наших интуитивных представлений о времени. Определение 9.7. Множеством моментов времени (общей временной сис- системы) называется линейное упорядоченное (абстрактное) множество Т, а отношение порядка в нем будем характеризовать символом ^, а для удобства обозначений будем считать, что в Т имеется минимальный элемент 0. Введем, далее, следующие обозначения. Для любых t E T и t' E T, t' ^ t положим Tt = {tf: tr > t}, Tl = {tf: tr < t}, Tw ={t*: t^t*< t'}, Tu> = Tu, U {?'} ft=TtU {t}. Эти соотношения определяют отрезки и интервалы времени, необходимые в дальнейшем для анализа временных систем. Определение 9.8. Пусть А и В — некоторые множества, а Т — множе- множество моментов времени. Пусть, далее, Ат и Вт — множества всевозможных отображений Т на А и В соответственно и X С Ат, Y С Вт. Общей времен- временной системой S над X и Y называется отношение на X и У, т. е. S С X х Y. Множества А и В называются алфавитами входов и выходов соответствен- соответственно. Множества X и Y называют временными объектами системы. Значения функций из X и Y в момент времени t будем обозначать через x(t) и y(t) соответственно. Из этого определения следует, что функции x(t) и y(t) определены на всем множестве моментов времени. Однако для практических целей зачастую требу- требуется рассматривать их сужения на те отрезки времени, которые определяются соотношениями (9.4). Для этих сужений используются специальные обозначе- обозначения: xt = x\Tu xf = x\T\ Xw=x\Tw xw=x\Ttt4 хг=х\Т\ Xt = {xt : xt = x\Tt bGl}, X1 = {xf: xl = x\Tl & x -> X}, Xu> = {xw : xu> = x\Ttt, bGl}, X(t) = {x(t): x e X}. При этом будем считать, что хи = 0, Хи = {0}.
68 Гл. 1. Математическое моделирование управляемых систем Эти формулы определяют соответствующие сужения системы S : St = {(art, Vt): xt = x\tu & yt = y\Tt & (ж, 2/) G 5}, 5* = {(ж*, 2/*): ж* = ж|Г* & 2/* = 2/1Г* & (ж, 2/) G 5}, SW = {(xtt/,2/tt'): ж«' = Ж1*«' & 2/*f = 2/|Ttt' & (x,t) G 5}. Кроме того, введем так называемую операцию сочленения, с помощью ко- которой строится функция Л, , _(ж(т), если г < ?, Ж^ ~ 1 ж*(т), если т > ?, для которой используется обозначение ж(т) = ж* • х\. Аналогичную операцию сочленения можно определить и на функциях y(t). Таким образом, мы построили различные сужения функций и соответств- соответствующих им множеств X С АТ и У С Вт. Эти сужения определили соответ- соответствующие сужения системы S С X х У. Чтобы подчеркнуть что мы работаем только с указанными классами сужений, будем обозначать через X множество всевозможных сужений такого типа для X С Ат. Аналогично определяем Y и 5\ Кроме того, будем также предполагать, что все рассматриваемые нами системы являются системами с полным входом, которые определяются следу- следующим образом. Определение 9.9. Временная система S с X xY называется системой с полным входом тогда и только тогда, когда (Уж)(Уж*)(\/?)(ж, ж* Е 'D(S) & t G T => xl • х% е V(S)) и Ясно, что введенные выше понятия объекта глобального состояния систе- системы, ее глобальной реакции применимы и к временным системам. Однако тре- требуется определить соответствующие понятия и для сужений временной систе- системы. Сужение St временбй системы S определяется через сужение ее входных воздействий и выходных величин St = {{xu yt): xteXtkyteYtk (ж, у) е 5}. Аналогичным образом определяются сужения Sf и Stt>. Далее естественным образом вводятся понятия объектов начального сос- состояния. Определение 9.10. Объектом начального состояния и начальной реак- реакцией временбй системы S С АТ х Вт называются соответственно объект гло- глобальных состояний и глобальная реакция ро этой системы, т. е. отобрахение Ро • Со х X —> Y удовлетворяет условию: (ж, у) Е S тогда и только тогда, когда (Зс) [ро(с,х) = у]. Аналогичным образом определяются объекты состояний системы и реак- реакции системы pt в момент времени t. Пусть ScXxYupt — некоторая функция такая, что pt: Ct x X —> Y. Будем говорить, что pt согласуется с S тогда и только тогда, когда эта функция совпадает с реакцией системы в момент времени t. Это означает, что (xuyt) G St О (Зс) [pt(c,xt) = yt}'
9. Применение общей теории систем 69 Вводя обозначение S% = {(xtjyt) • (Зс) (pt(c,xt) = Vt)}, условие согласования можно записать в виде S% = St. Если р = {pt: Ct х Xt ^ Yt} — семейство произвольных функций, то будем говорить, что р согласуется с временной системой S тогда и только тогда, когда р совпадает с семейством реакций системы S, т. е. когда S% = St для любого t Е Е Т. Существование семейства реакций для каждой временной системы следу- следует из теоремы 9.1. 9.4. Общие динамические системы. Рассматриваемые в последующих главах различные задачи управления связаны с процессам, которые развива- развиваются во времени. Для их анализа нужно устанавливать взаимосвязь между объектами системы, относящимся к различным моментам времени. С позиций общей теории систем для этой цели уже недостаточно одного понятия реак- реакции системы. Для полной характеристики требуется вводить дополнительное семейство функций, характеризующих динамические системы. Определение 9.11. Семейство реакций р, согласующееся с временной си- системой S, называется приведенным семейством реакций, если (Vct) (Vct) (\Jxt) (p(cuxt) = p(cuxt) ^ct = ct) для любого t E T. Отмеченное в этом определении свойство означает, что из идентичности по- поведения систем в будущем следует эквивалентность их состояния в настоящем. Для таких систем определение динамичности системы состоит в следующем. Определение 9.12. Временная система S с X xY называется динамиче- динамической, если существуют два семейства отображений р = {pt: Ct x Xt -> Yt & t e T}, (p = {iftt>: Ct x Xt -> Cv & M' e T & tf > t} такие, что: 1) p является семейством реакций этой системы; 2) все функции (ри> из семейства (р удовлетворяют условию pt{cuxt)\T't = pt'D*tt'((h,xu'),xt'), где xt = xtt> - xt>. При этом функции (pUf называются функциями перехода состояний, а се- семейство (р — семейством функций перехода состояний, Здесь следует отметить, что введенные понятия временной системы, а так- также входных и выходных объектов определялись на одном и том же множестве моментов времени. Это не позволяет рассматривать многие реальные систе- системы, для которых это условие не выполняется. В частности, в такие классы не попадают система, в которых входным сигналом является функция времени, а на выходе точечный сигнал. Такого рода системы также рассматриваются в общей теории. Однако мы на этом останавливаться не будем. Другой недочет введенных понятий относится к определению понятия объ- объекта состояния системы. В нем отсутствует требование, чтобы состояния систе- системы, относящиеся к двум различным моментам времени были связаны между собой. Отмеченный недостаток определения понятия состояния следует устра- устранить таким образом, чтобы, например, можно было бы выяснить вернулась ли система в исходное состояние через некоторый отрезок времени или состояние вообще не изменялось.
70 Гл. 1. Математическое моделирование управляемых систем Определение 9.13. Множество С называется пространством состояний системы S С X х Y, если существуют два семейства функций p = {Pt: CxX^Yt}, ф={<ры>: CxXw^C} таких, что: 1) для всех teT, StC S? и S? = {(х,у): (Зс)(у = fh(c,x)} = 5; 2) для всех t, tf Kt" G T : a) pt(c,xt)\T{ = p'tD)ttl{c,xtt'),xt'), в) iptt{c.xu) =c, где xt = xtt' • ^t' i xw = ^tt' • xt" ' xt' • Система S с таким пространством состояний называется динамической системой. Введенные понятия и достаточно краткий их анализ можно рассматри- рассматривать как вступление в теорию абстрактных систем. Его полезно проанализи- проанализировать, чтобы оценить возможности этой теории в математическом модели- моделировании управляемых систем. Более глубокое изучение теории систем позво- позволит убедиться в том, что основные понятия теории управления (устойчивость, управляемость, оптимальность и т.д.) можно определить в столь же общей форме, как это сделано выше относительно абстрактных систем и их различ- различных характеристик. Это открывает возможности изучать основные задачи тео- теории управления для систем более общего вида чем те, которые описываются дифференциальными уравнениями.
ГЛАВА 2 Основы теории устойчивости В предыдущей главе было введено понятие систем управления, описаны их структура и различные характеристики как самих систем, так и переход- переходных процессов. Для иллюстрации введенных понятий здесь будут несколько подробнее рассмотрены простейшие системы автоматического регулирования. Начиная с этой главы, будем заниматься специфическими задачами, возника- возникающими при исследовании конструируемых и функционирующих систем управ- управления. К ним прежде всего относятся задачи теории устойчивости, существо- существования периодических решений и автоколебаний. Решение таких задач, как пра- правило, получается на основе качественного анализа переходных процессов. Отмечая важность этих вопросов в теории управления, следует иметь в виду, что получаемые при таком анализе результаты относятся обычно к кон- конкретным системам или переходным процессам в них. Они не связаны с зада- задачами выбора управляющего воздействия или типа управляющего устройства на основе того или иного критерия качества. Иначе говоря, при решении, на- например, вопроса устойчивости предполагается, что управляющее воздействие в системе задано и нужно характеризовать свойства системы при выбранном управлении. 1. Линеаризация нелинейных систем 1.1. Вспомогательные факты из теории обыкновенных диффе- дифференциальных уравнений. Как известно, линейные уравнения движения уп- управляемого объекта с конечным числом степеней свободы можно привести к виду где х — n-мерный фазовый вектор, и — r-мерный вектор управления, вектор- функция (f(t) характеризует неконтролируемые внешние возмущения. Если управление и = u(t) задано, то движение объекта описывается уравнением x = A(t)x + №, A.1) где функция f(t) задана и определяется формулой f(t) = B(t)u(t) + (f(t). В дальнейшем всегда будем исходить из того, что матрицы A(t) и B(t) непрерывны, а вектор-функцию <p(t) либо принадлежат пространству L^, либо ее компоненты являются измеримыми и ограниченными на заданном проме- промежутке времени. Аналогичные ограничения будем накладывать и на допусти- допустимые управления. В итоге функция f(t) будет либо из пространства L^, либо ее компоненты ограничены и измеримы. Вместе с уравнением A.1) будем рассматривать уравнение у = A(t)y. A.2)
72 Гл. 2. Основы теории устойчивости Оно, как известно, имеет п линейно независимых решений г/1 (?),... ..., yn(t), а общее его решение можно представить в виде где ci,..., сп — произвольные постоянные. Система функций определяет фундаментальную матрицу решений уравнения A.2) Y(t) = ' М и поэтому общее решение уравнения A.2) можно записать в виде y(t) = Y(t)c, где с = {ci,..., сп} — вектор произвольных постоянных. Для получения решения этого уравнения, удовлетворяющего начальному условию уЫ = у°, A.з) вектор с нужно определить из уравнения Y(to)c = у0. Это уравнение всегда однозначно разрешимо, так как матрица Y(t) явля- является неособенной при всех тех значениях ?, при которых определена матрица A(t). В дальнейшем для нас особый интерес будет представлять матрица W(t,s)=Y(t)Y-1(s), где s — параметр, принимающий те же значения, что и t. Она обладает сле- следующими свойствами. 1. W(t, s) — фундаментальная матрица решений уравнения A.2) при любом значении параметра s. 2. W(t,t) = Е, где Е — матрица тождественного преобразования. В силу этих свойств матрицы W(t,s) решение уравнения A.2), удовлетво- удовлетворяющее начальному условию A.3), можно представить в виде y(t) = W(t,to)y°. Матричная функция W(t,s) называется матрицей Коши уравнения A.2) или его фундаментальной матрицей, нормальной при t = s. Непосредственной подстановкой проверяется, что функция = W(t, to)y° + / W(t, s)f(s) ds A.4) Jt0 является решением неоднородного уравнения A.1), удовлетворяющим началь- начальному условию A.3). В дальнейшем соотношение A.4) будем называть формулой Коши.
1. Линеаризация нелинейных систем 73 1.2. Свойства стационарной системы. Предположим теперь, что мат- матрица А в уравнении A.1) постоянна. Задача состоит в построении матрицы W(t, s) и получении формулы Коши для этого частного случая. Итак, пусть движение объекта описывается уравнением x = Ax + f(t), A.5) в котором матрица А постоянна. Фундаментальная матрица уравнения у = Ау A.6) в этом случае может быть получена с использованием функций от матриц. Для того чтобы воспользоваться этими функциями, напомним некоторые факты из алгебры. Теорема Гамильтона-Кэлли. Квадратная постоянная матрица А яв- является нулем своего характеристического многочлена А(р) = det(Ep -А)=рп + сир?'1 = • • • + an_ip + ап, т. е. А (А) = в, где в — матрица с нулевыми элементами. Всякий полином /(р), для которого f(A) = в, называется аннулирующим для матрицы А. Аннулирующий многочлен ф{р) наименьшей степени со стар- старшим коэффициентом, равным единице, называется минимальным многочле- многочленом матрицы А. Свойства минимального многочлена. 1. Если /(р) — произвольный аннулирующий многочлен, то он представим в виде f{p) = ф{р)ф{р), где (р(р) — некоторый полином. Доказательство. Если предположить, что это утверждение ошибочно, то полином /(р) представим в виде f{p) = ф{р)^р{р) + г(р), где степень поли- полином г(р) ниже степени минимального многочлена, Но так как /(р) и ф(р) — аннулирующие многочлены, то f(A) = ф(А) = В и поэтому г(А) = f(A) - ф(АМА) = в, т. е. полином г(р) является аннулирующим. Если а — коэффициент при стар- старшей степени в г(р), то го(р) = ГМ а имеет ту же степень, но коэффициент при старшем слагаемом у него равен единице. Это противоречит тому, что ф(р) — минимальный многочлен. 2. Каждая матрица А имеет единственный минимальный многочлен. Доказательство. Если бы ф\{р) и ф>2(р) были двумя различными ми- минимальными многочленами матрицы А, то многочлен ф(р) = il>i(p) ~ф2(р) был бы аннулирующим, и его степень была бы по меньшей мере на единицу ниже степени ф\(р) и ^(р)- Пусть q — коэффициент при старшей степени р в мно- многочлене ф(р). Тогда, полагая ф(р) = ^о(р)? приходим к выводу, что фо(р) — аннулирующий многочлен с коэффициентом при старшей степени р, равным единице. Это противоречит тому, что ф\{р) и ^(р) — минимальные многочле- многочлены. Третье свойство минимального многочлена приведем без доказательства. 3. Минимальный многочлен ф(р) представим в виде
74 Гл. 2. Основы теории устойчивости где Dn_i(p) — наибольший общий делитель миноров (п — 1)-го порядка мат- матрицы Ер — А. Приведенные утверждения позволяют дать представление полинома ф(р) через собственные значения pi, P2, •••? Рк матрицы А. Обозначим через ni, П2, ..., nk — соответствующие кратности этих собственных значений. Тогда, как известно, п\ + ... + п\~ = п и Д(р) = (р — Pi)ni (р — Ръ)™2 • • • (р — Рк)Пк • При этом, на основании изложенного выше, оказывается, что Ф(р) = (P-Pi)mi(p-P2)m2 • • • (р - Рк)т\ тг + ... + тк = т < п, причем rrij > 0, j = 1, 2, ..., к. Пусть F(p) — произвольная, достаточное число раз дифференцируемая функция комплексного переменного аргумента р. Тогда множество чисел A.7) k), F'(pk), ..., F^--1)^) будем называть значением функции F(p) на спектре матрицы А. Совокуп- Совокупность этих чисел обозначим через F(Pa), где Ра — спектр матрицы А. Лемма 1.1. Если д(р) и h(p) — два полинома комплексного переменно- переменного р, то g(A) = h(A) тогда и только тогда, когда g и h имеют одинаковые значения на спектре матрицы А, т. е. когда д(Рл) = Доказательство. Пусть д(А) = h(A). Тогда полином d(p) = д(р) — h(p) является аннулирующим для матрицы А, т. е. d(A) = в. Поэтому он делится без остатка на минимальный многочлен ф(р): d(p) = д(р) — h(p) = q(p)tp(p)j где q(p) — полином. Из формулы A.7) следует, что Ф(Ра) = в, т. е. Ф(Рз) = 4>'(Рз) = ¦¦¦= Ф(т^1]^) =0, j = 1, 2, ..., к, и, следовательно, g(Pj) = h(Pj), g'fa) = ti(Pj), ..., g^-Vfa) = h^-V-fa), j = l,2,...,k, т. е. д(Рл) = Ь(Ра)- Первая часть леммы доказана. Пусть теперь д(Рл) = Ь>(Ра)- Так как ф(р) и д(р) — h(p) — полиномы, то можно записать g(p)—h(p) = S(p)i/j(p)-\-r(p), где S(P) и г(р) — такж:е полиномы. При этом степень г(р) ниже степени ф(р) и Фз) = r'(Pj) = ...= rlm'-V(pj) =0, j = 1, 2, ..., к. Отсюда следует,что г(р) = 0. Поэтому д(А) — h(A) = 8(А)ф(А). Но ф(А) = в, где В — матрица с нулевыми элементами. Следовательно, д(А) = h(A). Лемма доказана. Полученное свойство полинома с матричным аргументом используем те- теперь для более общих функций F(A). Будем исходить из того, что все функции, которые определены на спектре матрицы А и принимают на нем одинаковые с F(Pa) значения, приводят к одной и той же матрице F(A). В частности, если д(р) — полином и F(Pa) = д{Рл)ч то можно записать F(A) = д(А). Поэтому для построения матрицы F(A) достаточно найти полином, кото- который на спектре Ра матрицы А принимает те же значения, что и функция F(A). Ясно, что таких полиномов бесчисленное множество. Однако полином Лаг-
1. Линеаризация нелинейных систем 75 ранжа-Сильвестра имеет среди них наименьшую степень, которая равна га—1. Его можно записать в виде к mj-1 *г^ *-^ (rrij — v — 1)! ldpmi v i ^j(P) J = \P ~ PjJ где ^(p) — минимальный многочлен, а В частности, когда все корни pj характеристического полинома простые, ми- минимальный многочлен ф(р) имеет вид ф(р) = (р — р\)... (р — Рп)-> и интерполя- интерполяционный полином A.8) упрощается: Таким образом, F(A) = rF(A). A.10) Полином, который определяемый формулой A.9), называется полиномом Лагранжа. Пример 1.1. Пусть F(p) = ept, где t — параметр. Вычислим F(A), где Сначала находим спектр матрицы. Имеем det(p? - А) = Р А -1 и, следовательно, р\ = 1, Р2 = — 1- Наибольший общий делитель D\{p) миноров первого порядка матрицы рЕ — А равен единице. Поэтому минимальный многочлен имеет вид и значениями функции ept на спектре матрицы А являются числа е*, и e~t'. Следовательно, интерполяционный полином A.9) можно привести к виду Отсюда согласно формуле A.9) | получаем 0 1\ lft_ t](l O\_(cht sht 1 °У 2 V° V ~ Vsh * ch * Прежде чем переходить к интересующим нас применениям понятия функ- функций от матриц, отметим, что то же представление F(A) в форме A.10) можно получить исходя из представления F(p) в виде сходящегося степенного ряда. В основе этого факта лежит следующее утверждение. (X) Будем говорить, что ряд J^ щ{р) сходится на спектре матрицы А к функ- г=0 сю ции F(p) и при этом будем писать F(Pa) = J2 щ(Ра), если все фигурирующие г=1
76 Гл. 2. Основы теории устойчивости здесь функции определены на спектре матрицы А и имеют место равенства г=0 г=0 г=0 где к = 1,...,т, причем в правых частях этих равенств стоят сходящиеся ряды. Здесь т — число различных корней характеристического уравнения мат- матрицы А. (X) Теорема 1.1. Для того чтобы ряд J2 щ(А), где щ(р) — полиномы, схо- г=0 оо дился на матрице А, необходимо и достаточно, чтобы ряд Y^ ui(p) сходился г=0 на спектре Ра этой матрицы. При этом из равенства оо г=0 следует равенство г=0 и наоборот г). Из этой теоремы, в частности, следует, что матрицу ем можно определить исходя из представления функции eAt в виде степенного ряда ем = (At)n n! n=0 Доказательство того, что эта матрица ем совпадает с той, которая опре- определяется через полином Лагранжа-Сильвестра, приводить не будем. Определив таким образом понятие функции от матрицы, займемся теперь построением фундаментальной матрицы W(t,s) уравнения A.6). Интегрируя обе части этого уравнения, с учетом условия A.3) получим Ay(s)ds. Это уравнение будем решать методом последовательных приближений по фор- формулам ° Ук+iit) =у°+ Ayk(s) ds, к = 1, 2, ... Jto Выполняя необходимые вычисления, находим, что (Е + A(t - to))y°, ..., yn(t) = fc=0 и, следовательно, в пределе при п -^ оо будем иметь y(t) = lim yn(t) = eA{t-^y0. ) Доказательство этой теоремы приводить не будем. С ним можно ознакомиться по книге: Гантмахер Ф.Р. Теория матриц. — 5-е изд. — М.: Наука, 2004.
1. Линеаризация нелинейных систем 77 Таким образом, функция eA(yt~to^ является фундаментальной матрицей ре- решений уравнения A.6), нормальной при t = to. Решение уравнения A.5), удовлетворяющее начальному условию A.3), согласно формуле A.4) имеет вид x(t) = / Jto Отметим важные для нас свойства функции eAt. Х.Если В — неособенная матрица той же размерности, что и А, и С = ~ХАВ, то ect = B~1eAtB. Доказательство. Согласно определению оо ext = к\ к=0 и, следовательно, оо ect = к\ ' к=0 Так как С = В~ХАВ, то С2 = СС = В^АВВ^АВ = В~1А2В, Ск = В~1АкВ. Отсюда следует, что ОО л fc -В l^-j^t В -В е В. к=0 2. Пусть pi,... ,ps — собственные значения матрицы А кратностей ni,... ..., ns соответственно, а ф(р) = (р — pi)mi ... (р — р8)Шз, mi + ... + ms = = 7П ^ п, —ее минимальный многочлен. Тогда матрицу eAt можно предста- представить в виде т—1 k=0 где функции ak{t), к = 0,1,..., т — 1, линейно независимы. Доказательство. Значениями функции f(p) = ept на спектре мат- матрицы А являются числа f(pi) = ePlt, ..., f<yTni~1\pi) = tmi~1ePlt, ... ...J(ps) = ep*\ ..., /(ms-1}(ps) = tm^1ep^t. Согласно формулам A.8) и A.10), имеем где Отсюда следует, что в правой части полученной формулы стоит полином относительно А, степень которого не выше т — 1. Коэффициенты этого поли- полинома зависят от t. Таким образом, функция eAt действительно представима в виде A.12). Доказательство линейной независимости функций а&(?) приведем здесь лишь для частного случая, когда все корни характеристического уравнения матрицы А являются простыми. Тогда формула A.12) принимает вид
78 Гл. 2. Основы теории устойчивости п-1 ем = "?ак№к. A.13) к=0 Так как для полинома Лагранжа г{р) имеем r{pk) = ePkt, r(A) = eAt, то из формулы A.13) получаем соотношение п-1 ^ак(г)р) = <?*\ j = l, 2, ...,п, fc=0 которое можно рассматривать как систему уравнений относительно функ- функций ai(t),..., ап(?). Правые части этой системы линейно независимы, а ее опре- определитель отличен от нуля. Поэтому преобразование вектора |ai(?),..., an(?)} в вектор {ePlt,..., ePrit} является неособенным. Неособенным также является и обратное ему преобразование. Поэтому ai(?),..., an(?) линейно независимы. 3. Функция ем представима в виде где р\,..., ps — все различные корни характеристического уравнения матри- матрицы A, a ipj(t) — полиномы с матричными коэффициентами. Степень j-го полинома не превосходит rrij — 1, где числа mi,...,ms определяют степень минимального многочлена ф(р) = (р — p\)mi ... (р — ps)ms. Для доказатель- доказательства этого свойства достаточно перегруппировать члены в правой части формулы A.12). Пример 1.2. Рассмотрим уравнение одномерного (по прямой) движения материальной точки под действием силы f(t): т Записывая его в канонической форме находим, что в этом случае 1 А ~ 1 о о; > и характеристическое уравнение D(p) = det(pE — А) = 0 имеет один корень р = 0 кратности 2. Ниаболыний общий делитель D\{jp) миноров матрицы А равен единице. Поэтому минимальный многочлен имеет вид ф(р) = р2. Функция ept на спектре матрицы А принимает значения (см. A.7)) Р=о Поэтому интерполяционный полином A.8) в рассматриваемом случае можно записать в виде Отсюда находим, что
1. Линеаризация нелинейных систем 79 eM=r(A)=At + E=(l а решение системы A.14) с начальными условиями xi(to) = х?, ^2(^0) = х% можно представить в виде (xx{t)\ = Л t-to\№\+ j4\ t-s\fO \dg 1.3. Уравнения первого приближения. Рассмотрим движение управ- управляемого объекта при конкретном выбранном управлении в предположении, что это движение описано уравнением в канонической форме л, — т(+ г\ (Л Л К\ где х — n-мерный фазовый вектор, а вектор-функция (p(t, x) дважды непре- непрерывно дифференцируема по ж в некоторой области D фазового пространства при каждом конкретном t ^ to и непрерывна по t при каждом х. Для дальнейшего анализа уравнение A.15) удобно представить в виде системы Х2 = Пусть, далее, dj% — JylyiJ1 I — 1, Z, ...,/6, yL.Lt ) — непрерывно дифференцируемые функции такие, что вектор-функция x(t) = = {xi(t),..., xn(t)} принимают значения в области D. В уравнении A.16) произведем замену переменных, положив Уг =Xi ~Xi(t), i = 1, 2, ..., П. Тогда будем иметь -I- -r-i ft} it A- rr (iW — rht (i\ \ JU11^/^ • • • } W 77/ I ТЪ \ / / *"^ 1 \ / ^ = (p(t,y! +x1(t),...,yn+xn(t)) -?n(t). Так как функции cpi дважды непрерывно дифференцируемы по совокуп- совокупности п последних аргументов, то <Pi(t, 2/1 + Xi(t), ...,yn + Xn(t)) = <pi(t, Xi(t), ..., Xn(t)) + Таким образом, уравнение A.17) можно записать в виде п Уз = Yl aMt)yk + fj(t) + ^(t, 2/ь ..., 2/n), j = 1, 2, ..., n, A.18) где v,+ . i^e^m + oy) AЛ9)
80 Гл. 2. Основы теории устойчивости Основное отличие системы A.18) от системы A.16) состоит в том, что в ее правых частях выделены слагаемые нулевого и первого порядков относительно фазовых переменных. Вид коэффициентов а^, а также функций fj(t) зависит от выбранных функций A.17). Очевидно также,что слагаемые к=1 представляют собой линейные приближения функций в окрестности точки x(t) = {xi(?),... ,xn(t)}. Именно поэтому систему уравне- уравнений п к=1 называют системой первого приближения уравнения A.16) в окрестности точки х = {xi(t),...,xn(t)}. Отметим один чрезвычайно важный частный случай, когда функции A.17) образуют решение системы A.16). Тогда из A.19) следует, что fj(t) = О, j = 1,..., п, а система первого приближения принимает вид к=1 и одним из ее решений является так называемое тривиальное решение Zl(t) = ... = zn(t) = 0. A.20) Очевидно также, что в этом случае систему уравнений A.18) можно записать в виде п Уз = z2aik^yk + ^?(^ь- • • ,Уп), 3 = !?• • • ,п, к=1 и функции A.20) образуют тривиальное решение этой системы. В том случае, когда исходная система A.16) стационарна, т. е. представима в виде Хо = . хп = ср(х1,...,хп), она может иметь постоянные решения вида xi = аъ ..., хп = ап. A.22) Для этого, очевидно, требуется, чтобы вещественные постоянные ai,..., ап бы- были решением системы алгебраических уравнений гср1(аъ...,ап) = 0, i,... ,an) = 0, ..,an) = 0. В этом случае точка A.22) называется точкой покоя системы A.21). Систе- Система первого приближения в окрестности точки покоя получается с помощью замены Xj = Xj — ctj j = 1,..., n, где {ai,..., an} — точка покоя.
2. Характеристика нелинейных систем автоматического управления 81 Исследование нелинейных систем автоматического управления является довольно сложной задачей, так как отсутствуют достаточно общие методы ре- решения дифференциальных, интегро-дифференциальных и других нелинейных уравнений, которые описывают поведение таких систем. Поэтому приходится пользоваться различными косвенными или приближенными методами. Многие из них достаточно полно разработаны и широко используются на практике. В частности, ряд вопросов, связанных с анализом управляемых нелиней- нелинейных процессов, решается путем предварительного анализа соответствующих уравнений первого приближения. Именно поэтому велика роль уравнений пер- первого приближения в общей теории управляемых систем. 2. Краткая характеристика нелинейных систем автоматического управления Механика и электротехника дают разнообразные примеры нелинейных систем, динамика которых описывается обыкновенными дифференциальными уравнениями или краевыми задачами для уравнений с частными производны- производными. При этом нелинейность, как правило, определяется гладкими функциями, что в значительной мере упрощает математический анализ соответствующих систем. В теории управления зачастую приходится иметь дело с системами, со- содержащими звенья с более сложными нелинейностями. Такая система состоит из конечного числа элементов, причем динамику большинства из них можно описать линейными уравнениями, а один или несколько (весьма ограниченное число) элементов описывается нелинейными уравнениями. Соответствующие нелинейности при этом далеко не всегда удается харак- характеризовать гладкими функциями, что вносит значительные трудности в их ма- математическое исследование. Расчеты таких систем (даже самые тщательные), выполненные в рамках линейной теории, дают далеко не всегда удовлетвори- удовлетворительные результаты. В итоге оказывается, что спроектированная по линейной теории, казалось бы, высококачественная автоматическая система непригодна по своим динамическим качествам. Может случиться и обратное. Расчеты по линейной модели приводят к потере некоторых весьма полезных свойств, ко- которыми обладает исходная нелинейная система. Причина такого противоречия лежит в недостаточно аккуратном учете нелинейностей. В настоящем параграфе кратко опишем различные типы нелинейностей, наиболее часто встречающиеся в системах управления. Затем кратко охарак- охарактеризуем особенности математического описания нелинейных систем управле- управления. Главное же содержание этой главы состоит в использовании качественных методов анализа нелинейных систем управления. Здесь рассматриваются во- вопросы устойчивости, вынужденных периодических движений нелинейных си- систем и автоколебаний в них. Однако при этом анализируются лишь отдельные глобальные проблемы, ибо в рамках настоящего учебника не представляется возможным изложить все многообразие существующих методов анализа таких систем. Имеющаяся литература обширна и включает в себя ряд книг, которые могут служить учебными пособиями по рассматриваемому кругу вопросов 2). 2) См., например: Зубов В. И. Колебания в нелинейных и управляемых системах. — Л.:, Судпромгиз, 1962; Попов Е. П., Палътов И. 77. Приближенные методы исследования нелинейных автоматических систем. — М.: Физматгиз, 1960; Цыпкин Я. 3., Попков Ю. С. Теория нелинейных импульсных систем. — М.: Наука, 1973.
82 Гл. 2. Основы теории устойчивости 2.1. Нелинейные элементы систем управления. Одним из наибо- наиболее распространенных нелинейных элементов в системах управления являет- является электрическое реле. Вообще говоря, его характеристика может иметь лю- любую из форм, представленных на рис. 2.2.1, где х обозначает сигнал на входе, a F — сигнал на выходе. В общем случае имеются зона нечувствительности и петля гистерезиса (рис. 2.2.1, а). Петля выражает нелинейное (координатное) запаздывание в срабатывании реле вследствие того, что ток отпускания х = тЪ меньше тока срабатывания х = Ъ (га — коэффициент возврата). В частном случае имеется только зона нечувствительности без петли (рис. 2.2.1, б) или же только петля гистерезиса без зоны нечувствительности (рис. 2.2.1, в), когда реле не имеет среднего положения. О 1/- о ь t и \ J / о b л с о KF О t с 'F t с Рис. 2.2.1 Характеристики релейного типа могут быть и несимметричными относи- относительно начала координат и координатных осей, например, если реле или кон- контактная пара работают в режиме включение и выключения (см. рис. 2.2.2). Некоторые из них могут быть описаны аналитически. Не имея возможности по- подробно описывать все практически важные характеристики такого типа, при- приведем лишь наиболее простые примеры: 1) (рис. 2.2.1, г) j С sign х при \х\ > 6, F(x) = 1 0 при \х\ < Ь; 2) (рис. 2.2.1, д) F(x) - < 1 1 неопределена при х = О,
2. Характеристика нелинейных систем автоматического управления 83 3) (рис. 2.2.1, е) F(x) = \ С sign х при 1 О при х = О. Другой довольно распространенной нелинейностью в системах управле- управления является зазор в механической передаче любого типа. При наличии такого зазора перемещение х ведущего элемента механической передачи сначала не будет вызывать никакого перемещения у ведомого элемента до тех пор, пока не будет "выбран" весь зазор (половину всей ширины зазора обозначим через Ъ) — участок ОН на рис. 2.2.3, а. После этого начнется движение ведомого элемента, изображенное прямой НВ. При изменении направления движения ведущего элемента в любом месте прямой НВ ведомый элемент будет непо- неподвижен до тех пор, пока полностью исчерпывается зазор (переход по любому горизонтальному отрезку F = const с прямой НВ на прямую CD), после этого начинается движение ведомого элемента по прямой CD. Описанную нелиней- нелинейную характеристику можно задавать формулами х-у\>Ь, х-у\>Ъ, {х — b при у > 0 и х + Ъ при у < 0 и const при |х + г/|<Ь. Учет зазора тем более важен, чем меньше перемещение х в процессе функ- функционировании системы. При больших перемещениях величина этого зазора мо- может оказаться несущественной. 1.* о —> С Л b {Г У и У X Рис. 2.2.2 Рис. 2.2.3 Однако следует иметь в виду, что влияние зазора может и не ограничи- ограничиваться описанным явлением. Дело в том, что во время "выбирания" зазора (на горизонтальном отрезке графика, представленного на рис. 2.2.3) ведомый элемент механической передачи отключается от ведущего и, следовательно, уменьшается статическая и динамическая нагрузки на ведущий элемент. При математическом описании учет этого факта приводит к тому, что для разных участков траекторий требуется выписывать свои уравнения движения. Следующий тип нелинейностей присущ механическим колебательным звеньям. Это сухое трение. Графически оно описывается так, как это пред- представлено на рис. 2.2.1, (а или б), причем важной его особенностью является то, что сила трения F может принимать любое значение в пределах — с ^ F ^ с, в каждый данный момент времени равное сумме всех других действующих сил. Теперь проиллюстрируем на примере еще один распространенный тип нели- нелинейности, встречающихся в системах автоматического управления.
84 Гл. 2. Основы теории устойчивости Речь пойдет о характеристике двухфазного индукционного двигателя (рис. 2.2.4) для разных значений управляющего параметра и и угловой ско- скорости и. Линеаризуя характеристику, обычно считают, что крутящий момент определяется формулой М = с\и — с^оо, справедливой в первом приближении только для левого участка характеристики. Если же используется большая часть характеристики, то необходимо учесть ее нелинейность. \М О О Рис. 2.2.4 Имея в виду, что в характеристике, представленной на рис. 2.2.4, а, с уве- увеличением uj коэффициент с\ уменьшается, а коэффициент с2 увеличивается, примем для описания следующее нелинейное выражение: М = и - (с2 1 + Со | 00 (абсолютное значение ии в коэффициенте поставлено потому, что ии может изме- изменять знак, а сам коэффициент при этом должен оставаться положительным). Тогда дифференциальное уравнение двигателя Job = М, где J — момент инер- инерции всех вращаемых двигателем масс, приведенных к валу двигателя, можно записать в виде Job + J|cj|o; + Jc^oo -\- (c\Cq + сз)|с^|о; + cocsou3 = с\и. Здесь имеются три нелинейных функции: F1 = \cu\cb, F2 = \cu\cu, F3=cu3. Графики второй и третьей из них изображены на рисунке 2.2.4, б. График первой представлен на рис. 2.2.4, в. Рассмотренные типы нелинейностей звеньев систем управления дают неко- некоторое представление об их особенностях. Ясно, что можно было бы привести и другие примеры. Однако в них нет особой необходимости. То, что показано, иллюстрирует и многообразие, и сложность встречающихся нелинейностей. 2.2. Общая характеристика систем автоматического управления. При математическом описании любых процессов и систем следует помнить, что в природе, вообще говоря, все нелинейно. Линейными законами мы обычно пользуемся лишь для приближенного описания зависимостей. Поэтому искусство специалиста при математическом моделировании про- проявляется прежде всего в том, насколько правильно он учел влияние различных факторов, сумел ли естественным образом ограничиться линейными зависи- зависимостями там, где линеаризация не приводит к существенным погрешностям,
2. Характеристика нелинейных систем автоматического управления 85 L а N * б Рис. 2.2.5 правильно ли учел те нелинейности, линеаризация которых приводит к прин- принципиальным ошибкам. Анализ зачастую приводит к тому, что при описании системы управления для одних ее звеньев получаются линейные уравнения, а для других — нелинейные. Вся система уравнений, описывающая управляемый процесс, может быть разбита на две подсистемы. Одна из них линейна, другая содержит нелинейности. В частности, весьма широкий класс нелинейных систем, встречаю- встречающихся в прикладных задачах теории управле- управления, можно записать в виде3) ^ _ рх -\-Ь?, а = с*ж, B.1) ? = ip(a,t). B.2) Здесь х — n-мерный вектор, характеризующий состояние системы, Р — по- постоянна матрица размерности п х п, Ъ и с — постоянные n-мерные векто- векторы, (/?(сг, i) — непрерывная not и нелинейная по а функция. Уравнения B.1) описывают ли- линейную часть системы. Их можно представить в виде некоторого блока (L) (рис. 2.2.5, а). На вход этого блока подается сигнал ?(?), а выхо- выходом является сигнал <т(?), который однозначно определяется сигналом ?(?) и начальным усло- условием x(to) = x°. Нелинейная часть B.2) систе- системы может быть изображена в виде блока (N) (рис. 2.2.5, б) с входом a(t) и выходом ?(?). Вся система B.1), B.2) описывает замкнутую систему управления, структура которой пред- представлена на рис. 2.2.6. Кстати отметим, что эта система являются объектом многочисленных исследований 4). Во многих случаях те или иные свойства таких систем устанавливаются с помощью линейных неособенных преобразований. Здесь мы укажем два пре- преобразования, которые приводят систему к двум каноническим формам. Пусть ранг матрицы М = {6, РЬ,..., Р71} равен п и ап = — характеристический полином матрицы Р. Пусть, далее, 1 N а Рис. 2.2.6 CL2 N = ап-1 апл ап О \ап О О О ) См., например, уравнения B.7) и B.8) в гл. 3. ) См., например: Гелиг А.Х., Леонов Г.А., Якубович В.А. Устойчивость нелинейных систем с неединственным состоянием равновесия. — М.: Наука, 1978.
86 Гл. 2. Основы теории устойчивости Тогда преобразование х = Tz, где Т = MN, приводит уравнение х = Рх + Ь? к виду 0 0 0 —а0 1 0 0 —ах 0 1 0 -а3 0 0 1 ... —ап \ -1/ z + / \ 0 0 0 1 Z = При этом оказывается, что если ранг матрицы М меньше п, то такого преоб- преобразования не существует. Таким образом, система B.1), B.2) преобразованием х = Tz может быть приведена (если выполнены указанные выше условия) к первой канонической форме /О 1 0... 0 \ / 0 \ а = е где е — постоянный вектор. Вторая каноническая форма системы B.1), B.2)) имеет вид /О 0 ... О -а0 \ 1 0 ... О -ах z = 0 1 ... О -а3 О О К~ао О О 1 О -а2 ... О 1 -an- -anil z + О О \О О ... 1 -ап-х) сг=(О О ... О l)z = zn, где а7 — постоянный вектор. Оно получается преобразованием где Q = {с, Р*с,..., Р71*^}. При этом ранг матрицы Q должен быть равен п. 3. Устойчивость по Ляпунову. Основные определения Рассмотрим процесс, который описывается уравнением V = f(t,y), C.1) где у = {г/i,..., гуп}, а функция f(t,y) определена в цилиндре Z = It x Dyi It = [to, сю). Здесь Dy — открытая область в Еп. Будем предполагать, что в этом цилиндре компоненты fi(t,y) вектор-функции f(t,y) непрерывны not и имеют ограниченные первые производные по остальным аргументам. При этих условиях справедлива теорема Коши: каждой системе значений (to,ty°) E Z соответствует единственное решение у = y{t,to,y°), C.2) определенное в некотором интервале (to, to + a) € It и удовлетворяющее на- начальному условию y(to,to,V°)=Vo- C-3)
3. Устойчивость по Ляпунову 87 В фазовом пространстве переменных г/1,...,г/п решение C.2) определяет интегральную кривую y(t) (рис. 2.3.1), проходящую через точку у0. Стрел- Стрелкой на этой кривой отмечено направление движения точки y(t) с возраста- возрастанием t. Если оказывается, что точка y(t) принадлежит некоторому компакту К С Dy при любом t G (to, to + Ь) и расстояние d этого компакта до границы области Dy положительно (см. рис. 2.3.1), то можно положить Ъ = сю, т. е. продолжить решение C.2) на полубесконечный интервал [to, сю). В теории устойчивости каждое решение уравнения C.1) принято называть движением, причем если какое—либо движение выбрано заранее, то его назы- называют невозмущенным, в то время как все остальные движения по отношению к нему называются возмущенными. Т У О Рис. 2.3.1 Рис. 2.3.2 Это означает, что если выбрана точка у0 и тем самым определено реше- решение C.2), удовлетворяющее условию C.3), то оно называется невозмущенным движением. Все остальные решения того же уравнения C.1) (т. е. удовлетво- удовлетворяющие другим условиям при t = to) называются возмущенными движения- движениями. Определение 3.1. Решение (невозмущенное движение) rj(t), to ^ t < оо, уравнения C.1) называется устойчивым по Ляпунову, если для любого е > О существует 5(s, to) > 0 такое, что все решения (возмущенные движения) у = — 2/@ уравнения C.1), удовлетворяющие условию5) \\y(to) — т](Ьо)\\еп < S : 1) определены на полуинтервале [to, сю);, 2) удовлетворяют неравенству \\y(t) — rj(t)\\En < ?, to < t < оо. Иначе говоря, решение rj(t) устойчиво, если достаточно близкие к нему в начальный момент времени t = to решения целиком погружены при t > to в заранее заданную сколь угодно узкую трубку, построенную вокруг реше- решения rj(t) (рис. 2.3.2). Кстати отметим, что из устойчивости решения r](t), вообще говоря, не вытекает его ограниченность на бесконечном полуинтервале [to, сю), а из ограниченности решения rj(t) не следует его устойчивость. Пример 3.1. Уравнение у = —у + t + 1 имеет решение rj(t) = t, которое, очевидно, неограниченно возрастает при t ^ оо. Оно удовлетворяет началь- начальному условию 7]@) = 0. Выберем произвольно малое е > 0 и построим реше- решение того же уравнения, удовлетворяющее условию г/@) = у0. Оно имеет вид 5) В дальнейшем символом ЦаЦ^п, где а = {а\,. .. ,ап}, обозначается величина JY1 а\-
88 Гл. 2. Основы теории устойчивости Легко видеть, что \у@) — 7/@I = \у°\ и \y(t) ~ vityl ^ У° ПРИ to ^ t < оо. Поэтому в качестве 5 здесь можно взять е, и тогда для всех у0, для которых |г/@) - г/@)| = \у°\ < S = е, будем иметь \y(t) - rj(t)\ < е. Это означает, что неограниченное решение rj(t) = t исходного уравнения является устойчивым. Определение 3.2. Если для решения, удовлетворяющего предыдущему определению, число S можно выбрать не зависящим от начального момента времени to Е [а, Ь], то невозмущенное движение называется устойчивым рав- равномерно на отрезке [а, Ь]. Определение 3.3. Решение (невозмущенное движение) rj(t) уравне- уравнения C.1) называется неустойчивым по Ляпунову, если оно не является устой- устойчивым. Это означает следующее. Существует хотя бы одно е > 0 такое, что для любого S > 0 можно указать хотя бы одно решение (возмущенное движе- движение) y(t) и момент времени t = ti(S) такие, что \\y(to) — rj(to)\\ < 8, \y(ti) — -ri(h)\\ > e. Из этого определения, в частности, следует, что неустойчивым является также и то решение y(t), которое не определено при t -^ оо или для которого в любой окрестности точки 7/(to) найдется точка у0, порождающая в момент времени to решение y(t), непродолжимое по t на всю полуось to < t < оо. Определение 3.4. Решение rj(t) уравнения C.1) называется асимптоти- асимптотически устойчивым по Ляпунову, если оно, во-первых, устойчиво и, во-вторых, для любого to E [0, сю) существует число A (to) > 0 такое, что все реше- решения y(t), удовлетворяющие условию \\y(to) — v(to)\\ < Д(^о)? обладают свойст- свойством lim \\y(t) -rj(t)\\ =0. В том частном случае, когда для асимптотически устойчивого реше- решения rj(t) число A (to) можно брать произвольно большим, т. е. можно поло- положить A (to) = сю, решение r](t) называется асимптотически устойчивым в целом. Приведенные определения (устойчивости, неустойчивости и т. д.) реше- решения 7/(t) показывают, что указанные свойства функции rj(t) познаются в срав- сравнении этого решения с другими решениями того же уравнения C.1), которые в начальный момент времени to близки к 7/(to). Это обстоятельство позволяет упростить анализ решений следующим образом. Пусть 7/(t) — невозмущенное движение, которое определяется систе- системой C.1). Тогда fj(t) = /(t,7/(t)). В уравнении C.1) сделаем замену переменной, ПОЛОЖИВ /,ч /о л\ x = y-r](t). C.4) Выполняя необходимые вычисления, уравнение C.1) приводим к виду x = X(t,x), C.5) где X(t, х) = /(*,х + V(t)) - f(t, r](t)). C.6) Из формулы C.6) следует, что все компоненты6) X^(t,#) вектора X(t,6) тождественно равны нулю. Поэтому уравнение C.5) имеет тривиальное реше- решение x(t) = 6, которое в силу формулы C.4) соответствует невозмущенному движению. ) Здесь символом в обозначен вектор с нулевыми компонентами.
3. Устойчивость по Ляпунову 89 Таким образом, преобразованием C.4) уравнение движения системы всегда можно привести к виду C.5), в котором невозмущенным движением является тривиальное решение x(t) = 0. Пример 3.2. Для иллюстрации рассмотрим малые вынужденные колеба- колебания математического маятника, которые описываются уравнением х + х = = sin2?. Вводя новые обозначения у\ = х, у2 — У\^ исходное уравнение за- запишем в виде системы C.1) 2/1=2/2, г/2 =-2/1+sin 2?, C.7) или, что то же самое, у2] \ -1 0 ) \у2) + ^ Пусть невозмущенным движением этого уравнения является функция где О 1 -1 О Так как характеристическое уравнение det (рЕ — А) = 0 имеет корни р\ = = i, p2 = —i, то значениями функции ept на спектре матрицы А являются функции elt и e~lt. Поэтому интерполяционный полином имеет вид r(p) = e%t —; e~2t —— = psint + cost. Отсюда следует, что О А . х (\ 0\ ( cost smt л Л sin t + \ г, л cos t = . , , — 1 Оу \0 1J у —smt cost Следовательно, невозмущенное движение имеет вид — sin' i |[5cosi-2cos2t] В уравнении C.7) делаем замену xi = г/i - - [5 sin ? - sin 2t], x2 = У2 ~ ^ [5 cos t - 2 cos 2t]. В итоге получаем уравнения относительно х\ и ^2 (см. C.5)) ±i = Х2, Х2 = —Х\. Решение x\(t) = x2{t) = 0 этих уравнений соответствует невозмущенному дви- движению rj(t) исходной системы уравнений C.7). В дальнейшем уравнение C.5) называется уравнением возмущенного дви- движения, а соответствующие определения в теории устойчивости для него нес- несколько упрощаются.
90 Гл. 2. Основы теории устойчивости Определение 3.5. Тривиальное решение x(t) = в уравнения возмущен- возмущенного движения C.5) называется устойчивым, если для любого г > 0 существу- существует S = 5(e,to) такое, чта 1) произвольное решение x(t) уравнения C.5), удовлетворяющее усло- условию ||х(?о)|| < S, определено на интервале (to, сю); 2) для таких решений справедливо неравенство ||х(?)|| < ? при to < t < оо. Если, кроме того, справедливо равенство lim x(t) = 0, C.8) t^oo то тривиальное решение называется асимптотически устойчивым, а об- область ||х|| ^ A (to) называется областью притяжения положения равновесия. Здесь Д(?о) — niaxE(?,to), где максимум берется по всем тем ?, для которых ? выполняется условие C.8). Очевидно, что в случае асимптотической устойчивости в целом тривиаль- тривиального решения областью притяжения является все фазовое пространство систе- системы C.5). Здесь вряд ли целесообразно приводить определение неустойчивости три- тривиального решения x(t) = в или равномерно устойчивого того же решения. Читатель легко может сделать это самостоятельно исходя из определе- определений 3.2 и 3.5. Наряду с процессами, которые описываются уравнением C.1), в теории устойчивости рассматриваются еще и процессы, которые описываются уравне- уравнениями вида z = f(t,z) + <p(t,z), C.9) где (p(t, z) удовлетворяет тем же условиям, что и /(t, z). Функция /(t, z) всегда считается заданной, а относительно (/?(t, z) известно лишь, какими свойствами она обладает (максимальное по норме значение, дифференцируемость, перио- периодичность по переменной t и т. д.). Таким образом, функция (p(t,z) характеризует возмущения, которые не- недостаточно точно известны. Однако это не исключает того, что в каких-то частных случаях функция ср может быть задана полностью. С уравнениями подобного типа приходится иметь дело, например, при исследовании устойчи- устойчивости предельных циклов. Определение 3.6. Решение rj(t) уравнения C.1) называется устойчивым при постоянно действующих возмущениях, если для произвольных е > 0 и to G @, сю) можно указать <5i(s, to) > 0 и #2(?,?()) ^ ^ такие, что при ||(/?(t, z)|| < 5i все решения z = z(t) уравнения C.9), которые удовле- удовлетворяют условию ||^(to) — ^(to)|| < #2? определены на промежутке (to, сю) и \\z(t) — rj(t)\\ < е при t0 ^t < ос. Из приведенного определения следует, что если в нем взять (p(t, z) = в, то уравнение (C.9)) будет совпадать с уравнением C.1), а это определение — с определением 3.1. Таким образом, из устойчивости при постоянно действую- действующих возмущениях следует, в частности, устойчивость относительно начальных возмущений. 4. Устойчивость линейных систем Будем рассматривать системы, поведение которых описывается линей- линейными дифференциальными уравнениями вида
4- Устойчивость линейных систем 91 D.1) где A(t) и f(t) непрерывны на полуинтервале [to, сю). Матрица A(t) имеет раз- размерность п х п. Соответствующее уравнение возмущенного движения имеет вид х = A(t)x. D.2) На основании введенных выше определений можно сформулировать сле- следующие очевидные утверждения. Для того чтобы любое решение уравнения D.1) было устойчивым (асимп- (асимптотически), необходимо и достаточно, чтобы было устойчиво (асимптоти- (асимптотически) тривиальное решение уравнения D.2). Поэтому при анализе вопросов устойчивости линейных систем, описы- описываемых дифференциальными уравнениями, достаточно ограничиться анали- анализом тривиального решения уравнения возмущенного движения D.2). 4.1. Общие теоремы об устойчивости линейных нестационарных систем. В общем случае, когда процесс описывается нестационарными урав- уравнениями, практически не удается найти их решения и непосредственным ана- анализом этих решений ответить на вопрос об их устойчивости. Поэтому представляют интерес разнообразные косвенные признаки, с по- помощью которых можно устанавливать, является конкретное невозмущенное движение устойчивым или нет. В этом пункте доказываются некоторые общие теоремы, характеризующие системы D.1) и D.2) с позиций теории устойчивости. Теорема 4.1. Для того чтобы тривиальное решение уравнения D.2) бы- было устойчивым, необходимо и достаточно, чтобы любое его решение было ограниченным. Доказательство. Необходимость. Допустим, что решение x°(t) = О устойчиво. Докажем, что произвольное решение x(t) уравнения D.2) ограни- ограничено. Функцию x(t), как известно, можно представить в виде x(t) = W(t,to)x°, D.3) где W(t,s) — матрица Коши уравнения D.2), а х° — значение функции x(t) при t = to. По предположению для любого е > 0 существует S = 5(s,to) > 0 такое, что ||х(?)|| < ?, как только ||х(?о)|| = ||^°|| < S. Следовательно, согласно форму- формуле D.3) требование ||х(?)|| < ? можно записать в виде ||W(?,?o)x°|| < ?> и по- поэтому матрица W(t,to) ограничена, т. е. существует постоянная М такая, что \\W(t,to)\\ < М при всех t e (?0,оо). D.4) Отсюда находим, что любое решение D.3) ограничено. Достаточность. Пусть любое решение D.3) уравнения D.2) ограничено. Так как каждый столбец матрицы W(t,to) = {wik(t,to)} является решением того же уравнения, то каждый столбец этой матрицы ограничен при t E [to, сю). Поэтому ограничены функции Wik(t,to). Тогда существует постоянная М та- такая, что выполняется неравенство D.4) и, следовательно, ||х(?)|| < М||х°||, to ^ t < сю. Поэтому, если задано е > 0, то, полагая S = еМ~1, находим из D.5), что при условии ||х°|| < S будет выполняться неравенство ||ж(?)|| < е. Таким образом, тривиальное решение уравнения D.2) устойчиво.
92 Гл. 2. Основы теории устойчивости Теорема 4.2. Для того чтобы тривиальное решение уравнения D.2) было асимптотически устойчивым, необходимо и достаточно, чтобы любое его решение обладало свойством lim \\x(t)\\ =0. D.5) Доказательство. Необходимость. Пусть тривиальное решение x(t) = в уравнения D.2) асимптотически устойчиво. Поэтому для произвольного е > 0 существует S = 5(s, to) > 0 такое, что из неравенства ||х°|| < S следует, что 11ж5@11 = l|W(^o)#°|| < е ПРИ всех t из полуинтервала [to, сю), а также lim \\xs(t)||=0. D.6) Пусть теперь x(t) — произвольное (нетривиальное) решение уравнения D.6)). Введем новую функцию *)=р?г("- D7) Она, очевидно, является решением уравнения D.2) и, кроме того, ||z(to)|| = = ||x(to)|| = ||х°||, т. е. решение z(t) в начальный момент находится в ?-окрест- ности начала координат. Следовательно, согласно соотношению D.6)) имеем lim |U(t)|| = 0, а в силу формулы D.7) тем же свойством обладает реше- t^oo ние x{t). Достаточность. Пусть любое решение уравнения D.2) удовлетворяет усло- условию D.5). Так как матрица A(t) непрерывна, то и решение x(t) непрерывно. Тогда для любого е можно указать момент времени t = Т такой, что ||х(?)|| < ? при t > Т, а на отрезке [to,T] это решение как непрерывная функ- функция является ограниченным. Следовательно, существует постоянная М такая, что ||x(t)|| < М для всех t ^ to. Отсюда на основании предыдущей теоремы находим, что тривиальное решение уравнения D.2) устойчиво. Покажем теперь, что для любого е > 0 существует 5 = 5(e,to) такое, что из неравенства ||x(to)|| < 5 следует, что \\x(t)\\<e при t^t0 D.8) lim ||ж(*)|| =0. D.9) t^oo Существование указанного E, при котором справедливо соотношение D.8), вытекает из доказанной устойчивости тривиального решения, а свойством D.9) обладает не только решение типа7) x5(t), но и любое другое решение уравне- уравнения D.2). 4.2. Устойчивость линейных стационарных систем. Допустим те- теперь, что матрица А в уравнениях D.1) и D.2) постоянна, т. е. будем рассмат- рассматривать уравнение У = Ау + № D.10) и соответствующее ему уравнение возмущенного движения х = Ах. D.11) В этом случае, как известно, матрица Коши уравнения D.11) имеет вид ) Здесь символом xs (?) обозначается решение, которое начинается в E-окрестности на- начала координат.
4- Устойчивость линейных систем 93 а общие решения уравнений D.10) и D.11) можно записать так: rt y(t) = eA(t-to)ci + / eA^-s)f(s) ds, x(t) = eA(t-to)c2, D.12) Jt0 где с\ и С2 — произвольные векторы. Таким образом, полный анализ вопроса об устойчивости ранения этих урав- уравнений можно выполнить путем непосредственного анализа поведения функ- функции ем. Это легко сделать, если воспользоваться формулой где р\,..., ps — полный набор корней характеристического уравнения матри- матрицы А. Каждый из полиномов y>j(t) имеет матричные коэффициенты, а его степень не превосходит rrij — 1. Числа rrtj входят в определение минимального многочлена ijj(t) = (р — piI711 ... (р — ps)ms, mi + ... + ms = т ^ п. Предположим, что Reps < ... < Repi = a < 0. D.14) Тогда существуют постоянные М > 0 и е > 0 такие, что а + е < 0, ЫЩер^ < Me(a+e)t, t e (t0, oo). D.15) Поэтому из формулы D.17) получаем ||eAt|| <Mne(a+?)t, te [to, ос). Теорема 4.3. Если все корни характеристического уравнения матрицы А имеют отрицательные вещественные части, то тривиальное решение урав- уравнения D.11) (а следовательно, и любое решение уравнения D.10)) устойчиво асимптотически. Доказательство. Любое решение уравнения D.11) можно представить в виде D.12), и согласно неравенствам D.14) и D.15) имеем \\x(t)\\ < Мпе^а+е^. Отсюда в силу неравенства D.15) следует, что lim ЦхГ^Ц^п. = 0. На основании теоремы 2.2 находим, что тривиальное решение уравне- уравнения D.11) асимптотически устойчиво. Теорема 4.4. Если хотя бы один из корней характеристического урав- уравнения матрицы А имеет положительную вещественную часть, то триви- тривиальное решение уравнения D.11) (а следовательно, и любое решение уравне- уравнения D.1)) неустойчиво. Доказательство. Корни pi характеристического уравнения занумеру- занумеруем так, чтобы Repi < ... < Repr < 0 < 7 = Repr+i < ... < Reps. Тогда, записывая формулу D.13) в виде можно установить следующие факты. Для любого вектора х° существуют постоянные Mi > 0 и Si > 0 такие, что 7 - ?i - ^2 > 0 и s
94 Гл. 2. Основы теории устойчивости при t > Т. Поэтому \\x(t)\\ = \\eA^-to)x°\\ > MieG-?l)(t-to) -M2e?2(t-to) = и выражение, стоящее в скобках в правой части полученного неравенства, с возрастанием t стремится к единице. Отсюда следует, что можно выбрать Т > О и 0 < 5 < 1 такие, что для всех ?, превосходящих Т. Из полученного неравенства следует, что скаляр- скалярная функция (p(t) = ||х(?)|| является неограниченной на полуинтервале [to, сю). Согласно теореме 2.1 тривиальное решение уравнения D.11) является неустой- неустойчивым. Теорема 4.5. Пусть среди корней pi,... ,ps характеристического урав- уравнения матрицы А имеется несколько корней с нулевой вещественной частью, в то время как остальные корни имеют отрицательные веществен- вещественные части. Тогда: 1) если всем корням с нулевой вещественной частью соответствуют простые элементарные делители, то тривиальное решение уравнения D.11) устойчиво, но не асимптотически; 2) если хотя бы одному корню с нулевой вещественной частью соответ- соответствует кратный элементарный делитель, то тривиальное решение уравне- уравнения D.11) неустойчиво. Доказательство. Корни р^г = 1, 2, ..., 5, занумеруем так, чтобы Repi = ... = Repr = 0 > Repr+i > ... > Reps, и рассмотрим сначала случай, когда корням с нулевой вещественной частью соответствуют простые элементарные делители. Тогда формулу D.13) можно представить в виде eAt = 1-[LP-Pj] р=А . У" У" i ^ ^ (ro,- - v - 1)! j=r+l u=0 y 1 ' p=Pj где ф(р) = (p — Pi) • • • (p — Pr){p — Pr+i)mr+1 • • • (p — Ps)ms — минимальный мно- многочлен, a Такое представление функции eAt непосредственно следует из того, что простому элементарному делителю р — pj соответствует первая степень этой разности в минимальном многочлене. Поэтому формулу D.13) в рассматри- рассматриваемом случае можно представить в виде 3=1 3=г+1
4- Устойчивость линейных систем 95 где Cj — постоянная матрица, a (fj(t) — полиномы с матричными коэффи- коэффициентами. Так как корни pi,...,pr имеют нулевые вещественные части, то существует постоянная М такая, что / j i Аналогично, в силу того, что корни pr+i,... ,ps имеют отрицательные ве- вещественные части, существуют положительные постоянные Mi и е такие, что Е j=r+l M Здесь x° — произвольно выбранный, но фиксированный вектор. Поэтому ре- решение x(t) = еА^х° можно оценить следующим образом: М - Мге-^-^ < \\x(t)\\ <M + М1е-^-*0\ Из этого неравенства следует, что функция ||х(?)|| ограничена при всех t G [to, сю) и превосходит положительную величину М^ (где 7 задано) при всех ?, превосходящих достаточно большое число Т > to. С другой стороны, корню Pj = i\±\ можно поставить в соответствие решение вида x(t) = ePjtt; = (cos m\t + sin/ii?)?, где ? — некоторый вектор. Поэтому 11^@11 "~ ll^ll = 0 И5 значит, x(t) не стремится к нулю при t -^ сю. Таким образом, доказано, что в случае, когда корням pi,...,pr соответ- соответствуют простые элементарные делители, решение x(t) = g^(*—*o)^o ограничено на полуинтервале [to, сю). Однако условие D.5) не выполняется, и согласно теореме 2.2 тривиальное решение уравнения D.11) устойчиво, но не асимпто- асимптотически. Пусть теперь хотя бы одному из корней р\,..., ps соответствует кратный элементарный делитель. Для определенности будем считать, что такой дели- делитель соответствует лишь корню р\. Корни pr+i,...,ps имеют отрицательные можно представить в виде р вещественные части. Тогда функцию ем ем = где (fi(t) — полином не ниже первой степени, (f2(t), • • •, (fr(t) ~ полиномы. По- Поэтому функция ||(/?i(t)ePltx0|| неограниченно возрастает при t —> сю хотя бы для одного ненулевого вектора ж0, а в то же время функция остается ограниченной при всех t > to- Отсюда следует, что ||х(?)|| = ||е^*~*°)х°|| —> сю при t —> сю, и, значит, тривиальное решение уравнения D.11) неустойчиво. Доказанные теоремы дают исчерпывающую информацию по вопросу ус- устойчивости решения линейного уравнения с постоянными коэффициента- коэффициентами D.10) и D.11). Вопрос полностью решается анализом свойств корней ха- характеристического уравнения и элементарных делителей матрицы А.
96 Гл. 2. Основы теории устойчивости 4.3. Устойчивость линейных нестационарных систем. В этом пунк- пункте излагаются некоторые результаты по теории устойчивости линейных систем, поведение которых можно описать уравнениями вида y = A(t)y + f(t), t0 < t < оо, где A(t) — непрерывная матрица, a f(t) — непрерывная функция. Соответст- Соответствующее уравнение возмущенного движения имеет вид х = A(t)x, t0 < t < оо. D.16) В основе метода исследования таких систем лежит понятие характеристиче- характеристического показателя, введенного A.M. Ляпуновым. Пусть (p(t) — скалярная функция, определенная на полуинтервале [to, оо). Число се будем называть частичным пределом функции (p(t) при t —> оо, ес- если существует последовательность {?&}, tk —> оо при к —> оо такая, что се = = lim <p(tk). Определение 4.1. Наибольший из частичных пределов се называется верхним пределом функции (p(t) при t —> оо и обозначается се = lim (f(t). t—>оо При этом считается, что: 1) а = — оо, если для любого отрицательного числа Е существует постоян- постоянная Т,Т > t0, такая, что ip(t) < Е при t > Т; 2) а = +оо, если функция (p(t) не ограничена сверху при t —> +оо. Таким образом, согласно определению функция (/?(?), имеющая верхний предел, равный се, может принимать значения, превосходящие а, лишь в конеч- конечном числе точек при неограниченном возрастании t. В то же время существует последовательность {tk}, tk —> оо при к —> оо, такая, что (p(tk) —> се. Аналогично определяется нижний предел C функции ip(t) при t -^ +оо: C= lim Если се = /3, то функция (/?(?) имеет предел при t —> оо и lim (/?(t) = се. t^oo Из этих определений легко получить следующие свойства верхнего и ниж- нижнего пределов. 1. Если ip(t) < фСЪ), то Шп y?(t) < lim Mt). 2. Справедливо неравенство lim [<p(t) + ijj(t)] ^ lim + lim i/j(t). t—>-CX) t—>• — (X) t—>-CX) В самом деле, пусть, например, (/?(?) = sin2t, a -0(t) = cos2 t. Тогда 1 = lim \ip(t) + ^@1 < Em y?(t) + lim гШ = 2. t^oo t^oo t^oo 3. Если функции (p(t) и ijj(t) таковы, что (p(t) ^ 0 и ^(t) ^0 при t > to, то lim Mt)i)(t)} < lim y?m lim Mt). Доказательства всех этих свойств верхнего предела достаточно просты, и приводить их не будем. Определение 4.2. Функция х[/], определяемая формулой называется характеристическим показателем функции f(t), которая задана на полуинтервале [to, оо).
4- Устойчивость линейных систем 97 Пусть f(t) = е^а+г^^, где а и C — постоянные. Тогда очевидно, что \f(t)\ = = eat и, следовательно, %[/] = а. В соответствии с определением характеристический показатель является функционалом, который задан на множестве функций |/(?)|, to < t < сю. Отметим основные его свойства. 2- x[cf] — х[/] Для любой отличной от нуля постоянной с. 3. Если |/(?)| < \F(t)\ при ? > Т, то *[/] < x[F]- 4. Если х[/] = oi ф ±оо, то: 1) для любого г > 0 справедливо равенство D-17) e 2) существует последовательность {?&} ^ сю такая, что T.e. х\Щ]=оо, D.18) и, обратно, если для некоторого а при любом е выполнено соотношение D.10), т0 x[f] ^ а-> если же, кроме того, имеет место соотношение D.18), то %[/] = а. Первые три свойства характеристического показателя не нуждаются в до- доказательстве. Они очевидны. Докажем лишь четвертое свойство. Пусть x[f] — а- Отсюда, согласно определению 4.2, находим, что для про- произвольно малого, заранее выбранного е > 0 будем иметь ln|/(t)|<a+| при t>T, lim il где Т — достаточно большое число, которое выбирается в зависимости от е. Из двух последних соотношений находим, что ( \f(t)\ <e(«+e/2)t при t>T^ \\f(tk)\ >e^-?/2)tk при k>N, где N — достаточно большое число, выбираемое также в зависимости от е. По- Полученные неравенства доказывают справедливость соотношений D.17) и D.18). Предположим теперь, что для любого е > 0 справедливо равенство Тогда, очевидно, существуют постоянные с > 0 и Т > 0 такие, что ^ се(а+Ф при t > Т, и, следовательно, %[/] ^ х[се^а+е^] — х[е^а+е^Т] В силу произвольности е отсюда получаем x[f] ^ се- Если, кроме того, выполняется соотношение D.18), то находим, что су- существуют достаточно большие числа N и к такие, что |/(?&)| > ке(уСХ~?Л>'Ьк при всех tk > N и таких, что выполняется условие D.18). Отсюда получаем 1 X[f\> Jim -ln|/(tfe)| = -a-e и, следовательно, %[/] ^ се. Приведенные свойства характеристического показателя позволяют дать ему достаточно наглядную интерпретацию.
98 Гл. 2. Основы теории устойчивости y=\f(t)\ Рис. 2.4.1 Если x[f] = & > 0, то функция у = \f(t)\ возрастает при t —> сю медленнее, чем е(а+?)*^ при произвольно малом положительном е и по некоторой последовательности {?&} —> сю растет быстрее, чем функция у = ^\а-?)г (рис. 2.2.1). Следующие несколько нетриви- нетривиальных свойств характеристического показа- показателя приведем без доказательства. 5. X 6- X fc=i к=1 } к=1 все слагаемые в правой части этого неравенства конечны. 7. Если xifi] и х[/г] ~~ конечные числа, то т | т П Л U E X[fk] при условии, что } Определение 4.3. Характеристическим показателем матрицы называется величина x[F\ = maxxLAfc]- к Если воспользоваться свойством характеристического показателя скаляр- скалярных функций, то можно доказать ряд свойств величины х[-^Ч? среди которых отметим следующие. 1. Если матрица F(t) конечномерна, то %[F(t)] = х[||-^||]? гДе 11-^11 опреде- определяются одной из следующих формул: ||F||=max]T|/ifc|, ik 2-Х 3-Х т UF3 Определение 4.4. Множество всех конечных (т. е. отличных от ±оо) ха- характеристических показателей а^ решения линейного уравнения D.16) назы- называется его спектром или спектром системы, а каждый показатель а^ будем называть характеристическим показателем уравнения. Чтобы пояснить смысл этого определения, напомним, что любое реше- решение x(t) уравнения D.16) можно представить как линейную комбинацию п линейно независимых его решений г=1 где 7г — постоянные, a x1(t),..., xn(t) — линейно независимые решения уравне- уравнения D.16). Каждое решение xr{t) представляет собой вектор (т. е. одномерную матрицу) с п компонентами. Используя перечисленные выше свойства характеристических показате- показателей, находим, что
5. Устойчивость специальных линейных систем 99 X[x(t)] < тахх№Ш, г т. е. характеристический показатель любого решения уравнения D.16) не пре- превосходит максимального из характеристических показателей п линейно неза- независимых его решений. Каждое из п решений xl(t), г = 1,...,п, имеет свой характеристический показатель. Поэтому есть основания полагать, что спектр уравнения D.16) может иметь п характеристических показателей. Теорема 4.6. Если наибольший характеристический показатель а урав- уравнения D.16) отрицателен, то его тривиальное решение x(t) = 0 устойчиво асимптотически. Доказательство. Возьмем произвольное нетривиальное решение x(t) уравнения D.16). Выберем е > 0 такое, чтобы а — е < 0. Тогда с учетом свойства 1 характеристического показателя матрицы име- имеем хЫ = х[|М|] < а — е И5 следовательно, ||ж(?)||е~(а+е^ —> 0 при t —> оо. Поэтому ||х(?)|| —> 0 при t —> оо, и согласно теореме 2.3 тривиальное решение уравнения D.16) асимптотически устойчиво. При анализе вопросов устойчивости для общих нестационарных нелиней- нелинейных систем оказывается полезным так называемое свойство правильности систем, которое определяется следующим образом. Определение 4.5. Линейная система п Xi = ^2 aik(t)xk, г = 1, 2, ..., п, к=1 называется правильной, если сумма ее характеристических показателей (с уче- учетом их кратности) совпадает с нижним пределом среднего значения следа мат- матрицы A(t) = {dik(t)}, т. е. если а1,...,а& — характеристические показатели соответственно кратностей Uj, п\ + ... + п& = п, то для правильной системы ?' п1а1 = lim / Sp A(t)dt. D.19) Пусть, например, система D.18) имеет постоянные коэффициенты. Тогда, очевидно, ее характеристические показатели совпадают с корнями характери- характеристического уравнения det [XE — А] = 0, а правая часть в соотношении D.19) равна Sp А. Поэтому согласно теореме Виетта равенство D.19) для линейной стационарной системы всегда выполняется. Достаточно полная теория характеристических показателей и правильных систем изложена в книге: Былое Б.Ф. и др. Теория показателей Ляпуно- Ляпунова. — М.: Наука, 1966. 5. Устойчивость специальных линейных систем 5.1. Линейные системы с периодическими коэффициентами. Рас- Рассмотрим уравнение D.2), в котором элементы ец& матрицы А являются перио- периодическими функциями времени t с одним и тем же периодом Т, т. е. справед- справедливо равенство A{t + T) = A{t) E.1) для любого момента времени t. Пусть W(t) — матрица Коши уравнения D.2), нормальная при t = 0, т. е. W@) = E, a xk(t) — к-й столбец этой матрицы, который, очевидно, является решением того же уравнения
100 Гл. 2. Основы теории устойчивости — = J±[l)X [I), К — 1, Z, . . . , П, и, следовательно, dxk(t + T) _ k В силу условия E.1) вектор-функция xk(t-\-T) также является решением урав- уравнения D.2). Поэтому существуют векторы иок = {ио\к, • • •, ^nfc}? к = 1, 2, ..., п, такие, что xk(t + T) = W(t)uk, k = 1, 2, ..., п, E.2) т. е. W(t + Г) = W(t)fi, где Полагая в равенстве E.2) t = 0, находим, что хц{Т) х12(Т) ... xln(T) Ы х22(Т) ... Х2п(Т) =щт) хпп(Т)) Эта матрица называется основной, и, как будет показано ниже, она играет важнейшую роль в решении задачи об устойчивости уравнения D.2) с перио- периодической матрицей A(t). Из формулы E.3), в частности, следует, что Q — неособенная матрица. Обо- Обозначим через pi,... ,р& все корни ее характеристического уравнения, и пусть — минимальный многочлен этой матрицы. Если обозначить через X(t) отличную от W(t) фундаментальную матрицу того же уравнения D.2), то ей соответствует своя основная матрица G, опре- определяемая условием X(t + Т) = X(t)C, аналогичным условию E.3). Поэтому можно записать П = W^^W^ + Г), С = Х^^Х^ + Т). С другой стороны, верно соотношение W(t) = Х(?)Х-1@). Вводя обозна- обозначение Р = Х-^О), находим, что П = P^X^ifyXit + Г)Р, т.е. С = РПР'1. Это означает, что существует матрица Р такая, что С имеет нормальную жорданову форму C = diag{C1)...,Cfe}) E.4) где Ci — клетка Жордана размерности rrii x m^, соответствующая корню pi. Если все корни pi,... ,рп простые, то С = diag{pi,... ,рп}. Числа 1 Т = —\npjj j = 1, 2, ..., /с, E.5) называются характеристическими показателями решений 8) системы уравне- уравнений D.2) с периодической матрицей A(t). ) Нетрудно видеть, что Re <x/ является характеристическим показателем решения нестационарной системы в том смысле, в каком он был определен в предыдущем параграфе.
5. Устойчивость специальных линейных систем 101 Так как каждая матрица С г является неособенной, то можно найти мат- матрицы B\,...,Bk такие, что eTBj = Cj, j = 1, 2, ..., к. Вводя матрицу В = = diag {?>ь ..., Bk}j можно записать еТВ = С. E.6) Определение 5.1. Уравнение D.2) и уравнение У = B(t)y E.7) с периодической матрицей B(t) того же периода Т называются эквивалентны- эквивалентными, если существует линейное неособенное преобразование у = S(t)x E.8) с периодической матрицей S(t) периода Т, переводящее уравнение E.2) в урав- уравнение E.7). Лемма 5.1. Уравнения D.2) и E.7) эквивалентны в том и только том случае, когда существуют матрицы X = Ф(?) и Y = &(t) линейно независи- независимых решений этих уравнений с одной и той же основной матрицей. Доказательство. Предположим, что уравнения D.2), E.7) эквивалент- эквивалентны, и пусть Ф(г) — матрица решений уравнения E.1). Обозначим через С ее основную матрицу и в соответствии с преобразованием E.3) положим &(t) = = #(?)Ф(?). Очевидно, что &(t) — матрица линейно независимых решений урав- уравнения E.7) и v{t)(t + т) = s(t + т)Ф(ь + т) = s(t + т)Ф(ь)с = в(г)Ф(г)с = &(t)c. Следовательно, справедливы равенства Ф{Ь + Т) = Ф{Ь)С, ${t){t + Т) = #(*)С, E.9) т. е. уравнения D.2) и E.7) имеют общую основную матрицу. Допустим теперь, что существуют две фундаментальные матрицы решений X = Ф(?) и У = #"(?) уравнений D.2) и E.7) с одной и той же основной матри- матрицей С. Тогда справедливы равенства E.9). Из них получаем <P~1(t)<P(t+ T ) = = #-*(?)#(?+ Т) и, следовательно, #(?)#-*(?) = #(? + Г)Ф"^(^+ Г), т. е. матрица *Sr(t) = \Р(Ь)Ф~1 (t) является периодической с периодом Т. Так как каж:дое уравнение определяется своей фундаментальной матрицей решений, то лемма доказана. Теорема 5.1. Уравнение D.2) с периодической матрицей A(t) периода Т эквивалентно уравнению У = By, E.10) в котором матрица В определяется соотношением E.6), где С — основная матрица уравнения D.2), имеющая нормальную жорданову форму E.4). Доказательство. Пусть X = X(t) — фундаментальная матрица реше- решений уравнения D.2), определяющая основную матрицу E.4), т. е. X(t + Т) = = X(t)C. Отсюда, в частности, следует, что X~x(t + Т) = C~1X~1(t). Покажем, что преобразование E.8) уравнения E.2) в уравнение E.10) опре- определяется матрицей S(t) =eBtX-\t). E.11) Покажем сначала, что S(t) имеет период Т.
102 Гл. 2. Основы теории устойчивости В самом деле, S(t + Г) = eB^T^-\t + Г) = етеВТС^Ф'1^). Отсюда в силу уравнения E.6) получим S(t + Г) = е^Ф^) = #(?). Используя преобразование E.8) с введенной периодической матрицей, бу- будем иметь у = ^—X~\t)x + eBtX~\t)x + e^X-1^)^ = at = BeBtX-\t)x + eBt(t)X-\t)x + eBtX~1(t)A(t)x. E.12) Из того, что X-^^Xit) = Е, имеем X^flXO) + X(t)X(t) = О, и поэтому Если учесть, что X(t) — фундаментальная матрица решений уравне- уравнения E.2), т. е. X(t) = A(t)X(t), то получаем Х^) = -X~1(t)A(t). Следо- Следовательно, из E.12) и последнего соотношения будем иметь у = BeBtX-\t)x, и в силу соотношений E.9) и E.11) имеем у = By, что и требовалось доказать. Полученный результат приводит к сравнительно просто формулируемым условиям в решении задачи об устойчивости уравнения D.2) в рассматривае- рассматриваемом случае. Теорема 5.2. Если все характеристические показатели E.5) уравне- уравнения D.2) с периодической матрицей A(t) имеют отрицательные вещест- вещественные части, то это уравнение асимптотически устойчиво. Если хотя бы один из характеристических показателей имеет положи- положительную вещественную часть, то уравнение неустойчиво. Если уравнение D.2) имеет характеристические показатели с нулевы- нулевыми вещественными частями, но нет показателей с положительными ве- вещественными частями, то уравнение может быть либо устойчивым, ли- либо неустойчивым в зависимости от того, простые или кратные множите- множители р — Pj, Kepj = 0, в характеристическом уравнении. Доказательство. Так как матрица E.11) является периодической и неособенной, то согласно преобразованию E.8) для решения x(t) и y(t) уравне- уравнений D.2) и E.10), связанных формулой y(t) = S(t)x(t), можно указать посто- постоянные М и Mi такие, что \\y(t)\\ < M\\x{t)\\, \\x{t)\\ < Mi||i/(?)||. Отсюда следует, что устойчивость, асимптотическая устойчивость и неус- неустойчивость уравнения D.2) полностью характеризуются матрицей В (точнее, корнями ее характеристического уравнения), т. е. характеристическими пока- показателями матрицы A(t). Полученный результат показывает, что для практического решения задачи об устойчивости уравнения D.2) с периодической матрицей A(t) следует най- найти п линейно независимых его решений. По ним следует составить основную матрицу. Затем нужно найти все корни pj ее характеристического уравнения и вычислить характеристические показатели ctj E.5). Очевидно, что наиболь- наибольшие трудности во всем этом анализе связаны с отысканием решений уравне- уравнения D.2). Тем не менее задача имеет особенности, которые упрощают эту про- процедуру. Дело в том, что для решения задачи об устойчивости уравнения E.10) с постоянной матрицей В не требуется знания точных значений otj. Кроме того, линейно независимые решения, определяющие основную матрицу, нужно знать
5. Устойчивость специальных линейных систем 103 лишь для значений t из конечного интервала @,Т). Это открывает широкие возможности использования приближенных методов решения дифференциаль- дифференциальных уравнений при анализе на устойчивость уравнения D.2). Пример 5.1. Рассмотрим задачу об устойчивости системы х\ = a^2, X2 = ip{t)x\, E.13) где (p(t) — периодическая с периодом Т функция, определяемая формулой ( h при кТ ^t<kT + r, ^~ j-ft при кТ + т ^t < (fc + l)T, где /с = 1, 2, ..., а и h — заданные положительные постоянные, т будем рас- рассматривать как параметр, который может принимать всевозможные значения из интервала @,Т). Построим непрерывную матрицу W(t) линейно независимых решений, оп- определенную при t > 0 и нормальную при t = 0. Очевидно, что / Га \ ch uot a — sh uo . .. — sh uot ch uot . \V a ) где uo = \/а/г — корень характеристического полинома Л2 — ah = 0. Далее строим матрицу Коши Ф(^,г), т ^ ? < Т, решений системы E.13), нормальную при t = т : I [а~ cos uo(t — г) а — sm uo (t — г) v_ -r) cosuo(t-r) \\ а Поэтому продолжение функции W(t) на полуинтервал т ^ t < Т можно по- получить по формуле Wit) = Ф(?,т)И^(т), т ^ t ^ Т, где W(r) = lim W(t). t—>г—о Аналогично продолжим эту функцию на полуинтервал Т ^t < Т + г: I (у I К г It/ -L } V V \-L } ^ -L <^ V ^^ -L П^ ' • Теперь можно выписать уравнение E.2), определяющее основную матри- матрицу Q : W(t + Т) = W(?)S1, 0 ^ t < г. Полагая в нем t = 0, находим, что О = W(T), и в соответствии с формулой E.15) окончательно получаем cos Z ch 771 sin Z sh ттг a — (cos Z sh m + sin Z ch m) а у hч у — (cos Z sh 771 — sin Z ch m) cos Z ch m — — sin Z sh m av y д где Z = uo(T — r), 771 = cjt. Характеристическое уравнение этой матрицы имеет вид р2 — 2р cos Z ch 771 + 1 = 0, и, следовательно, его корнями являются р1'2 = cos Z ch m ± у cos2 Z ch2 m — 1.
104 Гл. 2. Основы теории устойчивости Отсюда находим, что если а;, Т и т таковы, что | cos I ch m\ > 1, то один из корней р\ или р2 по модулю больше единицы, а соответствующий ему харак- характеристический показатель E.5) положителен, и система E.13) в этом случае неустойчива. Если же выполнено неравенство | cos I ch m\ < 1, то корни р\ и р2 являются комплексно сопряженными. Им соответствуют два различных характеристиче- характеристических показателя E.5), которые можно представить в виде uj\^ — — — (hir±i(/?), где pi,2 = re%lf'• В этом случае система E.13) устойчива или неустойчива в за- зависимости от величины г. Именно она определяет знак вещественной части показателей и\^- Пусть, наконец, а;, Т и г таковы, что | cos/ ch m\ = 1. Тогда характерис- характеристическое уравнение имеет один вещественный кратный корень р\Р2 = ±1, и от- ответ на вопрос об устойчивости или неустойчивости системы E.13) в этом случае зависит от того, соответствует этому кратному корню простой или кратный элементарный делитель матрицы Q. Дальнейший анализ этого случая приво- приводить не будем. 5.2. Линейные системы с почти постоянной матрицей. Будем рас- рассматривать систему вида y=(A + B(t))y, E.14) в которой А — постоянная матрица порядка n, a B(t) — непрерывная матри- матрица, характеризующая "малый нестационарный довесок" к матрице А. Матрицу C(t) = A-\- B(t) называют почти постоянной матрицей. Лемма Грануолла-Беллмана. Пусть u(t) и /(?), t0 < t < оо, — непре- непрерывные функции и, кроме того, u(t) ^ 0, f(t) ^ 0. Если выполнено неравенство f(t)u(t)dt, E.15) f где с — положительная постоянная, то u(t) ^cexp f(t)dt E.16) Jto при всех t G [to, сю). Доказательство. Из неравенства E.15) следует, что "(*) < г c + Jlf(t)u(t)dt" Значит, j., ч / ч , ^уи{< ' ^ f(t) dt. E.17) Так как f(t)u(t)dtj=f(t)u(t), то, интегрируя обе части неравенства E.17), получаем In Отсюда непосредственно следует E.16). / f(t)u(t)dt] -Inс </(*). Jto i
5. Устойчивость специальных линейных систем 105 Теорема 5.3. Пусть устойчиво уравнение х = Ах E.18) с постоянной матрицей А и матрица B(t) удовлетворяет условию ||B(t)||dt<oo. Тогда уравнение E.14) таксисе устойчиво. Доказательство. Пусть W(t) — фундаментальная матрица решений уравнения E.18). Тогда из уравнения E.14) получаем y(t) = W(t-to)y(to)+ I W(t-T)B(T)y(T)dT и, следовательно, \\y(t)\\ < \\W{t - to)|| ||г/(*о)|| + f \\W{t - t)B{t)\\ \\у{т)\\ dr. Так как уравнение E.18) устойчиво, то матрица W(t) ограничена и су- существует постоянная к такая, что ||W(?)|| ^ к при t ^ to- Поэтому \\y(t)\\<k\\y(to)\\ + kJ*\\B(T)\\\\Y(T)\\dT, и в силу леммы Грануоллв-Беллмана имеем rt \ / г°° (Г \ f [°° \ I к / \\B(r)\\dr I < k\\y(to)\\ explk \\B(t)\\dtL V Jto J V Jto J что и требовалось доказать. Теорема 5.4. Если уравнение E.18) с постоянной матрицей А асимпто- асимптотически устойчиво и непрерывная матрица B(t) такова, что \\B(t)\\ ^0 при t —> сю, то уравнение E.14) таксисе асимптотически устойчиво. Доказательство. Из условий теоремы следует, что корни характери- характеристического уравнения det (XE — А) = 0 имеют лишь отрицательные веществен- вещественные части. Поэтому, вводя обозначение а = max Rep^, можно указать е > 0, настолько малое, чтобы выполнялось неравенство а + + 2?<0. Так как ем — фундаментальная матрица решений уравнения E.18), то из уравнения E.14) получаем = eAty Jo и, следовательно, °+ [ eA^B(s)y(s)ds Jo Г \\eA(t-s)\\ \\B(s)\\ \\y(s)\\ ds. E.19) Jo Как известно, матрицу еЛ^~г°^ можно представить в виде v=\
106 Гл. 2. Основы теории устойчивости где pij... jPs — все корни уравнения det(XE — А) = 0, a (pu(t — to) — полином с матричными коэффициентами. Поэтому при выбранном е можно указать постоянную с = с(е) такую, что о) при и из неравенства E.19) будем иметь \\y(t)\\ < \\у°\\се^^-^+с f е^^-^\\В(т)\\ \\y(r)\\dr. Jto Отсюда следует, что \\В(т)\\ \\у(т)\\е^+е>'dr f Jo и в соответствии с леммой Грануолла-Беллмана получаем у°\ | ? \\y(t)\\ < с\\у°\\ ехр |(а + e)(t + to)+c? \\B(t)\\ dt]. Так как lim -±— [ \\B(t)\\dt= lim ||Б@|| =0, то при достаточно большом Т = Т(е) справедливо неравенство \\B(t)\\dt<s(t-t0) при *>Т(е), и поэтому ||г/(?)|| ^ с\\Уо\\ ехР \а + 2гд? — to) при ? > i (e). Число е было выбрано настолько малым, чтобы выполнялось неравенст- неравенство а + 2г < 0. Поэтому \y(t)\\ —> 0 при ? —> оо. Теорема доказана. Следствие 5.1. Линейное уравнение с полиномиальными коэффициен- коэффициентами y = (A0+A1t + ...+ Amtm)y, E.20) где Ak, k = 1, 2, ..., m, — постоянные матрицы, асимптотически устой- устойчиво, если все корни уравнения det (A.E — Am) = 0 имеют отрицательные вещественные части. Доказательство. Введем замену —^?m+1 = г. E.21) Тогда уравнение E.20) можно записать в виде где Поэтому В (г) —> 0 при т —> оо, и асимптотическая устойчивость уравне- уравнения E.20) непосредственно следует из теоремы 5.4. Согласно замене E.21) уравнение E.20) также асимптотически устойчиво при t —> оо.
6. Критерии устойчивости 107 6. Критерии устойчивости Будем рассматривать вопрос об устойчивости тривиального решения урав- уравнения х = Ах, F.1) в котором А — постоянная матрица порядка п. Как показано в парагра- параграфе 2, ответ на этот вопрос полностью определяется распределением корней характеристического уравнения Д(р) = det (рЕ — А) на комплексной плоскости р = а + г/3. В частности, тривиальное решение уравнения (F.1) асимптотиче- асимптотически устойчиво тогда и только тогда, когда все корни этого уравнения лежат в левой полуплоскости комплексного параметра р. Основная задача, рассмат- рассматриваемая в настоящем параграфе, состоит в том, чтобы указать ограничения на элементы матрицы А, при выполнении которых все корни полинома Д(р) располагались бы левее мнимой оси комплексной плоскости р. Использование таких ограничений позволяет не решать характеристическое уравнение при ис- исследовании системы на устойчивость. Более того, таким путем удается указать границы значений параметров системы, в которых система остается устойчи- устойчивой. 6.1. Критерий Гурвица. Область устойчивости. Рассмотрим поли- полином f(p) = ao + aip + ... + anpn, an > 0, п > 1, F.2) который, очевидно, не имеет нулевого корня. Теорема 6.1. Если полином F.2) имеет корни лишь с отрицательной вещественной частью, то все его коэффициенты положительны. Доказательство. Пусть pj = —otj ± iCj,j = 1, 2, ...,/, Vi+k — ~7ь k = 1, 2, ..., га, — корни полинома F.2) кратностей Gj и Sk соответственно, причем а3 > 0, /3j > 0, jj > 0. Тогда очевидно, что 3 = 1 к=1 Так как /@) = по > 0, то согласно теореме Виетта а0 а "П 3=1 к=1 и, следовательно, ап > 0. Далее, /(Р) = an П J=l fc=l Отсюда следует, что все коэффициенты полинома F.2) положительны, т. е. а\ > 0, п2 > 0,..., ап > 0. Теорема доказана. Замечание 6.1. Если п = 2, то условия теоремы являются и достаточ- достаточными. Теорема 4.1 дает, вообще говоря, лишь необходимые условия, при выпол- выполнении которых вещественные части корней уравнения f(p) = 0 имеют отри- отрицательные вещественные части. Поэтому она может иметь лишь ограниченное применение в решении вопросов об устойчивости для уравнения F.1). Гораздо более широкое применение получил так называемый критерий Гурвица.
108 Гл. 2. Основы теории устойчивости Чтобы его сформулировать, введем матрицу Гурвица, определяемую фор- формулой 'ах а0 0 ... О \ аз а2 d\ ... О а$ п4 а3 ... О Гп = ап > 0, а0 Ф 0, \«2п-1 в которой ао, ai,..., ап — коэффициенты полинома f(p). При этом считается, что ат = 0, когда т > п и т < 0. Критерий Гурвица. Для того чтобы все корни уравнения f(p) = O име- имели только отрицательные вещественные части, необходимо и достаточно, чтобы выполнялись неравенства 0 Г1=а1> 0, Г2 = ах а3 а0 а2 > 0, Г3 = ах а3 а5 а0 а3 F.3) Доказательство этого утверждения приводить не будем, а ограничимся лишь анализом примера. Однако сначала сделаем одно важное замечание. Если в уравнении f(p) = 0 сделать замену р = г, то оно преобразуется к виду cp(z) = aozn + a\zn~1 + ... + an = 0, и каждому корню pj (Repj < 0) уравнения f(p) = 0 будет соответствовать корень Zj, (Rezj < 0) уравнения y?(z) = 0 той ж:е кратности. Поэтому в критерии Гурвица вместо неравенств F.3) можно брать = an_i > 0, Г2 = Пример 6.1. Используя критерий Гурвица, укажем те значения коэффи- коэффициентов q, г и 5, при которых уравнение А(р) = р3 + ^р2 + гр + 5 = 0 имеет корни лишь с отрицательными вещественными частями. В соответствии с критерием Гурвица находим, что должны выполняться неравенства s > 0, г > 0, т. е. должны выполняться неравенства s>0, r>0, s < rq. В пространстве трех переменных q, r и s полученные неравенства выделя- выделяют область, которая ограничена положительной частью координатных плос- плоскости q = 0 (т. е. ту ее часть, в которой s > 0 и г > 0) и гиперболическим параболоидом s = rq (рис. 2.6.1). Если точка с координатами g, r и s попа- попадает внутрь этой области, то соответствующий ей полином А(р) имеет корни только с отрицательными вещественными частями. Точке, лежащей вне этой области и ее границы, соответствует полином А(р), у которого хотя бы один из корней имеет положительную вещественную часть. Если же точка лежит на границе области, то соответствующие ей корни полинома А(р) не все имеют от- отрицательные вещественные части. Среди них хотя бы один корень, у которого нулевая вещественная часть. г 1 S q >0, г 1 0 S q 0 0 0 1
6. Критерии устойчивости 109 Рис. 2.6.1 Используя полученный результат, можно решать вопрос об устойчивости системы F.1), если известны все элемен- элементы матрицы А. Для этого достаточно составить характеристический полином, привести его к виду E.2) и проверить неравенства F.3). Однако критерий Гурвица позволя- позволяет получить нечто большее. При проектировании системы управ- управления у проектировщика есть возмож- возможность варьирования ряда параметров системы. Поэтому в системе F.1) не все элементы матрицы А оказываются за- заданными. Некоторые из них могут принимать значения из заданного множе- множества. Тем самым у проектировщика есть возможность выбирать конкретные значения параметров, чтобы при сохранении свойства устойчивости системы добиться улучшения других ее характеристик. Определение 6.1. Если матрица А в уравнении F.1) зависит от к пара- параметров Ai, ..., А/с, т. е. А = A(Ai,,..., А), то область значений вектора А = = {Ai,..., А&} в пространстве Ек, при которых характеристический полином det (рЕ — А) имеет корни только с отрицательными вещественными частями, называется областью устойчивости системы F.1) в пространстве Ек пара- параметров Ai, ..., Xk- Оказывается, что во многих случаях критерий Гурвица можно использо- использовать при практическом построении области устойчивости конкретных систем. Пусть, например, требуется найти область устой- устойчивости системы уравнений х = —х + ау, у = /Зх— —у + ах, z = /Зу — z, в пространстве параметров а и C. Характеристический полином этой системы мож- можно привести к виду Д(р) = (р — 1)(р2 — 2р -\-1 — 2аC). Отсюда находим, что его корни имеют отрицатель- отрицательные вещественные части, если параметры а и C удовлетворяют неравенству 1 — 2аC > 0. В плоско- плоскости переменных аО/3 это неравенство определяет об- область G, заключенную между двумя ветвями гипер- гиперболы (рис. 2.6.2). Поэтому, если (а,/3) G G, то рас- рассматриваемая система асимптотически устойчива. Практическое использование критерия Гурвица связано с необходимостью вычислять определители в неравенствах F.3), а точнее, находить знаки этих определителей. Такие вычисления делать сравнительно легко, если порядок си- системы F.1) сравнительно невысок. Однако для систем высокого порядка такие вычисления становятся слишком обременительными. В этом случае предпо- предпочтительнее оказывается критерий Михайлова, к анализу которого мы и пере- переходим. 6.2. Критерий Михайлова. В формуле F.2) положим ап = 1, р = га;, где г = \/-~Т- Тогда функция w = /(го;), 0 ^ и < сю, в комплексной плоскости G Рис. 2.6.2
по Гл. 2. Основы теории устойчивости w = и + iv опишет кривую, которая называется кривой (годографом) Михай- Михайлова. Для дальнейшего анализа этой функции будем пользоваться ее двумя представлениями w = и (со) + iv(uo) и w = D(uj)e%^u\ где -D(o;) — модуль функции, а ф(ио) — ее аргумент. Так как /(га;) — полином степени п, то можно записать /(га;) = (га; - pi)... (га; - рп), F.4) где pi,...,pn ~~ корни полинома /(р), среди которых могут быть и крат- кратные, т. е. каждый корень в этой формуле упоминается столько раз, какова его кратность. Полагая гио — pv = Dv(uo) ехр {г^^До;)}, находим, что /(го;) = D(oo)el^(UJ\ где D(u) = АН ... ^Н, ^Н = V>iH + • • • + iM- Теорема 6.2. Efc/ш полином f(p) не имеет чисто мнимых корней, то угол поворота ненулевого вектора w = /(го;) против хода часовой стрелки при изменении ио от 0 до оо равен = -(гс-2т), F.5) а<о где т — число корней полинома F.2) с положительной вещественной частью с учетом их кратности. В этой теореме следует обратить особое внимание на предположение о том, что полином f(p) не должен иметь чисто мнимых корней. Доказательство. Так как f(p) имеет вещественные коэффи- коэффициенты, то его комплексные корни попарно сопряженны. Пусть р\ = = —а — г/3 и р2 = —а + г/3 — пара таких корней и C > 0. Тогда пару соответствующих сомножителей в разложении F.4) можно представить в виде fi(iuo) = Рис. 2.6.3 = (гио — а — гC)(гио — а + г/3). При о; = 0 начальное положение векто- векторов, соответствующих корням р\ и ?>2> определим точками Ai и А 2 (рис. 2.6.3). С увеличением ио каждый из векторов р\(ио) = гио — (—а + г/3), рг(^) = го; — (—а — г/3) поворачивается. Однако его проекция на вещественную ось остается неизменной. Если а < 0, то полный угол поворота первого вектора при ио —> оо составит тг/2 + 7, а второго — тг/2 — 7- При этом поворот происходит против хода часовой стрелки. Значит, вектор fi(ioo), соответствующий произведению F.5), повернется против хода часовой стрелки на угол тг/2 + 7 + тг/2 — 7 = 2тг/2. Аналогично в случае, когда а > 0, полный поворот этого вектора по ходу часовой стрелки составит тг/2 — 7 + ^/2 + 7 = 2тг/2, т. е. угол поворота этого вектора против хода часовой стрелки составит — 2тг/2. Если корень р% является вещественным, то вектор, который соответствует биному гио — рз в разложении F.5), при гио = 0 расположен на вещественной оси (рис. 2.6.4). С увеличением ио этот вектор поворачивается по ходу часовой стрелки, если рз > 0, и против ее хода, если рз < 0. При этом его проекция на
-р3 6. Критерии устойчивости 111 вещественную ось остается постоянной. В пределе при ио —> сю вектор гио — рз становится ортогональным вещественной оси. Поэтому если полином F.2) имеет т корней с положительной веществен- вещественной частью, то им соответствует в разложении т биномов. Каждому из этих биномов в свою очередь соответствует вектор вида {гио —рк)- При изменении ио от 0 до сю сумма углов поворота всех Рз и ^ гк Рз этих векторов составит (п — т)тг/2. Следовательно, полный угол по- поворота вектора, определяемого поли- полиномом F.4), составляет (п — т)тг/2— —ттг/2 = (п — 2т)тг/2, что и требова- г лось доказать. а " Здесь уместно отметить, что пред- предположение об отсутствии чисто мни- Рис. 2.6.4 мых корней является принципиаль- принципиальным, так как корню видар^ = г/3 в разложении /(го;) на простейшие множители будет соответствовать выражение г (оо — /3), которое определяет вектор, распо- расположенный на мнимой оси. При изменении оо этот вектор все время остается на мнимой оси. Из доказанной теоремы непосредственно следует Критерий Михайлова 1. Для того чтобы полином Д(р) = det {pE — А) системы F.2), не имеющий чисто мнимых корней, имел лишь корни с от- отрицательными вещественными частями, необходимо и достаточно, чтобы при изменении ии от 0 до оо вектор Д(го;) поворачивался на угол птт/2 против хода часовой стрелки. Этот критерий устойчивости оказывается часто удобнее критерия Гурвица при решении конкретных задач, особенно в том случае, когда система F.2) имеет высокую размерность. Некоторые упрощения, связанные с применением критерия Михайлова, можно получить следующим образом. Записывая функцию w = f(iuj) в виде w = и{ио) + iv(uj), F.6) рассмотрим в комплексной плоскости w вектор с компонентами и(оо) и v(u). Конец этого вектора при изменении о; от 0 до оо описывает кривую (годограф) Михайлова, и пусть при этом полный его поворот против хода часовой стрелки равен птг/2. Так как по предположению полином F.3) является вещественным и не имеет чисто мнимых корней, то v@) = 0, и, следовательно, годограф Михайлова всегда начинается на вещественной оси. Для определенности будем считать, что и(и) > 0. С увеличением ии век- вектор {и(ш), v(uu)} поворачивается против хода часовой стрелки (разумеется, для устойчивой системы), и при некотором значении ио = = ио\ годограф Михайлова пересекает положительную часть мнимой оси, т. е. получаем и(ио\) = 0. При дальнейшем увеличении ио годограф Михайлова пересекает отрица- отрицательную часть вещественной оси, т. е. при некотором ио = ио^ > оо\ будем иметь v{uo2) = 0. Затем при ио = ио^ > 002 аналогично получаем и(ооз) = 0. Таким образом, с увеличением оо от 0 до сю нули полиномов v(oo) и и(оо) че- чередуются, причем v@) = 0, а кривая Михайлова представляет собой спираль, которая наматывается на начало координат с увеличением ио от 0 до сю. При
112 Гл. 2. Основы теории устойчивости этом для устойчивой системы угол поворота вектора {и(ои),у(ои)} описываю- описывающего годограф, должен быть равным птг/2. Следовательно, критерий Михайлова можно сформулировать следующим образом. Критерий Михайлова 2. Если полином w = /(го;), представленный в виде F.6), не имеет корней с нулевой вещественной частью, то для то- того чтобы все его корни имели отрицательные вещественные части, необ- необходимо и достаточно, чтобы кривая Михайлова последовательно пересека- пересекала п квадрантов комплексной плоскости w = и{ио) + iv(ui), а корни уравнений и(и) = 0, v(u) = 0 должны чередоваться, причем v@) = 0 (рис. 2.6.5). В дополнение к изложенному здесь уместно отметить, что по кривой Михайлова можно судить также и о том, сколько у полинома F.2) корней с положительной веще- вещественной частью. Для нахождения этого числа т нужно использовать зависимость F.5). Если известен суммар- суммарный угол ф < птг/2, то, рассматривая F.5) как уравнение относительно га, находим количество корней с положи- положительной вещественной частью. ПРИМЕР 6.2. Получить условия устойчивости для си- системы, характеристический полином которой имеет вид Д (р) = ТгТ2р3 + (Ti + Т2)р2 + р + fe, Рис 2 6 5 где ^i и ^2 ~ постоянные времени. Имеем Д(го;) = и(ш) + iv(u), где и(и) = к - (Ti + Т2)ио2 и v(u) =u(l -TiT2cj3). Условия устойчивости состоят в том, что корни уравнений v(u) = О, u{uj) = 0 чередуются @ = ио\ < ио2 < шз)- Из уравнения и(и) = 0 находим положительный корень uj2 = \Jkj(T\ + Т2). Отсюда получаем первое условие устойчивости к > 0. Корень ous определяется уравнением v(u) = 0, и поэтому Так как должно выполняться неравенство ои2 < ^з5 т0 получаем второе условие устойчивости к < (Ti + T^XTiT^). В пространстве параметров /с, Т\ и Т2 полученные условия устойчивости определяют область устойчивости рассматриваемой системы. 7. Устойчивость нелинейных систем Будем рассматривать уравнение вида x = f(t,x), f(t,6) = e, G.1) где х = {xi,..., хп} — вектор в Еп, а 0 — нулевой элемент в Еп. Кроме того, будем предполагать, что функция f(t,x) определена в цилиндре Z = ItxDx, it = [to, oo), G.2) где Dx — некоторая окрестность начала координат в Еп, и в этом цилиндре она непрерывна по t и ее компоненты /Д?, ж), г = 1, 2, ..., п, имеют ограниченные производные по остальным аргументам. Очевидно, что функция x(t) = 0 G.3) является решением уравнения G.1) и, значит, это уравнение можно рассмат- рассматривать как уравнение возмущенного движения.
1. Устойчивость нелинейных систем 113 В том случае, когда функция / не зависит от ?, систему называют авто- автономной. Ее уравнение возмущенного движения имеет вид x = f(x), № = 6. G.4) 7.1. Функция Ляпунова. Вопрос об устойчивости невозмущенного дви- движения уравнения G.1)) решается просто, если это уравнение удается практи- практически решить при произвольном начальном условии ж(*0) = х°, где х° G Dx. Тогда непосредственный анализ решения x(t) позволяет устано- установить устойчиво или неустойчиво тривиальное решение G.3). Однако функцию х = x(t) удается найти лишь в исключительных случаях. Поэтому приходится пользоваться косвенными показателями для получения условий устойчивости системы G.1). A.M. Ляпунов предложил метод решения задачи об устойчиво- устойчивости, основанный на анализе вспомогательных функций. Этот метод получил название второго метода Ляпунова, а вспомогательные функции, с помощью которых исследуется система G.1), называются функциями Ляпунова. Определение 7.1. Действительная непрерывная скалярная функция V = = V(?, х), определенная в цилиндре G.2), называется знакопостоянной (знако- (знакоположительной или знакоотрицательной) в этой области, если V(t, х) ^ О (V(t,x) < 0) при всех (t,x) e Z, причем V(t,0) = 9. Таким образом, знакопостоянная функция V(t,x) принимает в цилинд- цилиндре G.2) значения лишь одного знака (+ или —), а равенство V(t,x) = 0 мо- может выполняться не только при х = 9. Определение 7.2. Знакопостоянная функция V = V(t,x) называется по- положительно определенной (или отрицательно определенной), если существу- существует непрерывная функция W(x) такая, что V(t, х) ^ W(x) > 0 (V(t, х) ^ ^ W(x) < 0) всюду в области G.2), кроме точки х = 9, и V(?, в) = 0 при всех t ^ to. Положительно определенные и отрицательно определенные функции называются знакоопределейными. В качестве W(x) иногда можно брать W(x) = inf V(t,x). Пример 7.1. В пространстве переменных ?, х и у функция V(t, х, у) = х2 + у2 - 2аху cos t, где \а\ < 1, является положительно определенной, так как V(t, х,у) >х2 + у2- 2\а\ \х\ \у\ > (х2 + у2)A - \а\) = W(x) > 0 при х2 + у2 > 0, a V(t, х, у) = 0 лишь при х2 + у2 = 0. Понятию положительно определенной функции можно дать наглядную геометрическую интерпретацию. В самом деле, пусть V(t,x) — положительно определенная функция и V(t,x) > W(x), где W(x) > 0 при х ф 9 и W(9) = 0. Предположим, что поверхности уровня W(x) = с (с > 0) в пространстве Еп представляют собой непересекающиеся поверхности, окружающие начало координат и монотонно расширяющиеся при возрастании с (рис. 2.7.1). Тогда очевидно, что каждая поверхность уровня V(t,x) = с для любого значения па- параметра t будет целиком располагаться в области, ограниченной поверхностью W(x) = с. С изменением параметра t эта поверхность может, вообще говоря,
114 Гл. 2. Основы теории устойчивости деформироваться. Однако она все время нахо- находится в области, ограниченной поверхностью W(x) = с, и охватывает начало координат. Определение 7.3. Будем говорить, что по- положительно определенная функция V(?, х) име- имеет бесконечно малый высший предел при х —> 0, если, начиная с некоторого to, функция V(?, х) при х —> 0 и t > t° равномерно по t стремится к нулю, т. е. для любого е > 0 можно указать 5(е) > 0 такое, что V(?, х) < е при ||х|| < E и всех ?, превосходящих to- Из этого определения в частности следует, что если положительно определенная функция ?, х) не зависит от ?, то она имеет бесконечно малый высший предел. Другое следствие из этого определения состоит в следующем. Если функция V(?, х) имеет бесконечно малый высший предел, то она ограничена в некоторой области вида to < сю, ||х|| ^ h. ПРИМЕР 7.2. Функция Рис. 2.7.1 является положительно определенной и при всех t > 0 удовлетворяет нера- неравенствам х2 + I/2 < V(t,x,y) < 2(х2 + I/2). Поэтому при ж2 + i/2 ^0 имеем V(t, х, г/) -^> 0 равномерно по ?. Следовательно, функция У(?,х,г/) имеет бес- бесконечно малый высший предел. Она, очевидно, равномерно по t ограничена в любой окрестности начала координат. Определение 7.4. Будем говорить, что функция W(t,x) является полной производной функции V(t,x) по ?, составленной в силу уравнений G.1), если ?, x) — непрерывно дифференцируемая функция своих аргументов и Смысл правой части этой формулы состоит в следующем. Пусть х = x(t) = {xi(?),..., xn(?)} — некоторое решение уравнения G.1)). Тогда Xi(t) = fi(t,xi(t),... ,xn(t)), г = 1, 2, ..., п. Подставляя х = x(t) в функцию V(t,x(t)), будем иметь dV(t,x(t)) dV(t,x(t)) Jt dt dV(t, x(t)) dV(t,x(t)) dt dt ,dV(t,x(t)) fo(t,xi(t),... ,xn(t)). Так как в этой цепочке равенств x(t) — произвольное решение уравне- уравнения G.1), то правую часть формулы, определяющей W(?,х), можно рассмат- рассматривать как полную производную по t функции V(?,x), вычисленную вдоль решения уравнения G.1) в произвольной точке х Е Еп. Полагая Qy Qy grad V = I ^—,...,^— [ дхх дхп
7. Устойчивость нелинейных систем 115 функцию W(t,x) можно представить в виде dV W(t,x) = — +/*(*, ж) grad V(t,x), ut где звездочкой обозначена операция транспонирования. Если, в частности, функции / и V явно не зависят от ?, то полная производная, составленная в силу уравнений G.4), также не зависит от t и имеет вид W(x) = f*(x)gradV(x). 7.2. Теоремы Ляпунова. Введенные указанным способом функции Ля- Ляпунова позволяют сформулировать ряд теорем, которые составляют основу теории Ляпунова об устойчивости движения. Первые из них были доказаны A.M. Ляпуновым. Другими авторами были получены разнообразные обобще- обобщения и дополнения этих теорем. Сначала рассмотрим вопрос о достаточных условиях устойчивости. Теорема Ляпунова. Если для уравнения возмущенного движения G.1) существует по- положительно определенная функция V(t,x), до- допускающая бесконечно малый высший предел и такая, что ее полная производная, составлен- составленная в силу уравнения G.1), является знакопо- знакопостоянной функцией знака, противоположного с V(t,x), и таксисе допускающей бесконечно ма- малый высший предел, то тривиальное решение G.3) этого уравнения устойчиво. Доказательство. Пусть е > 0 настоль- Рис. 2.7.2 ко мало, что сфера S?: (\\x\\ < е) принадлежит области DXJ определяющей цилиндр G.2). Так как V(t,x) — положительно определенная функция, допускающая бесконечно малый высший предел, то существует такая непрерывная функция W(x), что V(t,x) > W(x) >0 V(t,9) = W(9) = 0. при < ?, G.5) На поверхности сферы S? функция W(x) достигает своей нижней грани. Пусть inf W(x) = W{x*) = а > 0, G.6) \\х\\=е а г — произвольный момент времени на интервале (to, сю). В силу непрерывности функции V(?, x) в окрестности точки х = в можно указать число S > 0 такое, что 0 ^ V(r, х) < а при ||х|| < 5 < г. Возьмем произвольное решение х = x(t) уравнения G.1), удовлетворяющее условию ||ж(г)|| < S (рис.2.7.2). Покажем, что траектория x(t) остается внутри S? при всех t > г, т. е. ||х(?)|| < ? при г ^ t < оо. Так как S < е и х = x(t) — непрерывные функции, то неравенство ||ж(?)|| < е выполняется при т < t < < ?]_, где t\ — некоторый момент времени. Изучим поведение функции v(t) = V(t,x(t)). Имеем = at
116 Гл. 2. Основы теории устойчивости Здесь неравенство взято в силу того, что по условию теоремы полная произ- производная функции V является постоянно отрицательной. Интегрируя полученное неравенство в пределах от г до ei, будем иметь V(t1,x(ti))^V(T,x(r))<a. G.7) Если бы в момент времени t\ решение x(t) достигало поверхности сферы ||х|| = ?, то согласно соотношениям G.5) и G.6) выполнялось бы неравенство V{tl,x(tl))>W{x*)=a. G.8) Неравенства G.7) и G.8) исключают друг друга. Полученное противоречие означает, что траектория не может достигать сферы S?, и поэтому ||х(?)|| < ? при всех t > т, т. е. тривиальное решение уравнения G.1) устойчиво. Замечание 7.1. Если система автономна, то формулировка теоремы не- несколько упрощается. Для устойчивости тривиального решения уравне- уравнения G.4) достаточно существования положительно определенной функции W(x), полная производная которой в силу этого уравнения является посто- постоянно отрицательной. В этом частном случае теорема допускает простую геометрическую интер- интерпретацию. В достаточно малой окрестности начала координат пространства Еп вы- выберем точку х° и проведем интегральную кривую х = ж(?), удовлетворяющую условию х{т) = х°. Положим V(х°) = с и проведем поверхность уровня V(x) = с. G.9) Она проходит через точку х° (рис. 2.7.2). Полагая u(t) = V(x(t)), находим, что ^ 7(^X0, где Z(x) — постоянно отрицательная функция. Следовательно, u(t) является невозрастающей. Это означает, что с возрастанием t фазовая точка системы, двигаясь по интегральной кривой, может лишь переходить с поверхности уров- уровня G.9) на другую поверхность уровня, каждая из которых лежит в замкнутой области, ограниченной поверхностью G.9), т. е. траектория x(t) все время на- находится в этой области. Пример 7.3. Пусть уравнения возмущенного движения имеют вид х = -х3у2-х2у3, у = х3у2-х2у3. G.10) В качестве функции Ляпунова возьмем функцию V(x,y)=l-{x2+y2). Она, очевидно, является положительно определенной. Вычисляя ее полную производную в силу уравнений G.10), находим, что CLV г о о 9 41 Г Ч 9 9 41 9 9 Г 9 91 — = хх + уу = х [-ж V - х V] + У [х3у2 - х2у3] = -х2у2 [х2 + у2]. Эта функция обращается в нуль в начале координат, а также на каждой из прямых х = 0 и у = 0. В остальных точках плоскости хОу она принимает отрицательные значения. Таким образом, функция V(x,y) удовлетворяет условиям теоремы Ляпу- Ляпунова 1, и поэтому тривиальное решение уравнения G.10) является устойчивым. Следующая теорема дает достаточные условия асимптотической устойчи- устойчивости.
7. Устойчивость нелинейных систем 117 Теорема Ляпунова. Efc/ш дл«я уравнения возмущенного движения G.1) существует положительно определенная функция V(?, х), допускающая бес- бесконечно малый высший предел, полная производная которой, составленная в силу этого уравнения, есть функция U(t, x) отрицательно определенная, так- также допускающая бесконечно малый высший предел, то тривиальное решение уравнения G.1) является асимптотически устойчивым. Доказательство. Из условий этой теоремы следует, что условия первой теоремы Ляпунова здесь выполняются. Поэто- Поэтому тривиальное решениеж(?) = в уравнения G.1) устойчиво. Возьмем произвольную точку (to, х°) в цилиндре G.2) и определим решение х = = x(t) уравнения G.1)), удовлетворяющее на- начальному условию х(т) = ж0, где т — произ- произвольный фиксированный момент времени, при- причем т > to (см. G.2)). Тогда для функции v(t) = V(t,x(t)) будем иметь = dVjtMt)) к 0 at а следовательно, эта функция монотонно убывает с возрастанием t. Так как, с другой стороны, вв* G.11) где U(t,x(t)) — отрицательно определенная функция, то функция v(t) ограни- ограничена снизу и имеет конечный нижний предел lim v(t) = Mv(t) = се > а. G.12) Покажем, что число а не может быть больше нуля. В самом деле, если бы выполнялось неравенство а > 0, то решение x(t) удовлетворяло бы условию \\x(t)\\ >/3> 0 при т<?<оо, G.13) где C — некоторое достаточно малое положительное число. Это означает, что траектория x(t) не попадает в область, ограниченную сферой ||х|| = C (рис. 2.7.3). Следовательно, при всех t > т функция U(t,x(t)) принимает отри- отрицательные значения. Пусть swpU(t,x(t)) = -I. G.14) Очевидно, что I > 0, ибо функция U(t,x) отрицательно определенная и обращается в нуль лишь при х = в. Из предположения, что а > 0, следовало бы неравенство G.13). Поэтому из G.11) находим, что V(t,x(t))-V(r,x(r)) = [ U(s,x(s))ds. J т Учитывая обозначение G.14), отсюда получаем, что V(t,x(t))=V(T,x(T))-l(t-T) при t > т. Это неравенство показывает, что при достаточно большом t функ- функция V(t,x(t)) принимает отрицательные значения, что противоречит условию
118 Гл. 2. Основы теории устойчивости теоремы (V — положительно определенная функция). Полученное противоре- противоречие доказывает, что в соотношении G.12) число а равно нулю и, следовательно, lim v(t) = lim V(t,x(t)) = 0. Так как функция V(t,x) положительно определенная, то отсюда получаем lim x(t) = 0. Тем самым доказана асимптотическая устойчивость тривиаль- ного решения уравнения G.1). Замечание 7.2. Если система автономна и уравнение возмущенного дви- движения имеет вид G.4), то достаточные условия асимптотической устойчивости даются теоремой, аналогичной теореме 8.2, в которой функции V и U явно не зависят от времени. Пример 7.4. Пусть уравнения возмущенного движения имеют вид х = -2х + у, у = -х-у. G.15) На вопрос об устойчивости тривиального решения этой системы можно отве- ответить анализом общего ее решения. Его легко можно построить. Однако здесь мы применим вторую теорему Ляпунова. Возьмем функцию У(х,у)=1-{х2+у2) и вычислим ее полную производную dV i i — = х(-2х -у) + у(-х - у) = -2х - у . Таким образом, функция V(x,y) является положительно определенной, а ее полная производная отрицательно определенной. Поэтому тривиальное ре- решение системы G.15) асимптотически устойчиво. Теорема Ляпунова. Если для уравнения возмущенного движения су- существует функция Ляпунова V(t,x), допускающая бесконечно малый высший предел, такая, что ее полная производная, составленная в силу этого уравне- уравнения, является знакоопределенной функцией и при этом сама функция V(t, x) в произвольно малой окрестности начала координат может принимать значе- значения того же знака, что и V(t, ж), то тривиальное решение x(t) = 0 уравнения неустойчиво. Доказательство. Для определенности будем считать, что V — поло- положительно определенная функция, т. е. V(t,x) > W(x) > 0 при t > t0, \\x\\ < h, \\x\\ ф 0, . , v(t,o) = o, [<ЛЬ) где h — постоянная, причем такая, что шар ||х|| ^ h полностью лежит в цилинд- цилиндре G.2), a W(x) — непрерывная знакоопределенная функция. Так как V(t,x) допускает бесконечно малый высший предел при х —> 0, то для любого Aq < h существует постоянное число М(Ао) > 0 такое, что \V(t,x)\^M, G.17) где t > t0 и ||ж|| < Ао. Пусть S — малое число, удовлетворяющее неравенству S < Aq. Согласно условиям теоремы, существует момент времени г > to такой, что V(г, х°) =
7. Устойчивость нелинейных систем 119 = а > 0, где || ж01| < 5. Через точку х° проведем интегральную кривую х = х(?), имея в виду, что т(т\ — ro llrfY^II < fi G 181 и положим г>(?) = V(t, x(t)). В силу соотношений G.16) функция v(t) монотонно возрастает, и поэтому V(t,x(t)) > V(r, ж0) = се > 0. Покажем, что при некотором t = t\ > т будет выполняться неравенство \\x(ti)\\ > Ао. G.19) В самом деле, если бы выполнялось неравенство ||х|| < Aq при всех t > т, то решение х = x(t) было бы бесконечно продолжаемо вправо, т. е. при t —> оо. Так как V(t,x) имеет бесконечно малый высший предел при ||х|| -^ 0, то из неравенства G.17) следует, что существует постоян- постоянная C > 0 такая, что C ^ ||#(?)Н ^ ^° ПРИ ^ ^ ^°* Пусть ^Ч 7 = inf 0. Тогда, учитывая первое неравенство в G.16), будем иметь V(t, х) ^ 7 ПРИ ^ > ^о и, следовательно, V>0 /' при t > to, что противоречит неравенству G.17). с' Так как число E > 0 любое, а Ао фиксировано, то на основании соотно- соотношений G.18) и G.19) заключаем, что тривиальное решение уравнения G.1) неустойчиво. Замечание 7.3. В доказанной теореме не требуется, чтобы функ- функция V(t, x) была знакоопределенной. Пример 7.5. Пусть уравнения возмущенного движения имеют вид х = х3 + ху2, у = -х2у - у3. G.20) В качестве функции Ляпунова возьмем функцию (рис. 2.7A) V{x,y) = = х2 — у2. Ее полная производная в силу уравнений G.20) представима в виде V = 2{х2-\-у2J. Она, очевидно, является положительно определенной, в то вре- время как сама функция V(x,y) в любой окрестности начала координат принима- принимает положительные значения, хотя и не является ни определенно, ни постоянно положительной. Поэтому тривиальное решение системы G.20) неустойчиво. 7.3. Обобщения теорем Ляпунова. Доказанные выше теоремы Ляпу- Ляпунова дают лишь достаточные условия, при выполнении которых тривиальное решение уравнения G.1) является устойчивым, асимптотически устойчивым или неустойчивым. Многочисленные исследования других авторов привели к различным обобщениям теорем Ляпунова. Здесь отметим некоторые из них. Теорема Красовского. Если для уравнения возмущенного движения G.4) можно найти непрерывную функцию V{x) такую, что V@) = 0, и ее полная производная в силу этого уравнения удовлетворяет условиям: 1) V > 0 вне К; 2) V = 0 на К;
120 Гл. 2. Основы теории устойчивости х2 V >0 0 V > 0 X! Рис. 2.7.5 где К — многообразие точек, не содержащих целых траекторий при to ^ t < < оо, и если при этом можно указать точки а произвольно малой окрест- окрестности начала координат такие, что в них V > О, то тривиальное решение уравнения G.4) неустойчиво9). Строгое доказательство теоремы приводить не будем, а ограничимся лишь ее геометрической интерпретацией (рис. 2.7.5). Пусть х° — начальная точка траектории х = = x(t), V(x°) > 0, и при этом V(x(t)) воз- возрастает с увеличением t. Поэтому фазовая точ- точка M(x{t)) траектории x(t) будет удаляться от начала координат с возрастанием t. Если движущаяся точка M(x{t)) траекто- траектории x(t) попадет на К, то вскоре она должна покинуть это многообразие (оно не содержит це- целых траекторий) и снова начинается удаление точки М от начала координат. Чтобы указать условия, при выполнении которых многообразие К не содержит целых траек- траекторий уравнения G.4), выполним следующий анализ. Пусть V — положительно определенная функция, а V — постоянно отри- отрицательная функция, т. е. она принимает нулевые значения не только в начале координат. Совокупность всех точек ж, при которых V(x) = 0, определяет мно- многообразие К. Для того чтобы установить, содержит или не содержит К целые траекто- траектории уравнения G.4), достаточно ввести уравнение многообразия (т. е. уравне- уравнение V(x) = 0) непосредственно в уравнение G.4). Если получаемое при этом уравнение обращается в тождество, то многообразие К содержит целые тра- траектории. В противном случае оно не содержит таковых. В частности, если К можно представить как поверхность в фазовом про- пространстве, заданную уравнением Ф(х) = 0, то вектор grad Ф(х) представляет собой нормальный к этой поверхности вектор, исходящий из точки х Е К. С другой стороны, если фазовая траектория L уравнения G.4) находится на этой поверхности, то вектор скорости V точки М Е L будет ненулевым. Поэтому условие непринадлежности целых траекторий уравнения G.4) многообразию К состоит в том, что скалярное произведение (У, grad Ф(х)) не тождествен- тождественно равно нулю. Другое обобщение теоремы Ляпунова принадлежит Н.Г. Четаеву и заклю- заключается оно в следующем. Теорема Четаева. Если для уравнения возмущенного движения G.4) можно найти функцию Ляпунова V(ж), для которой в сколь угодно малой окрестности начала координат существует область, где V > 0, и если пол- полная производная V в силу этого уравнения положительна во всех точках области V > 0, то его тривиальное решение неустойчиво. Пример 7.6. Пусть уравнения возмущенного движения имеют вид = ху2 G.21) Красовский Н. Н. Некоторые задачи теории устойчивости движения. — М.: Физмат- гиз, 1959.
7. Устойчивость нелинейных систем 121 В качестве функции Ляпунова возьмем функцию V(x,y) = х2 — у4. Линиями х = у2 и х = — у2 окрестность начала координат разбивается на области, где V(x,y) > 0 и V(x,y) < 0 (рис. 2.7.6). Вычисля- Вычисляем полную производную функции V в силу уравне- уравнений G.21): V = 2х(х2 + 2уъ) - 4у3ху2 = 2х3. Эта производная положительна при х > 0 и любых значениях у. Следовательно, в правой по- полуплоскости, где V > 0, выполнены все условия теоремы Четаева. Тривиальное решение уравнений G.21) неустойчиво. Отметим, что в этом примере функция V не удовлетворяет условиям теорем Кра- совского и Ляпунова о неустойчивости. Теорема Красовского. Если для уравнения возмущенного движения G.4) можно найти по- -^ис- ^-7.6 ложителъно определенную функцию V(x) такую, что ее полная производная V в силу этого уравнения удовлетворяет в окрест- окрестности начала координат условиям V<0 вне К, V = 0 на К, G.22) где К — многообразие точек, не содержащих целых траекторий уравне- уравнения G.4) при to ^ t < сю, то тривиальное решение устойчиво асимптоти- асимптотически. Пример 7.7. Рассмотрим уравнения возмущенного движения х = -х + 3?Д у = -ху- у3 G.23) и функцию Ляпунова V(x,y) = —(х2 + у2). Она является положительно опре- определенной, причем ее полная производная в силу уравнений G.23) представима в виде V = —{х — у2J. Так как производная V не является отрицательно опре- определенной, то воспользоваться второй теоремой Ляпунова не представляется возможным. Попытаемся применить теорему Красовского. Множество К найдем, при- приравнивая нулю производную V: Ф(х,у) = х — у2 = 0. На фазовой плоскости многообразие К определяет параболу. Вне этой парабо- параболы выполняется первое условие G.22). Остается проверить, действительно ли на найденном К нет целых траекторий системы G.23). Очевидно, что grad Ф(х,у) = {1, — 2у}. Вектор скорости U фазовой точки системы уравнений G.23) можно представить в виде U(x, у) = {-х + 3?Д -ху - у3}. Следовательно, скалярное произведение ([/, grad Ф) не тождественно равно ну- нулю: ([/, grad Ф) = — х-\-Зу2 -\-ху2 -\-у4 ф 0, а многообразие К не содержит целых траекторий системы G.23) и выполняются все условия теоремы Красовского. Поэтому тривиальное решение системы G.23) асимптотически устойчиво. До сих пор рассматривались вопросы устойчивости в малом, т. е. предпо- предполагалось, что начальное возмущение x(to) берется из шара ||х|| ^ А достаточно
122 Гл. 2. Основы теории устойчивости малого радиуса г = А. Однако использованный выше аппарат функций Ля- Ляпунова позволяет получить более общие результаты. Один из них состоит в следующем. Теорема Барбашина-Красовского. Если для уравнения возмущенно- возмущенного движения G.4) можно найти положительно определенную функ- функцию V(x), удовлетворяющую условию V(x) —> оо при \\x\\ —> оо, G.24) полная производная которой в силу этих уравнений удовлетворяет при всех х двум условиям V < 0 вне К, V = 0 на К, где К — многообразие точек, не содержащих целых траекторий уравнения при to ^ t < оо, то тривиальное решение уравнения G.4) асимптотически устойчиво в целом. Прежде чем переходить к рассмотрению иллюстративного примера, отме- отметим одно важное обстоятельство, связанное с использованием этой теоремы. Речь идет о необходимости условия 7.24. При доказательстве второй тео- теоремы Ляпунова решающее значение имеют два свойства знакоопределенных функций V(х): 1) в окрестности начала координат поверхности V(х) = с являются замкну- замкнутыми; 2) из того, что V(х) —> 0, следует, что ||х|| —> 0. При рассмотрении задачи об устойчивости в целом необходимо учитывать, что координаты xi вектора х могут принимать большие по модулю значения (хотя бы в начальный момент времени). Поэтому если условие G.24) не выпол- выполнено, то может оказаться, что поверхности V(x) = с, замкнутые при достаточ- достаточно малых ||х||, будут разомкнутыми при больших ||х||. В результате значения функции V(х) могут убывать, а изображающая точка М траектории x(t) не будет стремиться к началу координат. Таким образом, условие G.24) не явля- является следствием методики доказательства теоремы, а является естественным требованием к системе G.4). Пример 7.8. Пусть уравнения возмущенного движения имеют вид 2ж . 2х 2у Возьмем функцию Ляпунова . . х о Ее полная производная в силу уравнений G.25) представима в виде и, следовательно, на основании теоремы Ляпунова 7.2 находим, что тривиаль- тривиальное решение системы G.25) асимптотически устойчиво (функия V положитель- положительно определенная, а V является отрицательно определенной). Докажем теперь, что это решение не является асимптотически устойчивым в целом. Для этого рассмотрим поверхность \/ [ X U) — —I— ту — Q 1 + X2
7. Устойчивость нелинейных систем 123 V = с2 < 1 G Рис. 2.7.7 или, решая относительно г/, находим, что У = Отсюда следует, что при 0 < с < 1 поверхности V(х) = с будут замкнуты- замкнутыми, а при с > 1 — разомкнутыми (рис. 2.7.7). Рассмотрим теперь кривую 1 У= Y^x^ и найдем угловой коэффициент касательной к этой кривой: dy 2x к = -у- = -J7-.—о\2- СьХ A ~~г X ) Дифференциальные уравнения G.25) принимают вид 2х 2 G.26) х = — A+х2) 2\2 4, 4 + У A+Х2J A+Х2 Отсюда находим угловой коэффициент касательной к траектории сис- системы G.25) в точках кривой G.26): к* = ^- = — ах { 2х 4 + 2J х2) Сравнивая это выраж:ение с коэффициентом для /с, получаем ,. к* 1 1 km — = - < 1. ж^оо к 4 Значит, найдется достаточно большое положительное число а такое, что будет выполняться неравенство \к*\<к G.27) при х > а.
124 Гл. 2. Основы теории устойчивости Рассмотрим теперь область G, определяемую неравенствами (рис. 2.7.6) х>C^а, гу>2 + ^—^, G.28) где Х2 удовлетворяет соотношению 2/3/A+/32J < 4. Она обладает следующими свойствами. 1. Изображающая точка M[x(t),y(t)] траектории системы G.25) не может пересечь кривую изнутри наружу, так как для этого необходимо, чтобы в точке пересечения угловые коэффициенты к и /с* удовлетворяли условию |fc*| > |fc|, что противоречит неравенству G.27). 2. Точка M[x(t),y(t)] траектории системы G.25), попав внутрь области G, удаляется все время вправо от ее левой границы х = C (рис. 2.7.6). Это следует из того, что при х > C и достаточно большом C выполняется неравен- неравенство 2х/A + х2J < 4, а значит, согласно первому уравнению системы G.25) 2х 2х 2 2 х = ^ + 2у > -— — + 4 + > > 0. A + ж2J A+ж2J 1+ж2 1+ж2 Первое неравенство из этой цепочки получено на основании определения об- области G (см. G.28)), а второе — в силу того, что в области G справедливо неравенство G.28). Из указанных свойств области G следует, что если начальная точка М(хо, г/о) находится в G, то исходящая из нее траектория системы G.25) будет неограниченно удаляться от начала координат, ибо согласно последним нера- неравенствам вдоль этой траектории х > 0. Полученный результат доказывает, что в рассмотренном примере тривиальное решение системы G.25) не является асимптотически устойчивым в целом. 8. Устойчивость по первому приближению Многие важнейшие методы исследования нелинейных систем основаны на использовании соответствующих уравнений первого приближения. С помощью линейной модели зачастую удается дать удовлетворительные ответы на вопро- вопросы, связанные с поведением нелинейных систем. Длительное время считалось, что вопрос об устойчивости тривиального решения нелинейного уравнения x = A(t)x + F(t,x) (8.1) полностью определяется свойствами линеаризованного уравнения У = A(t)y, (8.2) если функция F(t, x) такова, что F(t, в) = в и Цк^ - 0 при ЦхЦ -, 0. (8.3) Смысл этих утверждений (их долгое время разделял и Н. Е. Жуковский) состоит в том, что из устойчивости (неустойчивости) тривиального решения уравнения (8.2) следует устойчивость (неустойчивость) тривиального решения уравнения (8.1). А. М. Ляпунов, быть может, первым усомнился в справедливо- справедливости такого мнения, заметив при этом: "Конечно, указанный здесь прием (замена уравнения (8.1) уравнением (8.2)) вносит существенные упрощения, особенно в тех случаях, когда коэффициенты в дифференциальных уравнениях суть постоянные величины. Но правомерность такого упрощения a priori ничем не оправдывается, ибо дело приводится к замене рассматриваемой задачи дру- другою, с которой она может не находиться ни в какой зависимости. Во всяком
8. Устойчивость по первому приближению 125 случае очевидно, что если решение новой задачи и может давать ответ на пер- первоначальную, то только при известных условиях, а последние обыкновенно не указываются" 10). То, что для высказанных сомнений есть достаточные основания, подт- подтверждает следующий Пример 8.1. Пусть уравнения возмущенного движения имеют вид х = = у + сеж3, у = —х + ау3, где а — некоторая постоянная. Соответствующая линейная система (8.2) х = г/, у = —х не зависит от се, и ее характеристическое уравнение Д(р) = р2 + 1 = 0 имеет простые чисто мнимые корни pi = г, Р2 = —*• Поэтому тривиальное решение линейной системы устойчиво, но не асимптотически. Для исследования исходной нелинейной системы (8.4) возьмем функцию Ляпунова V(x,y) = -(х2 + у2). Тогда будем иметь V = а(х4 + ?/4) и согласно теоремам Ляпунова получаем следующие выводы. Если а > 0, то тривиальное решение системы (8.4) неустойчиво, а при а < 0 оно асимптотически устойчиво. Таким образом, устойчивость или неустойчи- неустойчивость тривиального решения системы (8.4) определяется исключительно ее нелинейными членами. Рассмотренный пример показывает, что система первого приближения не всегда дает ответ на вопрос об устойчивости тривиального решения исходной системы. Поэтому представляется естественным анализ нелинейных систем с целью получения условий, при выполнении которых об устойчивости нелиней- нелинейных систем можно судить по системам первого приближения, а также указать методы исследования нелинейных систем, когда уравнения первого приближе- приближения не дают ответа на поставленный вопрос. 8.1. Теоремы Ляпунова. Сначала рассмотрим случай, когда в уравне- уравнении (8.1) матрица А является постоянной. Теорема 8.1. Если все собственные значения pj (А) матрицы А имеют отрицательные вещественные части, а функция F(t, x) непрерывна в обла- области @ ^ t < сю, ||х|| ^ Н) и условие (8.3) выполняется равномерно по ?, то тривиальное решение уравнения х = Ax + F{t,x) (8.4) асимптотически устойчиво. Доказательство. Обозначим через y(t,x) решение линейного урав- уравнения У = Ау, (8.5) удовлетворяющее начальному условию 2/@, х) = х. (8.6) Его, очевидно, можно представить в виде y(t,x) = eAtx. Так как Kepj(A) < < —а < 0, то \\eAt\\ ^ Ne~at, где N — некоторая постоянная. Поэтому \\y(t,x)\\ ^Ne~at\\x\\ при ?>0. (8.7) Рассмотрим функцию /»О V{x)= / Jo \\y{t,x)\\2 dt. 10) Ляпунов А. М. Собрание сочинений. Т. 2. — M.: Изд-во АН СССР, 1956. — С.
126 Гл. 2. Основы теории устойчивости В силу неравенств (8.7) несобственный интеграл сходится. Так как функ- функция y(t,x) представима в виде (8.6), то /»ОО V(x) = / x*eA4eAtx dt = x*Qx = (Qx, ж), (8.8) Jo где Q — симметричная матрица, определяемая формулой />ОО Q= / eA4eAtdt. Jo Следовательно, V(x) — представляет собой квадратичную форму отно- относительно переменных xi,...,xn с симметричной матрицей, причем V(х) > О при ||ж|| ^Ои V@) = 0. Так как матрица А постоянна, то y(t,y(r,x)) = y(t + г,ж), что непос- непосредственно следует из (8.6). Поэтому ЛОО ЛОО ЛОО V[y(t,x)]= \\y(T,y(t,x))\\2dT= \\y(t + T,x)\\2dT= \\y(s,x)\\2ds. Jo Jo Jt Отсюда находим, что полная производная функции V в силу уравнения (8.5) равна V/ J-l \ rl+ \\У\ ) )\\ \ ai t=0 lai Jt ) t=0 = Hly(^)ll2L=o = -lNl2- (8-9) Вычислим теперь эту производную в силу уравнения (9.4). Имеем V = (grad V(x),Ax) + (grad V(x),F(t,x)). Первое слагаемое в правой части этого равенства представляет собой пол- полную производную функции V в силу линейного уравнения (8.5). Поэтому, учи- учитывая равенства (8.9), получим, что производную V можно представить в виде V(x) = -|N|2 + (grad V(x),F(t,x)). (8.10) Так как функция F(t, x) удовлетворяет условию (8.5) равномерно по ?, то для произвольно малого г > 0 можно указать S > 0 и to > 0 такие, что \\F(t,x)\\ < е\\х\\ при t > t0 и ||ж|| < 5. (8.11) Кроме того, из (8.8) получаем grad V(х) = 2Qx. Поэтому из (8.10) и (8.11) следует, что V(x) < -|N|2 + 2?||Q|| ||ж||2 = -A - 2б;||<2||)||ж||2. Выбирая е на- настолько малым, чтобы выполнялось неравенство 1 — 2е||E|| > 1/2, находим, что при таком е справедливо соотношение V(x) < — ||ж||2/2 при ||х|| < S. С другой стороны, согласно соотношениям (8.11) имеем V@) = 0. Поэтому V(x) является отрицательно определенной, и по теореме Ляпунова об асимптоти- асимптотической устойчивости (теорема Ляпунова 7.2) тривиальное решение уравнения (8.4) асимптотически устойчиво. Теорема 8.2. Если среди собственных значенийpj(А) матрицы А имеет- имеется хотя бы одно с положительной вещественной частью, а функция F(t, x) непрерывна в области @ ^ t < сю, ||х|| ^ Н) и условие (8.3) выполняется равномерно по t, то тривиальное решение уравнения (8.4) неустойчиво.
8. Устойчивость по первому приближению 127 Доказательство. Не нарушая общности, можно считать, что Repj(A) > 0, j = 1, 2, ..., m; Repm+i(A) < 0, i = 1, 2, ..., п - т. Пусть S — неособенная матрица, приводящая матрицу А к почти треуголь- треугольному виду, т. е. S~1AS = Л + Б, где (рх 0 ... О Л= О р2 ... О ,0 О ... рп а В = {&г/с}, гДе Ьг& — 0 ПРИ ^^&и||12||^?о, причем положительное число ео может быть выбрано сколь угодно малым. Пусть, далее, а — положительное число такое, что 0 < а < min {КерЛА)}. В уравнении (8.2) сделаем замену Тогда из (8.4) получим х = eatSy. у = (8.12) [t,y), (8.13) где (p(t,y) = e~atS~1F(t,eatSy). Из условия (8.3) следует, что для любого е > 0 можно найти число h(e) > О такое, что \\F(t,x)\\ < е\\х\\ при ||ж|| < h(e), t > 0. Тогда \\<p(t,y)\\ < e-^WS-^WSW \\y\\ = eWS-'W \\S\\ \\y\\, если „ — at || c~l \\s- (e). (8.14) Вводя обозначения fii = Pi(A) — а, находим, что уравнение (8.13) можно записать в виде следующей системы уравнений: к=2 п к=3 ^, у), (8.15) коэффициенты которой могут оказаться, вообще говоря, комплексными числа- числами. Поэтому, переходя к комплексно сопряженным величинам, запишем новую систему уравнений: ух = Дхг/i У2 = k=2 n - ^2^1 y)i Функция в любой окрестности начала координат принимает полож:ительные значения. Так как d . |9
128 Гл. 2. Основы теории устойчивости то полная производная функции V в силу уравнений (8.15) и (8.16 представима в виде п—т 2 | Л/_, „,\IL.I|2 ys\2 - Е s=l q=l где p(t, у) — малая величина порядка е равномерно относительно t и у. Если положить C = min(Re/is — Re/ig), то из (9.18) получаем V(y) = C - p(t,y) \\y\\2 > - \\y\\2 > /3V(y). Решая это дифференциальное неравенство, находим, что если V(y@)) > 0, то V(y(t)) > У(у@))е^г. Так как из определения функции V(y) следует, что 2V(y) ^ \\у\\2, то \\y\\2 > 2V(y@))eCt. (8-17) Здесь уместно напомнить, что это неравенство справедливо, если выпол- выполняется неравенство (8.14). Пусть теперь S > 0 — произвольно малое положительное число и век- вектор г/@) выбран так, чтобы \\у\\<6, V(y@))>0. (8.18) Тогда согласно неравенству (8.17) можно указать число т такое, что ||?/(т)|| ^ ^ e~°LT\\S\\~1h(eI так как e~at —> 0 при t —> оо. Используя преобразование (8.12), отсюда получаем Ц^Ц1^) < Ile^S1^)!! < е"*!^!! ||х(г)|| [ " ' и, следовательно, При этом согласно первым неравенствам из (8.18) и (8.19) имеем N0I1 < ||5|| ||у@)|| < \\S\\6. Так как е фиксировано, а число 5 можно выбрать произвольно малым, то из двух последних неравенств следует неустойчивость тривиального реше- решения уравнения (8.4). 8.2. Анализ общих нестационарных систем. Доказанные теоремы по- посвящены нестационарному процессу, который описывается уравнением (8.4). Важнейшая его особенность состоит в том, что матрица А в нем является по- постоянной. Однако оказывается, что некоторые выводы теорем 8.1 и 8.2 распро- распространяются и на общий случай, когда А — непрерывная функция времени t. Соответствующее утверждение сформулировано ниже в виде теоремы 8.3. Ее доказательство приводить не будем, а ограничимся лишь анализом примера. Будем предполагать, что уравнение (8.1) удовлетворяет условиям: а) матрица A(t) непрерывна при to < t < сю и оо; t б) функция F(t,x) непрерывна по t и дважды непрерывно дифференци- дифференцируема по ж в области (to ^ t < оо, ||х|| ^ /г), где h — некоторая достаточно малая положительная постоянная;
8. Устойчивость по первому приближению 129 в) существуют непрерывная положительная функция ф(г), to ^ t < оо, и число т > 1 такие, что \\F(t,x)\\^i,(t)\\x\\m, \\x\\^h. (8.20) Здесь величина ||А(?)|| определяется по формуле U(t)\\= max k=l Теорема 6.3 (критерий Ляпунова). Если уравнение (8.1) удовлетворяет перечисленным условиям а)-в), система уравнений первого приближения xs = ^2 ask(t)xk, s = 1, 2, ..., n, k=l правильная11), а ее характеристические показатели ol^ г = 1, 2, ..., п, отри- отрицательны, то тривиальное решение х = в уравнения (8.1) асимптотически устойчиво. Пример 8.2. Пусть процесс описывается уравнениями х = у, у = - i e_f [x + 22/] + (/?(?, ж, 2/), (8.21) где tp(t,x,y) — непрерывная по t и дважды непрерывно дифференцируемая похиу функция такая, что 0 X2 + I/2 равномерно по ? при х2 -\- у2 —> 0. Требуется решить вопрос об устойчивости тривиального решения этой системы. Если эту систему записать в виде (8.1), то будем иметь Соответствующая система первого приближения имеет вид у = -х - 2у. Двумя линейно независимыми решениями этой системы являются вектор- функции Вычислим теперь характеристические показатели этих решений. Имеем j[xL(t)] = hm —^——-1 = -1, j[yL(t)] = hm ^—^ = -1. Таким образом, характеристический показатель первого решения в (8.21) равен ai = — 1. Тот же показатель имеет второе решение. Поэтому согласно определению 4.4 спектр уравнения (8.21) состоит из одного элемента а = — 1. Проверим теперь, является ли система (8.21) правильной. Согласно определению 4.5 для этого нужно проверить справедливость ра- равенства D.19), которое в рассматриваемом примере имеет вид ) См. определение 4.5.
130 Гл. 2. Основы теории устойчивости 1 [1 е1 -2 = -2 lim - / — dt. t^oo t Jo e* + 1 Так как то система (8.21) является правильной. Нелинейное слагаемое в правой части системы (8.21) удовлетворяет условию (8.20) при ijj(t) = 1 и т = 1. Поэтому теорема применима к рассматриваемой системе (8.21) и тривиальное ее реше- решение х = у = 0 асимптотически устойчиво. В том случае, когда уравнение первого приближения является стационар- стационарным (матрица А постоянна), для асимптотической устойчивости невозмущен- невозмущенного движения нелинейной системы достаточна отрицательность веществен- вещественных частей корней характеристического уравнения det (XE — А) = 0 и выпол- выполнение условия (8.3). Если же уравнение первого приближения является неста- нестационарным (А = A(t)), то асимптотической устойчивости тривиального реше- решения уравнения первого приближения уже недостаточно для асимптотической устойчивости нелинейной системы. Кроме отрицательности характеристиче- характеристических показателей линейной системы, требуется еще, чтобы она была правиль- ной12). При анализе проблемы устойчивости нелинейных систем по первому при- приближению мы не рассматривали случай, когда тривиальное решение системы первого приближения устойчиво, но не асимптотически. В этом случае требует- требуется непосредственный анализ самой нелинейной системы (см. пример 8.1). Для этих целей созданы специальные методы, основы которых разработал A.M. Ля- Ляпунов. Они составляют важнейший раздел (критические случаи) общей теории устойчивости. ) Другие результаты, относящиеся к этой проблеме, подробно рассмотрены, например, в книге: Демидович Б. П. Лекции по математической теории устойчивости. — М.: Наука, 1967.
ГЛАВА 3 Основы теории устойчивости замкнутых систем 1. Устойчивость замкнутых систем управления В предыдущей главе рассмотрены некоторые вопросы общей устойчивости систем с конечным числом степеней свободы. Применим их теперь к анализу замкнутых систем управления, работающих по принципу обратной связи. 1.1. Характеристический определитель замкнутой системы. Бу- Будем рассматривать замкнутую систему, поведение которой описывается урав- уравнениями <r], a = W2{D)y, A.1) где W\(D) и W2(D) — передаточные функции объекта управления и управ- управляющего устройства соответственно, причем Wi(D) = M~1(D)Ni(D), i = 1,2. Здесь Mi(D) и Mi(D) — полиномы относительно D с матричными коэффи- коэффициентами. Обозначая через Д(р) характеристический определитель замкнутой системы в соответствии с формулой D.13) из гл. 1, можно записать Д(р) = det Mi(p) det[E + W1(p)W2(p)] det M2(p). A.2) Вводя обозначения ДДр) = detM^(p), г = 1,2, и учитывая, что передаточ- передаточная функция W(p) разомкнутой системы представима в виде W(p) = W1(p)W2(p), можно записать _ F2(p)N2(p)F1(p)N1(p) где через Fi (p) обозначена присоединенная матрица для матрицы Mi (p). Таким образом, все элементы матрицы W(p), вообще говоря, являются дробно-ра- дробно-рациональными функциями относительно р, у каж:дой из которых знаменателем является полином До(р) = Ai(p)A2(p). Поэтому det(E + W2(p)W1(p)) = det(E + W[p)) = 1 + K(p), A.3) где К(р) —дробно-рациональная функция от р: № '"» т х т —размерность матрицы W(p).
132 Гл. 3. Устойчивость замкнутых систем Так как в соответствии с формулой A.2) произведение До(р)A + К(р)) яв- является полиномом, то функцию L(p) из соотношения A.4) можно представить в виде Цр) = М(р)[А0(р)Г+\ A.5) где M(jp) представляет собой полином. Таким образом, из A.2) и A.3) получаем д(р) = до(р)[1 + ад], A.6) или, учитывая A.4) и A.5), А(р) = А0(р) + ){m-i = А0(р) + М(р). A.7) В итоге оказывается, что для характеристического полинома замкнутой системы A.2) имеются три различных представления: A.2), A.6) и A.7), кото- которые в дальнейшем будут использованы нами при исследовании задач об устой- устойчивости таких систем. 1.2. Критерий Найквиста. Случай асимптотически устойчивых звеньев системы. Переходя к анализу задачи об устойчивости замкнутой системы A.1), прежде всего отметим, что ее решение можно получить с по- помощью критерия Гурвица или Михайлова. Однако, учитывая специфику замкнутой системы, естественно использовать информацию о свойствах пере- передаточных функций W\(p) объекта и И^(р) управляющего устройства. Сначала предположим, что звенья системы (объект управления и управ- управляющее устройство) асимптотически устойчивы. Это означает, что корни урав- уравнений Ai(p) = 0 и Аг(р) = 0 имеют лишь отрицательные вещественные части. Кроме того, будем предполагать, что в правой части формулы A.4) степень числителя ниже степени знаменателя. Тогда из того, что характеристический определитель Д(р) замкнутой системы имеет вид A.2), следует, что замкнутая система будет устойчива, если уравнение 1 + К(р) = det(E + W{p)) = 0 имеет корни лишь с отрицательными вещественными частями. Таким образом, вопрос об устойчивости замкнутой системы в рассматри- рассматриваемом случае сводится к отысканию условий, при выполнении которых функ- функция 1 + К(р) имеет нули лишь в левой полуплоскости комплексного перемен- переменного р. Для получения этих условий воспользуемся тем, что функция 1 -\-К(р) является аналитической всюду, за исключением полюсов функции К(р). Если С — замкнутый контур, расположенный в правой полуплоскости па- параметра р, то, согласно теореме Коши, имеем J^L-dp = P-N, A.8) с 1 + К(р) где Р — число полюсов, а N — число нулей, которые имеет функция 1 + К(р) в области, ограниченной контуром С; обход по контуру С делается по ходу часовой стрелки (область, охватываемая контуром, должна оставаться справа при его обходе).
1. Устойчивость замкнутых систем управления 133 Выполнив конформное преобразование К = К(р), отобразим контур С на комплексную плоскость К. В итоге формула A.8) преобразуется к виду iPN, 2тгг /г 1 + К где Г — отображение контура С, а направление обхода контура Г определяется отображением К = К(р). Величина 1 + К(р) является комплексной, и на плоскости К ей соответ- соответствует радиус-вектор, проведенный из точки (—1,0) в точку К(р). Учитывая, что получаем и поэтому dK - = dln(l + K) = din |1 + К\ + idarg(l + К) + К\, A.9) где Aarg(l + К) — приращение аргумента радиус-вектора 1 + К при обходе области по замкнутому контуру Г. Так как функция In 11 + К\ является аналитической внутри контура Г, то второй интеграл в правой части равенства A.9) равен нулю. По предположе- предположению Ai(p) и Аг(р) не имеют нулей в правой полуплоскости переменной р, а следовательно, и внутри контура Г. Поэтому в формулах A.8) и A.9) нужно положить Р = 0. Тогда из A.9) вытекает, что Aarg(l + K) -N = 2тгг A.10) т. е. N равен числу S полных оборотов вектора 1 + К(р) вокруг точки (—1,0), когда точка р описывает замкнутый контур С по ходу часовой стрелки, причем обороты соответствующего вектора 1-\-К(р) считаются положительными также по ходу стрелки часов. Теперь чтобы найти условия, при которых уравне- уравнение det[E — W(p)] = 0 имеет корни только с отрица- отрицательными вещественными частями, сначала в качестве С возьмем правую полуокружность L радиуса R с цен- центром в начале координат вместе с ее диаметром, распо- расположенным на мнимой оси (рис. 3.1.1.). Обход контура делается по часовой стрелке, как указано на рисунке. Полиномы М(р) и До(р), определяющие функцию К(р) (см. формулы A.4) и A.5)), имеют вещественные коэффициенты. Поэтому действительной точке на плос- плоскости р соответствует действительная точка на плоско- плоскости К. Точкам р = 0 и р = сю соответствуют также дей- действительные точки К@) и i^(oo), а паре точек р = а + г/3 и р = а — г/3 соответствуют симметричные относительно Рис. 3.1.1 вещественной оси точки К (а + г/3) и К (а — г/3). Значит, симметричному отно- относительно действительной оси контуру С соответствует также симметричный относительно действительной оси контур Г (рис. 3.1.2).
134 Гл. 3. Устойчивость замкнутых систем Когда точка р пробегает все значения мнимой оси от —iR до iR, конец вектора 1 + К, проведенного из точки ( — 1,0) в плоскости К, описывает непре- непрерывную линию Гг, концы которой имеют координаты K(—iR) и K(iR). Эта линия симметрична относительно вещественной оси, которую она непременно пересекает в точке К@). Если точка р пробегает все значения полуокружности С от iR и до —iR, то конец вектора 1 + К описывает непрерывную линию Гд с концами K(iR) и K(—iR). Она пересекает вещественную ось в точке K(R) (рис. 3.1.2 1)). При R —> сю полуокружность С в пределе охватывает всю правую по- полуплоскость переменной р. По предположению К(р) является дробно-рацио- дробно-рациональной функцией К(р) = причем п < 7П. Поэтому аори bopm + bip171'1 + .. lim K(Rei<fi) = О, т. е. бесконечно удаленной точке плоскости р соответствует начало координат плоскости К. Линия Гд в пределе стягивается в точку К (сю) = 0, а линия Г\ перейдет в замкнутую кривую, проходящую через точки К@) и К(оо) = 0 и симметричную относительно вещественной оси (рис. 3.1.3). Эта кривая назы- называется годографом Найквиста. Она описывается концом вектора Найквиста 1 + K(iu), при изменении ио от —сю до +сю. Таким образом, в предельном слу- Рис. 3.1.2 Рис. 3.1.3 чае, когда контур С охватывает всю полуплоскость Rep > 0, формула A.10) определяет количество нулей функции 1 -\- К(р), имеющих положительную ве- вещественную часть. Отсюда вытекает следующий результат. Критерий Найквиста 1. Пусть замкнутая система описывается урав- уравнением A.1), а уравнения Ai(p) = det Mi(p) =0, г = 1,2, ) На рисунке эта линия штриховая.
1. Устойчивость замкнутых систем управления 135 имеют корни только с отрицательными вещественными частями. Тогда для устойчивости замкнутой системы A.1) необходимо и достаточ- достаточно, чтобы при изменении величины ио от — сю до сю число оборотов вектора Найквиста 1 + К{гио) вокруг точки (—1,0) было равно нулю. Пример 1.1. Рассмотрим замкнутую систему вида A.1), у которой пере- передаточные функции объекта и управляющего устройства определяются форму- формулами Тогда в соответствии с введенными обозначениями будем иметь (см. A.3)) 2 р + 3 (р + 1)(р2 + 2р + 2)' Значит, уравнение Ао(р) — 0 имеет корни р\ = —1, Р2 = — 1 + г, рз = —1 — *, которые, очевидно, имеют отрицательные вещественные части. Для того чтобы воспользоваться критерием Найквиста, требуется исследо- исследовать поведение функции К{гио) при изменении ио от —сю до +сю. Полагая К{гио) = и(ио) + iv(uo), находим, что2) мИ = (^ + 1)(а;4 + 4)' "И = (с2 + 1)(^ + 4)' °°< " Из этих формул следует, что и (о;) < 0 при |о;| > 1, v{uo) < 0 при ио > 0 и v(cj) > 0 при cj < 0. Кроме того, очевидны равенства lim ix(cj) = lim г>(а;) = lim ; : = 0, cl;^±oo cl;^±oo cl;^±oo U[Uj) из которых следует, что, приближаясь к началу координат при ио —> ±оо, точ- точка (ix(cj),v(cj)) перемещается по кривой, у которой в пределе ось и является касательной. Далее, легко находим, что максимальным значением и{ио) является К@), ось v пересекается только в двух точках К (—г) и К (г), вблизи которых нахо- находятся максимальное и минимальное значения v(uo). Значит, годограф Найквиста имеет вид, изображенный на рис. 3.1.4. Про- Проводя вектор Найквиста из точки ( — 1,0) в точке K(iuo), находим, что при изме- изменении ио от —сю до + сю этот вектор поворачивается по ходу часовой стрелки на угол, равный нулю (направление этого поворота на рисунке отмечено стрел- стрелками). Следовательно, рассматриваемая замкнутая система асимптотически устойчива. Пример 1.2. Рассмотрим теперь замкнутую систему, элементы которой содержать параметры q и Т : и№> ?^ "ад p+q ) Построение годографов Найквиста в этом и последующих примерах выполнены на компьютере с помощью пакета Maple.
136 Следовательно, К{р) = Гл. 3. Устойчивость замкнутых систем (Tp-l)(p + q) Полагая К{гио) = и(и) + iv(u), находим, что Тио6 + {4Tq + q-4- 7T)uo4 + BГ - 6Т^ - 7q - 6)ио2 m-q) - 6) 6) - 2] Далее рассмотрим некоторые интересные частные случаи. 1. Пусть Т = 1, a q = 3. Тогда будем иметь: о6 + 4cj4 - 31cj2 + б . ч cj(cj4 + IOcj2 - 11) со6 Функции ixi(cj) и ^i(cj) в комплексной плоскости К определяют годограф Найквиста, представленный на рис. 3.1.5. Стрелки на этом годографе указы- указывают направление перемещения конца вектора 1 + K(iuo) при изменении uj от —сю до сю, причем К@) = (—1.5,0). Из этого рисунка видно, что вектор делает (-1,0) Рис. 3.1.4 Рис. 3.1.5 один полный оборот около точки ( — 1,0) по ходу часовой стрелки. Следова- Следовательно, замкнутая система в этом случае неустойчива. 2. Пусть Т = b,q = —0.8. Тогда получаем + 8 -179cj5 + 16* Эти функции описывают годограф Найквиста, изображенный на рис. 3.1.6. Вектор Найквиста 1 + К{гш), проведенный из точки (—1,0), при со = = — сю заканчивается в точке @,0). С возрастанием ио он поворачивается и при изменении ио от —сю до +сю делает два полных оборота по ходу часовой стрелки около точки (—1,0). Рассмотренные примеры показывают, что вопрос о том, лежит ли точка (—1,0) внутри контура или вне его, решается просто, когда этот контур не самопересекается. В этом случае картина достаточно наглядная (рис. 3.1.3 и рис. 3.1.4). Несколько сложнее ситуация, если контур самопересекается, при- причем одной из таких точек является (—1,0) (рис. 3.1.6 и рис. 3.1.7). В каждом из этих случаев сложнее подсчитывать число оборотов вектора Найквиста, так
1. Устойчивость замкнутых систем управления 137 как он не только поворачивается, но и в одной из точек самопересечения кон- контура может обращаться в нуль. Подобная ситуация описывается в следующем примере. Пример 1.3. Рассмотрим замкнутую систему, у которой р-1 1{р} ~ ср + 1J' В этом случае K(jp) имеет вид К{р) = т^ W2(p) = 11.2р — 1 р2 + 2р + 2' Полагая K(iou) = и(ои) + iv(u), находим 0.2B0 - 1340cj2 + 3361cj4 - 1323cj6 и (и) = v(u) = 16 + 32ои2 + 24а;4 0.2cj(-324 + 2744cj2 - 2635cj4) 16 График кривой, которая определяется этими функциями, представлен на рис. 3.1.73). Стрелки на годографе указывают, как обычно, направление по- поворота вектора Найквиста при изменении uj от —сю до +оо. Рис. 3.1.6 Рис. 3.1.7 В пределе, когда со = — сю, конец этого вектора находится в начале коорди- координат и возвращается в то же положение при ои —> +сю. При этом длина вектора дважды становится равной нулю, когда его конец проходит через точку (—1,0). В рассматриваемом случае после пересечения точки ( — 1,0) в очередной раз пересечение вещественной оси происходит справа от ( — 1,0). Значит, на этом интервале изменения ио вектор Найквиста сделал нуль оборотов около точки (—1,0). Главная особенность этой ситуации состоит в том, что годограф пере- пересекает вещественную ось в точке (—1,0), из которой исходит вектор Найквис- Найквиста 1 + К(ги). Каждый раз после такого пересечения вещественной оси конец вектора пересекает вновь вещественную ось. Однако такое пересечение проис- происходит справа от точки (—1,0). Очевидно, что полный угол поворота вектора Найквиста около (вокруг!) точки (—1,0) равен нулю и, следовательно, замкну- замкнутая система асимптотически устойчива. ) Отметим, что точки самопересечения годографа с вещественной осью найдены при- приближенно и представленный рисунок отражает лишь качественное содержание того факта, что точкой самопересечения может быть ( — 1,0).
138 Гл. 3. Устойчивость замкнутых систем 1.3. Критерий Найквиста в случае нейтральных звеньев. В даль- дальнейшем под нейтральным звеном понимается звено, описываемое уравнением вида у = W(D)a, у которого характеристическое уравнение имеет корни с ну- нулевыми вещественными частями, но нет корней с положительными веществен- вещественными частями. Поэтому если одно из звеньев (объект управления или управляющее уст- устройство) является нейтральным, то согласно формулам A.4) и A.5) точка р = гио при некотором значении ио является полюсом функции К(р) ). При построении контура С в интеграле Коши (см. A.8)) такую точку следует обой- обойти по полуокружности I произвольно малого радиуса г (рис. 3.1.8). Тогда, как и в предыдущем случае, будем иметь 1 / Kfdp „ ЛГ 2тгг Jc 1 + К где С = CrR — контур, охватывающий затемненное полукольцо на рис 3.1.8, Р — число полюсов, а N — число нулей, лежащих в этой затемненной области. Конформное отображение К = К(р) ставит в соответствие замкнутой линии CrR — замкнутый контур комплексной плоскости К. При этом свойства отоб- отображения К существенно зависят от того, является точка р = 0 простым или кратным полюсом. Если точка р = 0 — простой полюс, то К(р) можно представить в окрест- окрестности этой точки в виде ряда Лорана , ip@)=0, A.11) где (f(p) — аналитическая в точке р = 0 функция, a c_i — вещественная посто- постоянная, причем If „, , , d(pK(p)) 2тгг рК(р) dp, c0 = e@,r) Р=о Здесь ?@, г) — окружность малого радиуса г с центром в начале координат. В этом случае образом контура CrR на плоскости К яв- является замкнутая линия Ггд = Г^ + Г^ + Гг,которая со- состоит из трех частей.Две из них (Гд и Гд) взаимно сим- симметричны относительно вещественной оси и исходят из точ- точки K(R). На рис. 3.1.9, а это ветви K{R)K{-iR)K{-ir) и K(ir) K(iR)K(R). Третьей частью этой линии является дуга Гг, проходящая через точки K(—ir)K(r)K(ir). В ок- окрестности полюса р = 0 функция К(р) ведет себя как 1/р. Поэтому точки K(—ir), K(ir) и К (г) неограниченно уда- удаляются от начала координат при г —> 0 (см. формулу A.11)) и в пределе дуга Го = lim Гг охватывает всю правую полуплос- полуплоскость плоскости К, лежащую правее оси ги. С другой сторо- стороны, из той же формулы A.11) следует, что при R —> сю точки K(—iR), K(iR) и K(R) стягиваются к одной точке К(оо) = 0 и в пределе ветви Г^ и Г^ переходят в две симметричные относительно вещественной оси ветви Г~ и Г+, которые исходят из точ- Рис. 3.1.8 ) Чтобы упростить последующие формулы, будем считать, что полюсом является точка = 0.
1. Устойчивость замкнутых систем управления 139 ки К(оо) и асимптотически приближающиеся к некоторой вертикальной линии (рис. 3.1.9, б). Следовательно, контур Г (предельный для Ггд при г —> 0 и R —> сю) со- состоит из двух ветвей. Первая из них представляет собой линию 7 = Г~ + Г+, симметричную относительно вещественной оси, концы которой асимптотиче- асимптотически приближаются к мнимой оси (на рис. 3.1.9, б) она изображена сплошной линией). Вторая ветвь, Го = lim Гг, охватывает всю правую полуплоскость (на рис. 3.1.9, б) она изображена пунктирной линией). Стрелка на Г указы- указывает направление движение точки K(iu), когда и возрастает от —сю до +сю. Полученный контур Г является образом контура С (предельного для Сгц при г^ОиД^оои охватывающего всю правую полуплоскость плоскости р). Очевидно, что 7 соответствует значениям р = го;, — сю < а; < сю. K(ir) K(R) \ K(r) Рис. 3.1.9 Кстати отметим, что представленные на рис. 3.1.9, а и рис. 3.1.9, б годо- графы Найквиста получены при анализе замкнутой системы с передаточными функциями Рассмотрим теперь вектор 1 + K(p), проведенный из точки ( — 1,0) в точку контура Го, охватывающего правую полуплоскость. Когда точка К пробегает все значения на этом контуре, рассматриваемый вектор делает 1/2 оборота около точки (—1,0). Обозначим через S число оборотов этого вектора около той же точки, когда К пробегает все значения на линии 7- Тогда обходу точ- точки р по контуру С (см. рис. 3.1.8) будет соответствовать S + 1/2 оборотов вектора 1 + К около точки (—1,0) плоскости К. Вывод. Если одно из звеньев замкнутой системы нейтрально, и его ха- характеристическое уравнение имеет только один корень с нулевой веществен- вещественной частью {причем этот корень простой), а другое звено асимптотиче- асимптотически устойчиво, то для асимптотической устойчивости замкнутой системы необходимо и достаточно, чтобы полное число оборотов S вектора 1 + К{гио) около точки (—1,0) по ходу часовой стрелки при изменении ио от —сю до +сю
140 удовлетворяло условию Гл. 3. Устойчивость замкнутых систем 5 + 1/2 = 0. A.12) Пример 1.4. Пусть замкнутая система описывается уравнениями х = — 2х — у + (/?(?), у = аж, а = const. Следовательно, характеристические уравнения объекта и управляющего устройства имеют вид Ai(p) = Р + 2 = 0, Д2(р) = р = 0. Характеристический полином рассматриваемой замкнутой системы переписы- переписываем в виде А(р) = A1(p)A2(p)\l Р{Р + 2) Поэтому К(р) = 2а — г- На рис. 3.1.10 изображен годограф вектора 1 + К(ги) соответственно при а = 2 и а = — 2. В каждом случае он состоит из двух ветвей L~ и L+. Ветвь L~ (-1,0) (-1,0) Рис. 3.1.10 описывается при изменении uj от — оо до 0, а ветвь L+ — при изменении ио от 0 до +оо. Стрелки указывают направление движения конца вектора 1 + K(iuS) с возрастанием и. Таким образом, 1 _ Jo при а > 0, 2 1 1 при а < 0, т. е. замкнутая система асимптотически устойчива при а > 0 и неустойчива при а < 0.
1. Устойчивость замкнутых систем управления 141 Следующий пример иллюстрирует более сложную ситуацию, наглядно опи- описать которую оказалось возможным лишь с использованием программного па- пакета Maple. С помощью этого пакета довольно просто получаются годографы системы при различных значениях параметров. Подходящий их выбор позволя- позволяет получить принципиально различные ситуации для подсчета числа оборотов вектора Найквиста. Пример 1.5. Рассмотрим типовую замкнутую систему с передаточными функциями объекта и управляющего устройства Тр-1 W2(p) = gp-1 где Т и q — числовые параметры, выбирая которые будем получать различные интересные частные случаи замкнутой системы. Однако при произвольных Т и q система является нейтральной, так как характеристическое уравнение со- соответствующей разомкнутой системы р(р + 1J(р + 2)=0 имеет один простой нулевой корень и два вещественных отрицательных корня. Функция К(р), очевидно, представима в виде К(р) = р(р+1J(р + 2) Полагая К(ги) = u{uj)+w{uj), будем рассмотривать различные частные случаи. 1. Пусть Т = 0.2, q = l. Тогда K(iu) = и(ои)+ +iv(u), где 0.2(cj4 - Ulj2 + 37) v(u) = - 0.4Ecj4 - 2 5) CJ° В этом случае годограф имеет вид, представленный на рис. 3.1.11. Главная его особенность состоит в том, что он дважды пересекает вещественную ось в точке ( — 1,0), из которой исходит вектор Найквиста. Это обстоятель- обстоятельство, очевидно, осложняет подсчет числа оборотов век- вектора около точки (—1,0), когда uj изменяется от —сю до ^г(Х). Однако вектор Найквиста не делает ни одного обо- оборота около этой точки. Значит, замкнутая система асимптотически устойчива. 2. Рассмотрим теперь второй частный случай. Пусть Т = 4, q = 20. В этом случае имеем Рис. 3.1.11 53 2A22cj4 - 00 Соответствующие годограф и вектор Найквиста, построенные с помощью программы Maple, представлены на рис. 3.1.12. Из этого рисунка следует, что система неустойчива, так как величина S + 1/2, фигурирующая в критерии Найквиста, равна 2. Численное решение характеристического уравнения за- замкнутой системы с помощью той же программы Maple показывает, что оно имеет два вещественных положительных корня (uoi « 0.006 и uj^ ~ 0.19).
142 Гл. 3. Устойчивость замкнутых систем Предположим теперь, что полюс р = 0 имеет кратность, равную п. Тогда функция К(р) в окрестности этой точки представима в виде К(р) = —^ + (р(р), A-13) где сп — вещественная постоянная, а функция рп~1(р(р) является аналитиче- аналитической в точке р = 0. Вдали от полюса функция К(р) ведет себя так же, как и в предыдущем случае. Точки K(—iR), К (г К) и K(R) перейдут в К (об) = 0 при R —> оо. При изменении ии от —оо до —г и от г до +оо линиям гии контура CrR на плоскости р будут соответствовать две ветви Г^ и Г^> годографа Найквиста на плоскости К при произвольно малом г. Опишем теперь поведение К(р), когда р пробегает все точки полуокружности I радиуса г (рис. 3.1.8). По- Полагая р = гег^, находим, что аргумент ф изменяется при этом от —тг/2 до тг/2, т. е. вектор г делает 1/2 обо- оборота против хода часовой стрелки около точки р = 0 на плоскости р. В соответствии с формулой A.13) имеем и при достаточно малом г функция 1 + К(гег^) ведет себя так же, как и сггг~1е~гп^, т. е. при изменении ф от Рис. 3.1.12 —тг/2 до тг/2 вектор 1 + К (г ё1^) сделает п/2 оборотов около точки (—1,0) по ходу часовой стрелки. Таким образом, получаем следующий вывод. Критерий Найквиста 2. Пусть разомкнутая система нейтральна, а корень с нулевой вещественной частью ее характеристического уравнения имеет кратность п. Тогда для того чтобы замкнутая система была асимптотически устой- устойчивой, необходимо и достаточно, чтобы полное число оборотов S по ходу часовой стрелки вектора 1 + К(гио) около точки (—1,0) при изменении ии от —оо до оо удовлетворяло условию S + n/2 = 0. A.14) Пример 1.6. Пусть замкнутая система описывается уравнениями х + 2х = —г/, у = ах. Характеристическое уравнение разомкнутой системы имеет видр2(р + 2) = = 0 и, следовательно, в этом примере в формуле A.14) п = 2. Характеристический полином замкнутой системы записываем в виде а А(р)=р2(р + и, следовательно, К(р) = а -, К{ш) = -- 2а а
1. Устойчивость замкнутых систем управления 143 Годографы Найквиста при различных значениях параметра а (а > 0 и а < < 0) изображены на рис. 3.1.13. Как и обычно, стрелка указывает направление изменения К(ги) при возрастании а;, причем K(±ioo) = 0. А а>0 ??<0 Рис. 3.1.13 Таким образом, в рассматриваемом случае имеем п J 2 при а > О, 2 |1 при а < 0. Из этой формулы следует, что замкнутая система неустойчива при а > 0 и се < 0. 1.4. Случай замкнутой системы с неустойчивыми звеньями. Бу- Будем предполагать, что одно или оба характеристических уравнения звеньев замкнутой системы (см. формулу A.2)) Ai(p) = det Mi(p) = 0, г = 1,2, имеют корни с положительной вещественной частью. Для определенности и упрощения последующих формул будем считать, что у полинома До(р) — Ai(p)A2(p) имеется один нуль р = а кратности п, у которого Rea>0, а Ima = 0, причем он не является нулем полинома М(р) (см. формулы A.4) и A.5)M). Поэтому точка р = а является полюсом функции K(jp) кратности п. При построении контура С в плоскости р ис- исключаем точку р = а из рассматриваемой области при по- помощи окружности I произвольно малого радиуса г и двух -/Я Рис. 3.1.14 линий, параллельных вещественной оси, обход которых совершается против хода часовой стрелки (рис. 3.2.14). В окрестности точки р = а функцию К = К(р) можно представить в виде где сп — вещественная постоянная, а (р — а)п~1ср(р) является аналитической в точке р = а функцией. ) Случай, когда это условие не выполняется, рассматривается ниже.
144 Гл. 3. Устойчивость замкнутых систем Поэтому качественная картина поведения функции К = К(р) в окрест- окрестности точки р = а определяется слагаемым с_„(р-о)-"=с_„г-"е-г^, г=\р-а\. Отсюда, теми же рассуждениями, которые приведены в предыдущем пункте приходим к следующему заключению. Критерий Найквиста 3. Пусть характеристическое уравнение разо- разомкнутой системы имеет один корень кратности п с положительной ве- вещественной частью, и этот корень является п-кратным полюсом функции К(р). Тогда необходимым и достаточным условием асимптотической устой- устойчивости замкнутой системы является выполнение равенства # + п = 0, A.15) где S — полное число оборотов по ходу часовой стрелки вектора 1 + К(гио) около точки ( — 1,0) при изменении ио от —оо до +оо. Замечание 1.1. Если р = а является нулем полинома М(р), то 1 + К(р) = 1 + ^ = 1 + м*' ,,=1 + Г Ао(р) (р- а)пА0(р) (р- u)--L±oypj где т < п и полиномы М°(р) и До(р) не делятся без остатка нар —а Следова- Следовательно, в этом случае при т > 0 точка р = а является т-кратным полюсом функции К = К(р) и вместо равенства A.15) нужно писать S + m = 0. Замечание 1.2. При анализе на устойчивость замкнутой системы A.1) пришлось раздельно рассматривать различные случаи расположения нулей полинома До (р): а) все корни уравнения До(р) — О имеют отрицательные вещественные части; б) вещественные части этих корней неположительны; в) хотя бы один корень имеет положительную вещественную часть. Во всех трех случаях оказывается справедливой формула N = S + P, если простые нули полинома До(р) во внутренних точках правой полуплос- полуплоскости р считать за единицу, а на мнимой оси — за половину; кратные нули этого полинома соответственно за п и за п/2. Замечание 1.3. Основой для исследования устойчивости замкнутой си- системы является ее частотная характеристика и поэтому критерий Най- Найквиста позволяет решать задачу устойчивости, когда система A.1) полно- полностью определена аналитически. Однако, как уже отмечалось в параграфе 5 гл. 1, частотные характеристики системы можно определить и экспери- экспериментально. Это обстоятельство делает критерий Найквиста особенно при- привлекательным при исследовании реальных систем. 2. Устойчивость специальных нелинейных систем Системы автоматического регулирования и управления обычно представ- представляют собой достаточно сложные устройства. Входящие в них регуляторы пред- предназначены для поддержания заданного режима работы объекта управления.
2. Устойчивость специальных нелинейных систем 145 Поэтому система должна быть сконструирована таким образом, чтобы все от- отклонения от заданного режима работы объекта, возникающие в системе, с те- течением времени стремились к нулю. Иначе говоря, такая система должна быть асимптотически устойчивой. Это обстоятельство играет решающую роль в том, что значительная часть теории автоматического регулирования и управления посвящена применению теории устойчивости к анализу специальных систем, имеющих непосредственное отношение к управлению реальными объектами. Такие применения были источником новых идей и методов, которые послу- послужили основой многочисленных и весьма плодотворных исследований в теории устойчивости. Здесь мы ограничимся анализом одного типа систем автоматического ре- регулирования, которому посвящены весьма содержательные работы многих ав- авторов (Е. А. Барбашин, В. И. Зубов, С. Лефшиц, А. М. Летов, А. И. Лурье, В. А. Якубович и др.). 2.1. Уравнения системы и их нормальная форма. Рассматриваемая система представлена структурной схемой на рис. 3.2.1. Вектор rj = = {?7i,..., rjm} характеризует возмущенное состояние объекта регулирования. Состояние системы при разомкнутой цепи описывается линейным дифференциальным уравнением V = г = к=1 4 г рис 321 где dik — постоянные. Будем говорить, что система собственно устойчива, если все корни рк характеристи- характеристического уравнения Д(р) = det(pE — А) = О матрицы А (здесь А — матрица коэффици- коэффициентов a,ik) имеют отрицательные веществен- вещественные части. Если же это уравнение имеет корни pj с нулевой вещественной частью, но не имеет корней р/, у которых Rep/ > 0, то система называется ней- нейтральной по координатам вектора rj возмущенного состояния rj. И наконец, она собственно неустойчива, если уравнение Д(р) = 0 имеет хотя бы один корень с положительной вещественной частью. Такая классификация введена в связи с тем, что методы решения задачи об устойчивости замкнутой системы существенно зависят от того, к какой из перечисленных групп она относится. Если цепь замкнута, то на изменение вектора rj влияет регулирующий орган, поведение которого будем характеризовать скалярным параметром ?. Предполагая, что при этом замыкании система остается линейной, находим, что она описывается уравнением f) = Ar) + r?, B.1) где вектор г = {ri,..., rm} также предполагается не зависящим от времени. Будем далее предполагать, что возмущенное движение регулятора описы- описывается уравнением где У2, W и S, вообще говоря, являются известными функциями перемен- переменных ?, ? и а. Однако обычно допускается, что для достаточно широкого класса
146 Гл. 3. Устойчивость замкнутых систем регулирующих органов их можно считать постоянными и неотрицательными. В частности, когда регулирующим органом является гидравлическая машина, S и V2 принимаются равными нулю, и тогда уравнение B.2) принимает вид и функция /*(сг), как говорят, описывает скорость перехода регулирующего органа из одного положения в другое в зависимости от аргумента а. В уравнении B.2) функция fi(a) характеризует действующую обобщенную силу. Аргумент а выражает собой суммарный управляющий сигнал, созда- создаваемый согласно принятому в задаче закону регулирования. В общем случае используется следующее его выражение: т г=1 где ci,..., ст и q — постоянные. В частном случае, когда q = 0, рассматривае- рассматриваемая система называется системой прямого регулирования. Обычно предполагается, что функция fi(a) удовлетворяет следующим ус- условиям: а) /i(cr) = 0 при |сг| < сг*; б) crfi(a) > 0 при |сг| > сг*; в) интегралы / f1(a)daJ / fi(cr)da J0 J-oo расходится. Этим условиям, в частности, удовлетворяет функция fi(cr) = Lisign a. В дальнейшем будем говорить, что функция, обладающая перечисленными свойствами а) — в), принадлежит классу (А). Многочисленные исследования по устой- устойчивости замкнутых систем регулирования свя- связаны с анализом случая, когда функция /i(cr) удовлетворяет, кроме перечисленных выше, еще и условию: г) существуют постоянные h и Н такие, что ЛИ о О ^ h Н, —сю < а < оо. Рис. 3.2.2 Этому условию можно дать наглядную геометрическую интерпретацию. В плоскос- плоскости аОу линия у = fi(cr) заключена в угле между прямыми у = ha и у = На (рис. 3.2.2). Подводя итог, приходим к заключению, что возмущенное движение замк- замкнутой системы описывается совокупностью уравнений B.1)—B.3) с постоянны- постоянными коэффициентами и функцией /i(cr), удовлетворяющей условиям а)-в) и, возможно, г). Поэтому в общем случае эта система нелинейна. Все возможные режимы установившегося ее состояния, которые надлежит поддерживать ее регулятору, описываются системой алгебраических уравнений
2. Устойчивость специальных нелинейных систем = 0, г = 1, 2, ...,ш, 147 т Е- к=1 k + Гг г=1 Эти уравнения определяют все точки покоя системы управления в фазовом пространстве переменных 771,..., ?7ш?^ исходных уравнений B.1) - B.3). Каж- Каждая такая точка М соответствует теоретически возможному установившемуся процессу в замкнутой системе. Рассмотрим вспомогательную систему уравнений т Е< к=1 т = 0, г = 1, 2, ..., т, B.4) V г=1 Если ее определитель аи а\2 • • • dim D = отличен от нуля, то система уравнений B.4) однозначно разрешима: щ = аг(т, ^ = /Зсг, г = 1, 2, ...,ш, и все точки покоя находятся путем решения уравнения которое может иметь единственное решение. Однако возможно, что оно опре- определит дискретные точки покоя <ть <Т2> • • • Не исключено также, что решением этого уравнения будет континуальное множество точек а. Если же D = 0, то система B.4) может иметь одно- или многопараметрическое семейство ре- решений. В любом случае для рассматриваемой замкнутой системы B.1)—B.3) возможны следующие ситуации. 1. Она имеет единственную точку покоя. 2. Она имеет дискретное множество точек покоя. 3. Она имеет непрерывный континуум точек покоя. Каждый из этих случаев рассмотрен в литературе, посвященной системам такого типа, где описаны замечательные результаты исследований по пробле- проблеме устойчивости соответствующих точек покоя. При этом разработаны инте- интересные специальные методы6). Однако здесь мы ограничимся анализом лишь наиболее простого случая, когда точка покоя T]i = ... = rjn = ^ = a = 0 явля- является изолированной, т. е. в ее достаточно малой окрестности нет других точек покоя рассматриваемой системы. ) См., например: Летов A.M., Устойчивость нелинейных регулируемых систем. — М.: ГИТТЛ, 1962; Гелих А.Х., Леонов Г.А., Якубович В.А. Устойчивость нелинейных систем с неединственным состоянием равновесия. — М.: Наука, 1978.
148 Гл. 3. Устойчивость замкнутых систем Сначала систему приведем к так называемой нормальной форме. С этой целью вводим новую переменную у = 1? + р?, где постоянные I и р подлежат определению. Тогда уравнение B.2) можно пе- переписать в виде — y + ±(w-l-vAy+\s-Wl- + V2(\ р р V р ) L р \р Величину l/р берем исходя из уравнения Вводя обозначения находим, что Repm+i < 0, Repm+2 < 0. Вторая группа равенств в B.5) получена с учетом формул Виетта. Таким образом, вместо уравнения B.2) получаем систему 1 р С = Рт+\?, + - 2/, У = Рт+2У + у^ ЛМ- Введем следующие обозначения: х = {гI,...,г)т,€}, аг,ш+1=Гг, аш+1,г = 0, г = 1, 2, ..., ш, am+i)m+i = -pm+i, cm+i = -^, 6 = {0,..., 0,1/р}, ^ = {^}Щ» /И = ^ЛИ, с = {сь...,ст}. В этих обозначениях получаем искомую нормальную форму исходных уравне- уравнений B.1)-B.3) dx — =Ах + Ъу, y = Pm+iy + f(<r), а = с*х. B.6) При этом очевидно, что функция /(<т) обладает теми же свойствами а)-г), ко- которые были присущи функции fi(cr). В частном случае, когда S = 0, получаем -J=рт+1=0, а система A0.8) принимает вид7) х = Ах + Ъу, y = f(a), a = c*x. B.7) Именно эту систему впервые изучал А.И.Лурье, с работ которого началось математическое исследование проблем устойчивости специальных замкнутых систем автоматического регулирования. Позже он ввел в рассмотрение более общую систему х = Ах + Ъу, y = f(a), a = c*x. B.8) ) Уравнения такого типа рассмотрены выше при общем анализе нелинейных систем управления (см. уравнения B.1) и B.2) во второй главе).
2. Устойчивость специальных нелинейных систем 149 Эта система более удобна для анализа и отвечает реально существующим си- системам регулирования. Тот факт, что система B.8) является более общей, чем система B.6), можно доказать следующим образом. Из уравнений B.6) следует, что d х dx dtz dt Введем новую скалярную переменную у = у — рш+\у и фазовый вектор х = = {xi,..., xmj ±i,..., хт}. Тогда вместо системы B.6) получим — = Ах + Ъу, y = f(&), a = c*x, где А — постоянная матрица порядка 2т, Ъ и с — 2т-мерные векторы. Полу- Полученная система имеет тот же вид, что и B.8). Поэтому при анализе многих вопросов, связанных с поведением системы B.6), можно ограничиваться рас- рассмотрением уравнений B.8). В заключение этого предварительного анализа отметим, что в частном слу- случае, когда S = V2 = 0, уравнение B.6) можно записать в виде dx — = Ах + Ъу, y = f(a), a = c*x-qy. dt Это непосредственно следует из уравнений B.1) - B.3). Таким образом, изложенные рассуждения позволяют привести каждую систему вида B.1)-B.3) к специальному виду, который является достаточно удобным для исследования задач об устойчивости замкнутых систем с весьма специфичными нелинейностями. 2.2. Задача Лурье. Одной из наиболее содержательных задач, связан- связанных с анализом замкнутых систем является Задача Лурье. Найти необходимые и достаточные условия, при выполнении которых система B.6) (соответственно B.7) или B.8)) была бы асимптотически устойчива в целом (см. определение 4.5) независимо от ее начального состояния и выбора допустимой (т. е. удовлетворяющей условиям а)-г)) характеристики /И- Ограничимся анализом этой задачи для системы B.8), используя критерий устойчивости Найквиста. Системы B.6) и B.7) рассмотрим менее подробно. При этом в дополнение к указанным выше предположениям а)-в) добавим еще два. 1) Функция /(<т) определена и непрерывна при всех значениях а. 2) Существует постоянная I такая, что О < ^ < /. B.9) а Очевидно, что в пределе при I —> оо условие 2) эквивалентно условию б) (см. условия, определяющие функции класса (А)). Кроме того, будем считать, что система B.8)) собственно устойчива, т. е. все корни характеристического уравнения матрицы А имеют отрицательные вещественные части.
150 Гл. 3. Устойчивость замкнутых систем Записывая уравнения B.8) в операторной форме (ED - А)х = Ъу, у = f(a), а = с dt находим, что х = (ED — А) гЬу. Полагая затем W(D) = —с*(ED — А) 16, получаем а = -W(D)y. B.10) Наконец,обозначая через A(D) характеристический определитель матри- матрицы А, будем иметь M(D) W(D) = B.11) где M(D) — полином, степень которого меньше га. Из формулы B.10) следует, что W(D) можно рассматривать как пере- передаточную функцию в системе, структурная схема которой изображена на рис. 3.2.3. Эта схема описывает замкнутую управляемую систему, в которой в цепь обратной связи включен нели- нелинейный элемент, а через z(t) обозна- обозначен сигнал на входе. Соответствующее этой схеме уравнение движения систе- системы можно записать в виде a = W{D)[z(t)-f{a)\. Отсюда следует, что Рис. 3.2.3 о" + W(D)f(a) = W(D)z(t), B.12) и в том частном случае, когда /(<т) = /кг, уравнение B.12) принимает вид [1 + hW(D)]a = W(D)z(t) или а = W(D) hW(D) z(t). Учитывая B.11) отсюда получаем: а = M(D) ¦z(t). A(D) + hM(D) Таким образом, собственные колебания замкнутой системы, изображенной на рис. 3.2.3, при /(<т) = ha описываются уравнением [A(D) + hM(D)]a = 0, а его характеристическое уравнение можно представить в виде A(p)[l + hW(p)] =0. Нули полинома А(р) по предполож:ению имеют лишь отрицательные ве- вещественные части. Поэтому для того, чтобы при /(<т) = ha замкнутая система была асимптотически устойчивой, необходимо и достаточно, согласно крите- критерию Найквиста, чтобы при изменении со от —сю до +оо вектор \jh -\- W(iui), проведенный из точки (—1//г,0) в плоскости И7, делал нуль оборотов вокруг этой точки.
2. Устойчивость специальных нелинейных систем 151 По предположению функция /(<т) удовлетворяет условию B.9). Принадле- Принадлежащая этому классу функция ha удовлетворяет условию -оо < -I/ft < -1/1. B.13) Если годограф вектора W(iui) будет иметь вид, изображенный на рис. 3.2.4, то можно указать ft = ft*, удовлетворяющее условию B.13), такое, что точка I/ft* будет находиться внутри ветви, обход по которой радиус-вектора с на- началом в точке (—I/ft*, О) будет происходить в ту же сторону, что и обход по наружной ветви годографа. Значит, когда ft = ft*, замкнутая система неустой- неустойчива. Чтобы эта система была асимптотически устойчива при любой функ- функции /(<т) = ftcr, где ft ^ I, необходимо и достаточно, чтобы годограф вектора W(iu) не пересекал полуотрезок (—сю, —1//) (рис. 2.10.5). Если же I —> сю, то О < ft < сю, и запретной зоной является интервал (—оо,0). Само начало коор- координат в запретную зону не входит, ибо рассматривается функция /(<т) = ftcr, определенная при сколь угодно большом, но ограниченном ft. Im W hReW Рис. 3.2.4 Рис. 3.2.5 Таким образом, в решении задачи Лурье получен следующий результат. Теорема 2.1. Если в уравнениях возмущенного движения замкнутой си- системы прямого регулирования B.8): 1) функция f{a) является линейной, f{a) = ftcr, где ft — произвольная постоянная] 2) естественные части собственных значения матрицы А отрица- отрицательны, то тривиальное решение этой системы асимптотически устойчиво при любом ft G (О, I] тогда и только тогда, когда годограф вектора W(iu) не пере- пересекает полуотрезок (—сю, 1//). Если же I = сю, то для такой устойчивости при прежних условиях, необходимо и достаточно, чтобы годограф вектора W(iu) не пересекал полуоси (—оо,0). Определение 2.1. Система B.8), тривиальное решение которой х = в асимптотически устойчиво при любой функции f{a), удовлетворяющей усло- условию B.9) и при любом начальном отклонении х@), называется абсолютно устойчивой в угле (О, Z]. Доказанная выше теорема 7.1 дает достаточные условия асимптотической устойчивости системы B.8) при любой линейной функции /(с) = ha, удо- удовлетворяющей условию A0.11). Поэтому требование, чтобы годограф вектора W(iui) не пересекал полуоси (—сю,, 1//), является необходимым условием абсо- абсолютной устойчивости системы B.8). Достаточные условия абсолютной устой- устойчивости дает
152 Гл. 3. Устойчивость замкнутых систем Теорема В.-М.Попова. Для того чтобы система B.8) была абсолют- абсолютно устойчивой в угле (О, I] достаточно, чтобы существовало такое конечное число q, при котором для всех значений ии выполнялось условие Re A + iquj)W(iuo) + l/l > 0. B.14) Доказательство этой теоремы приводить не будем, а ограничимся двумя замечаниями. Замечание 2.1. Условие B.10) абсолютной устойчивости нелинейной системы принципиально отличается от требований критерия Найквиста для линейной системы. Этот критерий накладывает ограничение на значение Re W(iuo) лишь в тех точках, где Im W(iuo) = 0 (нужно предотвратить возмож- возможность охвата точки (—1//, 0)). Условие B.14) определяет ограничение величины Re A + iquo)W(iuo) для всех ии > 0, а не только в точках, где Im W(iuo) = 0. Замечание 2.2. Теореме Попова можно дать геометрическую формули- формулировку. Для этого введем обозначения Х(ш)= ReW(iu), Y(oj)=cjlmW(icj). Тогда Re (I + iquo)W(iuo) = Х(ио) — qY(ui), и условие B.14) принимает вид X - qY + 1/1 > 0 для всех ии > 0. На плоскости XOY проведем прямую X— —qY + 1/1 = 0, которая, очевидно, проходит че- X рез точку (—1//, О) (рис. 3.2.6). Нетрудно видеть, t , , *— что условие B.14) выполняется в любой точ- ' ке полуплоскости XOY, расположенной правее этой прямой, называемой прямой Попова. Ины- Иными словами, условие B.14) означает, что годо- годограф вектора W(iuj) должен быть расположен правее прямой Попова. Рис. 3.2.6 Из приведенных геометрических соображе- соображений следует, что теорему Попова можно сфор- сформулировать следующим образом. Для того чтобы тривиальное решение системы B.8) было абсолютно устойчивым в угле @,1], достаточно, чтобы в плоскости комплексного переменного W* = ReW(iou) + iqu!mW(iu) можно было выбрать прямую, проходящую через точку (—1//,0) так, чтобы годограф вектора W(iuo) был весь расположен правее этой прямой. При этом, как и в аналитической формулировке, нужно предполагать, что все собственные значения матрицы А имеют отрицательные вещественные части. Как видим, теорема Попова дает лишь частичное решение задачи Лурье, указывая достаточные условия абсолютной устойчивости в угле @,1]. Другой путь исследования той же задачи основывается на применении второго метода Ляпунова. 3. Применение функций Ляпунова Как было показано в предыдущем параграфе, вопрос об устойчивости замкнутой системы с заданными численными значениями ее параметров ре- решается сравнительно просто применением критерия Найквиста. Однако в тео- теоретических исследованиях возможности этого критерия весьма ограничены.
3. Применение функций Ляпунова 153 В частности, в ряде случаев с его помощью затруднительно строить область устойчивости системы в пространстве ее параметров. Для решения таких задач целесообразно пользоваться вторым методом Ляпунова. 3.1. Каноническая форма уравнения. Будем исходить из того, что уравнения системы автоматического регулирования приведены к нормальной форме (см. A.8)) х = Ах + Ьу, у =Рп+\У + /(сг), сг = с*ж, C.1) которые в свою очередь могут быть приведены к более общему виду z = Mz + lu, u = f(s), s = e*z. C.2) Аналитические конструкции, связанные с построением функций Ляпунова для рассматриваемых специальных нелинейных систем, оказываются более про- простыми и наглядными, если пользоваться каноническими формами этих урав- уравнений. Первая из них, предложенная Лурье, удобна для исследования собствен- собственно устойчивых систем, а также систем, нейтральных по одной переменной8). Канонические переменные в этом случае введем формулой z = Гх + /г/, C.3) где / — единичный вектор, т. е./ = {1,...,1}. Дифференцируя это соотношение и учитывая уравнения C.1), получаем z = Г(Ах + by) + 1\рп+!у + /(<т)]. Если потребовать, чтобы первое уравнение в C.1) имело каноническую форму z = Rz + If(a), C.4) то матрицу Г нужно подчинить условиям В случае простых корней характеристического уравнения det (рЕ — А) = О матрицу Г можно выбрать так, чтобы матрица R имела вид /Pi 0 ... 0\ R= Г » у/ ° . C.5) \0 0 ... pj Преобразуем теперь величину а = с*х = ^с^ж^. Согласно формуле C.3) имеем a = c*T-\z + Iy). Поэтому, вводя (п + 1)-мерный вектор и = {zi,..., zn, г/}, можно записать п+1 C-6) Добавляя к уравнению C.4) второе уравнение, из C.1) можно записать ) Система называется нейтральной по одной переменной, если все собственные значе- значения pi матрицы А, кроме одного pj, имеют отрицательные вещественные части, ар^ является простым нулевым корнем уравнения det {рЕ — А) = 0.
154 Гл. 3. Устойчивость замкнутых систем где Далее, в соответствии с полученным уравнением из C.6) получаем Вводя соответствующие обозначения, приходим к системе а = /3*u-rf(a). В итоге получаем первую каноническую форму уравнений C.1) и = Ри + If (а), а = 7Ч & = f3*u - г/(<т), C.8) где / — единичный вектор, а матрица Р является диагональной (см. C.5) и C.7)). В случае когда pn+i = 0, эти уравнения принимают вид п z = Rz + //(сг), у = f{&)j о — Т*^ ® = } fiiZi — г/(с), C-9) г=1 где и = {z\..., zn, г/}, а матрица R определяется формулой C.5). Если харак- характеристическое уравнение матрицы А имеет кратные корни, то каноническая форма уравнения C.1) усложняется. В самом деле, пусть элементарными делителями матрицы рЕ — А являются (р — pi)ni, • • •, (p — ps)ns- Тогда уравнения C.1) имеют каноническую форму u = Pu + qf(<r), cr = 7*^, & = C*u-rf(<r), C.10) где z = {zi,... ,zn,y}, q, C, г и j — постоянные векторы, а Р — постоянная матрица вида C.5), в которой (Мх 0 ... 0 \ (Pi 1 0 ... 0N R = 0 0 ... MJ \0 0 0 В частности, если р\ является корнем кратности Z, а все остальные корни простые, то уравнения C.10) принимают вид qif(<r), z2 = P\z2 + z3 + q2f(cr), • • + /(cr), ..., in = pnzn + /(сг), у = где и = {zi,... ,zn,y}. Замечание З.1. В уравнениях C.10), как, впрочем, и в уравнениях C.1) и C.2), переменная у является вспомогательной и не характеризует фазовое состояние системы. Поэтому вместо C.10) можно пользоваться уравнениями z = Rz + qf(a), & = f3*z- rf{a) C.11) или (в случае, когда pn+i = 0) уравнениями п z = Rz + qf(a), у = /(а), & = ^ 7Л + 7п+12Л C-12) г=1 Первое уравнение в C.11), очевидно, следует из C.10) (берутся лишь урав-
3. Применение функций Ляпунова 155 нения, содержащие производные компонент zi, ..., zn вектора и). Запишем теперь два последних уравнения из C.10) в виде п п г=1 г=1 Продифференцируем первое из них, а затем воспользуемся вторым для исключения переменной у : ° = Т* + in+iy = T(Rz + qf(a)) + in+iy, где 7 = {7ь---,7п}- Так как у = рп+1у + /(сг) (см.C.1)), то где cj — некоторый постоянный вектор, a s — скалярная величина. Если рп+1 = 0, а следовательно, /3n+i = 0 (см. вывод уравнения C.8)), то уравнения C.12) являются иной формой записи первых двух уравнений из C.10). Соотношение & = /3*и — rf(a) в этом случае не является необходимым для описания поведения регулируемой системы. Пример (первая задача Булгакова). Замкнутая система управления опи- описывается уравнениями . .. 1 C.13) а = аф + Еф -\- G ф — -/х, i в которых постоянные Т2 и U характеризуют объект регулирования, а посто- постоянные а, Е, G и I являются параметрами регулятора. Функция f(a) удовлет- удовлетворяет условиям /(сг) = О при |сг|<сг*; erf (а) > 0 при \а\ > а*. C.14) Эта задача исследовалась многими авторами в связи с разработкой системы стабилизации курса движущихся объектов (кораблей и самолетов). Введем обозначения U г IT2 1 Ъ2 = - г-v/r л/г г Тогда уравнения C.13) можно записать в нормальной форме (см. C.1)): Г Ш = Г}2, V2 = Ь2Г]2 + П2^, \ ^ = /W, О- = PlVl + Р2^2 - ?, где через ф обозначена производная функции гц по переменной т. Установив- Установившееся состояние системы определяется решением уравнений 7/2 = 0, b2r]2 + п2<^ = 0, /(сг) =0, сг = pi?7i + P2V2 — 6 Отсюда, согласно условиям C.14), получаем континуум решений \т\ < —? Г72 = ^ = о,
156 Гл. 3. Устойчивость замкнутых систем которые нужно исследовать на устойчивость. Записывая уравнения объекта регулирования в виде г) = Ау + Ъу, находим, что А= П Ь ' Ь = а следовательно, det (рЕ — А) = р(р — 62), т. е. один корень pi является нулевым, а второй р2 — отрицательным, так как Ь^ < 0. Таким образом, система C.13) нейтральна по одной переменной и, кро- кроме того, ее нормальная форма C.15) соответствует случаю, когда pn+i = 0 (см. C.1)). Поэтому неособенным преобразованием она приводится к виду C.9). Такое преобразование дается формулой х\ = ?, ж 2 = Ь^щ + <f- Отсюда с уче- учетом уравнений C.15) и того факта, что п^ = — 1, получаем где /?i = Pi/b2j P2 = Р2 + Vi/1*2- Эти уравнения имеют каноническую форму вида C.9). 3.2. Теорема Лурье. Рассматривая применение функций Ляпунова к задачам абсолютной устойчивости регулируемых систем, ограничимся анали- анализом лишь класса собственно устойчивых и нейтральных по одной координате систем. Это означает, что по предположению характеристическое уравнение det (рЕ — А) = 0 матрицы А системы C.1) имеет корни только с отрицатель- отрицательными вещественными частями, либо один из них имеет нулевую вещественную часть (он обязательно простой), а у остальных Kepj < 0. Рассмотрим систему C.8), которую запишем в виде k = -pkUk + /(сг), к = 1, 2, ..., п + 1, п+1 п+1 C.16) J2 О J2 P f() к=1 к=1 где pi,..., ps — вещественные числа, ps+i,..., pn+i — попарно комплексно со- сопряженные числа. В соответствии с этим 7i • • • ? 7s и $2? • • • > А?> а также переменные xi,..., xs считаются вещественными, /3s+i,...,/Зп+ъ 7s+i, • • • ,7n+i и переменные xs+i, ..., xn+i — комплексными попарно сопряженными. Все постоянные pi,..., pn+i предполагаются различными и удовлетворяющими условию RepjX), j = 1, 2, ..., п + 1, C.17) но для одного из вещественных корней рк = —рк характеристического уравне- уравнения det (рЕ — А) = 0 считаем возможным обращение его в нуль (что означает нейтральность системы C.1) по одной переменной). Задача состоит в определении параметров 7ъ • • • ,7п+ъ А, • • • ,/^п+ъ ПР^ которых гарантируется абсолютная устойчивость системы C.1). Функция f(a) должна принадлежать классу (А) (см. параграф 2, условия а)-в) после формулы B.3)). Пусть J п+1 F(a1,u1,...,an+1,un+1) = ^ —г——щик, C.18) где ai,..., as — любые вещественные, а as+i,..., an+i — любые комплексные попарно сопряженные числа. Так как
3. Применение функций Ляпунова 157 1 Г00 = / ехр{-(^ + Pk)t}dt, + Pk Jo Pi то квадратичную форму C.18) можно представить в виде F= / [^<цще«*У<И. C.19) Jo i=1 Подынтегральное выражение в C.19) вещественно, ибо комплексные сла- слагаемые в нем попарно сопряженные и обращаться в нуль при всех t могут лишь при нулевых значениях переменных ui,..., un_|_i. Следовательно, функ- функция C.18) является положительно определенной. Очевидна также положитель- положительная определенность квадратичной формы 1 s п Ф(и\, . . . , Un+i) = - 22 ^iUi + Z^ Ck-sUkUk+1, i=l /c=s+l где Ai и Ск — положительные числа9). Так как функция /(сг) принадлежит классу (А), то / f(<j)d<j>0 при \а\ > сг* и / /(сг) dcr = 0 при |<т| < сг*. Jo «/о Поэтому функция _ l4^7 /(cr)dcr положительно определенная. Составим ее полную производную по времени в силу уравнений C.16). При этом сначала предположим, что выполнено условие C.17). Тогда —ГГ к=1 к=з+1 п п+1 г п+1 + ик[~РгЩ + /(сг)]} + /(сг) - ^ Pfc^/c - ^/(сг) Отметим, что п+1 / п х 2 г,/с=1 4=1 . C.20) п+1 п+1 Е Q>iQ>k Uk. Поэтому, если прибавить к правой части равенства A1.22) выражение г=1 а затем вычесть ту же величину, то получим ) Это утверж:дение непосредственно следует из того, что u^u^^i является произве- произведением пары комплексно сопряженных величин и, следовательно, равно квадрату модулей сомножите лей.
158 Гл. 3. Устойчивость замкнутых систем Ck-s(pk+ Pk+l)ukUk+l- dV k=l k=s+l •n+1 x 2 n+1 ) k=l ' k=l /(a) J^ Afe + /?fe + 2Vr afe + 2afc ? ^ П+1 При этом для более компактной записи последнего слагаемого в правой части этого равенства величины Ci,..., Cn-S обозначены соответственно через Из C.21) следует, что производная —— будет отрицательно определенной, если выполняются соотношения п+1 а. Ак + Рк + 2у^^/с + 2а/с ^2 — =0, к = 1, 2, ..., s, ^=1 л+р* _ C22) Са + Aj+а + 2\A*Gs+a: XI " = 0, Се = 1, 2, . . . , П — S + 1. г=1 Рг + Р/с В этом случае полная производная имеет вид ,лг s п+1 Гп+1 ~тг = ~/_^ РкАкик — 2_^ Ck-S(pk - к=1 к=з+1 Соотношение C.22) содержит неопределенные постоянные: положитель- положительные А\,..., As, Gi,..., Cn+i_s, вещественные ai,..., as и попарно комплекс- комплексно сопряженные as+i,..., an+i. Если первую группу чисел каким-либо обра- образом задать, то эти соотношения C.22) можно рассматривать как уравнения относительно неизвестных постоянных ai,...,an+i. В дальнейшем нас будет интересовать лишь критерий разрешимости этих уравнений, а не сами их ре- решения. Допустим, что этот критерий может быть выражен в форме некоторого числа неравенств Fk(pu ..., Рп+иАи ..., Ав, Си ..., Cn_s) > 0, к = 1,2,..., C.23) и рассмотрим частный случай, когда А\ = ... = As = С\ = ... = Cn-S = 0 (форма Ф не входит в функцию Ляпунова V). Тогда уравнения A1.26) прини- принимают вид п+1 Рк + 2y/rak + 2afe У^ ——— =0, к = 1, 2, ..., п + 1, C.24) а критерий C.23) разрешимости этих уравнений можно записать в виде нера- неравенств Ь ..., /3n+i, 0,..., 0) > 0, ? = 1,2,... C.25)
3. Применение функций Ляпунова 159 Если параметры системы C.16) удовлетворяют неравенствам C.25), то су- существует положительно определенная функция Ляпунова V = F + / f(a) da, C.26) Jo полная производная которой по времени отрицательно определенная и имеет вид ,2 г=1 Предположим теперь, что при всех /?]_,..., /3n+i, удовлетворяющих услови- условиям C.26), можно указать числа А®,..., А®, С^,..., C^+i такие, что производ- производные dFk = dFk{p1,...,pn+1,A1,...,Aa,C1,...,Cn-a) дРк дСт дСт ограничены при O^Aj^A?, 0^Cm^C^, j = \,2,...,s, k = l,2,..., m=l,...,n-s. Тогда условия A1.26) при малых положительных Aj и Ст мож:но записать в виде m>0, к = 1,2,... j = l J m=l Поэтому если постоянные А\,..., Cm+i положительны, но сколь угодно малы, то результаты, полученные на основании критерия C.25), будут сколь угодно близки к результатам, вытекающим из критерия C.23). В соответствии с этим всюду в дальнейшем будем рассматривать функцию Ляпунова C.9) и говорить об абсолютной устойчивости тривиального решения C.16), гарантируемой вы- выполнением неравенства C.25). Отсюда непосредственно получаем следующий вывод. Теорема Лурье. Если система уравнений C.24) имеет хотя бы одно решение ai,..., an+i, в котором вещественным значениям pi,..., ps соот- соответствуют вещественные числа, ai,..., as, а попарно комплексно сопряжен- сопряженным значениям ps+i,..., pn+i соответствуют попарно комплексно сопря- сопряженные числа as+i,..., an+i, то система регулирования C.16) абсолютно устойчива. Заметим, что решения уравнения C.24) не нужны для решения вопроса об устойчивости системы. Достаточно установить с помощью условий A1.28) сам факт их существования. Кроме того, в приведенном анализе предполагалось выполненным условие C.17). Предположим теперь, что система C.16) нейтральна по одной переменной, т. е. среди вещественных чисел pi,...,ps одно равно нулю, а остальные по- положительны. Оставшиеся числа ps+i,... ,рп+ъ как и прежде, предполагаются попарно комплексно сопряженными и удовлетворяющими условию C.17). По- Поэтому систему C.17) теперь можно представить в виде
160 Гл. 3. Устойчивость замкнутых систем = /(сг), йк = -ркик + /(сг), п+1 п+1 к=1 к=1 /с = 2,..., п + 1, ~ rf(a). C.27) Докажем, что коэффициент E\ отрицателен. В самом деле, рассмотрим функцию /(сг) = fccr, которая, очевидно, принадлежит классу (А). Согласно условию erf (а) > 0 находим, что к > 0. Тогда система C.27) оказывается ли- линейной и её характеристическое уравнение имеет вид Д(р) = р 0 0 0 -01 0 Р + Р2 0 0 -02 0 0 Р + РЗ 0 03 0 0 0 ... Р + Рп+1 -0п+1 -к -к -к -к Рк +гк = 0. Если А(р) записать как полином по степеням р, то коэффициент при стар- старшем члене этого полинома будет равен —1, а свободным членом будет число, равное определителю А@) = Разлагая его по элементам первой строки, получим Д@) = -fc/?ip2...Pn+i. Так как комплексные числа ps+i,..., pn+i являются попарно сопряженными и выполнено условие C.17), то кр2 ... pn+i > 0- По критерию Гурвица величи- величина Д@) долж:на быть полож:ительной. Поэтому 0 0 0 -01 0 0 -02 0 0 0 -0з 0 0 Рп+1 ... -0п+1 -к -к -к тк C.28) Функцию Ляпунова в этом случае возьмем в виде п+1 ^ s п+1 Z-^ n, _|_ m„ % 2 ^^ % г ^-^ i=2 k=s+l Pi + Pk Гf(cr) do Jo При е\ > 0 это будет положительно определенная функция п + 2 перемен- переменных ui,... ,un+i,cr. Полная ее производная по времени, вычисленная в силу уравнений C.27), будет иметь тот же вид, что и в предыдущем случае. Нужно лишь суммирование в правой части формулы C.21) начинать не с к = 1, а с к = 2. Переменная wi в выражение V не войдет. Если выполнить все операции по вычислению полной производной V, то вместо условий C.22) получим следующие условия:
3. Применение функций Ляпунова 161 ( А1 + А = О, п+1 ^k + /?fc + ^л/гак + 2а/с XI -У fc =O, fc = 2,..., п + 1, п+1 Gа -f /3s+a + 2л/га5+а + 2as+a 5^ — =0, a = 1, 2, ..., n + 1. C.29) Первое из них определяет /?i, а остальные условия следует рассматривать с тех же позиций, что и условия C.22). Поэтому, если постоянные <Х2,... ,«n+i под- подчинить условиям C.29), то V будет знакоопределенной функцией переменных 1X2, • • •, ^n+i, с и знакопостоянной функцией переменных ui,..., i?n+i, сг. Функ- Функция У обращается в нуль на оси и\ (т. е. при 1x2 = ... = ^n+i = сг = 0 ). Так как эта ось не является полной траекторией системы C.27), то согласно тео- теореме Барбашина-Красовского тривиальное решение и\ = ... = ип+\ = а = 0 является асимптотически устойчивым в целом. Таким образом, условия абсолютной устойчивости системы C.27), ней- нейтральной по одной переменной, состоит в том, что выполняются соотно- соотношения C.22) и C.28), в которых к = 2,..., s. В заключение выполненного анализа замкнутой системы рассмотрим систему прямого регулирования (см. C.2)) п ilk — ~Ркик ~Ь /(с), С — / СгЩ^ /с ^ 1, 2, . . . , 77/, г=1 в которой числа pi,..., ps различны и неотрицательны, а ps+i,..., рп комплекс- комплексны сопряженны, причем Re рк > 0, к = 1, 2, ..., п. Функцию Ляпунова V в этом случае нужно брать в том же виде C.20), что и в рассмотренных выше ситуациях, но без интеграла. Если, в частно- частности, система является собственно устойчивой, то, повторяя изложенные выше рассуждения, можно показать, что для определения постоянных ai,..., ап по- получаем систему уравнений п 2ак V - + Ск = 0, к = 1, 2, ..., п. C.30) Рк Следовательно, для абсолютной устойчивости системы C.29) достаточ- достаточно,чтобы существовало решение уравнений C.30), обладающее тем свойст- свойством, что числа ai,..., as должны быть вещественными, a as+i,..., ап попар- попарно комплексно сопряженными. 3.3. Анализ абсолютной устойчивости. Полученные выше результа- результаты показывают, что вопрос о структуре области устойчивости следует решать, анализируя систему уравнений C.24) (или C.30)). Однако решение этих урав- уравнений в общем случае оказывается затруднительным (обозримые решения по- получаются лишь при п ^ 5). Здесь мы ограничимся анализом системы вида C.24), состоящей всего из двух уравнений (к = 1,2): Pl Pl+P2 . C.31) +2a2^+2 Р2 Pl + Р2
162 Гл. 3. Устойчивость замкнутых систем Требуется указать условия, которым должны удовлетворять числа pi, /?2, Л 01 и /?2, чтобы эти уравнения имели решение ai, a2, обладающее тем свойством, что если р\ и р2 вещественны, то а\ и а2 должны быть также вещественными; если же р\ и р2 комплексно сопряженные числа, то нужно, чтобы а\ и п2 были комплексно сопряженными. Разделим первое уравнение на р\, а второе на р2 и полученные результаты сложим почленно. Итог можно записать в виде J / \ о п ,-1 CLl &2 \ Pi H2 + 2Vr 1 М 1 =0, VPl P2J Pi P2 ИЛИ f^+^+^V=r2' (з-32) \Pl P2 J где Г2 = г-^-^>0. C.33) pi Р2 Квадратное уравнение C.32) распадается на два линейных уравнения ^ + ^=r-Vf, ^ + ^ = -Г-^. C.34) Pi P2 Pi P2 Вычитая теперь из первого уравнения системы C.31) второе уравнение, получим °±-Щ +2V^ai - a2) + @i - 02) = 0, Pi P2/ ИЛИ ) p2f^^) =r(Pl-p2)+fo-Pi. C.35) pi У V p/ В итоге система двух линейных уравнений C.34) вместе с квадратным уравнением C.35) оказывается эквивалентной системе уравнений C.31). Предположим сначала, что числа 0\ и 02 являются комплексно сопряжен- сопряженными. Вместо искомых комплексно сопряженных а\ и п2 введем новые пере- переменные х и г/, определив их равенствами х + гу = л/г -\ , х — гу = л/г -\ . C.36) Pi Р2 В новых переменных уравнения C.34) и C.35) принимают вид 2ж = л/г-Г, 2ж = л/г + Г, C.37) (Pi - Р2)(^2 - У2) + 2ху(Р1 - р2)г = г(Р1 - р2) +02- 0ъ C.38) Разделив уравнение C.38) на р\ — Р2, получим A + к2)х2 — (кх — уJ = г Н , Pi -Р2 где число Pi + Р2 . ,Q QOx к = г C.39) Pi -р2 является вещественным. Если ввести еще одну переменную z по формуле кх-у = y/l + h?z, C.40)
3. Применение функций Ляпунова 163 то уравнения C.37) и C.38) можно записать в виде 2ж = л/г-Г, 2ж = л/г + Г, г2-х2 = в. C.41) Число является вещественным. Это следует из условия C.33), согласно которому чис- числа /?i и /?2 должны быть либо комплексно сопряженными, либо вещественными и равными. Прежде чем переходить к анализу уравнений C.41), отметим, что они по- получены в предположениях что р\ и р2 являются комплексно сопряженными. Однако тот же результат получается, если эти числа считать вещественными. Нужно лишь в соотношениях C.36) вместо х ± гу брать х ± г/, в C.39) отбро- отбросить г, а переменную z определить равенством кх + у = л/к2 - lz. C.43) Тем самым в уравнениях C.42) величина в будет определяться той же фор- формулой C.43). Следовательно, система C.42) эквивалентна системе C.32) при любых положительных различных числах р\ и р2 (pi ф р^). Применяя тео- теорему Лурье и учитывая формулу C.40) (или C.44)), приходим к следующему выводу. Если уравнения C.41) имеют хотя бы одно вещественное решение отно- относительно z, то система регулирования абсолютно устойчива. Решая систему C.40), находим, что (yf±r), e>o. Отсюда следует, что замкнутая система будет абсолютно устойчивой при вы- выполнении условий (см. C.33)) (v^ + r)>o, r>o. Полученные неравенства определяют область абсолютной устойчивости за- замкнутой системы в пространстве параметров pivp2? r> Pi и /?2- Пример (первая задача Булгакова). Продолжим анализ первой задачи Булгакова (см. пример 3.1) и, в соответствии с теорией Лурье воспользуемся канонической формой C.9) системы регулирования C.13), нейтральной по од- одной переменной. Согласно теореме Лурье в этом случае условия абсолютной устойчивости имеют вид (см. C.29)) а2 А + ft = 0, /?2 + а2 - -г- = 0. C.44) 02 Здесь мы воспользуемся тем, что для получения условий абсолютной устой- устойчивости достаточно положить А2 = 0. Первое из уравнений C.44) определяет величину /?]_, которая, очевидно, удовлетворяет условиям C.28). Из второго уравнения той же системы находим, что
164 Гл. 3. Устойчивость замкнутых систем Следовательно, величина а2 будет вещественной, если Ъ\ + C2Ъ2 > 0. Если воспользоваться формулами, определяющими коэффициенты сис- системы C.9) с параметрами исходных уравнений C.13), то этому неравенству можно придать вид - (- V > а - — (е - —С2 или, что то ж:е самое, Щ^>0. C.45) Условие /?i < 0 означает, что а > 0, так как C2 < 0. Поэтому соотношение C.45) представляет собой единственное условие абсолютной устойчивости систе- системы C.11). Оно примечательно прежде всего тем, что в него не входит постоян- постоянная С2. Оно накладывает ограничения лишь на параметры [/, Z, Е, а и Т2.
ГЛАВА 4 Периодические решения нелинейных систем дифференциальных уравнений 1. Периодические решения автономных нелинейных систем При анализе устойчивости по первому приближению было установлено, что если система первого приближения является стационарной, то вопрос об устойчивости нелинейной системы ЛХ ¦ "'¦ :), A.1) Ax dt где х = {xi,... ,хп}, решается собственными значениями матрицы А в сле- следующих случаях. 1. Все собственные значения матрицы А имеют отрицательные веществен- вещественные части. 2. Хотя бы одно собственное значение этой матрицы имеет положительную вещественную часть. В первом случае тривиальное решение уравнения § = Ах A.2) at устойчиво в целом, т. е. оно асимптотически устойчиво относительно произ- произвольно больших начальных возмущений, а тривиальное решение уравне- уравнения A.1) асимптотически устойчиво, если нелинейное слагаемое F(t,x) при этом удовлетворяет требованию и., A.з, равномерно по ?, to < t < оо. Во втором случае тривиальное решение уравнений A.1) и A.2) неустойчиво при том же предположении относительно функции F. Вместе с тем оказывается, что если хотя бы одно собственное значение матрицы А имеет нулевую вещественную часть, а для остальных собственных значений pj выполняется условие Re pj < 0, то вопрос об устойчивости нели- нелинейной системы, вообще говоря, не решается системой первого приближения. Аналогичная ситуация имеет место и в том случае, когда характеристическое уравнение системы первого приближения имеет чисто мнимые корни, но не имеет корней с положительной вещественной частью. Во всех этих случаях (в теории устойчивости они называются критическими) вопрос об устойчивости нелинейной системы не решается анализом лишь системы первого приближе- приближения. При этом, как показано ниже, в окрестности тривиального решения могут
166 Гл. 4- Периодические решения нелинейных систем существовать периодические (устойчивые или неустойчивые) решения уравне- уравнения A.1), которые зависят от начальных возмущений. Такие решения опреде- определяют колебания в нелинейных системах, описываемых уравнением A.1). В этом параграфе мы рассмотрим некоторые вопросы, связанные с пост- построением таких периодических решений, когда выполняется условие A.3). Как оказывается, результаты решения принципиально различны для двух случаев: зависит или не зависит от t нелинейная функция F(t,x) в уравнении A.1). Ясно (как с теоретических, так и с практических позиций), что получение условий существования таких решений представляет несомненный интерес. 1.1. Периодические решения квазилинейных автономных систем. Будем рассматривать поведение системы, описываемой уравнениями1) da ' —^ =Fi(x1,...,xn,ii), i = 1, 2, ..., n, A.4) в которых /i — числовой параметр. В силу того, что правые части системы A.4) не зависят явно от времени, ее решению х = ж(?,/х) соответствует решение х = x(t — ti, /i), где t\ — произвольный момент времени. Поэтому периодическое решение этой системы (если оно существует) зависит по крайней мере от одного параметра, в качестве которого можно взять t\. Другой параметр, а именно /i, считается достаточно малым, чтобы обеспечить сходимость тех рядов, которые появляются в процессе построения периодических решений. Строить эти решения будем при выполнении следующих условий: а) функции Fi являются аналитическими по ж ]_,..., жп и fi в некоторой области переменных xi,..., хп и малой окрестности точки \± = 0; б) при /i = 0 уравнения A.4) вырождаются в линейную систему k=l имеющую периодическое решение х = (p(t) с периодом Т. Если окажется, что система уравнений A.4) имеет периодическое решение, то его период 7\, вообще говоря, будет отличен от Т, и можно записать Ti=T + a(n). A.6) Теорема Пуанкаре. Если система уравнений A.4) удовлетворяет усло- условиям а) и б) у а при \± = 0 имеет периодическое решение Xi = <pi(t), i = l,2, ...,n, A.7) с периодом Т, то ее решение, соответствующее начальному условию Xi@) = <р@) + аи г = 1, 2, ...,п, и записанное в виде Xi = Xi(t, аъ ..., ап, /i), г = 1, 2, ..., п, A.8) будет: 1) аналитическим относительно ai,..., ап и \± для малых значений этих величин; ) В задачах построения периодических решений удобнее пользоваться скалярными уравнениями.
1. Периодические решения автономных систем 167 2) периодическим с периодом A.6), если величины ai,..., ап можно найти из условий периодичности ^ = жДТ + а,а1,...,ап,/х)-жД0,а1,...,ап,/х)=0, г = 1, 2, ..., п, A.9) (положив одну из них, например, ап, равной нулю), как аналитические функ- функции /i, которые для \± = 0 обращаются в нуль. Доказательство этой теоремы приводить не будем, а ограничимся практи- практическими аспектами ее применения. Прежде всего отметим, что при выполнении всех условий теоремы периодическое решение A.8) системы A.4) можно пред- представить в виде рядов Xi{t) = <pi(t) + №ii(t) + fi2<p2i(t) + ..., г = 1, 2,..., A.10) сходящихся при достаточно малом /х, где (/?г(?) — функции A.7), определяющее периодическое решение вырожденной системы A.5). Следует отметить, что число неизвестных функций параметра /х, a, ai,... ..., ап, которые требуется найти из условий периодичности A.9), на единицу больше числа уравнений. Однако эта неопределенность устраняется тем, что одно из чисел ai, например, anj принимается равным нулю. Общность решения восстанавливается тем, что начало отсчета времени или постоянную t\ (о ней речь шла выше) можно выбрать произвольно. Если периодическое (с периодом A.6)) решение системы уравнений A.4) представить в виде A.10), то из периодичности функций Xi(t): Xi(t + T + a) =Xi(t), вообще говоря, не следует периодичность функций (fik(t) с тем же периодом Т + се, т. е. правые части функций A.10), вообще говоря, не удовлетворяют равенствам <р*(Т + а + t) = y>i(t), ipik(T + а + t) = ipik(t). Этот факт не должен казаться неожиданным, потому что решение A.10) зависит от параметра /х, а в правой части A.10) стоит разложение решения по степеням этого параметра. Например, функция sin (l+/x)? имеет период 2тг/A + /х). Разложив ее в ряд по степеням параметра /х, получим sin (I + n)t = sin t-\- fit cos ? sin t + ... Слагаемые при каждой степени /х (/х, /х2,...) в правой части этого равенства растут неограниченно с возрастанием t. Отсюда получается важный вывод о том, что при необходимости приближенно вычислить периодическое решение системы уравнений A.4) не рекомендуется использовать частичные суммы ря- рядов A.10). Они не дают представления о периодичности искомого решения. Для практического построения приближений периодического решения при- применяется прием Ляпунова. Он состоит в том, что сначала система A.4) преоб- преобразуется к собственному времени путем замены T^ () 1 + а В итоге получается новая система, единицей измерения времени в которой берется период искомого периодического решения. Зависящая от /х величина а разлагается в ряд по степеням этого параметра. Поэтому Т + а = ГA + fti/i + /i2/i2 + ...)•
168 Гл. 4- Периодические решения нелинейных систем Такое представление периода собственных колебаний системы A.1) позволяет надлежащим выбором коэффициентов /ц выполнять условия периодичности для функций (рж в разложении A.10). Общая схема предлагаемой процедуры довольно громоздка и связана с ма- малоинтересными преобразованиями. Поэтому приводить ее здесь в общей форме не будем, а ограничимся подробным анализом сравнительно простого примера. Пример 1.1. Требуется построить периодическое решение уравнения сРх 7о „/ dx\ , ч + fc2 / A.12) dt2 ' ^J V dt аналитическое по /i, которое при /х = 0 вырождается в периодическое решение уравнения ^ + k2x = 0. A.13) Для перехода к «собственному времени» полагаем 2) г = —?— t = ЫA + /ц/i + /i2/i2 + ... )-\ 1 -\- а где к = 2тг/Т — частота периодического решения уравнения A.13). Тогда СьХ СьХ , ,. , 7о \1 — = —к A + fti/i + ft2/i +... \ at ar Cb X Cb X о , о \9 -772" = ^- 2fe2(l + fti/X + /l2/i2 + • • • ), at^ dr и уравнение A.12) можно записать в виде + • • • J = , к ^A + ftx/x + /i2/i2 + ... )"Л A + ftx/x + /i2/i2 + ... J. A.14) Решение этого уравнения ищем в виде х{т) = <р(т) + Wi(r) + /xV2(r) + • • •, A.15) где у?(т) — решение уравнения A.13), а ^i(r), ... — функции, подлежащие определению, которые имеют период 2тг. Подставляя функции A.15) в уравнения A.14), получим ... J = ^ / L dr dr Приравнивая коэффициенты при одинаковых степенях /х в левых и правых частях этого уравнения, получаем рекуррентные дифференциальные уравне- уравнения относительно у?(т), ^i(t), ^2(г)? • • • ) Эта замена отличается от A.11) множителем 2тг, который, очевидно, не играет прин- принципиальной роли.
1. Периодические решения автономных систем 169 При /i° получаем и, следовательно, ip(r) = A cos г + Б sin г. Так как <р(т) является периодическим решением уравнения A.17), то всегда найдется момент времени т = t\ такой, что dip ~dr~ = 0. r=t0 Не нарушая общности, можно считать, что t\ = 0, и поэтому В = 0. Таким образом, в качестве ф{т) выбираем решение ф{т) = A cos т. Приравнивая в уравнении A.16) коэффициенты при /х1, получаем и, следовательно, + (p = Ahcp + -^ =,/(Acost, —/ Общее решение этого уравнения можно представить в виде i (г) = А\ cos г + Б1 sin г — 2/ii А / cos s sin(r — 5) ds + Jo 1 Г + T2 / /(^4 cos 5, — /cAsin 5) sin (r — 5) ds. ^ Jo Условия периодичности 3) dr dr приводят к уравнениям /»2тг -1 /»2тг 2hiA / cos s sin s ds = —^ / f (A cos s,—k Asms) sins ds, Jo к Jo /»2тг -i /»2тг 2/iiA / cos2 sds = — I f (Acos s,—k Asin s) cos sds, Jo к Jo или л2тг / /(A cos 5, —/cA sin 5) sin sds = 0, /i 1 Q\ hi = / /(Acos5, —/cAsin s) cos sds. ZJ\.7Trb Jq Первое из уравнений A.18) определяет постоянную А, и тем самым оно «отбирает» те решения (p(r) = A cos r ) Этих условий в соответствии с теоремой Пуанкаре должно быть два, так как если уравнение A.12) переписать в виде системы A.4), то получим систему второго порядка.
170 Гл. 4- Периодические решения нелинейных систем порождающего уравнения A.17), около которых имеется периодическое реше- решение уравнения A.12). Второе уравнение из A.18) дает поправку на период (ча- (частоту) колебаний системы в первом приближении. Ему можно придать более удобную форму. Полагая в первом приближении и обозначая через ио частоту колебаний нелинейной системы A.18), найдем при достаточно малом /х UJ fc(l ft) 1 + < или />2тг ио = к —- / f(A cos 5, —kA sin 5) cos sds. С той же степенью точности вместо этой формулы можно брать следующую: ио2 = к2 / f(A cos 5, —kA sin s) cos sds. к A j0 Следовательно, первое приближение периодического решения уравне- уравнения A.12) получаем в виде х(т, /х) = A cos г + /х< А\ cos т -\- Bi sin r — 2/ii А / cos 5 sin (t — s) ds + I Jo 1 Г 1 + —т / /(A cos 5, —/cA sin s)ds >, fc Jo ) где Ai и Bi — произвольные постоянные, a hi и А определяются формула- формулами A.18). "Собственное время" г связано с ? формулой г = fcD — hi/i)t. 1.2. Метод Крылова. Методом Ляпунова можно получить все последу- последующие приближения периодического решения нелинейной системы. Для этого нужно приравнивать коэффициенты при последующих одинаковых степенях /х в уравнении A.16), получая при этом последовательно второе, третье и т. д. приближения. Однако при этом объем необходимых вычислений будет нарас- нарастать лавинообразно. Это обстоятельство ограничивает возможности практи- практического использования метода. Его рекомендуется применять, когда требуется построить лишь первое или второе приближение. Для получения приближений более высокого порядка рекомендуется пользоваться методом А.Н. Крылова, который существенно упрощает процедуру построения второго, третьего и последующих приближений. Его содержание проиллюстрируем на простом примере. Пример 1.2. Пусть процесс описывается уравнением d2x — + к2х + /хж3 = 0, A.19) ClC которое, очевидно, удовлетворяет всем условиям теоремы Пуанкаре. Если в формально составленном разложении x(t) = <p(t) + m(t) + /xV2(t) + ... A.20) все функции (/?(?), <?i(?), ^2(^M • • • будУт определены как периодические функ- функции с одним и тем же периодом, то ряд A.20), очевидно, будет периодическим решением уравнения A.19). Для выполнения условий периодичности А.Н.Кры- А.Н.Крылов предложил эффективный метод, в котором одновременно с построением
1. Периодические решения автономных систем 171 ряда A.20) строится разложение по малому параметру /х квадрата искомой частоты р2 = к2 + кщ + /с2/х2 + ... Имея в виду получить периодическое решение уравнения A.19) с точ- точностью до второй степени /х (включительно), находим x(t) = Подставляя эти выражения в уравнение A.10), будем иметь d2(p2(t) Приравнивая нулю коэффициенты при одинаковых степенях /х, получим для отыскания функций (p(t), (fi(t) и у?2@ следующие уравнения: A.22) dt2 d2(p2 dt2 Начальные условия, как и в предыдущем примере, возьмем в виде ж@) = А, -^ = 0. Теперь решение уравнений A.22) должны удовлетворять условиям -а Ш.о. A.23) dt Поэтому первое уравнение из A.22) дает cp(t) = A cospt. Подставляя эту функ- функцию во второе уравнение из A.22), получим \-p2(fi = Ahi cospt — A3 cos3 pt. dt Учитывая, что cos3pt = — (cos3pt + 1 cospt), имеем 4 d2Vi 9 Л7 З АЛ А3 ——z—\- p \pi = Ah\ A cospt cos3pt. dtz \ 4 J 4 Отсюда с учетом условий A.23) получаем 8 ff \( 3 \ А3 1 (flit) = - / sinp(? — s) I A/ii — -A3 ] cosps — cos3p5 ds. PJo l\ 4 У 4 J Чтобы эти функции были периодическими с периодом р, следует постоян- постоянную /ii выбирать так, чтобы Ah! - -А5 = 0 4 и, следовательно, hi = ЗА2/4. Тогда будем иметь
172 Гл. 4- Периодические решения нелинейных систем Таким образом, периодическое решение уравнения A.19) в первом прибли- приближении имеет вид А3 x(t) = A cos pt + /i 6 (cos 3pt — cos pt), где р2 = к2 + 3/iA9/4. Для получения второго приближения подставим найденные функции cp(t) и (fi(t) в третье уравнение системы A.22). В итоге после некоторых преобра- преобразований это уравнение можно записать в виде d2p2 2 / ЗА6 \ ЗА2 —о—1~ Р ^2 ^ I Ari2 Н 9 I cos pt ^ cos opt. Чтобы полученное уравнение имело периодическое решение с частотой р, постоянную /г2 нужно выбрать так, чтобы ЗА5 Следовательно, и согласно условиям A.23) находим, что А5 Gt - cospt). Значит, во втором приближении периодическое решение уравнения A.12) с условиями A.23) имеет вид А3 Т5 2 (cos 3P^ "~ cos pO + А^2 4 о Ар J. U А ^±р При этом частота колебаний с той же точностью определяется уравнением А Т x(t) = A cos pt -\- /л 2 (cos 3P^ "~ cos pO + А^2 4 (cos ^^ ~~ cos ^) * о Ар J U А ^р Это уравнение является квадратным относительно р2, и его можно решить точно. Однако при практических вычислениях можно воспользоваться фор- формулой Q Q Л4 о о О .п О о ^Т. P=fc+4^-128^V которая получается из уравнения A.24), если в его правой части положить р = к. Рассмотренные примеры показывают, что свободные колебания нелиней- нелинейной системы могут иметь частоту, отличную от частоты свободных колеба- колебаний соответствующей вырожденной системы. Поэтому естественно выяснить, устойчивы ли такие колебания. Для решения этого вопроса нужно использо- использовать результаты изложенной выше теории Ляпунова. С этой целью сначала необходимо выписать соответствующие уравнения возмущенного движения, взяв в качестве невозмущенного движения найденное периодическое решение, а затем исследовать на устойчивость их тривиальное решение. Если окажется, что тривиальное решение является асимптотически
2. Метод гармонической линеаризации 173 устойчивым, то соответствующее ему периодическое решение исходной систе- системы называется предельным циклом. Соответствующие ему колебания реальной системы называются автоколебаниями. Ясно, что каждая реальная система может иметь автоколебания с раз- различными частотами, соответствующие различным ее начальным возмущениям. Однако, учитывая, что рассматриваемые здесь системы содержат малый пара- параметр, каждое построенное указанным способом периодическое решение нели- нелинейной системы имеет период, мало отличающийся от периода соответствую- соответствующей системы первого приближения. 2. Метод гармонической линеаризации Разнообразные задачи управления линейными системами приводят к необ- необходимости применять управление по принципу обратной связи. Главная его особенность состоит в том, что управляющее воздействие в каждый момент времени выбирается в зависимости от состояния системы. Тогда управляю- управляющее устройство может оказаться нелинейным элементом, и, следовательно, вся система, состоящая из объекта управления и этого устройства, оказывается нелинейной. Примером такого типа систем является специальная нелинейная система вида — =Ax + by, y = f(a), a = c*x, B.1) анализу которой посвящен последний параграф предыдущей главы. При этом обычно предполагается, что функция /(<т) может быть нелинейной. Если /(<т) (см., например, рис. 4.2.1) кусочно линейна, то система B.1) остается нелинейной за счет того, что /(<т) имеет ха- А f к7) рактеристику, составленную из кусков пря- прямых линий. Однако в этом случае ее урав- уравнения движения невозможно представить в / О" виде A.4), чтобы нелинейность характеризо- характеризовать некоторым малым параметром, а следо- следовательно, использовать теорему Пуанкаре и метод Крылова для построения периодиче- периодических решений. Необходимы иные методы для решения Рис. 4.2.1 этой задачи. Здесь мы рассмотрим один из них, а именно метод гармонической линеаризации. Аналогичная ситуация бу- будет и в том случае, когда характеристикой /(<т) является кусочно постоянная функция (рис. 4.2.2). Итак, будем рассматривать собственные колебания в замкнутой системе управления, которая описывается системой уравнений B.1); рассмотрим во- вопрос о существовании и практическом построении ее периодических решений. Не нарушая общности, можно считать, что система приведена к виду г1т — =Bx + bf(Xl), B.2) где В — постоянная матрица, Ъ = {&i,... ,frn} — постоянный вектор, a xi — первая координата вектора х = {xi,..., хп}.
174 Гл. 4- Периодические решения нелинейных систем Г'.".' Выбор системы B.3) в качестве объек- ^^~^^~ та исследования обусловлен лишь тем, что в этом случае достигается достаточная нагляд- ^ ность и устанавливается некоторая связь с ~^Г ^ материалом предыдущего параграфа. Одна- Однако метод является достаточно эффектив- эффективным при отыскании периодических реше- решений более общих нелинейных систем. Будем предполагать, что функция / удов летворяет условию Рис. 4.2.2 F J af(a) > 0. B.3) Нас интересует периодическое решение системы B.2). Значит, можно пред- предположить, что переменная х\ изменяется по синусоидальному закону х\ = A sin ut. B.4) Тогда функция f (A sin cut) будет также периодической, и ее можно разложить в ряд Фурье. Пусть ОО / (A sin ut) = h 2^ (ап cos nujt + bn sin nut). 2 n=i Потребуем, чтобы, кроме условия B.3), выполнялось еще равенство sin г/>) # = 0- /о Тогда, учитывая B.4), можно записать . ч Ъ\ а\ dx\ j(Asmut) = —rX\ + — V высшие гармоники, А Аи at где 1 Г57Г 1 Г = — / f(A sin ф) sin фйф, Ь\ = — / к Jo 27Г Jo Игнорируя высшие гармоники, вместо уравнения B.2) рассматриваем урав- уравнение dx hh(A,u) hai(A,u) dxx ^=Бж + ^^1 + ^^^' B'5) которое используется для построения периодического решения, аппроксими- аппроксимирующего периодическое решение уравнения B.2). При решении вопросов существования периодических решений уравне- уравнения B.2) задача теперь состоит в том, чтобы найти А и и такие, при кото- которых уравнение B.5) имеет периодическое решение с частотой и. Такая задача сводится к определению А и и из условия, что Л = ги является корнем харак- характеристического уравнения Л(Л) = 0 системы B.5). Так как Д(го;) можно представить в виде A(iu) =X(A,u)+iY(A,u), то для определения А и и получаем систему уравнений Х(А,и) =0, Y(A,u) = 0.
2. Метод гармонической линеаризации 175 Определив из этих уравнений А и uj и подставив их значения в форму- формулу B.4) и в уравнение B.5), мы получаем искомую систему первого прибли- приближения. Ее решение рассматривается как первое приближение периодического решения исходной нелинейной системы уравнений B.2). Такой способ линеари- линеаризации нелинейного уравнения B.2) называется гармонической линеаризацией. В теории автоматического регулирования он используется при анализе бо- более общих уравнений, чем уравнение B.2), и при менее жестких ограничениях на нелинейности, чем те, которые здесь вводились. По мнению специалистов в области автоматического регулирования, гармоническая линеаризация лучше всего соответствует существу задачи исследования нелинейных автоматиче- автоматических систем. При решении прикладных задач с ее помощью обычно находится первое приближение периодического решения нелинейной системы. Она, кро- кроме того, оказывается эффективной при построении следующих приближений, а в теории этой процедуры имеется также доказательство сходимости постро- построенных таким образом приближений к периодическому решению системы B.2). Пример 2.1. Рассмотрим замкнутую систему автоматического управле- управления, которая описывается системой уравнений (T2D + l)Dy2 = F(y), = yi~k2y2, F(y) = ksigny, где D — оператор дифференцирования —, Ti, hi и к — постоянные. ClC Требуется исследовать автоколебания этой системы методом гармониче- гармонической линеаризации. Сначала систему приведем к виду A.21). С этой целью введем новые пе- переменные х\ = г/, х2 = у2, %з = —т~ • Тогда систему уравнений B.6) можно привести к виду к2 dt TL dx2 dxs 1 1 Таким образом, система приведена к виду B.2), где / -1/Тг -(кг-\-к2)/Тг -к2 \ ( О В=\ 0 0 1 1 Ь= О V о о -1/т2 ) \ -1/т2 f{x\) = F(x\) = к sign x\. Согласно общей схеме в методе гармонической линеаризации полагаем х\ = A sin out. Так как функция F(x) нечетна, то разложение F(Asinuot) в ряд Фурье содер- содержит лишь слагаемые с синусами: F(Asinut) = тг п=0 Игнорируя гармоники выше первой, отсюда получаем F\Asinut) ~ —-х\. ттА
176 Гл. 4- Периодические решения нелинейных систем Поэтому линейная система, соответствующая системе B.7), имеет вид -^ + хх + (fei + k2)x2 + Tifc2z3 = О, at —--ж3=0, B.8) at 4fc + 0 Очевидно, что изложенная процедура гармонической линеаризации не свя- связана с необходимостью приводить систему к виду B.2). Ее можно применять непосредственно к системе B.6). В самом деле, полагая у = Asinut, B.9) находим, что п/ л • n Л1 • • 4/с ^ sinBn +l)cjt F(Asmcjt) = Ak sign, smut = — 2_^ — • n=l Ограничиваясь низшими гармониками в этом разложении, получаем Ак F(Asinu;t) = —тB/1 - к2у2). Следовательно, линейная система, полученная методом гармонической ли- линеаризации из B.6), имеет вид (TiD + 1)У1 = -ку2, (T2D + l)Dy2 = ^(^ - fe22/2). B.10) ТТЛ Она, очевидно, эквивалентна системе B.8). Задача теперь состоит в том, чтобы найти условия, при выполнении кото- которых система B.10) имеет периодическое решение с частотой а;, причем такое, что согласно 2.9 у = ух - к2у2 = Asincjt. Для отыскания такого решения выпишем характеристическое уравнение си- системы B.10). Его можно представить в виде ТхТ2р3 + (Ti + Т2)р2 + Txk2kqp + (fci + /c2)/c2a = 0, где величина q определяется формулой q = 4/с/(тгА) и называется гармониче- гармоническим коэффициентом усиления с характеристикой .Р(г/). Чтобы система B.10) имела периодическое решение с частотой о;, необхо- необходимо, чтобы число р = iu было корнем уравнения (D), т. е. чтобы выполнялось равенство где X = (fci + fe)fe2a - (Ti + T2)cj2, У = A + Txkxkq)^ - Т{Т2иъ. Поэтому для определения А и со получаем систему уравнений 1 з B-11) Из первого уравнения этой системы находим о (fci + fc)fc2
3. Вынужденные колебания нелинейных систем 177 и, следовательно, второе уравнение системы B.11) дает A + ti/c2/c^)(Ti + Т2) - TiT2(fci + k)k2q = 0. Отсюда находим, что i(T2fci — T\k) о k\ -\- k А тг(Т!+Т-2) Так как А и ио должны быть положительными, то условие существования пе- периодического решения линейной системы B.10) имеет вид Т^к\ —Т\к > 0. При этом оказывается, что величины амплитуды А и частоты ио определяются чисто алгебраическим путем. Рассмотренный пример показывает, что отыскание условий, при выпол- выполнении которых линейная система, полученная гармонической линеаризацией, имеет периодическое решение, вообще говоря, не представляет принципиаль- принципиальных трудностей. Остается теперь выяснить, при каких условиях это периоди- периодическое решение является некоторой аппроксимацией соответствующего перио- периодического решения исходной нелинейной системы. Не менее важным является также вопрос о построении более точных приближений такого решения, если оно существует. Эти вопросы исследуются в общей теории метода гармониче- гармонической линеаризации4). 3. Вынужденные колебания нелинейных систем 3.1. Метод Пуанкаре. Будем изучать колебания нелинейных систем, поведение которых описывается уравнениями d^=FAtx1 ... па) г = 1 2 ... п. C.1) Здесь функции Fi удовлетворяют тем же условиям по xi,..., хп и /х, что и соответствующие функции в уравнениях A.4), а по переменной t они периоди- периодические с периодом 2тг. Предполагается также, что при fi = 0 эта система имеет периодическое решение хг — Ч^гУ1)! 1 — 1, Z, . . . , /i, V^-z/ того же периода 2тг, что и функции F^. Теорема Пуанкаре. При указанных условиях система C.1) имеет ре- решение периода 2тг х^ = Xi(t, ai,..., cen, /i), 2 = 1, 2, ..., n, C-3) удовлетворяющее начальным условиям х€@) = срг(О) + au г = 1, 2, ..., n, C.4) и аналитическое относительно ji для достаточно малых значений этого па- параметра, обращающееся в решение C.2) при \± = 0, если из необходимых и достаточных условий периодичности функций C.3) ф = ЖгBтг,аъ. • • ,«n,/i) -Xi@,ai,... ,cen,/i) = 0, г = 1, 2, ..., n, C.5) ) См., например: Попов Е. П., Пальтов И. П. Приближенные методы исследования нелинейных автоматических систем. — М.: Наука, 1963.
178 Гл. 4- Периодические решения нелинейных систем можно определить начальные значения ai,..., ап как функции параметра \±^ которые для достаточно малых значений /х разлагаются в ряды по степе- степеням /х и обращаются в нуль при /х = 0. В этом случае решение C.3) после подстановки в него найденных из C.5) ai,..., ап будет иметь вид хг = Vi(t) + wn(t) + ti?ipi2(t) + ..., i = 1, 2, ..., n, C.6) где (fn(t), (fi2(t), • • • — непрерывные периодические функции периода 2тг. Уравнения C.5) имеют нулевое решение для всех ai,..., ап при /х = 0, так как при /х = 0 они обращаются в уравнения <^Bтг)-<^@) = а*, г = 1, 2, ...,п, из которых в силу периодичности (fi(t) следует, что аг- = 0, г = 1, 2, ..., п. Из теории неявных функций следует, что в этом случае из уравнений C.5) мож- можно найти ai,..., anj обладающие указанными выше свойствами, если функ- функциональный определитель У *> C.7) ,... ,ата) для cei = ... = cen=/x = O будет отличен от нуля. Этот определитель можно составить лишь при известном решении C.3). Однако можно установить, как он ведет себя в окрестности точки а\ = ... ... = ап = 0, не имея точного решения C.3). Для этого нужно знать лишь линейную относительно этих величин часть разложения функций C.3) по сте- степеням ai,..., ап хъ = <Pi(t) + aio(t)fji + a,i(f)cei + ... + ain(t)an + ..., C.8) так как при а\ = ... = ап = 0 в определителе C.7) останутся только коэффици- коэффициенты линейных членов этих разложений. Но линейные части разложений C.8) при начальных условиях C.4) имеют вид tpi(t) + a^. Следовательно, условия периодичности для функций Xi(t) будут совпадать с условиями периодичности решения C.2), нахождение которого для нелиней- нелинейной системы C.1) не представляет особых трудностей. Из соотношения - Xi@) = < при условии (ргBтг) — у?г(О) = 0, г = 1, 2, ..., п, и произвольном /х будет сле- следовать, что Ы2тт) - ^*fe@) = 0, г = 1, 2, ..., щ к = 1, 2,... Но если функции (fik(t) будут удовлетворять последним условиям, то ряд C.6) будет представлять периодическое решение уравнений C.1), обладающее всеми свойствами, устанавливаемыми теоремой Пуанкаре. Практическое построение самого периодического решения уравнений C.1) после того, как установлена форма решения, не представляет особых трудно- трудностей. Подставив в уравнения C.1) функции C.6), сравниваем коэффициенты
3. Вынужденные колебания нелинейных систем 179 при одинаковых степенях /i в обеих частях полученных уравнений. В итоге по- получим ряд рекуррентных дифференциальных уравнений, из которых при вы- выполнении одного и того же условия периодичности последовательно найдутся все функции cpi(t) и cpik(t). Пример 3.1. Будем искать периодическое решение уравнения d2x —у + k2x = hsint + fix3, C.9) где к не равно целому числу. Это уравнение удовлетворяет всем условиям тео- теоремы Пуанкаре. Решение его ищем в виде (см. C.6)) x(t) = ip(t) 2 Подставив этот ряд в обе части уравнения C.9) и сравнив коэффициенты при одинаковых степенях /х слева и справа, получим для определения cp(t) и (fk(t) дифференциальные уравнения (з.ю) dt2 Решением первого уравнения является / \ л 7 ^ 7 hsint cp(t) = A cos kt + В sin kt + т^ . Постоянные А и В определяем из условий периодичности, которые можно записать следующим образом5) (см. C.5)): A(cos 2ктг - 1) + В sin 2Ьг = О, -A sin 2Ьг + B(cos 2ктг - 1) = 0. C.11) Очевидно, что определитель этой системы является тем самым определите- определителем A(V0 (см. C.7)), неравенство нулю которого является условием возможно- возможности найти из уравнений C.11) такие значения постоянных А и В, при которых решение первого уравнения из C.10) будет периодическим с периодом 2тг. В рассматриваемом случае этот определитель А = cos 2/стг — 1 sin 2/стг — sin 2/стг cos 2/стг — 1 0, C.12) так как к по предположению не является целым числом. Следовательно, А = = В = 0, и искомым решением первого уравнения из C.10) будет периодичес- периодическая функция hsint , ч (ЗЛЗ) не содержащая никаких произвольных параметров. ) Уравнение C.9) имеет второй порядок, и эквивалентная ему система вида C.1) имеет второй порядок. Поэтому условие периодичности C.5) состоит из двух соотношений.
180 Гл. 4- Периодические решения нелинейных систем Подставив это решение во второе уравнение из C.10), получим уравнение, которое можно привести к виду d2ifi 1 о h3 Его общее решение можно записать в виде 3/i3sin? /i3sin3? (fi(t) = А\ cos kt + B\ sinkt + 4(/c2-lL 4(/c2-lK(/c2-9)' Это решение содержит две произвольные постоянные А\ и В\. Условие перио- периодичности здесь выражается теми же однородными уравнениями C.5) с нерав- неравным нулю определителем C.12). Следовательно, и здесь периодическое решение для (fi(t) получится при А\ = 0 и В\ = 0, и оно будет 3/i3sin? /i3sin3? 4(/с2 - IL 4(/с2-1K(/с2-9)' Тем же способом определяются последующие функции ^>2^\ <?з((?)? • • • Усло- Условия периодичности для всех этих функций </?2(?)>••• буДУт одними и теми же, а именно условиями C.11). Останавливаясь на первом приближении, получим в качестве единственного периодического решения уравнения C.9) функцию h sin t Г 3/i3 sin t h3 sin 3t {t) + [ Оно, очевидно, переходит при /х = 0 в решение C.13) вырожденного уравнения, а при достаточно малом /х будет близким к C.13). 3.2. Особый случай. Из теоремы Пуанкаре следует, а рассмотренный пример это подтверждает, что между периодическим решением нелинейной системы и решением C.2) в случае, когда А(ф) ф 0, имеет место определенное соответствие. Оно выражается в том, что первое решение близко ко второму при достаточно малом /х и непрерывно переходит во второе при /х —> 0. Можно сказать, что в этом случае нет принципиального различия между нелинейной системой и получающейся из нее при /х = 0 линейной системой, так что заме- замена нелинейной системы соответствующей линейной при достаточно малом /х вполне допустима. Иначе обстоит дело, когда определитель А(ф) равен нулю при а\ = ... = ап = 0. В этом случае соответствие между нелинейной системой и ее вырож- вырожденной системой нарушается. Линеаризованная система уже не воспроизводит достаточно точно все колебательные свойства нелинейной системы даже при малых значениях /х. Таким образом, в неравенстве нулю определителя А(ф) мы получаем своего рода критерий допустимости линеаризации нелинейной системы при отыска- отыскании периодического решения нелинейной системы. Предположим теперь, что А(ф) = 0 при а\ = ... = ап = 0, и пусть ранг этого определителя будет равен га. Тогда из уравнений C.5) можно най- найти т величин ai,...,am, выразив их через /х и через остальные величины am_|_i,..., ап. Подставив найденные таким образом ai,..., ат в C.3), получим периодические решения уравнений C.1), зависящие от одного или нескольких параметров. Такой случай, например, может иметь место, когда система C.1)
3. Вынужденные колебания нелинейных систем 181 имеет первый интеграл или когда уже в порождающее решение входят про- произвольные параметры. Мы рассмотрим этот случай на примере резонансных колебаний нелинейной системы с одной степенью свободы. Пример 3.2. Будем искать периодическое решение уравнения сРх о я ——г + к х = a sin pt + fix , dtz когда p мало отличается от /с, например, когда к2 — р2 = \ia. Предположим, далее, что h — также малая порядка /i, а именно h = цН. При таких предпо- предположениях исходное уравнение можно переписать в виде d2x Lp2x = 1^(х3 - ax + Hsinpt). C.14) dt2 Порождающее уравнение d2x 2 имеет периодическое решение <p(t) = A cos pt + Б sin pt периода 2тг/р с двумя произвольными параметрами А и В. Подставив в уравнение C.14) ряд x(t) = ip(t) + iup\{t получим для cpi уравнение —гп—h P2^i = Я sin pt — a(A cos pt dt2 которое с помощью формул о 1 1 cos pt = - C cos pt + cos 3pt), sin pt = - C sin pt — sin cos2 pt sin pt = - (sin pt + sin 3pt), sin2 pt cos pt = - (cos pt — cos 3pt) приводится к виду /1 3 \ /3 1 \ + pVi = I - A3 - - AB2 cos 3pt + ( - А2В - - Б3 sin 3pt + V4 4 ) \4 4 у / 3 3 \ / 3 3 \ + ( -aA + - A3 + - АБ2 I cos pt + f Я - аБ + - А2Б + - Б3 I sin pt. Последнее уравнение будет иметь периодическое решение лишь при выпол- выполнении условия -аА + - А3 + - АБ2 = 0, Н -аВ + - А2В + - Б3 = 0. C.15) 4 4 4 4 Тогда в правой части уравнений выпадут резонансные члены с sin pt и cos pt. Уравнения C.15) можно представить в виде .о, н-В(„-?*-ЬЛ-о. Отсюда следует, что А = 0, а Б является корнем кубического уравнения Я - аБ + - Б3 = 0, 4
182 Гл. 4- Периодические решения нелинейных систем или, после умножения на /i, уравнения C.16) В условиях периодичности для всех функций cpi, начиная с порождающего решения, определитель А(ф) здесь тождественно равен нулю. В связи с этим возникает ряд новых обстоятельств, которые не встречаются в том случае, когда А(ф) т^ О- а) Порождающее решение теперь зависит от двух произвольных парамет- параметров, А и В. В этом случае существует бесчисленное множество периодических порождающих решений. б) Условие периодичности C.15) отбирает из этого континуума периодиче- периодических решений лишь такие решения, вблизи которых имеются периодические решения нелинейного уравнения C.14). Это те решения порождающего урав- уравнения, для которых А = 0 и В удовлетворяет уравнению C.16). Определив таким образом А и В, получим для cpi периодическое решение В3 где Вi — новая произвольная постоянная, которая определяется из условий периодичности для ip2(t) и т- Д- Уравнение C.16) будем решать графически по точкам пересечения линии LM (рис. 4.3.1) ^У , / 7? \ h h/k2 и кубической параболы 3 Б3 построенных в системе координат ВОу. В рассматриваемом "резонансном" слу- случае величина 1— р2/к2 предполагается произ- произвольно малой (сравнимой с /х). Она служит Рис. 4.3.1 угловым коэффициентом прямой LM. Как видно из из рис. 4.3.1, в области малых зна- значений этого коэффициента существует только одна точка Р пересечения этой прямой с параболой. Следовательно, существует только одно вещественное ре- решение уравнения C.16), а нелинейная система C.14) имеет только одно пери- периодическое решение с периодом 2тг/р. Полученное выше решение относится к случаю малого значения разности 1 —p2/h2. Описание поведения системы при больших значениях этой разности выходит за рамки метода малого параметра. Пример 3.3. Уравнение -—j + -х = hs'mt ¦ /л[ах + — (а + (Зх + jx2)} at C.17) при выполнении некоторых условий, кроме решения с периодом 2тг, имеет пе- периодическое резонансное решение с периодом 4тг (его называют резонансным решением второго порядка). Это решение находится следующим образом. Прежде всего отметим, что правая часть уравнения C.17), кроме перио- периода 2тг, имеет также и период 4тг, совпадающий с периодом решения порож-
3. Вынужденные колебания нелинейных систем 183 дающего уравнения, а также и любой период 2птг, где п — произвольное нату- натуральное число. В соответствии с теорией Пуанкаре решение ищем в виде x(t) = ip(t) + /x<?i(?) + /i2 Общее решение порождающего уравнения dV 1 ~№^ 4^ = запишем в виде 4 t t ip(t) = —hsint + Acos- +?sin-. C.18) Постоянные А и В определяем из условия периодичности функции <?i(?), удовлетворяющей уравнению 7/9 "Г" ~А Г 1 (МР\Ъ) ~Т~ \СЛ "| [^ у yv , | I у yv , i dtz 4 at где (/?(t) определяется формулой C.18). Поэтому его можно переписать в виде I A t t 4 7 Н— (pi = а\ A cos —h ^ sm д sm ? d?2 / 3, A t Б ? al - - hcost - - sin - + — cos - of 4 7 ^ П Л /" 4 7 A t Б А + p I — д sm ? + Л cos —\- В sm -II — a cos t sm —| cos - I + Vo Z Z J \ о Z Z Z Z J + 71 ft, cos t sin —| cos -if — h sin t -\- A cos —\- В sin - J . C.19) Vo Z Z Z Z J \ о Z Z J Для того чтобы в решении этого уравнения отсутствовали непериодические слагаемые, в правой части этого уравнения приравняем нулю коэффициенты t t при cos - и sm -. В итоге получаем следующие условия периодичности: /v / 49 М / 1 \ = о, Этим условиям удовлетворяют значения А = 0 и В = 0, которые определяют нерезонансное периодическое решение с периодом 2тг. Однако можно получить и другие значения А и В, которые удовлетворяют системе уравнений C.19). Таковыми являются А и В, связанные соотношениями А2 + В1 + — + — h2± — л/9а2 - 7 9 З7 А + h± л/9а /г^, W^. 7 9 З7 Б у 4/3 + Зсе Для этих значений Аи В определитель Л (Л) отличен от нуля и, следовательно, им соответствует другое, также периодическое решение, но с периодом 4тг.
184 Гл. 4- Периодические решения нелинейных систем 3.3. Заключительные замечания. Изложенные выше методы построе- построения периодических решений нелинейных систем позволяют получить эти ре- решения приближенно практически с любой точностью. Все они основаны на по- последовательном использовании соответствующим образом подобранных линей- линейных систем уравнений. В методе гармонической линеаризации для этой цели применяется специальное разложение нелинейной функции в тригонометриче- тригонометрический ряд. В методе Пуанкаре в основу положена система первого приближения. Другие методы построения периодических решений нелинейных систем также основываются на специальным образом подобранных линейных системах. К ним относятся метод Ван дер Поля, метод осреднения, метод эквивалентной линеаризации и многие другие методы. Не имея возможности уделить боль- больше внимания этой проблеме, автор рекомендует заинтересованному читателю обратиться к соотвествующей литературе, список которой приведен в конце
ГЛАВА 5 Управляемость, наблюдаемость, идентифицируемость Рассмотренные в предыдущих главах вопросы связаны с анализом свойств систем с заданным управляющим воздействием. Это воздействие может быть программным (т. е. задано как функция времени) или работать по принци- принципу обратной связи. Однако и в том, и в другом случае поведение системы описывается уравнениями, не содержащими управляющих параметров. Такие уравнения были использованы при исследовании систем на устойчивость и при отыскании периодических решений. Аналогичные требования предъявлялись к системам с иными характеристики качества переходного процесса. Не менее важной является задача выбора управляющего воздействия ис- исходя из различных требований, предъявляемых к рассматриваемой системе. Именно такая задача представляет особый интерес в теории управления. В ее решении принципиальное значение имеют вопросы управляемости, наблюдае- наблюдаемости и идентифицируемости, анализу которых посвящена настоящая глава. Современные управляемые системы, как правило, являются достаточно сложными и обычно содержат несколько "рулей". Поэтому, приступая к изуче- изучению таких систем, целесообразно рассмотреть принципиальные возможности "рулей" в каждой системе. В частности, представляет большой интерес вопрос о том, можно ли с помощью допустимых управлений перевести систему из од- одного заданного состояния в другое заранее заданное состояние. Если это мож- можно сделать и притом многими способами, то естественно искать то управление, которое по выбранному критерию является наилучшим. Если наилучшее управление найдено, то естественно поставить вопрос о том, как его реализовать, т. е. следует ли его выбрать программным или оно должно работать по принципу обратной связи. 1. Управляемость линейных нестационарных систем 1.1. Гильбертовы пространства. Теорема Леви. Рассматриваемые в настоящем параграфе задачи достаточно эффективно и наглядно решаются методами теории гильбертовых пространств. В следующей главе этот же ап- аппарат используется при решении задач об оптимальном управлении. Поэто- Поэтому здесь уместно привести некоторые факты, относящиеся к гильбертовым пространствам, и определиться с соответствующей терминологией и стандарт- стандартными обозначениями. Итак, пусть Н — вещественное гильбертово пространство. В качестве од- одного из примеров такого пространства в дальнейшем рассматривается про- пространство 1^@, Т) вектор-функций u(t) = {ixi(t),..., ur(t)}, 0 < t < Т, эле-
186 Гл. 5. Управляемость, наблюдаемость, идентифицируемость менты Ui(t), г = 1,..., г, которых суммируемы со своими квадратами. Скаляр- Скалярное произведение и норма в нем определяются формулами рТ г рТ г (u,v)= y2ui(t)vi(t)dt, \\u\\2 = / Jo i=1 Jo i=1 где интеграл понимается в смысле Лебега. Другие примеры гильбертовых пространств, которые используются в дальнейшем, вводятся с помощью поло- положительных операторов. Они представляют собой энергетические пространства этих операторов. Как известно1), линейный оператор А, действующий из Я в Я, является положительным, если: 1) область его определения А^ плотна в Н; 2) он симметричен, т.е. (Au,v) = (u,Av) для любых и и v из А^; 3) справедливо неравенство (Аи, и) ^ 0 при любом и из А^, причем ра- равенство имеет место лишь на нулевом элементе. Если, кроме того, существует постоянная 7 > О такая, что (Аи, и) ^ т1М|2 для всех и из А^, то оператор А называется положительно определенным. Согласно определению под энергетическим пространством На операто- оператора А понимается пространство, состоящее из элементов и Е А^4 и элемен- элементов, получаемых пополнением А^ на основе метрики, которая определяется скалярным произведением [u,v] = (Au,v), u,v E A^. Это пространство является гильбертовым, и оно вложено в Н, если А — положительно определенный оператор. Если же А — положительный, но не положительно определенный оператор, то На может содержать элементы, не принадлежащие Н. Подробный анализ энергетических пространств и их разнообразных при- приложений можно найти в цитированной выше книге С.Г. Михлина.. Для нас в дальнейшем важны разнообразные примеры таких пространств. Приведем один из них. Пример 1.1. В качестве Я возьмем L?@,T), и пусть Q(t) — непрерывная симметричная положительная матрица с элементами qij(t), i,j = l,...,r. Положительность понимается в том смысле, что a*Q(t)a > 0, 0 < t < Т, A.1) для любого вектора а Е Ег, ||а|| > 0. Тогда матрица Q(t) определяет оператор Q, который отображает элемен- элементы 1^@, Т) в элементы того же пространства по формуле v(t) = Q(t)u(t). Очевидно, что область его определения Ад совпадает со всем простран- пространством ?2@, T), причем [ u*(t)Q(t)v(t)dt= [ v*(t)Q(t)u(t)dt, Т ° J° A.2) (Qu,u)= [ u*(t)Q(t)u(t)dt>0. К Jo Неравенство в A.2) следует из A.1). ) См., например: Михлин С.Г. Вариационные методы в математической физике. — М.: Наука, 1970.
1. Управляемость линейных нестационарных систем 187 Таким образом, оператор Q является положительным. Соответствующее ему энергетическое пространство Hq состоит из вектор—функций u(t), для ко- которых и*(t)Q(t)u(t) dt < оо, /о где интеграл понимается в смысле Лебега. Скалярное произведение и норма в Hq определяются формулами [u,v]= u*(t)Q(t)v(t)dt, [и]2 = / u*(t)Q(t)u(t)dt. Jo Jo Так как матрица Q(t) непрерывна, то существует постоянная с\ такая, что рТ гТ u*(t)Q(t)u(t) dt^C! / u*(t)u(t) dt. /о Jo Отсюда, в частности, следует, что если и Е L^OjT), T0 элемент и также при- принадлежит энергетическому пространству Hq. Если, кроме того, можно указать постоянную со такую, что с0 / u*(t)u(t)dt^ / u*{t)Q{t)u{t)db, J J то пространство Hq будет эквивалентно пространству L^O, ^)? и^° в этом слу- случае из принадлежности и пространству Hq следует, что и Е L^O, T). Одним из основных свойств гильбертовых пространств, которое широко используется в последующих главах, является свойство, определяемое сле- следующей теоремой. Теорема Леви. Если М — полное подпространство в Н', то для любого элемента х Е Н существует однозначное представление х = y + z, где у Е М, a z ортогонально М. При этом очевидно, что \\x\\2 = \\y\\2 + ||^||2- Доказательство теоремы нам ничего не дает при ее практическом исполь- использовании. Поэтому его приводить здесь не будем, отсылая заинтересованного читателя к любому учебнику по функциональному анализу. Второе утверждение, относящееся к гильбертовым пространствам и представляющее для нас особый интерес, состоит в следующем. Теорема Рисса. Линейный ограниченный функционал f, определенный на всем гильбертовом пространстве Н, однозначно представим в виде f(x) = (щх), где элемент и Е Н однозначно определяется функционалом /. 1.2. Управляемость. Будем рассматривать управляемую систему, пове- поведение которой описывается линейным дифференциальным уравнением x = A(t)x + B(t)u + f(t), A.3) где A(t) и B(t) — непрерывные матрицы размерности п х п и п х г соот- соответственно, f{t) — заданная функция из L^O,Т), Т — произвольное, но фик- фиксированное число.
188 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Определение 1.1. Система A.3) называется вполне управляемой на от- отрезке [О, Т], если для любых векторов ж1 и ж2 из Еп можно указать управление и = Ц^ж1,^2), 0 < t < Т, из L?@,T) такое, что решение x(t) задачи Коши х = A(t)x + B(t)u(t, ж1, ж2) + /(?), 0 < t < Т, ж@) = ж1, в момент времени t = Т удовлетворяет условию х(Т) = х2. В этом определении не указываются никакие ограничения на управление и(?, ж^ж2), кроме его принадлежности пространству L^O,T). В реальных за- задачах этого может оказаться недостаточно, ибо внутренние свойства таких систем зачастую приводят к необходимости вводить дополнительные ограни- ограничения на допустимые управления. В частности, может потребоваться, что- чтобы допустимое управление принимало значения из заданного шара ||u|| ^ L или из заданного прямоугольного параллелепипеда ец ^ щ ^ Ь^ г = 1, 2, ..., г, где L, di и hi — заранее указанные постоянные. Однако и в том, и в другом случае суть понятия полной управляемо- управляемости остается одной и той же. Вполне управляемая система A.3) обладает тем свойством, что с помощью соответствующего допустимого управления ее мож- можно перевести из одного заданного состояния в другое, также заданное состоя- состояние. Аналогичным образом определяется понятие полной управляемости для систем, описываемых разностными уравнениями или краевыми задачами для уравнений в частных производных. Функция /(?), входящая в уравнение движения системы, не зависит от управления. Поэтому, вводя новую переменную y(t)=x-<p(t), A.4) из уравнения A.3) получаем у + ф = A(t)y + B(t)u + A(t)cp + f(t). Выбирая функцию (p(t) так, чтобы ф(г) = A(t)(p(t) + f(t), <р@) = 0, находим, что заменой A.4) уравнение A.3) преобразуется к виду A.5) Поэтому, не ограничивая общности получаемых результатов, можно исследо- исследовать задачу об управляемости для системы A.5). Возвращаясь к прежним обозначениям фазовых переменных, рассмотрим задачу Коши x = A(t)x + B(t)u, 0<?<T, х@)=х1. Как известно, ее решение можно представить в виде / Jo / W(t,s)B(s)u(s)ds, Jo где W(?, s) — матрица Коши уравнения z = A(t)z. Для того чтобы это решение удовлетворяло условию х(Т) = ж2, необходимо и достаточно, чтобы управление u(t) удовлетворяло условию / W(T,s)B(s)u(s)ds = c, A.6) Jo где c = x2-W(T,0)x1.
1. Управляемость линейных нестационарных систем 189 Таким образом, получаем, что система A.3) при f(t) = 0 вполне управля- управляема тогда и только тогда, когда для любого вектора с из Еп можно указать управление u(t, с), удовлетворяющее условию A.6). Этот результат позволяет с помощью теоремы Леви получить легко прове- проверяемые необходимые и достаточные условия полной управляемости. Для вы- вывода этих условий введем следующие обозначения. Пусть /ц(?) — г-й столбец матрицы B*(t)W*(T,t); ci — г-я компонента вектора с. Тогда соотношение A.6) можно записать в виде Jo h*(t)u(t)dt = Ci г = 1, 2, ..., п. A.7) /о Эти равенства в дальнейшем будем называть моментными соотношения- соотношениями, а числа q — моментами. Теорема 1.1. Для того чтобы система A.3) при f(t) = 0 была вполне управляемой на отрезке [0,Т], необходимо и достаточно, чтобы вектор-функ- вектор-функции hi(t),..., hn(t) были линейно независимыми на этом отрезке. Доказательство. Пусть система A.3) вполне управляема на [0,Т] и, следовательно, для любых х1 и х2 из Еп существует управление u(t), удов- удовлетворяющее моментным соотношениям A.7), т. е. 2) h*(t)u(t) dt = Ci i = 1, 2, ..., п. о Обозначим через Mh конечномерное подпространство из L^O, Т), элементы которого h(t) представимы в виде п h(t) = J2^hi(t), A.8) г=1 где cei,..., ап — произвольные постоянные. Тогда в соответствии с теоремой Леви u(t) можно представить в виде u(t) = v(t) + w(t), v(t) G M^, w(t) _L M^. Из того, что ty(t) _L Mh, следует, что h*(t)w(t) dt = O, i = 1, 2, ..., n. /o Учитывая, что функция v(t) представима в виде A.8), получаем п ?< к=1 = 1, 2, ..., п. A.9) Таким образом, приходим к выводу: если х1 и х2 произвольно выбраны из Еп (следовательно, q также произвольны) и существует соответствующее им управление u(t), удовлетворяющее моментным соотношениям A.7), то про- проекция A.8) этого управления на М^ определяется с помощью постоянных cei,..., сеп, которые находятся из системы A.9). Эта система имеет решение при любых q. В противном случае при некоторых х1 и х2 отсутствует проекция A.8) управления u(t) на М^, что невозможно в силу теоремы Леви. Поэтому определитель системы A.9) А = det |(/ц, h^)\ отличен от нуля. Поскольку А ) Очевидно, что u(t) зависит от х1 их2. Однако этот факт при доказательстве теоремы подчеркивать не будем.
190 Гл. 5. Управляемость, наблюдаемость, идентифицируемость является определителем Грама вектор-функций /ii,...,/in, то он отличен от нуля тогда и только тогда, когда эти функции линейно независимы. Докажем теперь вторую часть теоремы. Предположим, что вектор-функ- вектор-функции /ii(t),..., hn(t) линейно независимы, и пусть х1 и х2 выбраны произволь- произвольно, а значит, моменты ci,...,cn также произвольны. Тогда управление u(t), удовлетворяющее моментным соотношениям A.7), будем искать в виде u(t)=v(t)+w(t), v(t)eMh, w(t)±Mh, A.10) где М^ — т т введенное выше конечномерное подпространство из L^O^T). Подставляя эту функцию в соотношения A.7), получаем систему уравнений A.8) для опре- определения постоянных ai,..., ап. Эта система одно- однозначно разрешима, так как ее определитель А от- отличен от нуля (как определитель Грама линейно независимых вектор-функций). Таким образом, если система hi(t), ..., hn(t) линейно независима на отрезке [0,Т], то момент- ные соотношения A.7) имеют решение, которое представимо в виде A.10), причем функция v(t) определяется по формуле A.8), где ai, ..., ап находятся из системы A.9), w(t) — произвольная вектор-функция из простран- пространства 1^@, Т), ортогональная М^. Пример 1.2. Два математических маятника длины I соединены пружиной на расстоянии а от точки подвеса (рис.5.1.1). Маятники управляются двумя силами щ и 1X2, которые приложены к маятниковым грузам с массой т каж- каждый. Уравнения движения системы имеют вид = -ка2(в1-в2)- Рис. 5.1.1 Для исследования проблемы управляемости этой системы сначала при- приведем ее к стандартной форме Коши. Полагая х\ = в\ + #2? = в\ — #2, Х4 = #з> из уравнений A.11) получаем ^ = х\ A.12) где 7 о о о 2к2а2 + mql к1 = т, р1 = —- /' " rngl2 Матрица Коши этой системы имеет вид W(t) = cos kt —ks'mkt 0 \ 0 — sin kt к cos kt 0 0 0 0 cos pt —p sin pt ml 0 0 1 - sin pt p cos pt )
1. Управляемость линейных нестационарных систем 191 Если систему уравнений A.12) записать в виде A.5), то будем иметь О О О О —г г Следовательно, вектор-функции /ц(?) в этом случае имеют вид (г \ --sinkt \ , к \ 1 (j.\ I —rcoskt /i2m = 7 . г ' zy J \ rcoskt - sin kt v /c / Так как вещественные числа /сир различны, то эти вектор-функции ли- линейно независимы на любом отрезке времени t\ ^ t ^ t^-, и поэтому систе- система A.11) вполне управляема. Рассмотрим теперь другие возможные варианты управления той же систе- системой маятников. Предположим, что в системе A.11) U\ = U2 = U, A-13) т. е. маятники управляются двумя равными и противоположно направленными силами, приложенными к двум маятниковым грузам. В этом случае В = {0,0,0,-2г} 2г и, следовательно, hilt) = Ii2(t) = 0, hs(t) = —sinpt, /14@ = —2rcospt. Эти функции линейно зависимы на любом отрезке времени. Значит, система A.11) не является вполне управляемой при выполнении условия A.13). Предположим теперь, что система управляется всего одной силой. Для определенности будем считать, что U2(t) = 0. Тогда В = {0, —г, 0, —г} и, сле- следовательно, hi(t) = ——sin kt, fi2(t) = —rcoskt, hs(t) = —sinpt, h±{i) = — r cos pt. /v P Эта система функций линейно независима на любом отрезке времени. По- Поэтому система A.11) вполне управляема при выполнении условия A.13). Подводя итог приведенному анализу, следует отметить, что при решении вопроса об управляемости динамических систем изложенным методом ее урав- уравнения движения следует приводить к канонической форме Коши. Для получе- получения условий полной управляемости нужно находить функции /ii(t),..., hn(t). Это можно сделать, используя лишь матрицу Коши W(t, s). Условие линейной независимости системы функций /ii(?),..., hn(t) означает, что ее определитель Грама отличен от нуля. Если учесть, что вектор /ц является г-м столбцом мат- матрицы B*(t)W*(T, ?), то легко показать, что определитель Грама является опре- определителем матрицы Ф= [ E*(t)W*(T,t)W(T,t)E(t)dt. A.14) Jo Поэтому теорему 1.3 можно сформулировать следующим образом.
192 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Теорема 1.2. Для того чтобы система A.3) была вполне управляемой на отрезке [О, Т[, необходимо и достаточно, чтобы определитель матри- матрицы A.14) был отличен от нуля, т. е. чтобы эта матрица была неособой. 1.3. Область достижимости. При решении ряда важных вопросов тео- теории управления большую роль играет понятие области достижимости, которое тесно связано с понятием управляемости. Будем рассматривать процесс, описываемый уравнением A.5) с начальным условием 3/@) =0. A.15) Допустимыми управлениями будем считать функции u(t), 0 ^ t ^ Т, из неко- некоторого множества Du. Оно обычно определяется конкретным (физическим, инженерным и т. д.) содержанием задачи, а математически обычно описыва- описывается с помощью неравенств. Например, если допустимыми являются функ- функции u{t) Е ?2@, Т), т0 эт0 множество Du может быть задано неравенством где L — некоторая постоянная. В дальнейшем будем предполагать, что Du удовлетворяет следующим усло- условиям. Во-первых, каждая функция u(t) Е Du однозначно определяет непрерыв- непрерывное решение у = y(t) задачи A.5), A.15): ft y(t)= W(t,s)B(s)u(s)ds. A.16) Jo Во-вторых, каждая функция u(t) E Du соотношениями f(hi) = / K(t)<t) dt, г = 1, 2, ..., n, A.17) Jo определяет линейный ограниченный функционал /, заданный на линеале L^ : ot\h\ -\- ... + anhnj принадлежащем некоторому полному линейному нормиро- нормированному пространству Х^ и, следовательно, / Е Х^. Определение 1.2. Множеством достижимости управляемой системы A.5) с начальным условием A.15) называется множество всех у Е Еп, для каждого из которых существует управление u(t) E Du, 0 ^ t ^ T, такое, что соответствующая ему функция A.16) удовлетворяет условию У(Т) = у. Ясно, что аналогичное определение можно сформулировать и в том слу- случае, когда процесс описывается нелинейным уравнением у = f(t,y,u). Однако для линейной системы можно доказать замечательное свойство области дости- достижимости. Теорема 1.3. Если Du — выпуклое замкнутое множество полного ли- линейного метрического пространства Х^, удовлетворяющее указанным выше двум условиям, то множество достижимости замкнуто и выпукло в Еп. Доказательство. Пусть и1^) и u2(t) — два допустимых управления, а у1 и у2 — соответствующие им точки из Еп, определяемые соотношени- соотношением A.17), т. е. уг = уг(Т)=[ W(T,t)B(t)u\t)dt, г = 1,2. Jo
1. Управляемость линейных нестационарных систем 193 Так как Du является выпуклым множеством, то очевидно,что управление u\(t) = Хи1^) + A — X)u2(t), 0 < А < 1, также принадлежит Du и, согласно формуле A.16), можно записать V\(t)= I W(T,t)B(t)ux(t)dt = Jo = \f W(T,t)B(t)u1(t)dt + (l-X) f W(T,t)B(t)u2(t)dt. Jo Jo Следовательно, y\(T) = Xy1 + A — X)y2 Это означает, что множество до- достижимости выпукло. Докажем теперь его замкнутость. Пусть элементы сходящейся последовательности {у71} принадлежат обла- области достижимости, т. е. существует последовательность {un(t)} элементов из Du таких, что уп=[ W(T,t)B(t)un(t)dt, n = l,2,... A.18) Jo Пусть, далее, у = lim yn. Так как п^оо У = {У1,...,Уп}еЕп, ук = {ук1,...,укп}еЕп, к = 1,2,..., то можно записать уг=Ишук, г = 1,2,..., п. A.19) /с—>оо Поэтому fc-e соотношение из A.18) можно записать в виде Уг = f K(t)uk(t)dt, г = 1, 2, ...,п. Jo Выраж:ения в правых частях этих формул можно рассматривать как значения линейных ограниченных функционалов fk на функциях hi(t). Эти функциона- функционалы, очевидно, определены на линейной оболочке Ah функций /ii(?),..., hn(t), а их нормы определяются формулой ||/fc|| = ||ufc||x* Согласно теореме Хана- Банаха каждый из этих функционалов можно продолжить на все прост- пространство Xh с сохранением нормы. Выполнив эту операцию, сохраним прежние обозначения fk для продолженных функционалов. Из того, что справедли- справедливо равенство A.19), следует существование слабого предела / последователь- последовательности {fk} такого, что f(hi) = yi Остается показать, что из последовательности {ик} можно выбрать подпо- подпоследовательность {и j} такую, что Уг= lim / h*(t)ukj(t)dt= / h*(t)u(t)dt, j^°° Jo Jo где u(t) e Du. Этот факт доказывается с использованием свойства слабой бикомпактно- сти множества, которое не рассматривается в учебном курсе функционального анализа для "прикладных математиков". Поэтому заключительную часть до- доказательства теоремы мы опустим, имея в виду, что при желании заинтере- заинтересованный читатель может с ним ознакомиться по специальной литературе3). ) См., например: Красовскип Н. Н. Теория управления движением. — М.: Наука, 1968. - С. 116, 117.
194 Гл. 5. Управляемость, наблюдаемость, идентифицируемость 1.4. Критерии управляемости. Изложенные выше результаты по пол- полной управляемости дают условия, при выполнении которых управляемую систему можно перевести в любое заранее заданное состояние. Однако при рассмотрении конкретных систем этот вопрос приходится рассматривать в нес- несколько иной плоскости. Заданы начальное и конечное состояния х1 и х2 уп- управляемой системы. Нас может не интересовать вполне управляема система или нет. В этом конкретном случае нас интересует, можно или нельзя пере- перевести систему из х1 в ж2. Следовательно, желательно иметь критерий управ- управляемости. Будем рассматривать систему x = A(t)x + B(t)u, 0<?<T, A.20) в которой матрицы A(t) и B(t) непрерывны. Введем замену, положив z = W(to,t)x, A.21) где W(?, s) — матрица Коши уравнения У = A(t)y. A.22) Матрицу Коши можно представить в виде (см. параграф 1 гл. 2) W(t,s)=Y(t)Y-\s), где Y(t) — матрица линейно независимых решений уравнения A.22). Поэтому из A.21) находим, что х = W(t,to)z и, следовательно, х = dW^)z + щ^ to)i = A(t)W(t, to)z + W(t, to)z. at С учетом уравнения A.20) отсюда получаем A(t)W(t, to)z + W(t, to)z = A(t)x + B(t)u. Первые слагаемые в левой и правой частях полученного соотношения взаимно уничтожаются и мы получаем уравнение относительно: z z = Вг^)щ B^t) = W(to,t)B(t). A.23) Теорема 1.4. Управление u(t), которое переводит систему A.23) из со- состояния z1 при t = to ^ 0 в состояние z2 при t = ti, to < t\ ^ T, существует, "тогда и только тогда, когда вектор z2 — z1 лежит в области значений ли- линейного преобразования Фо(*ь*о)= / B^BUfidt. A.24) Jt0 При этом одно из управлений, осуществляющих этот перевод, имеет вид u{t) = Bl(t)z, A.25) где z — любое решение уравнения <P0(h,t0)z = z2-z1. A.26) Доказательство. Достаточность. Пусть вектор z2 — z1 находится в области значений оператора A.24). Тогда существует вектор z (не обязатель- обязательно единственный), удовлетворяющий уравнению A.27). Определив управление u(t) по формуле A.25), получим B1(t)u(t)dt = / Jto
Г 1. Управляемость линейных нестационарных систем 195 Следовательно, из уравнения A.23) будем иметь z(h) - z(t0) = z(h) - z1 = Jto С учетом формулы A.24) отсюда получаем <Po{ti,to)z = z{t\) — z1. Так как вектор z определяется из уравнения A.26), то из этого равенства следует, что z(ti) = z2, т. е. управление A.25) переводит систему из состояния z\ при t = to в состояние z2 при t = t\. Необходимость. Пусть существует управление i/°(t), переводящее систему из состояния z1 в состояние z2. Подставляя его в уравнение A.23) и интегрируя полученный результат, будем иметь B(t)u°(t) dt = z2- z1. A.27) Интеграл, стоящий в левой части этого равенства, рассмотрим как значение линейного оператора L(u) = [ г B(t)u(t)dt, отображающего пространство L^b^o) r-мерных функций u(i) = ...,ur(t)} в евклидово пространство Еп. В L^o^i) выделим подпрост- подпространство Н функций v(t), представимых в виде v(t) = B*(t)z, где z — произ- произвольный вектор из Ег. Тогда, согласно теореме Леви, управление u°(t) можно представить в виде u [t) = jd [t)z -\- g[t)) [l.zo) где z° e Er, a g(t) _L Я, т. е. B*(t)g(t)dt = O. Из соотношений A.27) и A.28) получаем Г B*(t)B(t)dtz° = z2-z\ Jt0 и, согласно формуле A.24), вектор z2 — z1 принадлежит области значений пре- преобразования Ф(?о,?].). Теорема доказана. Теорема 1.5 (критерий управляемости). Управление u*(t), переводящее систему A.20) из состояния х1 при t = to в состояние х2 при t = t\, су- существует тогда и только тогда, когда вектор 0(х°,х1) = х1 — W(ti,t2)x° принадлежит области значений преобразования (tbt)]dt. A.29) Более того, если х* — решение уравнения М)х = 0{х\х1), A.30) то u*(t) задается формулой u*(t) = -B*(t)B(t)x*. A.31) Доказательство. Применяя преобразование A.21), систему A.20) при- приводим к виду A.23) и применяем теорему 1.4. Согласно определению матри- матрицы Bi(t) (см. A.23)), преобразование A.24) можно представить в виде ' W(to,t)B(t)B*(t)W*(tt)dt,
196 Гл. 5. Управляемость, наблюдаемость, идентифицируемость и, следовательно, она совпадает с матрицей A.29): Фо(?ъ?о) — ^(^1^о)- Оста- Остается показать, что управление A.31) переводит систему из х\ в х^- Подставляя его в уравнение A.20), по формуле Коши находим, что pti x(t) = W(t, t^x1 - / W(t, s)B(s)B*(s)W*(t0, s)x*ds. A.32) Jt0 Матрица W(t,s) представима в виде W(t,s) = Y(t)Y~1(s), где Y(t) есть матрица линейно независимых решений уравнения A.22). Поэтому W(t,s) = = W(t,to)W(to,s), и формулу A.32) можно представить в виде x(t) = W(t,t0) \xljr Г W(to,s)B(s)B*(s)W*(to,s)x*ds Так как W~1(t1 s) = W(s, ?), то отсюда получаем при t = t\ Ф(*1,*о)ж* = x1-W(tuto)x°(t1). По условию ж* — решение уравнения A.30). Поэтому x(t\) = Ж2, и теорема полностью доказана. В заключение отметим, что из этого критерия управляемости вытекает необходимое и достаточное условие, при котором система A.26) вполне управ- управляема на отрезке [to, ^i]- Оно состоит в том, что rank^(to,ti) = г, и отличается от условий, указанных в теореме 1.1. Однако это отличие лишь формальное, поскольку и в том, и а другом случае указаны необходимые и достаточные условия. Вместе с тем каждая из теорем 1.1 и 1.5 имеет свои важные следст- следствия и связана со своими подходами к решению задачи об управляемости. Теорема 1.1 основана на геометрическом анализе задачи с использованием аппарата функционального анализа. Способ ее доказательства позволяет до- достаточно просто получить алгебраический критерий управляемости линейных стационарных систем. Теорема 1.5 основана на более общих соображениях и служит основой для решения задачи синтеза оптимального управления, пе- переводящего систему из одного заданного состояния в другое, также заранее заданное состояние. 1.5. Решение задачи достижимости с помощью линейной обрат- обратной связи. Рассматривая задачи достижимости для линейных систем, мы строили программное управление в виде и = u(t). На практике, однако, за- зачастую приходится решать ту же задачу, но управление требуется выбирать в форме и = u(t,x), где х — состояние системы в тот же момент времени t. Будем говорить, что состояние х2 системы A.20) достижимо в момент времени t = t\ из начального состояния x(to) = x1 с помощью линейной обрат- обратной связи, если существует матрица K(t), to ^ t ^ ti, такая, что управление и = K(t)x определяет решение x(t) задачи Коши х = [A(t) + B(t)K(t)]x, x(t0) = х\ удовлетворяющее условию x(t\) = х2. Для построения такого типа управления нам потребуется псевдообратная матрица4). В случае, когда Ф — неособенная квадратная матрица, для нее всегда су- существует обратная матрица Ф~г. Если же Ф — прямоугольная или особенная См., например: Гантмахер Ф.Р. Теория матриц. — 5-е изд.— М.: Наука, 2004.
1. Управляемость линейных нестационарных систем 197 квадратная матрица, то она не имеет обратной матрицы, и символ Ф в этом случае теряет смысл. Однако для таких матриц можно построить так назы- называемую псевдообратную матрицу Ф+, которая обладает рядом свойств обрат- обратной матрицы и имеет ряд важных применений в алгебре и ее разнообразных приложениях. Нам она потребуется в решении некоторых задач управления. Пусть Ф — некоторая матрица размерности т х п ранга г. Говорят, что дано скелетное разложение матрицы Ф, если указаны матрицы В = {bik} и С = {ckj} размерностей т х г и г х п соответственно такие, что Ф = ВС. A.33) При практическом разложении Ф в качестве столбцов матрицы В реко- рекомендуется брать любые линейно независимые векторы. Тогда произвольный столбец матрицы Ф будет линейной комбинацией столбцов матрицы В с коэф- коэффициентами, которые являются элементами матрицы С. Так как каждая из матриц В и С имеет максимально высокий ранг, то каждая из матриц В*В и С*С является неособенной. Рассмотрим уравнение ФХФ = Ф. A.34) Если Ф — неособенная квадратная матрица, то единственным решением этого уравнения является матрица X = Ф. В случае, когда Ф — произвольная мат- матрица размерности т х п, искомая матрица X должна иметь размерность пхп. В общем случае таких решений может оказаться бесчисленное множество. Од- Однако среди них существует только одно X = Ф", обладающее тем свойством, что его строки и столбцы являются линейными комбинациями строк и столб- столбцов сопряженной матрицы Ф*. Именно это решение называют псевдообратной матрицей для Ф и обозначают через Ф+. Следовательно, по определению матрицу Ф+ размерости пхп называют псевдообратной к матрице Ф, если: 1) фф~^~ф = ф' 2) существуют матрицы U и V такие, что Ф+ = иФ* = Ф*У. A.35) Практический способ построения псевдообратной матрицы Ф+ состоит в следующем. Сначала требуется найти скелетное разложение матрицы Ф по форму- формуле A.33). Затем с помощью найденных матриц В и С строится псевдообратная матрица по формуле Легко проверяется, что построенная таким образом матрица Ф+ действи- действительно является решением уравнения A.34) и допускает представление в ви- виде A.35). При этом Пример 1.3. Пусть 1-1 2 0 Ф= | -1 2-3 1 0 1-11
198 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Ранг этой матрицы равен 2. Примем в качестве столбцов матрицы В первые два столбца матрицы Ф. Тогда о\ (гг*л-1 _ Л/з о 0 3/' { ' ~ 0 1/J и согласно формуле A.43) будем иметь Непосредственной проверкой устанавливаются следующие простейшие свойства псевдообратной матрицы: 1) (Ф*)+ = (Ф+)*; 2) (ф+)+ =Ф*; 3) (ФФ+)* = ФФ+, (ФФ+J = ФФ+; 4) (Ф+Ф)* = Ф+Ф, (Ф+ФJ = Ф+Ф. В приложениях, в частности, в задачах управления, наибольший интерес представляет роль псевдообратной матрицы при решении уравнения Фх = у. A.37) Если Ф — прямоугольная или особенная квадратная матрица, то это урав- уравнение, вообще говоря, не имеет точного решения. Вектор хо называется наилучшим приближенным решением уравне- уравнения A.37), если: 1) квадратичная форма \\у-ФхГ = г=1 L fc=l достигает своего наименьшего значения при х = хо; 2) вектор жо имеет наименьшую длину среди всех векторов, минимизиру- минимизирующих величину \\у — Фх\\. Как показывается в алгебре, этот вектор определяется по формуле xq = В заключение этого краткого анализа свойств псевдообратной матрицы отметим, что Ф+ является наилучшим приближенным решением матричного уравнения ФХ = Е, A.38) где Е — единичная матрица. Возвращаясь к задачам управления, докажем следующую важную тео- теорему.
1. Управляемость линейных нестационарных систем 199 Теорема 1.5. Если система A.20) такова, что матрица Ф'(to, i) {см. фор- формулу A.29)) является неособенной при всех t Е \to,t\), mo управление u(t,x) = -Б^ф-^ьф; A.39) переводит систему из состояния х1 при t = to ^ 0 в состояние х2 = 0 при t = t1(t0<t1^T). Доказательство. Для доказательства этого утверждения достаточно показать, что управление A.39) является всего лишь иной формой представ- представления управления A.31), в котором ж* — решение уравнения A.30) при х2 = 0. Обозначим его через u°(t,x), т. е. положим u°(t,x) = -B*(t)W*(to,t)x°, A.40) где х° — решение уравнения Ф(Ьиг0)х° = х1. A.41) Соответствующая этому управлению траектория х = xQ(t) уравнения A.20) определяется по формуле Коши = W(t,t0) х1 - W(to,s)B(s)B*(s)W*(to,s)x°ds A.42) или, что то же самое, x°(t) = W(t,to)[x1 — <!>(t,to)x0]. Имеем где ft! W(to,s)B(s)B*(s)W*(to,s)ds. Учитывая, что W(to,t) = W(to,s)W(s,t), получаем и, следовательно, Ф(^,^о) = Ф(^^о) + W(to, t)<P(ti, t)W*(to, t). Поэтому форму- формулу A.42) можно записать в виде Учитывая, что х° — решение уравнения A.41), окончательно получаем формулу xo(t)=^(tbt)W*(to,t)x°, A.43) определяющую траекторию уравнения A.20) при управлении A.38). Вычис- Вычислим теперь управление A.39) на этой траектории. Подставляя функцию A.43) в уравнение A.39), получаем ixo(t,x°(t)) = —B*(t)W*(to,t)x°. Отсюда следует, что управления A.39) и A.40) совпадают. Теорема полностью доказана. Замечание 1.1. Если матрица Ф(?]_,?) при каких-то значениях t становит- становится особенной, то, естественно, в соответствующей формуле вместо Ф (?]_,?) следует брать псевдообратную матрицу Ф+(?]_,?), т. е. вместо A.39) следует брать u(t,x) = -B*(t№+(tut)x. A.44)
200 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Если х° — решение уравнения A.41), то уравнение A.40), как и в рассмот- рассмотренном в теореме случае, переводит систему из состояния х1 в состояние х2. Однако на соответствующем ему решении A.43) уравнения A.20) управле- управление A.44) принимает вид u(t,x(t)) = -B'(t)<P+(ti,t)W(to,t)x°. A.45) В соответствии с определением псевдообратной матрицы (см. A.36)) имеем Ф+(?ь?) = C*{t1,t){CC*)-1{BB*)-1B*{t1,t), где Б и С определяют скелетное разложение матрицы Ф (см. A.33)) Ф(?ь?) = B(tut)C(tut). Поэтому формулу A.45) можно записать в виде u(t,x(t)) = -B*(t)L(tut)W(t0,t)x°, где введено обозначение L(ti,t) = C*(ti,t)(CC*)~1C(ti,t). Матрица L не явля- является матрицей тождественного преобразования, и поэтому управление A.45) не совпадает с A.40). Однако полученный результат еще не означает, что управ- управление A.43) не переводит систему из состояния х1 в состояние х2. Пример 1.4. Рассмотрим следующую управляемую систему: х = b(t)u, 0 < t < 4, A.46) где функция b(t) определяется формулой (см. рис. 5.1.2) b(t) = Будем рассматривать задачу о переводе этой системы из состояния ж1 в со- состояние х2 за время от ? = ?о = 0 до ? = ?i =4c помощью обратной связи u(t,x) = -K(t)x. A.47) В этом случае W(t,to) = 1, и поэтому вместо матрицы A.29) получим ска- скалярную функцию 0 t 3 0 при 0 ^ — 1 при — t при при 3 ^ J х t 1 ^ 2 ^ *t $ О, : t ^ : t ^ J 4. ;з, ь?) = / b2(t)dt. Jt Отсюда следует, что Ф(?ь i) = 0 при 3 ^ t ^ 4, хо- t тя, как легко проверяется, система вполне управ- *" ляема на отрезке 0 ^ t ^ 4. Значит, теоремой 1.6 пользоваться нельзя. Поэтому строим управле- рис ^ -у 2 ние A.44). Для определения функции Ф(?]_,?) вос- воспользуемся тем, что она определяет наилучшее приближение решения уравнения Поэтому находим, что _ / [it1 b2(f)dt I при 3 < t < 4.
2. Управляемость линейных стационарных систем 201 Таким образом, управление A.44) в этом случае имеет вид A.47), где {0 при 0 < t < 1, b^^tf^dty1 при l<t<3, 0 при 3<^4. Подставляя это управление в уравнение A.46), определим соответствующую ему траекторию х = x(t). Введем обозначение Kl{t) = b(t)U\2(t)dt Тогда можно записать ' х1 при 0 < t < 1, x(t) = exp (- /* Kxit) dt) при 1 < t < 3, A.48) x1 exp (- Jl K^t) dt\ при < t < 4. Если в полученных формулах, определяющих управление A.48) и соот- соответствующее ему решение A.48), t\ рассматривать как параметр, принимаю- принимающий значения из отрезка [3,4], то в пределе при t —> 3 + 0 функция Ф+(^1,?) перейдет в Ф-1(?1,?), и для решения задачи можно пользоваться теоремой 1.6. 2. Управляемость линейных стационарных систем 2.1. Конечномерные непрерывные системы. Пусть управляемый процесс описывается уравнением х = Ах + Ви, B.1) в котором А и В — постоянные матрицы размерностей п х п и п х г соот- соответственно. Допустимыми управлениями, как и в предыдущем параграфе, бу- будем считать функции и = u(t) E L^OjT), где Т — произвольный, но заранее фиксированный момент времени. Доказанная выше теорема 1.1 формулирует необходимые и достаточные ус- условия полной управляемости линейной системы B.1), и в этом смысле она да- дает исчерпывающий ответ на вопрос о полной управляемости рассматриваемой здесь линейной системы B.1), Однако практическое применение указанной тео- теоремы связано с необходимостью строить вектор-функции /ii(?),..., hn(t), кото- которые являются столбцами матрицы B*W*(T,t). Поэтому для проверки условий управляемости требуется строить фундаментальную матрицу решений одно- однородного уравнения х = Ах. B.2) Свойства этой матрицы полностью определяются матрицей А. Именно поэтому попытаемся получить условия полной управляемости системы B.1), выражен- выраженные непосредственно через свойства матриц А и В. Так как А — постоянная матрица, то фундаментальная матрица решений уравнения B.2), нормальная при t = to, имеет вид W(t,to) = еЛ^~г°\ Поэтому
202 Гл. 5. Управляемость, наблюдаемость, идентифицируемость решение уравнения B.1), удовлетворяющее начальному условию х@)=х1, можно записать в виде х{Ь) = емхг - /о Если управление u(t) обеспечивает переход системы к моменту време- времени t = Т в состояние х(Т) = х2, то г Jo и, следовательно, / e~MBu(t) dt = -(x1 - е~АТх2) = с. B.3) Jo Матрица e~At допускает представление (см. формулу A.11) из гл. 2) га-1 e~At = к=0 где ak(t) — коэффициенты интерполяционного многочлена Лагранжа-Силь- вестра, а тп — степень минимального многочлена матрицы А. Поэтому из B.3) получаем тп— 1 „т V АкВ / ak(-t)u(t) dt = с. B.4) к=о Jo Обозначая через U вектор с компонентами 5) Г f Ui = / ao(—t)ui(t)dt, ..., Ur = / ao(—t)ur(t)dt, Jo Jo T fT о Jo , ..., U2r = I ao(-t)ur(t)dt, /2<5ч f/(m-i)r+i = / Oim-i(-t)ui(t)dt, ..., Umr = / am-i(-t)ur(t)dt, Jo Jo а через W матрицу ..,Am-1B}, B.6) равенство B.4) запишем в виде WU = с. Обозначая, далее, через wk — к-й столбец матрицы W, последнему ра- равенству можно придать вид q Y^ Ukwk = с. B.7) к=1 ) Число q = mr в дальнейшем считается не меньше, чем п.
2. Управляемость линейных стационарных систем 203 Это равенство, в частности, означает, что произвольный вектор с Е Еп пред- представляет собой линейную комбинацию векторов wi,... ,wq, размерность каж- дого из которых также равна п. Такое представление возможно в том и только том случае, когда ранг матрицы W равен п. Так как q = mr ^ п, то числа Ui,...,Uq определяются из B.7), вообще говоря, неоднозначно. Однако их однозначность и не требуется. Важно, что эти числа существуют. Каждый их набор определяет с помощью соотноше- соотношений B.5) функции ui(t),..., ur(t). В самом деле, пусть числа [/]_,..., С/g каким-либо способом определены. Тогда равенства B.5) можно рассматривать как моментные соотношения от- относительно функций u\(t),..., ur(t). При этом их можно разбить на группы. К первой группе относим моментные соотношения относительно функции u\(t). Ко второй — относительно U2(t) и т. д. Согласно теореме 1.1 первая группа этих соотношений определяет ui(t), так как функции ао(—?),..., am-i(—t) линейно независимы. По той же причине из остальных соотношений последовательно находим U2(t),..., ur(t). Полученный результат можно сформулировать следующим образом. Теорема 2.1. Линейная стационарная система B.1) вполне управляема на отрезке 0 ^ t ^ Т тогда и только тогда, когда матрица B.6) имеет ранг, равный п. 2.2. Общие выоды. Выше отмечалось, что при доказательстве этой тео- теоремы не требуется, чтобы постоянные Uq определялись однозначно. q Не нужно также, чтобы моментные соотношения B.5) определяли вектор- функцию u(t) однозначно. Важно было установить лишь существование хотя бы одного управления, переводящего систему из одного заданного состояния х1 в другое, также заданное состояние х2. Пример 2.1. Линеаризованные уравнения движения материальной точки, движущейся в вертикальной плоскости под действием реактивной силы и силы тяжести, имеют вид6) Х\ = Х2, Х2 = Ui, Хз = #4, Х4 = U2 — #, где g — ускорение силы тяжести, а и\ и U2 — проекции вектора реактивной тяги на оси координат Ох\ и Ох2- Если положить g = 0 и полученную систему записать в виде B.1), то будем иметь А = Так как 0 0 0 0 \ Т Л1 1 0 0 0 ь — 0 0 0 0 1 0 0 1 0 = \ / л 0 0 0 73 ±3 -1 л 0 0 0 0 л 0 /0 0 1 0 0 0 \0 1 0 0 -1 л то наибольший общий делитель миноров третьего порядка этого определителя равен 1. Поэтому степень т минимального многочлена равна 4, а для решения вопроса об управляемости нужно вычислить матрицы Б, АВ, А2В, А3В: См., например: Красовский Н. Н. Теория управления движением. — М.: Наука, 1968.
204 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Отсюда находим, что определитель матрицы {В, АВ} отличен от нуля. Поэто- Поэтому ранг матрицы W = {В, АВ, А2В, А3В} равен 4. Значит, система управляема на любом конечном отрезке времени. Замечание 2.1. Анализ этого примера можно продолжить с целью ил- иллюстрации практической значимости понятия области достижимости при раз- различных ограничениях на допустимые управления. Результат, сформулированный в виде теоремы 2.1, без каких-либо принци- принципиальных трудностей можно перенести на случай, когда процесс описывается уравнением в конечных разностях х(к + 1) = Ах (к) + Ви(к), к = 0,1,..., га. Объясняется это тем, что для такой системы решение, удовлетворяющее на- начальному условию х@) = а, определяется по формуле, аналогичной формуле7) x(t)=eAtx1 +/ eA{t-s)Bu(s)ds. Jo Следовательно, тем же рассмотренным выше способом можно получить необходимые моментные соотношения относительно искомого управления. Однако картина принципиально меняется с переходом к системе с распреде- распределенными параметрами (см. параграфы 8 и 10). 3. Наблюдаемость и идентифицируемость линейных систем. Принцип двойственности Известно, что управление системой может выполняться по программе или по принципу обратной связи. Для практической реализации управления по принципу обратной связи необходимо знать состояние системы в каждый кон- конкретный момент времени. Однако обычно оказывается, что не все фазовые координаты системы доступны измерению. Поэтому естественно рассмотреть вопрос о возможности полного описания поведения фазовых координат систем по результатам неполного наблюдения. 3.1. Наблюдаемость нестационарных систем. Пусть управляемая си- система описывается уравнением x = A(t)x + B(t)u, 0<?<T, C.1) в котором A(t) и B(t) — непрерывные матрицы размерностей п х п и п х г соответственно. Допустимыми управлениями будем считать функции и = u(t) из Ц@,Т). Через у обозначим вектор у = {г/i,..., ут}, компоненты которого представ- представляют собой линейные комбинации фазовых координат Xi и компонент управ- управления Uj, т. е. будем считать, что где C(t) и D(t) — непрерывные матрицы размерностей m x n и m x r соот- соответственно. См., например: Гелъфонд А. О. Исчисление конечных разностей. — М.: Наука, 1967.
3. Наблюдаемость и идентифицируемость линейных систем 205 Будем, далее, предполагать, что управление и = u(t) задано и компонен- компоненты yi вектора у доступны наблюдению на отрезке времени 0 ^ t ^ Г и, следо- следовательно, по результатам наблюдения известны функции yi = г/Д?), г = 1,... ..., 7П, 0 ^ t ^ Т. Основная задача наблюдения в этом случае состоит в том, чтобы по полученным результатам наблюдения (т. е. по известной функции y(t) = {yi(t),..., ym(t)}) определить значения вектор-функции х = x(t) при всех t G [0,Т], являющейся решением уравнения C.1) при и = u{t). Это решение можно представить в виде x(t) = W(t,0)x°+ W(t,s)B(s)u(s)ds, C.3) Jo где х° — неизвестное начальное состояние системы. Так как W(t,s), B(t) и u(t) считаются известными, то второе слагаемое в равенстве C.3) оказывается известной функцией времени t. Неизвестным является слагаемое W(t,0)x°. Следовательно, для решения вопросов наблюдения вместо уравнения C.1) достаточно рассматривать однородное уравнение х = A(t)x, C.4) так как слагаемое B(t)u(t) доступно непосредственному измерению. Реше- Решение C.3) в этом случае принимает вид x(t) = W(t,0)x°, C.5) и для того чтобы знать функцию x(t) на отрезке времени [0,Т], достаточно определить х°. Поэтому задачу наблюдения можно ставить так: по данным измерения y(t) на отрезке времени [0,Т] нужно найти начальное состояние х° системы C.4) при условии, что х и у связаны соотношением C.2). Из равенств C.5) и C.2) следует, что y(t) = C(t)W(t, 0)x°+D(t)u(t). Второе слагаемое в этом равенстве является известной функцией, так как управление считается заданным. Поэтому естественно считать, что по результатам изме- измерения известна функция y(t) = C(t)W(t,0)x°, или, что то же самое, y(t) = C(t)x(t). C.6) На основании изложенного основную задачу наблюдения для линейной си- системы можно сформулировать следующим образом. По данным наблюдения известна вектор-функция y(t), t G [0, Т]. Извест- Известно таксисе, что она представима в виде C.6), где C(t) — заданная непрерыв- непрерывная матрица размерности т х п. Требуется найти вектор х° начального состояния фазового вектора x(t), определяемого уравнением C.5). Если любое начальное состояние х° системы C.4) можно определить по известной на отрезке [0,Т] функции y(t), представимой в виде C.6), то систе- система C.4), C.6) называется вполне наблюдаемой на этом отрезке времени. Пусть hi(t) — г-й столбец матрицы C(t)W(t,0). Размерность вектора /ц(?), очевидно, равна т, а количество этих векторов равно п. Теорема 3.1. Для того чтобы система C.4), C.6) была вполне наблюдае- наблюдаемой на отрезке 0 ^ t ^ T, необходимо и достаточно, чтобы вектор-функции /ii(t),..., hn(t) были линейно независимы на этом отрезке.
206 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Доказательство. Пусть /ц(?), г = 1,...,п, линейно независимы на отрезке 0 ^ t ^ Т. Решение уравнения C.4) представим в виде C.5). Тогда вектор наблюдаемых величин C.6) можно представить в виде y(t)=C(t)W(t,0)x°. Обе части этого равенства умножим слева на матрицу W*(t, 0)C*(t) и получен- полученный результат проинтегрируем в пределах от 0 до Т. Тогда, вводя обозначения z(T)=[ W*(t,O)C*(t)y(t)dt, M(T)= [ W*(t,0)C*(t)C(t)W(t,0)dt, Jo Jo можно записать М(Т)х° = z(T). Матрица М(Т) является матрицей Грама линейно независимых век- вектор-функций /ц(?), г = 1,... ,п, и поэтому ее определитель отличен от нуля. Значит, можно записать х° =M-\T)z(T). Тем самым по известной функции y(t), 0 ^ t ^ Т, найдено начальное состояние системы. По формуле C.5) теперь можно определить решение системы. Пусть теперь система C.4), C.6) вполне наблюдаема на отрезке 0 ^ t ^ Т, т. е. любое начальное состояние х° может быть определено по известной на отрезке 0 ^ t ^ Т функции y(t). Докажем, что вектор-функции /ii(?),..., hn(t) линейно независимы. Предположим противное, что эти вектор-функции линейно зависимы на отрезке [0,Т]. Тогда матрица М(Т) будет особенной и существует ненулевой вектор а Е Еп такой, что а ^ 0 и (се, М(Т)а) = 0. Возьмем начальное состояние системы х@) = х° = а. Ему соответствует вектор-функция y(t), определяемая по формуле y(t) = C(t)W(t,0)a. Отсюда находим, что / y*(t)y(t)dt= f a*W*(t,0)C*(t)C(t)W(t,0)adt = ( o Jo Следовательно, y(t) = 0, 0 ^ t ^ Т. Однако у вполне наблюдаемой системы при x(t) т^ 0 наблюдаемая вектор-функция y(t) не может быть тождествен- тождественно равной нулю. Полученное противоречие доказывает, что вектор-функции /ii(t),..., hn(t) линейно зависимы на отрезке 0 ^ t ^ Т. 3.2. Наблюдаемость стационарных систем. Предположим теперь, что система C.4), C.6) стационарна, т. е. она имеет вид х = Ах, C.7) у = Сх, C.8) где А и С — постоянные матрицы размерностей п х п и г х п соответственно 8). Попытаемся найти условия полной наблюдаемости этой системы на произволь- произвольном заданном отрезке времени 0 ^ t ^ T, выраженные непосредственно через матрицы А и В. Любое решение уравнения C.7) можно представить в виде x(t) = eAtx°, C.9) ) Отметим, что здесь, в отличие от системы C.6), размерность вектора у взята равной г.
3. Наблюдаемость и идентифицируемость линейных систем 207 где х° — начальное значение фазового вектора системы в момент времени t = = 0, а т—1 eAt=] к=0 Здесь т — степень минимального многочлена, а а&(?), к = 1,...,т — 1, — коэффициенты интерполяционного полинома Лагранжа-Сильвестра мат- матрицы А. Из C.8) и C.9) получаем m-l к=0 Умножая обе части полученного соотношения на аД?) и интегрируя получен- полученный результат в пределах от 0 до Т, будем иметь гт гп- о к^ г = 0, ...,m- I, j = 1,...,г, где yj(t) — j-я компонента вектора y(t), a Cj — j-я строка матрицы С, т. е. Введем обозначения (ui.Uk) = / Ui(t)uk(t)dt. Jo Тогда соотношения C.10) можно записать в виде CjX + (ceo, oti)CjAx -\-... -\- (ao,am_i)cjAm~ x =(ceo,2/j), (аш_ь ао)^ж0 + (am_i, a^CjAx0 + ... + (am_i, ^-i)^^^ = = (am-i,yj), { j = l, 2, ...,r. Определитель А из коэффициентов при CjX°,... ,CjArn~1x° полученных урав- уравнений отличен от нуля, так как он является определителем Грама линейно независимых функций сео,..., am_i. Следовательно, система уравнений C.11) имеет единственное решение т—1 т—1 сзхо = Yl Sik(otk,yj), ..., с^771-1^0 = ^ Smk(ak,yj), 1 = 1, 2, ..., г. fc=0 fc=0 C.12) Обозначая через (а, Ъ) скалярное произведение векторов а и Ъ из i^n, соот- соотношениям C.12) можно придать вид (с*, ж°> = 7,ь • • •, (А*^-1^,*0) = 7,-ш, J = 1, 2, ..., г, C.13) где ?тг—1 ьк(ак,Уз)> 3 = 1, ••-,?, г = 1, 2, ...,ш. C.14)
208 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Согласно определению с* — j-й столбец матрицы С*, и можно записать С* = (cj,..., <), ..., А*™-1^ = (А*т-гс1,..., А*™-1^). Таким образом, все столбцы матрицы 5= (С*,А*С*,...,А*т-1С*) C.15) входят в скалярные произведения, определяющие левые части соотноше- соотношений C.13). Число этих столбцов, очевидно, равно q = mr. В дальнейшем будем предполагать, что q ^ п, как это обычно бывает в практических задачах. Теорема 3.2. Для того чтобы система C.7), C.8) была вполне наблюда- наблюдаема на произвольном отрезке времени 0 ^ t ^ Т, необходимо и достаточно, чтобы ранг матрицы C.15) был равен п. Доказательство. Пусть матрица C.15) имеет ранг, равный п. Обо- Обозначим через sPl,..., sPn линейно независимые столбцы в матрице S. Выде- Выделяя из C.13) соответствующие уравнения, получим (sPl,xo) = 7PS ••• ..., (sPn, xo) = jPnj или, в скалярной форме, f х\ + s^xl + ... + sftxl = 7P1, C.16) Так как векторы 5Pl,..., 5Pri линейно независимы, то система C.16) одно- однозначно разрешима при любых 7Pl, • • •, /УРп • Числа 7Pl ? • • • ? 7Pri однозначно опре- определяются через компоненты г/^ вектора наблюдения y(t) (см. C.14)). В итоге получаем, что система вполне наблюдаема, т. е. достаточность условий теоре- теоремы доказана. Предположим теперь, что система вполне наблюдаема. Докажем, что ранг матрицы C.15) равен п. Допустим противное, что р = ranks' < п. Обозначим через sk — fc-й столбец матрицы S. Тогда можно записать 9) 5 = (s1,...,s«). В силу того, что р < п, существует ненулевой вектор ж0, удовлетворяющий условию (sk,x°)=0, fc = l,...,g, C.17) или, что то же самое, sja;? + s\x% + ... + 44 = 0, = 0. Матрицей этой системы является матрица S*, ранг которой равен р (р < п). Поэтому система имеет ненулевое решение. Обозначим его через х°. Так как столбцы sk матрицы S являются столбцами матрицы то из соотношений C.17) следует, что CjAkx°=0, j = r = l, 2, ..., fc = 0, 1, ... т- 1. C.18) С другой стороны, согласно соотношениям C.8) и C.9) имеем ) Как и прежде, предполагаем, что q = mr ^ п.
3. Наблюдаемость и идентифицируемость линейных систем 209 га-1 к=0 и на основании C.18) получаем, что yj{t) = 0, 0 ^ t < оо, j = 1, 2, ..., г, т. е. существует ненулевое начальное состояние системы C.16), для которого вектор наблюдения y{t) тождественно равен нулю. Это противоречит полной наблюдаемости системы. 3.3. Принцип двойственности. Как видно из условий управляемости и условий наблюдаемости, они определяются сходными соотношениями. Здесь мы покажем, что за этими внешними признаками кроется содержательная за- закономерность . Пусть даны две системы. Одна из них описывается уравнениями х = Ах + Ви, у = Сх + Du, C.19) где А, Б, С и D — постоянные матрицы размерностей пхп^пхг, рхпирхг соответственно. Вторая система описывается уравнениями v = A*v + C*w z = B*v + D*w, C.20) где векторы v, w и z имеют размерности n, p и г соответственно. Согласно теореме 2.1 система C.19) вполне управляема тогда и только тогда, когда матрица ..,Ат-1В) C.21) имеет ранг, равный п. С другой стороны, эта же система вполне наблюдаема тогда и только тогда, когда матрица (С*, А*С*,..., А*™-1^) C.22) имеет ранг, также равный п. Это утверждение следует из теоремы 3.2. На основании тех же теорем находим, что для полной наблюдаемости системы C.20) необходимо и достаточно, чтобы матрица C.21) имела ранг, рав- равный п, и для того чтобы эта система была вполне управляемой, необходимо и достаточно, чтобы матрица C.22) имела ранг, равный п. Таким образом, условия полной управляемости для системы C.19) сов- совпадают с условиями полной наблюдаемости для системы C.20) и, наоборот, условия полной наблюдаемости системы C.19) совпадают с условиями полной управляемости системы C.20). Этот результат обычно формулируется в виде следующего принципа. Принцип двойственности. Для того чтобы система C.19) была вполне управляемой {вполне наблюдаемой), необходимо и достаточно, чтобы систе- система C.20) была вполне наблюдаема {вполне управляема). 3.4. Идентифицируемость. Пусть управляемая система описывается соотношениями C.1) и C.6) при прежних предположениях относительно мат- матриц A(t), B{t) и C{t) (т. е. они предполагаются непрерывными).
210 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Задачей идентификации будем называть задачу определения состояния x(t) в момент времени t = t\ ^ T по данным об управлении u(t) и выходной величине y(t) при t ^ t\. С математической точки зрения она сходна с задачей о наблюдении. Что- Чтобы в этом убедиться, достаточно в уравнениях C.1) и C.6) произвести замену г = t\ — t. В итоге получим задачу о наблюдении также для линейной системы. Поэтому при исследовании идентифицируемости линейных систем можно ис- использовать изложенные выше методы. Однако, учитывая большую значимость проблем идентификации в решении прикладных задач, мы рассмотрим их вне зависимости от того, что получено выше в решении задачи наблюдения. Пару (?]_, х), где х Е Еп, будем называть событием, а вектор ?/(?), 0 ^ t ^ ?]_, соответствующий управлению u(t), по которому восстанавливается событие (?i,x), будем обозначать через i/(t, ti, ж, ^x(t)), t < t\. Событие (?i,x) в систе- системе C.1), C.6) называется неидентифицируемым тогда и только тогда, когда y(t,ti,x,u(t)) = в10) при всех t E [0,ti]. Из этого определения, в частности, следует, что для системы C.1), C.6) событие (?i,#) неидентифицируемо. Линейную систему C.1), C.6) будем называть идентифицируемой, если ни одно событие (?i,x) не является неидентифицируемым, за исключением собы- события (?i, в). Теорема 3.3. Для того чтобы событие (?i,x°) в системе C.1), C.6) было неидентифицируемым, необходимо и достаточно, чтобы вектор х° принад- принадлежал ядру11) матрицы N(t1)= / W*(t Jo C.23) Доказательство. Достаточность. Пусть х° принадлежит ядру матри- матрицы N. Тогда в соответствии с определением ядра матрицы имеем N(ti)x° = в. Умножая это равенство слева на х° , получаем х° N(ti)x° = 0 и, следователь- следовательно, / * x°V*(t,ti)C*(t)C(t)W(t,ti)x0^ = 0, Jo т. е. f1\\C(t)W(t,t1)x0\\2dt = 0. Jo Отсюда находим, что C(t)W(t,h)x° = 0 при 0 < t < tx. C.24) Так как W(?, s) — фундаментальная матрица решений системы х = A(t)x, нормальная при t = 5, то функция W(t,ti)x° является решением, удовлетворяю- 10) Здесь и далее в — нулевой вектор. ) Напомним, что ядром матрицы А называется множество векторов, удовлетворяю- удовлетворяющих уравнению Ах = в.
3. Наблюдаемость и идентифицируемость линейных систем 211 щим начальному условию x(t\) = х°. Поэтому равенство C.35) можно записать в виде y(t, ?]_, ж0, в) = 0, а это означает,что событие (?]_, ж0) неидентифицируемо. Необходимость. Пусть событие (?i,x°) неидентифицируемо, т. е. справед- справедливо равенство y(Mi,zo,0) = 0 при всех t G @, ti). Тогда из равенства /" ^ rf* = f1\\C(t)W(t,t1)x0\\2dt = x°*N(t1)x0 o Jo следует, что х° N(ti)x° = 0, а это означает, что вектор х° принадлежит яд- ядру iV^). Следствие 3.1. Для того чтобы линейная система C.1), C.6) была иден- идентифицируемой, необходимо и достаточно, чтобы ранг матрицы C.23) был равен п. Доказательство этого утверждения непосредственно следует из того, что ядро матрицы N(ti) состоит из единственного элемента х = в тогда и только тогда, когда ее ранг равен п. И в заключение проанализируем связь между условиями полной управ- управляемости и идентифицируемости, ограничиваясь анализом лишь стационарных систем вида х = Ах + Вщ у = Сх, C.25) где А, В и С — постоянные матрицы. Согласно следствию из теоремы 3.3 у идентифицируемой системы ранг матрицы rti = / e^^-^C+Ce^-^dt C.26) Jo равен п. С другой стороны, система x = -A*x + C*v C.27) вполне управляема тогда и только тогда, когда ранг матрицы Ф= / е-Л^г-г1)С*СеЛ^-г1)(И C.28) Jo равен п (см. теорему 1.4). Так как матрицы C.26) и C.28) совпадают, то спра- справедливо следующее утверждение. Принцип двойственности. Система C.25) идентифицируема тогда и только тогда, когда система C.27) вполне управляема. Если учесть, что условие полной управляемости системы C.27) состоит в том, что гапк{С*, А*С*,..., А*т-гС*} = п C.29) (см. теорему 2.1), то справедливо следующее утверждение. Теорема 3.4. Для того чтобы система C.24) была идентифицируемой, необходимо и достаточно, чтобы выполнялось условие C.29), где т — сте- степень минимального многочлена матрицы А.
212 Гл. 5. Управляемость, наблюдаемость, идентифицируемость 3.5. Наблюдатели полного порядка. Рассмотрим теперь систему C.1), в которой вектор наблюдения имеет вид y(t) = C(t)x, C.30) где C(t) — матрица размерности т х п и, следовательно, у = {У1,...,ут}еЕт. Систему n-го порядка х = F(t)x + G(t)y + H(t)u C.31) будем называть наблюдателем полного порядка для системы C.1), C.30), если из условия х@) = х@) следует, что ?(?) = x(?), ? > 0 при всех допу- допустимых u(t). Теорема 3.5. Система C.31) является наблюдателем полного порядка для системы C.1), C.30) тогда и только тогда, когда F(t) = A(t) - K(t)C(t), G(t) = K(t), H(t)=B(t), C.32) где K(t) — произвольная непрерывная матрица. В результате наблюдатель полного порядка имеет вид х = [A(t) - K{t)C{t)]x + K(t)y + B(t)u(t). C.33) Доказательство. Из уравнений C.1) и C.31) получаем х-х= [A(t) - G(t)C(t)]x - F(t)x + [B(t) - H(t)]u(t). C.34) Из этого же уравнения непосредственно следует, что из равенства x(t)—x(t) = в при t ^ to для всех u{t) следует C.32). И наоборот, если выполняются усло- условия C.32), то из C.34) следует, что х-х = [A(t) - K(t)C(t)][x - х], C.35) и поэтому равенство х@) — х@) = в влечет за собой тождество x(t) = x(t) при t > 0. Величину e(t) = x(t)—x(t) естественно называть ошибкой восстановления. Поэтому если уравнение C.1) рассматривать на полубесконечном интервале времени @ < t < сю), то из уравнения C.33) будет следовать, что вопрос о том, обладает или не обладает ошибка восстановления свойством e(t) —> в при t —> сю, определяется исключительно свойствами матрицы A(t) — K(t)C(t). С другой стороны, уравнение наблюдателя C.33) определяет асимптотиче- асимптотически устойчивое или неустойчивое невозмущенное движение в зависимости от тех же свойств матрицы A(t) — K(t)C(t). Это означает, что асимптотическое поведение ошибки восстановления e(t) определяется одновременно с асимпто- асимптотическими свойствами любого возмущенного движения наблюдателя. Пример 3.1. Рассмотрим следующую задачу управления. В плоскости дви- движется объект, представляющий собой материальную точку. В центре плоскости находится вращающаяся антенна, которая должна отслеживать этот объект во все время его движения. Антенна приводится в движение электродвигателем. Задача управления заключается в таком воздействии на режим работы элек- электродвигателя, при котором 0(t) = 6*i(t), t ^ to, где в — угловое положение антенны, а 0\ — угловое положение объекта. Движение антенны можно опи- описать уравнением второго порядка J6 + Ъв = т(?), где J — момент инерции
3. Наблюдаемость и идентифицируемость линейных систем 213 всех вращающихся элементов конструкции, включая антенну, Ъ — коэффици- коэффициент вязкого трения, m(t) — момент, развиваемый двигателем, который будем считать пропорциональным входному напряжению /х(?), т. е. m(t) = Z/x(?), где / — заданная постоянная. Вводя фазовые переменные х\ = в. х^ = 0, получим каноническое уравне- уравнение движения антенны где а = b/J, C = l/J. Предположим, что наблюдаемой переменной является угловое перемеще- перемещение в антенны, т. е. 2/ = A,0)ж, где х = {ж1,ж2}. Таким образом, если систему C.36), C.27) записать в ви- виде C.1), C.30), то будем иметь Наблюдатель для этой системы описывается уравнением C.33), которое можно представить в виде Постоянные к\ и /с2 подлежат определению исходя из дополнительных требо- требований к наблюдателю. Первое из них состоит в том, чтобы ошибка восстанов- восстановления е = x(t) — x{t) обладала свойством lim e(t) = 0. C.37) Для этого нужно, чтобы характеристическое уравнение матрицы А—КС имело корни только с отрицательными вещественными частями. Выполняя элемен- элементарные вычисления, находим, что det(A — КС) = Л2 + (а + fci)A + ak\. Поэтому условие C.37) дает ограничения лишь на fci, да и то виде нера- неравенства. Можно потребовать больше. Например, наложить ограничения на время переходного процесса (оно должно быть примерно таким же, как и у объекта). В этом случае к\ и к^-, очевидно, будут выбираться при более жестких ограничениях. 3.6. Наблюдатели пониженного порядка. Покажем теперь, что при анализе системы C.1), C.30) можно построить наблюдатели с размерностью, меньшей размерности наблюдаемой системы. Наблюдатели такого типа назы- называются наблюдателями пониженного порядка. Основой для постановки задачи о построении наблюдателя пониженного порядка служат следующие соображе- соображения. Измерения компонент yi(t), г/2(?)? • • • •> Ут{^) вектора y(t) дают нам т ли- линейных соотношений C.30) для определения п компонент вектора x(t). Поэто- Поэтому для полного восстановления x(t) нужно еще п — т линейных соотношений относительно xi,... ,хп. Ограничимся анализом задачи для стационарной системы х = Ах + Вщ C.38)
214 Гл. 5. Управляемость, наблюдаемость, идентифицируемость у = Сх, C.39) где А, В и С — постоянные матрицы размерностей пхп, пхгитпхп соот- соответственно. Кроме того, будем предполагать, что rank С = га. Введем новый вектор р = {г/т+1,..., уп}, положив р = Сх, C.40) где С подобрана так, чтобы матрица Ci = была неособенной. Тогда можно записать = Liy + L2p. C.41) Если обозначить через р фазовую переменную наблюдателя вектора р, то можно записать х = Lxy + L2p. C.42) В соответствии с уравнением C.38) из C.40) получаем р = С Ах + СВи и, учитывая соотношение C.41), имеем р = САЬ2р + САЬ1У + СВи. В этом уравнении переменные у и и являются характеристиками внешних воз- возмущений. Если теперь по аналогии с предыдущими рассуждениями (см. п.5 на- настоящего параграфа) попытаться построить уравнение наблюдателя для р, то в правую часть уравнения дополнительно нужно добавить слагаемое K(t) [у — Сх] (см. C.28) и C.33)). Однако это ничего не дает, так как с учетом C.42) имеем у-Сх = у- CLxy - CL2p. В соответствии с формулами C.39) и C.41) получаем у = CL\y + CL2p. Поэтому у — Сх = у — у = 6, и слагаемое у = Сх никакой дополнитель- дополнительной информации не несет. Для ее получения продифференцируем соотноше- соотношение C.39) с учетом уравнения C.38) и соотношения C.41). В итоге будем иметь у = CAL2p + CALxy + СВи, и в качестве уравнения наблюдателя возьмем р = С[АЬ2р + ALX + Ви] + К[у - САЬ2у - СВи - CAL - 2р]. Если ввести переменную q = р — Ку, то из последнего уравнения получаем q= [E-K\CAL2q+[CA(L2K-L1)-KCA(L1-L2K)]y + [E-K\CBu. C.43) Это уравнение уже не содержит производную переменной у, и восстанавли- восстанавливаемое состояние определяется соотношением а = L2q(t) + (Li + L2K)y(t). C.44) Таким образом, в рассматриваемом случае понятие наблюдателя несколько расширяется. Применительно к системе C.1), C.30) оно теперь определяется следующим образом.
4- Свойства вполне управляемых стационарных линейных систем 215 Система \ z(t) = K(t)q + L(t)y + M(t)u является наблюдателем системы C.1), C.30), если для каждого начального состояния х@) системы C.1) существует начальное состояние до системы C.41) такое, что равенство q@) = go приводит к равенству z(t) = x(t) при t > to и всех u(t). Нетрудно видеть, что система C.43), C.44) является наблюдателем для системы C.38), C.39) именно в этом смысле. 4. Свойства вполне управляемых стационарных линейных систем 4.1. Линейные операторы и матрицы. При исследовании свойств уп- управляемых систем нам потребуются некоторые факты линейной алгебры и представления линейного оператора, отображающего одно евклидово прост- пространство в другое. Эти факты известны из курса высшей алгебры. Однако здесь целесообразно их напомнить, вводя необходимую терминологию и соответству- соответствующие обозначения. Обозначим через Л линейный оператор, отображающий Еп в Еш. Если в этих пространствах выбраны базисы {ei,..., еп} и {Д,..., /ш}, то очевидно, что т Л р . — > /7 7 • Г 7 7 — 1 Т) к=1 и, следовательно, линейное преобразование определяет матрицу /аи Л _ I "^-L а22 \ani аП2 которая обычно называется матрицей оператора Л в базисах {е^} и {/&}• Ее столбцы являются координатами векторов Aei, ..., Аеп относительно базиса {Л}. Пусть х — произвольный элемент из Еп и xi,... ,хп — его координаты в базисе {е^}, т. е. х = х\е\ + ... + хпеп. Обозначим через у образ х при отоб- отображении Л, т. е. у = Ах. Тогда координаты г/i,..., уш вектора у относительно базиса {Л} вычисляются по формуле у = Ах. Таким образом, оператор Л полностью определяет матрицу А, как правило, преобразования координат xi,..., хп в координаты г/i,..., ут. С другой стороны, задав базисы {е^} и {/&}, мы с помощью матрицы А однозначно определим оператор Л. Очевидно, что в паре других базисов этот оператор определяется, вообще говоря, другой матрицей. При анализе проблем управляемости особый интерес представляет случай, когда оператор Л отоб- отображает Еп в Еп и, следовательно, в каждом базисе определяется квадратной матрицей. Пусть А — матрица, определяемая оператором Л, Ъ — некоторый вектор из Еп, а векторы Ъ, АЪ, ..., Aq~4 D.1)
216 Гл. 5. Управляемость, наблюдаемость, идентифицируемость линейно независимы и существуют постоянные ao,ai,... ,ceg-i, J2a<2 ^ ® 12)? такие, что АЧ + а^хА^Ч + ... + ахАЬ + сео6 = 0. D.2) Целесообразно рассмотреть отдельно два случая: когда q = п и когда q < п. 1-й случай (q = п). Векторы 6, АЬ, ..., Ап~1Ь линейно независимы и мы берем их в качестве базиса. Тогда можно построить матрицу оператора Л в этом базисе. По указанному выше принципу столбцами этой матрицы будут координаты векторов АЬ, А2Ь, ..., АпЬ, записанные в базисе 6, АЬ,..., Ап~1Ь. Вектор АЪ в этом базисе имеет координаты {0,1, 0,..., 0}. Аналогично коор- координатами вектора А2Ъ будут {0, 0,1,..., 0} и т. д. вплоть до вектора Ап~1Ъ, у которого координаты будут иметь вид {0,0,...,1}. Чтобы выписать коор- координаты последнего вектора АпЪ, воспользуемся теоремой Гамильтона-Кэлли, согласно которой Ап + ап-гА71-1 + ... + сцА + а0Е = в, D.3) где в — матрица с нулевыми элементами, ец — г-й коэффициент характеристи- характеристического полинома матрицы A: det(XE — А) = Ап + am_iAm~1 + ... + а\\ + ао- Из формулы D.3) следует, что АтЪ = — aofr — а\АЪ— ... — an-iAn~1bJ и поэтому координатами вектора АП6 будут {—ao,— ai,...,— an_i}. Таким образом, матрица А в специальном базисе {6, АЬ,..., А71^} имеет вид /0 0 ... 0 -а0 \ 1 0 ... 0 -ai D.4) О 1 ... О -а2 \fd 0 ... 1 -ап- Пример 4.1. Пусть в некотором базисе заданы Ранг матрицы равен 2. Поэтому в качестве базиса в пространстве Е2 можно взять векторы Ъ = {1,2}. АЪ = {8,Щ. D.5) Характеристический многочлен матрицы А можно записать в виде D(X) = А2 - 7А - 2, и поэтому, записывая формулу D.3) в виде А2 — 7А — 2Е = в, имеем ao = —2, а\ = —7. Здесь Е — единичная матрица, а в — матрица с нулевыми элемен- элементами. ) Здесь и далее под в понимается вектор (матрица), все компоненты которого являются нулями.
4- Свойства вполне управляемых стационарных линейных систем 217 Следовательно, в соответствии с формулой D.4) представление матрицы А и вектора Ъ в базисе D.5) имеет вид Часто для исследования вполне управляемых систем вместо базиса используется базис {Zi,..., Zn}, определяемый формулами ~25' D.6) 1г = п1Ъ + а2АЪ + ... + а Z2 = «2^> + а3АЬ + ... + ап где ai, ..., ап — коэффициенты характеристического полинома D(\) = det(\E — А) = ап\п + a^iA™ + ... + а\\ + а0, ап = 1. Матрица N преобразования D.6) имеет вид (п\ U2 ... О"п—1 &п\ а2 а3 ... an 0 D<7) an 0 ... О О/ Вектор Ъ в базисе D.6) имеет представление Ъ = {0,..., 0,1}. Вычислим представление матрицы А в этом базисе. Первый столбец мат- матрицы в новом представлении получаем в виде Ali = (aob + а\АЪ + ... + апАпЪ) — а^Ъ и, в соответствии с теоремой Гамильтона — Кэлли, имеем Аналогично находим А12 = а2АЪ + а3А2Ь -\ \- anAn-1b = h - aiZn = {1,0,..., 0, -a^l, Д1 У У ^-^п—1 — ^п—2 ^n —2m? Таким образом, во втором специальном базисе {Zi,..., Zn} матрица А име- имеет вид /О 1 0 ... О \ О 0 1 ... О ^4= D.8) О 0 0 ... 1 \—ао —а\ —а2 ... —ап-\) 2-й случай (q < n). В этом случае векторы D.1) не являются базисом в Еп, и их можно дополнить до базиса выбором соответствующих векторов ci, ..., cn_g. Тогда система векторов 6, АЪ, ..., Aq~1h, с\, ..., cn_g является
218 Гл. 5. Управляемость, наблюдаемость, идентифицируемость базисом в Еп. Матрицу А в этом базисе строим обычным способом. Ее столб- столбцами будут АЬ, ..., Aqb, Ас\, ..., Acn-q. Так как в этом случае справедливо равенство D.2), то получаем А = 0 1 0 0 0 0 0 1 0 0 ... 0 ... 0 ... 0 ... 1 ... 0 -по —а\ -а2 -aq-i 0 * * * * * * * * * * ... * * * * ... * \о о о о V где символом * отмечены ненулевые элементы матрицы, соответствующие векторам ci, ..., cn-q. Числа ао, ai, ..., aq-\ являются коэффициентами урав- уравнения D.2). Пример 4.2. Пусть 3 -3 Ранг матрицы {Ъ,АЪ,А2Ъ} = равен 2 и, как легко проверить, = {1,0,0}. 1 D.9) -Ъ+-АЪ--А2Ъ = в. 4 8 Поэтому в качестве базиса можно взять линейно независимые векторы Ъ = {1,0,0}, АЪ = {3,-1,-1}, с= {0,0,1}. В соответствии с равенством D.9) вектор А2Ъ в новом базисе имеет пред- представление А2Ъ = {—8,6,0}. Далее находим Ас = {2,-2,0} и, следовательно, Ас = —4:Ь-\-2АЬ-\-2с, т. е. в новом базисе 6, АЬ, с вектор Ас имеет представление Ас = {—4, 2.2}. Поэтому в базисе 6, АЪ, с матрица А имеет вид А = 4.2. Система со скалярным управлением. Пусть управляемый про- процесс описывается уравнением х = Ах + Ьи D.10) со скалярным управлением и. Предположим также, что выполняется условие полной управляемости rank{6, АЪ,..., АП~1Ъ} = п.
4- Свойства вполне управляемых стационарных линейных систем 219 Тогда в базисе D.6) уравнение D.10) можно записать в канонической форме (см. также параграф 2 из гл. 2) z = 0 0 0 1 0 0 —а\ 0 1 0 —U2 0 0 1 ... -ап_ \ 1/ z + / 0 0 0 \1 D.11) где ец — г-й коэффициент характеристического полинома матрицы А. Дости- Достигается это с помощью преобразования х = {6, АЬ,..., An~1b}Nz, где матри- матрица N определяется формулой D.7). Теорема 4.1. Пусть линейная стационарная система D.10) вполне уп- управляема и (р(Х) = Ап + 7n-iAn~1 + ... + 71А + 7о — произвольный многочлен с вещественными коэффициентами. Тогда существует вектор k = {fci,..., кп} такой, что система х = (А — Ък*)х имеет ^р(Х) своим характеристическим полиномом. Доказательство. Не нарушая общности рассуждений, можно считать, что система приведена к виду D.11) и к ней применяется обратная связь u = -k*z. D.12) Тогда уравнение замкнутой системы D.11), D.12) можно записать в виде 0 \ 1 0 о \—ао — о Полагая . . . &П—\ rvn/ г = 1, 2, ..., п, z. получаем уравнение 7о —7i —72 • • • Для этого уравнения характеристическим полиномом является (р(Х). Полученный результат является принципиальным, и мы им будем широко пользоваться в дальнейшем. Он, в частности, означает, что с помощью об- обратной связи D.12) вполне управляемую систему со скалярным управлением можно преобразовать так, чтобы она имела заранее заданные корни характе- характеристического уравнения.
220 Гл. 5. Управляемость, наблюдаемость, идентифицируемость 4.3. Система с векторным управлением. Рассмотрим теперь управ- управляемый процесс, описываемый уравнением х = Ах + Ви, D.13) где и = {ixi,..., иг} — векторное управление, а х = {xi,..., хп} — фазовый вектор. Предположим также, что эта система вполне управляема, т. е. матрица М = {i имеет ранг, равный п. Здесь т — степень минимального многочлена матри- матрицы А и гт ^ п, 7П ^ п. Сначала систему D.13) приведем к каноническому виду. С этой целью мат- матрицу В представим в виде В = {&i,..., 6Г}, а в матрице М произведем пере- перестановку столбцов, приведя ее к виду Для выбора базисных векторов столбцы матрицы М будем перебирать в следующем порядке: Ь]_, АЪ\,..., AVl~1h\, до тех пор, пока не достигнем векто- вектора AVlh\, который представим в виде линейной комбинации всех предшествую- предшествующих векторов. Если окажется, что v\ = n, то в системе D.13) можно положить U2 = ... = иг = 0. В результате она примет вид х = Ах + Ъ\и. Для нее выполнено условие полной управляемости и можно воспользоваться результатами теоремы 4.1, т. е. в системе D.13) можно выбрать обратную связь так, чтобы линейная замкнутая система при этой обратной связи имела своим характеристическим полиномом заранее выбранный многочлен. Если v\ < n, то к выбранным столбцам Ь]_,..., AVlb\ будем последовательно присоединять столбцы &2> АЪ2, ... вплоть до AV2 62, который представим в виде линейной комбинации всех предыдущих векторов, начиная с Ъ\. Если v\ -\- V2 < п, то процесс продолжаем, присоединяя к выбранной системе последовательность векторов Ъ% и т. д. Предположим, что в итоге тако- такого перебора получим v\ -\- ь>2 + ^з = п и линейно независимой системой векторов в Еп является Ъъ ..., AVx~xh, Ъ2, ..., AV2~1b2, 63, ..., Аиз~1Ъ3. D.14) Тогда любой вектор х из i^n представим в виде линейной комбинации этих век- векторов. Значит, любой из оставшихся столбцов матрицы М можно представить в таком виде. Сделаем это в следующей форме: АщЬк = ао\кЬ+ ... + alJ[_11AUl~1b1 + аоз^з + • • • + а^-1,з^1/3~1&з- В базисе D.14) матрица А имеет вид А = где м е \е @ 1 0 1 0 0 1 в м2 в 0 0 0 в в м3 Л * 1 / 0 *\ 0 * 0 * \0 0 0 ... 1 */
4- Свойства вполне управляемых стационарных линейных систем 221 0 0 0 0 1 0 0 * 0 * 1 * * * ... * однако у каждой из этих матриц своя размерность. Аналогично определяется матрица В: /1 0 0 * ... *\ О 0 0 * ... в = \0 0 0 * ... */ Здесь символами * обозначены отличные от нуля величины, определяемые ко- коэффициентами аг^8 из формулы D.13). Пример 4.3. Рассмотрим управляемую систему, описываемую уравнением D.15) В этом случае характеристический полином матрицы А имеет вид А(А) = (А-2J(А-4), а минимальным многочленом является полином второй степени ф(Х) = (Л-2)(Л-4), т. е. в этом случае т = 2. Непосредственными вычислениями находим, что Ъ2 = АЬ2 = Условие полной управляемости здесь выполняется: rank{?>, АВ} = 3. Векторы Ь]_, Abi, Ь^ мож:но брать в качестве базиса. Тогда с учетом резуль- результатов, полученных при решении примера 4.2, можно записать каноническую форму управляемой системы: fzA /0 -8 -4 ?2 = 1 6 2 h \ 0 0 2 Она получается из системы D.15) преобразованием х = ^ т. е. Получив практический способ приведения системы к канонической форме, вернемся к доказательству утверждения для системы с векторным управлени- управлением аналогичного теореме 4.1. Необходимый результат получим в два этапа. Сначала построим управ- управление в виде обратной связи и = Кх такое, чтобы замкнутая система была управляема по одной координате, а затем воспользуемся теоремой 4.1.
222 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Итак, пусть в уравнении D.13) матрицы А и В удовлетворяют условию полной управляемости гапк{Б,..., А™'1 В} = п. D.16) Случай, когда в матрице В есть столбец Ъ^ такой, что rank{^, • • •, Arn~1bi} = n, уже рассмотрен. Поэтому будем считать, что система D.13) не управляема ни по одной отдельно взятой компоненте вектора и = {щ,..., иг}. Теорема 4.2. Пусть система D.13) вполне управляема, т. е. выполня- выполняется условие D.16). Тогда для любого ненулевого столбца bi матрицы В существует посто- постоянная матрица Ki такая, что система z + (A- BKi)z + ЬгЩ вполне управляема. Доказательство. Для определенности возьмем г = 1. Из условия D.16) следует, что в матрице М = {Б, АВ,..., Ат~1В} существуют п линейно неза- независимых столбцов. Пусть это будут векторы D.14), на базе которых построим неособенную матрицу Р = {Ьъ ..., AUl~1bub2j..., AU2~1b2j b3,... А»3-гЬз}, ^i+^2+^3 = п. D.17) Обозначим, далее, через е^ г-й столбец единичной матрицы размерности г х г и построим матрицу ь>1 — 1 v^ — l и3 S = {(WA -е2, оГ^О, -е3,0^~0} D.18) размерности г хп. Покажем, что матрица К\ = SP~X удовлетворяет условиям теоремы. В самом деле, из определения матрицы К\ следует, что т. е. КхЬх = 0, ..., КХА^-2ЬХ = в, KxA^~4x = -е2, ..., K1AUl~1b2 = -е3 ..., K1AUl~1b3 = в. Отсюда находим {А - BKJh = Abu (А-В К А^-Чг = Av^ bx - Вег = b2 + . (А - ВК^+Чг = (А - В Кг)(А - ВКХ)^ Ьх = АЬ2, + ..., В правых частях этих равенств символом +... отмечены слагаемые, пред- представляющие собой линейную комбинацию предшествующих векторов. Таким образом, ранг матрицы {bu (A — BKi)b\,..., (А — BKi)U3bi} совпа- совпадает с рангом матрицы Р и, следовательно, равен п. Поэтому система вполне управляема.
4- Свойства вполне управляемых стационарных линейных систем 223 Теорема 4.3. Если система D.13) вполне управляема, то для каждого полинома ф(Х) = 7o+7i^ + - • •+7n-i^n~1 + ^n существует матрица К такая, что ф(Х) является характеристическим полиномом уравнения х = (А- ВК)х. Доказательство. Пусть К\ — матрица, существование которой дока- доказано в теореме 4.2. Построим управление u{t) = v(t) — К\х, гле v(t) = —Rx, R = о о ... о rrii — пока неопределенные постоянные. Так как по предыдущей теореме гапк{Ьь (А - ВКг)Ьъ ..., (А - ВК^'Ч^ = п, то характеристический многочлен уравнения х = (А — ВК\ — bim)x мож:но выбрать произвольным за счет выбора строки т = {mi,..., тп} (см. теоре- теорему 4.1). Поэтому, полагая К = К± + R, получаем обратную связь в виде и = Кх такую, что замкнутая система D.13), D.17) имеет заданный характеристиче- характеристический полином. Пример 4.4. Пусть система задана уравнением Л /«Л D.19) Минимальный многочлен в этом случае имеет вид ^(А) = А(А — 1)(А — 2), и, следовательно, т = 3. Ранг матрицы М = {В,АВ,А2В} также равен 3. Поэтому выполнены условия теоремы 4.3. В качестве матрицы D.17) можно взять /1 О 1\ /1\ /0\ Р= 0 1 0\ ={bub2,b3}, bi= 0 , Ь2= \о о i) \о) \о Тогда очевидно, что v\ = v^ = ^з = 1? а матрица D.18) имеет вид /о о o^ 5=1 О О \0 1 0> и, следовательно, К\ = SP~X = S. Таким образом, 1 0 1 А-ВКг= ( -1 10), ( и2 ) = ( 1 0 0 ) ( х2 \ , D.20) 1 -1 1 U2 из > \ / 0 1 \ о 0 0 1 0 0 0
224 Гл. 5. Управляемость, наблюдаемость, идентифицируемость и rankjfri, {А — BKi)b\, {А — BKiJbi} = 3. Это означает, что система D.21) D.22) D.23) вполне управляема. Поэтому чтобы получить обратную связь которой соответствует замкнутая система - @) (kuk2,h) с заданным характеристическим полиномом, нужно воспользоваться теоре- теоремой 4.1. Пусть, например, требуется, чтобы характеристическим полиномом замк- замкнутой системы D.23) был многочлен ф(Х) = А3 + 4Л2 + 6Л + 4. D.24) Корнями уравнения ^(А) = 0 являются Ai = —2, А2 = — 1 + г, Аз = —1 — г. Для приведения системы D.23) к канонической форме будем пользоваться обозначениями . /1 0 1 \ А= I -1 10, Ъ= [0 1—11/ \0; Тогда det(XE — А) = a3A3 + a2A2 + aiA + a0, где а0 = —1, а\ = 2, а2 = —3, а3 = 1, и минимальный многочлен совпадает с det(Ai^ — А). Выполняем преобразование координат: и, следовательно, 0 -1 В результате система D.21) преобразуется к виду D.25) D.26) Введем обратную связь D.22), в которой коэффициенты ki определяют- определяются формулами (см. доказательство теоремы 4.1) кг = 7г-1 — о>%-ъ i — 1, 2, 3, где 7г ~~ коэффициенты полинома D.24): 7о = 4, 7i — 6, 72 = 4. Таким образом, к\ =5, к^= 4, /сз = 7, а управление D.22) принимает вид щ = -bzi - 4z2 - 7z3. D.27)
5. Асимптотические идентификаторы 225 Подставляя это управление в систему уравнений D.26), получим уравнения замкнутой системы в переменных zi,Z2-,z3\ О 1 О О 0 1 -4 -6 -4 С помощью преобразования D.25) эту систему запишем в исходных фазовых переменных х /хг\ ( -6 -2 -15 \ (хх\ D.28) Аналогично определяем управление D.27) в исходных координатах: ил — —Чтл А- 9то — 1 вто (A 9Q^ Совокупность управлений D.20) D.29) определяют обратную связь в сис- системе D.19): ' -7 2 -16 \ (xi и2 | = | -1 0 0 \\х2 0-1 0 / \х3/ которая определяет замкнутую систему D.28) с заданным характеристическим полиномом D.24). 5. Асимптотические идентификаторы 5.1. Идентификатор со скалярным входным сигналом. Изучение идентификаторов начнем с наиболее простого случая, когда система является стационарной и на ее вход подается скалярный сигнал х = Ах + Ьи, у = с*ж, t > 0. E-1) Здесь А — матрица размерности п х n, b и с —векторы. Кроме того, известно входное воздействие и = u(t). Считается также известным значение функции y(t) в каждый конкретный момент времени t. Оно получается в результате наблюдения за поведением системы. Значения вектора х = x(t) в этой системе неизвестны и подлежат определению. Определение 5.1. Линейная динамическая система, выходом который является сигнал х, называется асимптотическим идентификатором систе- системы E.1), если \\х — х\\еп —> 0 при t —> оо. Существует множество практически интересных задач, при решении кото- которых требуется находить такие идентификаторы. Мы не будем их описывать, а тем более анализировать. Ограничимся лишь теоретическими вопросами, а именно займемся решением задачи построения асимптотического идентифм- катора. Ясно, что при построении такого идентификатора необходимо учитывать всю информацию, которую мы имеем о системе E.1). Во-первых, он как дина- динамическая система должен описываться уравнением относительно х, учитыва- учитывающим матрицу А, и сигнал и = u(t) должен входить в это уравнение в том же виде, что и в E.1). Во-вторых, в уравнении следует учесть рассогласование в наблюдаемых величинах у — у = с*(х — х).
226 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Таким образом, поскольку идентификатор является линейной системой с выходом ж, то ее можно записать в виде ? = (A-lc*)x + l(y-y)+bu(t), y = c*x. E.2) В первом уравнении этой системы вектор / нужно выбрать так, чтобы обеспе- обеспечить выполнение условия \\x{t) — x{t)\\ —> 0 при t —> сю. Если в системе E.2) сделать замену переменной, положив х = х — х, то с учетом уравнения E.1) получим уравнение идентификатора в виде & = (А-1с*)х. E.3) В результате задача построения асимптотического идентификатора сис- системы E.1) свелась к определению вектора I такого, чтобы тривиальное решение уравнения E.3) было асимптотически устойчивым. Теорема 5.1. Пусть задана линейная идентифицируемая стационарная система E.1). Тогда можно построить ее асимптотический идентифика- идентификатор с произвольно заданным набором собственных чисел Ai,..., Лп матрицы А — /с* {комплексные числа, очевидно, могут входить в этот набор только попарно сопряженными). Доказательство. Так как система E.1) идентифицируема, то в силу принципа двойственности система z = A*z + cv E.4) вполне управляема. Поэтому в пространстве Еп существует базис, в котором пара матриц А* и с имеют вид (см. D.8)) /О 1 0 ... О \ О 0 1 ... О О 0 \-а0 -а 0 -а2 с = /,0\ О О где (р(р) = рп + an-ip n~1 + ... + — характеристический многочлен матри- матрицы А. В этом базисе матрица А и строка с* запишутся так: О 0 0 ... О -1 с* = О 0 0 ... 1 -an-J Пусть теперь cpi = рп -\- (Зрп~1 + ... + (Зп — произвольный многочлен п-й степени. В соответствии с теоремой 4.1 в системе E.4) можно выбрать регу- регулятор v = -l*z E.5) такой, чтобы система z = (A-cl*)z E.6) имела (р(р) своим характеристическим многочленом. Для этого, как следует из доказательства той же теоремы 4.1, числа ^, определяющие вектор I, следует брать по правилу k = Рг-1 ~ OLi-l, г = 1, 2, ...,П, E.7) где щ — коэффициенты характеристического полинома матрицы А*. Так как матрицы А* — cl* л А — 1с* имеют один и тот же характеристический полином, то теорема доказана.
5. Асимптотические идентификаторы 227 Пример 5.1. Рассмотрим управляемую систему E.1) вида ±i = 2xi + 4х2, х2 = 3xi + 5х2 + и, у = xi + 2х2, и построим его идентификатор в форме E.2), где вектор I = {Zi, Ь} определяем исходя из требования, что матрица А — 1с* должна иметь своим характеристи- характеристическим полиномом ср(р) = р2 + 8р + 16, т. е. она должна иметь собственные числа р\ = р2 = —4. Здесь A=(l f)> с = {1,2}, /31=8, /32 = 16. Выписываем двойственную систему E.4): /о <Л 51 =251 +352+ V, 52 = 451 + 552 + 2^, ^* = ( 4 5/' С={1'2}' E'8) и приводим ее к канонической форме (см. пример 4.1). В результате получаем г)=(° где ai и а2 - коэффициенты характеристического полинома матрицы А*, за- записанного в виде det(pE — А*) = р2 + aip + a2. Следовательно, ai = —7, a2 = —2, и преобразование координат принима- принимает вид и система E.8) приводится к канонической форме (см. уравнение E.4)) 'о iN В этом уравнении используем обратную связь (см. E.5)) v = —l\Z\ — /2^2? в которой постоянные 1\ и I2 определяются согласно соотношениям E.7): h = 18, 12 = 15. Таким образом, замкнутая система E.6) в этом случае принимает вид ii W о ] z2j \ -16 -? Для построения уравнения E.3) следует в уравнении E.10) вернуться к исход- исходным переменным, используя преобразование E.9). Выполнив соответствующие операции, получим '¦ х /-16 9/2^ /V ^-32 Поэтому уравнение E.3) в рассматриваемом случае имеет вид -16 -32 9/2 8 ; \х2у Его характеристическим полиномом является (р + 4) . Однако для построения идентификатора нам нужно выписать уравнение E.2): ±Л _ / -16 -32 ^ (Xl\ , fl8\ .. , @ х2) ~ \ 9/2 8
228 Гл. 5. Управляемость, наблюдаемость, идентифицируемость 5.2. Асимптотический идентификатор со многими входами. Рас- Рассмотрим управляемую систему х = Ах + Вщ У = Сх, E.11) в которой постоянные матрицы А, В и С имеют размерности п х n, n x r и р х п соответственно. По аналогии со случаем одного входа рассмотрим за- задачу построения идентификатора, на вход которого подаются выходы систе- системы E.11) и, кроме того, сигнал рассогласования между выходом системы E.11) и идентификатора. Таким образом, уравнения идентификатора берутся в виде х = Ах + Ви + L[y(t) - Cx(t)], y(t) = Cx(t). E.12) Задача состоит в отыскании матрицы L размерности п х р такой, чтобы ||х — х\\еп —> 0 при t —> оо, где х = ж — х. E.13) При этом так же, как и в предыдущем случае, предполагается, что исход- исходная система идентифицируема. Согласно принципу двойственности это озна- означает, что система s = A*s + C*v E.14) управляема, т. е. rank {С*, А*С\ ..., А*™-1*?*} = п, E.15) где т — степень минимального многочлена матрицы А*. Вводя в уравне- уравнения E.12) замену E.13), получим уравнение относительно рассогласования между состоянием системы и выходом идентификатора: ? = (A-LC*))x. E.16) Задача, таким образом, сводится к определению матрицы L такой, чтобы уравнение E.16) было асимптотически устойчивым. Теорема 5.2. Если выполнено условие E.15), то для линейной систе- системы E.11) можно построить асимптотический идентификатор E.12), ха- характеристический многочлен которого совпадает с заданным полиномом Для доказательства этой теоремы достаточно воспользоваться тем, что ха- характеристические полиномы матриц А — LC и А* — C*L* совпадают, а для управляемой системы E.14), согласно теореме 4.2, можно построить обратную связь v = — Ls такую, чтобы замкнутая система 5 = (A*-C*L> E.17) имела заданный характеристический полином. Пример 5.2. Рассмотрим управляемую систему E.18)
5. Асимптотические идентификаторы 229 Построим асимптотический идентификатор типа E.12), характеристи- характеристическим полиномом которого является <р(р) = Р3 + 4р2 + 6р + 4. E.19) Его нулями являются pi = —2, р2 = — 1 + г и рз = — 1 — i- В уравнении E.12) для рассматриваемого случая (hi h У31 ^32у где числа Z^fc должны быть подобраны так, чтобы <р(р) был характеристическим полиномом матрицы А — LC. Выписываем систему E.14): \ /A / 0\ (^) E.20) 3 -1 -1 -3 5 3 2 -2 0 Эта система рассмотрена в примере 4.3 и можно воспользоваться получен- полученными там результатами. Прежде всего отметим, что здесь rank{?>, AB} = 3 и в качестве матрицы E.17) можно брать / 1 3 0 Р = {ЪЪАЪЪЪ2} = 0-10 у 0 -1 1 а матрица E.18) имеет вид (у\ = 2, v2 = 1) 0 0 0 ч0 1 0 Поэтому 0 0 0 0-10 Определяя "частичную" обратную связь по формуле 4X-!S)(;)^b «"» систему E.20) приводим к виду '*Л /3-3 2 \ /зЛ /1\ 5 -2 Ь2 + 0 U. E.22) 4 0 ) \ss) \0) Управление v\ выбираем в виде vi = — hsi — I2S2 — /3^3? E.23) где /i, /2 и ^з долж:ны быть такими, чтобы система E.22) с управлением E.23) имела своим характеристическим полиномом ср(р) (см. E.19)). Вводя обозначения 3 -1 -1 -3 5 4 2 \  ' 0 / /1 Ъ= 0 А= -1 5 -2 , Ь= 0 , А(р) =
230 Гл. 5. Управляемость, наблюдаемость, идентифицируемость находим, что rankifr, АЪ, А2Ъ\ = rank , . _ , \0 -1 7 У E-24) . А(р) = азр + «2Р +aip + ao? где а3 = 1, а2 = -8, ai = 22, а0 = -20. E.25) В силу условия E.24) система E.22) вполне управляема. Поэтому обратную связь строим по методике, изложенной при доказательстве теоремы 4.1. Сначала преобразованием s2 = [Ь, АЬ, А2Ь] Ks3j или, что то же самое, приводим систему E.22) к канонической форме /qA /0 1 0 \ /9lN «2 = 0 0 1 \\q2 | + | 0 | ы, E.26) Kq3j \ 20 -22 6 ) \q3/ Обратную связь строим в соответствии с теоремой 4.1 (см. ее доказатель- доказательство) vi = —kiqi — /с2<?2 — &з<?37 причем кг выбираем по правилу кг = Ъ-i ~ai-ii г = 1, 2, 3, где 7г — коэффициенты полинома E.19), т. е. 7о = 4, 71 — 6, 72 = 4, а числа ао, сц и а2 определяются формулами E.25). Таким образом, vi = —24^i + 16^2 — 12^з, E.27) уравнение замкнутой системы управления E.26), E.27) имеет вид , ° l ° ^ \ _ I 0 0 х «з/ \ _4 _б _4 а его характеристическим полиномом является функция <р(р), определяемая формулой E.19). В исходных переменных si, 52 и s3 это уравнение принимает вид ' -9 25 18 \ /sA 5 -2 s2 . E.28) 4 о у ЦУ При этом обратная связь E.27) запишется в виде /0 1-1 vi = -B4,-16,12) 0 1-2 \ 1 -3 -2 Следовательно, Vi = -1251 +2б52 - 16S3.
6. Задача синтеза ограниченных управлений для автономных систем 231 Из формул E.21) и E.22) получаем обратную связь для исходной системы уравнений E.20) 12 -36 16 которая с помощью этой обратной связи приводится к виду E.17), где 12 -26 16 0 1 0 Сама система E.17) имеет вид E.28), и ее характеристический полином совпа- совпадает с заданным полиномом E.19). Определив таким образом матрицы L и A—CL, мы можем теперь построить искомый асимптотический идентификатор системы E.17) в форме E.12) 6. Задача синтеза ограниченных управлений для автономных систем 6.1. Общие теоремы. Пусть управляемый процесс описывается уравне- уравнением 13) x = f(x,u) F.1) где х — n-мерный фазовый вектор, и — r-мерный вектор управления из мно- множества М. В дальнейшем будем предполагать, что М — ограниченное подмно- подмножество пространства Ег. Ставится следующая задача управления. Требуется построить управление и = и[х] Е М такое, что траектория х = x{t), определяемая уравнением х = f(x,u[x\) и начинающаяся в произволь- произвольной точке хо некоторого множества Q(x\), за конечное время переходит в точку х\. Множество Q[x\) либо совпадает со всем пространством Еп (например, в линейных системах), либо является односвязной областью в нем. Не нару- нарушая общности, можно считать (это мы и будем делать в дальнейшем), что х\ = 0. Предлагаемый метод решения задачи основывается на том, что управ- управление и [х], решающее задачу, связывается с некоторой функцией 0(х), которую в дальнейшем будем называть функцией управляемости. Теорема 6.1. Допустим, что на любой паре элементов {(xi,ui), (х2,М2)}, удовлетворяющих условиям 0 ^ р ^ Цх^Ц ^ pi, щ Е М, г = 1,2, для вектор- функции f(x,u) уравнения F.1) выполняется условие Липшица i) - f(x2,u2)\\ < L(p,p1){\\x1 -x2\\ + ||ui -u2||}. 13) В этом параграфе кратко излагается содержание работы: Коробов В.И. Общий под- подход к решению задачи синтеза ограниченных управлений в задаче управляемости // Матем. сб. - 1979. - Т. 109A51), № 48.
232 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Пусть, далее, существует функция управляемости в(х) такая, что: 1) в(х) > 0, причем в(х) = О тогда и только тогда, когда х = О; 2) в(х) непрерывна всюду в рассматриваемой области и непрерывно диф- дифференцируема в ней, за исключением, быть может, точки х = О; 3) существует управление и[х] такое, что в области Q = {х : в(х) ^ с, с > 0} 14) справедлива оценка п Вв —ЛОг^К-/^1-1/^*), F.2) г=1 °Хг где а > 0, C > 0 — фиксированные постоянные, а для функции управления справедлива оценка ||u[xi] -и[х2}\\ < L2(p,pi)\\x1 -х2\\, где 0 < р < ||xi|| < pi гл х^ G Q, г = 1, 2. Тогда данное управление и = гх[х] переводит систему из любой точки х\ в начало координат за время Доказательство. Получим сначала оценку для производной по време- времени от функции #(ж), составленной в силу уравнения движения х = f(x,u[x\) на траектории, которая начинается в точке хо G Q и порождается одним из управлений, удовлетворяющих условиям теоремы. Очевидно, что г=1 г или, учитывая условие F.2), 9{x{t)) < -pe1~1/a(x(t)). Так как справедливо неравенство 9(х) > 0 при ||х|| > 0, то, разделив обе части последнего неравенства на a61~1/a(x(t)), получим Выберем теперь е > 0 и ро > 0 так, чтобы открытый шар 5(ро) с центром в начале координат и радиусом ро содержал в себе область G, а точка жо ле- лежала за пределами замкнутого шара S(s), т. е. должно выполняться нера- неравенство е < \\xo\\. Тогда в силу условий теоремы для любых двух точек х\ и х2, лежащих в области Q — S(s), будет выполняться условие Липшица \\f(x2,u(x2)) -/(xi,u(xi))|| < Li(?,po)(l + L2(?,po))\\x2 -xi||. Значит, решение можно построить на ненулевом интервале [0,Т]. Такое реше- решение оказывается единственным и удовлетворяет условию Второе неравенство в этих соотношениях следует из того, что (см. F.4)) 0(хо) ^ —C/а, т. е. траектория направлена внутрь области Q и в дальнейшем она не может покинуть ее, не пройдя через начало координат. ) Не нарушая общности, можно считать, что постоянная с выбрана таким образом, что для любого х ? Q справедливо неравенство ||ж|| ^ pi-
6. Задача синтеза ограниченных управлений для автономных систем 233 Проинтегрировав обе части неравенства F.3) в пределах от нуля до т, получим -т. F.4) а Обозначим через Т(е) = sup {r} по всем тем значениям т, при которых точка х{т) остается вне сферы S(e). Тогда из последнего неравенства получаем Т(г) < ^'"(хо). Более того, ||х(Т(б:))|| = ?, так как в противном случае решение можно про- продолжить еще на больший отрезок времени, что противоречит определению ве- величины Т(е). Далее, так как Т(е) монотонно возрастает при стремлении е к нулю и ограничена сверху, то существует предел и, кроме того, lim ||ж(?)|| = 0. Тем самым теорема полностью доказана. Рассмотрим теперь неуправляемую систему х = ф) F.5) с начальным условием х@) = xq. Следующая теорема дает достаточные усло- условия того, чтобы траектория этой системы из любой точки хо некоторой облас- области Q попала в начало координат за конечное время. Теорема 6.2. Пусть выполнены следующие условия. 1. Существует число ро > 0 такое, что при 0 < р < ||х|| < ро вектор- функция (р(х) удовлетворяет условию Липшица H^(^i) - ^2)|| < L(p)\\xi ~ x2\\. 2. Существует функция 0(х), удовлетворяющая условиям: а) в(х) ^ 0, причем в(х) = 0 только при х = 0; б) 0(х) непрерывна всюду и непрерывно дифференцируема за исключением, быть может, точки х = 0; в) ^@) = 0; г) при х G Q, где Q = {х : в(х) ^ с, с > 0} (число с таково, что множе- множество Q ограничено), справедливо неравенство г=1 г при некотором а, 0 < а ф сю. Тогда: 1) если а < оо, то траектория х = x(t) уравнения F.5), начинающаяся в произвольной точке хо Е Q при t = 0, оканчивается в точке х\ = 0 в некоторый момент времени Т{х$), причем Т{х$) ^ —01^а(хо); 2) если а = оо 15); mo lim x(t) = 0. t^oo ) Этот случай рассмотрен в книге: Беллман Р. Динамическое программирование. — М.: ИЛ, 1960.
234 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Для доказательства первого утверждения достаточно заметить, что для производной по времени от функции в(х) в силу уравнения F.5) на траекто- траектории х = х(?), выходящей из точки хо, выполняется неравенство 0(x(t)) < -^1/«(ж(*)). Последующее доказательство дословно совпадает с доказательством теоре- теоремы 6.1. Доказательство второй части теоремы приводить не будем. 6.2. Задача синтеза одномерного управления в линейной системе. Рассмотрим теперь применение полученных выше результатов к линейным ав- автономным системам. Здесь предлагается процедура отыскания ограниченно- ограниченного синтезированного управления, решающего задачу управляемости, которая была сформулирована в начале параграфа. При этом ограничимся чисто при- прикладной стороной решения задачи. Опишем схему построения искомого управ- управления, опуская соответствующие доказательства. Начнем с задачи синтеза одномерного управления, которую для краткости будем называть одномерной, хотя этот термин и недостаточно точен. Пусть процесс описывается уравнением х = Ах + Ъи, где \и\ ^ d, А — матрица размерности п х п, Ъ — n-мерный вектор. Известно, что эта система невырожденным преобразованием координат (см. пункт 4.2 настоящей главы) zi = (c,Ai-1x), г = 1, 2, ...,п, F.6) где вектор с определяется из условий (с, А*~гЬ) = О, г = 1, 2, ..., п - 1, (с, Ап~гЬ) = 1, приводится к виду i = Zi+ъ г = 1, 2, ..., п- 1, Здесь pj — коэффициенты характеристического полинома матрицы А. Если принять правую часть последнего уравнения за новое управление v, то задача сводится к исследованию управляемости системы ^ = Zi+ъ zn = v, i = 1, 2, ..., п - 1, в ограниченной области Ы < d2, d2<di^\pk\, г = 1, 2, ...,п. Если теперь наложить на управление v ограничение < d г=1 то управление и будет удовлетворять исходному ограничению \и\ ^ d. Управление v, которое переводит точку в начало координат, задается в ви- п де линейной формы v = 2^aizii причем так, чтобы нулевое решение замкну- г=1 той системы было асимптотически устойчивым. Для этого достаточно чис-
6. Задача синтеза ограниченных управлений для автономных систем 235 л a di взять такими, чтобы все корни характеристического полинома были от- отрицательными, например, можно положить их равными соответствующим ко- коэффициентам полинома р(А) = П(А + с^), где di — положительные числа. Далее, по квадратичной форме W = — J2 zf строится положительно опре- определенная квадратичная форма такая, что ее производная по времени, состав ленная в силу исходной сис- системы, равна W. Процедура построения такой формы описывается в учебни- учебниках по теории устойчивости16). Ее коэффициенты определяются из системы ' fij = fju i<3, г = 1, 2, ..., n; j = i + 1, 2, ..., n; difin + djfin + fi-l,j(l - 6ц) + Д,-1A - - г = 1, 2, ..., n; j = г + 1,...,п; ^ В качестве функции управляемости выбирается положительное решение при z ^ 0 следующего уравнения: где матрица F\ имеет вид Можно показать, что уравнение F.8) при z ф 0 и достаточно больших значениях а имеет единственное положительное решение, причем а функция 0(z) непрерывна при всех z и дифференцируема при z ф 0. Выберем теперь управление v в виде l F.10) г=1 и покажем, что, замыкая нашу систему этим управлением, мы можем переве- перевести ее из любого начального состояния в состояние z = 0. При этом управле- управление будет удовлетворять положенным ограничениям при подходящем выборе параметров а и uq (cm. соотношения F.8) и F.9)). Чтобы в этом убедиться перепишем уравнение F.8) в виде {+2)/azlZj = 0 и продифференцируем его по времени с учетом F.7), F.8) и F.10): ^>/(#)+rK#,z1,...,zn)=0, где Ф' — производная функции 2ао#1+Bп-1)/а - У fiie(i+3-Wazizi, ) См., например: Малкин И. Г. Теория устойчивости движения., — М.: Наука, 1965; Меркин Д. Р. Введение в теорию устойчивости движения. — М.: Наука, 1987.
236 Гл. 5. Управляемость, наблюдаемость, идентифицируемость а функция 7/, как нетрудно проверить, имеет вид г=1 Отсюда легко находим Для оценки производной в введем в рассмотрение матрицу где а — достаточно большое число, чтобы функция Fa была положительно определенной (такой выбор а возможен, так как при достаточно большом а коэффициенты квадратичной формы (Fa'z, z) мало отличаются от коэффици- коэффициентов положительно определенной формы (Fz,z)). На сфере J2 z2 = S2 имеем следующую оценку: Amind ^ \* Zi Z) ^ Amax() j где A^in и А^ах — наименьшее и наибольшее собственные значения матри- матрицы Fa. Из этого неравенства следует, что ^ 2 Поэтому и ^ — и = —ри , р = — . rain max Возьмем управление п — .е-(„-<+1)г. FЛ1) г=1 и покажем, что при подходящем выборе xq это управление удовлетворяет ис- исходным ограничениям. Для этого оценим значение линейной формы v на по- поверхности уровня функции 0(z) = с, где с > 0, а 0(z) определяется форму- формулой F.8), т. е. рассмотрим значение функции F.11) на поверхности L, опреде- определяемой равенством п S^ fiJrj~2 l + B*-l)A* (a 1 Для нахождения экстремальных значений функции F.11) при условии F.12) воспользуемся методом Лагранжа. Необходимые условия экстремума дают с(п+г-1)/а 7-12 п г — 1, Z, . . . , П. Умножая обе части полученного равенства на z^ суммируя полученный ре- результат по всем г и учитывая соотношение F.12), в соответствии с форму- формулой F.11) будем иметь
6. Задача синтеза ограниченных управлений для автономных систем 237 А п ^2 -1)A»»zi. F.13) 1,3 = 1 Вводя обозначения а = {ао, ai,..., ап}, где ец определяются из F.12), и 6={cn/azb...,cBn-1)/azn}, получаем векторное соотношение ^-i7^ = а и, следовательно, Л С учетом введенных обозначений соотношение F.12) перепишем в виде (Fb,b) = c1+D^-1)/«. Таким образом, множитель Л после подстановки Ъ из F.13) в последнее уравнение определяется формулой Из соотношений F.13) теперь можно получить оценку для v: Положим для определенности с = 1 и займемся выбором значений для ао, при которых выполняется неравенство \и[х]\ ^ d\. Для этого перейдем к старым переменным х и и. В этих переменных функция управляемости удо- удовлетворяет уравнению 1 п 0al+Bn-l)/a = 2a° t,J=l и синтезированное управление имеет вид и[х] = ^alQ(-nJrl-1)/(X(c,Al-1,x) + ^pl(c,Al-1x). F.14) г=1 г=1 Заметим, что соответствующее множ:ество элементов {z : 6(z) ^ 1} пере- переходит (см. F.6)) в множество {х: в(х) ^ а}, где — однозначно определяемое число. В этом множестве управление и[х] удовлетворяет неравенству г=1 г=1 Можно показать, что для переменных Zi в области {ж : 0(х) ^ а} справед- справедлива оценка I, < [2(п-г)+3]/Bа) где Amin — наименьшее собственное число матрицы F. Окончательная оценка для и [х] получается в виде ._-.
238 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Здесь введены обозначения г=1 Из неравенства F.8), в частности, следует, что при достаточно малых зна- значениях ао в рассматриваемой области будет иметь место неравенство и[х)\ <db Оно выполняется, если положить &о ^ —1Г> тш • F.16) При этом из любой точки хо, принадлежащей области {х : 6(х) ^ ^}, управле- управление F.14) переводит систему в начало координат за конечное время Т(х0) < aX^J1'1^. На этом построения, необходимые в случае линейной системы с одномер- одномерным управлением, заканчиваются. Пример 6.1. Рассмотрим уравнение х = Ах + Ъи, F-17) где Требуется построить управление и[х], которое переводит любую точку фа- фазовой плоскости х\Ох2 в начало координат за конечное время. В соответствии с изложенным приведем систему к канонической форме, вводя замену zi = (с, Аь~1х\ г = 1,2, где с находим из условий (с, Ъ) = = 0, (с,АЬ) = 1. Решая эту систему, находим, что с = A, —1), а система F.17) принимает вид z\ = 2:2, z^ = — V\z\ — P2Z2 + и, где pi ж Р2 — коэффициенты характеристического полинома матрицы А, т. е. р\ = —1, ар2 — ~2. Вводим новое управление v по формуле v = zi -\- 2z^ + u. Пусть ^2 — некоторое полож:ительное число, удовлетворяющее условию 1 1 d<2 ^ v^i 1 = й- Тогда в области {zi : zi ^ 6^2, i = 1,2} управление и будет удовлетворять условию \и\ ^ 1, если потребовать, чтобы \v\ = d, где d = 1 — с^. Строим, далее, регулятор v = a\Z\ -\- CL2Z2, где ai и а2 выбираются из усло- условия асимптотической устойчивости системы i\ = 22, ?2 = «1^1 + «2^2- Для этого достаточно взять ai = —2, a2 = —3. Тогда корнями характеристического уравнения этой системы будут Ai = —1, А2 = —2. Для нахождения коэффициентов квадратичной формы V необходимо ре- решить систему уравнений (см. F.7)) /i2 = /21? /12 + /21 = 1, -2/22 - З/12 + /и = О, -3/22 + /21 = -1.
6. Задача синтеза ограниченных управлений для автономных систем 239 Отсюда находим, что /12 = /21 = /22 = 1/2, /11 = 5/2. Уравнение для опреде- определения i/\ имеет вид: det I ~ V 2Л ~ V = 0. 2 — 1/ 1 — 1/ Тогда получим i/i = 3 > — 1, т. е. а ^ 1 — 1/л. 2 При а ^ 1 матрица а + 1 2а + 1 се 2се положительно определена, т. е. можно положить а = 1. Таким образом, для рассматриваемого примера получаем F_f5/2 l/2\ а_Г-2\ р_Р I 1 /9 1/9/' \ Ч / ' Соотношения F.15) и F.16) позволяют получить оценку для а$. Так, при q = 1 в качестве ао можно взять любое число, удовлетворяющее неравенству ^2л2л . Поскольку Amin = 1, отсюда следует, что последнее неравенство принимает вид ао ^ 32. Поэтому в качестве ао можно взять ао = 2. Теперь можно получить соотношение для функции управляемости в(z) (см. F.8)), которая должна быть положительным решением уравнения 4e = {F1@)z,z) = ±№+20z1z2+<P4), или, в другой форме, 8<94 - bz\ - 2Qzxz2 - Q2z\ = 0. F.18) Управление v берем в виде (см. F.10)) Если \zi\ ^ d2 < 1/3, то построенное управление переводит систему в на- начало координат за конечное время, а для функции управления и выполнено неравенство |гх| ^ 1. Замечание 6.1. Управление в форме F.10), где в — положительное ре- решение уравнения F.18), вообще говоря, переводит систему в начало координат из произвольной точки фазовой плоскости, но при этом не всегда будет вы- выполняться условие \и\ ^ 1, хотя условие ограниченности для v может и выпол- выполняться. Так, в рассмотренном примере всегда выполняется неравенство v ^ 16. Отметим также, что если исходная система имеет вид Zi = Zi+i, г = 1, 2, ..., п - 1, zn = u,
240 Гл. 5. Управляемость, наблюдаемость, идентифицируемость то построенное для нее управление в форме синтеза по приведенной методике решает задачу о переводе системы в нуль за конечное время из любой точки n-мерного пространства, и управление будет ограниченным по модулю. 7. Управление линейными системами при неполных измерениях Анализируя свойства вполне управляемых линейных систем х = A(t)x + B(t)u, G.1) мы установили, что для каждой из них можно построить управление вида u(t,x) = -F(t)x, G.2) которое переводит систему из любой точки фазового пространства в начало координат за конечное время (см. теорему 1.5). Было также показано, что для стационарной идентифицируемой системы х = Ах + Ви можно построить асимптотический идентификатор с заданным распределени- распределением корней характеристического полинома. В случае нестационарной системы, когда информацию о векторе x(t) можно получить, измеряя вектор y(t) = C(t)x(t), G.3) удается построить уравнение наблюдателя (см. C.33)) х = [A(t) - K(t)C(t)]x + K(t)y(t) + B(t)u, G.4) определяющее вектор х. Этот вектор обладает двумя замечательными свойствами. Во-первых, из того, что x(to) = x(?o), следует, что x(t) = x(t) при t ^ to и при всех и = u(t). Во-вторых, матрицу K(t) можно подобрать так, чтобы ошибка восстановления e(t) = x(t) —x(t) стремилась к нулю при t —> сю. Поэтому естественно исходить из того, что если состояние системы G.1) недоступно для измерения, то вмес- вместо G.2) следует использовать закон управления u(t,x) = -F(t)x, G.5) где F(t) имеет такой же вид, как и в G.2). Подставляя это управление в уравнения G.1) и G.4), получаем замкнутую систему (x = A(t)x-B(t)F(t)x, [?= [A(t) - K(t)C(t) - B(t)F(t)]x + K(t)C(t)x. ' Таким образом, в этом случае замкнутая система, получаемая соединением объекта и регулятора, представляет собой линейную систему размерности 2п, где п — размерность управляемого объекта. Проанализируем теперь свойства устойчивости замкнутой системы G.6). С этой целью рассмотрим состояние системы x(t) и ошибку восстановления e(t) = x(t) — x(t). Вычитая из G.1) уравнение G.4), находим, что ё = [A(t) - K{t)C{t)]e. G.7) Далее, подстановкой х = х — е в G.2) получаем u(t,x) = -F(t)[x-s}, G.8) и, следовательно, из уравнения G.1) будем иметь х = [A(t) - B{t)F{t)]x + B(t)F(t)s. G.9)
7. Управление линейными системами при неполных измерениях 241 Таким образом, ошибка восстановления будет стремиться к нулю, если можно найти матрицу K(t), при которой система G.7) становится асимптоти- асимптотически устойчивой. Как показано выше, это удается сделать по крайней мере в частных случаях (см. теорему 4.3). Аналогично устанавливается возможность выбора матрицы F, которая делает систему G.1) асимптотически устойчивой. Так как система G.6) полу- получается из системы, описываемой уравнениями G.8) и G.9) с по- помощью неособенного линейного преобразования, то из получен- полученного результата следует, что по крайней мере в частных слу- случаях систему G.6) можно сде- Н ^ лать асимптотически устойчивой а б путем соответствующего выбора матриц K(t) и F(t). Рис 5 7 1 В научной литературе имеют- имеются публикации по отысканию до- достаточных условий, при которых эти матрицы делают систему G.6) асимпто- асимптотически устойчивой. Однако содержание этих исследований здесь приводить не будем. Ограничимся анализом примера. Пример 7.1. Рассмотрим перевернутый маятник, изображенный на рис. 5.7.1, а. Ось маятника монтируется на тележке, которая может пере- перемещаться в горизонтальном направлении. Тележка приводится в движение небольшим мотором, который в момент времени t прикладывает к тележке горизонтальную силу u(t). На рис. 5.7.1, б представлены силы и перемещения. В момент времени t горизонтальное перемещение оси характеризуется функци- функцией s(t), а угловое отклонение маятника — функцией (/?(?);, т — масса маятника. В момент времени t = 0 к маятнику приложены силы: тд — вертикальная сила тяжести, приложенная к центру маятника, горизонтальная сила H(t) и верти- вертикальная сила v(t) — сила реакции оси маятника. Здесь д — ускорение силы тяжести. Используя закон Ньютона, можно записать d2\s(t) + lsm.(p(t)] /ч , т л,9 ^^ = H(t), 7.10 at2 го *[«»?(*)] at2 J —%¦ = lv(t) sin if - IHU) cos ip, G.12) at2 , *- d2s . ч , T. ч _ ч ds , ч M —— = u(t) - M(t) - F(t) —. G.13) Трение учитывается только при движении тележки (см. уравнение G.13)), F — коэффициент трения. Чтобы упростить уравнения, предположим, что мас- масса п маятника значительно меньше массы М тележки, что позволяет прене- пренебречь горизонтальной реакцией H(t) на движение тележки. В результате вме- вместо уравнения G.13) получим уравнение t G-14)
242 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Исключая H(t) и v(t) из уравнений G.10)—G.12), получим (J + ml2)Cp — mg sin cp + mis cos cp = 0 или, что то же самое, 0 1 / Рф — — sin (/? + —s cos (/? = 0. (^-15) Здесь величина L определяется формулой J + mZ2 ttiZ и называется эффективной длиной маятника. Таким образом, при сделанных предположениях движение системы описы- описывается уравнениями G.14) и G.15). Решение задачи управления будем исследо- исследовать, анализируя поведение системы в малой окрестности неподвижной точки ср = s = и = 0 путем линеаризации исходной системы, Разлагая sin cp и cos (p в ряды Маклорена и ограничиваясь лишь слагаемыми не выше первой степени, вместо уравнения G.14) получим уравнение ф ю Л 5 = 0. G.16) L L Вводя новые переменные Х\ = S. X2 = 5, Хз = <?, Ж4 = <?, систему уравнений G.13), G.16) можно записать в канонической форме Коши 0 1 0 0 \ / 0 0 -F/M 0 0 М-1 х- \ 0 о 0 1Ж+ 0 ||х- 0 F/{ML) 1/L 0 / \ -(ML) Предположим теперь, что перемещение s(t) тележки и угол ^ можно изме- измерять в любой момент времени t. Поэтому для наблюдаемой переменной можно записать (см. G.3)) '10 0 0\ ,.v 0 1 о)Х^ Уравнение наблюдателя (см. G.4)) можно записать в виде fci2 0\ /ku /с12\ / 0 \ и, ki2-g/L 0/ \A;4i W \-(LM) G.18) а компоненте обратной связи берем в виде (см. G.5)) u(t, х) = /i#i + /2^2 + /з^З + /4^4- G-19) Здесь имеет смысл отметить следующее важное обстоятельство. Поскольку в соответствии с определением наблюдателя решение x(t) должно удовлетво- удовлетворять требованию: если х@) = х@), то x(t) = x(t), t > 0 при всех u(t), где x(t) есть решение уравнения G.17). Поэтому естественно считать, что коэффици- коэффициенты kij в уравнении G.18) должны быть также постоянны. Способ выбора таких коэффициентов изложен выше при исследовании асимптотических идентификаторов. Там же рассмотрен иллюстративный при- пример. Вводя обратную связь G.19), мы можем требовать, чтобы замкнутая си- система обладала лишь свойством асимптотической устойчивости. В этом случае
8. Адаптивное управление 243 коэффициенты fi достаточно брать постоянными исходя из требования, чтобы корни характеристического уравнения замкнутой системы G.17)—G.19) имели отрицательные вещественные части. Однако если требовать, чтобы управление переводило систему в заданную точку (например, в начало координат) за ко- конечное время, то в этом случае коэффициенты fi будут функциями времени. 8. Адаптивное управление Рассматривая различные задачи, мы исходили из того, что об управляемом объекте имеется полная информация в том смысле, что полностью определена его математическая модель. В частности, при анализе конечномерных линей- линейных систем предполагалось, что процесс описывается уравнением где f(t) и и = u(t) характеризуют входные воздействия, а матрицы A(t) и B(t) считаются известными. Задание A(t) и B(t) полностью определяет объект управления. Однако оказывается, что во многих практически важных случаях следует отказываться от этого предположения. Нужно рассматривать задачи управле- управления при условии, что структура математической модели уточняется в процессе управления путем использования пробных управляющих сигналов. Таким об- образом, в подобных ситуациях управляющее воздействие используется не только для достижения какой-либо заданной цели управления, но и для уточнения ма- математической модели управляемого объекта. При этом математическая модель должна, очевидно, уточняться лишь в той минимальной мере, в которой это требуется для достижения поставленной цели управления. Оказалось, что подобный подход целесообразно использовать, опираясь на идеологию управляемых случайных процессов, задаваемых, например, се- семейством условных распределенных вероятностей, зависящих от управления. Неопределенность задания объекта состоит в том, что семейство условных ве- вероятностей содержит неизвестные параметры или функции. Класс семейств условных распределений (т. е. класс управляемых случайных процессов) огра- ограничивается указанием возможных пределов изменения этих параметров или функций. Алгоритм адаптивного управления опирается на информацию о состоянии управляемого процесса, поступающую по каналам обратной связи, и обеспе- обеспечивает достижение заданной цели управления каждым объектом класса, хотя остается неизвестным, каков в точности объкт-элемент этого класса. Следо- Следовательно, заданный алгоритм можно считать алгоритмом адаптивного управ- управления лишь тогда, когда указаны цель управления и класс К управляемых объектов таких, что этот алгоритм приводит к выбранной цели каждый объ- объект из выбранного класса. В процессе адаптивного управления оценка параметров производится на основе наблюдения за поведением объекта. Оценки могут быть статистически- статистическими, и поэтому без ущерба для достоверности результата нельзя заранее указать продолжительность оценивания. Отсюда следует необходимость ставить задачу адаптивного управления на неограниченном интервале времени. К этому же следует добавить, что момент времени, начиная с которого объект оказывается близким к назначенной це- цели управления, определяется будущей эволюцией объекта, и его наступление
244 Гл. 5. Управляемость, наблюдаемость, идентифицируемость не может наблюдаться. Отсюда вытекает принципиальный вывод о том, что любой наблюдатель не может утверждать, что рассматриваемая адаптивная система управления к какому-то моменту времени уже исчерпала свои возмож- возможности адаптации, и управление объектом с этого момента нужно выполнять, опираясь уже на иные принципы и цели. Главное содержание математической теории адаптивного управления со- состоит в выводе достаточных условий адаптивности управления. При этом не только доказывается существование алгоритма адаптивного управления, но и приводится их описание для различных классов объектов и целей управления. Необходимые условия существования адаптивного управления известны лишь для небольшого числа случаев. Теория адаптивного управления посвящена использованию и разработке методов решения различных классов задач, связанных с созданием и экс- эксплуатацией систем управления различного типа (самонастраивающиеся и обу- обучающиеся системы, системы экстремального регулирования и т. п.). Поэтому ее можно рассматривать как один из важных разделов общей теории управле- управления. Здесь мы ограничимся более или менее полным анализом лишь некоторых частных задач. 8.1. Постановка задачи. Рассмотрим движение управляемой системы, определяемое соотношениями х = /(?, х, и), x(t0) = х°, t> t0, (8.1) где х G Еп, и G Ег. Задан также класс допустимых управлений и критерий оптимальности [ 4>{x(t),u(t),t)dt, (8.2) в котором момент времени Т может быть заданным или свободным. Если в системе (8.1) не учитываются случайные возмущения, то мы имеем задачу об оптимальном управлении. Она состоит в том, чтобы найти функцию и = u(t), минимизирующую функционал (8.2). Для решения таких задач используют- используются методы теории оптимального управления детерминированными система- системами, которые рассматриваются в настоящем учебнике в отдельных главах (см. гл. 6 и 7). Наличие случайных возмущений в системе делает ее стохастической. Од- Однако это не препятствует постановке и решению задачи оптимизации. Адап- Адаптивный вариант задачи означает, что функция / в (8.1) содержит неизвестные параметры и функции, а внешние возмущения в системе обычно ненаблюдае- мы. Если неопределенность в системе нетривиальна и не может быть устранена в начальный момент, то возникают трудности в формулировке цели адаптив- адаптивного оптимального управления, которые состоят в следующем. Для сбора недостающей информации требуется время. Поэтому в течение более или менее продолжительного отрезка времени управления происходит поиск сведений об объекте, и при этом, очевидно, управляющее воздействие не может выбираться с целью минимизации критерия оптимальности. В этих условиях нет оснований рассчитывать на минимизацию критерия оптимально- оптимальности, поскольку нет необходимой информации об объекте. Более того в такой ситуации нет оснований говорить и о достижении какого-либо значения крите- критерия оптимальности. Если за время адаптации to ^ t ^ r завершилось изучение
8. Адаптивное управление 245 объекта при управлении u(t), то функционал (8.2) принимает вид fT где величина в 1\ известна и определяется формулой (p(x(t),u(t),t)dt, /to в которой x(t) — решение задачи Коши (8.1) при и = u(t). Время to ^ t ^ т, в течение которого происходит адаптация системы, заранее указать невозмож- невозможно. Поэтому в задачах адаптивного управления процесс следует рассматривать на бесконечном промежутке времени, а в качестве критериев оптимальности брать функционалы такие, чтобы было возможно ослаблять роль управлений, используемых для целей адаптации на раннем этапе функционирования систе- системы. Одним из таких критериев является функционал 1= lim 1 f ^(x(t),u(t),t)dt, 1 -^OO 1 Jq который не зависит ни от начальных условий, ни от способа управления при малых значениях Т. В случае стохастической системы вместо / следует брать функционал h = lim / M[ip(x(t),u(t),t)]dt, где М — математическое ожидание. Здесь нет возможности изложить более или менее подробно проблемати- проблематику адаптивного управления. Она достаточно обширна. Разнообразны и весьма содержательны методы исследования адаптивных систем. С ними можно по- познакомиться по специальной литературе, список которой приводится в конце книги. Ограничимся тем, что для иллюстрации рассмотрим лишь две интерес- интересные задачи, в которых использованы разные математические методы. 8.2. Экстремальные регуляторы. В инженерной практике управления технологическими процессами встречаются задачи максимизации "функции качества" f(u). Известные методы ее решения физически реализованы в ви- виде специализированных устройств — оптимизаторов, работающих в реальном времени с откликами управляемого объекта на внешние воздействия. Труд- Трудности возникают, когда нет возможности наблюдать эти отклики или когда изменяются во времени качественные зависимости процесса и наблюдаемые косвенные его показатели. Рассмотрим одну из подобных ситуаций. Пусть задано дифференциальное уравнение Tz + z = f(u), t>0, (8.3) с начальным условием z@) = z°, где z — скалярная фазовая переменная, Т (Т > 0) — постоянная времени, f(u) — функция скалярного управления и, а z° — заданная постоянная. Предположим, что f(u) дважды непрерывно дифференцируема, вогнута (т. е. f(Xui + [1 — X)u2) ^ Xf(ui) + A — X)f(u2) при всех 1хи0<Л<1)и дости- достигает максимума. Вид функции / и значение постоянной Т неизвестны. Этими предположениями определяется класс W объектов управления вида (8.3).
246 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Задача состоит в том, чтобы по заданному е > 0 и, наблюдая лишь решение z(t), найти управление и = u?(z), при котором выполняется условие (u)-s (8.4) при всех t > t?. Число t? называется временем адаптации системы. Из (8.4) следует, что lim - / r^oo T Jo f(ue(z)) dt > max /(«) - s. Чтобы упростить решение задачи допустим, что max/(u) = /@)=0, /(-то) =/(то). U Для построения u?(z) используем следующую процедуру. Выберем начальное значение и0 этого управления, а затем его значения будем определять из уравнения u = ±v, t>0. (8.5) Смену знака производной в этом уравнении в дальнейшем будем называть реверсом, и выполнять его будем по следующему правилу. Если предыдущий реверс был выполнен в момент времени t1 и при t > t1 управление возрастает (т. е. u{t) = и^1) + v(t — t1)), то на следующем этапе t2 < t < t3 оно убывает (u(t) = u(t2) — v(t — t2)) и т. д. Пусть t1 — момент предыдущего реверса, а 5 — некоторое заданное положительное число. Тогда момент времени t2 следующего реверса определяется соотношением t2 = min И : max (z(t) - zlt1)) = 5}. (8.6) t>t2 гг<г<г2 t>t2 Это означает, что, начиная с момента времени t1, нужно наблюдать за фазовой переменной z(t) до того момента, пока z(t) не станет меньше на вели- величину S по сравнению с максимальным значением z(t) на отрезке [t1,^2]. Таким образом, хотя управление определяется моментами реверса, выбираются эти моменты в зависимости от состояния системы. Поэтому запись управления в форме и = = u(z) является естественной и исследования динамики управления объектами из класса W будем вести в плоскости (z, и). Уравнения (8.3) и (8.5) приводятся к виду (8.7) аи и, следовательно, С 7/. >> Г 1 ГП ( I -^т\ dr\ или, после интегрирования по частям, z(u) = f(u) + ехр {т^} [z - /(«) exp л dt -1 л Анализ этого уравнения проведем для случая, когда — = v . Аналогич- аи х dt -1 ным образом исследуется ситуация при — = — v . аи
8. Адаптивное управление 247 Свойство 8.1. С возрастанием u(t) справедливы неравенства — < 0 при z > /, — = 0 при z = /, — > 0 при z < /. аи du du Эти неравенства непосредственно следуют из уравнения (8.7) (со знаком "+" при производной). Продифференцировав еще раз это уравнение, получим du2 vT du Следовательно, ^<0 при z<f-vTf, du fl=0 при z = f-vTf, duz du ^| >0 при z>f-vTf. du2 du Непосредственно из формулы (8.8) следует, что где через д(и) обозначено выражение, в квадратных скобках. Замечание 8.1. Производная ——^ обращается в нуль не более чем в одной duz точке. В самом деле, полагая z-f + vTf=g( du из формулы ((8.9) получаем, что Так как по предположению функция f(u) вогнута, то функция д(и) монотонно убывает при возрастании и. Свойство 8.2. Интегральная кривая уравнения (8.3), определяемая уп- управлением, заданным соотношением (8.5) и точками реверса, удовлетворяю- удовлетворяющими условию (8.6), пересечет график функции f(u) при движении из любой начальной точки. Доказательство. Если начальная точка (г,и) расположена под гра- графиком функции f(u), то в начале движения точки z(t) выполняется усло- условие z — f < 0 и согласно следствию 8.1 выполняется неравенство dz ~Г >0' du которое будет сохраняться до тех пор, пока величина z — / будет оставаться от- отрицательной. Это означает, что с возрастанием и функция z = z(t) возрастает до тех пор, пока z(t) не пересечет график f(u).
248 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Предположим теперь, что начальная точка (г, и) находится над графи- графиком функции f(u), а движущаяся точка z(t) начинает перемещаться вправо от (г, и) и и < 0 (см. рис. 5.8.1). Поэтому сначала переменная и изменяется в соответствии с уравнением (см. (8.5)) й = v, а траектория z(u) при этом описывается уравнением (см. (8.7)) ^ = f. (8.10) du dz Если до первого реверса мы имеем z > /, то, по свойству 8.1, —— < 0. Реверс du происходит в момент времени t = ?1, когда вы- выполняется условие (см. (8.6)) z = z$ — z(u(ti)) = 5. При этом оказывается, что от первого до второ- dz го реверса имеем —— > 0. Но в первом случае и и Рис. 5.8.1 показать, что ufe) < п. Пусть du возрастает, а во втором убывает. До тех пор, пока линия z(t) не достигнет графика z = /, выполня- выполняется условие z-f>0. В момент времени t^ когда выполняется ра- равенство z(u(ti)) — z(u(t2)) = #, происходит сле- следующий реверс. Используя уравнение (8.7), легко а = min (z — /). U<U<U2 Тогда из уравнения (8.10) получим п < и < ui, и\ < и < U2- Отсюда получаем, что U2 < п. Аналогично доказывается, что щ > щ и U2 > и\. Продолжая этот процесс, получаем последовательность точек реверса (uki Zk), обладающих свойством z$ — z\ = z\ — Z2 = ... = 5, U2 < п, щ > ui, Таким образом, амплитуда отклонения абс- абсцисс точек реверса от ее начального значения п возрастают, а значения Zi при этом убывают с по- постоянным шагом 5. Значит, неизбежно наступит момент времени, когда произойдет пересечение траектории z(u) уравнения (8.6) с линией z = f(u) (рис. 5.8.1) Проследим теперь поведение интегральной кривой после ее встречи с линией z = f(u) в точ- точке Po(uo,zo). Предположим, что эта точка нахо- находится на левой ветви кривой z = f(u), т. е. щ < 0 (как это изображено на рис. 5.8.1 и 5.8.2). Сначала и, согласно следствию 8.1, спра- Рис. 5.8.2 при и > щ выполняется условие f(u) > ведливо неравенство -— > 0. Следовательно, z(u) — возрастающая функция. CLU Это возрастание продолжается до тех пор, пока в точке (ui,zi) траектория z = z(u) не достигнет вновь линии z = f(u).
8. Адаптивное управление 249 В момент времени t = т, когда эти линии пересекутся (z(u(r)) = f(u)) (точку пересечения обозначим через Р\(и\, z\)), будет выполняться равенство dz —— = 0, а затем с возрастанием и функция zlult)) начнет убывать. Поэтому аи в точке Pi(u\,zi) функция z = z(u) достигает своего локального максимума, а следующая за Pq(uo,zo) точка реверса P'{u',zr) лежит вне области, ограни- ограниченной кривой z = f(u) (см. рис. 3.8.2). При этом выполняется равенство (см. (8.6)) -z' = S. Следующий реверс управления не может произойти до пересечения траектории z(u(t)) с кривой z = f(u). Это непосредственно следует из соотношения (8.10) и равенства f(u') — /(щ) = 5. Как отмечалось выше (и показано на рис. 5.8.2), функция z = z(u) убывает при z > /(u), и, следовательно, при z > f(u) усло- условие (8.6) не может выполняться. В итоге движущаяся точка z(u(t)) пересекает кривую z = f{u) в некоторой точке P2{u2,z2). Координата и2 зависит от щ, и эту зависимость можно найти, используя формулу (8.8). Из этой формулы, в частности, следует, что U V П РУЛ } I d.U = du - exp XvTi du = 0, ехр {"^}[/(u2)"/(wl) + s] = ~ ?! ^г1 ехр \-*т. Эти соотношения можно рассматривать как функциональные зависимости между uo, и', и2 и и\: Fi(uo, и') = 0, Fi(uo, ^х, ^2) = 0, Fs(uf, и2, щ) = 0. Отсюда получаем систему уравнений относительно дифференциалов du 1 dF1 - duo + тгу ^Х = 0^ ди' dF2 7 , 5F2 --— аи + —-jr 1 = 0, (8.11) dF3 i 1 2 исключая из которой du' и du2, можно получить зависимость между du\ и du§. Эту зависимость, очевидно, можно представить в форме дифференциального уравнения du\ / 2 \ — = <р{ио,и ,и ,ui). ащ Функцию (р можно получить в явном виде, непосредственно решая урав- уравнения (8.11). В итоге полученному уравнению можно придать вид du\ — du .12) du
250 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Так как 0 < и' < и2, то выражение в квадратных скобках этого уравнения по- положительно. Очевидно также, что ff(u°) > 0 и f'{ui) < 0 (рис. 5.8.2). Поэтому из уравнения (8.12) следует, что вдоль его интегральной кривой выполняется неравенство du° ' и функция u\ = ui(u°) монотонно убывает. Отсюда, в частности, следует, что уравнение = -и0 имеет по крайней мере одно решение. В самом деле, нулю, (8.13) при значениях и0, близ- близких выполняется у, венство и\ > \uQ\. При больших значениях \уР нера спра- справедливо противоположное неравенство и\ ^ |^°|- Поэтому, в силу непрерывности функции ui(u°) ре- решение уравнения (8.13) существует. Ему соответ- соответствует замкнутая траектория системы (8.7), сим- симметричная относительно оси z (рис. 5.8.3). Указан- Указанные на этом рисунке точки с абсциссами и и w свя- связаны соотношениями Рис. 5.8.3 gi(u,w) = 0, 92{u,w) = 0, U4) которые непосредственно следуют из формулы (8.8). Здесь введены следующие обозначения: 92{u,w) = ^ju /(*) ехР {^} ds - 2[/И - 6} sh ^. Для кривой, определяемой уравнением gi(u,w) = 0, имеем dw f(w) — f(u) — 5 du ' ff(w) expix(exp{—u} — expw)' и аналогично для кривой g2(u,w) = 0 dw (expгу + exp{-ix})[/(гу) - /(гх) - 5} du Так как ch и > 1, то (exp{—и} — exp и) sh и df(w) du > 1. Ii2{u,w) expix(exp{—u} — ex.pw) ch и Поэтому система уравнений (8.8) имеет не более одного решения при и > 0 и w > 0. Выше было показано, что хотя бы одно решение существует. Значит, функция и3 = и3(и0) монотонно убывает и существует единственное решение уравнения и3(и0) = —и0. Полученный результат можно сформулировать следующим образом.
8. Адаптивное управление 251 Свойство 8.3. Траектория z = z(u(t)) системы (8.5) и (8.7) в плоскости (г, и) неограниченно приближается к предельному циклу, который однознач- однозначно определяется предельными точками (заданными уравнениями (8.14)) и не зависит от начального состояния. Следующее свойство легко устанавливается из того, что решением систе- системы (8.14) при 6 = 0 является и = 0, w = 0. Отсюда по непрерывной зависимости решения от 6 находим, что при 5^0 соответствующие решения стягиваются в точку и = w = 0. Получаем следующий вывод. Свойство 8.4. При произвольных v, T и / имеем lim /(«(*)) = -?i(r), где 0 < ?i(t) —> 0 при 5 —> 0. Величина е\ зависит от параметра v и ее стрем- стремление к нулю не является равномерным относительно v @ < v < оо). Перечень приведенных свойств 8.1-8.4 полностью характеризует рассмат- рассматриваемую самонастраивающуюся систему (8.2) как объект управления. Однако для полноты анализа следует сделать некоторые замечания. По предположению постоянная Т в уравнении (8.3) неизвестна, не задана также функция f(u) (о ней известно лишь, что она дважды непрерывно диф- дифференцируема, вогнута и достигнет максимума в точке и = 0). Таким образом, речь идет не об одном уравнении вида (8.3), а о целом классе уравнений. Его мы обозначим через W. Цель управления состояла в том, чтобы при неизвестной функции / по наблюдаемым значениям z{u{t)) вывести траекторию z{u{t)) в ^-окрестность максимума функции f(u). Процедура выбора адаптивного управления основа- основана на построении точек реверса с помощью соотношений (8.5) и (8.6), в которых величины 6 и v выбираются произвольно и независимо. Поэтому речь идет не о каком-то конкретном алгоритме, а о целом его (двупараметрическом) классе, который обозначим через К. Таким образом, получен результат применения класса К алгоритмов адап- адаптации класса W самонастраивающихся систем. Тогда свойство 8.4 можно сфор- сформулировать применительно к классам К и W. Теорема 8.1. Алгоритм К обладает е-оптимальным свойством для класса объектов W в том смысле, что для каждого объекта из W и любого е > 0 найдется 5? > 0 такое, что при 5 < 5? справедливо неравенство lim f(u(t)) > max/(ix) - е, t^oo и где число 5? определяется формулой (8.6). 8.3. Адаптивное управление с эталонной моделью. Общая задача адаптивного управления с эталонной моделью формулируется следующим об- образом. Задана эталонная модель объекта управления в виде уравнения Z = /о(*,2,2/), в которой z — фазовый вектор в Еп, а у — управляющий вектор из Ет. Функ- Функция /о задана. При этом предполагается, что надлежащим выбором допусти- допустимых управлений у = y(t, z) можно добиться того, чтобы соответствующее ре- решение системы
252 Гл. 5. Управляемость, наблюдаемость, идентифицируемость обладало заданным свойством. Например, чтобы тривиальное решение z = О этого уравнения было асимптотически устойчивым. Поведение реального объекта описывается уравнением х = f(t,x,y,u), в котором х — n-мерный фазовый вектор, и — r-мерный вектор адаптивного управления. При этом свойства функции / заранее не известны. Наблюдать можно лишь за z(t) и x(t), а управление y(t,z) считается заданным. Требуется подобрать управление адаптации и = u(t) такое, чтобы вели- величина e(t) = x(t) — z(t) стремилась к нулю при t —> сю. Из определения функции e(t) следует, что она является решением уравнения ё = y(t,e,z,y,u), где ис- использовано обозначение y(t, е, z, у, и) = /(?, e(t) + z(t), y(t, z),u)- /0(t, z, y(t, z)). В этой общей постановке задача пока не решена. Здесь рассмотрим ее част- частный случай. Пусть уравнение эталонной модели является линейным и имеет вид z = Az + By, (8.15) где А и В — заданные постоянные матрицы размерностей п х п и п х г соот- соответственно, причем тривиальное решение уравнения z = Az асимптотически устойчиво. Задано также начальное условие z@) = z°. Допустимые управления у = y(t) ограничены и непрерывны при 0 < t < оо. Класс реальных объектов управления зададим уравнением x = A(t)x + B(t)u, (8.16) в котором A(t) = А + A\t) + A°(t), B(t) = В + B\t) + B°(t). (8.17) Здесь А и В — те же матрицы, что и в уравнении (8.15), непрерывные матрицы А1^) и В1^) характеризуют параметрические возмущения в реальной системе, а матрицы A°(t) и B°(t) представляют собой управления и могут выбираться из класса дифференцируемых и ограниченных по нормам ij ik матриц. Класс объектов вида (8.16) с матрицами указанного свойства будем обозначать через К (А, В), в котором матрицы Аи В определяют эталонный объект. Наблюдаемыми величинами, которые могут служить аргументами управ- управляющих алгоритмов, выбираются ж, у, z, A(t) и B(t). Цель управления объек- объектами из К (А, В) состоит в том, чтобы выбором матриц А1^) и -B1(t) добиться выполнения равенства lim [x(t) - z(t)] = 0. При этом не требуется сближение порождающих их уравнений. Для этого тре- требовалось бы еще выполнение равенств lim [A\t) - A°(t)] = 6>, lim [B\t) - B°(t)] = 6>, t—>oo t—>oo где через О обозначается вектор с нулевыми компонентами. Для решения задачи вводим обозначения e = x-z, H1=A1-A°, H2 = B1-B°, U1=A°(t), U2 = B°(t)
8. Адаптивное управление 253 и примем за управляющие параметры U\ и U2. Тогда уравнения (8.15) и (8.16), а также соотношения (8.17) приводят к следующей системе уравнений: ё = As + Нгх + Н2у, H1 = U1+A1, H2 = U2 + B\ (8.18) с некоторыми начальными условиями в момент времени t = 0. Рассмотрим случай, когда параметрические возмущения А1 и В1 постоян- постоянны. Тогда уравнения (8.18) принимают вид е = Ае + Н^х + H2(t)y, Hl = U1, Н2 = U2, (8.19) и, следовательно, важно получить условия, обеспечивающие асимптотическую устойчивость нулевого решения системы (8.19) по переменным е для класса объектов К (А, В). Теорема 8.2. Управление вида иг = -цРех\ U2 = -1лРеу\ (8.20) где а — положительная постоянная, а положительно определенная матри- матрица Р является решением уравнения A*P + PA = -Q (8.21) (Q — положительно определенная матрица), обеспечивает устойчивость ну- нулевого решения г = в, Н\ = 0 и Н2 = 0 системы (8.19), а таксисе асимпто- асимптотическую устойчивость по переменной е в классе объектов К (А, В). Доказательство. В качестве функции Ляпунова возьмем функцию V = s*Ps где Sp С — след матрицы С. Вычислим ее полную производную в силу урав- уравнений (8.19): V = /х[(е*А* + х*Щ + у*Щ)Ре + Ре{Ае + Нгх + Н2у)} + + Sp[f/ - 1Я* + Н1и1Н2Щ + ^2Я*]. Так как матрицы HiU* и f/^Я* являются сопряженными, то Sp[f/i#* + Я1[/* + игЩ + Я1С/ - 1*] = 2Sp[f/^* + [/2Я*]. Из того, что для любых векторов а и Ъ справедливо равенство а*Ъ = Sp[ab*], имеем х*ЩРе = Sp[HlXe*P*} = Sp[Pex*H^} = e*P*HlX, у*ЩРе = е*Р*Я2у. Поэтому V = 1ле*{А*Р + РА)е + 2Sp[(/uP?x* + U^H* + {p,Pey* + и2)Щ]. Отсюда согласно соотношениям (8.20) и (8.21) окончательно получаем V = -ixe*Qe. Эта функция относительно переменных ?, Н\ и Н2 постоянно отрицатель- отрицательна, а относительно переменной е является определенно отрицательной. Поэто- Поэтому согласно теореме Ляпунова утверждение теоремы полностью доказано. Подводя итог полученному результату при стационарном параметрическом возмущении, приходим к выводу, что формула (8.20) определяет управления,
254 Гл. 5. Управляемость, наблюдаемость, идентифицируемость обеспечивающие нужные качества замкнутой системы, которая в этом случае принимает вид е = As + Н\х + Н^у, Н\ = —\iPsx*, Н^ — —^Р^У*, где матрица Р определяется уравнением (8.21). Поэтому при выбранной эта- эталонной модели (8.15) и реальных объектах (8.16) со стационарными параметри- параметрическими возмущениями из класса К (А, В) мы получили класс W(Q) алгорит- алгоритмов адаптивного управления, определяемый всевозможными определенно по- положительными матрицами Q, каждая их которых с помощью уравнения (8.21) определяет матрицу Р. Так как по предположению корни характеристическо- характеристического уравнения матрицы А имеют отрицательные вещественные части, то, как доказывается в теории матриц17), это уравнение имеет единственное решение, определяемое формулой Р= exp{A*s}Qexp{As}ds. (8.22) Jo Эта матрица также является определенно положительной. Тем самым постав- поставленная задача для линейной системы со стационарными параметрическими возмущениями решается полностью. Не только указывается класс адаптивных управлений, но и каждой матрице Q из этого класса ставится в соответствие единственная матрица Р (по формуле (8.22)), которая в свою очередь по фор- формулам (8.21) определяет искомое адаптивное управление. Завершая анализ рассмотренных задач отметим, что изложенный здесь ма- материал является незначительной частью обширной теории адаптивного управ- управления18). 9. Управляемость линейных параболических систем Будем рассматривать управляемый процесс, который описывается линей- линейным дифференциальным уравнением параболического типа с) у b(x) — +Cu = f(t,x), 0<?<Т, xeG, (9.1) где х = {xi,..., xn}, G — ограниченная открытая область в Еп с гладкой (или с кусочно гладкой) границей S, а оператор С определяется формулой Коэффициенты Ъ(х\ aij(x) и с(х) предполагаются ограниченными и измери- измеримыми функциями и, кроме того, выполняется условия эллиптичности операто- оператора С : существует положительная постоянная а2 такая, что в замкнутой об- области G = G + S справедливы неравенства п п п ij=l г=1 г=1 и с(х) ^ 0. На границе S области G решение уравнения должно удовлетворять граничному условию ди — + а(х)и = g(x)p(t), х е S, 0 < t < Т, (9.2) ) См.,например: Беллман Р. Введение в теорию матриц. — М.: Наука, 1969. ) См., например: Срагович В.Г. Адаптивное управление М.: Наука, 1981.
9. Управляемость линейных параболических систем 255 в котором а(х) является ограниченной, измеримой и неотрицательной функ- функцией д(х) G L2(S), p(t) G /2@, Т), ^ — конормаль к поверхности ?. Функ- Функция p(t) рассматривается как управление. Начальное условие задано в виде и@,х) = (р(х), (9.3) где ф(х) — заданная функция из L,2(G). 9.1. Построение решения краевой задачи при фиксированном уп- управлении. При указанных условиях задача (9.1)-(9.3), вообще говоря, не име- имеет классического решения. Однако, она имеет единственное обобщенное (сла- (слабое) решение, которое определяется следующим образом. Пусть Q(tiM) = Gx(t1,t2), 0 < h < t < t2 < T, Q = Q@,T), (t,x) e Q(h,t2), S(ti,t2) — боковая поверхность цилиндра Q(t\1t2I a W2(Q) — класс функций u(?, x), квадратично суммируемых по цилиндру Q и имеющих также квадра- квадратично суммируемые обобщенные производные по пространственным координа- координатам Xi, . . . ,ХП. Под обобщенным (слабым) решением краевой задачи (9.1)-(9.3) понимает- понимается функция u(t,x) из класса W2(Q), которая: 1) для почти всех t\ и ^2 из @,Т) и при любой функции Ф(?, х) G W2(G) удовлетворяет интегральному тождеству ди дФ , + / (аи - др)Ф dS = 0; 2) удовлетворяет начальному условию (9.3) "в слабом смысле," т. е. г lim / [u(t, x) — ср(х)]ф(х) dx = О G при любой функции ф(х) из L/2(G). Как показал В. И. Плотников19), так определенное решение краевой за- задачи существует и единственно при указанных выше ограничениях на извест- известные функции, определяющие эту задачу. Такое решение может быть представлено в виде ряда Фурье по обобщенным собственным функциям vm(x) соответствующей задачи Штурма-Лиувилля, ас- ассоциированной с исходной краевой задачей. Эта задача состоит в том, чтобы найти нетривиальные функции v(x) G W2(G) и такие действительные значе- значения Л, чтобы выполнялось интегральное тождество г Г ™ dv дФ 1 f f / > ац(х) \-с(х)уФ\ dx-\- / a(x)vФdS = X / bvФdx^ J I dxi QXj J J J G lj=1 S G какова бы ни была функция Ф(х) G W2(G). Она решается прямыми метода- методами вариационного исчисления, если в качестве минимизируемого функционала взять квадратичное выражение ) Плотников В. И. Энергетическое неравенство и свойство переопределенности систе- системы собственных функций. // Изв. АН СССР. 1968. — т. 32, вып. 4, — С. 743-755.
256 Гл. 5. Управляемость, наблюдаемость, идентифицируемость ^^\ [a(x)v2dS. Функции vm(x) и соответствующие им собственные значения \т однозначно определяются интегральными соотношениями dvm дФ dx + f f / а(х)утФ dS = Xm / j j при любой функции Ф(х) G И/21(С?) и ^(x)dx = 1, / G bvm<I>dx, m = 1, 2, ..., (9.4) = 0 при п ф т, а собственные значения Лт обладают свойством Am+i ^ Am, Am —> сю при т ^ оо. Система функций {^т(ж)} полна в L2(G), а функционал y^D(v) удо- удовлетворяет всем трем аксиомам нормы в И/21(С?) и является нормой, эквива- эквивалентной обычной норме этого пространства, так как существует постоянная 7 > 0 такая, что выполняются неравенства Решение краевой задачи (9.1)-(9.3) ищем в виде оо « u(t,x) = ^^ um(t)vm(x), um(t) = / bu(tJx)vm(x)dx. (9.5) rn=l Для вычисления коэффициентов um(t) в тож:дествах (9.4) берем конкретное т и полагаем Ф = u(t, ж) при фиксированном t. В результате получаем Vc(x)uvm\ dx+ I ba(x)uvmdS = \mum{t), \ dvm du -* %3 dxi dxj G ~lJ = 1 " S где использовано обозначение из (9.5). После интегрирования по t в пределах от ti до ^2 будем иметь aij(x) о Ш ъ \-c(x)uvm\ dQ + / a(x)uvmdS = Am / um(t)dt. Q(tut2) S{tut2) (9.6) Положим теперь в тождестве (??) Ф = vm(x). Тогда справедливо ра- равенство uvm\ti dx- агз - (си - f)vm dx-\- + / (аи - gp)vm dS = 0. (9.7)
9. Управляемость линейных параболических систем 257 Сравнивая (9.6) и (9.7), получаем соотношение / buvmll^ dx + \m I buvm dQ = / fvm dQ + / gvm dS, (9.8) G Q(tut2) Q(tut2) S(tut2) которое, очевидно, справедливо при любом га, m = 1, 2, ... Положим теперь в (9.8) t^ = ?, a ti будем считать постоянной. Полученные равенства продифференцируем по ?. В итоге будем иметь р + Л^ x)vm(x)dx + / р((ж т = 1, 2, ... G Отсюда с учетом начального условия (9.3) однозначно определяем коэф- коэффициенты в разложении (9.5): t um(t) = ^e"A-f + fm(t) + gm Jр(т)е-х^-ТЧт, (9.9) о где cpm= b(x)cp(x)vm(x)dx, gm= g(x)vm(x)dS, G S t (9.10) fm(t) = f f f(t,x)vm(x)e-x^t-^dxdr, ra = 1, 2, ... ti G Таким образом, решение краевой задачи (9.1)-(9.3) построено формально в виде ряда Фурье (9.5) с коэффициентами, определяемыми по формулам (9.9) и (9.10). В. И. Плотников показал, что этот ряд действительно является слабым решением из класса W2(Q), т. е. функция и(?, х), определяемая этим рядом, принадлежит L/2(Q) и имеет обобщенные производные по пространственным переменным, также принадлежащие L/2(Q). 9.2. Формулировка задачи об управляемости и ее предваритель- предварительный анализ. Прежде чем формулировать рассматриваемую здесь задачу об управляемости параболической системы, отметим ее важнейшие особенности по сравнению с задачей об управляемости конечномерной системы вида + B(t)u. Единственность решения уравнения с начальным условием и при конкретном управлении здесь обеспечивается требованием, чтобы матрицы A(t) и B(t) бы- были непрерывными. Эта конечномерная система описывает процесс в конечномерном прост- пространстве Еп и требуется переводить систему кусочно непрерывным управле- управлением или управлением из ?2@, T) из одной его точки в другую точку того же пространства. Задача управляемости в этом случае состоит в том, что- чтобы указать такие дополнительные условия, которые следует наложить на матрицы A(t) и B(t), при выполнении которых систему можно переводить из одной произвольной в другую также произвольную точку того же простран- пространства. Эти условия состоят в том, что должна быть неособенной специально сконструированная матрица (см. параграф 2, п.1). Для систем с распределен- распределенными параметрами ситуация принципиально иная.
258 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Если процесс описывается, например, краевой задачей (9.1)-(9.3), то для обеспечения единственности ее решения при конкретном управлении требу- требуется, чтобы функции, определяющие уравнение, принадлежали одному клас- классу, функции из краевых условий — другому классу, а функции из начального условия — третьему классу. При этом решение u{t, х) задачи принадлежит чет- четвертому классу. След этого решения при t = Т, согласно теоремам вложения Соболева, может принадлежать классу функций, более "узкому", нежели тот, из которого стартовало решение. Поэтому поиск условий управляемости, ана- аналогичных условиям в конечномерной задаче, является занятием бесполезным. В этом случае требуется иной подход к проблеме. Прежде всего, так же, как и в конечномерном случае, на систему накла- накладываем ограничения, обеспечивающие единственность решения краевой зада- задачи при заданном начальном условии и конкретном управлении. Эти условия выбираем такими, чтобы максимально расширить класс уравнений рассматри- рассматриваемого типа при выбранном классе допустимых управлений. Такие требова- требования обеспечиваются, по нашему мнению, теми ограничениями, которые при- приведены выше и взяты из работы В. И. Плотникова. Вместе с тем следует от- отметить, что имеется множество работ, в которых проблема разрешимости кра- краевых задач с неоднородными граничными условиям рассмотрена с позиций функционального анализа, и в них получены более общие результаты (см., на- например, работы А.В. Балакришнана и Ж.-Л. Лионса). Рассматриваемая здесь задача состоит в следующем. Пусть Т, Т > 0, — произвольный, но фиксированный момент времени. Потребуем, чтобы решение задачи (9.1)-(9.3) удовлетворяло условию и(Т,х) = ф(х), xeG. (9.11) Требуется указать класс К функций такой, чтобы для любой функ- функции ф{х) Е К существовало управление p{t) Е ?2@,T) такое, чтобы соот- соответствующее ему решение задачи (9.1)-(9.3) удовлетворяло условию (9.11). Если такой класс К указан, то его будем называть множеством Т-дости- жимости. Если же класс К обладает тем свойством, что для любой функ- функции ф(х) Е К и любой функции (f(x) E L/2(G) (см. условие (9.3)) можно указать момент времени Т и управление p{t) E ?2@, T) такие, что решение задачи (9.1)-(9.3), соответствующее этому управлению, удовлетворяет усло- условию (9.11), то процесс теплопроводности называется вполне К -управляемым. Здесь следует обратить внимание на то, что (р(х) и ф(х), вообще говоря, не принадлежат одному и тому же классу функций, т. е. К может и не совпа- совпадать с L2(G). Так как решение задачи (9.1) - (9.3) при каждом конкретном управлении, вообще говоря, является обобщенным (оно принадлежит классу W2(Q)), то условие (9.11) так же, как и условие (9.3), следует понимать "в слабом смысле", т. е. г lim / \u(t,x) — ф(х)]?(х) dx = 0 ^T-oJ G при любой функции ?(х) Е L2(G). Имея это в виду, возьмем конкретную функцию ф{х) Е L2{G) и зафиксиру- зафиксируем момент времени Т. Решение задачи (9.1)-(9.3) будем искать в виде (9.5), где коэффициенты um(t) определяются по формулам (9.9). Функцию ф(х) также представим в виде ряда
9. Управляемость линейных параболических систем 259 гпУт(х), X Е G. га=1 Тогда для того чтобы решение u(t, x) удовлетворяло условию (9.11), необ- необходимо и достаточно, чтобы управление p{t) удовлетворяло следующим мо- ментным соотношениям: т 9m fp(t)e-x^T-^dt = cm, m = 1, 2,..., (9.12) о где Ст=фт- Vme~XmT ~ /ш(Т), ГП = 1, 2, . . . (9.13) В силу свойства замкнутости системы собственных функций {ут(х)}, по- постоянные сш, т = 1, 2,..., удовлетворяют условию ОО ^ С^ < ОО. т=1 Это означает, что вектор с = {ci,..., cm,... } с компонентами из (9.13) принад- принадлежит полному гильбертову пространству /2, скалярное произведение в кото- котором определяется формулой оо m=l В пространстве 1^2@, Т) рассмотрим множество 5д функций pN(t), пред- ставимых в виде pN(t)=J2amame-^T-t\ N = 1,2,... т=1 Тогда очевидно, что N m,n=l I1 e -(\m+\n)T\ Если замкнуть это множество в метрике пространства Z/2@, T), то получим подпространство Н\ С ^2@,Т), состоящее из функций il>(?), представимых в тп=1 где коэффициенты аш удовлетворяют условию (X) J2 ЯтОтЯпОп ^ _ е-(Лт+А„)Т) < ^^ (914) m,n=l A"» + A» При этом \ /, (АТП Здесь сходимость двойного ряда понимается в том смысле, что iV+p V 9гпат9пап ^ _ е-(Лт+Ап)Г) ^ Q при iv ^ оо и любом р > 0.
260 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Тем самым устанавливается взаимно однозначное соответствие между функциями w(t) Е Н\ и последовательностями а = {ат}, для каждой из которых сходится ряд (9.14). Поскольку Н\ является полным подпространством пространства ?2@, T), то по теореме Леви (см. параграф 1, п. 1 ) каждую функцию p{t) E ?2@,T) можно однозначно представить в виде p(t) = w(t) + q(t), w(t) e ЯА, q(t)±Hx. При этом ||р||2 = \\w\\2 + ||^||2. Отсюда, в частности, следует, что т = 0, т = 1, 2, ..., о и, значит, вопрос о том, удовлетворяет ли конкретное управление p(t) момент- ным соотношениям (9.12), сводится к тому, удовлетворяет ли им его составля- составляющая w(t), ибо / о о Таким образом, справедливо следующее утверждение. Лемма 9.1. Для того чтобы управление p(t) E ?2@,T) удовлетворяло моментным соотношениям (9.12), необходимо и достаточно, чтобы этим соотношениям удовлетворяла проекция w(t) этого управления на подпрост- подпространство Н\. Если теперь функцию П=1 из Н\ подставить в моментные соотношения (9.12), то получим бесконечную систему линейных алгебраических уравнений (X) ? ^оп A _ e-(xm+xn)T} = Cm; m = i,2,... (9.15) п=1 Лт + Ап Вводя матрицу \ gmgn (л м — iM \°° - \ gmgn (л ) тп=1 и векторы а = {ai,..., an,... }, с = {ci,..., cn,... }, систему (9.15) можно записать в виде Ма = с. (9.16) Полученный результат означает, что вопрос о существовании управления p(t), переводящего объект из состояния (9.3) в состояние (9.11); сводится к вопросу о разрешимости уравнения (9.16) в классе последовательностей а = = {&т}, удовлетворяющих условию (9.14). Обозначим этот класс последовательностей через км-
9. Управляемость линейных параболических систем 261 Замечание 9.1. Из системы уравнений (9.15) видно, что если при некото- некотором т коэффициент дт равен нулю, то соответствующий свободный член ст также должен быть равен нулю, и т-е уравнение системы является бессодер- бессодержательным. Если же это условие не выполнено, то уравнение (9.16) не имеет решения и, следовательно, объект неуправляем. Поэтому в дальнейшем будем считать, что все такие уравнения (нуль слева и нуль справа) из системы исключены и все члены последовательности {gm} в ней отличны от нуля. 9.3. О вариационных методах решения уравнений первого рода. Для исследования и решения уравнения (9.16) нам потребуются некоторые факты из вариационных методов математической физики 20). Пусть Н — вещественное гильбертово пространство, скалярное произведе- произведение и норму в котором будем обозначать через (u,v) и ||и|| соответственно. Линейный (однородный и аддитивный) оператор А, действующий из Н в Н, будем называть симметричным, если он определен на плотном в Н мно- множестве Da и для любых и Е Da ии? Da справедливо равенство (Au,v) = (u,Av). Если, кроме того, выполняется условие (Аи, и) > О, где равенство достигается лишь на нулевом элементе (т. е. при ||и|| = 0), то А называется положительным оператором. Если же, кроме того, существует положительная постоянная 7 такая, что (Аи, и) ^ 7IMI для любого и Е Da, to оператор А называется положительно определенным. Обычными методами вариационного исчисления легко доказывается сле- следующее утверждение. Теорема 9.1. Если оператор А положителен, то: 1) уравнение Au = f, / е Я, (9.17) не может иметь более одного решения; 2) решение уравнения (9.17) минимизирует функционал F(u) = (Au,u)-2(f,u), (9.18) и обратно, если щ Е Da и то щ — решение уравнения (9.17). Эта теорема устанавливает связь между уравнением (9.17) и функциона- функционалом (9.18). Ее главное достоинство состоит в том, что она дает практический путь решения уравнения (9.17), основанный на использовании функционала (9.18). Однако она не доказывает существования такого решения. Необходимые теоремы существования можно получить на основе более детального анализа ) Более подробно с этими методами можно ознакомиться, например, по книге: Мих- лин С.Г. Вариационные методы математической физики. — М.: Наука, 1970.
262 Гл. 5. Управляемость, наблюдаемость, идентифицируемость оператора А и связанного с ним так называемого энергетического пространства На, определяемого следующим образом. На множестве Da определим скалярное произведение и норму по следую- следующим формулам: [u,v] = (Au,v), [и] = <\/(Au,v), и пополним Da по норме [и]. Полученное гильбертово пространство называется энергетическим пространством оператора А. Оказывается, что для положи- положительно определенного оператора А его энергетическое пространство вложено в исходное пространство Н. Если же оператор А положителен, но не положи- положительно определен, то в На существуют элементы, не принадлежащие Н. Эти свойства На играют решающую роль в доказательстве существования элемен- элемента, минимизирующего функционал (9.18). Если этот элемент не принадлежит Daj то его называют обобщенным решением уравнения (9.17) 21). Теорема 9.2. Если А — положительно определенный оператор, то су- существует единственный элемент щ, на котором функционал (9.18) достига- достигает своего минимума, и, следовательно, уравнение (9.17) имеет единственное решение. Если же А — положительный, но не положительно определенный опе- оператор, то для того чтобы уравнение (9.17) имело решение, необходимо и до- достаточно, чтобы существовала положительная постоянная N такая, что справедливо неравенство \(f,u)\^N[u] (9.19) всех и Е Da- Таким образом, в случае положительного, но не положительно определен- определенного оператора для доказательства существования решения уравнения (9.17) требуется установить ограниченность в метрике На функционала (/, и), опре- определенного на Da- В случае, когда уравнение (9.17) рассматривается в линейном нормирован- нормированном пространстве X, справедливо следующее утверждение. Теорема 9.3. Пусть А — линейный ограниченный оператор, отобра- отображающий X в X и для любого х Е X удовлетворящий условию \\Ax\\ ^N\\x\\, где N > 0 — некоторая постоянная. Тогда существует обратный линейный ограниченный оператор А~г. 9.4. Существование решения уравнения (9.16) и условия управ- управляемости. Теперь проанализируем уравнение (9.16), используя теоремы 9.1 и 9.2. В качестве пространства Н берем пространство 1^ последовательностей z = = {zn} таких, что п=1 ) Мы не будем особо подчеркивать здесь, является решение uq обобщенным или нет, а будем говорить о решении уравнения (9.17), если этот элемент минимизирует функцио- функционал (9.18) на НА.
9. Управляемость линейных параболических систем 263 В силу свойства замкнутости системы {vm(x)} и принадлежности функций (/?(ж), ф(х), f(t,x) и д(х) классам L^ элементы матрицы М и правая часть уравнения (9.16) таковы, что справедливы неравенства 2т < 00, т=1 т=1 Теорема 9.4. Оператор М в уравнении (9.16) отображает 1^ в ляется, положительным, но не положительно определенным. Доказательство. Пусть z = {zm} G h, а у = Mz. Тогда 9т9п \ ^ 1||,М2/ У^ 9т . i м2 m,n=l х' '"ь ' ' "/ь/ " хш=1 /А. Здесь мы воспользовались тем, что Лт + Лп ^ 2у/АтЛп, а такж:е тем, что Лт ^ сю при 7П —> сю, а последовательность {^т} удовлетворяет усло- условию (9.20). Очевидно также, что оператор М симметричен. Докажем, что он обладает свойством (Mz,z) >0 при всех z G hj причем равенство достигается только на нулевом элементе. Пусть z = {zm} — произвольный элемент из 1^ и положим оо N p(t) = ]Г zme^~T\ pN(t) = ]Г zmex^-TK m=l m=l Тогда очевидно, что оо ^оо /ОО2 { \\p(t)-pN(t)\\2= ]T Mnmznzm^- J2 zl{ Е n,m=N+l m=N+l при N —> сю. Значит, последовательность {zm} принадлежит классу последо- последовательностей км, введенному в конце п. 2 настоящего параграфа. Из того, что последовательность {eXrn<yt~T^} минимальна в подпространст- подпространстве Н\ и справедливы соотношения оо m,n=l следует что оператор М положителен. Докаж:ем, что он не является положительно определенным в 1^-, т. е. не существует постоянной 7 > 0 такой, что справедливо неравенство (Mz,z)>7|N|2 (9-21) для всех z G h- С этой целью возьмем последовательность элементов zN G /2? определяе- определяемых формулой ^ = {О,...,0,1,0,...}. N-1
264 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Тогда Ц^Ц = 1 и, кроме того, что противоречит неравенству (9.21). Из доказанной теоремы следует что, наделив класс км скалярным произ- произведением и нормой [u,v] = (Mu,v), [и] = л/(Ми,и), получаем полное гильбертово пространство (энергетическое пространство по- положительного оператора М), содержащее в себе 1^ в качестве всюду плотного множества. При этом уравнение (9.16) имеет единственное решение в Км (ко- (конечно, лишь при выполнении условия (9.19)), которое, вообще говоря, может и не принадлежать 1^. Тот факт, что Нм содержит все элементы из 1^^ непосредственно следует из способа построения этого пространства: пространство I2 пополнено предель- предельными (в метрике Км) элементами. Следующие две теоремы дают некоторое представление о структуре мно- множества последовательностей с, при которых уравнение (9.16) имеет решение в пространстве Км- Г Cm 1 Теорема 9.5. Если последовательность < —л/\ш \ не ограничена, то [9т J уравнение (9.16) не имеет решения в Км- Доказательство. Согласно теореме 10.2 уравнение (9.16) имеет ре- решение тогда и только тогда, когда его правая часть удовлетворяет условию: существует постоянная К такая, что \(с,а)\ ^ К[а] при всех а е h- Возьмем последовательность uN = {0,... ,0,^0^sign сдг, 0,... }, N = 1, 2, ... 7V-1 Так как при любом TV, а (с, а ) = \с \gN \/\лг? Т0 условие (с, а ) ^ К [а ] не выполня- выполняется, т. е. для сколь угодно большого к можно выбрать элемент aNk такой, что будет выполняться неравенство \{c,aNk)\ >k[aNk]. Теорема доказана. С помощью этой теоремы можно проанализировать различные задачи о переводе объекта из одного состояния в другое и указать достаточные условия, при выполнении которых каждая из таких задач не имеет решения. Ясно, что такой результат не дает ответа на вопрос о том, а когда же задача имеет решение. Тем не менее она полезна хотя бы тем, что позволяет "отсеивать" задачи, которые не имеют решения.
10. Краевые задачи и задачи управления 265 10. Краевые задачи и задачи управления упругими колебаниями. Классические решения 10.1. Постановки краевых задач. Метод Даламбера. Задачи для волнового уравнения с начальными и краевыми условиями обычно в литера- литературе называются смешанными задачами22). В дальнейшем будет использована следующая терминология23): краевой задачей будем называть задачу для вол- волнового уравнения в Ql T с начальными (или финальными) условиями и крае- краевыми условиями при х = 0 и х = / одного рода, а смешанной краевой задачей будет называться задача для волнового уравнения в Qi T с начальными (или финальными) условиями и краевыми условиями при х = 0 и х = / разных родов. Для волнового уравнения utt(x,t)-a2uxx(x,t)=0 A0.1) с начальными условиями и(х, 0) = ф), щ(х, 0) = ф(х) A0.2) или финальными условиями и(х,Т) = <pi(x), щ(х,Т) = г/л(х) A0.3) сформулируем различные краевые задачи. Первая краевая задача с начальными (финальными) условиями. Найти функцию u(x,t), удовлетворяющую уравнению A0.1) в Qi,t, начальным усло- условиям A0.2) (финальным условиям A0.3)) на сегменте [0,1] и краевым условиям гх(О, t) = /i(t), u(l, t) = u(t) 0 < t < T. A0.4) Условия A0.4) называются условиями первого рода. Вторая краевая задача с начальными (финальными) условиями. Найти функцию u(x,t), удовлетворяющую уравнению A0.1) в Qi,t, начальным усло- условиям A0.2) (финальным условиям A0.3)) на сегменте [0,1] и краевым условиям ux@,t) = /i(t), ux(l,t) = z/(t), 0 < t < Т. A0.5) Условия A0.5) называются условиями второго рода. Третья краевая задача с начальными (финальными) условиями. Найти функцию u(x,t), удовлетворяющую уравнению A0.1) в Qi,t, начальным усло- условиям A0.2) (финальным условиям A0.3)) на сегменте [0,1] и краевым условиям при C > 0 и а > 0 их@, t) - f3u@, t) = /i(t), ux(l, t) + au(l, t) = i/(t), 0 < t < T. A0.6) Условия B.4) называются условиями третьего рода. Смешанная краевая задача {i,j} с начальными (финальными) условиями. Найти функцию u(x,t), удовлетворяющую уравнению A0.1) в Q/5t5 началь- начальным условиям A0.2) (финальным условиям A0.3))на сегменте [0,/] и краевым условиям i-ro рода при х = 0 и j-ro рода при х = I, где i,j = 1, 2, 3. 22) См., например: Владимиров B.C. Уравнения математической физики. — М.: Наука, 1981. ) См., например: Полянин А. Д. Справочник по линейным уравнениям математической физики. — М.: Наука, 2001.
266 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Замечание 10.1. При C = 0 и а = 0 третья краевая задача превращается во вторую краевую задачу, поэтому все рассуждения будут приводиться для третьей краевой задачи, при этом будут указываться результаты для второй краевой задачи как частного случая третьей краевой задачи. Аналогично будут формулироваться результаты для смешанных краевых задач. Определение 10.1. Дважды непрерывно дифференцируемая в замкну- замкнутом прямоугольнике Qi Т функция u(x,ti) называется классическим решением первой краевой задачи с начальными (финальными) условиями, если она удо- удовлетворяет уравнению A0.1) в Qi^t-> начальным условиям A0.2) (финальным условиям A0.3)) на сегменте 0 ^ х ^ I и краевым условиям A0.4) для 0 ^ t ^ Т. Для остальных краевых задач классические решения определяются анало- аналогичным образом. Классические решения поставленных краевых задач однозначно определя- определяются с помощью формулы Даламбера. Для первой краевой задачи с начальными условиями решение u(x,t) при (x,t) Е Qi,t, 0 < Т ^ l/а, определяется следующим образом24): x+at Ф(х - at) + Ф(х + at) 1 х—at + Jt--\ Wt-^^V A0.7) —V a/ V a J где Ф(х) и Ф'(х) — нечетные продолжения функций <р(х) и ф(х) соответственно на сегменты [—/,0] и [1,21], функции /x,z/ удовлетворяют следующим условиям: ji{t) = ji{t) на [0,Т], /х@) = 0 и ji(t) = 0 при аргументах t < 0. Аналогичным условиям удовлетворяет и функция v_(t). Как показывает формула B.5), для того, чтобы функция u(x,t) являлась классическим решением рассматриваемой задачи, функция Ф(х) должна быть дважды непрерывно дифференцируема на сегменте [—1, 21], ^{х) должна быть непрерывно дифференцируема на этом сегменте, а функции /х(?) и v_{t) — два- дважды непрерывно дифференцируемы на сегменте [—Т,Т]. Из согласования на- начальных и краевых условий и нечетного продолжения функций ср и ф отно- относительно точек х = 0 и х = I вытекает, что должны выполняться следующие условия: A0.8) */@) = <рA) = 0, z/@) = фA) = 0. v J Решение u(x,t) второй краевой задачи с начальными условиями для (x,t) E ^ Qi,t, 0 < Т ^ l/а, определяется следующим образом: _ Ф(х - at) + Ф(х + at) 2 x+at t-x/a t—(l — x)/a If f f H / &(z)dz-a / n(z)dz + a I v(z)dz, A0.9) 2a I I - I ) См., например: Тихонов А.Н., Самарский А.А. Уравнения математической физи- физики. - М.: Наука, 1966. - С. 69-72.
10. Краевые задачи и задачи управления 267 где Ф(х) и И/(х) — четные продолжения функций (р(х) и ф(х) соответственно на сегменты [—/,0] и [1,21]. Из формулы A0.9) следует, что функция u(x,t) будет классическим решением рассматриваемой задачи, если функция Ф(х) дважды непрерывно дифференцируема на сегменте [—/,2/], }&{х) непрерывно дифференцируема на этом сегменте, функции ji(t) и v_(t) непрерывно диффе- дифференцируемы на сегменте [—Т,Т]. Из согласования начальных и краевых усло- условий и четного продолжения функций (риф относительно точек х = 0 и х = I вытекает, что МО) = <р'@) = 0, м'@) = V-'(O) = 0, «/@) = <р'A) = 0, г/@) = ф\1) = 0. A0.10) Решение u(x,t) третьей краевой задачи с начальными условиями в О < Т ^ //а, определяется следующим образом: (х — at) + Ф(х + at) x+at 1 [ ^ J V(z)dz- x—at t-x/a t-{l-x)/a -a о о где Ф(х) и }&(x) — некоторые продолжения функций (р(х) и ф(х) соответствен- соответственно на сегменты [—/,0] и [/,2/] (эти продолжения опишем ниже). Из формулы A0.11) следует, что функция u{x,t) будет классическим решением рассматри- рассматриваемой задачи, если функция Ф(х) дважды непрерывно дифференцируема на сегменте [—/,2/], Я/(х) непрерывно дифференцируема на этом сегменте. Функ- Функции n(t) и z/(?) должны быть также непрерывно дифференцируемы на сегмен- те[-"Т,Т]. Из согласования начальных и краевых условий и того факта, что непрерыв- непрерывно дифференцируемые функции ji(t) и u(t) продолжаются нулем на множество t < 0, вытекает, что /i@) = (//@) - /fy>@) = 0, //@) = ^@) - Рф(О) = 0, z/@) = ч>'A) + асрA) = 0, z/@) = ^@ + аШ = °- Выясним, каким образом необходимо продолжить функции (р(х) и ф(х) относительно точек х = 0 и х = I на сегменты [—/,0] и [/,2/] соответственно в случае краевых условий третьего рода, чтобы функция u(x,t), определяемая формулой A0.11N была решением соответствующей краевой задачи. Обозначим U(x,t) = *(* + <*)+*(*-<*) + 1. Tnz)dz. Zi za j x — at Будем искать функции Ф(х) и Я/(х) из условий, что функция U(x, t) удовлетво- удовлетворяет нулевым граничным условиям A0.6): Ux(O,t) - f3U@,t) = 0, A0.12) Ux(l,t)+aU(l,t) = 0. A0.13)
268 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Из равенства A0.12) получим продолжения функций <р(х) и ф(х) на сег- сегмент [—/,0], а с помощью равенства A0.13) получим продолжения этих функ- функций на сегмент [1,21]. Равенство A0.12) при 0 ^ t ^ l/а имеет вид '{at) + <P'{-at) + ф[а1) - *(-at) ^ Ша1)+Ф(а1) + 1 1 ф^ 1 = Q 2а ' [ 2 2а -at Здесь мы воспользовались тем фактом, что при 0 ^ х ^ I выполняются условия (р(х) = Ф(х) и ф(х) = \Р(х). Полученные равенства перепишем в виде двух дифференциальных уравнений: Фг(-аЬ) - рФ{-а?) = - У (at) - f3cp(at)}, at -at) -13 I V(z) dz = %l>(at) - C j ф(г) dz, о о В этих уравнениях сделаем замену у = —at. В результате получаем соотно- соотношения Ф'(у) — /ЗФ(у) = f(y) и С (у) — /3G(y) = g{y), где введены следующие обозначения: у J о о Решения полученных уравнений для —l^y^Oc учетом начальных условий ф@) = ср(О) и #@) = ф@) имеют вид -у Ф(у) = ^@)е^ + eto I еР* \ip\z) - рф)} dz, A0.14) о *(у) = ф@) + J W(z) - Pil>(z)\ dz - (Зе^У J e?z U(z) - C J ф(з) ds\ dz. A0.15) 0 0 0 Из выражений A0.14) и A0.15) при /3 = 0 получаем, как и в случае второй краевой задачи, четное продолжение функций <р(х) и ф(х) относительно х = 0 на сегмент [—Z, 0]. Подобным образом из равенства A0.13) получаем равенство, которое эк- эквивалентно двум уравнениям at) + аФA + at) = - [<p'(l - at) + aip(l - at)} , l+at l-at / &(z)dz = ^(l-at) + a / i В уравнениях сделаем замену at = у. Введем следующие обозначения: /(У) = - иг - У) + <xp{i - у)}, 1-у 1+у д(у) = фA-у)+а J ф(г) dz, G(y) = J ф(г) dz.
10. Краевые задачи и задачи управления 269 Решения дифференциальных уравнений Ф'(I + у) + аФA + г/) = /(г/) и С( + у) = #(г/) с учетом начальных условий ФA) = </?(/) и ^(Z) = ^@ при У ^ I можно представить в виде 1-у ] dz, A0.16) i —2/ г; /Г /* 1 e~az ^(^) + а / ^(s) ^ L J a I I i —2/ /Г /* 1 / A0.17) L a I I Как и в случае второй краевой задачи,из выражений A0.16) и A0.17) при а = 0 получаем, четное продолжение функций <р(х) и ^(х) относительно ж = I на сегмент [Z,2Z]. Решения краевых задач для финальных условий получаются аналогично. Решение первой краевой задачи с финальными условиями имеет следую- следующий вид: Фг(х - а(Т - t)) + Фг{х + а(Т - t)) U[X,t) — x+a(T-t) I Vl{z)dz+Jl{t+-)+v(t+—), A0.18) J \ a/ \ a / la x-a{T-t) где функции ~p(t) и v(t) дважды непрерывно дифференцируемы на сегменте [0, 2Т]; эти функции удовлетворяют следующим условиям: ~p(t) = /i(t) на [0,Т], ~р(Т) = 0 и ~p(t) = 0 при t > Т. Аналогичным условиям удовлетворяет и функ- функция V(t). Из согласования финальных и краевых условий вытекает, что pi@) = fi(T) = 0, фг(р) = ц'(Т) = 0, ^(/) = и(Т) = 0, фгA) = и\Т) = 0. A0.19) Функции Ф\(х) и \Pi(х) — нечетные продолжения функций (fi(x) и ф\(х) отно- относительно х = 0 и х = I на сегменты [—Z, 0] и [Z, 2/] соответственно. Решение второй краевой задачи с финальными условиями формулой Да- ламбера представляется в виде x+a(T-t) ) _1_ ) ZCL J x-a(T-t) T T r _ г _ — а / /jl(z) dz + а / i/(z) dz. t+x/a t+(l-x)/a Из согласования финальных и краевых условий вытекает, что A0.20) Функции ^i(x) и $i(x) — четные продолжения функций y>i(x) и ф\(х) относи- относительно х = 0 и х = Z на сегменты [—Z, 0] и [Z, 2/] соответственно.
270 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Решение третьей краевой задачи с финальными условиями представляется формулой x+a{T-t) (C)) ( C)) ZCL x-a{T-t) T - a feaf3^x/a-z)Jl(z) dz + a f eaa(t+('-*)/«-z)v(z) dz. A0.21) t+x/a t+(l-x)/a Согласование финальных и краевых условий: A0 22) = i/(T) = 0, ф'1A)+аф1A)=и\Т)=0. V ' J Функция (pi(x) продолжена относительно х = 0 и х = Z на сегменты [—Z,0] и [Z, 2Z] соответственно с помощью формул A0.14) и A0.16), а функция ф\(х) про- продолжены относительно х = 0 и ж = Z на сегменты [—Z, 0] и [Z, 2Z] соответственно с помощью формул A0.15) и A0.17). Решения смешанных краевых задач {i,j} с начальными условиями по- получаются аналогично формулам A0.7), A0.9) и A0.11). Продолжения Фи^ функций (риф относительно х = 0 на сегмент [—Z,0] определяются гранич- граничным условием i-ro рода, продолжения этих функций относительно точки х = Z на сегмент [Z, 2Z] определяются граничным условием j-ro рода. Соответствен- Соответственным образом преобразуются слагаемые, содержащие функции /i и v в форму- формулах A0.7), A0.9) и A0.11). Таким образом, решение задачи {1,3} с начальными условиями представ- представляется формулой x+at Ф(х - at) + Ф(х + at) I f 2 2а У l-x)/a-z)u(z)dz, A0.23) /x(t - ^) + a f о решение задачи {3,1} с начальными условиями имеет вид x-\-at . ч Ф(х - at)-\-Ф(х-\-at) u(xt) = ±J^^ Wr(z)dz- x—at t-x/a -a I e-a№-x/a-z^(z)dz + E(t-l-^y A0.24) о Из формулы A0.11) получаем при C = 0 решение смешанной краевой зада- задачи {2, 3} с начальными условиями, а при а = 0 — решение смешанной краевой задачи {3, 2} с начальными условиями. Формула A0.23) дает решение смешанной краевой задачи {1,2} с началь- начальными условиями при а = 0, а формула A0.24) при /3 = 0 представляет решение смешанной краевой задачи {2,1} с начальными условиями.
10. Краевые задачи и задачи управления 271 Аналогичным образом получаются решения для смешанных краевых за- задач с финальными условиями. Решение смешанной краевой задачи {1,3} с финальными условиями: ц(м) = Ф^х-аР-Ы+Ф^х + аР-г)) _ 1_ x-a(T-t) Т + Д (t + -) + а [ eaa{t+{l-x)/a-z)V(z) dz, A0.25) V a) J а решение смешанной краевой задачи {3,1} имеет вид x+a(T-t) ZCL J Z x-a{T-t) T -a j еа№+х>а-*^(г)йг + пA+1-^). A0.26) t+x/a Из формул A0.25) и A0.26) соответственно получаются решение смешан- смешанной краевой задачи {1,2} при а = 0 и решение смешанной краевой задачи {2,1} при /3 = 0. 10.2. Постановки задач граничного управления. В основе задач гра- граничного управления колебаниями струны лежит решение следующей задачи с начальными и финальными условиями: найти функцию u(x,t), удовлетво- удовлетворяющую уравнению A0.1), начальным условиями A0.2) и финальным услови- условиям A0.3). Решение сформулированной задачи ищется как решение той или иной краевой задачи с заданными начальными условиями A0.2) и с таки- такими краевыми условиями, которые обеспечат выполнение финальных условий A0.3). Таким образом, задача управления решена, если найдены управляющие функции ji(t) и u(t) и период времени Т. В дальнейшем будем говорить об управлении колебаниями струны в условиях соответствующей краевой задачи. Будем предполагать, что функции ф{х) и ф\{х) принадлежат пространст- пространству С2[0, Z], а функции ф{х) и i/ji(x) принадлежат пространству С^О, Z]. Задача 2.1. Найти момент времени t = Т и функции /х(?) и v(t) в прост- пространстве С2[0,Т] такие, чтобы для решения u(x,t) первой краевой задачи с заданными начальными условиями [(р(х), ф(х)} в момент времени t = Т выпол- выполнялись финальные условия с заданными функциями [(pi(x),ijji(x)]. Если волновое уравнение рассматривать как уравнение колебаний стру- струны, то сформулированную задачу можно рассматривать как задачу о пере- переводе струны за промежуток времени Т из состояния [ир[х),ф(х)] в состояние [(/?i(x),'0i(x)]. Для решения задачи 2.1 нам потребуются ее частные случаи: задача о гашении колебаний и задача о переводе первоначально покоящейся струны в заданное состояние. Задача 2.2. Найти момент времени t = Т и функции fi(t) и v(t) в прост- пространстве С2[0,Т] такие, чтобы для решения u(x,t) первой краевой задачи с заданными начальными условиями [(р(х), ф(х)} в момент времени t = Т выпол- выполнялись нулевые финальные условия: и(х,Т) = 0 и щ(х,Т) = 0.
272 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Задача 2.3. Найти момент времени t = Т и функции /i(t) и v(t) в прост- пространстве С2 [О, Т] такие, чтобы для решения и(х, ?) первой краевой задачи с нуле- нулевыми начальными условиями в момент времени t = Т выполнялись финальные условия с заданными функциями [</?i(x), ipi(x)]. Постановки задач об управлении колебаниями струны с одним закреплен- закрепленным концом аналогичны сформулированным задачам. Единственное отличие состоит в том, что требуется найти только одну управляющую функцию. 10.3. Управление колебаниями струны в условиях других крае- краевых задач. Сначала сформулируем задачи управления в условиях третьей краевой задачи, из их постановок легко сформулировать задачи управления в условиях второй краевой задачи и в условиях смешанных краевых задач. Задача 2.4. Найти момент времени t = Т и функции /i(t) и v(t) в прост- пространстве C-^OjT] такие, чтобы для решения u(x,t) третьей краевой задачи с заданными начальными условиями [</?(х), ф(х)] в момент времени t = Т выпол- выполнялись финальные условия с заданными функциями [</?i(x), ф^х)]. Это задача о переводе струны из состояния [(р(х),ф(х)] за промежуток вре- времени Т в состояние [</?i(x), ф\{х)\. Для решения задачи 2.4 нам также потре- потребуются ее частные случаи: задача о гашении колебаний и задача о переводе первоначально покоящейся струны в заданное состояние. Задача 2.5. Найти момент времени t = Т и функции /х(?) и v(t) в прост- пространстве C-^OjT] такие, чтобы для решения u(x,t) третьей краевой задачи с заданными начальными условиями [(р(х), ф(х)] в момент времени t = Т выпол- выполнялись нулевые финальные условия: и(х,Т) = 0 и щ(х,Т) = 0. Задача 2.6. Найти момент времени t = T и функции fi(t) и u(t) в прост- пространстве C-^OjT] такие, чтобы для решения u(x,t) третьей краевой задачи с нулевыми начальными условиями в момент времени t = Т выполнялись фи- финальные условия с заданными функциями [</?]_(ж), ^i{x)\. Задачи управления в условиях второй краевой задачи и смешанных крае- краевых задач формулируются аналогично, отличие заключается в пространствах функций, в которых ищутся управления ji(t) и v(t). Для краевых условий 2-го и 3-го рода управляющая функция ищется в пространстве С^С^Т], для краевого условия первого рода — в пространстве С2[0,Т]. 11. Решение задач граничного управления колебаниями струны методом Даламбера 11.1. Решение задачи управления в условиях первой краевой за- задачи. В этом параграфе будем решать задачи управления, сформулирован- сформулированные в конце предыдущего параграфа. Сначала решим задачу 2.2, затем — за- задачу 2.3, решение общей задачи управления 2.1 найдем как сумму решений задач 2.2 и 2.3. 1. Гашение колебаний. Рассмотрим управляемый процесс, описываемый краевой задачей A0.1), A0.2) и A0.4). Успокоить колебания струны при любых начальных условиях [ир(х),ф(х)] можно за период времени Т = l/а. Решение краевой задачей A0.1), A0.2) и A0.4) имеет вид A0.7). Воспользуемся фи- финальными условиями и{х,Т) = 0, щ{х,Т) = 0 при 0 ^ х ^ I. Получаем систему уравнений
11. Решение задач граничного управления колебаниями струны 273 X-l + *к*^ч^*к-«-ч + V i—4 + -^ - =° 2 2a a^ \ a Продифференцируем первое уравнение системы по х: 2 2a a \ a J a Сложим полученное уравнение и второе уравнение системы и вычтем из второ- второго уравнения системы полученное уравнение. После преобразований получаем два уравнения относительно производных функций /х и v 2 ,/Z-x а \ a Сделаем замену t = (I — x)/а в первом уравнении, а во втором уравнении — t = х/а. Затем проинтегрируем уравнения и воспользуемся условиями продол- продолжения функций (р и ф относительно точек х = 0их = 1. Получаем выражения ДЛЯ jl(t) И l/(t) I Теперь учтем согласование начальных и краевых условий первой краевой задачи с начальными условиями A0.8). Получаем окончательно выражения для управляющих функций ji(t) и u(t) at >(z)dz, (li.i) ^)dZ. A1.2) l-at 2. Перевод покоящейся струны в заданное состояние. Воспользуемся фор- формулой A0.18)), в которой постоянную Т полагаем равной //а, и условиями того, что струна в начальный момент покоилась; получаем систему уравнений x-l 2a a \ a J a \ a A , ll.,(l~x\=Q
274 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Продифференцируем первое уравнение системы по х: Ф[(Х - I) + Ф[(Х + 1) + ^(g-Q-jfrfr + Q + 1 2 2а а \а/ а V а Сложим полученное уравнение со вторым уравнением системы и из второго уравнения системы вычтем полученное уравнение, затем воспользуемся свойст- свойствами продолжения функций <р(х) и ф(х) относительно точек х = 0 и х = Z, получаем уравнения 2 ,A-х\ , ф^-х) 2 Сделаем соответствующие замены в полученных уравнениях, проинтегри- проинтегрируем их и воспользуемся согласованием финальных и краевых условий первой краевой задачи с финальными условиями A0.19); окончательно получаем вы- выражения для управляющих функций fi(t) и u(t) l-at bx{z)dz, A1.3) 1° _ yijat) _ J^ u^ ' ~ 2 2a at 3. Решение общей задачи управления. Общее решение задачи 2.1 получа- получается как сумма решений задач гашения колебаний (задача 2.2) и перевода по- покоящейся струны в заданное состояние (задача 2.3). Решения fi(t) и v(t) даются формулами A1.1)—A1.3) соответственно: at I — at l-at at 11.2. Решение задачи управления в условиях третьей краевой задачи. По аналогии с п. 3.1 сначала решим задачу успокоения колебаний (задачу 2.5), затем задачу перевода покоящейся струны в заданное состояние (задачу 2.6), решение задачи 2.4 будем искать как сумму решений задач 2.5 и 2.6. 1. Гашение колебаний. Используем формулу A0.11) решения третьей крае- краевой задачи с начальными условиями. Успокоить колебания для произвольных начальных условий (р(х) и ф(х) возможно за время Т = //а, поэтому получаем следующую систему уравнений: W) dz - а 2a J x-l 0 х/а + a I e-a{x-az)v{z) dz = 0, A1.4) о
11. Решение задач граничного управления колебаниями струны 275 (-х 2 2а A-х)/а х/а + а/3 / е-№-х-аг)ф) dz-aa f e~^x-az)v(z) dz = 0. A1.5) о о Продифференцируем уравнение A1.4) по ж, полученное уравнение сложим с уравнением A1.5), затем из полученного уравнения вычтем уравнение A1.5). После несложных преобразований получаем систему уравнений относительно функций /х и v t ф\1 + at) + ^ + flt)j + eaatz/(t) - aa / eaarz/(r) dr = 0, о — У (-at) - ^-^У\ + e^V@ - a/? / ea/3r/i(r) or = 0. z L a J j 0 Сделаем следующие замены в полученных уравнения: t y(r) dr = y(t), f ea/3r/i(r) dr = z(t), о о соответственно y'(t) = eaatu(t) и z'(t) = ea^/i(t), введем функции Таким образом, приходим к двум обыкновенным дифференциальным уравне- уравнениями y'(t) - aay(t) = f(t), z'(t) - a/3z(t) = g(t), причем /@) = 0 и z@) = 0. Решая эти уравнения, находим y(t) и z(t): y(t) = Следовательно, их y>(t) = f(t) + a, t _ I gaa r j( 0 производные t ауеаа(*-г)/ 0 Тем самым находим выражения 1Г КО 2 \ф( (r)dr, имеют (r)dr, z(t) = вид *'(*) = для функций + ot)l t асе ^ 2 У 0 t J 0 = «?(*) 4 I/(t) И L г-т)д{т)Aт. t - ар I еа^*-^д{ J 0 tit): Ф{1 + ат) a ) dr. dr,
276 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Используя выражения A0.14)—A0.17) для продолжений Ф и Я? функций ср и ф относительно точек х = 0их = 1, получаем выражения для управляющих функций n(t) и i/(t) <*) + I J [Пг) I — at 7 = «*,)**«) + 1 7 _ 2 2a J Lr v ' ' гч /J 2a 2 о Из согласования начальных и краевых условий третьей краевой зада- задачи A0.20) получаем окончательные выражения для fi(t) и v(t): I I Lr vJ) + аФ(%)] dz, A1-6) /-at at + — / [V>'(*) - №(z)] dz' AL7) 0 2. Перевод покоящейся струны в заданное состояние. Чтобы найти fi(t) и v(t), используем формулу A0.21) решения третьей краевой задачи с финаль- финальными условиями [</?i(x), ^\{x)\ иТ = //а. Струна в начальный момент времени покоилась, т.е. u(x,0) = 0, г^(ж,0) = 0. Эти условия дают следующие уравне- уравнения: х+1 1/а 1 Г Г ~2а] ^ Z~u J I/a ea(/-x-az)z/(z)dz = 0, (Hi M_ \ a //a //a -a/3 f eP{x-az)ii(z)dz + aa j ea{l-x-az)v(z)dz = 0. A1.9) ж/а {1-х)/a Продифференцируем по ж уравнение A1.8) Pi(x - 0 + *i(x + 0 Фг{х + 0 - ^l(ж - 0 /i\ ^^ - x 2 2a l/a I/a -a/3 j е^х~аг)ф) dz-aa f e^l-x-az)v(z) dz = 0. A1.10) x/a {1-х)/a
11. Решение задач граничного управления колебаниями струны 277 Сложим уравнение A1.10) с уравнением A1.9) и вычтем из уравнения A1.9) уравнение A1.10). После этих преобразований в полученных уравнениях сде- сделаем замены t = х/а и t = (I — х)/а, которые приводят к следующим уравнениям: 1/а e-a0t !(-(/ - at)) + ^l( ^ at))] + е-а^/х(*) -apf е~а^ф) dz = 0, - at)) - ^iO + ^fl^))j + e—V(t) - aa / e"a^i/(z) dz = 0. Введем обозначения: l/a I/a y(t) = j е~а^ф) dz, z(t) = j e~aazu(z) dz. t Тогда, очевидно, справедливы равенства z'{t) = -e-aatv(t), причем для введенных функций y(t) и z{t) выполняются условия уA/а) = 0, z(l/a) = 0. Обозначим функции: Таким образом, получаем систему обыкновенных дифференциальных урав- уравнений с начальными условиями \zf(t) + aaz(t) = g(t), z(l/a) = 0. Решения полученной системы имеют вид l/a I/a J e-a^-^f(r) dr, z(t) = - J y(t) = - J e-a^-^f(r) dr, z(t) = - J e-a^-^g(r) dr. t t Отсюда находим выражения для функций ji(t) и v(t): l/a l/a fi(t) = -ea^f(t) -apj ea^Tf(r) dr, u(t) = -eaatg(t) - a/3 J eaaTg(r) dr. t t Воспользуемся свойствами A0.14)-A0.17) продолжений Ф и Ф функ- функций (р и ф соответственно. Проделав все необходимые преобразования, получа- получаем выражения для функций /х и и: Г = rid^^d^) _ 1 ГШг) _ ,dz _ 2а о 2а J LriV y rrvyj 2 2a
278 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Согласование финальных и краевых условий A0.22) третьей краевой зада- задачи дает окончательное решение задачи 2.6: at d, A1.12) о о <p'(l-at)+aip(l-at) + ^ (at) + a^ (at) l l 3. Решение общей задачи управления. Общее решение задачи 2.4 получа- получается как сумма решений задач гашения колебаний (задача 2.5) и перевода по- покоящейся струны в заданное состояние (задача 2.6). Соответствующие управ- управляющие функции n(t) и v(t) даются формулами A1.7) A1.11) и A1.6), A1.12). Поэтому решение задачи 2.4 определяется формулами _ <p'(at)-l3<p(at) <р'гA - at) - C^A - at) ~~ 2 2 at l-at = l-at at 11.3. Решение задачи управления в условиях других краевых за- задач. Решение задачи управления в условиях второй краевой задачи получа- получается из формул A1.13), A1.14) при а = 0 и C = 0: ipr (at) + (p[(l — at) ijj(at) — ф\A — at) '' 2 + 2a ' cpf(l — at) + (p[(at) фA — at) — ipi(at) U^ ~ 2 ~ 2a Здесь учтены согласования начальных и краевых условий A0.10) и финальных и краевых условий A0.20) второй краевой задачи. Решения задач управления в условиях смешанных краевых задач получа- получаются комбинациями решений соответствующих задач управления в условиях первой, второй и третьей краевой задачи, при этом необходимо учитывать со- согласование соответствующих начальных и краевых условий и финальных и краевых условий. 12. Задачи управления колебаниями упругого стержня 12.1. О свободных колебаниях стержня. При исследовании колеба- колебаний упругого стержня постоянного поперечного сечения обычно предполага- предполагается, что он имеет ось симметрии. Если на него не действуют распределенные
12. Задачи управления колебаниями упругого стержня 279 внешние нагрузки, то его малые свободные колебания описываются уравне- уравнением25) С/ 11 с) 11 +F=0, 0<?<1, 0<t<T, A2.1) где u(t, ?) — смещение точки ? в момент времени ?, ЕJ — жесткость стержня, F — площадь поперечного сечения, р = A + е)ро, Ро ~ объемная плотность стержня, е = q/poF, q — интенсивность внешней равномерно распределенной массовой нагрузки. Вводя замену х = - и обозначение а2 = A + е), вместо уравне- / h/J ния A2.1) получаем уравнение =0, 0<ж<1, 0<t<T. A2.2) Для определения собственных форм упругих колебаний стержня решение уравнения A2.2) ищем в виде u(t,x) = (Ci cos cot + C2 sin ut)X{x), A2.3) где uo — параметр, характеризующий гармонические колебания стержня. В итоге для определения Х(х) получаем уравнение ^J-r4X = 0, 0<ж<1, A2.4) где 4 2 2 2 /^ /1 , \ r^ = aw = и A + е). EJ Общее решение уравнения A2.4) обычно представляется в виде 4 г=1 где Ai, A2, A3, А4 — произвольные постоянные, г — положительный вещест- вещественный корень уравнения Л4 — г4 = 0, а функции Крыловв Ki(x) определяются формулами К\ (х) = - (ch тх + cos тх), К2 (ж) = — (sh тх + sin rx), ) К() (h — sinrx). Эти функции, очевидно, удовлетворяют условиям dKTx{X) = Ki{x)' i = 1'2'3' ^)@) = ^, «,j = 1, 2, 3, 4, где 5ij — символ Кронекера. Отсюда можно получить собственные формы колебаний стержня, соот- соответствующие различным граничным условиям. Если концы стержня оперты, то граничные условия имеют вид u(t, 0) = uxx(t, 0) = u(t, 1) = uxx(t, 1) = 0. A2.5) ) См., например: Филиппов А.П. Колебания деформируемых систем. — М.: Машино- Машиностроение, 1970.
280 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Тогда из A2.5) следует, что Х@) = Х"@) = ХA) = Х"A) = 0, A2.6) и краевая задача A2.4)-A2.б) имеет собственные значения г = тгк, к = 1, 2, ... Значит, в соответствии с формулой A2.3) частоты собственных колебаний определяются из соотношений =7гzk\ 4 , fc = 1, 2, ..., у rFp(l + e) а соответствующие им собственные формы имеют вид к = 1, 2, ... При других граничных условиях собственные формы колебаний описы- описываются тригонометрическими и гиперболическими функциями. В частности, если левый конец стержня закреплен упруго, а правы свободен, то гранич- граничные условия для собственных форм принимают вид Х@) = X"(fi) = Х"{1) = = Х'"{1) = 0. Собственные значения при этом определяются уравнением sin r ch r = cos r sh r, а собственные формы имеют вид Хк (х) = Dk (sh rk sin rkx + sin rk sh rkx). Это вносит принципиальные трудности в решение задач управления колебани- колебаниями. 12.2. Постановка задач. Формулировка результатов. Различные за- задачи управления колебаниями стержня имеют многочисленные приложения 26) и являются предметом теоретических и прикладных исследований27). Здесь мы ограничимся формулировками различных задач полного гашения колеба- колебаний стержня за конечное время с помощью граничных управлений. Решение некоторых из этих задач удается получить применением метода Фурье. Рассмотрим управляемый процесс, описываемый краевой задачей (д4и . од2и и@,х) = (р(х), щ@,х) = ф(х), A2.7) uxx(t,0) = H2(t), в которой управляющие функции /i^(t) и ^fe(t), к = 0, 2, пока не ограничиваем никакими требованиями, кроме одного. Каждый набор управляющих функ- функций /j,k(t) и г/^t), к = 0, 2, определяет классическое или обобщенное решение задачи A2.7). Рассматриваемая задача управления состоит в следующем. 26) См., например: Дегтярев Г.Л., Сиразетдинов Т.К. Теоретические основы оптималь- оптимального управления упругими космическими аппаратами. — М.: Машиностроение, 1986. ) См., например: Егоров А.И., Знаменская Л.Н. Управление упругими колебаниями (обзор)// Оптимизация, управление, интеллект. — 2000. — №5. — С. 112-121.
12. Задачи управления колебаниями упругого стержня 281 Требуется определить момент времени Т > 0 и соответствующие ему управляющие функции /х&(?) ui/k(t), k = О, 2, такие, чтобы определяемое ими решение u(t,x) краевой задачи A2.7) удовлетворяет условиям и(Т,х) = щ(Т,х) = 0, О < х < 1. A2.8) Как показано ниже, в рассматриваемой задаче управления колебаниями стержня с помощью граничных управляющих воздействий, начальные воз- возмущения можно погасить за конечное время (в рассматриваемом случае это время равно Т = а/тт), полагая /хо(?) = vo(t) = 0, ^(t) = /^(t), v2(t) = ^2(О? u ^2 @ определяются формулами 00 Г / 2 2 2 2 1 ^(t) = -V ^cos^^-^mrsin^^ +СЬ A2.9) 2 ^—' па а n=l L J 00 Г 2 2 / 2 2 -1n<P"n™™ — t-—CO8 — n=l L где Ci — произвольная постоянная. Аналогичным образом решается та же задача успокоения колебаний стерж- стержня в случае, когда /хг(О = ^(t) = 0, а процесс, описываемый краевой зада- задачей A2.7), управляется внешними воздействиями, определяемыми функциями jj>o(t) и щ(г) по формулам типа A2.9) и A2.10). Этот результат можно использовать при решении ряда других задач управ- управления колебаниями упругих систем. Отметим лишь одну из них. Управляемый процесс описывается краевой задачей (д4и од2и и@, х) = р(х), щ@, х) = ф(х), A2.11) где ii2{t) — управление того же типа, что и в предыдущей задаче, a y(t) опре- определяется с помощью дифференциального уравнения ^ = ky + lu(t, 1) + mv(t), y@) = у0. A2.12) at Здесь /с, Z, 7П, у0 — постоянные, a,v(t) — управляющая функция того же типа, что и ^(t). Таким образом, речь идет об управлении системой, состоящей из двух взаимодействующих элементов, Один из них — объект с сосредоточенны- сосредоточенными параметрами, а другой — с распределенными параметрами. Требуется погасить колебания системы, т.е. найти /хг(О и v(t) такие, что соответствующее им решение {u(t,x), y(t)} системы A2.11), A2.12) в некоторый момент времени t = Т удовлетворяет условиям и(Т,х)=щ(Т,х)=у(Т)=0 при всех х G @,1). Решение задачи получается достаточно просто следующими рассужде- рассуждениями.
282 Гл. 5. Управляемость, наблюдаемость, идентифицируемость Независимо от того, какими соотношениями ограничен выбор функции y(t), она совместно с /хг(О погасит колебания стержня, если эти две функции будут определяться по формулам (см. A2.9) и A2.10)) Г1 Г1 l4(t) = - <p(x)G!(t,x)dx+ il>(x)G2(t,x)dx + Cu A2.13) Jo Jo /»1 / \ /»1 y°(t) = - ip(x)G[t--,x)dx+ il){x)G2{t--,x)dx-C1, A2.14) Jo \ ^ J Jo к где OO 9 9 СЮ 9 9 _, . ч о ^—ч П 7Г _, . ч ^—ч _-, П 7Г Gi(t, X) = 7Г >^nSinn7TX S1I1 t, G2\t,X) = 7Г >^ П COS П7ГЖ COS 1. n=l n=l Постоянную Ci выбираем так, чтобы выполнялось условие у(Т) = 0, где Т = а/тг, т. е. полагаем _ п Определив таким образом функцию y(t), искомое управление находим по формуле (используя соотношение A2.12)) v(t) = m^ -ky- lu(t, 1)]. A2.15) Формулы A2.13) и A2.15) дают решение поставленной задачи. Они опреде- определяют управления /Jj2{t) и v(t), которые полностью гасят колебания за отрезок времени от 0 до а/тг. Если сравнить полученный результат с решением анало- аналогичной задачи управления колебаниями струны (см. предыдущий параграф), то здесь просматриваются две важные особенности. 1. Время полного успокоения колебаний стержня более чем в три раза коро- короче времени,в течение которого это можно сделать при управлении колебаниями струны. 2. Возможности управления колебаниями стержня гораздо шире, и при решении задачи они все не используются. Желаемый результат получен с по- помощью управлений ^(t) и z/2, а /хо(?) и щ(г) были взяты равными нулю. Формулы A2.13) и A2.14) можно использовать для получения управления по принципу обратной связи. Для этого нужно функции (р(х) и ф(х) в условиях A2.11) рассматривать как состояние стержня в некоторый момент времени t = т, т. е. положить и(т,х) = (р(х), щ(т,х) = ф(х). Тогда формулы A2.13) и A2.14) можно представить в виде Г1 lAit) = ~ / [u(rix)Gi(t,x) + щ(т,x)G2(t,x)x — щ(т,x)G2@,х)] dx, Jo и(т. x)Gi It , х I + иЛт, x)G2 It , x I + ut(r. x)G2@, x) dx. о L V * ) \ * ) \ Переходя в этих формулах к пределу при t -^ г, получаем управления по принципу обратной связи
12. Задачи управления колебаниями упругого стержня 283 yo[t,u(t,x),ut(t,x)} = - f Jo u(t,x)G1(t , ut(t,x)G2lt , dx. Управление v[t,u(t,x),ut(t,x)] находим по формуле A2.15). 12.3. Доказательства. В предыдущем пункте настоящего параграфа были сформулированы результаты решения задач управления колебаниями стержня. Они заключаются в том, что если процесс описывается краевой зада- задачей A2.7) и управляющими функциями берутся fi2(t) и v2(t\ a fio(t) и ^o(t) полагаются равными нулю, то управления A2.9) и A2.10) успокаивают ко- колебания стержня за время Т = а/тт. Для доказательства этого утверждения воспользуемся тем, что при задан- заданных внешних воздействиях ^(t) и Vi(t)) решение задачи A2.7) можно предста- представить в виде ОО -1 , un(t)-2 u(t,x)Xn(x)dx. n=l Умножая обе части уравнения колебаний на Хп(х) и интегрируя полученное равенство, с учетом граничных условий приходим к уравнениям 2d2un Cll (nirLun = 2 + 2(n7rK[z/o(t) cosnTr — = 1,2,..., A2.16) которые нужно решать с учетом начальных условий f1 f1 (рп = 2 / (f(x) sinnirxdx, фп = 2 / ф(х) sinnirxdx. Jo Jo В уравнениях A2.16) сделаем замену Тогда их можно представить в виде (П7ГJ -j cosn. - М2(- COS П7Г — , п = 1, 2, .... и, следовательно Un(r) = (рп cosn^Trr + 2_ , Ф* т27гг- + (птгJ '2 COS П7Г — /i2 COS П7Г — , sinn27r(r — s) ds. Представляя решение задачи A2.7) в виде
284 Гл. 5. Управляемость, наблюдаемость, идентифицируемость / \ °° u(t,x) = ш —, х I = [/(г, ж) = ^"^ Un(r) sin птгж ^ ' п=1 и учитывая, что система функций {sinnTiic} полна в 1^@,1)? находим, что усло- условия A2.8) выполняются тогда и только тогда, когда ? Фп ? 2 [Тт {\ fas\ Юп COS П 7гТт Н — Sin П 7ГТТ Н ~ / ^ COS ПТГ — /i2 П2ТГ П7Г2 Уо Ц \7Г J Jг/( ) cosn7r + z/( (птгJг/0( — ) cosn7r + z/o( — ) isinn27r(Tr -s)ds = 0, A2.17) L V71" / V71" /J J 2 2 2 m / 2 m 2n /^ Г Г {as\ (as — п тг (рп sin n Tri r + грп cos п тг1т -\ / ^^2 — cos птг — /i 2 — ^ Л IL V *¦ / V ^ + (птгJ z/0( — ) cos птг — /iO( — ) f cosn2Tr(Tr — s)ds = 0, A2.18) где Тт = тгТ/а. Если в равенствах A2.17) и A2.18) положить Тт = 1, то их можно записать в виде (—1)п(рп Н ^ / ^2 ( — ) cos птг sin п2тгA — s) ds— ^ Uo V к ) Г1 fa(l-s)\ . 2 л Л2 Г Г1 /шЛ . 2 л. — / Д2 sinn irsds + (птг) / z/n — cos птг sinn тгA — 5) as + Jo \ к ; [Jo \kj Г1 fa(l-s)\ . 2 л 11 n - / /i0 ( — j sin п^тгз ds ^ = 0, (—1)пфп H < / z/2( — I cosnTrcosn2Tr(l — s)ds — ^ Uo V я" / Г1 /a(l-s)\ 2 ; / x2 Г Z1 fas\ 2 /¦, л/ — / /^2 — i cos n tis ds + (птг) / /y0 — cos птг cos n тгA — s) ds + Л V *¦ / Lio V ^ / Г1 /a(l-s)\ 2 7 11 + / /i0 ( — ) cos п2тг5 ds ^ = 0. Так как cosnTrsinn2Tr(l — s) = — sinn2Trs, cosnTrcosn2Tr(l — 5) = cosn2TT5, то отсюда получаем два уравнения + 2п Г Г1 fas 2 . ., | /аA — s)\ (as (птгJ мо +Щ[ — IX I \ ТГ 2п Г1 Г Г ^(l-s)\ /as sinn2Trsd5 = 0, A2.19) = 0 A2.20) относительно четырех неизвестных функций \х^ и щ.
12. Задачи управления колебаниями упругого стержня 285 Положим /jLo(t) = щ(г) = 0, т. е. будем управлять процессом с помощью внешних возмущений, определяющих изгиб стержня на его концах при от- отсутствии их смещения. В этом случае уравнения A2.19) и A2.20) принимают вид = 0, A2.21) Г1 Г (a(\-s)\ (asX\ 9 , , / М2 — I - V2 ( — cos п2тш ds = 0. A2.22) Л L V ^ / V^/J Так как 1 ..>(!-*Л ^2^ _ 1 f1 d о 2 COS П 715 aS = ^ 7Г ) flZ7T 1 fas\ 2 , 1 Г1 d cos n tis as = — , /a(ls)\l . 2 , /x2 I —^ I sinn 715 as, i/2[ — I sinn tis as, то уравнение A2.22) можно представить в виде 2 I -^ U (—") 1 sin п2тг5 ds = 0. A2.23) /a(l-s)\ /as\ Функции /i^ I ] и z/21 — ) разлож:им в ряды Фурье по системе V тг ) \тг J > /i2nS n=l ч 7 n=l СХ) as\ Г1 /as Jo \k \±2п — 2 / /i21 sinn7rsds, V2n — 2 / V2\ — sinn7rsds. Jo V ^ / Следовательно, можно записать где 0 / аA — S) \ ^-^ . 2 'U/ » - Х " 1 Sinn 715, 7Г Аналогично имеем n=l определяется остальными слагаемыми ряда. где ^2 — = у z/2n2Smn т1-
286 Гл. 6. Простейшие задачи оптимального управления Умножим равенства A2.21) и A2.23) на sinn27rs, а затем просуммируем их по всем п = 1, 2, ... В итоге будем иметь где оо оо О / \ ^ "^ / 1 \ 7i 2 • 2 /0/\ ^ "^ / -t \п— 1 2/ • 2 / -i о о/°\ m (s) = > (—1) П7Г iDj) Sinn 7Г5, ^ E) = > (—1) П7Г ^ Sinn 7Г5. A2.26) п=1 п=1 Интегрируя равенство A2.25) в пределах от 0 до 5, будем иметь ^ /аA-8)\ _ А (as\ = Г> ф0{з) dg + с^ A227) 7Г o где С — произвольная постоянная. Решая систему уравнений A2.24) и A2.27), получаем 1 Г f п — тгА r(a-7rt)/a i — ю I + / гр (s)as\ + Go, 2 L V а ) Jo J с 2"' Так как функции у?E) и ^(s) определяются формулами A2.26,) то отсюда окончательно получаем / 2 2 2 2 1 ^cos^^t-^nTrsin^^t +СЬ A2.28) A2.29) (Л n=l L Этот результат означает, что в рассматриваемой задаче управления коле- колебаниями стержня с помощью граничных управляющих воздействий начальные возмущения можно погасить за конечное время (в рассматриваемом случае это время равно Т = a/тг), полагая »o(t) = uo(t) = 0, fjL2(t) = nl(t), v2(t) = z/?(t), где ц%(€) и i/§(t) определяются формулами A2.28) и A2.29).
ГЛАВА б Простейшие задачи оптимального управления Результаты, полученные при исследовании задачи об управляемости, по- показывают, что если система управляема, то обычно существует бесчисленное множество управлений, переводящих систему из одного заданного состояния в другое, также заданное состояние. Вместе с тем при анализе систем управления (см. гл. 1) были указаны разнообразные критерии качества систем управления и переходных процессов в таких системах. Поэтому естественно рассмотреть различные задачи о поиске управлений, которые являются наилучшими по тому или иному критерию. Задачи такого типа называются задачами об оптимальном управлении. Одной из них явля- является довольно распространенная задача об оптимальном быстродействии, ко- которая посвящена поиску управления, переводящему систему из одного состоя- состояния в другое состояние за кратчайшее время при различных ограничениях на допустимые управления. Точная ее формулировка основана на достаточно подробном описании управляемого процесса и ограничений, накладываемых на поведение системы и допустимые управления. Такие формулировки этой и других задач оптимального управления приводятся ниже. Здесь же отметим, что настоящая главе посвящена простейшим из них и в основном тем, процессы в которых описываются линейными уравнениями. Их простота состоит не в элементарности формулировок, а в том, что для их реше- решения не требуется разработка специальных методов. Они решаются более или менее просто использованием достаточно известных элементарных фактов ма- математического и функционального анализа. Поэтому предварительный анализ подобных задач делает проблематику теории управления более привычной и облегчает путь к пониманию общей достаточно сложной теории оптимальных процессов, которая рассматривается в последующих двух главах. 1. Управление с минимальной энергией 1.1. Задача об управлении с минимальной энергией. Будем рас- рассматривать управляемый процесс, который описывается линейным дифферен- дифференциальным уравнением to^t^T, A.1) с начальным условием x(to)=x°. A.2) При этом предполагается, что A(t) и B(t) — вещественные непрерывные мат- матрицы размерностей п х п и п х г соответственно, f(t) — заданная функция из класса Щ^ъ, Т), х° — заданный вектор. Допустимыми управлениями считают- считаются функции и = u(t) G L^to, Т), а ^о и Т — фиксированные моменты времени.
288 Гл. 6. Простейшие задачи оптимального управления Тогда каждому допустимому управлению соответствует функция pt x(t) = W(t,to)x° + / Wt,s)[B(s)u(s) + f(s)]ds, A.3) Jt0 где W(t,s) — фундаментальная матрица решений однородного уравнения у = A(t)y, нормальная при t = s (матрица Коши). Функция x(t), определяемая формулой A.3), является абсолютно непре- непрерывной. Она удовлетворяет начальному условию A.2) и почти при всех t из отрезка [?о,Т] удовлетворяет уравнению A.1). Пусть, далее, х1 Е Еп — произвольно заданный вектор. Рассматриваемая здесь задача об оптимальном управлении состоит в следующем. Требуется найти управление и = u°(t) E L^to^T) такое, чтобы соот- соответствующее ему решение A.3) задачи Коши A.1)-A.2) удовлетворяло ус- условию х(Т)=хг A.4) и при этом функционал /=1Ы12= Г ?«?(*)<** A-5) достигал своего наименьшего значения. Функция и = u°(t) называется при этом управлением с минимальной энер- энергией. Решение этой задачи можно получить, используя теорему Леви, подобно тому как с помощью той же теоремы в предыдущей главе исследовалась про- проблема управляемости. Из формулы A.3) следует, что условие A.4) выполняется тогда и только тогда, когда управление u(t) удовлетворяет соотношению W(T, s)B(s)u(s) ds = С, A.6) где / J to ГТ1 = x1-W(T,t0)x°- [ W(T,s)f(s)ds. A.7) Jt0 Обозначая через hi(t) г-й столбец матрицы B*W*(T,s), а через q г-й эле- элемент вектора G, из A.6) получаем = Ci, г = 1, 2, ...,п. A.8) Пусть к (к ^ п) — максимальное число линейно независимых на отрезке [?о,Т] вектор-функций из системы h\(t),..., hn(t) и при этом h\(t),..., hk(t) линейно независимы. Тогда очевидно, что подпространство Н пространства LJ(?o,T), состоящее из элементов вида
1. Управление с минимальной энергией 289 является /с-мерным и любая вектор-функция h(t) Е Н однозначно представима в виде к г=1 Теорема 1.1. Если задача об управлении с минимальной энергией имеет решение, то это решение принадлежит Н. Доказательство. Пусть vP(t) — оптимальное управление и допустим, что оно не принадлежит Н. Тогда, согласно теореме Леви, его можно одно- однозначно представить в виде u°(t) = v(t) + w(t), v(t) e Я, w(t) JL Я, причем II«°(*)II2 = IK*)II2 + Ik(*)ll2. IK*)ll^o. (i.9) Так как w(t) JL iJ, a vP(t) удовлетворяет моментным соотношениям A.8), то получаем I h*(t)v(t) dt = Ci, г = 1, 2, ..., п, т. е. управление v(t) также переводит систему A.1) из состоя- состояния A.2) в состояние A.4). Из соотношений A.9) следует, что ||^(?)|| < ||ix°(t)||2, т. е. на управлении v функционал A.5) принимает значение, которое меньше, чем 1(и°). Это противоречит предположению о том, что и0 — управление с минимальной энергией. Введем в рассмотрение две матрицы /(hi, hi) ... (hbhn)\ /(hi, hi) ... (hi,hn) c\ I (h2,hi) ... (h2,hn) I дж I (h2,hi) ... (h2,hn) с \(hn,hi) ... (hn,hn)J \(hn,hi) ... (hn,hn) cj где По a ci,..., cn — компоненты вектора A.7). Матрица М представляет собой матрицу Грама вектор-функций hi (?),... ..., hn(?), a Mc — расширенная матрица системы п г = 1, 2, ..., п. A.10) Согласно определению функций /ц(?), г = 1, 2, ..., п, как столбцов матри- матрицы B*(t)W*(T,t) находим, что М можно представить в виде М= W(rj Jt0
290 Гл. 6. Простейшие задачи оптимального управления Теорема 1.2. Для того чтобы задача об управлении с минимальной энер- энергией имела решение, необходимо и достаточно, чтобы ранги матриц М и Мс совпадали. При этом оптимальное управление u°(t) представимо в виде к г=1 где к = rankM = rankMc; а постоянные jf являются решением системы уравнений г = 1, 2, A.12) в которой /ii,..., hk линейно независимы. Доказательство. Согласно предыдущей теореме задача об управле- управлении с минимальной энергией имеет решение тогда и только тогда, когда су- существует функция г=1 которая удовлетворяет моментным соотношения A.8). Подставляя эту функ- функцию в соотношения A.8), находим, что задача будет разрешима тогда и только тогда, когда система уравнений A.10) имеет решение, т. е. когда rankM = = rankMc. Тем самым первая часть теоремы доказана. Остается показать, что если задача имеет решение, то оптимальное управление представимо в виде A.11). Итак, пусть управление с минимальной энергией существует. Тогда оно принадлежит подпространству Н, размерность которого определяется макси- максимальным числом линейно независимых вектор-функций из системы /ii(?),... ...,hn(t). По предположению оно равно к. Поэтому и0 можно представить в виде к u°(t) = ^Mt), г=1 так как по предположению функции /ii(?),..., hk(t) линейно независимы на отрезке [?о,Т]. Подставим это управление в первые к моментных соотноше- соотношений A.8)х) В результате для определения 7г получим систему уравнений A.12). При заданных ci,..., с& эта система имеет единственное решение 7?? • • • > 7&- Следо- Следовательно, оптимальное управление имеет вид A.11). При практическом использовании доказанной теоремы не обязательно вы- вычислять матрицы М и Мс. Вместо этого можно воспользоваться следующим очевидным результатом. Следствие 1.1. Для того чтобы задача об управлении с минимальной энергией имела решение, необходимо и достаточно, чтобы постоянные Ci в моментных соотношениях A.8) были связаны между собой той же линейной зависимостью, что и вектор-функции h\(t),..., hn(t). ) Остальные п — к соотношений из A.8) являются следствиями предыдущих соотно- соотношений, так как постоянные с\1. .. , сп связаны между собой той же линейной зависимостью, что и вектор-функции hi,.. ., hn.
1. Управление с минимальной энергией 291 Пример 1.1. Пусть управляемый процесс описывается уравнениями где u\ и U2 — управляющие параметры, д — постоянная. Допустимыми управлениями считаются вектор-функции и = u(t) = для которых ui + U2\ dt < оо. о Требуется найти допустимое управление и = u(t) такое, чтобы соот- соответствующее ему решение системы уравнений A.13) с начальными условия- условиями удовлетворяло условиям xiA)=x2A)=x3A)=x4A) = 0, а функционал / = /о при этом достигал своего наименьшего возможного значения. В рассматриваемом случае W(t, s) = W(t — s) и A t 0 0\ 0 10 01 D 0 0 1th Б= 0 0 0 1/ и, следовательно, ¦©• A-15) Так как h\{t) и Ii2(t) совпадают, то рассматриваемая система не вполне управляема. Поэтому задача об управлении с минимальной энергией может иметь решение лишь при специальных начальных данных A.14). Для получе- получения этих данных построим вектор С (см. A.7)): С---/ <ft ^^ — I г» г» -1 -ill I / л r\ -1 -1 /11гл1 W't^» 1 0 0 0 1 1 0 0 0 0 1 0 о\ 0 1 1/ г 771 1 0 0 0 1 -t 1 0 0 0 0 1 0 о \ 0 1-t) 1 / /o 0 0 \-9 Отсюда получаем следующие компоненты вектора С: с\ = — к — Z, с2 = —Z, с3 = — т — п + -, с^ = — п + ^. Согласно следствию из теоремы 1.1, задача об управлении с минимальной энергией имеет решение тогда и только тогда, когда постоянные q связаны между собой той же линейной зависимостью, что вектор-функции hi(t). По- Поэтому задача имеет решение лишь при выполнении условия (см. A.15)) к + 1 = т + п--. A.16)
292 Гл. 6. Простейшие задачи оптимального управления Поскольку вектор-функции /ii(?), fi2(t) и h±{i) линейно независимы, то оп- оптимальное управление ищем в виде u\t) = 71 /ц (t) + j2h2(t) +74/14 (t), A.17) где постоянные 7i, 72 и 74 ищем из условия, что вектор-функция u°(t) удов- удовлетворяет моментным соотношениям / h*1(t)u°(t)dt = cl, [ h*2(t)u°(t)dt = c2, f h*4(t)u°(t)dt = c4. Jo Jo Jo Подставляя в эти соотношения функцию A.17) и учитывая при этом усло- условие A.16), получим систему уравнений относительно 72, 7з и 74: 27i/3 +72/2+ 74 = -*;-/, 7i + 72 + 274 = — п + д. Отсюда находим, что 7i = — 6fc — 6/ + Ъ(п — д), 72 = —21 + п — д, 74 = Зг + 4/ — -(п — д). Поэтому, согласно формулам A.15) и A.16), компоненты u\(t) и u^t) опти- оптимального управления u°(t) можно представить в виде u4(t) = -Зк - 41-(п - д) + 3Bfc + 21 - п + g)t, 3 1 ul(t) = -Зк - 21 + -(п - д) + 3Bfc + 2/ - n + p)t. Завершая анализ этого примера, еще раз напомним, что рассмотренная задача имеет решение лишь при выполнении условия A.16). 1.2. Обобщение задачи об управлении с минимальной энергией. Приведенный выше метод решения задачи об управлении с минимальной энер- энергией оказывается применим и при решении задач управления с другими кри- критериями оптимальности. Рассмотрим некоторые из них. Пусть D — положительный оператор, определенный на функциях u(t) из некоторого всюду плотного в L^O, T) многообрезия Vjj. Это означает, что: 1) D — симметричен в том смысле, что (Du,v) = (и, Dv) для всех и и v из VD; 2) выполняется неравенство {Du, и) ^ 0 при всех и Е Vd, причем равенство имеет место лишь при и = 0. Оператор D порождает энергетическое пространство, которое обозначим через TLd- Как было отмечено в предыдущей главе, оно образуется замыканием многообразия Vjj в норме [и]2 = (Du,u). Это пространство является гильбертовым, и скалярное произведение в нем определяется по формуле [u,v] = (Du,v). Будем рассматривать управляемый процесс, который описывается урав- уравнением A.1) с начальным условием A.2). Допустимыми управлениями будем
1. Управление с минимальной энергией 293 считать функции и = u(t), которые можно рассматривать как элементы пространства TLd- При этом под решением задачи A.1), A.2) при конкретном допустимом управлении u(t) будем понимать функцию A.3). При этом будем предполагать выполненными следующие условия (их в дальнейшем будем на- называть основными условиями). 1. Функция A.3) при каждом допустимом управлении является непрерыв- непрерывной в точках t = 0 и t = гт- 2. Существует постоянная N такая, что (hi(t), и) < N[u], г = 1,..., п, при всех и G 1^@, Т). Здесь hi(t) — вектор, компоненты которого являются элементами г-й строки матрицы W(T,t)B(t). Задача состоит в том, чтобы найти допустимое управление и = u(t) та- такое, чтобы соответствующее ему решение уравнения A.1) с начальным усло- условием A.2) удовлетворяло условию A.4) и при этом функционал I = [и]2 при- принимал наименьшее возможное значение. Примерами таких задач могут являться задачи оптимального управления со следующими критериями качества: a) h = / [u*(t)Q(t)u(t) + u*(t)R(t)u(t)u(t)]dt, A.18) Jo где Q(t) и R(t) — непрерывные симметричные матрицы, а допустимые управ- управления должны удовлетворять дополнительным условиям и@) = и(Т) = 0; б) I2= f u(t)Q(t)u(t)+u*(t) f K(tjS)u(s)ds Jo Jo dt, A.19) где матрицы K(t,s) и Q(t) непрерывны и K(t,s) = K*(s,t), Q{t) = Q*(t). Из A.18) и A.19) следует, что допустимые управления в этих случаях об- образуют энергетические пространства T~ClD, г = 1,2, порожденные соответствую- соответствующими положительными операторами d ™ +Я(*К 0<?<Т, + / K(t, s)u(s) ds, Jo причем оператор D\ должен быть определен на дважды непрерывно диффе- дифференцируемых функциях, удовлетворяющих условиям и@) = и(Т) = в, а опера- оператор L>2 — на функциях u(t) G Z/2@,T). Тогда критерии оптимальности A.18) и A.19) очевидным образом могут быть представлены как квадраты норм эле- элементов u(t) в соответствующих энергетических пространствах Нгв. Возвращаясь к поставленной выше задаче, выпишем моментные соотноше- соотношения: / h*(t)u(t)dt = cu i = 1,2,..., п. A.20) Jo Введем вспомогательные вектор-функции Vi(t) с помощью уравнений Dvi(t) = hi(t), г = 1, 2, ...,п. A.21)
294 Гл. 6. Простейшие задачи оптимального управления Так как hi(t) Е L^O^T) при любом г, то в силу второго основного условия эти уравнения однозначно разрешимы в TLd- Тогда моментные соотношения A.20) можно представить в виде [viM =cu г = 1, 2, ...,п, A.22) и рассматриваемую задачу теперь можно сформулировать следующим обра- образом. Среди всех допустимых управлений и = u(t) E Нв требуется найти уп- управление u°(t) такое, чтобы оно удовлетворяло условиям A.22) и при этом его норма была минимальной. В соответствии с теоремой Леви, и в предположении, что функции Vi(t) линейно независимы, решение задачи можно представить в виде <*Mt), A-23) г=1 где постоянные ai,..., ап однозначно определяются из системы уравнений п ^2[vi,vk]ak = Ci, г = 1, 2, ..., п. A.24) k=l Полученный результат можно сформулировать следующим образом. Теорема 1.3. Если строки матрицы W(T,t)B(t) линейно независимы, то задача об оптимальном управлении процессом для системы A.1) с допол- дополнительными условиями A.2) и A.4) и критерием оптимальности I = [и]2 однозначно разрешима в TLd и искомое управление представимо в виде A.23), где постоянные щ однозначно определяются из системы уравнений A.24). Следствие 1.2. Пусть /ii,... ,/i&, к < п, линейно независимы, а любые к + 1 функций из системы /ii,..., hn линейно зависимы. При этом сформули- сформулированная в теореме 1.3 задача имеет решение. Тогда оптимальное управление можно представить в виде к г=1 где ai,..., од однозначно определяются из системы уравнений к ,Vj]aj =Ci, i = 1, 2, ..., к. Доказательство этого следствия вытекает из того, что оператор D является линейным и в силу соотношений A.20) функции г>1,..., vn связаны между собой той же линейной зависимостью, что и /ii,..., hn. Следствие 1.3. Для того чтобы обобщенная задача об управлении с ми- минимальной энергией, указанная в теореме 1.3, имела решение, необходимо и достаточно, чтобы постоянные i,..., сп в соотношениях A.20) были связаны между собой той же линейной зависимостью, что и функции /ii,..., hn. Доказательство аналогично доказательству следствия из теоремы 1.2, и его приводить не будем, а для иллюстрации полученных результатов рассмотрим несколько примеров.
1. Управление с минимальной энергией 295 Пример 1.2. Пусть управляемый процесс описывается уравнениями Xi=X2~\-U+l, Х2 = U2 A.25) с начальными условиями =ж2@) =0. A.26) Условия, которым должно удовлетворять решение x(t) = {xi(?), x2(?)} в конеч- конечный момент времени, зададим в виде a;i(l) = -l, ж2A) = 2, A.27) а критерием оптимальности будем считать функционал f1 1[и) = / [2и\ + и\ Jo С помощью матрицы 1 V функционал / можно записать в виде Г1 I = / u*Audt, где и = {1x1,1x2} — управляющий вектор. Матрица А симметрична и поло- положительна. Поэтому ее можно рассматривать как положительный оператор, отображающий пространство L2@,1) в себя с помощью формулы v(t) = Au(t). Функционал 1[и] можно представить в виде 1[и] = [и]2. Он определен на всех функциях и = u(t) = {ui(?),u2(?)}, удовлетворяющих условию [2и\ + гх2 + 2uiix2] dt < 00. Следовательно, каждая из этих функций принадлежит L^O, 1) и определяет решение задачи A.25), A.26) формулами (t — s)u2(s)]ds, X2(t) = / Jo Jo Поэтому требование о выполнении условий A.27) приводит к моментным со- соотношениям Г1 Г1 / [u1(s) + (l-s)u2(s)]ds = -l, / u2(s)ds = 2. A.28) Jo Jo Если записать эти соотношения в виде A.20), то получим Вводим вспомогательные функции v\ и ^2 с помощью соотношений Aui = /li, Av2 = ^2- Отсюда находим, что
296 Гл. 6. Простейшие задачи оптимального управления и оптимальное управление ищем в виде (А ( 7i* 2 d " 2*) " 2 причем постоянные 71 и 72 определяем, подставляя это управление в момент- ные соотношения A.28). В итоге получаем уравнения 2 -7i -272 = -1, 72 = -1. Поэтому Пример 1.3. Пусть управляемый процесс описывается уравнениями Х\ = #2, %2 = —%2 + ^3> Хз = U, to < t < Т, A.29) где to и Т — фиксированные моменты времени. Начальное состояние системы зададим соотношениями Ж! (t0) = < ж2(*0) = а& ж3(*о) = 0. A.30) Систему требуется перевести в состояние Х1(Т)=х\, х2(Т)=х1 х3(Т)=0, A.31) а критерием оптимальности служит функционал / = Допустимыми управлениями считаются функции и = u(t) E L^(to,T). Чтобы воспользоваться теоремой 1.2, возьмем в качестве управляющего параметра фазовую переменную х% и введем обозначение v = х%- Тогда в соответствии с последним уравнением из A.29) будем иметь и = v, причем согласно условиям A.30) и A.31) справедливы равенства v(t0) = v(T) = 0. A.32) Таким образом, рассматриваемую задачу теперь можно сформулировать так. Процесс описывается задачей Коши Тл — То То — —То 4- V 0 < t < Т Х1-Х2, Х2- X2+V 0<t<i, Xl{to) = Ж1? X2{to) = Х2. Состояние системы в конечный момент времени задано соотношениями х1(Т)=х\, х2(Т)=х\, A.34) а критерием оптимальности служит функционал J[v] = / [v\t)+v\t)]dt, Jto причем допустимыми управлениями являются абсолютно непрерывные функ- функции v = v(t), удовлетворяющие условиям A.32). Для решения этой задачи введем оператор Bv = -i) + v, 0 < t < Т,
1. Управление с минимальной энергией 297 определенный на дважды непрерывно дифференцируемых функциях v = v(t), удовлетворяющих условиям A.32). Он является положительно определенным и порождает энергетическое пространство Нв •> элементами которого являются допустимые управления v = v(t), а скалярное произведение и норма в нем определяется формулами [v1,v2} = / [v1v2 + щу2} dt, [v]2 = [v,v]. Jt0 Поэтому критерий оптимальности J[v] можно представить в виде J[v] = [v]2. Для построения матрицы Коши W(?, s) однородной системы уравнений т = У2, т = -У2 A.35) воспользуемся полиномом Лагранжа-Сильвестра. Корнями характеристиче- характеристического уравнения этой системы являются числа р\ = 0 и р2 = — 1. Поэтому интерполяционный полином для произвольной функции f(p) имеет вид Полагая f(p) = exppt, находим, что W(t,s) = Wit -s)= exp{A(i - s)} = (I l ~J^t{t_~s) где А — матрица системы A.35), если ее записать в виде у = Ау. Выписываем теперь решение задачи Коши A.33): () = 1 - exp{-(t - to)}\ (x\ \x2(t)J \0 ехр{-(* - *о)} У V^2 * П l-exp{-(i-S)}W 0 \ » J ¦ Г* Jt0 \ 0 exP{-(t - S)} у» \v(s) Требование о том, чтобы это решение удовлетворяло условиям A.34), при- приводит к моментным соотношениям - ехр(? - T)]v(t) dt = х\ - х\ - A - ехр(?0 - Т))х\ = сь L L A.36) exp(t - T)v(t) dt = x\- exp(t0 - T)x% = c2. Чтобы левым частям этих соотношений придать вид скалярных произве- произведений в пространстве Нв, введем вспомогательные функции gi(t) и g2{t) соот- соотношениями (см. A.21)) (-91+92 = 1- ехр(? - Т), -д2 + д2 = exp(t - Т), t0 < t < Т, I 9i(to) = 9i(T) = 0, g2(t0)=g2(T) = 0. Тогда согласно теореме 1.2 оптимальное управление, минимизирующее функ- функционал J[v], определяется формулой °). A.37)
298 Гл. 6. Простейшие задачи оптимального управления Постоянные 71 и 72 находятся из системы уравнений, которая получается после подстановки управления A.37) в моментные соотношения A.36). Получаемая алгебраическая система уравнений легко решается. Определив таким образом постоянные 71 и 72 и вычислив затем функцию A.37), легко строим искомое управление u{t) с помощью введенного выше обозначения и = v. Пример 1.4. Расматривается управляемая химическая реакция в предпо- предположении, что реагент вводится в реактор с постоянной скоростью в течение заданного интервала времени 0 < t < Т2). Процесс описывается уравнением х = ах + Cщ A.38) где х — величина, характеризующая количество входного продукта, а и C — известные положительные постоянные, а и — концентрация некоторой состав- составляющей реагента. Функционал [ x2dt Jo берется в качестве меры изменения х в выходе конечного продукта. Расходы на содержание соответствующей концентрации и = u(t) пропорциональны и2. Тогда общая сумма расходов, связанная с управлением u{t) на интервале 0 < < t < Т определяются выражением h[u] = / [a2x2 ¦ Jo где а2 — масштабный множитель. Задача об оптимальном управлении состоит в минимизации функциона- функционала 1\ при связях A.38) и дополнительных условиях х@) = 0, х(Т) = 1. В этом случае управлению и = u(t) соответствует решение x(t) = C / Jo Двукратным применением известной формулы Дирихле можно доказать, что / x2(t)dt = f32 u(t) exp{a(t-s)} exp{ce(t - r)}u(r) dr dt ds = Jo Jo Jo Jo = f32 [ [ K(t,r)u(t)u(r)drdt, J J /о Jo где 1 v п ехр{се(Т-г)} при t > г, ^S)='ShWT-r)} — exp{ce(i - t)\ при а ) См., например: Ли З.Б, Маркус Л. Основы теории оптимального управления. — М.: Наука, 1972. -С. 21.
1. Управление с минимальной энергией 299 Поэтому функционал Д можно представить в виде h[u]= \а\ \ K(tJs)u(t)u(s)ds^u2(t)\dtJ a1=a2C2J Jo I Jo J а условие "попадания" движущейся точки в заданное конечное состояние х(Т) = 1 можно представить в виде dt = 1, A.39) f Г f / \а\ I K(t,s)u(t)v(s)ds + u(t)v(t) Jo I Jo где v(t) — решение интегрального уравнения Гт v(t) +а\ / K(t, s)v(s) ds = (Зехр{а(Т - t)}. A.40) Jo Обозначая через D интегральный оператор, определяемый формулой K(t, s)u(s) ds + u(t), функционал 1\[и] можно рассматривать как энергетическую норму элемента и G Ив-, а соотношение A.39) можно записать в виде [v,u] = 1. Оператор D, как нетрудно показать, является положительно определеннам, и поэтому оптимальное управление можно представить в виде и0 =jv(t), где v(t) — решение интегрального уравнения A.40), а постоянная 7 опреде- определяется равенством 7[^v] = 1- В силу того, что v(t) является решением инте- интегрального уравнения A.40), этому равенству можно придать вид 7/3 / exp{a(T-t)}v(t)dt = l. A.41) Jo При известной функции v(t) этим соотношением постоянная 7 определяется однозначно. Следовательно, остается найти функцию v(t) из уравнения A.40). Это уравнение перепишем в виде t ехр {а(Т — s)}v(s) ds + o а2 Гт + — ехр{се(Т - t)} / sh {a(T - s)}v(s) ds = C exp{a(T - t)}. A.42) a Jt означения ft fT r(t) = exp{ce(T -s)}v(s)ds, q(t) = sh{a(T - s)}v(s) ds, A.43) Jo Jt Вводя обозначения уравнение A.42) можно записать в виде av(t) exp{-ce(T - t)} + a\r(t) sh{a(T - t)}exp{-a(T - t)} + a\q(t) = a/3.
300 Гл. 6. Простейшие задачи оптимального управления Продифференцировав его, получаем хр{-а(Г - t)}] 2 d[r(t) sh{a(T - а - '-*)>] , ,2Л + a{q(t) = 0. A.44) dt ' dt Из соотношений A.43) следует, что r(t) =v(t)exp{a(T-t)}, q(t) = -v(t)sha(T-t), A.45) и, следовательно, из A.44) будем иметь (T-t)}} а - dt '-*)}] 2d[rsha(T- dt - a\f sh a(T - t) exp{ce(T - t)} = 0, или, что то же самое, d[r exp{-2ce(T - t)}] a\ d[r(l - ехр{-2се - (Г - а It +Т It Отсюда получаем уравнение г + 2аг — а\г = 0. Его общее решение можно записать в виде r(t) = 7i exp{-Ai((T - t)} + с2 ехр{-А2(Т - t)}, где Ai,2 = -a± Из уравнений A.45) находим, что v(t) = ciAi exp{-(Ai + а)(Г - t)} + с2А2 ехр{-(А2 + а)(Г - ?)}. Подставляя эту функцию в уравнение A.44) и приводя подобные члены, получим следующую систему уравнений относительно с\ и с2: Г а2 d UAi -— A.46) A.47) 1 - d 1- a Ai = 0, = 0, А2 Со 1 - = 0, exp{-AiT} + с2 ехр{-А2Т} = 0. Первые два уравнения из этой системы представляют собой равенства, кото- которые выполняются при любых с\ и с2, так как Ai и А2 определяются форму- формулой A.46). Из двух последних уравнений находим с\ и с2. Подставляя их в формулу A.47), однозначно определяем функцию v(t\ с помощью которой из равенства A.41) находим постоянную 7- Тем самым оптимальное управление найдено полностью.
2. Линейные системы с импульсным управлением 301 2. Линейные системы с импульсным управлением В предыдущем параграфе были рассмотрены задачи об оптимальном уп- управлении с квадратичным критерием качества в предположении, что допусти- допустимыми управлениями являются функции из L^to^T) или другого гильбертова пространства, порожденного некоторым положительным оператором. Рассмотрим теперь иную ситуацию. Как и выше, процесс описывается диф- дифференциальным уравнением x = A(t)x + B(t)u, to<t<T, B.1) при прежних предположениях относительно матриц A(t) и B(t). Однако до- допустимыми управлениями теперь являются вектор-функции u(t) = {ui(t),... ..., ixr(t)}, компоненты которых Uj(t) представимы в виде rrij %(*) = Е ЧкЧ* - Ф, J = 1, 2, ..., г, B.2) к=1 где S(t) — импульсная функция Дирака, ?i,... •)tr7Xlr — заданные моменты вре- времени, удовлетворяющие условиям to < t\ < t\+1 < Т. Управление процессом осуществляется выбором интенсивности мгновенных воздействий, т. е. выбо- выбором параметров г>1,..., УГуТПг. Управляющую функцию и = u(t) с компонентами вида B.2) в дальнейшем будем называть импульсной. Согласно определению функции S(t) имеем f Lp{tM{t — s) ds = (p(s) для любой непрерывной функции cp(t) и любого момента времени t = s из ин- интервала (tojT). Решение уравнения B.1), соответствующее такому управлению и = u(t) и удовлетворяющее начальному условию x(to)=xo = {xo1,...,x°n}, B.3) можно представить в виде Jto v=l 3 = *- где Wij(t.s) — элементы фундаментальной матрицы W(t, s), hiV(t, s) — элемен- элементы i-vo столбца матрицы B*(s)W*(t,s). Если кроме того предположить, что компоненты управления u(t) имеют вид B.2), то будем иметь П пТ Г Xi(T) = 2^wij(T,to)x°j + / 2^hiv(s)uv(s) ds, г = 1, 2, ..., n, B.4) 3 = 1 ^to v=l где hiv{s) = hiu(T,s). Рассматриваемая здесь задача состоит в следующем. Требуется найти вектор z = {i>i,..., vrrrir} такой, чтобы соответствую- соответствующее ему решение x(t) задачи B.1), B.3) при импульсном управлении u(t) с компонентами B.2) в заданный момент времени t = Т удовлетворяло усло- условию х(Т) = х^ = \х^ х^ 1 B Б)
302 Гл. 6. Простейшие задачи оптимального управления и при этом квадратичная форма I = z*Qz B.6) принимала наименьшее возможное значение. Матрица Q предполагается симметричной и положительной. Как следует из приведенного ниже анализа этой задачи, она легко реша- решается тем же методом, который был использован в предыдущем параграфе при построении управления с минимальной энергией. В силу соотношений B.4) и B.5) следует, что искомые величины vVj, z/ = 1, 2, ..., г, j = l, 2, ..., mUj должны удовлетворять условиям hivifyvvj = сг, г = 1, 2, ...,п, B.7) v=lj=l где п Соотношения B.7) можно переписать в виде ^jk^k — ^и ь — -L, Z/, ...,/6, V °/ /с=1 где т = mi + ... + mr, z^ — k-я компонента вектора г, а через djk обозначен соответствующий коэффициент в соотношениях B.7). Соотношения B.8) можно записать в виде где под (а, Ъ) понимается скалярное произведение в евклидовом пространст= Таким образом, задача сведена к отысканию вектора z E Ет, удовлетво- удовлетворяющего условиям B.9), и на котором функция B.6) принимает наименьшее возможное значение. Функцию B.6) можно рассматривать как энергетическую норму вектора г, определяемую положительным в Ет оператором (матрицей) Q. Поэтому для дальнейшего решения задачи можно воспользоваться тем же методом, который был применен в предыдущем параграфе. Сначала вводим вспомогательные векторы п • — С) п • 1 — 1 ^У т) L?i Vc^ Ы>1 , О -L , ?j у . . . , I О j которые в силу положительности матрицы Q определяются однозначно. Соот- Соотношения B.9) записываем в виде (Qqi,z)=a, г = 1,2,..., п. B.10) Тем самым левым частям равенств B.9) придан вид скалярных произведе- произведения в энергетическом пространстве оператора Q и требуется минимизировать энергетическую норму вектора г, связанного условиями B.10). Отвлекаясь от конкретного типа энергетических пространств, можно утверждать, что полу- полученная задача полностью совпадает с задачей отыскания элемента и, удов- удовлетворяющего условиям B.10) и минимизирующего функционал / = [и]2 (см. параграф 1). Поэтому можно считать доказанным следующее утвержде- утверждение.
2. Линейные системы с импульсным управлением 303 Пусть [qi,qk] = (qi,Qqk), а матрицы М и Мс определяются формулами м= \ I , мг,= Первая из этих матриц является матрицей Грама для векторов q\.... , gn, с помощью которой строится система уравнений fe, Qkbk =<к, г = 1, 2, ..., п. к=1 Вторая матрица является расширенной матрицей той же системы. Теорема 2.1. Для того чтобы существовал вектор z = {^i,... ,vmr}, удовлетворяющий соотношениям B.10) и минимизирующий квадратичную форму B.6), необходимо и достаточно, чтобы ранги матриц М и Мс совпа- совпадали. Если задача имеет решение, то минимизирующий вектор z° представим в виде г=1 где к = тапкМ, а постоянные 7ъ • • • ?7fc являются решением системы уравне- уравнений к ^[QuQjhj =(к, г = 1, 2, ..., /с, в которой qi,... ,qk линейно независимы. Вектор z° = {v®,..., v^r} определя- определяет управление u°(t) формулой (см. B.2)) которое является оптимальным в рассматриваемой задаче управления для системы B.1). Пример 2.1. Рассмотрим управляемый процесс, который описывается уравнением (см. пример 1.1) где g — постоянная, а и\ и U2 — управляющие параметры, допустимыми управ- управлениями будем считать вектор-функции и = u(t) = {ixi(t),U2(t)} с компонен- компонентами Г u\(t) = vi\5(t — 0.25) + г>12#(? — 0.5) + visS(t — 0.75), \ U2{t) = V216(t - 1/3) + V22$(t - 2/3). ^ ' ^ Задача состоит в том, чтобы перевести систему из состояния х@) = {/с, /т, п} в состояние хA) = {0,0,0,0},
304 Гл. 6. Простейшие задачи оптимального управления причем так, чтобы квадратичная форма J = v\\ + v\i + v\z + v\\ + ^22 B-12) принимала наименьшее возможное значение. При решении примера 1.1 было показано, что для рассматриваемой системы hi(t) = h3(t) = A1 а соответствующие моментные соотношения имеют вид / (l-t)[u1(t)+U2(t)]dt = -k-l, / u1(t)dt = -l, Jo Jo Jo u2(t)] dt = -m - n + -, = -nJr g. Подставляя сюда значения u\(t) и U2(t) из формул B.11), будем иметь >11 +^12 +^13 = -U )уц + 6^12 + 3^13 + 8^21 + 4^22 — —12(тп + п) + 6^, ;11 + ^12 + ^13 + ^21 + ^22 — ~п + #• Эти соотношения можно записать в виде (qijz) = cij г = 1,2,3,4, B.13) где qi=qs = {9, 6, 3, 8, 4}, q2 = {1,1,1, 0,0}, ^4 = {1,1,1,1,1}, ci = —12(fc + Z), C2 = —/, сз = — 12(m + n) + 6^, C4 = —n + g. При этом квадратичную форму B.12) можно записать в виде Таким образом, задача сведена к определению вектора z минимальной дли- длины, удовлетворяющего условиям B.13). Так как векторы q\ и q% совпадают, то для разрешимости задачи необходимо и достаточно, чтобы выполнялось усло- условие с\ = сз, т. е. k + l-m-n + -=Q. Zl Это же условие было необходимым и достаточным для разрешимости за- задачи в примере 1.1 (см. A.16)). Предположим, что оно выполнено. Тогда на основании теоремы 2.1 искомый вектор z° можно представить в виде B.14)
3. Управление системой с линейным критерием оптимальности 305 где постоянные 72, 7з и 74 определяются подстановкой вектора z° в последние три соотношения из B.13). В результате получим систему уравнений 372 1872 + 20б7з + 3074 = -12(m + n) + 6д, . З72 + ЗО73 + ^74 = д - п Отсюда находим, что 72 = п/2 - д/2 - 5Z/6, 7з = -6т/13 - Зп/13, 74 = Збт/13 + 23п/2б + д/2 + 1/2. Подставляя найденные значения 72, 7з и 74 в вектор B.14)и учитывая, что он представим в виде z = {^11,^12,^13^21^22}^ находим его компоненты v°n = -— Bm ~n)--l, v°12 = -- I, v°13 = — Bm + n) - - Z, v°21 = ~ B4m + 25n) + U, v°22 = ^ B4m - n)^ @ + /)• Подставляя эти значения Vj в функции B.11), определим компоненты оп- оптимального управления: гх?(?) = !;?!*(* - 0.25) + v%25(t - 0.5) + г;?3*(* - 0.75), Заканчивая анализ задач об оптимальном управлении линейными система- системами с импульсными управлениями, отметим одно важное обстоятельство. При формулировке задачи предполагалось, что моменты времени tJK в функциях B.2) являются заданными и удовлетворяют условию t0 < t) < t)+1 < Т, г = 1, 2, ..., г; j = 1, 2, ..., тг B.15) Однако изложенный метод построения оптимального управления допускает некоторое продолжение. Он позволяет решить задачу и в том случае, когда указанные моменты времени не фиксированы, а лишь удовлетворяют услови- условиям B.15). При решении такой задачи сначала строится оптимальное управление по изложенной выше методике в предположении, что моменты времени ?*• счи- считаются известными. В итоге и полученное управление, и значение критерия оптимальности на этом управлении (обозначим его через /°) будут зависеть от tj. После этого находим точки ?*• минимума /° при условии B.15). 3. Управление линейными системами с линейными критериями оптимальности При рассмотрении задач об оптимальном управлении с квадратичными критериями оптимальности мы каждый раз сводили их к решению системы линейных алгебраических уравнений, используя теорему Леви. Однако, как показывает содержание настоящего и последующих параграфов, геометриче- геометрические методы подобного типа оказываются полезными и при решении ряда задач оптимального управления, когда критерием оптимальности служит линейный функционал, а квадратичный функционал используется для характеристики
306 Гл. 6. Простейшие задачи оптимального управления ограничений на допустимые управления. В ряде таких задач построение оп- оптимального управления сводится в конечном счете к решению алгебраических уравнений. Итак, пусть управляемый процесс описывается уравнением у = A(t)y + B(t)u + <p(t), to<t<T. C.1) Здесь у = {г/о ? 2/1 ?• • • ,Уп} ~ (п + 1)-мерный фазовый вектор, cp(t) = {(fo(t), (fi(t),..., (fn(t)} — вектор постоянно действующих внешних возмущений, A(t) и B(t) — непрерывные матрицы размерностей (п + 1) х (п + 1) и (п + 1) хг соответственно, u = {ui,..., гхг} — управляющий вектор. Допустимыми управлениями считаются функции и = u(t) Е L^^q^T). Как и в предыдущих параграфах, под решением уравнения C.1) с начальным усло- условием V(to) = У° C-2) и управлением и = и(?) понимается вектор-функция у = y(t) с абсолютно непрерывными компонентами, определяемая формулой y(t) = V(t, tQ)y° + [ V(t.s) [B(s)u(s) + ф)} ds, C.3) где V(t,s) — фундаментальная матрица решений однородного уравнения у = A(t)y, нормальная при t = s. В дальнейшем через х будем обозначать n-мерный вектор с компонентами г/i,..., уп, который получается из у отбрасыванием нулевой компоненты г/о. Поведение вектор-функции x(t) описывается уравнением + f(t,y0), to<t<T, C.4) с начальным условием x{tQ)=x° = {yl...,y°}, C.5) где матрицы C(t) и D(t) получаются из A(t) и B(t) отбрасыванием первых столбцов и первых строк, a f(t.y0) = {fi(t, г/0), • • •, fn(t, г/о)}, где fi(t, г/о) = %-о2/о + ^г@, г = 1, 2, ..., п, aw — г-й элемент первого столбца матрицы A(t). Ясно, что задача C.4), C.5), вообще говоря, не может быть решена незави- независимо от исходной задачи C.1), C.2), так как она содержит п + 1 неизвестных г/о? г/1? • • • ?г/п? а уравнение C.4) с начальными условиями C.5) определяет век- вектор х = {г/1,...,г/та}. Рассматриваемая здесь задача состоит в следующем. Требуется найти допустимое управление и = u°(t), to ^ t ^ T, такое, чтобы: 1) опо удовлетворяло условию Ы\г2 < i/; C.6) 2) соответствующее ему решение задачи C.1), C.2) удовлетворяло ус- условию х(Т) = х1; C.7)
3. Управление системой с линейным критерием оптимальности 307 3) функционал 1[и] = уо(Т) C.8) достигал своего наименьшего возможного значения. Здесь постоянная и и вектор х1 заданы. Прежде чем приступать к решению задачи, отметим, что такая ее фор- формулировка в известном смысле является канонической: к такому виду можно привести другие задачи минимизации линейных функционалов, определенных на решениях задачи C.1), C.2) с ограничением C.6) на допустимые управле- управления. Отметим лишь одну из них. Пусть управляемый процесс описывается уравнением C.4) с начальным условием x(to)=x°, C.9) причем функция / в уравнении C.4) не зависит от уо. Допустимыми управ- управлениями считаются те же функции и = u(t) Е L^to^T). Среди них требуется найти управление и = u°(t) такое, чтобы соответствующее ему решение зада- задачи C.4), C.9) удовлетворяло условию C.8), а функционал h [и] = / [w*(s)x(s) + v*(s)u(s)] ds Jt0 достигал бы своего наименьшего возможного значения. Здесь w(t) и v(t) — заданные непрерывные вектор-функции. Чтобы показать, что эта задача сводится к задаче минимизации функцио- функционала C.8), возьмем конкретное управление и = u(t) и обозначим через x(t) соответствующее ему решение задачи C.4), C.9). Введем вспомогательную функцию yo(t), положив yo(t) = w*{t)x{t) + v*{t)u{t), C.10) 2/о(*о)=0, C.11) где в — нулевой вектор. Тогда совокупность уравнений C.4) и C.10) можно записать в виде C.1), а условия C.5) и C.11)) можно объединить и записать в виде C.2). В силу соотношений C.10) и C.11) функционалу 1\[и} можно придать вид C.8). 3.1. Постановка задачи и общий ее анализ. Вернемся теперь к сфор- сформулированной выше общей задаче минимизации функционала C.8). Обозначим через hi(t) г-й столбец матрицы B*(t)V*(T, t). Тогда из соотношений C.2), C.3) и C.7) будем иметь / h*(t)u(t)dt = cu г = 1, 2, ...,п, C.12) Jt0 где q, г = 1, 2, ...,п, — компоненты вектора С = у(Т) - V(T, to)y° - [ V(T, з)ф) ds. C.13) J Если учесть лишь верхнюю строку в матричном равенстве C.13), то функцио- функционалу C.8) можно придать вид h[u] = I где
308 Гл. 6. Простейшие задачи оптимального управления b = V°(T,to)yo + Здесь Vo(T,t) — верхняя строка матрицы V(T,t). Величина Ъ не зависит от управления, и поэтому вместо функционала Д можно брать функционал h*(t)u(t)dt. Полученную таким образом задачу сформулируем следующим образом. Требуется найти функцию и = u(t) e Lr2(to,T) такую, чтобы она удовле- удовлетворяла соотношениям C.6) и (huu) = Ci, г = 1, 2, ...,п, C.14) а функционал I0[u] = (h0, и) при этом принимал наименьшее возможное значение. Здесь (u,v) — скалярное произведение элементов из U2. Теорема 3.1. Если сформулированная выше задача имеет решение, то оно принадлежит подпространству Н С Ь^о^Т), элементы которого пред- ставимы в виде п и = У ^jhj. г=0 При этом искомое управление vP(t) принадлежит границе шара C.6), т. е. \\и°\\ = и. Доказательство. Пусть задача имеет решение и u°(t) — оптимальное управление. Согласно теореме Леви его однозначно можно представить в виде u°(t) = v(t) + g{t). v(t) e H, g(t) _L H, причем IK°l|2=ll«l|2 + ll5l|2. C-15) Предположим, что щ ? H. Тогда очевидно, что 1Ы1^о. Компонента g(t) не влияет на величину /о[^о] (так как (ho,g) = 0). Она также не влияет на то, удовлетворяет ли uo(t) условиям C.14). Она лишь фи- фигурирует в условии C.6) в том смысле, что согласно равенству C.15) должно выполняться условие Так как по предположению ||д|| ф 0, то из этого условия получаем Таким образом, получился следующий результат. Если рассматривать задачу в конечномерном пространстве Н, то эле- элемент v является ее решением. Он удовлетворяет ограничениям C.6) и C.14), а также минимизирует функционал /о. При этом согласно неравенству C.16) этот элемент лежит строго внутри шара C.6). Это противоречит известному факту из функционального анализа, согласно которому линейный функционал
3. Управление системой с линейным критерием оптимальности 309 на замкнутом ограниченном множестве достигает своего наименьшего значе- значения на границе множества. Полученное противоречие означает, что ||д|| = 0, a ||u°(?)|| = v. Теорема 3.2. Если вектор-функции ho(t)...., hn(t) линейно независимы на отрезке [to,T], тпо оптимальное управление (если оно существует) опре- определяется по формуле Л*) = Х>Л(*). C-17) г=0 где постоянные 7о?7ъ • • • >7п определяются из системы уравнений hi,hj)jj=ci, г = 1, 2, ...,п, C.18) 3=0 i,bjbi7i = - C-19) i,j=0 Доказательство. Так как, согласно предыдущей теореме, управле- управление u°(t) принадлежит Н, то оно представимо в виде C.17). Эта функция должна удовлетворять условиям C.6) и C.14). Отсюда следует, что постоян- постоянные 7о>7ъ • • • ?7п должны удовлетворять уравнениям C.18) и C.19). Пример 3.1. Пусть управляемый процесс описывается уравнением х0 = xi + щ, ±i = u2j t0 < t < Т, C.20) с начальными условиями xo(to)=a, хг = Ь. C.21) Допустимыми управлениями считаются вектор-функции и = u(t) = {ix () {() -^2- Требуется найти управление и = vP(t) такое, чтобы оно удовле- удовлетворяло условию t < 1, C.22) Но соответствующее ему решение x(t) = {xi(t),X2(t)} задачи C.20), C.21) удовле- удовлетворяло условию хг(т) = е, а функционал 1[и]=хо(Т) C.23) принимал наименьшее возможное значение. В рассматриваемом случае V(t,s)=(l f-S и поэтому ho(t) = {l,T-t}, fti(t) = {0,1}, а соотношения C.13) дают fT / u2(t)dt = -b. C.24) Функционал C.23) можно представить в виде
310 Гл. 6. Простейшие задачи оптимального управления I = хо(Т) = а + Ъ(Т - t0) + / [u^t) + (Г - t)u2(t)} dt. Jt0 Таким образом, задача сводится к отысканию управления u(t), минимизи- минимизирующего функционал /оМ = / [^i@ ~1~ (-^ ~~ t)u2(t)] dt при условиях C.21) и C.23). Согласно теореме 3.2 оптимальное управление ищем в виде / 1 \ Д) 7/1 У" I — Л/п /7 п (~t I —I— Л/1 П л (~t\ — Л/n I I —I— Л/1 иуь j — /0' ''О V / ^^ /l'^l V/ — /О I ^ j- I * /1 т. е. ^oi(^) = 7о, ^02@ = 7о(^ - t) + 7i- C.25) Подставляя эти функции в C.24) и в равенство получим систему уравнении относительно 7о и 7i , „ 26 7б 1 + ^ '""-T-to' (Т - toJ 7071 (Т -t0) T-t0 Исключая из этой системы 71, получим квадратное уравнение относитель- относительно 70 z2\ z-b2 J^J= Z2 ' Z = T-t0. Отсюда следует, что задача разрешима тогда и только тогда, когда Ь2 < Т - t0. Если это условие выполняется, то имеем два значения 70 : Д №-&2) 2 V 7 ,Д №) 2 70 "V 12+ z2 ' 7о" 12 +г2 ' /0 V 12 + z2 ' Им соответствуют два значения 71 • 1 fr 1 2^2 7i = -- -7о? 7i = -- -7о- Подставляя функции C.25) в функционал /о и учитывая, что (см. первое условие из C.2)) 1 Г26 находим ^о 7о^ о а оптимальное управление имеет вид Mi(t)=7o,
3. Управление системой с линейным критерием оптимальности 311 3.2. Случай линейно зависимых векторов ho, ^ъ • • •? hn. В теоре- теореме 3.2 предполагалось, что функции ho(t), /ii(t),..., hn(t) линейно независимы. Рассмотрим теперь другие возможные ситуации. Теорема 3.3. Если существуют постоянные ai,... , an такие, что ho(t) = aifti(t) + ... + anhn(t) C.26) для всех t G [^о,Т] и вектор-функции /ii(?),..., /гп@ линейно зависимы, то в подпространстве Н С Lr2(to,T) (см. теорему 3.1) существует единственное управление u°(t), которое удовлетворяет условиям C.14). При выполнении условия ||и01| > z/ задача об оптимальном управлении для системы C.1) с критерием C.8) -м ограничением C.6) пе имеет решения. Если же \\vP\\ = z/, то решение единственно, и им является vP(t). В слу- случае, когда \\vP\\ < \±, решением задачи является любое управление вида u(t) = u°(t)+g(t), где g(t) — любая функция, ортогональная подпространству Н и удовлетво- удовлетворяющая неравенству |Ы|2^2-|к°1|2- C-27) Минимальное значение функционала I при этом определяется по формуле C.28) где Ci — компоненты вектора C.13). Доказательство. Пусть условие C.26) выполняется и h\(t),..., hk(t) линейно независимы. Здесь к — максимальное число линейно независимых элементов в системе /ii,..., hn. Тогда любой элемент подпространства Н пред- представим в виде к г=1 При этом очевидно, что в Н существует единственный элемент и = ix°(t), удовлетворяющий условиям C.12). Его можно представить в виде к г=1 где 7? образуют решение системы уравнений , hj)jj =Ci, г = 1, 2, ..., к. Учитывая, что функционал C.8) можно записать в виде [ V°(T,t)<p(t)dt+ I ho(t)u(t)dt, Jto Jto находим, что согласно зависимости C.26) это значение на u°(t) принимает вид C.28). Если ||u°|| ^ z/, то управление и0 удовлетворяет условию C.6), и оно явля- является решением задачи. Кроме того, любая функция вида u°(t)+g(t), g±H,
312 Гл. 6. Простейшие задачи оптимального управления также является решением задачи, если она удовлетворяет условию C.6). Это условие будет выполняться на функции и0 -\-д, д _1_ Н, тогда и только тогда, ко- когда функция g(t) удовлетворяет неравенству C.27). В случае, когда ||u°|| > z/, функция и0 не удовлетворяет условию C.6), и в силу линейной независимости вектор-функций /ii(t),..., hk(t) нет других функций из L^tchT), удовлетво- удовлетворяющих условиям C.14). Поэтому если ||u°|| > z/, то задача об оптимальном управлении не имеет решения. Пример 3.2. Пусть управляемый процесс описывается уравнениями ж'о = xi + A - t)v,2, xi = иъ х2 = ж3, х3 = ui + и2 - д. Требуется перевести систему из состояния ж@) = {/с, /,m, п} в состояние причем так, чтобы выполнялось условие а функционал достигал своего наименьшего возможного значения. Как показано в примере 1.1, для рассматриваемой задачи имеем ho(t) = h2(t) = A1J) . М*) = (J) . Ш = ({ Таким образом, эти вектор-функции удовлетворяют условиям теоремы 3.3. При этом в рассматриваемом случае в соотношении C.26) п = 3, а\ = аз = О, а2 = 1. Оптимальное управление следует искать в виде Постоянные 7?•> 72 и 7з определяются из уравнений, которые получаются под- подстановкой этого управления в моментные соотношения (Ы, и) =Ci, г = 1,2,3, где с\ = —I. C2 = — п — т + -, сз = — п + ^. Здесь нет необходимости повторять вычисления, связанные с определением этих коэффициентов. Они были выполнены при решении примера 1.1. Компо- Компоненты управления u°(t) определяются формулами 1 3 vfl(t) = — Gд - UI + 6т + An) - - Bm + n)t, 2 3 A -L i Таким образом, это управление будет оптимальным, если постоянные к, I, пит таковы, что Г1 °(?)+О(?)]й<1
3. Управление системой с линейным критерием оптимальности 313 Для тех значений постоянных /с, I, m и п, для которых это неравенство не выполняется, задача не имеет решения. В заключение рассмотрим случай, когда ho (t) не является линейной ком- комбинацией вектор-функций /ii(t),..., hn(t), а эти п последних функций линейно зависимы. Теорема 3.4. Пусть: 1) не существует постоянных ai, a2,..., ап, при которых справедливо ра- равенство C.26); 2) в системе /ii(?),..., hn(t) максимальное число линейно независимых вектор-функций равно р (р < п) и h\(t),..., hp(t) линейно независимы. Тогда для разрешимости задачи об оптимальном управлении линейной системой C.1) с критерием C.8) и дополнительными условиями C.2), C.6) и C.7) необходимо, чтобы компоненты ci,...,cn вектора C.13) были связа- связаны между собой той же линейной зависимостью, что и вектор-функции i (),, п() Если это условие выполнено, то оптимальное управление представимо в виде р «"(*) = Х>Л(*). C.29) г=0 где постоянные 7г определяются из требования, что управление C.29) удов- удовлетворяет условиям (hi, и) = Q, г = 1, 2, ..., р; \\и°\\2 = и2. Доказательство теоремы довольно простое. Необходимость линейной зависимостью между постоянными с\,..., сп вытекает из условия управляе- управляемости системы, которое требует существования хотя бы одного управления и = u(i), удовлетворяющего моментным соотношениям. Если оно существует, то доказательство того, что управление C.29) является оптимальным, по су- существу совпадает с доказательством теоремы 3.1. При этом нужно лишь учесть, что в рассматриваемом случае последние п — р соотношений в C.12) являются следствием первых р из C.12) Пример 3.3. Рассмотрим управляемый процесс, который описывается си- системой уравнений ^2 = xsj xs = u\ + U2 — g, 0 < t < 1, v при ограничениях на допустимые управления, определяемых неравенством / [ul(t)+u22(t)]dt^l. Jo Начальное и конечное состояния системы определим соотношениями х@) = {/, к, ш, п, }, Х1{1) = х2A) = х3A) = 0. Критерием оптимальности берем функционал 1[и]=хоA). В этом случае имеем A 0 0 t-s 1 0 0 0 1 0 0 0
314 Гл. 6. Простейшие задачи оптимального управления Следовательно, с\ = —к — Z, C2 = —т — п + д/2, сз = — n + д, Таким образом, вектор-функции ho(t), hi(t), Ii2(t) и hs(t) удовлетворяют условиям теоремы 3.3, ho(t) не является линейной комбинацией остальных hi(t), а из трех функций hi(t), Ii2(t) и hs(t) первые две совпадают. Поэтому для разрешимости задачи необходимо, чтобы с\ = С2, т. е. чтобы выполнялось равенство к + / = т + п — д /2. Если это условие выполнено, то решение задачи ищем в виде u°(t) = 70^0 @ + 72^2@ + 7з^з(?)> C.31) т. е. гх?(?) = 7о + 72 + 7з - 72^, y%(t) = 72 + 7з - 72^- Постоянные 7г определяются из требования, чтобы вектор-функция u{t) удовлетворяла условиям (U. 7Л — г. ?- _ о о ||?/||2 — 1 где скалярное произведение и норма берутся в ^@,1). Подставляя и = u°(t) из C.31) в эти соотношения, получим систему уравнений для определения 7о5 72 и 7з: / о\ 37о + 472 + 127з = —6 [т + п , V 2/ 7° + 72 + 27з = -п + ?, C.32) 72 7о + 7о[72 + 27з] + -^ + 27з + 2727з = 1. Вводя обозначения г = д/2 — п — т, q = д — п, из первых двух уравнений системы находим, что 72 = 3 \q - г - i7o , 7з = ^[Зг - 2q + 70]. C.33) Последнее уравнение системы C.33) теперь можно привести к виду 7о - 4а7о + 46 = 0, где а = Ад — Зг, 6 = 2 + 2д2 + г2 — 4rg. Отсюда получаем, что система C.32) имеет вещественные решения, если а2 - Ъ > 0. При выполнении этого условия уравнение C.33) имеет, вообще говоря, два ре- решения. Им соответствуют два управления, определяемые по формулам C.31). То из них, на котором критерий оптимальности принимает меньшее значение, и будет искомым решением задачи. Этот пример показывает, что если функции /ii(t),..., hn(t) и постоянные ci,..., сп удовлетворяют условиям теоремы 3.3, оптимального управления мо- может и не быть, потому что система уравнений C.30) может оказаться неразре- неразрешимой. Во всех рассмотренных теоремах этого параграфа анализировалась задача минимизации линейного функционала, когда на класс допустимых управлений
4- Задача об оптимальном быстродействии 315 накладывалось квадратичное ограничение C.6). Однако изложенную методику решения задач можно применить и в том случае, когда вместо C.6) берется ограничение [и] < z/, где [и] — энергетическая норма элемента и, порожденная некоторым положи- положительным оператором. 4. Задача об оптимальном быстродействии при ограниченной энергии управления Одной из распространенных задач в теории управления и в ее разнообраз- разнообразных приложениях является задача об оптимальном быстродействии, когда требуется переводить систему из одного состояния в другое за кратчайшее время. При этом обычно накладываются различные ограничения на допусти- допустимые управления, а иногда и на фазовое состояние системы. В этом параграфе рассматривается ряд задач такого типа, когда заданы ограничения на энер- энергию управления. В рамках излагаемого здесь способа построения оптимального управления этот тип задач представляет собой в известном смысле продолже- продолжение тех задач, которые рассматривались в предыдущих параграфах. 4.1. Постановка основной задачи и ее анализ. Пусть управляемый процесс описывается уравнением x = A(t)x + B(t)u + f(t) D.1) и начальным условием ж(*0) = х°, D.2) где A(t) и B(t) — непрерывные матрицы размерностей п х п и п х г соот- соответственно, f(t) — заданная функция из L^to, T). Допустимыми управлениями считаются функции и = u(t) G L^to^T). Момент времени t = Т является свободным. Каждое допустимое управление определяет некоторое решение x(t) зада- задачи D.1), D.2). Среди этих решений есть такие, траектории которых проходят через заданную точку х1. Рассматриваемая здесь задача состоит в следующем. Требуется найти управление и = u(t) такое, чтобы оно удовлетворяло неравенству IMlL«(to,T) < *Л D-3) а соответствующее ему решение x(t) задачи D.1), D.2) удовлетворяло усло- условию х(Т)=х1. D.4) При этом функционал I[u] =T-t0 должен достигать своего наименьшего возможного значения. Излагаемый здесь способ решения задачи основан на использовании ре- результатов решения задачи об управлении с минимальной энергией. Сначала предполагаем, что момент времени t = Т задан. Соответствующее управление с минимальной энергией при условиях D.2) и D.4) обозначаем через u°(t,T). Как известно, его можно получить следующим способом.
316 Гл. 6. Простейшие задачи оптимального управления Обозначим через h\{t,T),... ,hn{t,T) столбцы матрицы B*(t)W*(T,t) и для определенности будем считать их линейно независимыми. Согласно тео- теореме 1.2 можно записать п г=1 где величины 7ъ • • • > 7п однозначно определяются из системы уравнений LU. — с(Т) 7 — 12 п (А 6) в которой величины Ci(T), г = 1, 2, ...,п, являются компонентами вектора (см. формулу A.7)) с(Т) = х1 - W(T, to)x° - / W(T, t)f(t) dt. D.7) Jt0 В рассматриваемом случае нуж:но учитывать зависимость управления уР и вектора с от Т, так как на следующем этапе решения требуется изменять ве- величину этого параметра и тем самым каждому Т ставить в соответствие свое управление с минимальной энергией y°(t,T). Каждому такому управлению со- соответствует свое значение функционала J[u] = ||u||. Вводя функцию <p(T) = J[u% D.8) находим те значения Т, to < Tq < T\ < ..., которые удовлетворяют уравнению где постоянная v взята из условия D.3). Наименьшее из этих Т^ и определяет время оптимального быстродейст- быстродействия То —to. Чтобы в этом убедиться, требуется установить ряд свойств функ- ции Свойство 4.1. Функция (р(Т) непрерывна при Т е (?0,оо). Доказательство. Так как по предположению матрицы A(t) и B(t) не- непрерывны, то вектор-функции /ii(t,T),..., hn(t,T) непрерывны по t и Т. Не- Непрерывно зависит от Т и вектор с(Т), определяемый формулой D.7). Так как определитель системы D.6) отличен от нуля, то величины 7ъ---?7п непре- непрерывны по Т. Следовательно, непрерывна по Т и функция <^(Т), определяемая формулой D.8). Свойство 4.2. Если векторы хо и х1 в условиях D.2) и D.4) различны, то функция <р(Т) удовлетворяет условию lim ф(Т) = оо. Доказательство. Из соотношений D.5), D.6) и D.8) следует, что Ч>(Т) = . Y^ сг (ГOг (Т) = л/с^^М-^Т^Т), D.9) г=1
4- Задача об оптимальном быстродействии 317 где М — матрица системы D.6). Так как в рассматриваемом случае hi(t,T)hj(t,T)dt, to то определитель Л(Т) системы D.6) стремится к нулю при Т —> to + 0, а ве- величины Сг(Т) остаются конечными, так как х° ^ х1. Поэтому из определения функции (р(Т) по формуле D.9) следует, что <р(Т) —> сю при Т —> to + 0. Учитывая эти свойства функции (р(Т), находим, что в плоскости пере- переменных у и Т график функции у = <^(Т), to < Т < сю, представляет со- собой непрерывную кривую, асимптотически приближающуюся к прямой Т = to (рис. 6.4.1). На той же плоскости проведем прямую у = z/, где z/ — постоян- постоянная из неравенства D.3). Абсциссы пересечения этих линий обозначим через То, Ть... (То <Ti <...). Покажем, что Tq — to— время оп- оптимального быстродействия. Согласно у определению <р(Т) является наимень- наименьшим значением функционала i I ^ /т\ to To на множестве тех управлений, которые ! \ \%т^У \ \ J переводят систему D.1) из состояния „ D.2) в состояние D.4) за время Т — to. О Для любого такого управления и = = u(t, T), очевидно, выполняется нера- неравенство (р(Т) < \\u(t,T)\\. Поэтому оче- очевидно (см. рис. 6.4.1), что при Т < То не существует управления, которое пе- переводило бы систему из состояния D.2) в состояние D.4) за время Т — to и удовлетворяло бы условию Рис. 6.4.1 Возьмем теперь момент времени Т = То. Из рис. 6.4.1 видно, что <Р(ТО) = v. С другой стороны, ip(To) является значением функционала J[u] на управлении с минимальной энергией и = ix(?,Tq), которое в силу линейной независимо- независимости функций /ii(?, Tq), ..., hn(t, Tq) определяется однозначно. При этом момент времени То является наименьшим из всех То, Т\, Т^,... Поэтому можно считать доказанным следующее утверждение. Теорема 4.1. Если функции /ii(t,T),..., hn(t,T) (столбцы матрицы B*(t)W*(T,t)) линейно независимы на достаточно большом отрезке времени to < t < Т, а векторы х° и х1 в условиях D.2) и D.4) различны, то задача об оптимальном быстродействии при достаточно большом и (см. условие D.3)) имеет решение. При этом оптимальное управление строится по формуле
318 Гл. 6. Простейшие задачи оптимального управления в которой 7ь 2 = 1, 2, ...,п, определяются из системы уравнений , hj)-ij{T) = сг{Т), г = 1, 2, ..., п, а момент времени То является наименьшим значением Т, to < Т, при кото- котором выполняется равенство где М(Т) — матрица Грама вектор-функций hi(t, Т),..., hn(t, Т). В этой теореме есть два недостаточно четко определенных условия. Во- первых, предполагается линейная независимость вектор-функций /ii(?,T),... ..., hn(t,T) на достаточно большом, но не определенном точно отрезке време- времени to < t < Т. Во-вторых, предполагается что число v является достаточно большим. Первое из этих требований не является существенным. Оно было введено для того, чтобы обеспечить представление управления с минимальной энергией для любого Т в одном и том же виде D.5). Если это ограничение снять, то при представлении управления с минимальной энергией при различ- различных Т его нужно увязывать с числом линейно независимых вектор-функций /ii(?,T),..., hn(t,T). В результате доказательство теоремы оказывается более громоздким. Второе требование (относительно числа и) является существенным. При малом v задача может не иметь решения, поскольку может не оказаться ни од- одного управления, подчиненного условию D.3), которое переводило бы систему из состояния D.2) в состояние D.4). Этому факту можно дать и геометрическое толкование. Кривая у = (f(T) (см. рис. 6.4.1) не обязательно стремится к нулю, когда Т —> сю. Поэтому линии у = (p(R) и у = v при малом v могут и не пересекаться. Пример 4.1. Пусть управляемый процесс описывается уравнениями ±1 = ?2, ±2= U D.Ю) с начальными условиями xi@)=a, x2{0) = b. D.11) Допустимыми управлениями считаются функции и = u(t) E /2@, T) при доста- достаточно большом Т. Требуется найти управление vP(t) и соответствующий ему момент време- времени То такие, что: а) выполнялось неравенство Jo б) соответствующее этому управлению решение задачи D.10), D.11) удов- удовлетворяло условиям xi(T0) = х2(Т0) = 0; D.12) в) функционал 1[и] = Т,
4- Задача об оптимальном быстродействии 319 определенный на управлениях, переводящих систему D.10) из состояния D.11) в состояние D.12), принимал бы наименьшее возможное значение на управле- управлении u°(t). Фундаментальная матрица Коши системы D.10) имеет вид t — S и поэтому hi(t,T) = T — t, Ji2(t,T) = 1. Соответствующие моментные соотно- соотношения имеют вид ГТ ГТ / (Т - t)u(t) dt = -а- ЪТ, / u(tO dt = -b. Jo Jo Сначала находим управление с минимальной энергией при произвольном положительном Т. В силу линейной независимости функций hi и /г2 его ищем в виде U°(i,T)=7i(T)(T-i)+72(T), где 7i СО и 72 (Т) определяются из системы уравнений где = f Jo ые в _ _6Bа + 6Г) _ Выполняя необходимые вычисления, находим, что 23а+ Следовательно, Для определения времени оптимального быстродействия решаем относи- относительно Т уравнение Jo /О которое после несложных вычислений принимает вид v2T3 - 4Ъ2Т2 - \2аЬТ - 12а2 = 0. Наименьший положительный корень Т = Tq этого уравнения определяет вре- время оптимального быстродействия, а соответствующее ему управление u°(t, To), определяемое формулой D.13), является искомым оптимальным управлением. Пример 4.2. Пусть управляемый процесс описывается уравнениями &i — Х2 -\-ot(t,T)u2, X2 = ui~\-g, ±з = Х4 + (t — 2Ix2, Х4 = U1+U2—д на отрезке времени 0 < t < Т, где (о при 0 < t <T< 2, \t-2 при 2 < t < Т.
320 Гл. 6. Простейшие задачи оптимального управления Фундаментальная матрица Коши в этом случае имеет вид A t-s 0 0 0 10 0 О 0 1 t-s 0 0 0 1 и, следовательно, h4(t,T)= (} Из определения функции a(t,T) следует, что при Т > 2 вектор-функции hi(t,T) и hs(t,T) совпадают и hi(t,T) ф h^(t,T) при 0 < Т < 2. Значит, ранг матрицы Грама вектор-функции /ц(?,Т) равен 4 при Т ^ 2 и 3 при Т > 2. Имея это в виду, рассмотрим задачу об оптимальном быстродействии, ко- когда xi@) = ж2@) = ж3@) = ж4@) = 0, а хг(Т) = х2(Т) = х3(Т) = х4(Т) = 1 при условии, что /о Для решения задачи выписываем моментные соотношения: / h*(t,T)u(t)dt = Ci(T), г = 1,2,3,4, D.14) Jo где u(?) = {ui(t),U2@}- Величины q(T) определяем как компоненты вектора с(Т)=х1- [ W(T,t)f(t)dt, Jo где х1 = {1,1,1,1}, a f(t) = {0, g, 0, -g}. Оптимальное управление u°(t, To) может иметь разную структуру в зави- зависимости от того, где находится момент времени То окончания оптимального процесса. Если Tq ^ 2, то число линейно независимых вектор-функций в си- системе hi(t,To) равно 4 и оптимальное управление следует искать в виде и0 (?, Т) = 7ift2(t, Т) + 72Л2(*, Т) + 7зЛз(*,Т) + 74^4(t, T). Для определения величин 7г(^) эт0 управление подставляем в моментные со- соотношения D.14). Затем для отыскания момента времени То составляем урав- уравнение T {[u°1(t,T)}2 + [u02(t,T)]2}4t = l. D.15) Jo и решаем его. Оно может иметь несколько решений. Берем наименьшее из них и обозначаем его через То1. Если Toi ^ 2, то задача решена. Оптимальным является управление D.15), в котором нужно положить Т = Tqi- Если же Tqi > > 2, то оптимальный процесс продолжается на отрезке времени, превосходя- превосходящем [0, 2]. В этом случае в системе вектор-функций /ц(?, Т), как показано выше, имеется только три линейно независимых, и оптимальное управление следует искать в виде u°(t,T) = l2(T)h2(t,T) + l3(T)h3(t, T) + 74(T)/i4(t,T). D.16) Величины 7г(Т) определяем из уравнений, которые получаются после под- подстановки этого управления в моментные соотношения D.14). Чтобы опреде- определить момент окончания оптимального процесса, управление D.16) с найденны-
4- Задача об оптимальном быстродействии 321 ми ji(T) подставляем в уравнение D.15). Минимальный положительный ко- корень этого уравнения (обозначим его через Т02) и определяет время оптималь- оптимального быстродействия. Оптимальным является управление D.16), в котором следует положить Т = То2- Если окажется, что То2 ^ 2, то рассматриваемая задача не имеет решений. 4.2. Оптимальное быстродействие при импульсном управлении. Рассмотрим теперь случай, когда допустимыми управлениями в уравне- уравнении D.1) являются вектор-функции и = u(t) с компонентами ¦,j5(t-t)), г = 1,...,г, D.17) где t\,... ^гШг — заданные моменты времени, удовлетворяющие условию to < < t™1 < tfj+i при всех г и j; Vij — постоянные, выбором которых можно управ- управлять процессом. Рассматриваемая здесь задача состоит в том, чтобы перевести систему D.1) из состояния D.2) в состояние D.4) за минимально возможное время при огра- ограничении на энергию управления, которая определяется так же, как и в пара- параграфе 2 (см. формулу B.6)). Чтобы дать строгую формулировку задачи, несколько повторим то, что было изложено в параграфе 4.2. Если управление и = u(t) задано, то решение задачи D.1), D.2) можно определить по формуле Коши. Из того, что это реше- решение должно удовлетворять условию D.4), получаем моментные соотношения, которые на управлениях D.17) принимают вид (см. B.7)) \7. . _ r.(rn\ 7 — 1 п D-~\#) v=lj=l где 1 NT- П f и - t0 3 = 1 С целью упрощения последующих формул соотношения D.18) записываем в виде т ^2au(T)zk=Ci(T), г = 1,...,п, D.19) к=1 где т = mi + ... + 7ПГ, zk — к-я компонента вектора z = {^ц,..., vrrrir}, а че- через otik(T) обозначена соответствующая ей компонента в соотношениях D.18). Таким образом, рассматриваемая здесь задача может быть сформулирована в следующем виде. Требуется найти управление с компонентами вида D.17) такое, чтобы: 1) соответствующее ему решение x(t) задачи D.1), D.2) удовлетворяло условию D.4) при минимальном Т, превосходящем to; 2) выполнялось условие где Q = {Qij} — симметричная положительная матрица, v — заданная по- постоянная.
322 Гл. 6. Простейшие задачи оптимального управления Отметим важную особенность этой задачи, отличающую ее от соответст- соответствующей задачи, рассмотренной в предыдущем пункте. Параметры Vij в ком- компонентах D.17) допустимых управлений стоят множителями при 8{t — t^). По- Поэтому число этих параметров, участвующих в управлении процессом, зависит от продолжительности этого процесса. С уменьшением величины Т (когда она переходит через очередную точку tj) число переменных г^-, определяющих вектор z, уменьшается на единицу. Квадратичная форма в левой части неравенства D.20) имеет постоянную размерность на каждом интервале tj<T< ?j+i, на котором нет точек из сис- системы {ft}. Этот важный факт необходимо учитывать при решении рассмат- рассматриваемой задачи. Тем не менее ее решение удается получить тем же спосо- способом, что и в случае, когда допустимыми управлениями являются функции из??(*о,Т). В самом деле, сначала предположим, что искомое управление решает за- задачу за время Т — to, где Т принадлежит указанному выше интервалу (tj, tJ+i). Соотношения D.19) перепишем в виде (al(T),z) = cu г = 1,...,п, D.21) где oti(T) — вектор с компонентами otik(T), а неравенство D.20) можно записать в виде z*Qz < zA D.22) Так как по предположению матрица Q положительна, то каждое из урав- уравнений однозначно разрешимо и можно записать Щ = Q^otiiT), г = 1,..., п. Отсюда следует, что соотношениям D.21) можно придать вид [wi,z] =Ci, г = 1,...,п, D.23) а неравенства D.22) представить в форме и2 < v\ Дальнейшее решение задачи получается по изложенной выше схеме. Сна- Сначала Т считается параметром и ищется вектор г°(Т), удовлетворяющий усло- условиям D.23), на котором величина [z(?)] достигает своего наименьшего возмож- возможного значения. Предположим для определенности, что векторы ai,... ,ап линейно неза- независимы при любом Т G (tj,tj+i). Тогда согласно уравнениям D.20) получаем, ()() jj что 'Wi(T),..., wn(T) также линейно независимы на том же интервале времени. Поэтому вектор ?°(Т) имеет вид г=1 где величины 71 (Т),..., 7n (T) образуют решение системы уравнений Т) = a, i = i,...,n.
5. Управление с минимальной силой 323 Далее, на векторе z°(T) определяем функцию параметра Т: <р(Т) = [z°(T)}2, t)<T< t[, D.24) где t^ и tlv — две соседние точки в системе Щ}. Так как решается задача об оптимальном быстродействии и функция <р(Т) неограниченно возрастает при Т —> to + 0, то сначала Т нужно брать достаточно большим. Уменьшая Т и повторяя изложенные рассуждения, построим функцию D.24) для следующего интервала (tf,t^), который примыкает слева к интер- интервалу (t^tl,) и не содержит точек из системы Щ}. Тем самым функция ip(T) будет продолжена на интервал (tps,tlv). Продолжая этот процесс, эту функцию можно определить на достаточно большом интервале (?о,т). Однако в отли- отличие от предыдущего случая построенная таким образом функция D.24) может оказаться разрывной, что вносит дополнительные осложнения в решении рас- рассматриваемой задачи3). 5. Управление с минимальной силой Будем рассматривать управляемый процесс, который описывается линей- линейным уравнением to^t^T, E.1) при прежних предположениях относительно матриц A(t) и B(t). Моменты вре- времени to и Т считаются фиксированными, а допустимыми управлениями яв- являются вектор-функции и = u(t), компоненты которых щ(г) предполагаются кусочно непрерывными функциями с конечным числом точек разрыва. Все точки разрыва первого рода. Вектор-функция f(t) предполагается принадле- принадлежащей классу Щ^о^Т). 5.1. Постановка задачи. Основная теорема. Задача об управлении с минимальной силой состоит в том, чтобы найти допустимое управление и = u{t) = {ui(t),... ,ur(t)} такое, что соответствующее ему решение урав- уравнения E.1) с начальным условием x(t0) = x° E.2) в момент времени t = Т удовлетворяет условию х(Т)=х\ E.3) а функционал I = max {\u1(t)\,...,\ur(t)\} E.4) при этом достигает своего наименьшего возможного значения. Здесь х° и х1 — заданные векторы. Управление и = u°(t), которое является решением этой задачи, называется управлением с минимальной силой. Как известно, требование о том, что решение уравнения E.1), соответству- соответствующее управлению и = u(t), с начальным условием E.2), удовлетворяющее ) Анализ конкретных примеров по применению изложенных здесь результатов см. в книге: Егоров А.И. Оптимальное управление линейными системами. — Киев: Выща школа, 1988.
324 Гл. 6. Простейшие задачи оптимального управления условию E.3), приводит к тому, что это управление должно удовлетворять моментным соотношениям / h*{t)u{t)dt = Ci, г = 1, 2, ..., п, E.5) где q, г = 1, 2, ...,п, — компоненты вектора с = хг -W(T,to)x° - f W(T,s)f(s)ds, Ло a hi(t), г = 1, 2, ..., п, — столбцы матрицы B*(t)W*(T,t). Таким образом, задача сводится к отысканию управления и = vP(t), ми- минимизирующего функционал E.4) при условиях E.5). Эта формулировка ис- исходной задачи позволяет получить следующий результат, который приводит к одному из способов практического решения задачи. Теорема 5.1. Пусть выполнены следующие условия. 1. В системе /ii(?), ..., hn(t) вектор-функции /ii(?),..., hk(t) линейно независимы на отрезке [О, Т], в то время как любые к + 1 вектор-функций этой системы линейно зависимы. 2. Постоянные с\,....сп в моментных соотношениях E.5) связаны меж- между собой той же линейной зависимостью, что и /ii(?),..., hn(t). Тогда оптимальное управление и = u°(t) = {г^(?),..., u®(t)} (если оно существует) определяется формулами u°t(t) = Asignhi(t,\), j = l,...,r, E.6) где /iJ(t,A) — j-я компонента вектора к г=1 а постоянные Ai,...,An определяются из требования, что управление vP(t) удовлетворяет первым к моментным соотношениям из E.5) и Aici + ... + Хкск = 1. E.7) При этом оказывается, что величина А может быть определена по формуле А= ' Доказательство. Будем обозначать через Н подпространство функций h(t) G L^tcT), представимых в виде г=1 и воспользуемся тем, что любая функция u(t) E L^to^T) однозначно предста- вима в виде u{t) = h(t) + g(t), h e Я, ? _L Я, причем
5. Управление с минимальной силой 325 Составляющая h(t) функции u(t) влияет на то, удовлетворяет или не удо- удовлетворяет функция u(t) условиям E.5). Так как функции h\(t), ..., h^(t) образуют базис в подпространстве Н, а постоянные ci,..., сп связаны между собой той же линейной зависимостью, что и функции h\(t), ..., hn(t), то за- задача об оптимальном управлении сводится к отысканию управления, которое удовлетворяет условиям (Ы, и) = ^, г = 1,... ,/с, E.8) и доставляет наименьшее возможное значение функционалу E.4). Любое управление, удовлетворяющее условиям E.8), можно представить в виде u(t) = h°(t) + g(t), g(t)±H, E.9) где h°(t) определяется по формуле к h°(t) = J2 <*mhm(t), 171=1 в которой постоянные ai,..., а& однозначно определяются системой уравнений к ^2 С1*' ^rn)Oim = Ci, i = 1, . . . , к. га=1 Возьмем произвольные Ai....,Afc, которые связаны между собой соотно- соотношением E.7), и введем обозначение г=1 Тогда очевидно, что Jtn h*(t,\)g(t)dt = для любой функции g(t) из формулы E.9). Поэтому любое управление из множества E.9), удовлетворяет равенству к гт ^2 хгсг = h*(?, X)u(t) dt. i=l ^to Так как числа Ai,..., A& связаны соотношением E.7), то отсюда получаем 1 = / h*(t,\)u(t)dt для любой функции u(t), удовлетворяющей моментным соотношениям E.5). Отсюда следует очевидное неравенство °^ ^ J to q = \ справедливое для любых значений параметров Ai,...,Afc, удовлетворяющих условию E.7), и любом управлении u(t) = {щ(Ь),... ,ur(t), удовлетворяющем
326 Гл. 6. Простейшие задачи оптимального управления моментным соотношениям E.5). Это неравенство переходит в равенство 1= max {M*)|,...>r(t)|} / J2\W(t,\)\dt E.10) to^t^T Jto ^ тогда и только тогда, когда на управлении u(t) функционал E.4) достигает своего наименьшего возможного значения. С другой стороны, равенство E.10) выполняется на функции u°(t), компонентами которого являются скалярные функции E.6). Для завершения доказательства теоремы остается убедиться в том, что па- параметры Ai,...,Afc, определяющие функции E.6), действительно могут быть получены из условий E.7) и E.8). Однако доказательство этого факта мы опус- опускаем 4), так как оно требует привлечения дополнительного аналитического ап- аппарата, а для практического построения оптимального управления не дает до- дополнительной информации. Пример 5.1. Доказанную теорему применим к построению управления с минимальной силой, когда процесс описывается уравнениями Х\ = Х2, Х2 = U, to ^ t ^ Т, с начальными условиями xi(to) = a, x2(t0) = Ъ. Требуется перевести фазовую точку системы в начало координат х1(Т)=х2(Т)=0, причем так, чтобы функционал / = max u(t)\ достигал своего наименьшего возможного значения. В рассматриваемом случае для системы E.1) имеем f(t) = Б = {0,1} W(t,s)=(l f~ и поэтому IT- to\ fa\ (-a -bq )) = { -ь Отсюда следует, что с\ = —a — bq, c2 = —b. Так как то fti(?) =T-tn h2(t) = 1. Функции h\(t) и Ii2(t) линейно независимы на отрезке [to,T], и в соответ- соответствии с теоремой 5.1 находим, что оптимальное управление имеет вид u°(t) = Asign{Ai(T-t) + A2}, E.11) где Ai, A2 и А связаны соотношением + А2с2 = 1 ) С ним можно ознакомиться по цитированной выше книге А. И. Егорова.
5. Управление с минимальной силой 327 и требованием, чтобы u°(t) удовлетворяло моментным соотношениям / (T-t)u(t)dt = cu / u(t)dt = c2. Jtn Jtn M m E.12) Если A, \i и \2 удовлетворяют этим равенствам, то согласно теореме 5.1 постоянную А можно определить через Ai и А2 по формуле гт \ -1 E.13) Функция Ai(T — i) + A2, входящая в определение управления E.11), ли- линейна по г и содержит пока что неизвестные нам параметры Ai и А2. Поэтому логически возможны два случая. 1. Функция Ai(T — t) + A2 не обращается в нуль на интервале (to,T). 2. Функция Ai(T — t) + A2 обращается в нуль на интервале (to, ^) и, следо- следовательно, на этом интервале изменяет знак, т. е. существует момент времени t = s G (to,T) такой, что Ai(T-5) + A2 =0. E.14) Рассмотрим каждый из этих случаев от- отдельно. 1-й случай. Если Xi(T — t) -\- Х2 ф 0 при всех t из (to,T), то управление E.11) можно записать в виде u°(t) = u° = const, которое не зависит от параметров Ai и Х2, а постоянная А должна быть такой, чтобы это управление удовлетворяло моментным соот- соотношениям E.12). Из этого требования следу- следует, что frri / \2 0 о (rn j. \ 0 [1 — to) U = ^С]_, \-L — to)U = С2. Эти равенства совместны лишь при условии, что 1с\ = (Т — to)c2 или, что то же самое, 2а = (T-to)b. E.15) Величина и0 при том определяется формулой и° = -=-Ц- EЛ6) Формула E.15) показывает, что оптимальное управление определяется формулой E.16), если в начальный момент времени t = to фазовая точка Р(а, Ь) системы лежит на прямой L, уравнение которой имеет вид 2хг + (Т -to)x2 = 0 E.17) фазовой плоскости х\Ох2 (рис. 6.5.1). Минимальное значение функциона- функционала / при этом равно О m Рис. 6.5.1 Подставляя управление E.16) в уравнения движения, получаем dxi = x2(T-to)
328 Гл. 6. Простейшие задачи оптимального управления Отсюда находим, что при управлении E.16) фазовая точка системы движется в начало координат по параболе (рис. 6.5.2) 2-й случай. Если в интервале (to,T) существует точка t = s такая, что выполняется равенство E.14), то управлению E.11) можно придать вид u°(t) = Asign Ai(s-f), E.18) а условие E.11) можно записать в виде Ai[ci-c2(T-t0)] = l. E.19) Подставляя управление E.18) в моментные соотношения E.12), будем иметь ' Гт A (T-t) sign (s -t)dt = cisign Аь °т E.20) A / sign (s — t)dt = c2sign Ai. Таким образом, для определения неизвестных A, Ai и s получаем систему трех уравнений E.19) и E.20). Разделив почленно первое уравнение систе- системы E.20) на второе и вычислив соответствующие интегралы, будем иметь с2[2(Т - sJ - (Т - toJ} + 2ci[(T - to) - 2(Т - s)} = 0. Отсюда следует, что где q = Т — to. Если выполняется условие E.15), то корни, определяемые этой формулой, совпадают с координатами концевых точек отрезка [?о,Т]. Во всех остальных случаях один из корней лежит внутри этого отрезка. Итак, пусть точка 5, определяемая формулой E.21), принадлежит интер- интервалу (?о,Т). Тогда из E.19) следует, что Ai^ci-caCT-s)]-1, а в соответствии с формулами E.13) и E.15) функцию E.18) можно предста- представить в виде u°(t) = Msign(s-?), E.22) где м= 2[c1-c2(T-s)] (T-s)i + (s-t0J' Фазовая траектория, соответствующая этому управлению, определяется дифференциальными уравнениями ё = И при to<t<s E-23) s<t<T. E.24) dxo M
5. Управление с минимальной силой 329 Следовательно, фазовая точка движется в начало координат сначала по пара- параболе 1 (х22-Ъ2). E.25) х\ — а = 2М В момент времени t = s ее координатами являются xi(s) и X2(s) (см. рис. 6.5.2). Начиная с этого момента времени она движется по параболе х1 - xi(s) = -— (х\ - x\{s)) E.26) и в момент времени t = Т достигает начала координат. Так как оптимальное управление имеет единственную точку переключения, то из простых геомет- геометрических соображений следует, что М < 0 при 2а + ^>0иМ>0 при 2a + bq< 0. М>0 О М<0 Рис. 6.5.2 Рис. 6.5.3 В самом деле, пусть L — прямая, определяемая формулой E.17) (рис. 6.5.3). В точках Р(а, Ь), лежащих выше этой линии, выполняется условие bq> 0. Полагая в соотношении E.25) х\ = х\ = Х2 = 0, получим = X2(s), а в соотношении E.26) — E.27) Отсюда находим, что 2/ ч _ Ь Из соотношений E.27) следует, что xi(s) и М имеют противоположные знаки, а из E.27) имеем ->Ма. E.28) Другой начальной точке Р(а,Ь) соответствует свой момент переключения s управления E.22) и своя величина М, определяемая формулой E.23). Однако и в этом случае величины а, Ъ и М будут удовлетворять неравенству E.28), а фазовые траектории системы будут описываться уравнениями E.23) и E.24).
330 Гл. 6. Простейшие задачи оптимального управления 5.2. Случай импульсного управления. Выше предполагалось, что до- допустимыми управлениями являются кусочно непрерывные вектор-функции с конечным числом точек разрыва. Однако аналогичная задача заслуживает внимание и тогда, когда компоненты Ui(t) допустимых управлений u(t) пред- ставимы в виде rrii ^№ = 1>^-ф, E.29) где Vij, г = 1, 2, ..., г, j = 1, 2, ..., ?тц, — не зависящие от времени пара- параметры управления, a t\.... ,?Шг — фиксированные моменты времени, удовле- удовлетворяющие неравенствам to < ft < fi+i ^ ^ г = 1, 2, ...,г; моменты времени t = to и t = Т считаются фиксированными. Задача с импульсным управлением состоит в том, чтобы найти допусти- допустимое управление с компонентами вида E.29) такое, что соответствующее ему решение уравнения E.1) с начальным условием E.2) в момент времени t = Т удовлетворяет условию E.3), а величина / = max{H,...>mJ} E.30) при этом достигает своего наименьшего возможного значения. Для решения этой задачи, как обычно, обозначим через W(t,s) фундамен- фундаментальную матрицу решений уравнения х = A(t)x, нормальную при t = 5, а через /ц(?), г = 1, 2, ..., п, — г-й столбец матри- матрицы B*(t)W*(T,s). Тогда управление u(t) с компонентами E.29) будет удовле- удовлетворять условиям (см. B.7)) hiV(tVj)vVj = Ci, i = 1...., n, E.31) где c\,..., cn — компоненты вектора c = Xl- W(T, to)x° - / W(T, s)f(s) ds. Jt0 Тем самым задача сводится к отысканию постоянных уц,... ,vrmr, на которых величина E.30) достигает наименьшего возможного значения при выполнении условий E.31). Для того чтобы упростить последующие формулы, введем следующие обо- обозначения. Пусть т = т\ + ... + mr, у = {^ц,... ,уГТПг} = {г>1,... ,ит}, /ftii(tj) ... ftii^J ... hlr(t\) ... ftir(^r)N P= • • ; ; \h"nl\ti) ... ^nly^m—l) ••• ^nry^l) ... ""nr\tmr Тогда соотношения E.31) можно записать в виде (Pi,v)=a, i = l, 2, ...,n, E.32) где Pi — г-й столбец матрицы Р*, а минимизируемой величине можно придать вид
5. Управление с минимальной силой 331 Для решения полученной задачи предположим, что в системе Pi,...,Pn лишь первые к векторов линейно независимы, а любые к + 1 векторов этой системы линейно зависимы. Через Н обозначим подпространство векторов h пространства Ет, представимых в виде к h = Y^OLiPu E.33) г=1 где ai,..., ак — произвольные постоянные. Тогда очевидно, что любой вектор v G Ет однозначно представим в виде v = h + g, heH, g±H. E.34) Очевидно также утверждение: для того чтобы вектор E.33) удовлетво- удовлетворял условиям E.32), необходимо и достаточно, чтобы постоянные ci,...,cn были связаны между собой той же линейной зависимостью, которая существу- существует между векторами Pi,..., Pm. Отсюда, в частности, следует, что вектор E.34) удовлетворяет условиям E.32) тогда и только тогда, когда вектор h, записан- записанный в форме E.33), имеет постоянные cei,..., а^, однозначно определяемые системой уравнений к ^2Р^=сг, г = 1, 2, ..., к. Решив эту систему, определим вектор h° по формуле E.33). Так как вектор {дь ... .дт} в E.34) ортогонален Н, то имеем где Pij — j-я компонента вектора Pj. Векторы Р\...., Р& линейно независимы, и поэтому к 2 = 1, 2, j=k+l v=l Здесь А — определитель Грама векторов Pi,..., Рк, Aiu — алгебраическое дополнение элемента этого определителя, стоящего на пересечении i-ro столбца и j-й строки. Теперь формулу E.34) можно представить в виде v° = I " j=k+l j=k+l где /г?,..., h^ — компоненты вектора /г°, gk+i, • • •, 9т ~ произвольные посто- постоянные. Эта формула определяет произвольный вектор, удовлетворяющий со- соотношениям E.32). Таким образом, задача сводится к определению тех значений параметров которых величина h°k + ^ aljgj , \h°k+1 + gk+1\,..., \h°m + pm| I достигает своего наименьшего значения. Пример 5.2. Пусть управляемый процесс описывается уравнениями Х\ = Х2 + Ui, ±2 = ^2, 0 < t < Т,
332 Гл. 6. Простейшие задачи оптимального управления с начальными условиями xi@) = а, #2@) = Ь. Допустимыми управлениями будем считать вектор-функции u(t) = \ui(t), u2(t)} такие, что u2(t) = v25 ft - I") + vss(t - Ц- Y E.35) где ^1,^2,^3 — произвольные постоянные. Требуется перевести систему в состояние Х1(Т) = х2(Т) = 0 так, чтобы величина достигала своего наименьшего возможного значения. Прежде всего находим, что в рассматриваемом случае »-«¦»>=0 v). *=(; ?)• Поэтому ( \ (\ (-а-ЪТ\ и моментные соотношения (hi, и) = ci, (h2,u) = c2 на управлениях E.35) принимают вид (ft\i;) = cb (ft2,v) = c2, E.36) где скалярное произведение означает произведение векторов в пространст- пространстве Е3, & v = {^1,^2,^3}, h1 = {1,2Т/3,7/3} и h2 = {0,0,1}. Векторы h1 и h2 линейно независимы. Поэтому вектор минимальной длины, удовлетворяющий условиям F.44), определяется по формуле v° = aih1 + a2h2, где постоянные ai и а2 определя- определяются из системы уравнений (h , h )ai + (h jh )a2 = ci, (ft. , ft )ai + (ft , ft )c^2 = C2- Отсюда находим, что -ЪТ), а2 = 5[аТ-Ъ+^ТЧ), S=[2 + ^-' ' а следовательно, Г / Т 2Т2 \ / ггл гр2 = ^-<*Bа + ЬТ), -5(Ь+-а+-^-Ь],5[-Ь+-а + Далее, из условий (h1 ,д) = ci = 0, находим, что ^ = < се, се, —се }• где се — произвольная вещественная постоянная. Таким образом, любой вектор v, удовлетворяющий условиям E.36), пред- представим в виде || \ E.37)
6. Оптимальное быстродействие с ограниченной силой управления 333 где v®, v® и v® — компоненты вектора v°. В трехмерном пространстве Е3 век- вектор E.37) определяет прямую L, ортогональную вектору v° и параллельную вектору z = {—Т/3,1,-1}. Так как v = v° при а — О, то эта прямая прохо- проходит через точку (v^v^v^) (рис. 6.6.4). Задача состоит в том, чтобы найти то значение параметра се, при котором величина / = max -|a E.38) достигала своего наименьшего озможного значения. Эта задача легко решается геометрически. Предположим для определённости, что Т > 3, —f- < — v% < v%. На плос- плоскости переменных v и а построим графики функций (рис. 6.6.5) 1 Т VI = Vo = — а Точки попарного пересечения этих линий обозначим через Mi, M2 и Рис. 6.5.4 Рис. 6.5.5 Из рис. 6.6.5 видно, что искомым значением параметра а является зна- значение а0 абсциссы точки Mq. Подставив это значение а0 в формулу E.37), определяем искомое оптимальное управление I (v°-T Л~Г ТЛ Х u°(t) = \ ~ ' \ 6J ~ \ б ;; Заканчивая анализ этой задачи, отметим, что в рассмотренном примере минимальное значение величины E.38) удалось найти довольно просто, пото- потому что она оказалась зависящей всего от одного параметра а. В общем случае такой прием отыскания неизвестных параметров в величине / применить не удается. Для этого следует пользоваться методами нелинейного программиро- программирования. 6. Оптимальное быстродействие в линейных системах с ограниченной силой управления Результаты, изложенные в предыдущем параграфе по решению задачи управления линейными системами с линейным критерием оптимальности, поз- позволяют доказать некоторые содержательные утверждения, относящиеся к за- задаче об оптимальном быстродействии для линейных систем.
334 Гл. 6. Простейшие задачи оптимального управления 6.1. Постановка задачи. Необходимые условия оптимальности. Рассмотрим управляемый процесс, который описывается уравнением x = A(t)x + B(t)u + f(t), to<t<T, F.1) где A(t) и B(t) — матрицы размерностей пхпи пхг соответственно, f(t) — за- заданная функция из L^to, T). Допустимыми управлениями считаются вектор- функции и = u(t), to < t < Т, с кусочно непрерывными компонентами щ = = Ui(t) и точками разрыва первого рода. Момент времени t = Т считается свободным. Задано также начальное условие x(to)=x°, F.2) а желаемое состояние системы в конечный момент времени t = Т определяется равенством x(t)=x\ F.3) в котором х1 — заданный вектор. Рассматриваемая задача об оптимальном быстродействии состоит в том, чтобы найти допустимое управление и = u°(t), которое удовлетворяет усло- условию max {\Ul(t)\,...,\ur(t)\}^u, F.4) причем такое, чтобы соответствующее ему решение задачи Коши F.1), F.2) удовлетворяло условию F.3) при минимальном Т, превосходящем to. Посто- Постоянная v в условии F.4) считается заданной. Таким образом, в этом случае критерием оптимальности служит функ- функционал I = T-t0. F.5) Требование о том, что управление и = u(t) переводит систему из состоя- состояния F.2) в состояние F.3), дает моментное соотношение / W(T,t)B(t)u(t)dt = c(T), F.6) Ло где W(?, s) — фундаментальная матрица Коши уравнения х = A(t)x, a с(Т) =xl- W(T, to)x° - I W(T, t)f(t) dt. F.7) J Обозначим через /ц(Т, i) г-й столбец матрицы B*(t)W*(T,t), а через Ci(T) — i-й элемент вектора с{Т). Тогда соотношение F.6) можно переписать в виде г = 1, 2, ...,п. F.8) Момент времени t = Т в условии F.3) заранее не задан. В соотношени- соотношениях F.8) его следует рассматривать как параметр в задаче перевода системы из одного заданного состояния в другое. Именно поэтому в F.7) и F.8) явно указана зависимость с и /ц от этого параметра Т. Теперь рассматриваемую задачу об оптимальном управлении можно сфор- сформулировать так. Требуется найти управление u°(t) такое, чтобы оно удовле- удовлетворяло условиям F.4) и F.8) при минимальном Т, превосходящем to.
6. Оптимальное быстродействие с ограниченной силой управления 335 Именно эту, последнюю задачу будем решать, используя ту же методику, которая применялась в параграфе 6.4 при решении задачи об оптимальном быстродействии с ограниченной энергией управления. Теорема 6.1. Пусть: 1) Т° — момент окончания оптимального переходного процесса в задаче об оптимальном быстродействии; 2) в системе hx (Г°, t),..., hn (Г°, t) вектор-функции hx (Г°, t)...., hk (Г°, t) линейно независимы, в то время как любые к + 1 из них линейно зависимы; 3) между компонентами ci(T°),..., сп(Т°) вектора с(Т°) существует та же линейная зависимость, что и между вектор-функциями /ii(T, ?),... ...,hn(T,t). Тогда оптимальное управление и = u°(t) имеет компоненты u°z(t) = z/sign /i*(TV, A), i = 1, 2, ..., г, F.9) где /гг(Т°,?,А) — г-«я компонента вектора а постоянные Ai,..., Лп удовлетворяют условию AlCl(T0) + ... + Afccfe(T°) = l F.10) ii требованиям, что управление и = и°(?) удовлетворяет моментным соот- соотношениям (Л<(Т°,*),и)=с?(Т0). г = 1, 2, ...,*, где (hi, и) — скалярное произведение элементов в L^tojT0). Доказательство. Считая Т параметром, будем решать задачу об уп- управлении с минимальной силой при каждом его конкретном значении. В соот- соответствии с теоремой 5.1 находим, что управление с минимальной силой имеет компоненты Ui(t,T) = A sign ft* (Г, *, Л), г = 1, 2, ..., г, F.11) где h%(T, ?, А) — i-я компонента вектора к а постоянные A, Ai,..., А& определяются условию и требованием, что управление F.11) удовлетворяет моментным соотношени- соотношениям F.8). Для нахождения величины А имеем формулу ат х -1 ^2\hhl)T,t, а наименьшее значение критерия оптимальности обозначим через J°(T), подчеркнув его зависимость от параметра Т. Из спо- способа построения оптимального управления находим, что J°(T) = А(Т).
336 Гл. 6. Простейшие задачи оптимального управления 6.2. Выводы. Здесь вряд ли следует повторять все рассуждения, приве- денные при ре- денные при решении задачи об оптимальном быстродействии с ограниченной энергией управ- управления. Поэтому ограничимся лишь констатацией фактов, которые устанавли- устанавливаются в рассматриваемой здесь задаче так же, как это сделано в парагра- параграфе 4.4. 1. Функция J = J°(T) непрерывна при Т > t0. 2. Она неограниченно возрастает при Т —> to + 0. Поэтому графики функций J = J О J°(T) и J = v на плоскости перемен- переменных J и Т могут пересечься в одной или нескольких точках, абсциссы кото- Рых обозначим через Г0,!11,... (Г° < < Т1 < ...) (рис. 6.6.1). Наименьшее из этих значений Тг, а именно, Т° и явля- ется моментом окончания оптимально- ti} Го Tj 7*^ Т го по быстродействию переходного про- процесса в рассматриваемой задаче, т. е. Рис 6 6 1 ПРИ этом значении Т функционал F.5) принимает наименьшее возможное зна- значение. В этот момент времени выполняется условие A(t°) = z/, и, следователь- следовательно, функция F.11) при Т = Т° совпадает с функцией F.9), а условие F.10) переходит в условие F.10). Тем самым теорема доказана. В том случае, когда графики функций J = J°(T) и J = v не имеют общих точек, не существует управления и = u(t\ переводящего систему из состоя- состояния F.2) в состояние F.3) при выполнении условия F.4). Поэтому задача об оптимальном быстродействии в такой ситуации не имеет решения. 7. Задача об аналитическом конструировании регуляторов Начиная с работ A.M. Летова и Р. Каллмана 5), многие исследования по теории оптимального управления и ее приложениям были связаны с иссле- исследованиями задач оптимизации, в которых критерием качества брался квадра- квадратичный функционал. При этом оптимальное управление искалось как функция состояния системы, т. е. решалась задача синтеза оптимального управления. Естественная математическая и инженерная формулировка задачи, а так- также простота аналитического аппарата ее решения привлекли внимание многих специалистов. Мы рассмотрим различные методы ее решения. В этой главе предлагается использовать классический аппарат вариационного исчисления. Как показано в настоящем параграфе, таким путем удается сравнительно про- просто находить программное управление, а затем предельным переходом полу- получать решение задачи синтеза оптимального управления. 7.1. Постановка задачи. Применение классического вариационно- вариационного исчисления. Пусть управляемый процесс описывается уравнением х = A(t)x + B(t)u, t°<t<T. G.1) 5) См.: Летов А. М. Аналитическое конструирование регуляторов. I-IV // АиТ. — 1960. — Т. 21, № 4-6; 1961. — Т. 29, № 4; Каллман Р. Об общей теории систем управления.// Тр. 1-го конгресса ИФАК. — М.: Изд-во АН СССР, 1960.
7. Задача об аналитическом конструировании регуляторов 337 A(t) и B(t) — непрерывные матрицы размерностей пхпи пхг соответственно. Допустимыми управлениями считаются вектор-функции и = u(t) Е L^^q^T). Моменты времени t = to и t = Т предполагаются заданными. На множестве допустимых управлений задан функционал I[u] = x*(T)Fx(T) + / [x*(t)Q(t)x(t) + /Ъ*(?)Я(?)Ц?)] dt, G.2) в котором F и Q(t) — неотрицательные симметричные матрицы, причем Q(t) непрерывна; R(t) — симметричная положительная матрица, C — положитель- положительный параметр. Рассматриваемая здесь задача состоит в следующем. Требуется найти допустимое управление и = u[t,x\ в системе G.1), по- построенное по принципу обратной связи {см. параграф 2из гл. 1), на котором функционал G.2) достигает своего наименьшего возможного значения при любом начальном состоянии этой системы. Главное отличие этой задачи от всех рассмотренных выше в настоящей главе задач заключается в двух ее особенностях. Здесь на каждом допустимом управлении рассматриваются все решения уравнения G.1), соответствующие разнообразным начальным условиям, и, во- вторых, требуется искать не программное, а синтезированное управление. Как показывает дальнейший анализ задачи, вторая ее особенность не явля- является принципиальной. Если удается найти программное управление при любом начальном состоянии системы, то из него легко получается синтезированное управление. Излагаемое здесь решение задачи основано на непосредственном исполь- использовании уравнения Эйлера из классического вариационного исчисления. Для того чтобы не загромождать изложение материала различными деталями и обозначениями, ограничимся лишь схематическим описанием самой процеду- процедуры построения оптимального управления для общих нелинейных задач, а затем более подробно обсудим их на простом примере. Итак, пусть управляемый процесс описывается уравнениями ±г =Хг(?,жь...,а;та,гх1,...,гхг), г = 1,...,п, G.3) а критерием оптимальности является функционал J[u)= где Хо — неотрицательная функция переменных xi,..., хп и и\...., ип и непре- непрерывна по t. На область значений допустимых управлений никаких ограничений накладывать не будем. Однако зададим начальные условия Xi(to)=x^ г = 1,...,п, G.4) где х^, г = 1,..., п, будем считать произвольными. Потребуем также, чтобы в момент времени t = Т окончания процесса выполнялись условия хг{Т)=х\, г = 1,...,п, G.5) где х?, г = 1,...,п, — заданные постоянные. Впрочем, условия G.5) не яв- являются существенными для самой процедуры и, как следует из дальнейшего, этим методом можно строить оптимальное управление и в том случае, когда
338 Гл. 6. Простейшие задачи оптимального управления на состояние системы в конечный момент времени не накладывается никаких ограничений. Для решения задачи предположим, что первые г уравнений системы G.3) можно разрешить относительно ui,..., иг: щ = cp1(t,x1,...,xn,x1,...,xr), иг = Найденные значения ui,...,ur подставим в последние уравнения систе- системы G.3). В итоге получим ¦ ¦ _ G.6) Хп — Jn [t, Х\^ . . . , Жп, X ^ . . . , Хг) Аналогично, подставляя ui,...,ur из G.5) в минимизируемый функционал J[u], будем иметь [Т J= fo(t,x1,...,xn,x1,...,xr)dt, G.7) Jt0 где Таким образом, для определения неизвестных функций x\(t),..., xn(t) мы получили классическую задачу вариационного исчисления: найти функции xi(?),... jXn(t), которые удовлетворяют связям G.4), G.5) и G.6) и на кото- которых функционал G.7) достигает своего наименьшего возможного значения. Для решения этой задачи воспользуемся методом множителей Лагранжа и рассмотрим функционал JX= I F(t,x,x,X(t))dt, где F = f°+ ? Щ[±Л - fj]. Jto j=r+l Для получения экстремалей этого функционала решаем уравнения Эйлера OF d OF Ъ ~^^~ =0' г = 1,...,п, ажг dt oxi с дополнительными условиями G.4) и G.5). Множители Ai,..., Ап исключаем с помощью уравнений G.6). Так как по предположению х?, • • • тхп произвольны, то полученные экстремали будут зависеть от этих величин, как от параметров, и их можно представить в виде Подставляя эти экстремали в соотношения (9.6), будем иметь Uj =i/jj(t,to,x°), j = l,...,r, G.8) где
1. Задача об аналитическом конструировании регуляторов 339 7.2. Решение задачи синтеза оптимального управления. Получен- Полученное управление G.8) является программным, так как оно явно зависит от вре- времени и не зависит от фазовых координат. Чтобы получить решение задачи синтеза оптимального управления, т. е. определить управление в зависимости от фазового состояния системы, выполним предельный переход в G.8) при t —> to + 0. В итоге получим uj=u°j(to,x°) = 'il>j(to,to,x0), j = 1, 2, ..., г. G.9) Учитывая теперь, что #5, • • • ->х^п произвольны, a to — любой момент времени из отрезка 0 < t < Т, находим, что управление G.9) можно записать в виде u3=u%t,x), j = l, 2, ...,r. G.10) Это управление по построению соответствует экстремали функционала [Т J= fo(t,x1,...,xn,x1,...,xr)dt Jt при связях G.5) и G.6). В следующей главе будет показано, что для рассматри- рассматриваемых систем это управление G.10) оказывается оптимальным и в задаче ми- минимизации функционала J[u] при связях G.3) и G.5). Тем самым полученный результат означает, что задача построения синтеза оптимального управления полностью решена. Пример 7.1. Для иллюстрации изложенной процедуры построения опти- оптимального управления в линейной системе вида G.1) с критерием G.2) рассмот- рассмотрим задачу об управлении положением двигателя постоянного тока 6). Система описывается дифференциальным уравнением . = л + «- u(t)i G.11) x2j \0 -а) \х2) VV где компонентами вектора х являются угловое положение и угловая скорость, входная переменная u(t) представляет собой напряжение на входе усилителя постоянного тока, который управляет двигателем. Предположим, что необхо- необходимо обеспечить постоянное положение xqi координаты х\. Введем новые пе- переменные, положив yi(t) = xi(t) — 7^1, V2(t) = X2(t). Очевидно, что yi(t) и y2(t) удовлетворяют тому же уравнению G.11). По- Поэтому рассмотрим задачу управления системой G.11) относительно нулевого состояния. Критерием оптимальности будем брать функционал 1[и] = / [x\(t) + Cu2(t)} dt, C = const > 0. G.12) Jt0 Из системы G.11) находим, что (t) [±(t)+(t)]. G.13) Поэтому функционал G.12) можно представить в виде [? |(Jl G.14) ) См.: Квакернаак X., Севан Р. Линейные оптимальные системы управления, — М.: Мир, 1977. - С. 240.
340 Гл. 6. Простейшие задачи оптимального управления Таким образом, сформулированная задача сведена к задаче минимизации функционала G.14) при связи Х\ = Х2- G.15) Введем функционал ГТ J = I+ A(t)[±i -x2]dt. Для него система уравнений Эйлера имеет вид х2 - а2х2 + -^ X(t) = 0, X-x1(t) = 0 G.16) при граничных условиях x1(t0)=x°1, x2(t0)=x°2, A(T)=0, ±2(Т) = ах2(Т), где х\ и х\ считаются произвольными параметрами. Исключая X(t) и x\(t) из уравнений G.15) и G.16), получим уравнение Корнями характеристического уравнения для него являются fci = — к2 = л Л В зависимости от параметров задачи возможны следующие ситуации. 1. А = а4/4 — 2?//3 > 0, т. е. все корни характеристического уравнения ве- вещественны и различны. 2. А < 0, т. е. корни характеристического уравнения комплексны и различ- различны. 3. А = 0, т. е. корни характеристического уравнения действительны и кратны. Рассмотрим для определенности случай, когда А > 0. В этом случае общее решение уравнения G.17) имеет вид x2(t) = cieklt + c2ek2t + csek3t + c4efc4*. G.18) Для определения постоянных q воспользуемся уравнениями G.10), G.11) и граничными условиями G.12). В итоге получаем линейное уравнение Ас = Ъ, G.19) Г 2? 1 где с = {ci, С2, С3, С4}, 6 = < ^2, -^- ж?, 0, 0 >, а элементами матрицы А являют- являются экспоненты с различными коэффициентами. Уравнение G.19) разрешимо, так как сформулированная задача об оптимальном управлении имеет решение. Полагая А(?о,Т) = det А, находим, что Сг = где (—lY/jiij — алгебраические дополнения определителя А. Учитывая теперь соотношения G.13) и G.18), получаем u{t) = х%(г, t0, Т) + x%(t, t°, T), G.20)
8. Управление системами, зависящими от старта и финиша 341 где ^, fc2(Mo,T) ^ г=1 ^ г=1 а функции сц(?) являются компонентами вектор-функции a(t) = {-(h + a)efclt, (a - *i)e-felt, -(*з + «)efe3*, (a - h)e-kst}. Переходя в G.20) к пределу при t —> to + 0, получаем u(t0, х°) = x%(t0, t0, Т) + ж^2(*о, *о, Т). Так как величины ж0 и ж0, а также момент времени to можно взять произволь- произвольными, то синтезированное оптимальное управление получаем в виде u(t, х) = xifci(?, t, T) + x2k2(t, t, T). Таким образом, оптимальное управление в рассмотренной задаче представ- представляет собой линейную функцию фазовых координат х\ и х^ с переменными ко- коэффициентами. В следующей главе подобные задачи решаются другими мето- методами (применением динамического программирования и принципа максимума Понтрягина). Эти методы применимы к гораздо более широкому классу задач и составляют основу современной теории оптимального управления. Однако основное достоинство изложенной процедуры решения задачи синтеза состоит в том, что на этапах ее реализации приходится решать только линейные зада- задачи, если управляемый процесс линеен, а критерием качества системы служит квадратичный функционал. Основное достоинство изложенной процедуры решения задачи синтеза оп- оптимального управления состоит в том, что на всех этапах ее реализации при- приходится решать только линейные задачи, если управляемый процесс линеен, а критерий оптимальности квадратичен. Как показывает анализ, приведенный в цитированной выше книге А.И. Егорова, эта процедура применима и при решении аналогичных задач для систем с распределенными параметрами. 8. Управление системами, зависящими от старта и финиша 8.1. Общая характеристика систем. В этом параграфе рассматрива- рассматривается специфический класс систем, динамика которых зависит от начального момента времени их функционирования (от старта) и момента времени окон- окончания процесса (их финиша). Задачи управления такими системами несколько отличаются от традиционных задач управления и связаны прежде всего с пла- планированием работы каждой из таких систем. Можно привести множество подходящих иллюстративных (но в то же вре- время содержательных) примеров систем такого типа. Все они характеризуются тем, что рассматриваются процессы, протекающие в изменяющейся среде (в изменяющихся внешних условиях). Ограничимся лишь некоторыми примера- примерами такого типа, начиная с тех, описание которых можно дать лишь в общих словах, и кончая такими, которые формулируются в математических терми- терминах. Известно, что изучение чужого (не родного) языка легче дается детям, нежели взрослым. Тем не менее для каждой возрастной группы разрабаты- разрабатываются соответствующие методики дозировки выдаваемых учащимся знаний
342 Гл. 6. Простейшие задачи оптимального управления на каждом этапе обучения. Поэтому, если рассматривать обучение как мно- многошаговый управляемый процесс, то формально его можно было бы описать следующим образом. Пусть х(п) — объем приобретенных учащимся знаний на n-м этапе обу- обучения, а и — некоторая числовая характеристика методических мероприятий педагога. Тогда динамику подготовленности учащегося можно описать рекур- рекуррентным соотношением x(n + l) = /(n,x(n),ix(n),to,T), n = l,2,...,7V, (8.1) где to — начальный год (месяц) обучения, а Т — момент планируемого оконча- окончания процесса обучения. Числа п = 1,2,..., iV определяют порядковый номер отрезка времени длины h = (Т — to)/N. Тот факт, что функция / в уравне- уравнении (8.1) зависит от to и Т подчеркивает зависимость интенсивности обучения на каждом этапе от того, в какое время началась учеба (в детстве, в юности или в более зрелом возрасте) и сколько оно будет продолжаться. При планировании работы экономической системы (в рамках предприятия, отрасли или региона) возникает задача о строительстве какого-либо объекта. На первом этапе обсуждения рассматривается вопрос о том, строить объект или нет. Если принимается вариант "строить", то обсуждается вопрос о начале строительства, т. е. о выборе момента времени to, и о времени окончании строи- строительства (t = Т). В зависимости от времени начала строительства и времени его окончания определяются виды вспомогательных, обусловленных временем года работ. Например, строительные работы, выполняемые от начала и до кон- конца в летне-осенний период, могут существенно отличаться от строительства того же объекта в зимне-весенний период. Поэтому если строительство рассматривать как многошаговый процесс вы- выполнения работ, то формально его можно описать следующим образом. Пусть #i(n),..., хг(п) — некоторые числовые характеристики видов работ, выполняемых на n-м этапе строительства. Такими характеристиками могут быть объемы работ, выполняемые на n-м этапе строительства, объемы финан- финансирования, количество используемых материалов и т. д. Тогда процесс строи- строительства можно описать следующей системой уравнений: хк(п + 1) = fk(n,x(ri),u(ri),t0,T), к = 1, 2, ..., г, п = l,...,iV, в которой и = {ixi(n),..., Ug(n)} — числовые характеристики управленческих решений; to и Т заранее не фиксированы. Количество N этапов строительства и характеристик г выполняемых работ может зависеть от to и Т (возможно, от Т — to)- Начальное состояние системы B) при t = to и ее состояние в конечный момент времени t = Т, вообще говоря, не зависят от to и Т, т. е. в условиях xk(t0) = х°к, хк(Т) =х\, к = 1,..., г, величины х^ и х\ не зависят от to и Т. И, наконец, последний пример. Он относится к сельскому хозяйству. Пред- пол ожим, что речь идет о выращивании какой-либо культуры, например ку- кукурузы. За начало отсчета времени возьмем 1-е января. Состояние растений в каждый конкретный момент времени ?, t > 0, можно характеризовать набором параметров xi(?), ..., xn(t). Скорость роста и созревания растений зависит от многих факторов. Укажем некоторые из них; 1) качество семян; 2) момент вре- времени t = to попадания зерна в почву; 3) качество почвы; 4) качество ухода за растениями; 5) момент времени уборки урожая и т. д. Считая качество семян
8. Управление системами, зависящими от старта и финиша 343 и почвы заранее заданными и постоянными, можно изучать зависимость раз- развития растений от остальных факторов. Если учесть, что скорость развития растений в произвольный момент времени t зависит от: 1) начального момента времени, когда зерна попали в почву;, 2) от качества ухода за растениями в данный момент времени t; 3) от состояния растений в текущий момент времени, то процесс можно описать системой уравнений Xi = fi(t,to,x,u), г = 1, 2, ...,п, (8.2) где вектор х = {xi,..., хп} определяет состояние растений, а и = {ixi,..., иг} — уход за растениями. Начальное состояние системы (8.2) можно считать за- заданным: x(to)=x°. Если этот процесс рассматривать как управляемый, то в правую часть си- системы (8.2) следует вводить функции Uk = Uk(t, ?о,Т), /с = 1, 2, ..., г, выбор которых зависит непосредственно не только от критерия оптимальности си- системы, но и непосредственно от to и Т. Подставляя такое управление в (8.2), получим систему уравнений, зависящую от to и Т. Завершая общий анализ рассматриваемых примеров, можно сделать сле- следующие выводы. 1. Управляемые движения систем, зависящих от старта и финиша, в ря- ряде случаев можно рассматривать как многошаговые процессы, описываемые уравнениями вида жДп + 1) = fi(to,T,t,n,x(n),u), г = 1, 2, ..., т, п = 1, 2, ..., JV, где п — номер отрезка при делении Т — to на N частей. 2. В задачах, в которых следует учитывать непрерывно изменяющееся вре- время, процессы в системах, зависящих от старта и финиша, могут описываться дифференциальными уравнениями вида Xi = fi(t,to,T,x,u), to^t^T, г = 1, 2, ..., п. (8.3) Аналогично можно рассмотреть примеры систем с распределенными парамет- параметрами, зависящими от старта и финиша. 3. Для такого типа систем остаются естественными основные проблемы теории управления (управляемость, наблюдаемость, оптимальность и т. д.). Однако теперь они приобретают некоторые новые оттенки в связи с тем, что правые части уравнений движения могут быть непрерывными по t, x и и, но быть разрывными по to и Т. Этот последний факт может существенно повлиять на содержание ответа в каждой конкретной задаче теории управления. Как показывают приводимые ниже примеры, в этих случаях может су- существенно усложняться и обычно используемый способ решения задачи. 8.2. Управляемость. Сначала рассмотрим систему x = A(t)x + B(t)u, to<t<T, (8.4) в которой A(t) — непрерывная матрица порядка n, a B(t) — непрерывная мат- матрица размерности п х г, х Е Еп, и Е Ег'. Допустимыми управлениями счита- считаются кусочно непрерывные функции и = u(t) со значениями во всем прост- пространстве Ег. Как известно, система (8.4) называется управляемой, если для за- заданного to и любых х° Е Еп, х1 Е Еп можно указать T(to), T > to и допустимое управление и = u(t,?о,Т, ж0,ж1) такие, что решение х = x(t) уравнения х = A(t)x + B(t)u(t, tOj Т, ж0, х1)
344 Гл. 6. Простейшие задачи оптимального управления с начальным условием x(to) = х° в момент времени t = Т удовлетворяет усло- условию х(Т) = х1. Если to и Т заданы, то система называется управляемой на от- отрезке [to, Т]. Известны условия управляемости (некоторые из них обсуждены в предыдущей главе). Здесь мы приведем их в удобной для дальнейшего анализа форме. Для этого выписываем матрицу Коши W(?, s) однородного уравнения У = A(t)V- Если теперь обозначить через /ц(?,Т) г-й столбец матрицы B*(t)W*(T,t), то условие управляемости состоит в том, что при заданном to вектор-функции /ii(?,T), ..., hn(t,T) линейно независимы на некотором отрезке [to,T]. Это условие остается справедливым и в том случае, когда матрицы A(t) и B(t) ку- кусочно непрерывны. В случае, когда рассматривается линейная система управ- управления, зависящая от старта и финиша, процесс описывается уравнением х = A(t,tOjT)x + B(t,to,T)u, t0 < t < Т. (8.5) Будем предполагать, что A(t,to-,T) и B(t,to-,T) непрерывны по t на любом отрезке [?о,Т] и кусочно непрерывна по to и Т. Ясно, что в задаче об управляемости системы (8.5) на заданном отрезке времени никаких новых особенностей не получается по сравнению с той же задачей для системы (8.4). В случае, когда to и Т подвижны, столбцы матри- матрицы B*(t, ?o,T)W*(T, t\ to,T) зависят от переменных to и Т. Поэтому линейная зависимость или независимость вектор-функций hi(Mo,T), ...,ftn(*, to,T) (8.6) теперь определяется не только переменной ?, но и параметрами to и Т. Как по- показывает следующий пример, в этом случае могут возникнуть не совсем при- привычные ситуации. Пример 8.1. Рассмотрим управляемую систему xi = x2 + a(t,T)u2, ±2 = иъ ±3 = Ж4 + (?-1)гх2, х4 = щ+f3(t,to)u2, (8.7) в которой — 1 при to ^ t ^ 1, i > 2, Если систему (8.7) переписать в виде (8.5), то будем иметь Таким образом, в этом случае матрица 1 t- является матрицей Коши, а вектор-функции (8.6) имеют вид
8. Управление системами, зависящими от старта и финиша 345 h3(t,t0,T)= [t_1+^{tJo){T_t)y h4(t,t0,T) = Из определения функций a(t, Т) и /3(t, t0) (см. (8.8) и (8.9)) следует, что эти векторы линейно независимы лишь при выполнении условий: 1) to > 1, Т > 2 или 2) to > 1, Т ^ 2. В этих случаях рассматриваемая система является управляемой. В случаях: 3) to ^ 1, Т > 2; 4) to ^ 1, Т ^ 2; вектор-функции hi, fi2, hs и /i4 линейно зависимы, и система (8.7) не является управляемой на отрезке [to,T]. Здесь уместно отметить следующий примечательный факт. Система (8.7) является управляемой на малом отрезке [to,T] при to > 1, Т ^ 2 и неуправляема на большом отрезке [to,T] при to < 1, Т > 2. 8.3. Идентифицируемость и наблюдаемость. Будем рассматривать систему управления в которой матрицы Аи В такие же, как и в системе (8.5), а С(?, to, T) — непре- непрерывная по t и кусочно непрерывная по to и Т матрица размерности m x п. При фиксированных to и Т эту систему можно представить в виде ' х = A(t)a + B(t)u, Как известно, задачей наблюдения является задача определения состояния хт системы в момент времени т по известным входным и выходным сигналам, измеренным в будущем, т. е. по данным об управлении u(t) и сигнале y(t) при t ^ г. Задача идентификации системы состоит в том, чтобы оценить состоя- состояние хТ системы в момент времени т по данным об u{t) и y(t) при t ^ г. Точка (г, хт) называется событием, и для его характеристики вводятся следующие два понятия. Событие (г, хТ) называется неидентифицируемым, если y(t, г, жг, и)\и=о = 0 при всех t ^ г. Аналогично событие (г, жг) называется ненаблюдаемым, если i/(t,r, жг, ix)|M=o = 0 при всех t ^ г. В соответствии с этими понятиями дается следующая характеристика системы (8.11). Эта система называется наблюдаемой (идентифицируемой) в момент вре- времени t = г, если ни одно событие (г, хТ) не является ненаблюдаемым (неиден- (неидентифицируемым), за исключением события (г, 0). В предыдущей главе приво- приводились критерии наблюдаемости и идентифицируемости. Они определяются свойствами матриц N(to,T)= [ W*(tM)C*(t)C(t)W(tM)dt, J to)C*(t)C(t)W(t,to)dt, to<t^T. M(to,r) = ГW*(t, Jt0 В случае системы (8.10), зависящей от старта и финиша, величины to и Т являются переменными, и поэтому матрицы М(?о,т) и N(to,T) не явля- являются постоянными и их ранг может изменяться в зависимости от переменных to и Т. В результате структура ненаблюдаемых и неидентифицируемых систем будет изменяться в зависимости от to и Т.
346 Гл. 6. Простейшие задачи оптимального управления Пример 8.2. Рассмотрим систему х = х2 + ж4, 1/2 = а(?, Г)ж1 + A - t)x3 в которой a(t,T) и /3(t,to) определяются формулами (8.8) и (8.9). Тогда непо- непосредственными вычислениями находим, что матрица M{to,r) представляет со- собой матрицу Грама вектор-функций (gi (92 (93 (94 ,9i) ,9i) ,9i) ,01) (91 (92 (93 (94 ,92) ,92) ,92) ,92) (91,93) (92,93) (93,93) (94,93) (91,94) (92,94) (93,94) (94,94) где скалярное произведение определяется по формуле Г (9%,9к) = / gigkdt. Известно, что rank Г равен числу линейно независимых вектор-функций в системе д\, д2, дз и д4• Непосредственными вычислениями находим, что ни при каких значениях параметров, to, т и Т ранг матрицы Г не может быть равным 4. Возможны лишь следующие частные случаи: 1) гапкГ = 3 при t0 > 1, Т < 2; 2) гапкГ = 3 при t0 < 1, Т < 2; 3) гапкГ = 3 при t0 > 1, Г > 2; 4) гапкГ = 2 при t0 < 1, Г > 2. Таким образом, в случаях 1), 2) и 3) множество неидентифицируемых собы- событий (г, хт) образует одномерное подпространство, т. е. общее решение уравне- уравнения Тх = 0 зависит от одной произвольной постоянной. В случае 4) множество неидентифицируемых состояний образует двумерное подпространство. Аналогично можно рассмотреть зависимость от to и Т матрицы 7V(?o,T), определяющей ненаблюдаемые начальные состояния. 8.4. Оптимальное управление. При рассмотрении задач об оптималь- оптимальном управлении системой вида A0.5), зависящей от старта и финиша, формаль- формально можно исходить из того, что эта система зависит от двух параметров, to и Т. Системы, зависящие от параметров, начали рассматриваться в математической теории оптимальных процессов еще на заре ее развития. Необходимые условия оптимальности для них были сформулированы в виде принципа максимума. Ряд задач подобного типа можно решить методами, изложенными в насто- настоящей главе. Казалось бы, этими результатами можно было воспользоваться без каких-либо оговорок и при анализе систем, зависящих от старта и фини- финиша. Однако такой подход в рассматриваемом случае не дает исчерпывающего ответа, так как здесь значения параметров to и Т влияют на область опреде- определения функций fi по переменной t. Такая зависимость не предусматривается в классических задачах оптимальных процессов с параметрами. Поэтому здесь возможны различные особенности.
8. Управление системами, зависящими от старта и финиша 347 Результаты анализа примера 9.1 показывают, что решение задачи о пол- полной управляемости системы вида (8.3) может существенно зависеть от to и Т. Значит, при исследовании задач об оптимальном управлении целесообраз- целесообразно рассматривать отдельно все ситуации, когда система вполне управляема на отрезке to ^ t ^ T и когда такой управляемости нет. Такой анализ необходим независимо от того, фиксирована продолжительность процесса (Т — to) или нет (как, например, в задачах об оптимальном быстродействии). Пример 8.3. Рассмотрим задачу об оптимальном быстродействии в систе- системе (8.7) при начальных условиях Xl(t0)=xl г = 1,...,4, (8.12) где вектор х° = {х^х^х^х^} задан. Требуется перевести систему в состояние Xi(T)=xl г = 1,...,4, (8.13) за кратчайшее время Т — to = min с дополнительным ограничением на допу- допустимые управления J[u] = [ u*(t)u(t) dt= f [u\(t) + u\(t)\ dt < z/2, (8.14) Ло Ло где v — заданная постоянная. При этом момент to старта системы не задан. Если предположить, что векторы х° их1 не подчинены никаким дополни- дополнительным условиям, то задачу следует решать при тех значениях to и Т, при которых система вполне управляема. В этом случае вектор-функции hi, /12, ^з и /14 (см. пример 9.1) должны быть линейно независимы. Сначала в соответствии с известной методикой, решения задачи быстродей- быстродействия фиксируем to и Т и решаем задачу об управлении с минимальной энер- энергией. Для этого прежде всего выписываем условие того, что решение х = x(t) уравнений (8.7) с начальными условиями (8.12) должно удовлетворять услови- условиям (8.13). Это требование приводит к моментным соотношениям h*(t,to,T)u(t)dt = Ci, г = 1,...,4, (8.15) где q, г = 1,...,4, — компоненты вектора с = х1 — W(T, to] to,T)x°. При линейной независимости вектор-функций hi, г = 1,...,4 (а этот случай мы рассматриваем), управление с минимальной энергией представимо в виде 4 u° = J2lMt,to,T), (8.16) г=1 где 7г — 7г (to j T) однозначно определяются системой уравнений J2lk / K(tM,T)hk(tM,T)dt = cl(to,TI г = 1,...,4. (8.17) k=l ^to Если управление (8.16) подставить в левую часть соотношений (8.14) и учесть уравнения (8.17), то получим <p(to,T)= Jt г=1
348 Гл. 6. Простейшие задачи оптимального управления Здесь (p(to,T) — минимальное значение функционала J из (8.14). Решение системы (8.17) можно представить в виде где А — определитель системы, a A&j — алгебраическое дополнение элемента, стоящего на пересечении к-й строки и j-ro столбца. Поэтому можно записать Рассматривая теперь to и Т как переменные величины (причем to < Т), получаем, что задачу об оптимальном быстродействии можно сформулиро- сформулировать следующим образом. Требуется найти to и Т такие, что: 1) to < Т; 2) <p(t0, Т) = и2- 3) Т - to = min . Так как мы рассматриваем случай полной управляемости системы (8.7), то кроме того должно выполняться еще одно из условий (см. пример 10.1): 1) to > 1, Т > 2 или 2) to > 1, Т ^ 2. Полученная задача является задачей нелинейного программирования, в которой область изменения переменных to и Т не является замкнутой. Отсюда следует, что она может не иметь решения. Рассмотрим теперь ту же задачу об оптимальном быстродействия в одном из случаев, когда система (8.7) не является управляемой. Пусть, например, to ^ 1, Т > 2. В этом случае (см. пример 8.1) hi = h3 = (Т. ~f), h2 = h4= (D. (8.18) Следовательно, в системе /ii, /12, h$ и h^ можно выбрать лишь две линейно независимых вектор-функции. Пусть это будут hi и h^. Так как выполнены соотношения (8.18), то постоянные q, г = 1,...,4, в моментных соотношениях (8.15) должны подчиняться условию ci=c3, с2 = с4. (8.19) По определению вектор с = {ci, C2, С3, С4} задается формулой с = ж1 — — W(T, ?о)х°. Поэтому равенства (8.19) можно представить в виде х\-х\-(Т- to)xl = х\-х1-(Т- to)xl (8.20) х\-х\ = х\-х\. (8.21) Условие (8.21) не содержит to и Т. Поэтому его можно характеризовать как "жесткое" ограничение на состояние системы в начальный и конечный момен- моменты времени. Содержание ограничения (8.20) несколько иное. Оно связывает точки ж0, х1 и продолжительность Т — to рассматриваемого процесса. Поэтому если точки заданы, то это условие определяет продолжительность процесса с учетом ограничения to ^ 1, Т > 2. Остается построить управления. Для его нахождения имеем моментные соотношения (8.15) и ограничение (8.14). При этом моменты времени to и Т не фиксированы, а известна лишь разность T — to. Такая задача решается известными способами.
ГЛАВА 7 Основы общей теории оптимальных процессов В предыдущей главе рассмотрены простейшие задачи об оптимальном уп- управлении, решение которых тем или иным способом сводится к решению алгеб- алгебраических уравнений. Вместе с тем стремительный прогресс в технике после- послевоенного времени привел к необходимости разработки научно обоснованных методов решения более сложных задач подобного типа для линейных и нели- нелинейных систем управления. Такие методы были созданы и по характеристике ряда ученых вошли в число важнейших достижений математической науки второй половины ХХ-го века. Основные результаты этой теории базируются на двух подходах к задачам об оптимальном управлении. Первый из них основан на так называемом принципе оптимальности, а соответствующий метод решения задач разрабатывался в США (Р. Айзеке, Р. Беллиан) и получил название метода динамического программирования. Его применение в решении конкретных задач оказалось достаточно эффек- эффективным, а оптимальное управление обычно получается в виде обратной связи, т. е. это управление находится как функция состояния системы. Это очень важно в прикладных задачах, и поэтому динамическое про- программирование стало популярным среди специалистов, работающих в обла- области приложений. Однако с самого начала к динамическому программирова- программированию был проявлен повышенный интерес и со стороны математиков, поскольку при практическом его использовании возникали и принципиальные математи- математические проблемы, связанные с его корректным математическим обоснованием и разработкой аналитических и численных способов точного и приближенного решения прикладных задач. Другое направление разрабатывалось в СССР под руководством Л.С.Понт- рягина. Полученные этой группой математиков результаты, сформулирован- сформулированные в виде однотипных теорем, относящихся к различным задачам, а также соответствующие методы исследования получили название принципа максиму- максимума. Принцип максимума с самого начала представлял собой корректно обосно- обоснованный математический метод исследования оптимальных процессов в систе- системах, поведение которых можно описать обыкновенными дифференциальными уравнениями. Главная заслуга создателей принципа максимума, видимо, состоит в том, что своими исследованиями они сделали необычайно популярным применение корректных математических методов в решении задач об оптимальном управ- управлении. Теория оптимальных процессов получила необходимый математический аппарат и в значительной мере стала развиваться как ветвь математической науки, обогащаясь все новыми идеями и методами.
350 Гл. 7. Основы общей теории оптимальных процессов Заключая этот небольшой обзор, следует отметить чрезвычайно важную роль приближённых методов в решении задач об оптимальном управлении. Ис- Исследования в этой области достаточно разнообразны и, наверное, имеет смысл говорить о том, что в настоящее время уже сформировалось одно из направ- направлений прикладной математики, связанное с приближенным решением задач об оптимальном управлении. Не имея возможности осветить достаточно полно это направление теории, отметим лишь, что специфика ее задач потребовала разработки специальных методов. 1. Динамическое программирование 1.1. Принцип оптимальности. Уравнение Беллмана. Пусть управ- управляемый процесс описывается уравнением x = f(t,x,u), to<t<T, A.1) в котором х = {xi,..., хп} — фазовый вектор в Еп, и = {ixi,..., ип} — управ- управляющий параметр, принимающий значения из некоторой (открытой или за- замкнутой) области Q С ЕТ. Вектор-функция / = {/i,...,/n} и допустимые управления и = u(t) предполагаются такими, что каждому такому управле- управлению соответствует единственное решение х = x(t) задачи Коши х = /(?, х, u(t)), x(t0) = х°. Как это определено в гл. 1, пару (x(t),u(t)) будем называть процессом. Качество процесса будем характеризовать функционалом I[to,u]=F(x(T))+ [ G(t,x,u)dt, A.2) Jt0 в котором скалярные функции F и G непрерывны по совокупности всех своих аргументов и ограничены снизу. Процесс, на котором функционал A.2) дости- достигает наименьшего возможного значения, будем называть оптимальным про- процессом. Принцип оптимальности. Оптимальный процесс (x(t),u(t)),to <t < Т, в системе A.1) обладает тем свойством, что для произвольного момента времени t = г, to ^ т < Т, процесс (x(t),u(t)), т < t < Т', остается опти- оптимальным по критерию I[t,u]=F(x(T))+ f G(t,x,u)dt JТ независимо от того, каким образом система A.1) переведена в состояние ж(т), и зависит только от этого состояния х(т). Прежде чем переходить к использованию этого принципа оптимальности, следует отметить, что он не является утверждением типа теоремы, которую следует доказать. Его нужно рассматривать как факт, полученный из наблю- наблюдений над реально протекающими процессами, и с точки зрения математика он должен рассматриваться как постулат теории управления. Это во-первых. А во-вторых, Этот постулат относится не только к управляемым процессам, которые рассматриваются в теории управления. Он более универсален и ис- используется при исследовании других задач оптимизации, основанных на по- последовательном принятии решений. В частности, им пользуются при решении задач в теории игр и исследовании операций.
1. Динамическое программирование 351 Для практического использования принципа оптимальности в рассматри- рассматриваемой здесь задаче определим так называемую функцию Беллмана S[t,x] = min \f(x(T))+ f G(r,x(r),u(r))dr\. A.3) wGO I /. I Из этого определения, в частности, следует, что S[T,x]=F(x(T)). A.4) С другой стороны, непосредственно из определения получаем S[t,x] = Г ft+5t Г 1 = min <^ F{x{T)) + / G{r,x{r),u{r))dr+ G{r,x{r),u{r)) dr\ = t<f<T ^ * Jt+5t J + min \G(t,x(t),u(t)Mt + F(x(T)) + \ G{r.x{r),u{r))dr + o(bt)\, где —> 0 при Et ^ 0. В соответствии с принципом оптимальности полу- ot ченное соотношение можно записать в виде S[t, х) = min | G(t, x(t), u(t))St + oEt) + (t)en l min <^ F{x{T)) + / •Wen ^ Л4 и, следовательно, в соответствии с определением (см.A.3)) последнее соотно- соотношение можно переписать в виде S[t, х) = min {G(t, x(t), u(t))St + o(St) + 5[t + 5t, x(t + 5t)]}. A.5) По предположению x(t) — решение уравнения A.1), соответствующее уп- управлению u(t). Поэтому, полагая x(t + 5t) = x(t) + fe(t), находим, что fe(t) = ±(t)Et + O(Et) =/(*,x(*),u(*))(ft + Oi((ft), A.6) где o^Stf/St -> 0 при 5t -^ 0. Предположим далее, что функция 5[?, х] непрерывно дифференцируема по совокупности всех своих аргументов. Тогда можно записать S[t + 5t, x(t + St)] = S[t + 5t, x(t) + fe(t)] = S[t, x(t)} + где °2(l"-fa) ч 0 при r ^ 0, r2 = «2 + l r Из соотношений A.6) и A.7) получаем , A.8) где оз — величина того же порядка, что и с>2, а через (x,w), как обычно, обо- обозначено скалярное произведение векторов z и w из .Бп.
352 Гл. 7. Основы общей теории оптимальных процессов Если теперь учесть, что функция S[t,x\ не зависит от операции min, то из соотношений A.5) и A.8) следует, что _ds[t,x(t)]st= m.n (G(tilWi^p+/^l)/(tia;WiM(t at u(t)en I \ ox A.9) Поделив обе части этого соотношения на 8t, перейдем в нем к пределу при St —> 0. Величина 04 зависит от St и 8х. Но 8х в соответствии с определением (см. A.5)) обладает тем свойством, что \8х\ —> 0 при 8t —> 0. Поэтому oA8t,8x) -^V—'- -> 0 при 8t -> 0. ot В итоге из соотношения A.9) в пределе при <5t —> 0 получим Здесь t — произвольный фиксированный момент времени из отрезка [to, Т], a x(t) — значение решения уравнения A.1) в этот момент времени, соответ- соответствующего управлению u(t). Начальное значение решения можно брать в про- произвольный момент времени, в том числе и в t. Кроме того, начальную точку оптимальной фазовой траектории можно выбирать произвольно. Поэтому со- соотношение A.10) можно переписать в виде уравнения относительно неизвест- неизвестных функций u(t) и ?[?, ж] которое называется уравнением Беллмана. 1.2. Анализ уравнения Беллмана. При выводе уравнения Беллмана мы исходили из того, что процесс (x(t),u(t)) является оптимальным, и на этом процессе определили функцию Беллмана S[t,x(t)], относительно которой было получено соотношение A.10). Поэтому уравнение Беллмана определяет необ- необходимые условия оптимальности в следующей форме. Пусть задача об оптимальном управлении для уравнения A.1) с критерием оптимальности A.2) имеет решение и (х°(t), и0(t)) — оптимальный процесс. Решаем уравнение Беллмана. С этой целью сначала определим и из условия минимума правой части уравнения. В итоге определим функцию (возможно, неоднозначную) и = u(t,x, — Y A.12) Подставляя ее в правую часть уравнения, получим уравнение ds n(+ Л 9S\\ , (dS -— = G[t,x,u[t,x, -7Г- + -, dt \ \ dx J J \dx которое нуж:но решать с учетом начального условия A.4). Предположим, что такое решение найдено и им является S = S[t,x].
1. Динамическое программирование 353 (Оно может оказаться неединственным.) Подставляя это решение в функцию A.12), получим (опять же, возможно, неоднозначную) функцию u = u(t,x). A.13) Если теперь подставить u(t,x) в уравнение A.1) и решить его с учетом начального условия, определяющего оптимальный процесс (х°(?),и°(?)), то по- получим, вообще говоря, неоднозначную функцию х = x(t). Тогда совместно с управлением A.13) будет определено, возможно, целое семейство процессов (x(t),u(t)). Из способа получения уравнения Беллмана следует, что оптималь- оптимальный процесс (ж°(?), vP(t)) входит в это семейство. Именно в этом смысле следует понимать уравнение Беллмана как необходимое условие оптимальности. Здесь мы не будем обсуждать проблему разрешимости полученного уравне- уравнения, а также методы его практического решения. Некоторые из этих вопросов будут рассматриваться в последующих параграфах при решении различных частных задач. Однако в общем случае эта проблемы довольно сложна. Отме- Отметим всего лишь одну особенность уравнения Беллмана, существенно отличаю- отличающую его от других привычных нам уравнений. В процессе вывода уравнения было использовано предположение о непрерывной дифференцируемости функ- функции S[t,x\ на оптимальной траектории х = x(t) (см. формулу A.6)). Однако, как показывает анализ конкретных примеров, этим свойством функция S[t, x] может и не обладать. На оптимальной траектории она может оказаться разрывной *). Тем не менее динамическое программирование явля- является эффективным средством решения задач об оптимальном управлении. Для приложений особый интерес представляет тот факт, что получаемые этим ме- методом управления оказываются функциями фазовых состояний (см. A.13)), т. е. таким путем решается задача синтеза оптимального управления. Пример 1.1. Пусть управляемый процесс описывается уравнениями ±1 = UiXi + ?2, %2 = г^2, где допустимые управления и = u(t) = {ui(t), U2(t)} принимают значения лишь в области \щ\ ^ 1. Критерием оптимальности возьмем функционал I[u]= [ G(t,xux2)dt, где G — ограниченная снизу, непрерывная по всем своим аргументам функция. Таким образом, в рассматриваемом случае в уравнении A.1) следует поло- положить fi=uiXi-\-X2i /2 = ^2? а уравнение Беллмана A.11) имеет вид Г , ч dS , ч dS \ , лх = mm <G(t,x,и)+ -—(щхх + х2) + ^—и2), A.14) [ oxi 0x2 ) dS —- = mm < at \Ul\^i[ ЫК1 и требуется найти его решение, удовлетворяющее дополнительному условию (см. A.4)) S[T,x]=0. A.15) ) Пример такого типа рассмотрен в следующем параграфе при решении задачи об оптимальном быстродействии.
354 Гл. 7. Основы общей теории оптимальных процессов Выражение, стоящее в фигурных скобках уравнения A.14), достигает своего минимума по переменным и\ и U2 в области и\ ^ 1 и U2 ^ 1 при dS\ (dS\ . ) {) AЛ6) Подставляя найденные значения и\ и U2 в уравнение Беллмана A.14), по- получаем нелинейное уравнение в частных производных первого порядка dS --— = G(tJxljx2) - дх as as dS 2 »'Я о ¦ AЛ7) дх2 Тем самым для определения функции S[t.x] мы имеем уравнение A.17) с на- начальным условием A.15). Решив эту задачу, по формулам A.16) найдем управ- управление и = u(t,x) = {ui(t,ж), U2(t,x)}, которое удовлетворяет необходимым условиям оптимальости, выраженным уравнением Беллмана. Вопрос о том, яв- является ли это управление действительно оптимальным, требует дополнитель- дополнительного исследования. Что касается непосредственно исследований уравнений в частных производных типа уравнений Беллмана, то с ними можно ознакомит- ознакомится книгам Н.В. Крылова и А.И. Субботина2). 2. Управление системой с закрепленным концом траектории и свободным временем Идеи динамического программирования, изложенные в предыдущем па- параграфе, оказываются плодотворными и при решении задач об оптимальном управлении, когда требуется переводить систему в заданное конечное состоя- состояние. Здесь также можно воспользоваться принципом оптимальности и полу- получить необходимые условия оптимальности в форме соответствующего уравне- уравнения Беллмана. 2.1. Вывод и анализ уравнения Беллмана. Пусть управляемый про- процесс описывается уравнением x = f(x,u), B.1) правая часть которого явно от времени не зависит. Здесь х = {xi,...,жп} — фазовый вектор, и = {ui,...,ur} — управляющий параметр, принимающий значения в открытой или замкнутой области Q С Ег. Так же, как и в преды- предыдущем параграфе, определим допустимые управления, исходя из требования, чтобы каждое такое управление и = u(t) было кусочно непрерывным и опре- определяло единственное решение задачи Коши х = f(t, х, u(t)), x(t0) = х°. B.2) Критерием оптимальности возьмем функционал I[u] = f G(x,u)dt, B.3) Jt0 в котором G — ограниченная снизу непрерывная функция своих аргументов. Задача состоит в том, чтобы найти допустимое управление, переводящее систему B.1) из состояния B.2) в состояние х1, причем так, чтобы на этом ) Крылов Н.В. Нелинейные эллиптические и параболические уравнения второго поряд- порядка. — М:. Наука, 1985; Субботин А.И. Обобщенные решения уравнений первого порядка. — М., Ижевск: Ин-т компьютерных исследований, 2003.
2. Система с закрепленным концом траектории и свободным временем 355 управлении функционал B.3) достигал своего наименьшего возможного зна- значения. Введем обозначение Ф(х°) = min / G(x(s),u(s))ds. B.4) Тогда согласно принципу оптимальности можно записать Ф(ж°) = min J/ G((x(s),u(s))ds + min / G(x(s),u(s))ds\ u(s)en {Jto u(s)en Jto+5t J и, следовательно, ° r pto+5t Ф(х°)= min { G(x(s)jU(s))ds + <S>(x(t0 + St)}. B.5) ()en lJt J Так как в этом соотношении x(t) — решение задачи Коши B.2), то компо- компоненты Xi(to + St) вектора x(to + St) можно преобразовать следующим образом: Xi(t0 + St) = Xi(t0) + Xi(to)St + o(St) = Xi(t0) + fi(x(t0), u(to))St + где /^ — г-я компонента вектора /. Поэтому x=x(t0) и соотношение B.3) мож:но записать в виде f pto+5t Ф(х°)= min \ + V^ fi(x(to)Mto)Nt + i Величина Ф(х(?о)) = Ф(х°) (см. B.2)) не зависит от операции min, и по- поэтому в правой части полученного равенства ее можно вынести за знак этой операции. В результате получаем (поделив обе части равенства на St) Г 1 rto+5t /гдФ(х°) о \ О2 I min < — / G(x(s), u(s)) ds + I —-^—-, f(x , u(to)) J + — > = 0, _ v ** to \ / ) где дФ(х°) _ (дФ(х°) дФ(х° дх \ дх\ '"'' дхп a (z,w) — скалярное произведение векторов в пространстве Еп. Воспользуемся теперь тем, что в качестве to можно взять произвольный момент времени t, а соответствующая ему "начальная точка" x(t) траектории х = х(т), t ^ т ^ to, также может быть выбрана произвольно. В результате из полученного равенства будем иметь в пределе при St —> О = 0.
356 Гл. 7. Основы общей теории оптимальных процессов Так как x(t) — произвольная начальная точка, то полученное равенство можно записать в виде \(,)+СЩ^,/(,))) B.6) и<ЕП I \ ОХ ) ) и рассматривать его как уравнение относительно неизвестных и и Ф(ж). В со- соответствии с обозначением B.4), это уравнение требуется решать с учетом до- дополнительного условия ФОг1) = 0, B.7) где х1 — точка фазового пространства, в которую должна быть переведена система. Уравнение B.5) называется уравнением Беллмана в задаче с нефиксиро- нефиксированным временем. Легко видеть, что задача B.6), B.7) аналогична соответст- соответствующей задаче A.11), A.4) из предыдущего параграфа. При практическом использовании изложенного метода решения задачи в каких-либо других подобных ситуациях следует помнить, что при заданном конечном состоянии системы метод применим лишь при свободном времени переходного процесса. Если же речь идет о переводе системы из одного задан- заданного состояния в другое, также заданное состояние за фиксированное время переходного процесса, то этим методом пользоваться нельзя (не выполняется принцип оптимальности). И второе предостережение. Задача B.6), B.7) полу- получена в предположении, что система B.1) автономна и функция G в критерии оптимальности B.3) не зависит от t. 2.2. Задача об оптимальном быстродействии. В этом пункте рас- рассматривается частный случай общей задачи, для которой выше было выведе- выведено уравнение Беллмена B.6). Здесь предполагается, что в критерии оптималь- оптимальности B.3) G = 1 и, следовательно, задача состоит в том, чтобы перевести систему B.2) из состояния х° в состояние х1 за кратчайшее время. Опти- Оптимальное время перехода из точки х в точку х1 обозначим через Т(х), т. е. в рассматриваемом случае Т(х) является функцией Беллмана. Однако в даль- дальнейших рассуждениях будем пользоваться функцией и>(х), отличающейся от Т(х) лишь знаком: ш{х) = -Т{х). B.8) Поэтому в новых обозначениях уравнение B.6) (с учетом того, что G = 1) можно записать в виде \ дх Таким образом, в каждой точке х (х ^ х1) выполнено условие (?I, B.9) а в точке х = х1 выполняется условие (см.B.7)) uuix1) =0. При этом в B.9) равенство достигается на оптимальном управлении и = u{t) и соответствующей ему оптимальной траектории х = x(t).
2. Система с закрепленным концом траектории и свободным временем 357 Этот вывод непосредственно следует из необходимых условий оптималь- оптимальности, которые даются уравнением Беллмана B.7) применительно к рассмат- рассматриваемому частному случаю. Полученный результат можно сформулировать следующим образом. Теорема 2.1. Если систему B.1) можно перевести оптимально по быстродействию из любой точки х Е Еп в заданную точку х1 и при этом функция ш(х), определяемая равенством B.8), непрерывно дифференцируема, то В(х,и) ^ 1 при х т^ х1 и всех и Е ?1, B.10) B(x(t),u(t)) = 1 для любого оптимального процесса (х(?), u(t)), B.11) Здесь использовано обозначение ±^MX,u). B.12) 1=1 l Чтобы придать этой теореме форму, удобную для практического использова- использования, дополнительно предположим, что функции /i(x,u), г = 1,..., п, в урав- уравнении B.1) имеют непрерывные первые производные, а функция и(х) дважды непрерывно дифференцируема, т. е. предположим, что непрерывны следующие производные: Возьмем оптимальный процесс (x(t\ u(t)) перехода системы B.1) из состоя- состояния х° в состояние х1 и зафиксируем моменты времени to и ti, to ^ t < t\. Тогда функция B(x,u{t)) переменной х будет непрерывно дифференцируемой (см. B.12)) и можно записать dB(x,u(t)) _ ^ д2ш у. дч> dfj(x,u(t)) г=1 /с=1 По предположению функция B(x,u{t)) непрерывно дифференцируема по xi,...,xn в окрестности точки х = х(?), to < ti, и при этом выполняются условия B.10) и B.11). Из этих условий следует, что в точке х = x(t) функция B(x,u(t)) достигает своего максимума, а следовательно, _ 0 к_12 п дхк Тем самым из соотношений B.13) получаем где к = 1, 2, ..., п. С другой стороны, d дхк
358 Гл. 7. Основы общей теории оптимальных процессов Поэтому, вводя обозначения соотношения B.14) можно записать в виде ®Mt)), к = 1,2,..., п. B.15) Х г=1 Если, наконец, ввести обозначение п ff(ql) т ll) — \ ^ ?/;• f(r ll\ B 16") J. A. \ Ly • Ju * LL J / Lyо I у \ *aj * LL /• 1 Zi.lU I то уравнение B.1) можно записать в виде i = l,2,...,n. Соотношения B.15) можно рассматривать как уравнения относительно не- неизвестных -01,..., фп: фк = -^^, к=1,2,...,п, B.17) дхк которые рассматриваются на оптимальном процессе (x(t),u(t)), а услови- условиям B.11) и B.12) можно придать следующую форму: H(i/j(t),x(t), u(t)) ^ 1 при всех и Е о;, где x(t) — оптимальная траектория, a ijj(t) определяется из соотношений B.15) и H{i){t),x{t),u{t)) = maxH(i/;(t),x(t),u) = 1. B.18) Полученный результат можно сформулировать следующим образом. Теорема (принцип максимума). Пусть (x(t),u(t)) — оптимальный процесс. Тогда существует функция ф(Ь) такая, что: 1) функции x(t),u(t) и ijj(t) удовлетворяют уравнениям B.16) и B.17); 2) функция H(ij;(t),x(t),u), рассматриваемая как функция переменной и, удовлетворяет условию максимума B.18). Такая формулировка условий оптимальности удобна при решении конкрет- конкретных задач. Пример 2.1. Рассмотрим управляемую систему ±i = ?2, х2 = щ \и\ < 1, B.19) которую за кратчайшее время следует перевести из начального состояния х° = = {х^х®} в состояние х1 = {0,0}. В соответствии с формулой B.16) определим функцию Н: Н(ф, X, и) = ф\Х2 + '02^- Затем выписываем уравнения B.17): Ф\ =0, фг = -фг. B.20) Из условия максимума B.18) получаем (t), u(t)) =
2. Система с закрепленным концом траектории и свободным временем 359 и, следовательно, оптимальное управление определяется формулой u(t) = sign ф2(€), где ^2{i) определяется уравнением B.20) ijj(t) = c2 — c\t, где с\ и С2 — не опреде- определённые пока постоянные. Отсюда следует, что оптимальное управление можно представить в виде u(t) = sign (c2 —c\t). Выражение, стоящее под знаком sign, как полином первой степени может изменять знак не более одного раза на лю- любом интервале изменения t. Поэтому оптимальное управление u{t) принимает значения ±1, изменяя знак (с плюса на минус или с минуса на плюс) не более одного раза. Поэтому далее рассмотрим поведение решения системы B.19) последова- последовательно при и = 1 и и = — 1.. Пусть сначала и = 1. Тогда из B.19) получаем систему уравнений dx\ dx2 dt ' dt Поделив почленно одно уравнение на другое, исключаем переменную t: = х2. = 1. B.21) После интегрирования находим, что 2#i = х\ -\- 71? где 7i — произвольная постоянная. Таким образом, в фазовой плоскости х\Ох2 решениям системы B.21) соответству- соответствует однопараметрическое семейство парабол, каждая из которых является фазовой траек- траекторией этой системы (рис. 7.2.1) При этом в соответствии со вторым урав- уравнением системы B.21), фазовая точка дви- движется по траектории вверх с возрастанием времени (т. к. —— > 0). На рис. 7.2.1 это на- ClC правление движения указано стрелкой. Рис. 7.2.1 Пусть теперь и = — 1 и, следовательно, уравнения B.19) принимают вид dx\ dt dt = -1. B.22) Отсюда получаем dx\ и фазовыми траекториями системы B.22) являются параболы (рис. 7.2.2) XI =~2 ¦72- Направление движения фазовой точки с возрастанием t определяется с по- помощью второго уравнения система: т. е. Х2 убывает, когда t растет.
360 Гл. 7. Основы общей теории оптимальных процессов О Рис. 7.2.2 К X -, Для получения оптимального управления на фазовой плоскости х\Ох2 выделим полупара- полупараболы из построенных семейств, по которым фазовая точка движется в начало координат (рис. 7.2.3). По полупараболе АО фазовая точка системы B.19) движется под действием управле- управления u{t) = —1. По полупараболе ВО — под дей- действием управления u(t) = 1. Возьмем некоторую точку М^х^^х^), распо- расположенную выше линии АОВ, и будем рассматривать оптимальное движение системы, исходящее из состояния, определяемого этой точкой. По доказанному фазовая точка может двигаться по одной из парабол, изображенных на рис. 7.2.1 и 7.2.2. Однако оптимальное управление может изменять знак не более одного раза в течение всего процесса. Поэтому сначала под действием управления u(t) = —1 фазовая точка движется по парабо- параболе MN до того момента времени т, когда она попадает на линию ВО. С этого момента време- времени она движется в начало координат под дей- действием управления u{t) = +1. Аналогично, ес- если началом движения фазовой точки системы B.19) является Р^,^) (см- Рис- 7.2.3), то снача- сначала оптимальное движение происходит по парабо- параболе PQ под действием управления u(t) = 1, а за- затем — по линии АО под действием u(t) = — 1. Подводя итоги, можно записать закон оптимального управления: . , J —1, если точка {х\,Х2) расположена над АОВ или на АО, 1+1, если точка {х\,Х2) расположена ниже АОВ или на ОВ. Таким образом, используя динамическое программирование, мы можем полностью определить управление, которое удовлетворяет необходимым усло- условиям оптимальности. 2.3. Оптимальность управления. Докажем теперь, что управление, полученное в рассмотренном примере, действительно является оптимальным, т. е. переводит систему из начального состояния в ко- конечное состояние за кратчайшее время при выбранных ограничениях на допустимые управления. Хотя при- приводимые ниже рассуждения относятся к конкретному примеру, их содержание имеет теоретический интерес. Для определенности рассмотрим процесс, изобра- изображенный на рис. 7.2.4, и обозначим через to ^ t ^ ^ Т\ отрезок времени, в течение которого этот про- процесс происходит. Через а обозначим момент переклю- переключения. Это означает, что процесс x(t) = {xi(t),xi(t)} Рис. 7.2.3 Рис. 7.2.4 происходит под действием управления «(*) = — 1 при to ^ t < се, +1 при а ^ t ^ t\. B.23)
2. Система с закрепленным концом траектории и свободным временем 361 Предположим, что это управление не является оптимальным. Тогда суще- существует допустимое управление й(?), \u(t)\ ^ 1, под действием которого переход- переходной процесс из того же начального состояния х° в то же конечное состояние х1 = {0, 0} произойдет за более короткий промежуток времени. Соответствую- Соответствующий этому управлению процесс обозначим через x(t) = {xi{t),x2{t)}. Очевид- Очевидно, что он удовлетворяет условиям x{to) = х° = {x^x^^xtf) = х1 = {0,0}, где в — некоторый момент времени, удовлетворяющий условию в < ti. B.24) Кроме того, обе функции x(t) и x(t) подчиняются исходным уравнениям B.19). Каждая при своем управлении: \ Х\ , ч *? ' Х\ , ч U,f \ °^ B.25) I X\(t) = X2(t), X2(t) = U(t), to ^ t ^ в. Рассмотрим две функции: X(t) = —x\(t) — x2(t)(t — се), X(t) = —xi(t) — — X2(t)(t — а). Так как обе функции x(t) и f (t) удовлетворяют одному и тому же начальному условию, то X(t0) = X(t0). Аналогично, X(h) = Х(в) = 0. B.26) Вычисляя производные, с учетом соотношений B.25) получим X(t) = u(t)(t - се), X(t) = u(t)(t - а). Согласно определению управления u(t) (см. B.23)) первое из этих равенств можно переписать в виде X(t) = \t — а\. Поэтому, учитывая, что \u(t)\ ^ 1, находим, что X(t) ^ 1^@1 ^ -^(О- Интегрируя полученное неравенство в пределах от to до 6, получим X(t) dt Jt0 Jt0 ИЛИ В силу B.2) и B.26) последнее неравенство принимает вид Х{9) > 0. B.27) С другой стороны, мы имеем -Х{9) = X(ti) - Х{9) = [ г X(t) dt= [ г \t - а\ dt > 0 Je Je (так как по предположению t\ > в). Отсюда следует, что Х(9) < 0, что проти- противоречит неравенству B.27). Полученное противоречие показывает, что неравенство B.24) не может вы- выполняться. Это означает, что фазовая точка, выйдя из х° в момент времени to, не может попасть в начало координат раньше, чем в момент времени t\. Это доказывает, что управление B.23) действительно является оптимальным
362 Гл. 7. Основы общей теории оптимальных процессов по быстродействию. Поэтому можно считать обоснованным употребление тер- термина оптимальное управление, которое использовалось в процессе построения и(х1,х2). 2.4. О дифференцируемости функции Беллмана. При получении уравнения Беллмана неоднократно отмечалось, что излагаемая процедура яв- является формальной, так как при этом без достаточного обоснования исполь- использовались различные предположения относительно свойств функции Беллма- Беллмана. Рассмотренный пример дает возможность проанализировать эту функцию и выяснить, насколько обоснованными являются все эти предположения, по крайней мере в рассматриваемом конкретном случае. Итак, будем рассматривать задачу об оптимальном быстродействии для управляемого процесса, описываемого уравнениями B.19). Сначала предполо- предположим, что оптимальное движение фазовой точки начинается из М{х\,х^) (см. рис. 7.2.3) и происходит по параболе из семейства B.22). Поэтому Значит, парабола, проходящая через точку М^х^^х^), определяется уравне- уравнением xi = -\[xl-(xlf]+x\. B.28) Координаты а и Ъ точки N (см. рис. 7.2.3) находятся из условия пересече- пересечения парабол B.28) и 1 2 XI = ~Х2. Отсюда находим, что Абсцисса точки N в дальнейшем не потребуется. Время движения фазовой точки из М в N определим из второго уравнения системы B.19) при и = — 1. Имеем dx2 ~Ж = ~ ' и поэтому па b - х% = - / dt = to-a. B.29) Аналогично находим время движения фазовой точки из N в начало координат по параболе ВО. Имеем и, значит, f 0-Ъ= dt = t1-a. B.30) Из B.29) и B.30) получаем Т(х°) =t1-t() = xl-2b = xl + 2Jx\ + 1 (ж!>J. B.31)
2. Система с закрепленным концом траектории и свободным временем 363 Эту формулу для функции Беллмана мы получили, предполагая, что на- начальная точка М(х\,х^) расположена выше линии АОВ. Легко проверяется справедливость этой формулы и для случая, когда эта точка лежит на ли- линии АОВ. Например, если М{х\^х^) расположена на линии АО, то точка N совпадает с М(х\,х^), причем в течение всего времени движения и = 1. Если начальная точка лежит ниже АОВ, то тем же способом устанавли- устанавливается, что А + \ (х°2J- B-32) Поэтому для функции Беллмана справедлива формула х°2 + 2 Т(х°) = ! если точка х° = {ж?, х®} лежит выше АОВ или на этой линии, 1 —х% + 2\\—х\ + - х° 2, если точка х° лежит ниже АОВ или на этой линии. Из этой формулы видно, что вне линии АОВ функция Т(х°) дифферен- дифференцируема. Покажем, что на линии АОВ эта функция не имеет производных по каждому из аргументов х\ и х\. В самом деле, пусть точка М(х\,х^) лежит на дуге АО. Тогда ее коорди- координаты связаны соотношением причем 0, и в этой точке _хо+ {хоJ = „о _ о — Хп. Поэтому с учетом формулы B.31) имеем дТ ~dxj 1 м дТ дх°0 = 1 м = 1 0' 4 Л = о. -щ Если же исходить из формулы B.32), то будем иметь дТ 'dxj 1 м = 00, дТ дх2 = 1 + м = — 00.
364 Гл. 7. Основы общей теории оптимальных процессов дТ дТ Таким образом, частные производные ——^ и ——^ в точке М(х°) терпят бес- бесконечный разрыв. Аналогичный результат получается и в том случае, когда точка М лежит на дуге ОВ. Следовательно, на том уровне, на котором изложен выше вывод уравнения Беллмана, его следует рассматривать как некий эври- эвристический прием решения задач об оптимальном управлении. Однако приме- применением более строгого математического анализа удается получить обоснование динамического программирования и лишь после этого его можно рассматри- рассматривать как строго обоснованный метод 3). 3. Задача об аналитическом конструировании регуляторов Одно из наиболее плодотворных приложений динамического программиро- программирования связано с решением линейно-квадратичных задач оптимального управ- управления процессом, который описывается уравнением х = A{t)x + B{t)u, to<t<T, C.1) а критерием оптимальности служит функционал I[u] = x*(T)Fx(T) + / [x*(t)Q(t)x(t) + f3u*(t)R(t)u(t)} dt. C.2) Jt0 Здесь х = {жь...,жта} G En, и = {uu...,ur} G Er, A(t), B(t), Q(t), R(t) - непрерывные матрицы, F и Q(t) — неотрицательные матрицы, a R(t) — поло- положительная матрица, C — положительный параметр. Напомним, что матрица М называется положительной (неотрицательной), если квадратичная фор- форма (а*,Ма) положительна (неотрицательна) для любого отличного от нуля вектора а, Допустимыми управлениями будем считать любые кусочно непрерывные функции и = u(t), принимающие значения в открытой или замкнутой области Q С ЕТ. Однако в дальнейшем нас будет интересовать иная форма представле- представления этих допустимых управлений. Она характеризуется тем, что указана явная зависимость управления от фазовых координат, т. е. управление представля- представляется в виде и = u(t, x). Если это управление подставить в уравнение C.1), получим уравнение х = A(t)x + B(t)u(t, ж), C.3) которое будет линейным или нелинейным в зависимости от того, линейна или нелинейна по х функция и = u(t, x). Однако в любом случае мы будем предпо- предполагать, что полученное уравнение имеет единственное решение при заданном начальном условии x(to)=x°. C.4) Тот факт, что управление u(t, x) рассматривается на соответствующем ему решении задачи Коши C.3), C.4), будем записывать в виде u\t,x(t)\. Задача состоит в том, чтобы найти управление и = u(t, x) такое, что на функции u[t,x(t)] функционал C.2) достигает своего наименьшего возможного значе- значения при любом х° в условии C.4). ) Болтянский В.Г. Достаточные условия оптимальности и обоснование метода динами- динамического программирования// Изв. АН СССР. Сер. матем. — 1964. — Т.28, № 3. — С. 481-514.
3. Задача об аналитическом конструировании регуляторов 365 Эта задача впервые была сформулирована А.М.Летовым. Он назвал ее за- задачей об аналитическом конструировании регуляторов. Им же были получе- получены первые и, пожалуй, наиболее важные результаты в ее решении. Однако не менее важным является тот факт, что она стала источником многочисленных исследований по проблемам, тесно примыкающим к задаче об аналитическом конструировании регуляторов. 3.1. Применение динамического программирования. Сформулиро- Сформулированная задача об оптимальном управлении относится к классу задач, рас- рассмотренных в параграфе 1. Поэтому не будем выводить для нее уравнение Беллмана, а воспользуемся готовым результатом (см. A.11) и A.12)). Функ- Функция Беллмана S[t,x] и оптимальное управление u(t,x) должны быть связаны уравнением Беллмана -— = minlx* Q(t)x + Cu*R(t)u + \—,Ax + Bu\ , to<t<T, C.5) Bt uen |_ \Bx J \ и, кроме того, должно выполняться дополнительное условие S[T,x] =x^T)Fx(T). C.6) Сначала рассмотрим случай, когда область Q совпадает со всем прост- пространством Ег. Выражение, стоящее в квадратных скобках в уравнении C.6), достигает своего минимума по переменной и в той же точке, в которой дости- достигает минимума функция Ф(и) = /3u*R(t)u + ( —, Ви ) = /3 V RikUiUk + УУ — bjkuk. \Вх I *-^ *-^ *-^ Bxj 4 7 i,k=l j=l k=l J Не нарушая общности дальнейших рассуждений, матрицу R можно счи- считать симметричной. Поэтому дФ(и) _ А у, BS Так как в точке минимума функции Ф выполнено условие стационарности =0, v == 1, 2, ..., г, Buv то Вх где 0 — нулевой вектор. Отсюда следует, что 1 ВЧ u = --R-\t)B4t)-. C.7) Подставляя найденное значение и в уравнение C.5), получим *)?• C-8)
366 Гл. 7. Основы общей теории оптимальных процессов Таким образом, для определения функции Беллмана S[t, х] мы имеем нели- нелинейное уравнение C.8) с дополнительным условием C.6). А.М.Летов предло- предложил искать решение этой задачи в виде квадратичной формы S[t,x] =x*K(t)x, C.9) где K(t) — подлежащая определению положительная симметричная матрица. Из C.9) получаем ^ = x*K(t)x, |^ = K{t)x + K*(t)x. C.10) Подставляя функцию S и ее производные из C.9) и C.10) в уравнение C.8) и полагая затем матрицу K(t) симметричной, будем иметь ж* \k(t) + K(t)A(t) + A*(t)K(t) - ^ K(t)B(t)R-\t)B*(t)K(t) + Q(t)] x = 0. Так как это равенство должно выполняться при любом векторе ж, то от- относительно матрицы K(t) получаем матричное дифференциальное уравнение К + KA(t) + A*(t)K - ^ KB(t)R*(t)B*(t)K + Q(t) = 0, C.11) которое называется матричным уравнением Риккати. Здесь справа записан символ 0, который представляет собой квадратную матрицу, все элементы ко- которой являются нулями. Функция C.9) должна удовлетворять условию C.6). Значит, решение урав- уравнения C.11) должно удовлетворять условию К(Т) = F. C.12) Таким образом, для определения матрицы K(t) имеем задачу Коши C.11), C.12L). Если каким-либо способом удалось решить эту задачу, то с помощью формул C.7) и C.9) получаем оптимальное управление u(t,x) = -^-R-^^B^^K^x. C.13) Тем самым вопрос о построении управления, удовлетворяющего уравнению Беллмана, полностью решен. Остается убедиться в том, что полученное управ- управление C.13) действительно является оптимальным. Очевидно, что функционал C.2), определенный на допустимых управлениях и соответствующих им реше- решениях уравнения C.1), является выпуклым, и поэтому он имеет единственную точку минимума. Эта точка должна удовлетворять необходимому условию экс- экстремума, т. е. соответствующее значение переменной и должно удовлетворять уравнению Беллмана и условию C.6). Отсюда с очевидностью следует, что в этой экстремальной точке должны выполняться соотношения C.7) и C.8). Однако ни из каких дополнительных соображений не следует, что искомая функция S[t,x] должна быть представима в виде C.9). Поэтому для полного решения задачи следует доказать, что управление C.13) действительно является оптимальным. Такое доказательство здесь при- приводить не будем, а ограничимся лишь утверждением, что оно существует и управление C.13) действительно является оптимальным. ) Более подробно с теорией уравнения Риккати можно ознакомиться по книге: Его- Егоров А.И. Уравнения Риккати. — М.: Физматлит, 2001.
3. Задача об аналитическом конструировании регуляторов 367 Пример 3.1. Рассмотрим механизм, предназначенный для намотки про- проволоки5). Он схематически представленный на рис. 7.3.1. Двигатель постоян- постоянного тока вращает катушку, на которую наматывается проволока. Скорость намотки ? проволоки на катушку поддерживается постоянной. Из-за увеличе- увеличения размера катушки в процессе намотки возрастает ее момент инерции J(t). Кроме того, для поддержания постоянной скорости намотки необходимо при этом уменьшать угловую скорость со вращения катушки. Обозначим через /х(?) напряжение усилителя мощности, который управля- управляет двигателем постоянного тока. Тогда получим уравнение C.14) Здесь а — коэффициент пропорциональности между мощностью двигателя и входным напряжением. Кроме того, между радиусом катушки R(t), угловой скоростью ее вращения и линейной скоростью намотки ?(?) существует оче- очевидная связь <(*) = R{t)tu{t). C.15) Вводя новую переменную уравнения C.14) и C.15) можно переписать в виде с = j(t) C.16) ha тут к а Rtt) Предположим, что скорость вра- вращения катушки регулируется таким образом, что линейная скорость ( на- намотки проволоки поддерживается по- постоянной: С = Со = const. Тогда зави- зависимость между J и R от времени мож- можно установить следующим образом. Пусть за время dt радиус катушки изменился на величину dR. При этом увеличение объема проволоки, намо- намотанной на катушку, пропорционально RdR. Тот же объем, с другой сторо- Рис. 7.3.1 ны, пропорционален dt, так как скорость намотки постоянна. Поэтому име- имеем RdR = cdt, где с — коэффициент пропорциональности. После интегри- интегрирования получаем R2(t) = R2@) + ht, где h — постоянная. Однако если ра- радиус возрастает от R до R + dR, то момент инерции катушки изменяется на величину R3dR, а поэтом dJ = jR3dR. После интегрирования получаем J(t) = J@) + h[R4(t) - Я4@)] После этих предварительных замечаний переходим непосредственно к за- задаче такого управления системой, при котором скорость намотки поддержи- поддерживается постоянной и равна (о- Соответствующая этому значению номинальная ) См.: Квакернаак X., Сиван Р. Линейные оптимальные системы управления. — М.: Мир, 1977. - 650 с.
368 Гл. 7. Основы общей теории оптимальных процессов величина ?o(t) переменной ?(?) определяется согласно второму уравнению из системы C.16): ^Ц, C.17) а номинальная входная переменная /хо(?) находится из первого уравнения той же системы: В соответствии с формулой C.17) отсюда получаем d Вводя обозначения y(t) = ?(t) - ?o(t), u(t) = /i(t) - /io(?)? v(t) = ((t) - (o, можно получить уравнения динамики рассматриваемого процесса "^ Jit) Критерием оптимальности возьмем функционал [v2(t)+f3u2(t)]dt. Здесь to и t\ — моменты времени начала и окончания процесса. В этом случае уравнение Беллмана имеет вид Кроме того, должно выполняться условие s[tuy] = o. Из условия минимума по переменной и правой части уравнения C.18) получаем Это уравнение после исключения из него переменной и принимает вид _9S__(r{tl \2 a fdS\2 ip OS Решение этого уравнения ищем в виде S[t,y}=K(t)y2. C.20) Следовательно, уравнение Риккати в этом примере имеет вид ¦ Интересующее нас решение этого уравнения должно удовлетворять начально- начальному условию K(h) = 0. C.22) Зная конкретный вид функций R(t) и J(t), решение задачи C.21), C.22) можно получить аналитическими или численными методами, а затем с по-
3. Задача об аналитическом конструировании регуляторов 369 мощью формул C.20) и C.19) получить приближенное оптимальное управле- управление. 3.2. Оптимальные процессы в системах с постоянно действующи- действующими возмущениями. Будем рассматривать управляемый процесс, описывае- описываемый уравнением х = A(t)x + B(t)u + (/(?), to<t<T, где вектор-функция f(t) характеризует внешние возмущения в системе. Кри- Критерием оптимальности берем тот же функционал C.2)). Поэтому при решении задачи вместо C.5) получим следующее уравнение Беллмана: dS Г (dS — = min \x*Q(t)x + Cu*Ru + I — , at и [ \ax с прежним дополнительным условием C.4). Исключая переменную и с по- помощью условия минимума, получим прежнюю формулу C.7). Вместо C.8) по- получим уравнение (i9Udi)'t)di- <3-23) Таким образом, в рассматриваемом случае задача сводится к решению уравнения C.23) с дополнительным условием C.6) и последующим вычислени- вычислениям оптимального управления по формуле C.7). Наличие слагаемого, содержа- содержащего /(?), вынуждает искать решение уравнения C.23) не в виде квадратичной формы C.8), а в более общем виде S[t, x] = x*K(t)x + g*(t)x + r(t), C.24) где матрица K(t), вектор g(t) и скалярная функция r(t) подлежат определе- определению. Подставляя функцию C.24) в уравнение C.23) и приравнивая коэффи- коэффициенты при одинаковых степенях ж, находим, что матрица К должна удовле- удовлетворять уравнению Риккати C.11). Функции g(t) и r(t) должны определяться из уравнений g + Ag + 2Kf--[-KB*R-1Bg = 0, r = 0. C.25) Так как функция C.24) должна удовлетворять удовлетворять начальному условию C.6), то д(Т) = в, г(Т) = 0. C.26) Отсюда следует, что r(t) = 0, а для определения фактор-функции g(t) = — {9i(t)j • • • i9n(t)} имеем задачу Коши C.25), C.26). Уравнение C.25) линейно относительно д, и поэтому основная трудность в построении функции C.24) состоит в решении уравнения Риккати C.11). После определения K(t), g(t) и r(t) из формулы C.24) получаем S[t,x] =x*K(t)x + g*(t)x. После этого оптимальное управление находим по формуле C.7): u(t,x) = -±R
370 Гл. 7. Основы общей теории оптимальных процессов Аналогичным образом решается задача в том случае, когда для систе- системы C.1) критерием оптимальности берется функционал I[u] = x*(T)Fx(T) + / {[x(t) - <p(t)]*Q(t)[x(t) - v(t)]+Cu*R(t)u}dt, где (p(t) — заданная вектор-функция. 3.3. Задача слежения. Рассмотрим управляемую систему х = A(t)x + B(t)u, y = C(t)x, 0<?<Т, C.27) в которой, как обычно, A(t), B(t) и C(t) - непрерывные матрицы размерностей пхп, пхгитхп соответственно. Кроме того, будем предполагать, что эта система наблюдаема на отрезке времени [0,Т] (см. гл. 5, параграф 3), т. е. предполагается, что матрица М(Т)= [ W*(T,t)C*(t)C(t)W(T,t)dt Jo является положительной. Обозначим через z(t) — m-мерный вектор, закон изменения которого задан извне, и его будем называть желаемым выходом системы. Тогда вектор e(t) = = z(t) — y(t) будет представлять собой рассогласование, или ошибку следящей системы C.27). Критерием качества процесса будем рассматривать функцио- функционал I[u] = -e*Fe + - / [e*Q(t)e + f3u*R(t)u] dt, 2 2 j0 в котором матрицы F и Q предполагаются неотрицательными, a R положи- положительна. При этом Q(t) и R(t) считаются непрерывными на отрезке [0,Т], Т — фиксированный момент времени, а и может принимать все значения из Ег. Подставляя в этот функционал вместо e(t) его значение e(t) = z(t) - C(t)x, будем иметь 1[и) = [z(T) - C(T)x(T)]sF[z(T) - С(Т)х(Т)) + / {[z(t) - C(t)x(t)]Q(t)[z(t) - C(t)x(t)]+f3u*(t)R(t)u(t)}dt. C.28) Jo Решаем задачу минимизации этого функционала методом динамического про- программирования. Выписываем соответствующее уравнение Беллмана: -— = minj [z - C(t)x]*F[z - C(t)x) + /3u*R(t)u + f — J (A(t)x + B(t)u) \. C.29) При этом функция S[t, x] долж:на удовлетворять начальному условию S[T,x] = [z(T) - C(T)x]*F[z(T) - C(T)x]. C.30) Сначала из условия минимума правой части уравнения C.29) получаем 1 ВЧ u = --R-\t)B*{t) — . C.31)
3. Задача об аналитическом конструировании регуляторов 371 Поэтому, исключая и из уравнения C.29), будем иметь - — = [z(t) - C(t)x]*Q(t)[z(t) - C(t)x] + (^—j A(t)x - Решение этого уравнения ищем в виде C.24). В итоге так же, как и в предыдущем случае, относительно неизвестных R(R), g(t) и r(t) получим дифференциальные уравнения К + К А + А* К + C*QC - KBR~1B*K, C.32) g + [А* - KBR^B^g + C*Qz, C.33) г + z*Qz - ^-g*CBR-1B*C*g. C.34) Так как, кроме того, функция S[t,x] должна удовлетворять условию C.30), то имеем K(T) = C*(T)FC(T), C.35) g(T) = -2C*(T)Fz(T), C.36) r(T) = z*(T)Fz(T). C.37) Уравнение C.32) является уравнением Риккати, и его анализ был дан вы- выше. Поэтому предполагая, что матрица K(t) получена как решение задачи Ко- Копти C.32), C.35), можно решать линейное уравнение C.33) с начальным усло- условием C.36), а затем переходить к решению уравнения C.34)) с начальным условием C.37). Впрочем, последнюю задачу можно и не решать, так как для определения оптимального управления по формуле C.31) оно не требуется. Итак, определив K(t) и g(t), можно построить оптимальное управление, используя формулы C.24) и C.31): u(t,x) = -^R-^tWit^K^x + git)}. C.38) На первый взгляд кажется, что задача полностью решена. Однако следует вспомнить, что в рассматриваемом случае компоненты вектора х = {xi,..., хп} недоступны наблюдению. Вектором наблюдаемых переменных является (см. систему C.27)) у = C(t)x. C.39) Поэтому естественной является задача построения оптимального управления, непосредственно выраженного через наблюдаемую переменную у. В парагра- параграфе 1 из гл. 5 при построении псевдообратных матриц использовалось понятие скелетного разложения прямоугольной матрицы (см. формулу A.33) из пара- параграфа 1 из гл. 5). Эадачу можно считать решенной, если матрицу 2K(t) можно представить в виде 2K(t) =M(t)C(t), C.40) где C(t) — матрица из C.39). Тогда управление C.38) можно записать в виде u(t,x) = -±R и задача полностью решена.
372 Гл. 7. Основы общей теории оптимальных процессов Если же представление C.40) невозможно, то задача решается сложнее. Подставляя управление C.38) в первое уравнение системы C.27), перепи- перепишем полученный результат в виде x = A1x-\-f(t), y = C(t)x, 0<t<T, C.41) где В№В№(г), h(t) = -± B(t)Rl - l]B*(t)g(t). Предположим, что система C.41) наблюдаема на каждом отрезке времени 0 ^ т ^ t. Тогда результат измерения у(т), 0 ^ т ^ ?, позволяет определить x(t\ и используя способ вычисления x(t\ изложенный в параграфе 1 из гл. 5, приходим к выводу, что при каждом t компонента Xi(t) вектора x(t) является линейным функционалом, определенным на вектор-функции г/(т), 0 ^ т ^ t. Поэтому можно записать Xi{t) = Ф&)у(т), 0 < т < t, г = 1, 2, ..., п, где <&i, г = 1,...,п, — линейные по у функционалы. Подставляя полученное представление x(t) в управление C.38), будем иметь u[t,x(t)] = Ф(Ь)у(т), где Ф{Ь) — оператор, определяемый функционалами Фг{Ь) в соответствии с тем, что можно определить оператор Ф(?) по правилу x{t) = {xi(t),... ,xn(t)} = { а затем его использовать для определения оператора Ф(?) по формуле Таким образом, в общем случае оптимальное управление является адди- аддитивным, но не обязательно однородным оператором, определенным на функ- функциях г/(т), 0 ^ г ^ t. Именно в этом состоит принципиальное отличие решения задачи синтеза оптимального управления при неполном наблюдении от реше- решения других задач, рассмотренных в этом параграфе. Если же подвести общий итог по всем задачам об аналитическом констру- конструировании регуляторов (с полным и неполным наблюдением), то приведенный выше анализ позволяет сделать следующий вывод. Применение динамического программирования позволяет свести задачу оптимизации к решению задач Коши для обыкновенных дифференциальных уравнений. При этом наиболее трудной задачей оказывается задача Коши для матричного уравнения Риккати. Сложность ситуации здесь определяется тем, что если вектор х в уравнении C.1) имеет размерность п, то уравнение Риккати C.11) относительно матрицы K(i) представляет собой систему из п2 нелинейных дифференциальных уравнение относительно элементов этой матрицы. Трудности в практическом решении (численном или аналитическм) на- нарастают лавинообразно с возрастанием п. Для системы C.1) второго порядка нужно решать матричное уравнение Риккати, состоящее из четырех скалярных уравнений. Для системы третьего порядка число уравнений в системе Рикка- Риккати повышается до девяти. Для системы четвертого порядка их будет уже 16 и
3. Задача об аналитическом конструировании регуляторов 373 т. д. Поэтому вопросы разрешимости матричных дифференциальных уравне- уравнений Риккати и свойств их решений стали предметом многочисленных исследо- исследование в связи с проблемами теории управления6). Пример 3.2. Пусть управляемая система описывается уравнениями xi = -xi+u, х2 = -2х2 + и, у = 2xi - х2. C.42) Критерием оптимальности выбран функционал O Требуется построить оптимальное управление в зависимости от наблю- наблюдаемой переменной у. Воспользуемся методом динамического программирования. С этой целью критерий оптимальности запишем в виде \ + и2) dt. 1 Г°° 1 Г°° = - / [Bx1 - х2J + u2]dt = - / Dх\ ~ 4^i^2 ^ Jo ^ Jo В этом случае функцию Беллмана S ищем в виде S = S[x], т. е. допускаем, что она может не зависеть от t. Тогда уравнение Беллмана принимает вид [1/9 9ч 1 9 9S , OS , Л mm - Dx1 — 4х\х2 + х%) + - и + -— (—х\ + и) + -— (—2х2 + и)\ =0. и \_2 2 ох\ ох2 \ Отсюда находим, что dS dS дх\ дх2' и поэтому для определения S получаем уравнение 2 2 (dS dS\2 dS dS . 4xi-4Xlx2+x22-[-— + -—) -2—x1-4-—x2 = 0. 3.43 \dx! dx2j dxi dX2 Решение этого уравнения ищем в виде S[x] = кцх\ + 2к12ххх2 + к22х\, C.44) и поэтому dS dS — = 2(k11x1 + к12х2), — = 2(k12xx + k22x2). C.45) Подставляя значения производных из C.45) в уравнение C.43) и приравни- приравнивая коэффициенты при одинаковых степенях х\ и х2, получаем систему урав- уравнений Риккати относительно коэффициентов /сц, к\2 и к22 (fcii + к12J + fcu = 1, 4(fci2 + /c22J + 8/с22 = 1, 2(fcu + fci2)(fci2 + k21) = -1. Так как функционал / является неотрицательным, то нас интересует решение этой системы, на котором функция Беллмана S принимает неотрицительные значения. Этим решением является 2к22 = 1.53, 2к12 = -0.56, 2к22 = 0.225 ) См., например: Егоров А.И. Уравнения Риккати. — М:, Физматлит, 2001.
374 Гл. 7. Основы общей теории оптимальных процессов и, следовательно, по формуле C.44) находим функцию S, а по формуле C.7) получаем оптимальное управление в виде и(хъх2) = -0.97x1 + 0.335х2. C.46) Теперь это управление нужно представить в зависимости от наблюдения у. С этой целью продифференцируем по t последнее уравнение в систе- системе C.42) и учтем первые два ее уравнения. В итоге будем иметь у = 2xi — %2 = —2^1 + 2х2 + и. Перепишем последнее уравнение системы C.42): у = 2xi -я2. Рассматривая эти соотношения вместе с C.46) как систему алгебраических уравнений относительно неизвестных xi, х2 и и, получим и[у] = -0.751/ + 0.176?/. C.47) Таким образом, рассматривая соотношение C.47) как элементарное звено в системе регулирования, мы в соответствии с классификацией, данной в гл. 1 (см. параграф б из гл. 1), должны его называть дифференцирующим звеном первого порядка. 3.4. Решение уравнения Риккати. Рассмотрим теперь подробнее во- вопрос о решении задачи Коши C.11), C.12). Будем предполагать, что матрицы A(t), B(t). Q(t) и R(t) непрерывны на отрезке to ^ t ^ T и, кроме того, Q(t) и F предполагаются неотрицательными (Q(t) ^ 0, F ^ 0), a R(t) — положи- положительной (R(t) > 0). Обозначим через W(t,s) фундаментальную матрицу Коши системы уравнений х = A(t)x - S(t)p, p = -Q(t)x - R(t)p, C.48) где B(t)R~\tW(t). C.49) Пусть, далее, задан вектор {х°,р0}, и укажем начальные условия х(?0)=х°, p(to)=p°. Тогда решение системы C.48) с этими начальными условиями можно предста- предстаfx(t)\ _ fWu(t,to) W12(t,to) вить в виде \p(t)J = \W21(t,to) W22(t,t0)/ где Wik — блок размерности пхп матрицы Коши W системы уравнений C.48). Аналогично можно записать формулу (х(Т)\ _ (Wu(T,t) W12(T,t)\(x(t)\ \р{т)) ~ yw21(T,t) w22(T,t)J [p(t)J ¦ [6-b[)) Теорема 3.1. Если K(t) — решение уравнения Риккати C.11), то K(t) = [W22(T,t) - FW^T.t^lFWniT.t) -W2i(T,t)], C.51) где K(T) = F. C.52)
3. Задача об аналитическом конструировании регуляторов 375 Доказательство. Пусть {x(t),p(t)} — решение системы уравнений C.48), удовлетворяющее условию p(T) = Fx(T). C.53) При заданной матрице F такое решение определяется неоднозначно, так как можно произвольно задать вектор х(Т) и по формуле C.53) определить вектор р(Т), и лишь по этим векторам однозначно строить решение системы C.48). Покажем, что одно из таких решений представимо в виде p(t) = K(t)x(t). C.54) Функции x(t) и p(t), определяемые этим соотношением, очевидно, удовлетво- удовлетворяют условию C.53). Вычисляя производную, получаем p(t) = K(t)x(t)+K(t)x(t). Учитывая систему уравнений C.48) и соотношение C.54), находим [K(t) + K(t)A(t) + A*(t)K(t) - K(t)S(t)K(t) + Q(t)]x(t) = 0. Так как K(t) — решение уравнения Риккати, то x(t) и p(t), связанные соот- соотношением C.54), действительно образуют решение системы уравнений C.48). Согласно соотношениям C.50) и C.54) имеем x(T)[Wu(T,t)) + W12(T,t)K(t)]x(t), р(Т) = [W2i(T,t) + W22(T,t)K(t)]x(t). Если теперь воспользоваться равенством C.53), то отсюда получим искомое равенство C.51). Теорема 3.2. Решение K(t) уравнения Риккати C.11) с начальным усло- условием C.52), определяемое формулой C.51), является положительной мат- матрицей. Доказательство. По предположению матрицы Q(t) и F неотрицатель- неотрицательны, a R{t) положительна. В соответствии с определением функции Беллиана S[t,x\ она является минимальным значением функционала C.2), который мы определяем в виде C.9). Эта функция в свою очередь определяет оптимальное управление в виде C.7), а с учетом C.9), в виде (см. C.13)) u(t,x) = -^- Это означает, что x*(t)K(t)x= [ [x* Jt t) + ) P где S(t) определяется формулой C.49). Так как по предположению R > 0, Q ^ 0, F ^ 0, то правая часть полученного равенства положительна при лю- любом, отличном от тождественного нуля векторе x(t). Поэтому x*(t)K(t)x(t) > 0. В заключение напомним, что выше были рассмотрены задачи об аналити- аналитическом конструировании регуляторов в предположении, что областью значений допустимых управлений является все пространство Ег. Однако в приложениях часто встречаются задачи такого же типа, но с управлениями, принимающими значения лишь в ограниченной области Q из Ег. Методы решения такого типа задач рассматриваются в следующем параграфе.
376 Гл. 7. Основы общей теории оптимальных процессов 4. Задача об оптимальной стабилизации Рассмотрим еще один тип задач об оптимальном управлении, в решении которых оказалось эффективным применение метода динамического програм- программирования. Первые существенные результаты на этом пути были получены А.М.Летовым. С решением задач об оптимальной стабилизации связано за- зарождение общей теории систем, идеи которой позволяют рассмотреть многие задачи управления с более общих позиций и установить ее связь с другими важными научными направлениями в кибернетике. 4.1. Постановка задачи и анализ нелинейных систем. Пусть управ- управляемый процесс описывается уравнением x = f(t,x,u), ?>0, D.1) в котором х = {xi,...,xn} G Еп, и = {ui,...ur} G ЕТ, вектор-функции / = {/i,...,/n} определена в области ||х|| ^ iJ, и G ft С ^г, где Н — за- заданная постоянная, a Q — открытая или замкнутая область в Ег. Кроме того, предполагается, что в указанной области изменения переменных х, и и t функ- функция /(?, ж, и) непрерывна по t и непрерывно дифференцируема по совокупности остальных переменных, а fi(t,ffn,ffr) = O, i = l,2,...,n, где 6q — нулевой вектор порядка q. Допустимыми управлениями считаются кусочно непрерывные вектор-функции и = u{t) со значениями в Q. Управление типа и = u(t,x) также считается допустимым, если оно кусочно непрерывно по t и непрерывно дифференцируемо по всем компонентам вектора х. Будем также предполагать, что на решении задачи Коши х = f(t,x,u(t,x)), t>0, x@)=x°, \\x°\\^H, D.2) управление u(t, x) принимает значения из области Q по крайней мере при до- достаточно малых значениях t,t > 0. Последнее предположение означает следующее. Решив задачу Коши D.2), мы определим функцию х = х(?), и, следовательно, будет определена функция и = гф, x(t)]. Если эта функция принимает значения из области Q при t G @, г), где т может быть произвольно малым числом, то управление u(t,x) считается допустимым на интервале времени 0 < t < т. Пусть, далее, cj(t, ж, и) — неотрицательная скалярная функция, определен- определенная в указанной выше области изменения переменных ?, х и и. Задача об оптимальной стабилизации состоит в том, чтобы найти допу- допустимое управление и = u(t, x) такое, чтобы: 1) тривиальное решение уравнения было асимптотически устойчивым; 2) функционал D.3) / uj(t,x,u)dt D.4) Jo принимал наименьшее возможное значение на этом управлении и соот- соответствующем ему решении уравнения D.3) с любым начальным условием х@)=х°, \\х°\\ <У.
4- Задача об оптимальной стабилизации 377 В том частном случае, когда требуется обеспечить лишь асимптотическую устойчивость тривиального решения уравнения D.3), задача называется зада- задачей о стабилизации системы D.1). Ее здесь рассматривать не будем. Для решения задачи об оптимальной стабилизации воспользуемся идеями второго метода Ляпунова. Обозначим через V(?, #i,..., хп) функцию Ляпуно- Ляпунова, определенную в области t > 0, ||ж|| < Я. D.5) Введем, далее, обозначение D.6) Очевидно, что если при некотором выборе функций V(?, x) и u(t, x) в об- области D.5) выполняется равенство B[V(t,x),t,x,u(t,x)) = О, то это означает в силу формулы D.6), что полная производная функции V(?, ж), составленная в силу уравнения D.3), в области D.5) удовлетворяет условию dft]) =-Lo(t,x(t),u(t,x(t)). D.7) Теорема 4.1. Если для дифференциального уравнения D.1) можно най- найти имеющую бесконечно малый высший предел определенно положительную функцию V(t,x) и функцию u(t,x) такие, что они удовлетворяют в области D.5) условиям: 1) функция u(t,x) = cj(t,x,u(t,x)) является определенно положительной; 2) справедливо равенство ;), t, ж, u(t,x)] = 0; D-8) 3) каков бы ни был вектор иу справедливо неравенство B\V{t,x),t,x,u] > 0, D.9) то управление и = u(t,x) является оптимальным. При этом выполняется условие / uo(t,x(t(,u(t,x(t))) dt = min / u(t,x(t), и) dt = V@,: Jo M Jo Операцию min в последнем равенствах нужно понимать в следующем смыс- смысле. Интеграл D.4) при и = u(t, x) достигает наименьшего возможного значения для всех начальных состояний х@) из достаточно малой окрестности начала координат и для всех других стабилизирующих управлений. Доказательство. Подставляя указанное в теореме управление u(t,x) в уравнение D.1), получим уравнение D.3), для которого функция V(t,x) удо- удовлетворяет всем условиям теоремы Ляпунова об асимптотической устойчи- устойчивости (см. гл. 2, параграф 4). Значит, тривиальное решение уравнения D.3)) асимптотически устойчиво при выбранном управлении. Остается показать, что это управление минимизирует функционал D.4). Так как выполнено условие D.8), то полная производная функции V(t,x)
378 Гл. 7. Основы общей теории оптимальных процессов удовлетворяет тождеству D.7), из которого интегрированием получаем /»ОО V@,x@) = / u(t,x(t),u(t,x(t))dt. Jo С другой стороны, для любой другой вектор-функции и = й(?, х) должно выполняться неравенство D.9), и в силу обозначения D.6) получаем Это означает, что полная производная функции V(t,x), составленная в силу уравнения x = f(t,x,u(t,x)), D.10) >-Lj(t,x(t),U(t,x(t))), D.11) удовлетворяет неравенству dV(t,x(t)) dt где x(t) — решение уравнения D.10). Так как и = u(t,x) — стабилизирующее управление, то для достаточно малого значения ||х@)|| решение x(t) обладает свойством \\x(t)\\ < е, при t > 0, lim \\x(t)\\ = 0. t^oo где г — заданная достаточно малая постоянная величина. Поэтому, интегрируя неравенство D.11), получаем / Jo Тем самым теорема доказана. Замечание 4.1. Если вспомнить, что в методе динамического программи- программирования функция Беллмана S[t,x], определяемая формулой />ОО S[t, х] = min / Lu(t,x,u)dt, и it должна удовлетворять уравнению Беллмана dS[t,x] ^ Г , ч ^dS%x\?t A w,=mm<u(t,x,u) + >^ fi{t,x,u) >, at и ^ ^=i ax i ) то, сравнивая его с правой частью уравнения D.6), можно заметить неко- некоторую аналогию между функциями S и V. Эта аналогия не ограничивает- ограничивается указанными формальными признаками. Как показали исследования, су- существует глубокая связь между динамическим программированием и методом Ляпунова в решении задач об оптимальной стабилизации 7). ) См., например: Красовскип Н.Н. Теория оптимальных управляемых систем // Меха- Механика в СССР за 50 лет. — М.: Наука, 1968.
4- Задача об оптимальной стабилизации 379 4.2. Оптимальная стабилизация линейных систем. Теорему 4.1 при- применим к решению линейно квадратичных задач об оптимальной стабилизации. Пусть уравнения возмущенного движения управляемой системы имеют вид x = A(t)x + B(t)u, D.12) где A(t) и B(t) — непрерывные матрицы размерностей п х п и п х г соот- соответственно. Допустимыми управлениями считаем кусочно непрерывные век- вектор-функции и = u(t) со значениями в Ег. Критерием оптимальности берем функционал />ОО 1[и]]= / [x*Q(t)x + /3u*R(t)u]dt, D.13) Jo где Q(t) — неотрицательная непрерывная матрица (Q(t) ^ 0), R(t) — положи- положительная непрерывная, симметричная матрица (R(t) > 0). Для решения задачи оптимальную функцию Ляпунова (см. теорему 4.1) будем искать в виде квадратичной формы п V(t, х) = x*C(t)x = Y, Сгкхгхк, D.14) г,к=1 в которой Cik подлежат определению. Тогда формулу D.6), определяющую функцию Б, можно записать так: dV fdV\* B[V,t,x,u] = ^+ f — J Wt)x + B(t)u)+x*Q(t)x + Pu*R(t)u. D.15) На оптимальном управлении и = u(t,x) функция D.15) должна достигать сво- своего минимума и при этом должно выполняться условие B[V,t,x,u{t,x)) =0. D.16) Из условия минимума находим, что и согласно определению функции V (см. D.14)) получаем u(t,x) = -^-R-1B*{t)C{t)x. D.17) Подставляя найденное управление в формулу D.15) и учитывая условие D.16), получаем Вычисляя производные функции D.14) и подставляя их в уравнение D.18), будем иметь ^ CA + AC + Q-\ C*BR~1B*C = 0, at p где 0 — квадратная матрица с нулевыми элементами. Полученное уравнение является матричным уравнением Риккати относительно матрицы C(t), опре- определяющей оптимальную функцию Ляпунова Если удается найти ограниченное решение этого уравнения такое, что функция V(t,x), определяемая формулой D.14), оказывается положительной,
380 Гл. 7. Основы общей теории оптимальных процессов то согласно теореме 4.1 управление D.17) будет оптимальным, а следовательно, будет решена задача об оптимальной стабилизации системы D.12). Таким об- образом, главная особенность в решении уравнения Риккати в рассматриваемом случае состоит в том, чтобы найти ограниченное решение этого уравнения, на котором функция V должна быть положительной. 4.3. Задача об оптимальной стабилизации для линейной стацио- стационарной системы. Дальнейший анализ задачи проведем для случая, когда уравнение возмущенного движения имеет вид х = Ах + Ви, D.19) где А и В — постоянные матрицы размерностей п х п и п х г соответственно, а в критерии оптимальности D.13) матрицы Q и R также постоянны. В этом случае функцию V следует искать в виде (см. пример 3.2) V = г,к=1 где сне, г, к = 1,..., п, — постоянные. Тогда дифференциальное уравнение Рик- Риккати переходит в алгебраическое уравнение С А + А*С - ЪзВВГ^ВС + Q = 0, D.20) и нужно искать постоянную симметричную матрицу С, удовлетворяющую это- этому уравнению, на которой квадратичная форма V является положительной. При этом оптимальное управление находится по формуле (см. D.17)) и(х) = ~R~1B*Cx. Таким образом, в этом случае задача сводится к отысканию положитель- положительной симметричной матрицы, удовлетворяющей алгебраическому матричному уравнению Риккати D.20). Теорема 4.2. Пусть гапк{Б, АВ,..., А™-1 В} = п, т. е. система D.19) вполне управляема. Тогда задача об оптимальной стабилизации имеет решение и оптималь- оптимальная функция Ляпунова V определяется однозначно путем решения алгебраи- алгебраического уравнения Риккати D.20). Доказательство теоремы приводить не будем. Ограничимся анализом кон- конкретного примера. Пример 4.1. Рассмотрим модельную задачу стабилизации спутника с по- помощью реактивной струи8). Пусть спутник, рассматриваемый как материаль- материальное тело конечных размеров, движется по кеплеровской орбите вокруг Земли. Если обозначить через d диаметр орбиты, в через R — расстояние от Земли до Солнца, то величина d/R будет очень малой. Поэтому с достаточной точ- точность можно считать неизменным направление S на Солнце для всех точек орбиты спутника, и будем искать средство стабилизации главной оси спутника по направлению S. ) См.: Летов A.M. Динамика полета и управление. — М.: Наука, 1969. — 360 с.
4- Задача об оптимальной стабилизации 381 Уравнение момента количества движения спутника относительно его цен- центра тяжести имеет простой вид (рис. 7.4.1) 1ф = М(и), где / — момент инерции, М — момент управления, соз- создаваемый реактивными струями, ф — угол, образован- образованный осью спутника с направлением S. При ф = ф = О момент управления М равен нулю, что соответствует значению управления и* = 0. Таким образом, состоя- состояние ф = ф = и = 0 представляет собой невозмущенное движение управляемого объекта. Пусть и = Ci + C2 — суммарный расход топлива через оба сопла, с — ско- скорость струй. Тогда си представляет собой реактивную силу, создающую крутящий момент, т. е. М(и) = leu. Вводим обозначения ф = xi, ф = ж2, lc = ml. То- Тогда уравнения возмущенного движения объекта можно записать в следующем виде: xi = x2j ±2 = mu, t > 0. D.21) Критерием оптимальности возьмем функционал 1 Рис. 7.4.1 а допустимыми управлениями считаются произвольные кусочно непрерывные функции и = u(t). Уравнение D.8) в этом случае упрощается, так как функция В в стацио- стационарной задаче явно не зависит от t. Функцию Ляпунова V тоже можно брать не зависящей от t. Поэтому в соответствии с обозначениями D.6) получаем ^-Х2 + ^-,+ 1-{Х1 + 4 + и>]=0. D.22) Так как это равенство выполняется на оптимальном управлении, а для всех остальных значений и выполняется условие D.18), то из D.22) получаем формулу для определения оптимального управления D.23) и = — т——. Исключая и из уравнений D.22) и D.23), будем иметь 2 Полагая 3V 2^^х2- V = - \дх2) - х\ + х\ = 0. D.24) находим, что оптимальное управление D.23) можно представить в виде и = — т{с\2Х2 + С22Х2), D.25) где постоянные с\2 и с22 определяются из алгебраической системы уравне- уравнений Риккати, получаемой путем подстановки функции V в уравнение D.24) 9). Тогда получаем следующую систему уравнений относительно сц, ci2 и с22: —с\2 + 1 = 0, 2ci2 — с22 + 1 = 0, сц — С22С22 = 0- Отсюда следует, что сц = Чтобы упростить последующие формулы, полож:им т = 1.
382 Гл. 7. Основы общей теории оптимальных процессов = с22 = л/3, Ci2 = 1. Поэтому оптимальное управление D.25) в системе D.21) принимает вид и(х) = —х\ — л/Ъх^- Анализ приведенного примера показывает, что при увеличении размерно- размерности фазового пространства трудности в решении системы уравнений Риккати, вообще говоря, должны возрастать хотя бы потому, что нас интересует не лю- любое решение, а то из них на котором функция V положительна. Кроме того, как отмечалось выше, размерность системы для определения коэффициентов Cik лавинообразно нарастает с увеличением число фазовых координат. Одна- Однако проблема практического построения оптимального управления в задачах подобного типа оказалась достаточно актуальной, и ей посвящено большое ко- количество научных работ. Здесь приведем лишь один результат10). Пусть задача об оптимальной стабилизации для уравнения D.19) с кри- критерием оптимальности D.13), в котором матрицы Q и R постоянны, имеет решение, а С —- матрица, определяющая оптимальную функцию Ляпунова V(x) = х*Сх. Тогда, как показано в процитированной работе, матриц С обладает свойством С = lim C(t), где C(t) — единственное решение уравнения P \B*C + Q = O D.26) (Ль jD с начальным условием С@) = 0. D.27) Практическое значение этого результата состоит в том, что задача Коши D.26), D.27) имеет единственное решение, которое может быть получено ме- методом, изложенным в предыдущем параграфе или с привлечением каких-либо приближенных методов. Многочисленные примеры, рассмотренные в научной литературе, показывают эффективность этого способа решения задачи. 4.4. Задача об оптимальной стабилизации с ограниченным управ- управлением. Все рассмотренные выше задачи об аналитическом конструирова- конструировании регуляторов и об оптимальной стабилизации решались в предположении, что область значений допустимых управлений совпадает со всем простран- пространством Ег. Однако в реальных задачах такое требование выполняется далеко не всегда. Обычно требуется, чтобы и Е U С Ег, где U — открытая или за- замкнутая, но ограниченная область. Полный анализ задачи для такой ситуации достаточно сложен. Поэтому ограничимся рассмотрением довольно частного случая. Пусть процесс описывается уравнением х = Ах + Ьи, D.28) в котором А — постоянная матрица размерности пхп, Ъ — постоянный вектор, и — скалярное управление. Критерием оптимальности служит функционал />ОО 1[и] = / (x*Qx + f3u2) dt, C = const > 0, Jo где Q — постоянная матрица. Допустимыми управлениями будем считать ку- кусочно непрерывные функции и = u(t), удовлетворяющие условию Uq < U < Ui, ) См.: Красовскип Н.Н. Проблема стабилизации управляемых движений // Мал- кин И.Г. Теория устойчивости движения. — М.: Наука, 1966.
4- Задача об оптимальной стабилизации 383 где щ и и 1 — заданные постоянные. В соответствии с теоремой 4.1 оптимальная функция Ляпунова V(t,x) = = V(х) и оптимальное управление и = u(t) находятся из уравнений D.8) и D.9), которые в силу обозначения D.6) можно записать в виде одного уравнения Беллмана min < т*От 4- Яи2 4- I i (Лт 4- hn) > — О (A 2Q") Отсюда находим, что оптимальное управление и = и(х) удовлетворяет условию з, если а ^ щ, и{х) = { (Tj если щ < а < и\, D.30) 1, если а ^ и\.. 1 dV где а = Ъ^*~я~' Полученная зависимость между и(х) и V(х) приводит к 2р их тому, что процесс построения функции V(х) в этом случае существенно услож- усложняется. Дело в том, что здесь нельзя пользоваться одним и тем же выражением этой функции во всем фазовом пространстве Еп. Сначала выясним, что представляет собой множество L С Еп, в котором функция V(х) определяется положительной квадратичной формой вида Vz(x)=x*Kx. D.31) Такое представление функции Ляпунова будет тогда, когда минимум выраже- выражения, стоящего в фигурных скобках уравнения D.29), достигается во внутренней точке отрезка щ ^ и ^ щ. В точке минимума выполняется условие и для определения функции Vz(x) получаем уравнение 'dVz\* A 1 Квадратичная форма D.23) является решением этого уравнения, когда матрица К будет положительным решением уравнения Риккати. При этом условие D.32) выполняется лишь тогда, когда т. е. должны выполняться неравенства 1 п UQ<-—^2,rnixi<u1, где тг = ^ bk(Kik + Kik). Р г=1 к=1 Таким образом, область L фазового пространства Еп, в котором V(х) опре- определяется в виде D.31), расположена в слое г, заключенном между плоскостями /о и /]_, заданными уравнениями Р к=1 Р к=1 На рис. 7.4.2 представлена соответствующая картина для частного случая, когда п = 2. Однако, как показывает дальнейший анализ, область L не всегда совпадает со всем слоем z. За пределами этого слоя минимум в уравнении D.29)
384 Гл. 7. Основы общей теории оптимальных процессов достигается в концевых точках щ и ui, а поэтому функция V(х) определяется из уравнений x*Qx + /3uq + f — ) (Аж + Ьгхо) = 0 в области JV0, D.33) в области iVb D.34) V / Решения этих уравнений уже не представимы в виде квадратичных форм типа D.31). Эти решения строить пока не будем, а обозначим их через Vq(x) (в области Nq) и V\(x) (в области N\) соответственно. Рис. 7.4.2 Чтобы уточнить структуру области L и сделать этот анализ геометрически наглядным, рассмотрим двумерную систему вида D.28), т. е. будем считать, что п = 2. Тогда слой z будет представлять собой полосу на плоскости, заключен- заключенную между двумя прямыми линиями /о и 1\ и содержащую начало координат (см. рис. 7.4.2). Сначала предположим, что существует траектория системы D.28) при уп- управлении D.32), которая начинается внутри полосы z и касается одной из ли- линий, Iq или 1\ (см. точку С\ на рис.7.4.1). Тогда в той же полосе существует траектория М той же системы, которая покидает полосу z в некоторой точ- точке А. Тот кусок этой траектории, который начинается с А и находится в об- области JVi, уже не является оптимальным, поскольку вне полосы z управление, определяемое квадратичной формой, не является оптимальным. Оптимальное движение фазовой точки, начиная с А, должно происходить под действием постоянного управления, равного щ или щ (на рис. 7.4.2 пред- представлено движение под действием и\). Так как по условию задачи фазовая точ- точка при дальнейшем движении должна попасть в начало координат при t —> сю, то она вновь достигнет линии 1\ в некоторый момент времени t = Т в точке В (см. рис. 7.4.2). Дальнейшее движение точки по оптимальной траектории будет происходить в слое z. До тех пор, пока она будет оставаться в этом слое, дви- движение будет происходить под действием управления, определяемого функцией Ляпунова Vz(x) (см. формулу D.31)). Для определенности будем считать, что эта точка, двигаясь по оптимальной траектории, больше не покинет полосы z. На участке АВ оптимальной траектории функция V(х) определяется уравне- уравнением D.34) и, следовательно, совпадает с V\{x). Поэтому вдоль траектории АВ изменение функции V\{x) во времени можно описать уравнением dVi 2 — = -х Qx-/3u(, D.35)
4- Задача об оптимальной стабилизации 385 где dVi/ dt означает полную производную функции Vi(x), вычисленную в силу уравнения х = Ах -\-Ъи\. Произвольная постоянная, которая появляется в результате интегрирова- интегрирования уравнения D.35), исключается из условия непрерывности функции V(х) в точке В. В полосе z функция V(х) совпадает с Vz(x) (см. D.31)). В об- области JVi выполняется равенство V = V\. Значит, в точке В имеем условие V\{B) = VZ(B). По тем же самым соображениям получаем аналогичное усло- условие в точке А V1(A)=VZ(A)- D-36) Однако для того чтобы обеспечить выполнение этого условия, уже нет сво- свободных параметров. Следовательно, это условие лишнее для функции Vi(x), и равенство D.36), вообще говоря, не выполняется. Значит, функция V(x), опре- определяемая уравнением D.29), на некотором участке траектории AM не совпа- совпадает с квадратичной формой Vz(x). Отсюда вытекает особая роль точки каса- касания С\. В точке С\ должна начинаться линия С\Р\, вдоль которой должно происходить склеивание функции Vz(x) с новой функцией Vi(x), также явля- являющейся решением уравнения D.29). Уравнение этой линии получается подста- подстановкой Vz(x) в а (см. D.30)) и приравниванием полученной функции величине ui, т. е. ее уравнение имеет вид Склеивание функции V\(x) с квадратичной формой Vz(x) происходит по линии CiPi, определяемой равенством Vz(x) = V\(x). Склеивание функций Vz(x) и Vi(x) происходит по линии DP\. Тем самым выделяется область CP\DC, в которой определена функция Vo(x). Аналогично, область C2P2D2C2 находит- находится по другую сторону от начала координат. Однако для нас особый интерес представляет область C1D1C2D2C1, содержащая начало координат. Именно в ней определена функция Vz(x) в виде квадратичной формы D.31). Дело в том, что области C\P\D\C\ и C2P2D2C2 в прикладных задачах расположены до- достаточно далеко от начала координат. Поэтому построение этих областей и соответствующих им значений функции V(х) представляет главным образом принципиальный интерес. С практической точки зрения наиболее важным является анализ ситуации в малой окрестности начала координат. Как показывают приведенные выше рассуждения, именно в этой окрестности определена функция Vz(x) и, быть может, функции Vo(x) и V\{x). Первую из этих функций мы построили в виде квадратичной формы. Для получения Vo(x) и V\{x) требуется решать уравне- уравнения с частными производными D.33) и D.34) с дополнительными условиями на границах полосы z. 4.5. Решение уравнения с частными производными первого по- порядка. Сначала рассмотрим однородное уравнение X[^X1|? + ...+XnJ?=0) D.37) в котором Xi, г = 1,...,п, считаются заданными непрерывно дифференци- дифференцируемыми функциями переменных xi,...,xn, определенными в некоторой ок- окрестности точки (ж?,... ,х^). Вместе с этим уравнением рассматривается сис- система обыкновенных дифференциальных уравнений
386 Гл. 7. Основы общей теории оптимальных процессов ^1 = ...=^. D.38) Х\ Хп Пусть '..'.." ' D.39) 1,... ,хп) = cn_i есть некоторая система независимых интегралов системы уравнений D.38), определенная в области D переменных xi,..., хп, содержащей указанную выше TO4KV (Хл X ) Поэтому вдоль любой интегральной кривой выполняются условия + ... + —^dxn = 0, г = 1, 2, ..., п- 1. D.40) С другой стороны, вдоль той же интегральной кривой дифференциалы dxi пропорциональны функциям X^xi,..., хп). Поэтому из D.40) получаем ХЩ = ^Х1 + ... + ^Хп=0, г = 1,2,...,га-1, D.41) т. е. каждая функция ^ в интегралах D.39) является решением уравнения D.37). Пусть, далее, ф{ф\,..., фп-г) ~ произвольная дифференцируемая функ- функция своих переменных. Тогда дф дфх дф дф2 . . Х [Ф\ = ^Г1~ ^ г тг— т^ h • • • + оф\ дх\ дф2 дх\ дф oipi дф дгр2 дф dyjn-i \ дхп дф2 дхп ''' дфп_1 дхп Отсюда в силу соотношений D.41) получаем, что Х[ф] = 0. Полученный результат можно сформулировать следующим образом. Теорема 4.3. Если ф(ф\,..., фп-i) является непрерывно дифференцируе- дифференцируемой функцией своих аргументов, а формулы D.39) определяют систему п — 1 независимых интегралов системы уравнений D.38), то функция f = фф1(х1,...,хп...,фп-1(х1....,хп)) D.42) является решением уравнения D.37). Можно показать11), что общее решение уравнения D.37) имеет вид D.42), где ф — произвольная непрерывно дифференцируемая функция своих аргу- аргументов. Однако это доказательство в дальнейшем не потребуется, и поэтому его приводить не будем. Ограничимся решением задачи Коши, которая фор- формулируется следующим образом. Пусть у = (f(xi,..., xn_i) — заданная функция, определенная в некото- некоторой окрестности заданной точки (ж?,... ,x°_i). Требуется найти решение f = /(xi,..., хп) уравнения D.37), которое определено в окрестности точки (х5,..., х^) и удовлетворяет условию ° ..,xn), D.43) ) См., например: Егоров А.И. Обыкновенные дифференциальные уравнения с прило- приложениями. — М.: Физматлит, 2003.
4- Задача об оптимальной стабилизации 387 где х^ — заранее заданное число. Предположим, что точка х° = (х?, • • • ,^) является не особой, т. е. в ней хотя бы одна из величин Xi(x°),..., Хп(ж°) отлична от нуля. Пусть, например, Хп(х\,..., х^) ^ 0 Тогда систему соотношений _1х1) = фи D.44) Хп-1Х^1) =фп-1 можно рассматривать как систему уравнений относительно xi,..., хп. По тео- теореме о неявных функциях система соотношений D.44) однозначно представля- представляет в окрестности точки х° функции 1,...,фп-1), ; ; D.45) При этом, когда ф^ принимают значения фг(х\,... Jx^l_1)J соответствующие функции uji принимают значения х^, г = 1,..., п — 1. Важно также отметить, что из дифференцируемости функций ф^ следует дифференцируемость функ- функций uji. Покажем, что решение задачи Коши дается формулой / = ^(cji^i, • • •, Фп-i), • • -,Шп-1(Фи • • • ? Фп-i))- D.46) Ясно, что эту функцию можно записать в виде D.42), и поэтому она яв- является решением уравнения D.37). Полагая в правой части формулы D.46) хп = х^ и учитывая соотношения D.44) и D.46), будем иметь f\Xn =^n = ^(^l('01,...,'0n-l),...,^n-l('01....,'06-l)) = (р(х1,...,Хп-1). Это означает, что функция D.46) удовлетворяет условию D.43). Получен- Полученный результат сформулируем в виде следующей теоремы. Теорема 4.4. Если уравнение D.37) имеет в области D не особую точку х° = (х5,...,х^), а соотношения D.39) представляют собой систему неза- независимых интегралов системы дифференциальных уравнений D.38), то ре- решение задачи Коши D.37), D.43) определяется формулой D.46), в которой cji, ... ,cjn_i и ф\,... ,фп-1 связаны соотношениями D.44) и D.45). Рассмотрим теперь квазилинейное уравнение Хг р- + Х2 р- + ... + Хп р- = Хп+1, D.47) dxi дх2 дхп где Xi,... ,Xn+i — заданные непрерывно дифференцируемые функции пере- переменных Xi, . . . , Хп И Z. Решение этого уравнения ищем в виде f(xu...,xn,z) = 0, D.48) где / — неизвестная непрерывно дифференцируемая функция своих аргумен- аргументов. Тогда очевидно, что д^ = _ df_ Ш dxi dxi I dz ' а из уравнения D.47) получаем однородное относительно / уравнение Xi- h ... + Xb- h Xn+1- = 0, D.49) dxx dxn ^ dxn+1
388 Гл. 7. Основы общей теории оптимальных процессов где введено обозначение xn+i = z. Общее решение этого уравнения находится изложенным выше способом. Сначала для системы обыкновенных дифференциальных уравнений dx\ dxn dxn+i ' ' ' V V 1 ^п ^n+1 находим п независимых интегралов фл \Хл ... X Л-Л ) — Сл '...' '¦ D.50) Тогда функция будет общим решением уравнения D.49). Приравнивая Ф нулю, определяем общее решение исходного уравнения D.48) в неявной форме Ф(ф1(х1,..., хп, z),..., фп(хъ ..., хп, z)) = 0. Остается теперь описать, как решается задача Коши для квазилинейного уравнения D.47). Формулируется она так. Требуется найти решение z = z(xi,..., хп) уравнения D.47), которое бы- было бы определено в окрестности точки х° = (ж?,... ,х^) и удовлетворяло бы условию (°) () где <^(xi,..., xn-i) — заданная функция. Для решения задачи воспользуемся интегралами D.50). Полагая в них хп = = х^ и учитывая, что хп+\ = г, запишем ^n(a;i,...,in_i,4,2;) = фп. Введем обозначение z° = z(x\,..., х°). Предполагая, что точка (х?,..., х^, z°) не является особенной для уравне- уравнения D.49), в интегралах D.50) в качестве ci,..., сп возьмем х?,..., #n-i и ^°- Тогда получим интегралы />n(xu...,xn,z) = z°. Полагая в них хп = х^, запишем ..,xn_i^,z) =^i. Эта система соотношений однозначно определяет непрерывно дифференци- дифференцируемые функции D.53)
5. Примеры 389 Когда фг принимают значения фг{х\,... ,ж^,г°), в соответствии с форму- формулами D.51) функции uji принимают значения х?, г = 1, 2, ..., n, z°. Поэтому решение задачи Коши дается формулой ..,Xn,z)= CJn(^l, • • • , Фп) - ip(ui(i/>U • • • j Фп), • • • , ^п(^Ь • • • > VVi)) = 0. 5. Примеры В этом параграфе рассмотрим два примера, иллюстрирующих изложенную выше методику решения задач об оптимальной стабилизации в двух принципи- принципиально различных ситуациях. В первом случае оптимальная функция Ляпунова определяется в виде квадратичной формы во всем слое z, заключенной между линиями Iq и 1\ (см. рис. 7.4.1). Поэтому внутри слоя оптимальное управление является линейной функцией относительно фазовых переменных. Вне слоя оп- оптимальное управление постоянно. В области Nq (см. рис. 7.4.1) оно имеет одно постоянное значение, а в области JVi — другое. Во втором случае структура оптимального управления более сложная. Оп- Оптимальная функция Ляпунова представима в виде квадратичной формы лишь в достаточно малой окрестности начала координат. В этой окрестности оп- оптимальное управление является линейной функцией состояния системы. Вне окрестности оптимальная функция Ляпунова определяется различными фор- формулами в различных областях, что вносит дополнительные сложности в опре- определение оптимального управления в этих областях. Анализ этих примеров представляется полезным для понимания теории, ибо возникающие в них проблемы более конкретны и наглядны. Для их реше- решения каждый раз приходится решать задачу Коши для уравнения с частными производными первого порядка, теория которых описана в конце предыдуще- предыдущего параграфа. Чтобы упростить решение примеров по задаче об оптимальной стабилизации, сначала приведем простой пример решения задачи Коши для квазилинейного уравнения, поскольку теоретические построения по этому во- вопросу не совсем наглядны и достаточно громоздки. Пример 5.1. Требуется найти решение z = х(х,у) уравнения (l + VF^^)g + |=2) E.1) удовлетворяющее начальному условию z = 2х при у = 0. E.2) Решение ищем в виде f(x,y,z)=0, что приводит к уравнению (см. D.49)) относительно /. Для получения решения этого уравнения нужно найти два независимых интеграла системы обыкновенных дифференциальных уравнений dx dy dz 1 + y/z-x-y 1 2 Последнее из этих двух уравнений дает интеграл ф2 = z — 2у = с2. [bAj
390 Гл. 7. Основы общей теории оптимальных процессов Для получения еще одного интеграла составляем интегрируемую комбина- комбинацию уравнений системы E.3): dy dz — dx — dy 1 y/z-x-y ' Отсюда получаем интеграл г/>1 = г/ + 2y/z -x-y = с2. E.5) Подставляя в полученные интегралы E.4) и E.5) значение у = 0, получаем систему (см. D.51)) z = ф2, %VZ ~ х — ^l- Отсюда получаем (см. D.52)) ф2 Х = т Следовательно, в рассматриваемом случае функции uii из D.62) имеют вид . ф\ . J 2, Ш(Ф1,Ф2) = Ф2- Поэтому в соответствии с формулами D.53) и E.2) получаем решение Подставляя вместо ф^ их значения из интегралов E.4) и E.5), окончательно получаем формулу, определяющую искомое решение z = z{x,y): (у + 2y^ - ж - уJ -2z + 4y = 0. Непосредственной проверкой можно убедиться, что эта формула действи- действительно определяет решение задачи E.1), E.2). Пример 5.2. Пусть управляемый процесс описывается уравнениями ±1 = ?2, %2 = — %2 +U, а критерием оптимальности служит функционал /»ОО ГГ7/] _ / (Т2 | 2 , , i LaJ — / \xl * Х2 * J0 Допустимые управления подчинены ограничению |гх| ^ 1. Формула D.30), определяющая оптимальное управление, в этом случае принимает вид — 1, если а(х) ^ 1. и(х) = t сг(х), если |<т(х)| ^ 1, где а(х) = 1, если а > 1. Обозначим через L область в плоскости переменных х\ и #2, в которой и[х)\ ^ 1 (рис. 7.5.1). В этой области функция Ляпунова V(х) определяется из уравнения fdV dV\ l(dV\2 [_ =0. 1 ' г ' *\дХ1 дх2/ Этому уравнению удовлетворяет квадратичная форма вида D.31), которая должна быть положительной, и стандартными вычислениями находим, что т/ / \ 2_|_/_|_\2 (К f\\ Следовательно, в области L и(х) = -х\ - х2. E.7)
5. Примеры 391 Управления и(х) = ±1, определяющие границы области L, здесь имеют вид -Ж1-ж2 = ±1. E.8) Выписываем теперь уравнения замкнутой системы для той же области L х\ = х2, х2 = —х\ — 2х2. E.9) В каждой точке (xi,x2) линий E.10) справедливо равенство dx2 _ и в каждой точке фазовой траектории замкнутой системы E.9) выполняется равенство dx2 x\ -\- 2х2 dx\ x2 Значит, если точка траектории лежит на одной из линий E.8), то dx2 dx\ Поэтому фазовая траектория системы E.9) не касается линий E.8), и вся полоса, заключен- заключенная между линиями E.9), является областью, в которой оптимальная функция Ляпунова яв- является квадратичной формой E.6), а оптималь- оптимальное управление в ней определяется по формуле E.7). Остается продолжить непрерывно функцию Vz(x) за границы слоя L. Для этого нужно ре- решать уравнение (см. уравнения D.33) и D.34)) Х\ х2 (-х2 ± = 0 Рис. 7.5.1 дх\ ох2 с дополнительным условием на границах полосы L V = х\ + 1 при х1 + х2 = ±1. E.10) Сначала решим задачу Коши для области JVi (рис. 5.5.1), соответствую- соответствующей управлению и = — 1. Для этого следует найти общий интеграл системы уравнений г1Л/ rlnr*-, г\пг*ъ E.11) dV dxo х2 1+х2' Отсюда легко находим один первый интеграл: ф1 = х\ + ж2 — In |1 + х2 Для получения следующего первого интеграла составим уравнение из линей- линейных комбинаций дробей, входящих в систему уравнений E.11): 2x\dx\ — dV x\ + х2 Поэтому следующий первый интеграл системы E.11) можно записать в виде .2 = х1 — V + х\ Х2+-( = с2.
392 Гл. 7. Основы общей теории оптимальных процессов Значения функций ф\ и ф2 при х\ + х2 = — 1 и 7 = 1^ + 1 (см. условие E.10)) обозначим через ф\ и ф2. Поэтому 1 3 Полагая во втором из этих соотношений ф2 = ф2 получаем соотношение, опре- определяющее решение V = Vi, удовлетворяющее условию E.11) 1 1 T/i = — I Ti -I- To I -I- TT -I- Ti -I- To — — 3 3 определенную в области N\. Аналогично определим функцию V = Vo(xi,X2) в области JVq, примыкающую к области L по линии xi -\- х2 = —1 : 1 \3 2 ^ 3 3 Непосредственной проверкой можно убедиться, что склеивание функ- функции E.12) с Vi(xi,x2) и Vo(xi,x2) по соответствующим границам области L является непрерывным и гладким. Чтобы окончательно убедиться в том, что построенная функция действи- действительно является оптимальной функцией Ляпунова, следует проверить значение 1 3V производной -——. 2 дх2 Имеем dV\ —— = (xi + х2J + 1 > 2, при xi + ж2 > 1, ^ж2 —— = -(xi + ж2J - 1 < 2, при xi + х2 < -1. Таким образом, подводя итоги, можно записать оптимальное управление в форме {+1, при х\ + х2 > 1, —х\— х2, при |ж1+ж2|<1, -1, при х\ +х2 < -1. Пример 5.3. Пусть управляемый процесс описывается уравнениями12) Х\ = Х2, ^2 = Щ с критерием оптимальности * Jo Оптимальное управление в этой задаче определяется формулой (см. D.30)) {+1, при <т^1, 3V а, при |сг| < 1, где а = —-—, ох2 — 1, при а ^ —1. При этом функция V(xi,x2) внутри области z (рис. 7.5.2), т. е. \а\ ^ 1, опре- определяется из уравнения 2 2 2 dV dV xi + xi + и1 + 2ж2 ^ Ь 2гх тг— = 0. 12) См. пример 4.1.
5. Примеры 393 Положительным решением этого уравнения является квадратичная форма Vz(xux2) = - [y/3xl + 2x1x2 + y/3xl]. E.12) Поэтому внутри области z оптимальное управление имеет вид и(хъх2) = —q^t = ~xi ~ л/3ж2. Оно определяет замкнутую оптимальную систему Х\ = #2? ^2 — —х\ — уЪх2. E.13) В отличие от задачи, рассмотренной в предыдущем примере, здесь об- область z не совпадает со всей полосой L, заключенной между граничными пря- прямыми -х\ - V3x2 = ±1. E.14) Она заполняет лишь некоторую окрестность начала координат, ограниченную с двух сторон прямыми E.14). Две другие границы криволинейны. Они опре- определяются в процессе построения оптимальной функции Ляпунова исходя из уравнения Беллмана 1- -^„V—** + —4=°- E.15) 9xi дх2 ) Сначала находим точки касания фазовой траектории системы E.13) и пря- прямых E.14). Эти точки находим, приравнивая угловые коэффициенты прямых и фазовых траекторий. Имеем dx2 л/3 — (для прямых E.17)) min \ -( Х\ (для траекторий системы E.16)). Отсюда получаем уравнение х\ + л/3 Х2 которое нужно решать совместно с уравнениями E.14). В результате опреде- определяем две точки касания: С\{—2, л/3) и С2B, —\/3) (рис. 7.5.2). Рис. 7.5.2 Теперь рассматриваем область JVi, примыкающую к полупрямой х\-\- = 1 и расположенную справа от точки С\. Согласно теории в этой
394 Гл. 7. Основы общей теории оптимальных процессов области оптимальным является управление и = — 1, а уравнение E.15) при этом принимает вид х\ + х\ + 1 + 2х2 -тг- ~ 2 -тг- = 0. E.16) dxi дх2 Отсюда нужно найти функцию V2(x\^x2\ удовлетворяющую условию V2 = Vz(xljx2) при х1 + лДх2 = 1, E.17) где Vz определяется формулой E.12). С этой целью находим общий интеграл системы уравнений dx\ dx2 2dV Х2 1 x\JrX<2Jrl Его можно представить в виде ^1=2х1+х1 = с1, ф2 = -30У + 15ж2 + Ъх\ + 2ж| + 15ж?ж2 + 10xix| = с2. У ' J На границе х\-\- л/Ъх2 = 1 вводим новые переменные \ -30У + 15ж2 + Ъх1 + 2ж| + 15A - л/Ъх2Jх2 + 10A - л/3 Разрешая эти уравнения относительно ЗОУ и ж2, будем иметь , где ЗОУ = -^i + 48л/3 Так как функция Vz определяется формулой E.12), то ее значение на линии х\ + л/3^2 = 1 можно записать в виде Vz(l - л/3ж2, ж2) = \ [л/3 - 4ж2 + 2л/3ж2]. Поэтому условию E.17) можно придать следующую форму: V2 = -[л/3-4ж2 + 2л/3ж2] при Ж1 = 1-л/Зж2. Учитывая соотношения E.19), это условие можно записать в переменных ф\ и ф2 : -V?i + 48л/3 ± 120г + 30л/Зг2 ± 2г5 = 45л/3 ± 120г + 30 - у^2. Отсюда находим, что ф2 = Зл/3 ± 2г5, где z = yjl + fa. E.20) Значит, решение уравнения E.16), удовлетворяющее условию E.17), определя- определяем с помощью соотношения E.20), в которых ф\ и ф2 заменены на ф\ и ф2 из E.18). В итоге будем иметь Vi = ^[2ж2 + 5Bж1 + l)xl + 1Ъ{х\ + 1)ж2 - Зл/3 + + 2D-2x1+^2)^] ПРИ Ж1 + л/Зж2>1. E.21) Непосредственной проверкой можно убедиться в том, что эта функция имеет непрерывное и гладкое склеивание с функцией E.12) по отрезку линии
5. Примеры 395 х\ + л/3^2 = 1, примыкающему справа к точке С\{—2, л/3)- Другие границы об- области JVi, в которой оптимальная функция V\ определяется формулой E.21), определяются уравнением Проанализируем это уравнение. Согласно формуле E.21) его можно запи- записать в виде 2х\ + 6ж1ж1 + Зж1 + Ъх\ + 2ж2A + 2ж1 + 2ж|K/2 = 3. E.22) Вместо переменной х\ введем новую переменную z, положив z Тогда полученное уравнение можно записать в виде 3z4 + 8x2z3 + б(ж^ - 1)г2 - ж^ + бж^ - 9 = 0. Полином, стоящий слева в этом уравнении, можно разложить на простей- простейшие множители. В итоге получаем (z + х2 + \/3)B + х2 - л/3)Cг2 - 2гж2 - х\ + 3) = 0. Таким образом, уравнение E.22) распадается на три уравнения: - л/3 = л/1 + 2ж1 + х\, 3 + Зж1 + х\ = -xxyl + 2xi + ж2,. Анализируя эти уравнения можно полностью определить границу области JVi. Однако этот анализ мы опустим. Аналогичным образом определяется функция Vo как решение уравнения имеет вид о о с/У ак х\ + ж^ + 1 + 2ж2-— + 2^— = 0, axi аж2 удовлетворяющее условию V2 = Vz{x\,X2) при xi + л/3х2 = —1, где Vz{x\,X2) определяется формулой E.12). Это решение определено в облас- области JVo, примыкающей к точке С2C, — у/3). Границы этой области можно полу- получить анализируя уравнение дх2 Полученными таким образом результатами не исчерпывается анализ урав- уравнения Беллмана E.15). Дело в том, что траектории C\D\ и C2D2 определяют в полосе L границы окрестности начала координат, в которой решением уравне- уравнения Беллмана является квадратичная форма E.12). Следовательно, требуется еще для полноты анализа построить продолжения V2 и Vs решения за грани- границы этой окрестности. Методика этого продолжения та же самая, что и при построении функций V\ и Vo. Однако связанные с этим аналитические построения достаточно громозд- громоздки. Здесь требуется "стыковать" V2 с Vz по линии i-Di, a Vs с Vz — по ли- линии C2D2. Кроме того, эти продолжения нужно "стыковать" с построенными
396 Гл. 7. Основы общей теории оптимальных процессов ранее функциями V\ и Vb. На рис. 7.5.2 соответствующими линиями "стыковки" являлись С\Р\, D\P\ и С2Р21 D2P2' Поэтому требуется выполнить достаточно громоздкие аналитические вычисления, и мы их опускаем. В заключение отметим, что изображенная на рис. 7.5.2 кривая, проходя- проходящая через точки А и В, определяется системой исходных дифференциальных уравнений ±i = Ж2, Х2 = и, в которой управление и определяется по изложен- изложенной методике. 6. Динамическое программирование для систем с распределенными параметрами Примеры, рассмотренные в предыдущем параграфе, показывают, что по- построение оптимального управления в задаче об оптимальной стабилизации в линейно-квадратичной задаче с ограниченной областью значений допустимых управлений приводит к довольно громоздким конструкциям. Возникающие при этом математические задачи далеко не всегда могут быть решены прак- практически. Главная сложность здесь состоит в получении решения задачи Коши для уравнений в частных производных и "склеивании" таких решений, полу- полученных в примыкающих друг к другу областях. Значительно проще решается задача в случае, когда область значений до- допустимых управлений совпадает со всем пространством. В этом случае основ- основные трудности состоят в построении решения уравнения Риккати. Однако с увеличением размерности системы (т. е. порядка системы дифференциальных уравнений, описывающих процесс) эти трудности нарастают лавинообразно. Тем не менее динамическое программирование можно использовать в решении ряда задач об оптимальном управлении системами с распределенными пара- параметрами. А.И. Егоровым 13) предложена процедура динамического преграмми- рования, которая позволила использовать обобщенные решения краевых задач, описывающих процессы в системах с распределенными параметрами. После- Последующие многочисленные исследования подтвердили ее эффективность. Здесь мы ограничимся анализом лишь отдельных, наиболее простых при- примеров. Однако и в этом случае нам потребуются некоторые факты из нелиней- нелинейного функционального анализа. 6.1. Дифференцирование функционалов. Пусть Н — вещественное гильбертово пространство, а / — функционал, определенный на множестве М С Н. Функционал / называется непрерывным в точке хо Е М, если для лю- любого числа е > 0 существует число 5 > 0 такое, что для всех xgM, удовлетво- удовлетворяющих неравенству \\х — хо\\ < 5, справедливо неравенство \f{x) — /(жо)| < е. Если функционал f(x) непрерывен в каждой точке х Е М, то говорят, что он непрерывен в М. Если в точке xgM существует bn vf{xh)i heH, то функционал Vf(x; h) называется дифференциалом Гато {слабым дифферен- в точке х функционала f. Из этого определения, в частности, следует, 13) Egorov A.I. Optimal Stbilization of the Distributed Parameter Systems. — Berlin- Heidelberg-New York: Springer-Vertag, 1975. — P. 167-172. —(Lecture Notes in Computer Sciense. V.27.)
6. Динамическое программирование для распределенных систем 397 что Vf(x; ah) = aVf(x; h) для любого вещественного числа а, т. е. дифферен- дифференциал Гато всегда однороден относительно h. Легко доказывается также следующий факт. Если дифференциал Гато функционала f(x) существует в каждой точке выпуклой области ои Е Н, то справедлива формула Лагранжа14) f(x + t) - f{x) = Vf(x + rft; h), 0 < r < 1, для любых точек х и h из со. Особый интерес для нас будут представлять те случаи, когда дифферен- дифференциал Гато Vf(x] h) линеен по h. В этом случае его обозначают через Df(x\ К). Теорема 6.1. Пусть выполнены следующие условия: 1) дифференциал Гато Vf(x; h) функционала f(x) существует в некото- некоторой окрестности U(xq) точки хо и непрерывен в этой точке; 2) Vf(x; h) непрерывен по h на нулевом элементе h = 0. Тогда V/)xo; h) является линейным ограниченным по h функционалом, т. е. Vf(x0] h) = Df(x0] h). Говорят, что функционал f(x) удовлетворяет ослабленному условию Лип- Липшица, если каждому элементу /г, \\h\\ = 1, отвечает число S(h) > 0 такое, что из условия \t\ < 5 следует неравенство \f(x + th) — f(x)\ < c\\th\\, где постоян- постоянная с не зависит от h. Теорема 6.2. Для того чтобы имело место равенство Vf(xo;h) = = Df{xQ\ К), необходимо и достаточно, чтобы выполнялись следующие усло- условия: 1) функционал f(x) удовлетворяет ослабленному условию Липшица в точке жо; 2) A?huthJ(x0) = o(t) где o(t)/t^O при t -+ 0, а , = f(x0 + fti + h2) - f(x0 + hi) - f(x0 + h2) + f(x0). Таким образом, эта теорема может служить практическим инструментом проверки того, имеет ли конкретный функционал линейный ограниченный дифференциал Гато. Если в точке х Е Н имеет место равенство f(x + h)-f(x) = df(x;h)+u(x,h), где df(x; h) — линейный непрерывный по h функционал, а lim то функционал df(x]h) называется дифференциалом Фреше (сильным диф- дифференциалом) функционала f(x) в точке х, a uo(x]h) называется остатком этого дифференциала. Из этого определения, в частности, следует, что если существует df(x;h), то Df(x] h) также существует, и при этом df(x; h) = Df(x; h). Как показывает приводимый ниже пример, обратное не всегда верно. ) Доказательство этого и последующих утверждений о дифференциалах нелинейных функционалов можно найти в книге: Вайнберг М.М. Вариационные мето- методы исследования нелинейных операторов. — М.: Гостехиздат, 1956.
398 Гл. 7. Основы общей теории оптимальных процессов Пример 6.1. В качестве Н берем двумерное евклидово пространство Е2, и пусть х = {х 1,2:2} Е Е2. Положим f( ч _ /l при Ж1 = ж|, ж2 ^ О, J [X ) — \ I 0 в остальных точках. Возьмем произвольный вектор h = {/11, /12} и вычислим величину Непосредственно из определения функции f(x) следует, что /@) = 0, a f(th) = = 1 лишь при условии t = hi/Щ. Это означает, что при фиксированном век- векторе h = {/ii, /12} величина /(?, /г) отлична от нуля при единственном значении параметра ?, а именно при t = hi/ Щ. При всех остальных значениях ? имеет место равенство /(?, /г) = 0. Поэтому lim I(t, h) = 0, и, следовательно, V/@, /г) существует, причем V/@; /г) = 0. Докажем теперь, что функционал /(ж) не имеет дифференциала Фреше в точке х = @,0). Согласно определению этот дифференциал должен удовлетворять ра- равенству т. е. f(h) = d/@; /i)+o;@, /г), где d/@; /г) —линейная по /г функция, ао;/||/г|| ^ 0 при || h || ^ 0. Из определения функции f(x) следует, что этим свойством она не обладает. Теорема 6.3. Если дифференциал Df(x; h) непрерывен по х в некоторой окрестности U(xq) точки хо, то df(xo] h) существует и при этом df(xo] h) = = Df(xo;h). В заключение сделаем одно полезное для дальнейшего замечание. Диф- Дифференциал df(x] h) по определению линеен и непрерывен, и в соответствии с теоремой Рисса существует элемент и Е Н такой, что df(xQ\K) = (и, К). При этом элемент и зависит от х$. Учитывая это обстоятельство, обычно пользу- пользуются обозначением и = f'(xo). Тогда а элемент f'(xo) ?H называют градиентом функционала f(x) в точке х$. Тот элемент хо, для которого ff(xo) = 0, называется стационарной точкой функ- функционала f(x). 6.2. Синтез оптимального управления. Уравнение Беллмана. Бу- Будем рассматривать управляемый процесс, который описывается уравнением +Р(*>х)+/(*>*)> 0<t<T, 0<х<1, F.1) + au(t, 0 = 0, а = const > 0. F.2) с граничными условиями du(t,Q) du(t,l) У = \ дх дх Здесь f(t,x) — заданная функция из L2, ар — управление.
6. Динамическое программирование для распределенных систем 399 Классы допустимых управлений в прикладных задачах и в теоретических проблемах могут быть различными. Укажем лишь некоторые из них. 1. Допустимыми управлениями могут быть измеримые функции p(t,x), удовлетворяющие условию |р(?, ж)| ^ М почти для всех точек N(t,x) из об- области Q = {0 < ? < Т, 0 < ж < 1}. Здесь М — заданная постоянная. 2. Допустимыми управлениями являются функции р(?, х), удовлетворяю- удовлетворяющие условиям: а) функции (p(t), определяемые формулой измеримы; б) \(p(t)\ ^ М почти при всех t G [0,Т], где М — заданная постоянная. 3. Допустимыми управлениями являются функции p(t,x), для которых функции p2(t,x)dx Jo удовлетворяют условиям, указанным в предыдущем пункте. 4. Допустимыми управлениями являются все функции из L/2(Q). Можно указать еще многие другие классы допустимых управлений, при ко- которых применима излагаемая ниже формальная процедура получения уравне- уравнения Беллмана. Нужно лишь, чтобы для выбранного класса допустимых управ- управлений выполнялось следующее условие. Каждое допустимое управление однозначно определяет единственное классическое или обобщенное решение уравнения F.1) с граничными условия- условиями F.2) и начальным условием u@,x)=g(x). F.3) Другие ограничения могут определяться, например, конкретной структу- структурой критерия оптимальности. В частности, если в критерии имеется выра- выражение Г Г: о Jo , х) dx dt, Jo то должно выполняться условие /t+5t Л Л I p2(t,x)dxdt= I p2(t,x)dx. Jo Jo Это требование, вообще говоря, ограничивает свободу выбора допустимых управлений, ибо ему подчинены не все функции из перечисленных выше клас- классов. Здесь рассматривается задача, в которой критерием оптимальности берет- берется функционал Л рТ Л I[u]= [u(T,x)-i/j(x)]2dx + f3 / p2(t,x)dxdt, Jo Jo Jo в котором Т — фиксированный момент времени, C — положительный пара- параметр, а ф(х) — заданная функция из ^2@,1). Допустимыми управлениями будем считать функции p(t,x) из L2{Q). Каждое такое управление однознач- однозначно определяет решение u(t,x) краевой задачи F.1)-F.3), которое формально
400 Гл. 7. Основы общей теории оптимальных процессов можно построить в виде ряда Фурье по собственным функциям краевой задачи Г Х"{х) + \2Х{х) =0, 0 < х < 1, \ Х'@) = Х'A) + аХ@) = 0. [ ' Это решение можно записать в виде u(t,x)= f G{x,Z,t){g(?)dZ+ [ [ G{x,Z,t-TMT,S) + f{T,S)]<%dT, F.5) Jo Jo Jo где G — функция Грина, определяемая формулой n=l в которой {Хп(х)} — полная ортонормированная в 1^@,1) система собствен- собственных функций задачи F.4), а {Лп} — соответствующая последовательность ее собственных значений. Функция F.5), вообще говоря, может и не иметь про- производной по t и производных второго порядка по ж, а следовательно, может не быть классическим решением краевой задачи F.1)-F.3). Однако если функ- функцию д(х) в условии F.3) брать из ^2@,1), то u(t,x) можно рассматривать как обобщенное решение краевой задачи F.1)-F.3), обладающее следующими свойствами. 1. Функция u(t,x), построенная по формуле F.5), непрерывна. СУ 1J 2. Формально вычисленная производная —— принадлежит ^2@,1) почти при всех t. 3. Функция u(t, x) удовлетворяет интегральному тождеству Г1 _ u(t,x)v(t, x)\t_f2 dx — . ч^.„,~. ди dv . . ч .. чч . Л 1 1 u(t,x)—7;— — т^т;—\~ {p{tjx) + j{tjx))v{tjx)\ dxdt-\- u(t, l)v(t, l)dt = O F.6) для любой функции v(t,x) G ^^(Q). Здесь t\ и ^2 — произвольные моменты времени, удовлетворяющие условию 0^ti<t2^T. 4. Для любой функции </?(х) G Ьг@,1) имеет место равенство lim / [u(t, ж) — g(x)](p(x) dx = ^^+° Jo 0. /0 Имея в виду этот факт из уравнений математической физики, переходим к решению задачи об оптимальном управлении процессом, который описыва- описывается краевой задачей F.1)—F.3) с критерием оптимальности 1\р]. Очевидно, что принцип оптимальности в этом случае справедлив в той же мере, в ка- какой он справедлив в рассмотренных выше задачах, когда процесс описывается обыкновенными дифференциальными уравнениями. Для получения уравнения Беллмана введем обозначение Ui Гт Г1 1 [и(Т,х) -^l)(x)]2dx+ / / p2(t,x)dxdt\, F.7) Jo Jo J (t,x)EQ
6. Динамическое программирование для распределенных систем 401 где t — произвольный момент времени из отрезка [0, Т], а Р — область значений допустимых управлений. Таким образом, ?[?, и] представляет собой функцию переменной t и функционал от переменной u(t,x) при каждом конкретном t. Если учесть определение обобщенного решения краевой задачи, то ?[?, и] при каждом конкретном t будет представлять собой функционал, определенный на некотором множестве из ^2@,1). Полагая t' = t + St, u{t'',x) = u(t, x) + Su(t, ж), находим, что S[t',u(t'x)] = S[t + St,u(t,x) + Su(t,x)]. Если предположить, что S как функция переменной t дважды непрерывно дифференцируема, а как функционал от и имеет дифференциал Фреше, то получим S[t', u(t', x)] = S[t, u{t.x)] + Ф(г, = S[t, u] st + , u(t, x); Su(t', x)) + oEt) + u(t, u(t', x); 5u(t, x)) = f, x)) \dS[t,u(t',x)] dS[t,u(t,x)]\ r —b^ n dt^ I Здесь Ф(?, u(?, x)) — дифференциал Фреше функционала S[t,u(t,x)], вычис- членный в точке (t,u(t,x)). Согласно формуле Лагранжа имеем dS[t,u(t',x)] dS[t,u(t,x)] dt дТ = ^i(t, u(t, x) + r^u; 5u(t, x)) = Таким образом, получаем L/Z/ t, f/(t, ж); Su), F.8) ?', ix(tx, x)} = S[t, u(t, x)} + d5^ ^ + d5[t, щ Su] L/Z/ ,где — > 0 при St —> 0, ? > 0 при | Учитывая определение функционала S (см. F.7)), имеем г pt+5t pi S[t, и] = min \C P2(r,x) dx dr + Р(т,х)еР { Jt Jo Ul pT pi [u(T,x) -^(x)Jdx + C / / Jt+st Jo = mm 1 Jt Jo
402 Гл. 7. Основы общей теории оптимальных процессов Используя формулу F.8), отсюда получаем dS\t и] Г rtJr5t г1 / \. F.9) Jo J Так как 5u(t,x) = u(t',x) — u(t,x) G ^(Q) ПРИ всех t из отрезка [0,Т], то соглас- согласно теореме Рисса получим Г1 dS[t,u]5u]= / w(t,x) 5u(t,x)) dx, Jo где w(t,x) — градиент функционала S, вычисленный в точке (t,x), принадле- принадлежащий Z/2@,1) почти при всех ? из отрезка [0, Т]. Подставляя это выражение dS в уравнение F.9), получим dS\t и] Г rtJr5t г1 г1 ^^ = mnJ C / p2 C / p2(t, x) dxdt+ I w(t, x)Su(t, x) dx + Jt Jo Jo >. F.10) Очевидно, что справедливо тождество f1 f1 / w(t,xMu(t,x) dx = / w(t,x)u(t,x) dx = Jo Jo /.1 |J+ dx- / w(t o Jo Предположим теперь, что w(t,x) G H^CQ)- Тогда, используя предыдущее тождество, а также тождество F.6), из уравнения F.10) получим dS[t,u] (Р ft+5t Г1 = mm ^ {St Jt t+6t [ Переходя к пределу при <5t —> 0, отсюда получаем уравнение Беллмана - ^ ^ + Ж xMt, ж)] dx - au(t, l)w(t, 1) |, F.11) где символ (=) означает равенство, справедливое почти при всех t из отрез- отрезка [0,Т]. В дальнейшем в этом уравнении будем использовать обычный знак равенства так же, как это делалось выше в уравнении Беллмана для систем с сосредоточенными параметрам. Поскольку w(t, x) является градиентом функционала S, то уравнение F.11) является уравнением в функциональных производных. Непосредственно из определения функционала S следует (см. F.7)), что S ^ 0 и S[T,u]= f [u(T,x)-^(x)Jdx. F.12) Jo
6. Динамическое программирование для распределенных систем 403 Таким образом, задача об оптимальном управлении сводится к отыска- отысканию р и S из уравнения F.11) с дополнительным условием F.12), причем таких, чтобы функционал S был неотрицательным. Прежде чем переходить к исследованию задачи, сделаем одно важное за- замечание относительно самой процедуры вывода уравнения Беллмана F.1). В общих чертах она совпадает с соответствующей процедурой для систем с сосре- сосредоточенными параметрами, когда процесс описывается обыкновенными диф- дифференциальными уравнениями. Поэтому в изложенной форме уравнение Белл- Беллмана дает лишь необходимые условия оптимальности. Однако способ получения этих условий нельзя считать обоснованным, во- первых, по тем же причинам, по которым эта процедура не была обоснованной для конечномерных систем (отсутствует обоснование дифференцируемости S not и и). Во-вторых, в рассматриваемой задаче требуется не только дифферен- цируемость функционала S, но и принадлежность его градиента классу функ- функций W^iQ). Это вносит трудности в задачу обоснования метода динамического программирования для систем с распределенными параметрами. На основании этого замечания можно сделать тот же вывод, который де- делался при анализе метода для конечномерных систем. Процедуру получения уравнения Белмана и последующее построение с его помощью оптимально- оптимального управления следует рассматривать как эвристический прием, позволяющий выделять управления, "подозрительные" на оптимальность. Является ли каж- каждое из выделенных управлений оптимальным, можно установить лишь допол- дополнительной проверкой. В дальнейшем такая проверка не проводится. Более того, полностью метод получения уравнения Беллмана пока не обоснован. Поэтому следует помнить, что управление, называемое здесь оптимальным, является всего лишь претендентом в таковые. 6.3. Построение оптимального управления. Дальнейшее решение за- задачи проведем для случая, когда допустимыми управлениями являются произ- произвольные функции из Z/2(Q), и, следовательно, множество Р в уравнении Белл- Беллмана совпадает с пространством вещественных чисел. Тогда из условия минимума правой части уравнения F.11) следует, что p(t,x) = -—w(t,x). F.13) Затем, исключая р из уравнения Беллмана F.11), получим F.14) дх дх Решение этого уравнения будем искать в виде S[t,u]= / / Jo Jo + / (p(t,x)[u(t,x)-i/;(x)]dx + ri(t), F.15) Jo где K(t,x,s), (f(t,x) и rj(t) — подлежащие определению функции. Вычислим дифференциал Фреше dS[t,u;h] этого функционала. По опре- определению
404 Гл. 7. Основы общей теории оптимальных процессов S[t,u + h]-S[t,u]=dS[t,u]h]+u(t,u,]h), lim т^ = 0. Поэтому dS[t,u;h]= / / [K(t,x,s)+K(t,s,x)][u(t,s)-i/;(x)]h(x)dsdx + о Jo г1 + / (p(x)h(x) dx, Jo и согласно формуле t, u; h] = / w{t,x)h{x)dx Jo находим, что градиент w(t,x) функционала F.15) можно представить в виде w(t,x)= / [K(t,x,s)+K(t,s,x)][u(t,s)=i/;(s)]ds. F.16) Jo Подставляя значения S и w из F.15) и F.16) в уравнение F.14), получим \-Kt(t,x,s) -Kxx(t,x,s) -Kxx(t,s,x) + ¦— Ki(t,x,5) [u(t,s)- . L 4P J -<pt(t,x) - ipxx(t,x) - K2(t,x) - K3(t,x) + I o I №) + KA^^t )dM^) №^ dx - I [f(t,x)<p(t,x)-<pxS,x№(x)]dx+^J <p2(t,x)dx\ + *, 1) + ^(^ 1)] + / [Kx(t, s, 1) + aif(t, s, 1)] [u(t, s) - ф(з)} ds + [^(t, 1, s) + aif(t, 1, 5)] [Ц*, 5) - ^(s)] d51 u(t, 1) - ,o)+ f [кх(г,о,з) + кх(г,зЩ[и(г,з)-ф(з)] где введены обозначения K1(t,x,s)= [ [ Jo K2(t,x)= 2(t,x)= f [K(t,x,s)+K(t,s,x)]f(t,s)ds, Jo K3(t,x)= / [K(t,x,s)+K(t,s,x)]<p(s)ds. Jo Поскольку это равенство должно выполняться для любой функции u(t,x) G W^iQ), то отсюда следует, что Kt(t,x,s) +Kxx(t,x,s) + Kxx(t,s,x) = — lfi(?,a;,s), F.17)
6. Динамическое программирование для распределенных систем 405 Kx(t, 0, s) = Kx(t, I, s) + aK(t, 1, s) = 0, (pxx(t,x) + K2(t, x) + K3(t, x) = 1 Г1 = — / [K(t,x,s)+K(t,s,x)]<p(t,x)ds, F.19) 4P Jo (px(t, 0) = cpx(t, 1) + acp(t, 1) = 0, F.20) f1 f If1 Vt(t) + / f(t,x)(p(t,x)dx + I (pxx(t,x)i/j(x)dx = — / Lp2(t,x)dx. F.21) Jo J 4P Jo Из условия F.12) и формулы F.15) находим, что K(T,x,s)=S(s-x), <р(Т,х)=0, г?(Т)=О. F.22) Таким образом, для определения функции K(t, x, s) мы получили уравне- уравнение F.17) с краевыми условиями F.18) и начальным условием F.22). После того, как эта функция найдена, переходим к построению (p(t,x) с помощью уравнения F.19), граничных условий F.20) и начального условия F.22). Затем можно получить решение уравнения F.21). Однако функция rj(t) не требуется для построения оптимального управ- управления по формулам F.13) и F.16). Краевая задача F.17), F.18) называется интегро-дифференциальной краевой задачей Риккати, ибо она является обоб- обобщением матричного уравнения Риккати на случай бесконечномерных систем управления. Решение задачи Риккати ищем в виде ОО j?U х s) = \ a- -(t)X-(x)X-(s) F.23) где {Xi(x)} — полная ортонормированная в Z/2@,1) система собственных функ- функций краевой задачи F.4). Непосредственными вычислениями находим, что п(х) = — , п = 0,1,..., где Лп — положительные корни уравнения Atg Л = се, а f о л / Хп -\- Хп -\- а ип = / cos \пх ах = Подставляя функцию F.23) в уравнение F.26), получаем бесконечную си- систему обыкновенных дифференциальных уравнений rin • • 1 ,°°^ LULL'if л 2 Г 1 ^ Г Г 1 • • г\ -л / г* с\ л\ аъ *-Р Так как функция F.23) должна удовлетворять первому из условий F.22), то лтл я J1' если i =Э> гао*\ aij(T) =dij = < . F.25) 10, если г ф j. Аналогично поступаем при решении краевой задачи F.19), F.20). Ее решение ищем в виде оо <p(t, x) = ^ Ck(t)Xk(x). F.26) k=0 В результате для определения cn(t) получаем систему уравнений
406 Гл. 7. Основы общей теории оптимальных процессов 1 ajn\Cj- Z)) - Aj2^]Kj + %-n], n = 0,1,..., F.27) с начальными условиями cn(T) = 0, п = 0,1,... F.28) Здесь fn(t) и фп — коэффициенты Фурье функций f(t,x) и ф(х) соответствен- соответственно, fn(t) = / f(t,x)Xn(x)dx, Фп= ijj(x)Xn(x)dx. Как уже отмечалось выше, для построения оптимального управления функ- функция rj(t) не требуется. Поэтому уравнение F.21) решать не будем. Таким образом, для дальнейшего решения задачи нам требуется решить две бесконечные системы дифференциальных уравнений F.24) и F.27), опреде- определяющих функции K(t,x,s) и (f(t,x) по формулам F.23) и F.26). С по- помощью этих функций определяем функционал Беллмана F.15) и его градиент по формуле F.16). Зная этот градиент, по формуле F.13) можно определить оптимальное управление. Однако следует иметь в виду, что эта процедура построения оптимального управления дает лишь формальное решение задачи, и для полного завершения анализа необходимо, как указывалось выше, выполнить обоснование метода. Это обоснование, в частности, должно содержать доказательство существова- существования производных у функций K(t,x,s) и (p(t)X), а также доказательство того, что градиент w(t,x) функционала S принадлежит классу W^iQ). Оставляя в стороне проблемы обоснования метода, прежде всего займемся отысканием функций dij{t) и cn(t). Непосредственной проверкой можно убе- убедиться в том, что функции + l-exp2A?(t-T)]' tJ F.29) образуют решение задачи Коши F.24)-F.25). Значит, систему уравнений F.27) можно записать в виде dt \* + рр® ЧШ>4Фг)<Нг$)- i = 0, Отсюда с учетом условия F.28) получаем Таким образом, для формального определения оптимального управления мы имеем все необходимые данные. С помощью формул F.23), F.26), F.29) и F.30) определяем функции K(t,x,s) и (p(t,x), а затем формулами F.23) и F.16) определяем искомое оптимальное управление.
6. Динамическое программирование для распределенных систем 407 6.4. Разрешимость краевой задачи F.1)—F.3) на оптимальном уп- управлении. Следующий этап в анализе метода динамического программирова- программирования состоит в том, чтобы показать, что построенному оптимальному управле- управлению соответствует единственное обобщенное решение краевой задачи F.1)—F.3). Доказательство единственности мы приводить не будем, а займемся лишь построением решения. Из определения собственных значений Лп краевой задачи F.4) как поло- положительных решений уравнения AtgA = а находим15), что птг < Лп < ( п + - )тг. Поэтому для функции K(t,x,s), определяемой формулой F.23), справед- справедливо равенство ОС) К (i т я^ИяИ'г — /о Jo г=0 Так как 2/3А? + 1 — exp[2Af (t — T)] > 2/3Af, то согласно формуле F.29) получаем ГТ оо 1 °° 1 1 Г 1 1 °° Далее, находим,что функции F.30) удовлетворяют неравенству Поэтому с учетом формулы F.26) получаем о Jo ft Jo —^ 1 fT ^ о, , , 2T где ||г>|| — норма элемента v в пространстве L^. Тем самым показано, что К е L2(Q), p G L2(Q). Докажем теперь разрешимость краевой задачи F.1)-F.3), где p(t,x) явля- является оптимальным управлением, определяемым формулами F.13) и F.16). Так как коэффициенты ац удовлетворяют условию ац = 0 при % ф j (см. F.29)), то оптимальное управление можно записать в виде p(t,x)= R{t,x,s)u{t,s)ds + Ф{t,x), F.31) Jo Р i=0 оо г=0 ZP г=0 ) См., например: Тихонов А.Н., Самарский А.А. Уравнения математической физи- физики. — М.: Наука, 1999.
408 Гл. 7. Основы общей теории оптимальных процессов Здесь следует иметь в виду, что нас может и не интересовать структура функционала S[t, и] и его свойства. Для дальнейшего важен вопрос о разреши- разрешимости краевой задачи F.32) au(t,O) = О, полученной подстановкой управления F.31) в уравнение F.1). В соответствии с интегральным тождеством F.6) обобщенным решением краевой задачи F.32) называется непрерывная функция u(t, x) E W2' (Q), удо- удовлетворяющая интегральному тождеству t=t2 u(t,x)v(t,x) о для любой функции v E W^iQ). Здесь t\ и t^ — произвольные моменты време- времени, удовлетворяющие условию 0 ^ t\ < t^ ^ Т. При этом для любой функции (р(х) Е ?2@,1) должно выполняться равенство dx = г1 / R(t, Хч s)u(t, s) ds | v(t, x)\dxdt + a \ u(t, l)v(t, 1) dt, Jo Г1 lim / [u(t,x) — д(х)]ср(х) dx = 0. ^^+° Jo Формальное решение ищем в виде ряда Фурье x), F.33) п=0 где {Хп(х)} — полная ортонормированная в Z/2@,1) система собственных функ- функций краевой задачи F.4). Подставляя этот ряд в уравнение краевой зада- задачи F.32) и учитывая представление функций R(t, ж, s) и Ф(^, х) по формулам F.31), получаем уравнения для определения un{t) -Ii/Jnan(t) - Cn(t) + /n(t)], n = 0,l,..., F.34) где fn и фп — коэффициенты Фурье функций /(t,x) и ^(ж) соответствен- соответственно. Учитывая начальное условие, которому должна удовлетворять функция и(ЬчХ)ч получаем ип(о)=дп, n = o,i,..., F.35) где дп — коэффициенты Фурье функции д(х). Соотношениями F.34) и F.35) последовательность коэффициентов un(t) определяется однозначно. Тем са- самым найдено формальное решение F.33) краевой задачи F.32). Доказательство того, что полученное решение u(t,x) принадлежит классу W2' (Q), приводить не будем. Его можно получить методом, широко исполь- используемым в теории уравнений в частных производных.
6. Динамическое программирование для распределенных систем 409 6.5. Приближенное решение задачи синтеза оптимального управ- управления. Сначала покажем, что управление, определяемое формулой F.31), яв- является допустимым. Функция u(t, ж), являющаяся обобщенным решением краевой задачи F.32), принадлежит 1^@,1) ПРИ каждом ?, т. е. u2(t,x) dx < оо, Jo причем интеграл является непрерывной функцией от t. Из полученных вы- выше оценок для функций K(t,x,s) и </?(?, х), определяемых формулами F.23) и F.17), следует, что в формуле F.31) R(t,x,s) G L2 и Ф(?, х) G ^2- Поэтому f Jo Jo Jo p2(t,x)dxdt nT nl / nl \ 2 pT pi 2 / / ( / R(t,x,s)u(t,s)ds\ dxdt+ / Ф2(tJs)dsdt = Jo Jo \Jo J Jo Jo 2 u2 (?, s) dsdxdt 2 / / / R (t,x,s)ds [Jo Jo \Jo J Jo где M = max f1 / u2(t,x) dx. Jo Следовательно, управление F.31) принадлежит пространству L,2{Q). Те- Теперь для полного обоснования излагаемого метода нужно показать, что это управление действительно минимизирует функционал 1\р], а градиент w(t,x), определяемый формулой F.16), принадлежит классу W$(Q). Доказательство этого факта приводить не будем, а займемся более практическим вопросом. Будем строить приближенное решение задачи. С этой целью ограничимся конечным числом слагаемых в рядах, опреде- определяющих ядро R(t,x,s) и функцию Ф(?,х) из формулы F.31), т. е. возьмем управление г1 Pm(t,x) = / i?m(t, х, 5)ixm(t, s) ds + Фш(?,х), F.36) Jo где ^ m Rm(t,x,s) = ~^^2 eg ^ i=0 Р г=0 ZP г=0 где um{t,x) — точное решение краевой задачи F.1)-F.3) при р = pm(t, х), т. е. um{t1x) является решением краевой задачи = / Rm(tJxJs)u(tJs)ds + Фш(^,х) + , Jo F.37) u@, ж) = g(x), ux(t, 0) = uc(t, 1) + au(t, 1) = 0.
410 Гл. 7. Основы общей теории оптимальных процессов Ясно, что um(t,x) так же, как и решение краевой задачи F.32), явля- является обобщенным решением и принадлежит классу W2y (Q). Это позволяет: 1) показать, что pm(?, x) Е L2{Q)\ 2) получить оценку величины уклонения um(t,x) от u(t,x) в метрике пространства L2. Все это в свою очередь позволя- позволяет установить сходимость pm(t, x) к р(?, х) в метрике L2 и оценить скорость этой сходимости. Можно также оценить скорость сходимости 1[рш] к минимальному значению этого функционала. Однако мы не будем останавливаться на получении этих оценок. Отметим лишь, что управление F.36) не является единственно удобной формой аппрок- аппроксимации оптимального управления. Можно также порекомендовать и другие, например, р™(?,ж)= / iJro(t,x,sX(t,s)ds + *ro(t,a;), F.38) Jo где u™(t,x) — некоторым способом построенное приближенное решение краевой задачи F.37). Соотношения между пит могут быть различными. В частности, в качестве u™(t,x) можно взять n-ю частичную сумму ряда Фу- Фурье, определяющего решение краевой задачи F.37). При анализе проблем аппроксимации оптимального управления представ- представляют интерес следующие ситуации. 1. Информация о состоянии управляемого объекта в течение всего времени управления собирается в отдельных изолированных его точках xi,... ,xs. На основании этой информации формируется закон управления в интегральной форме, подобной F.36) или F.38). 2. Информация о состоянии управляемого объекта снимается в отдельные моменты времени ?]_,...,?& в изолированных точках х\...., xs. На основании этой информации формируется закон управления по принципу обратной связи. Задача в этих случаях состоит в построении подходящих управлений (по принципу обратной связи) и в получении необходимых оценок этих управлений от оптимального. В первом случае можно предложить следующий вариант решения зада- задачи. Наблюдение за состоянием объекта в изолированных точках дает функ- функции u(?, xi),..., u(?, xs). Один из возможных вариантов формирования закона управления состоит в том, что управляющая функция берется в виде Pm(t,x) = / Rm(t,X, JO a)u(t, a) da + Фш(?, х), где Rm и Фт — те же функции, что и в F.38), a u(t,x) строится с помощью какой-либо формулы интерполирования исходя из условия U(t,Xj) =u(t,Xj), j = 1,...,5. В частности, можно воспользоваться формулой Лагранжа где и(х) = (х - xi)... (х - х3). Используя это управление, получим, что функция и(?, х), характеризую- характеризующая состояние объекта, определяется краевой задачей I щ — ихх = / Rm(t,x,a)u(t, a) da + < Jo [ гх(О, ж) = р(ж), ^(t, 0) = ux(t, 1 Ч (?, х), + u(t, 1) = 0.
7. Принцип максимума 411 Решение этой задачи можно получить следующим образом 16). Считая пра- правую часть уравнения известной функцией и применяя метод Фурье, формально получаем представление u(t,x) в виде (см. формулу F.5)) u(t, x) = Fm(t, x) + / V Hi(t, т, х)и(т, хг) dr, F.39) где Fm(t,x) и Hi(t,r,x) — известные функции. Полагая здесь последователь- последовательно ж = xi, х = #2, •••? # = ^s? получим систему интегральных уравнений относительно u(?, xi), u(t,X2), ..., u(t,xs). Решив ее, по формуле F.39) на- находим функцию и(?, х), и дальнейшее исследование задачи можно проводить, использую изложенные выше методы. 6.6. Заключительные замечания. В этом параграфе мы рассмотрели применение метода динамического программирования лишь в одном частном случае, когда процесс описывается краевой задачей для уравнения теплопро- теплопроводности, причем управляющая функция входит в уравнение. Однако эта методика применима и в других случаях17). Среди них следует отметить важный класс задач, когда управляющая функция входит в гранич- граничные условия, определяющие вместе с уравнением управляемый процесс. Здесь возникают дополнительные трудности, связанные с тем, что соответствующая задача Риккати оказывается более сложной. 7. Принцип максимума Одним из наиболее универсальных и эффективных методов решения задач об оптимальном управлении является метод, созданный группой московских математиков во главе с Л.С.Понтрягиным. Основное его содержание составля- составляет совокупность теорем, объединенных общим названием "принцип максиму- максимума". Каждая из них дает необходимые, а в ряде случаев и достаточные условия оптимальности применительно к тому или иному классу задач. Эти условия практически пригодны при отыскании оптимального управления в конкретных задачах, что повлекло за собой необычайную популярность принципа макси- максимума среди специалистов, занятых решением прикладных задач. Сразу же после публикации группой Л.С.Понтрягина основных результа- результатов теории начали появляться многочисленные работы, связанные с примене- применением принципа максимума и его всесторонним исследованием. Здесь мы изло- изложим основные результаты этой содержательной теории. Более подробно с ней можно ознакомиться по литературе, список которой приведен в конце книги. 7.1. Формулировка задачи и принцип максимума. Пусть управля- управляемый процесс описывается уравнениями х% = fi(xu • • • ? хп, иъ ..., иг), г = 1, 2, ..., п, G.1) в которых вектор управления и = {ui,..., иг} принимает значения из откры- открытой или замкнутой области U С Ет. Функции /^ предполагаются дважды ) Гасанов З.М. Приближенное решение задачи синтеза оптимального управления системы с распределенными параметрами на основе неполного измерения: Дисс. ... канд. физ.-мат. наук / Ин-т кибернетики. — Киев, 1980. — 112 с. ) См., например: Егоров А.И. Оптимальное управление тепловыми и диффузионными процессами. — М.: Наука, 1978.
412 Гл. 7. Основы общей теории оптимальных процессов непрерывно дифференцируемыми по совокупности всех своих аргументов. До- Допустимыми управлениями считаются кусочно непрерывные функции и = u(t) с конечным числом точек разрыва, каждая из которых является точкой разры- разрыва первого рода. При этих предположениях каждому допустимому управлению и = u{t) соответствует единственное решение системы уравнений Xi = fa{xi,... ,xn,ui{t),... ,ur{t)), г = 1, 2, ..., n, G.2) с начальными условиями х&0)=х°{, г = 1,2,..., п. G.3) Пусть заданы числа ж},..., х\ и скалярная функция /o(^i,..., xnj ui,..., ur), обладающая теми же свойствами, что и /^. Рассматриваемая задача об оптимальном управлении состоит в том, чтобы найти допустимое управление и = u(t) такое, чтобы соответствующее ему решение xi(?),... ,xn(t) задачи G.2), G.3) удовлетворяло условиям xl(t1)=x1lJ г = 1, 2, ...,п, G.4) а функционал rti J[u}= / f{x1,...,xn,u1,...,ur)dt G.5) Jt0 при этом достигал своего наименьшего возможного значения. Момент вре- времени t = t\ > to, вообще говоря, заранее не задан. Отметим некоторые честные случаи этой задачи. 1. Пусть /о = 1. Тогда функционал G.5) принимает вид J[u] = t\ — to, и, следовательно, задача состоит в том, чтобы перевести систему G.1) из состоя- состояния G.3) в состояние G.4) за кратчайшее время. 2. Пусть момент времени t = t\ фиксирован, а г=1 Тогда критерием оптимальности служит функционал J[u}= и мы имеем дело с задачей об управлении с минимальной энергией, рассмот- рассмотренной в гл. 6. Однако несмотря на значительную общность в постановке сформулирован- сформулированной задачи можно указать практически интересные классы задач, которые не могут быть описаны указанным способом. В частности, рассмотренная в гл. 6 задача об управлении с минимальной силой относится к такому классу. Чтобы сформулировать принцип максимума, введем вспомогательную пе- переменную хо, положив хо = fo(xlj...Jxnjulj...Jur)J G.6) xo(to) = 0. G.7) Если и = u{t) — допустимое управление, а функции xi(?),..., xn(t) образу- образуют соответствующее ему решение задачи Коши G.2), G.3), то, подставляя их в уравнение G.6), однозначно определим функцию xo(t)= [ fo(x1(t),...,xn(t),u1(t),...,ur(t))dt. J
7. Принцип максимума 413 При этом соответствующее значение функционала G.5) можно записать в виде J[u] = хо(П). G.8) Поэтому, используя введенную переменную, можно дать иную формули- формулировку задачи, удобную для дальнейшего анализа. Воспользуемся следующими обозначениями. Пусть х = {жо,Ж1,...,а;та}, / = {/o,/i,...,/n}, x° = {0,ж°....,ж°}. G.9) Тогда совокупность уравнений G.1) и G.6) можно записать в виде x = f(x,u), G.10) а начальные условия G.3) и G.7) запишем в виде одного условия x(t0) = G.11) Важно заметить, что вектор-функция /(ж, и) не зависит от нулевой ком- компоненты хо- Условия в момент времени t = ti, которым должна удовлетво- удовлетворять оптимальная траектория х = x(t) системы G.10), состоят в том, чтобы её компоненты xi(?),... ,хп(?) подчинялись условиям G.4), а нулевая компо- компонента хо(?), в соответствии с формулой G.8) должна принимать наименьшее возможное значение. В этих терминах поставленной задаче можно дать простую геометрическую ин- интерпретацию. Пусть п = 2. Тогда фазовое прост- пространство системы G.10) будет трехмерным (рис. 7.7.1). Начальная точка фазовых тра- траекторий лежит в плоскости х\Ох2 (см. обо- обозначения G.9) и условие G.11). Из этих тра- траекторий нас интересуют только те, кото- которые удовлетворяют условиям G.4) (каждая в свой момент времени t = t\). Концы этих траекторий лежат на прямой L, опреде- определяемой условиями G.4). Она параллельна оси Охо и проходит через точку @,х},Х2). Каждая из рассматриваемых траекторий в момент окончания процесса имеет свою координату xo(?i). Поскольку эта координата совпадает со значением минимизируемого функ- функционала J[u] (см. G.8)), то нас интересует управление и = u(t), которому со- соответствует траектория х = x(t) системы G.10), исходящая из точки х° и пересекающая линию L в самой нижней точке х1. На рис. 7.7.1 эта траек- траектория нарисована сплошной линией. Штриховая линия является ее проекцией на плоскость х\Ох^^ Приведенная геометрическая интерпретация задачи мало что дает для ее решения. Однако она полезна для понимания ее содержания и упрощения тер- терминологии в используемых аналитических построениях. Дальнейший анализ задачи будем проводить исходя из следующей ее по- постановки. Рис. 7.7.1
414 Гл. 7. Основы общей теории оптимальных процессов В фазовом пространстве Еп+1 векторов х = {хо,хъ ... ,хп} задана си- система G.10) с начальным условием G.11), где х° = {0,х5,... ,х^}. Требу- Требуется найти кусочно непрерывное управление и = u{t), принимающее значе- значение в U С Ег такое, чтобы соответствующее ему решение х = x(t) = = {xo(?),xi(?),... ,хп(?)} удовлетворяло условиям G.4), а функционал G.8) пр-м этом принимал наименьшее возможное значение. Момент времени t = = ?i, вообще говоря, не фиксирован. Введем функцию п П(ф, х, и) = Г/(х, u) = J2 ФгМх, и). G.12) г=0 Тогда уравнение G.10) можно записать в виде системы x, = ^f^, , = 1,2,...,n. G.13) Переменные ф^ определим с помощью следующей линейной однородной системы уравнений: • дН(ф,х,и) . Фг = ^ , г = 1, 2, ..., п. G.14) Пусть, далее, Необходимые условия оптимальности в рассматриваемой задаче даются следующей теоремой. Теорема (принцип максимума). Для того чтобы допустимое управ- управление и = u{t) и соответствующее ему решение х = x(t) уравнения G.10) с условием G.11) было оптимальным, необходимо, чтобы существовала нену- ненулевая вектор-функция ijj(t) такая, что: 1) функции x(t), ф(Ь) и u(t) связаны уравнениями G.13) и G.14); 2) функция TL^(t),x(t),u), рассматриваемая как функция переменной и, достигает своего максимума при и = u(t) почти при всех t из отрезка [to, t\], т. е. (t), u(t))(=) maxH(il>(t),x(t), и), G.15) иеи где символ (=) означает равенство, справедливое почти при всех t из отрез- отрезка [to,ti]; 3) выполняются условия ф° = const ^ 0 и А4(ф(г),х(г)) = 0; причем по- последнее равенство достаточно проверить для любого конкретного момента времени t из [to^ti], например для t = t\. Доказательство этой теоремы приводить не будем, поскольку оно доста- достаточно сложно и ничего не дает для практического построения оптимального управления. Вместо этого обсудим, в какой мере она "практична", т. е. дает ли она необходимую информацию для построения оптимального управления. 7.2. Обсуждение принципа максимума. Громоздкая формулировка принципа максимума вносит определенные трудности в понимание того, на- насколько его утверждение дает необходимую информацию для практическо- практического построения оптимального управления. Попытаемся проанализировать все его условия. Однако следует иметь в виду, что приводимые рассуждения ни в коей мере нельзя рассматривать как строгое математическое доказательство
7. Принцип максимума 415 тех или иных фактов. Они предназначены лишь для того, чтобы пояснить со- содержание сформулированной теорем. Прежде всего следует отметить, что теорема даёт лишь необходимые усло- условия оптимальности, не утверждая факт существования оптимального управле- управления. Ситуация здесь подобна той, которая возникает при отыскании точки ми- минимума непрерывно дифференцируемой функции у = (/?(si,..., sn) в открытой области. Здесь условия =0, г = 1, 2, ..., п, G.16) OS не утверждают существования точки минимума функции у = Однако они дают п уравнений для определения п неизвестных si,..., sn. Во- Вопрос о том, определяет решение системы уравнений G.16) точку минимума, максимума или седловую точку, требует дополнительного анализа. Имея в виду эту аналогию, перейдем к анализу теоремы. Начнем с условия G.15), в котором пока считаем ijj(t) и x(t) неизвестными функциями. Из него находим u{t) в зависимости от ij;(t) и x(t), т. е. получаем функцию (возможно неоднозначную) u(t)=u№(t),x(t)). G.17) В частности, если область U совпадает со всем пространством Ег', то для опре- определения u(t) вместо условия G.15) выписываем более слабое в этом случае условие — условие стационарности точки и dH№),x(t),u) _п ._ — и, % — 1, z, ..., г, ощ которое служит для определения г не известных пока компонент вектор-функ- вектор-функции u{t) = {ui(t),..., ur(t)}. Затем каждую стационарную точку проверяем известными методами и выделяем точки максимума. Найденную таким образом из условия G.17) функцию u{t) (их может ока- оказаться несколько) подставляем в уравнения G.13) и G.14). В итоге получаем систему из 2п + 2 дифференциальных уравнений , 1 = 0, 1, . . . , П, хММ) ¦ п 1 — , г = 0, 1, ..., п, относительно 2п + 2 неизвестных. Общее ее решение (будем считать, что его можно найти) зависит от 2п+2 произвольных постоянных. Еще одной неизвест- неизвестной постоянной является момент времени t\ окончания оптимального процесса. Таким образом, имеем 2п + 3 неопределенных постоянных. Для исключения этих постоянных мы имеем 2п + 1 скалярных условий G.4) и G.11). Еще два условия дает п. 3) теоремы. Тем самым теорема опреде- определяет полную систему соотношений для получения оптимального управления и соответствующего ему решения задачи G.10) и G.11). 7.3. Принцип максимума в задаче об оптимальном быстродейст- быстродействии. Рассмотрим теперь частный случай общей задачи об оптимальном уп- управлении. Будем предполагать, что в критерии G.5) /о = 1, а процесс описы- описывается уравнением G.1). Ясно, что и в этом случае сформулированный выше принцип максиму- максимума остается справедливым. Однако теперь ему можно придать более простой
416 Гл. 7. Основы общей теории оптимальных процессов вид. В соответствии с формулой G.12) и тем, что /о = 1, можно записать Н(ф,х,и) = фо + Н(ф,х,и), где ф = {фъ ..., фп}, х = {жь ... ,жта}, п Н(ф, х,и) = Y^ ФгМх, и). G.18) г=1 Уравнение G.1) при этом можно записать в виде *г=д-Щ^, * = !,...,„, G.19) а для определения вектор-функции ф из G.14) имеем уравнения , г = 1,...,п. G.20) Далее, функция Н(ф,х,и), рассматриваемая как функция переменной и, достигает своего максимума в той же точке, что и Т1(ф,х,и), так как они раз- различаются лишь слагаемым, не зависящим от и. Поэтому в условиях принципа максимума вместо равенства G.15) можно писать H$(t),x{t), «(*))(=) maxff(#), x(t), и). G.21) uEU Функция ЛЛ(ф(г), x(t)), фигурирующая в п. 3) этой теоремы, может быть пред- представлена в виде J\A\w\t),x{t) = max Н\ф\Ь), х(г), и) = иеи = i/jo(t) -\-maxH(^(t),x(t), и) = i/>o(t) + M(^(t),x(t)). G.22) uEU Поскольку, как отмечалось выше, правая часть уравнения G.11) не зависит от компоненты хо вектора ж, то дх0 и из системы G.14) находим, что ifio(t) = 0. Поэтому фо(г) = const. В п. 3) теоремы требуется, чтобы эта константа была неположительной, а функция Ai{ip(t)^x(t)) должна удовлетворять условию М(ф(€),х(€) = 0. Поэтому из равенств G.22) следует, что uEU Таким образом, окончательный результат в задаче об оптимальном быст- быстродействии можно сформулировать следующим образом. Теорема (принцип максимума). Для того чтобы управление u(t) и соответствующее ему решение x(t) задачи G.1), G.3) были оптимальными по быстродействию, необходимо существование ненулевой вектор-функции ф(г) такой, чтобы: 1) вектор-функции ф(г),х(г) и u{t) были связаны между собой уравнени- уравнениями G.19) и G.20);
7. Принцип максимума 417 2) функция Н(ф(г),х(г),и), рассматриваемая как функция переменной и, достигала своего максимума при и = u(t) почти при всех t из отрезка [to, t\], т. е. чтобы выполнялось равенство G.21); 3) в конечный момент времени выполнялось равенство Эту теорему также доказывать не будем. Ограничимся анализом ил- иллюстративного примера. Пример 7.1. Пусть управляемый процесс описывается уравнениями Х\ = #2, Х2 — и- Допустимыми управлениями будем считать кусочно непрерывные функции и = u(t), удовлетворяющие условию |гх| ^ 1, т. е. в этом случае областью U значений допустимых управлений является отрезок [—1, +1]. Начальные усло- условия G.3) возьмем в виде xi(t0) =х\, x2(t0) = х%. Тогда мы соответствии с определением функции Н имеем (см. G.18)) Н(ф, х, и) = фхх2 + Ф2Щ G.23) где для определения ф\ и ф2 имеем уравнения (см. G.20)) ^1=0, Ф2 = -Фъ G.24) Функция H(ip,x,u) по переменной и (см. G.23)) достигает своего максиму- максимума на отрезке [—1, +1] при и = sign ф2. G.25) В этой формуле ф2 определяется системой уравнений G.24), из которой находим, что ф2^) = с\ -\-c2t, где ci и с2 — произвольные постоянные. Поэтому формулу G.25) можно записать в виде u(t) = sign (ci + c2t), t0 < t < tb G.26) Выраж:ение, стоящее под знаком sign в формуле G.26), является полиномом первой степени относительно переменной t. Поэтому оно может обращаться в нуль не более одного раза на любом отрезке изменения t. Следовательно, оптимальное управление может принимать лишь два значения, +1 и — 1, изменяя знак не более одного раза. Дальнейший анализ примера выполнять не имеет смысла, поскольку этот пример был исследован в параграфе 2 (см. пример 2.1). 7.4. Принцип максимума в задачах терминального управления. Рассмотрим теперь задачу, когда процесс описывается уравнениями ±i = fi{t,xi,... ,xn,ui,... ,иг), г = 1, 2, ..., п, G.27) с начальными условиями G.3). Функции /Д?, xi,..., xn, ui,..., иг) предполага- предполагаются непрерывными по t и дважды непрерывно дифференцируемыми по со- совокупности остальных аргументов. Отличие системы G.27) от системы G.1) состоит в том, что в G.27) функции fi явно зависят от переменной t. Вводя обозначения х = {х i,... ,жп}, и = {ixi,..., ixr}, / = {/i,...,/п}, мы можем исходить из того, что каждое допустимое управление и = u(t) (класс до- допустимых управлений оставляем прежним) однозначно определяет единствен- единственное решение х = x(t) задачи Коши x = f(t,x,u), to<t, G.28)
418 Гл. 7. Основы общей теории оптимальных процессов x(to)=x°, G.29) а на каждом таком решении определено значение функционала п S[u] = с*х{Т) = ^ед(Т), G.30) г=1 где с — заданный вектор, момент времени t = Т фиксирован. Задача терминального управления состоит в том, чтобы найти допус- допустимое управление, на котором функционал G.29) достигает наименьшего возможного значения. Несмотря на то, что функционал G.29) является линейным, такая зада- задача достаточно универсальна при фиксированной продолжительности процесса to ^ t ^ Т. Для иллюстрации рассмотрим некоторые частные случаи. 1. Пусть в задаче из п.1 настоящего параграфа момент окончания процесса t = t\ задан. Тогда введением вспомогательной переменной xq соотношения- соотношениями G.6) и G.7) получаем задачу для процесса, описываемого уравнением G.10) в фазовом пространстве Еп+1 с критерием оптимальности G.8), который яв- является частным случаем критерия G.30). 2. Пусть процесс описывается уравнениями G.27), а критерием оптималь- оптимальности служит функционал .7[и]=Ф(х1(Т),...,хп(Т)), G.31) в котором Ф(#1,..., хп) — заданная функция своих аргументов, имеющая все производные нужного в дальнейших формулах порядка. Введем вспомогатель- вспомогательную переменную хо, положив xo(t) = <2>(xi(?),... ,хп(?)), где {xi(?),... ,xn(?)} — решение задачи G.28), G.29). Дифференцируя это равенство с учетом уравнения G.28), можно записать xo(t) = fo(t, ?i(?), • • •, xn(t), ixi(t),..., ur(t)), где ч V^ дФ{хъ...,хп) u ... ,xn,uu ... ,ur) = 2^ fi(t,xu ... ,xn,uu ... ,ur). г=1 °X% Поэтому задача минимизации функционала G.31) на решениях уравне- уравнений G.27) с начальными условиями G.3) эквивалентна задаче минимизации функционала J\ [и] = xq (T), определенного на решениях системы уравнений Xi = fi{t,Xi, . . . ,Xn,Ui, . . . ,Ur), I = 0, 1,...,П, с начальными условиями Жо(^о) = 0? xi(to) = x^-> i = 1? 2, ..., п. Функцио- Функционал J\[u] также является частным случаем функционала G.30). Примеры подобного типа можно продолжить. Однако делать этого не бу- будем. Продолжая анализ сформулированной выше задачи терминального управ- управления отметим, что при ее постановке на решение системы G.27) в конечный момент времени могут быть наложены некоторые дополнительные ограниче- ограничения. В частности, можно потребовать, чтобы точка {#i(T),..., хп(Т)} принад- принадлежала некоторому заданному множеству. Однако здесь будем исследовать за- задачу при отсутствии каких-либо ограничений на конечное состояние системы, или, как говорят в этом случае, будем рассматривать задачу со свободным концом траектории.
7. Принцип максимума 419 Теорема (принцип максимума). Для того чтобы управление и = u(t) и соответствующее ему решение х = x(t) задачи G.27), G.3) были оптималь- оптимальными по функционалу G.30) в задаче терминального управления, необходимо, а в случае линейной системы G.27) и достаточно выполнения условия мак- максимума H(t, i>(t),x(t), u(t))(=) maxH(t, i>(t),x(t), u), G.32) uEU где H(t,ф,x,u) = ^2&&&хъ • • •,xn,иъ ...,ur), G.33) i=l a ф(Ь) = {/0i(t)...., i/jn(t)} — решение системы уравнений 1 dH(t,il>,x(t),U(t)) ¦ л 9 f7~A, фг = , г = 1, 2, ...,n, G.34) OXi с начальными условиями фг(Т) = -а, г = 1, 2, ...,п. G.35) Доказательство. Пусть u{t) — оптимальное управление, a x(t) — со- соответствующее ему решение уравнения х = f(t, х, u(t)), to<t<T, G.36) с начальным условием x(to)=x°. G.37) Управлению u(t) дадим произвольно малое приращение Su(t), причем та- такое, чтобы u(t) + Su(t) оставалось допустимым. Через 5x(t) обозначим соот- соответствующее ему приращение решения задачи G.36), G.37). Тогда функция x(t) + Sx(t) является решением уравнения x = f(t,x,u(t) + 5u(t)) G.38) с тем же начальным условием G.37). Из уравнений G.9) и G.38) следует, что функция Sx(t) удовлетворяет уравнению 8х = f(t, x(t) + 5x, u(t) + 8u(t)) - f(t,x(t),u(t)). G.39) При этом она, очевидно, удовлетворяет начальному условию 5x(t0) = 0, G.40) где 0 — нулевой n-мерный вектор. Имея в виду этот факт, вычислим приращение функционала G.30), которое он получает при переходе от управления u(t) к управлению u(t) + Su(t). Так как u{t) и x(t) оптимальны, то SS[u(t)] = S[u(t) + Su(t)] - S[u(t)] > 0. G.41) С другой стороны, очевидно, что в силу уравнения G.39) справедливо ра- равенство W(t)[6x(t)-6f\}dt = 0, G.42) где ф(?) = {ф\(€),... ,фп(г)} — решение задачи Коши G.34), G.35), а Sf = f(t,x(t) + 5x(t),u(t) + 5u(t)) = f(t,x(t),u(t)). Под ф*д понимается скалярное произведение векторов ф и q в пространст- пространстве Еп.
420 Гл. 7. Основы общей теории оптимальных процессов Если воспользоваться обозначением G.33), то равенство G.42) можно за- записать в виде I \^*{tMx{t) - 5H(t,i/;(t),x(t),u(t))]dt = 0, Jto где = H(t,Ф(ь),х(ь) + Sx(t),u(t) + Su(t)) - H(t, Так как по предположению компоненты /^ вектор-функции / дважды непре- непрерывно дифференцируемы по совокупности аргументов х и и, то по формуле Тейлора можно записать 5H(t,i/>(t),x(t),u(t)) = ){t),x{t),u{t) + Su(t)) - H(t, i){t),x{t), u{t)) + ._ I ± (JXj C/Xn J Интегрируя по частям и учитывая уравнения G.34) и G.40), получим Jto i=l -± Гшхмdt = -±Cisxi(T)+ f ±m*Mt)>*{t)Mt))Sxi{t)dt i=1Jto i=1 Jto i=1 dX* В соответствии с определением функционала S первая сумма в правой части этих равенств равна 5S[u(t)}. Поэтому Г Г Г v Jto i=1 'to Таким образом, из равенств G.46) с учетом G.47) и G.48) окончательно получаем SS[u(t)] = — / [H(t,i/j(t),x(t),u(t) + 5u(t)) — H(t,i/j(t),x(t),u(t))]dt + rj, G.43) Jt0 где rj = rji +772, rll=Yi ! 'XaJU ! ^ 5х&) dt' G.44) ^ ij=l Jto
7. Принцип максимума 421 Полученная формула приращения минимизируемого функционала S и осо- особенно способ ее получения играют значительную роль в исследовании задач оптимального управления со свободным концом траектории. Здесь она нам требуется лишь для доказательства сформулированного принципа максимума. По предположению управление u{t) и соответствующее ему решение x(t) задачи G.36), G.37) являются оптимальными, и, следовательно, справедливо неравенство G.41), где SS[u(t)] можно записать в форме G.43). Допустим, что теорема неверна. Тогда существуют точка и* Е U и момент времени t* E (to,T) такие, что для них неравенство G.32) нарушается. Так как функция x(t) непрерывна, а управление u(t) кусочно непрерывно, то можно указать числа Si > 0, #2 > 0 и 5$ > 0 такие, что справедливо неравенство H(t, фЦ), x(t), u(t)) - H(t, Ш, x(t), «*) < S3 < О при всех t из интервала I§ = (t* — Si,t* + ^2) С [to,T]. Ясно, что числа Si и #2 можно брать произвольно малыми. Построим вспомогательное управление Тогда будем иметь ни G<45) при tels. v J / [H(t, i/j(t),x(t), u*(t)) - H(t, i/j(t),x(t), u(t))} dt = Jto = / [H(t,iP(tO,x(t),u*))-H{t,i>{t),x{t),U(t))]dt<53{S1 + 52). Jh Поэтому в соответствии с формулой G.43) будем иметь 5*S[u(t)} = S[u*(t)} - S[u(t)} < -63F2 + S^ + г?*, где через г/* обозначен остаточный член в формуле G.43), вычисленный при u{t) + 6u(t) = u*(t), т. е. г/* = ту* + ту*, » 1 -A fT d2H(t,4>(t),x(t) + e5*x(t),u*) „ . .„ .., I j=lJt° Здесь 5*x(t) — решение задачи G.39), G.40), когда u(t) + 5u(t) = u*(t), т. е. S*x(t) = f(t, x(t) + S*x(t), u*(t)) - f(t, x(t), u(t)), S*x(t0) = 0. G.47) По предположению компоненты fi вектор-функции / дважды непрерыв- непрерывно дифференцируемы по совокупности аргументов х и и. Значит, существуют постоянные iVi > 0 и N2 > 0 такие, что \fi(t,x(t)+6*x(t),u*(t))-fi(t,x(t),u(t))\< Г J2 (*) ~ u(t)\. i=l 1=1
422 Гл. 7. Основы общей теории оптимальных процессов Поэтому из соотношений G.47) получаем г=1 pt п »t г / ^2\5*Xi(t)\dt^nN2 ^2\u*(t)-u ^to i=l ^to к=1 Согласно определению функции u*(t) по формуле G.45) из этого нера- неравенства следует,что п ^to i=l dt G.48) k=l где и* = {и*,...,и*} Воспользуемся теперь леммой Гронуолла-Беллмана, согласно которой, ес- если функция (p(t) удовлетворяет неравенству cp(t) ^ 0 и <p(t)f(tOdt + M, t>t0, 1 f(t)dt\. где f(t) > 0, fc > 0 и М > 0, то Так как по предположению допустимыми управлениями являются кусоч- кусочно непрерывные функции и = u(t) с разрывами первого рода, то существует постоянная R > 0 такая, что k=l u(t)| ^ R при всех t E (to — 5i,to + 62). Поэтому из неравенства G.48) получаем pt п \6*Xi(t)\ ^kN! Yl \&*Xi(t)\dt + nN2RE1 г=1 pt п ^to г=1 и согласно лемме Грануолла-Беллмана будем иметь г=1 Полагая е = 6162, Q = kRN2ekNl(yT~to\ окончательно получаем г=1 Воспользуемся теперь формулами G.46). Так как функция Н(г,ф,х,и) дважды непрерывно дифференцируема по переменным х и и, то существует постоянная L такая, что дШ, ), u(t)) k=l Поэтому \щ\ ^RLxne2, \г]2\ < L2( где Q2 — постоянная, определяемая неравенством G.49) 06*x(t), u(t)
7. Принцип максимума 423 Тогда из неравенств G.45) и G.49) будем иметь S*S[u(t)] < -53еA - ие), G.50) где ии — определенная постоянная. Воспользуемся теперь тем, что величину е можно брать произвольно малой (см. определение величин #i, и #2 в формуле G.45)). Выберем теперь величи- величину г настолько малой, чтобы выполнялось неравенство 1 — йог > 0, Тогда из G.50) следует, что 5*S[U(t)] < 0. Это невозможно, так как по предположению управление u(t) оптимально. Для завершения доказательства остается рассмотреть случай, когда систе- система G.28) линейна, т. е. когда она имеет вид В этом случае из анализа формул G.43) следует, что rj = 0 и, следовательно, ГТ SS[u(t)] = - [H(t, ф(€),х(€), u(t) + Su(t)) - H(t, ф(€),х(€), u(t))] dt. Jt0 Отсюда следует, что в случае линейной системы знак приращения 5S[u(t)] совпадает со знаком выражения, стоящего в правой части последнего ра- равенства. Тем самым теорема полностью доказана. Замечание 7.1. При обсуждении задач терминального управления отме- отмечалось, что к задаче минимизации функционала G.30) можно свести задачу об оптимальном управлении, когда критерием оптимальности берется нели- нелинейный функционал G.31). Поэтому очевидно, что доказанная теорема может быть использована и в этом последнем случае. В дальнейшем нам потребуется рассмотренный принцип максимума, но при нелинейном критерии оптимально- оптимальности. Здесь мы приведем его формулировку без доказательства. При надобности доказательство можно восстановить, основываясь на только что доказанной теореме. Теорема (принцип максимума). Для того чтобы допустимое управ- управление u{t) и соответствующее ему решение x(t) задачи G.2), G.3) были оп- оптимальными по функционалу G.31), необходимо существование ненулевой вектор-функции ijj(t) такой, что: 1) функции u(t), x(t) и ijj(t) связаны уравнениями G.2) и V> = 17 у, г = 1, 2, ..., n, и дополнительными условиями дФ(х(Т)) ф{Т) = , г = 1, 2, ..., п; 2) выполнялось условие максимума G.32). Замечание 7.2. При доказательстве принципа максимума мы использо- использовали управление G.45), полученное из u(t) специальным варьированием: u(t) изменялось на произвольную допустимую величину на малом отрезке времени. В итоге получили малую вариацию управления й(?), которую характеризовали величиной „ г k=l
424 Гл. 7. Основы общей теории оптимальных процессов где С — не зависящая от е постоянная. Поэтому в соответствии с оценка- оценками G.45) и G.49) величину 5*S[u(t)] можно представить в виде S*S[u(t)] =a1e + a2e2 + o(e), где о(е)/е2 —> 0 при е —> 0. Величины а\ и а2 можно вычислить и их называют вариациями первого и второго порядков функционала S. 8. Задачи с подвижными границами Многие прикладные задачи об оптимальном управлении приводят к необ- необходимости рассматривать траектории управляемых систем, концы которых не фиксированы, а принадлежат некоторым заданным множествам фазового пространства. Простейшим примером может служить задача: требуется пере- переправиться на лодке с одного берега реки на другой за кратчайшее время. Здесь требуется не только найти закон оптимального управления, но и указать наи- наиболее подходящую точку старта на одном берегу и точку финиша на другом берегу. Оказывается, что задачи такого типа исследуются, а зачастую и ре- решаются в рамках общей теории необходимых условий оптимальности в форме принципа максимума. В этом параграфе излагается соответствующий математический аппарат, который требуется для того, чтобы правильно сформулировать задачу с по- подвижными границами и указать полный набор необходимых условий оптималь- оптимальности, с помощью которых она решается. 8.1. Гиперповерхности и гиперплоскости в евклидовом прост- пространстве. Множество М точек х из Еп, удовлетворяющих уравнению fix) = 0, (8.1) где / — скалярная функция, будем называть гиперповерхностью в прост- пространстве Еп, а соотношение (8.1) — уравнением этой гиперповерхности. Точку ж, в которой будем называть особой точкой гиперповерхности, а точки поверхности, в ко- которых grad f(x) ф 0, называются неособыми. Гиперповерхность, определяемая уравнением (8.1), называется гладкой, ес- если функция f(x) непрерывно дифференцируема во всех точках Мине имеет особых точек. В частности, если функция f(x) линейна, а следовательно, урав- уравнение (8.1) принимает вид а\Х\ +... -\-апхп = 6, то определяемое им множест- множество Mi будет гладким, если хотя бы один из коэффициентов ai,..., ап отличен от нуля. В этом случае множество М\ называется гиперплоскостью. Вектор grad f(x) называется нормалью (нормальным вектором) гиперпо- гиперповерхности М в точке х Е М. В частности, вектор а = {ai,..., an} является нор- нормалью гиперплоскости Mi. Гиперплоскость, проходящая через точку х° Е М и ортогональная вектору grad f(x°), называют касательной гиперплоскостью. Таким образом, уравнение этой гиперплоскости можно записать в виде
8. Задачи с подвижными границами 425 Пусть Mi,..., Мк — гладкие гиперповерхности в Еп, заданные уравнени- уравнениями Обозначим через М пересечение множеств Mi,..., М&. Оно называется гладкой (п — к)-мерной гиперповерхностью в Еп, если векторы grad/i(ar), ..., grad/fe(a;) (8.3) линейно независимы во всех точках х из М. Если, в частности, уравнения (8.2) линейны, т. е. имеют вид .'.¦.'... .....!'. (8.4) -... +a,knxn = bk, и при этом векторы а\ = {оц,..., ain}, ..., а& = {a&i,..., а&п} являют- являются ненулевыми и линейно независимыми, то определяемое системой (8.4) мно- множество М1 называется (п — к)-мерной гиперплоскостью. Одномерные гипер- гиперплоскости называются прямыми линиями. Пусть М — (п — /с)-мерная гладкая гиперповерхность, определяемая урав- уравнением (8.1), а Li — касательная гиперплоскость к этой поверхности fi(x) = О, проходящая через точку х° Е М. Пересечение гиперплоскостей Li,...,Lfc на- называется касательным многообразием к М в точке ж°; т. е. это многообра- многообразие представляет собой (п — к)-мерную гиперплоскость, определяемую уравне- уравнег=1 ^г Следовательно, вектор, исходящий из точки ж0, принадлежит касатель- касательному многообразию тогда и только тогда, когда он ортогонален всем векто- векторам (8.3). 8.2. Постановка задачи. Условия оптимальности. Будем рассматри- рассматривать управляемый процесс, описываемый уравнением x = f(x,u), (8.5) гдех = {жь...,*„} G ?п, / = {/i,...,/n}, w = {txi,...,M eU С Er,U - открытая или замкнутая область. Допустимыми управлениями считаются ку- кусочно непрерывные функции и = u(t), принимающие значения в С/, с точками разрыва первого рода. Заданы также непересекающиеся гладкие многообразия Mq и Mi в пространстве Еп размерностей uiq и mi соответственно. Критерием оптимальности служит функционал 1[и]= Г fo(x,u)dt, (8.6) Jt0 в котором момент времени t\ заранее не задан, а функция /о(х, и) удовле- удовлетворяет тем же требованиям гладкости, что и компоненты вектор-функции /, т. е. она непрерывно дифференцируема по совокупности всех своих аргументов. Рассматриваемая задача состоит в том, чтобы найти допустимое управле- управление и = u(t), которое переводит фазовую точку системы (8.4) из некоторого, заранее не заданного состояния х° Е Mq в некоторое, также заранее не за- заданное состояние х1 Е Mi, причем так, чтобы функционал (8.6) при этом
426 Гл. 7. Основы общей теории оптимальных процессов принимал наименьшее возможное значение. Ясно, что эта задача вырожда- вырождается в рассмотренную выше задачу с фиксированными начальной и конечной точками, если многообразия Mq и Mi вырождаются в точки. С другой стороны, принцип максимума в рассмотренных выше задачах дает необходимые условия оптимальности. Значит, если нужно решать задачу с подвижными границами, то можно рассуждать следующим образом. Пусть u{t) — оптимальное управление в задаче с подвижными границами, а х(t) — соответствующая ему оптимальнавя траектория. Обозначим через х° и х1 начальную и конечную точки этой траектории, т. е. полагаем, что х° = х(to), а х1 = x(t\). Очевидно, что х° Е Mo, x1 E Mi. Так как u(t) — оптимальное управление в задаче с подвижными грани- границам, то оно является оптимальным и в задаче с фиксированными начальным и конечным значениями x(to)=x°, x(ti)=x1. (8.7) Значит, управление u(t) и траектория x(t) должны удовлетворять принципу максимума как необходимому условию оптимальности. При решении задачи с фиксированными концами траектории эти условия дают полную систему со- соотношений для определения всех неизвестных величин. К такому выводу мы пришли в предыдущем параграфе при обсуждении принципа максимума. В задаче с подвижными границами для "полноты" условий принципа мак- максимума необходима дополнительная информация для определения точек х(to) и x(t\). Эти точки по предположению должны принадлежать гиперповерх- гиперповерхностям Mq и Mi размерностей то и mi соответственно. Значит, существу- существуют непрерывно дифференцируемые функции <^(х), г = 1,... ,п — то, <р](х), j = 1,..., п — 7П1, такие, что гиперповерхность Мо задана уравнениями <^(ж)=0, г = l,...,n-m0, (8.8) a Mi задана уравнениями <p](x) = 0, j = l,...,n-mi. (8.9) Поэтому координаты Xi(to) вектора x(to) должны быть связаны соотноше- соотношениями $(x(to)) = O, г = l,...,n-m0. (8.10) Аналогично, для координат Xi{t\) вектора x(ti) имеем зависимости cpjixih)) = 0, j = 1,..., п - mi. (8.11) Таким образом, в задаче с фиксированными концевыми точками оптималь- оптимальной траектории для системы (см. G.13) и G.14)) ->, ,=0,1 „, (8.12) мы имеем 2п дополнительных условий (8.7). В задаче с подвижными границами вместо них имеем 2п — то — тп\ условий (8.10) и (8.11). Поэтому чтобы условия принципа максимума в этой задаче давали "пол- "полную" систему соотношений для определения оптимального управления и оп- оптимальной траектории, нужно иметь дополнительно mo + mi алгебраических уравнений относительно концевых точек x(to) и x{t\) траектории x(t).
8. Задачи с подвижными границами 427 В теории принципа максимума доказывается, что эти уравнения дают- даются так называемыми условиями трансверсальности, которые должны выпол- выполняться в задаче с подвижными границами. Они формулируются следующим образом. Будем говорить, что в правом конце траектории x(t),to ^ t ^ ?i, т. е. в точке x(t\), выполняется условие трансверсальности, если вектор-функция ijj(t) = {ф,..., фп{1)}, определяемая системой (8.12) при и = u{t) и x(t), тако- такова, что вектор ф^\) = {^i^i), • • •, VVi^i)} ортогонален к касательной к М\ гиперплоскости Ть проведенной через точку x(ti) e Мь Так как множество М\ определяется системой уравнений (8.12), то условие трансверсальности можно сформулировать следующим образом. Существует система чисел Ai,..., An_mi такая, что г=1 или, в скалярной форме, "Z2J1 d(p}(x(ti)) M*i)= J2 Xi я ' * = 0, 1, ...,n. (8.13) j=1 ахг Аналогично определяется условие трансверсальности в точке x(to) G Mq. Су- Существует система чисел /ii,..., /xn_mo такая, что ™ ^Q(x(to)) . г = 0, 1, ..., п. (8.14) j=i г Следовательно, окончательную формулировку принципа максимума в за- задаче с подвижными границами можно привести в следующем виде. Пусть управляемый процесс описывается уравнением (8.5) с критерием оп- оптимальности (8.6), где момент времени to фиксирован, а момент времени t\ (ti > to) свободен. Начальная точка оптимальной траектории x(t) должна при- принадлежать гладкой гиперповерхности Mq, заданной системой уравнений (8.8), а конечная точка x(t\) этой траектории должна принадлежать гиперповерхно- гиперповерхности Mi, определяемой системой уравнений (8.9). Пусть, далее, (см. G.12)) г=0 Теорема (принцип максимума). Eaauu(t),to < t < ?ь — оптимальное управление в задаче с подвижными границами, a x(t) — соответствующая ему оптимальная траектория, то существуют ненулевая вектор-функция ф(^) = {фо(г),..., фпЬ} и система чисел Ai,..., An_mi и /ii,..., /xn_mo такие, что совокупность функций u{t), x{t) и ф(г) удовлетворяет условиям принци- принципа максимума в задаче с фиксированными концами траектории, а в правом и левом концах траектории x(t) выполняются условия трансверсальности, т. е. справедливы равенства (8.13) и (8.14) Пример 8.1. Пусть управляемый процесс описывается уравнениями ±1 = Ж2, ±2= U с критерием оптимальности Г1 J[u] = / u2(t) Jo dt,
428 Гл. 7. Основы общей теории оптимальных процессов причем областью значений допустимых управлений является одномерное про- пространство Е1. Начальное состояние системы дается соотношениями #i@) = = 0, #2@) = —3. Конечная точка |xi(l),X2(l)} должна принадлежать окруж- окружности х\ -\- х\ = 1. Для решения задачи вводим вспомогательную переменную хо, положив х'о = и2, жо(О) = 0. Затем составляем функцию 7Y(/0, ж, и) = фои2 -\-ф\Х2 -\-ф2и и выписываем урав- уравнения относительно ф^ (см (8.12)) фо = 0, ф\ = 0,^2 = —ф\- Отсюда находим, ЧТО фо = Со, -01 = Ci, ^2 = —Clt + С2. Согласно предыдущей теореме должно выполняться неравенство со < 0. Не нарушая общности дальнейших рассуждений, можно считать, что со = —0, 5. Поэтому оптимальное управление, определяемое из условия максимума функ- функции Н по переменной и, можно представить в виде u(t) = с^ — c\t. Подставляя это управление в исходные уравнения, получим Xl(t) = -| t3 + |i2 - 3, x2(t) = -S±t2+c2t3. Постоянные с\ и С2 находим из условия трансверсальности в момент времен t\ = 1, которое в рассматриваемом случае имеет вид (см. (8.14)) при ж?A) Таким образом, для определения неизвестных ci, с2 и Л получаем систему уравнений =0, Получаем систему трех алгебраических уравнений относительно трех неизвест- неизвестных. Параметр Л легко исключается из первых двух уравнений этой системы. В итоге получаем систему двух квадратных уравнений относительно с\ и С2 Тем самым получаем полную систему соотношений для определения оптималь- оптимального управления и оптимальной траектории. 9. Особые управления и скользящие режимы Как уже отмечалось выше, основным содержанием принципа максимума в задачах об оптимальном управлении является условие максимума по перемен- переменной и функции TL (ее часто называют функцией Гамильтона—Якоби). Именно это условие определяет структуру оптимального управления. Например, в ли- линейных задачах об оптимальном быстродействии это управление оказывается кусочно постоянным. Однако при анализе многих нелинейных задач было об- обнаружено, что функция Н может оказаться не зависящей от переменной и,
9. Особые управления и скользящие режимы 429 и тогда с помощью принципа максимума не удается построить оптимальное управление. В других случаях в классе допустимых управлений можно указать лишь минимизирующую последовательность управлений {un(t)}. Это означа- означает, что на каждом последующем управлении ип из этого семейства значение минимизирующего функционала меньше, чем на предыдущем ип~1. Однако предельный элемент этой последовательности (если он существует) не явля- является допустимым управлением, и он не может быть определен из принципа максимума. Основная задача, которая рассматривается в настоящем параграфе, состо- состоит в том, чтобы описать эти особые случаи в теории управления и указать практические способы построения оптимального управления, когда принцип максимума не может быть использован для этой цели. 9.1. Постановка задачи. Основные определения. Будем рассматри- рассматривать управляемый процесс, описываемый уравнением x = f(t,x,u) to<t<T, (9.1) в которой компоненты вектор-функции / = {/i,...,/n} непрерывны по t и непреравно дифференцируемы необходимое число раз по совокупности пере- переменных х = {^1,..., хп} и и = {и\,..., иг}. Моменты времени to и Т считаются заданными, а допустимыми управлениями считаются ограниченные кусочно непрерывные вектор-функции и = u(t), to < t < Т, со значениями в открытой или замкнутой области U С Ег и с точками разрыва только первого рода. Каждому допустимому управлению и = u(t) соответствует единственное решение х = x(t) уравнения (9.1), удовлетворяющее заданному начальному условию x(to)=x°. (9.2) Критерием оптимальности возьмем функционал J[u] = ip(x(T)), (9.3) где ip(x) — заданная, необходимое число раз дифференцируемая функция. Как отмечалось выше, необходимые условия оптимальности в форме прин- принципа максимума в этой задаче состоят в следующем. Теорема (принцип максимума). Пусть u(t) — оптимальное управле- управление, x{t) — соответствующее ему оптимальное решение задачи (9.1), (9.2), a ^(t) = {'0i(t),..., tpn(t)} — решение системы уравнений i,i = _mt>№)Mt))i < = 1J)...)П, с дополнительными условиями фъ(Т) = — , г = 1, 2, ..., п, где п \ 1 т^ *) *) / / гб I Ъ\ *) *) / * г=1 Тогда H(t,ijj(t),x(t),u), рассматриваемая как функция переменной щ до- достигает на u(t) своего максимального значения почти при всех t из отрезка
430 Гл. 7. Основы общей теории оптимальных процессов [*о,Т], т. е. Я(?, il>{t),x{t), u{t)){=) тахЯ(?, i/;(t),x(t), и). (9.4) uEU Доказательство этого утверждения было приведено выше. Однако теперь воспользуемся иным вариантом метода приращений. Это позволит нам в даль- дальнейшем с помощью вводимых здесь конструкций исследовать особые управ- управления. По предположению функция H(t,i/j,x,u) дифференцируема по перемен- переменной и. Поэтому если множество U замкнуто и выпукло, то условие максимума можно записать в виде вариационного неравенства18) (Mt) \ ди где символ (^) означает неравенство, которое выполняется почти всюду на отрезке [to,T]. Последнее неравенство можно представить в виде у иеи \ ди у иеи \ ди где введены обозначения: (а, Ъ) — скалярное произведение векторов в Еп аягая зн\ ди \ ди\'' " ' диг J ' В дальнейшем каждое допустимое управление, удовлетворяющее принципу максимума, будем называть экстремалью Понтрягина. Определение 9.1. Экстремаль Понтрягина u(t) называется особой экс- экстремалью Понтрягина, если при каждом t из отрезка [?о,Т] существует под- подмножество ои С U такое, что выполняется условие H(t, ф{1), x(t), u(t))(=)Ht, ${t),x(t), и), (9.5) тождественно по всем элементам и из u(t). Следует, однако, отметить, что в реальных задачах экстремаль Понтрягина обычно не вся является особой. Отрезок времени [to, T] может состоять из двух или более таких частей, что на одной его части экстремаль является особой, а на другой — неособой. Однако в дальнейшем эти случаи мы рассматривать не будем, ограничившись анализом экстремалей, особых на всем отрезке вре- времени [?о,Т]. Такая экстремаль, очевидно, определяется условием (9.5), которое должно выполняться почти при всех t из отрезка [to, Т]. 9.2. Условия оптимальности. Для получения условий оптимальности в случае особых управлений введем вспомогательную функцию Ф(?), опреде- определяемую следующим образом. Пусть u°(t) — оптимальное управление, а Х(ж, г, i) — соответствующее ему решение уравнения (9.1), удовлетворяющее условию Х(х,т,т) =х, t0 <т <Т. Тогда по определению Ф(х,?) = (р(Х(х,t,T)). Отсюда, в частности, следует, что функция Ф(х,г) постоянна вдоль любой траектории уравнения (9.1), соот- соответствующей оптимальному управлению. Поэтому ) О вариационных неравенствах см., например: Бапокки К., Капело А. Вариационные и квазивариационные неравенства. — М.: Наука, 1988.
9. Особые управления и скользящие режимы 431 dt где - = grad Ф. Обозначим, далее, через -—- матрицу ах1 д2Ф Обозначим через x°(t) оптимальную траекторию системы (9.1), удовлетво- удовлетворяющую начальному условию (9.2) и соответствующую оптимальному управ- управлению u°(t). Тогда, дифференцируя тождество (9.6) по переменной х и полагая в полученном результате х = х°(?), будем иметь f(t xt) ut)) + dx2 A^ W>w V))+ dtdx + + fdf(t,x°(t),u°(t))ydcl>(xo(t),t) ^ + y \ dx J dx или, что тоже самое, d dx df(t,x°(t), u°(t))\ * dx \ \ dx J dx Из определения функции Ф(х,?) следует, что дх dx Поэтому, вводя обозначение (9.7) находим, что функция ф(Ь) удовлетворяет уравнению -М (9.9) дх и дополнительному условию (910) Вместе с u°(t) рассмотрим допустимое управление fix°(t) при ^[0,0 + ?], К) \v при te [0,0 + е], где v = {^i,..., vr} — произвольный вектор из области U значений допустимых управлений, 0 — произвольная точка из интервала [?о,Т], а е — произвольно малое число, удовлетворяющее условию 0 + г ^ Т. Поэтому управление й(?) допустимо, и оно определяет единственное решение x(t) задачи Коши (9.1), (9.2) при и = u(t). Очевидно,что x(t) = x°(t) при t ^ 0. Приращение минимизируемого функционала (9.3) можно вычислить сле- следующим образом:
432 Гл. 7. Основы общей теории оптимальных процессов J[u(t)[-J[u°(t)] == Ф(х(в + е), в + е) - Ф(х°(в + е, в + е) = = Ф^ 1"^? +^Аж(<9 + ?)+о(||Аж(<9 + ?)||), (9.11) где Ах = х — х°, а г=1 Так как х@) = хоF), то легко находим, что Ах(в + е)= х(в + е)- хо@ + е) = х@)е - хо@)е + 0l(e). Поэтому, полагая Avf(t,x°(t),u°(t)) = f(t,x°(t),v) - f(t,x°(t),u°(t)), (9.12) можем записать Ах(в + е) = Av/@, ж°(<9), ix°(<9))? + oi?r, (9.13) где oi/ е —> 0 при е ^ 0. Так как u°(t) — оптимальное управление, то J[u(t)] -J[u°(t)] >0, (9.14) и, следовательно, из формул (9.11) и (9.13) получаем Величина е в этом неравенстве может быть произвольно малой, в является произвольным моментом времени из отрезка [?о,Т], a v — любой вектор из множества U. Поэтому для оптимальности управления u°(t) необходимо вы- выполнение условия Если теперь воспользоваться обозначением (9.8), то соотношение (9.14) вместе с (9.9) и (9.10) определяют сформулированные выше условия принци- принципа максимума, так как неравенство (9.14) теперь можно записать в виде (9.4). Особенность приведенного доказательства состоит в том, что здесь использует- используется функция Ф(х, t). Она оказывается также полезной при исследовании особых экстремалей Понтрягина. 9.3. Необходимые условия оптимальности особых управлений. Тождество (9.6) продифференцируем дважды по переменной жив полученном результате положим х = x°(t), где x°(t) = (x5(t),... ,х°(?)} — решение задачи Коши (9.1), (9.2), соответствующее оптимальному управлению и = u°(t). Тогда будем иметь дхз }[t,x[t),u[t))+ df(t,x°(t),u°(t)) d4(x°(t),t) | d4(x°(t),t) d2f(t,x°(t),u°(t)) дх дх2 дх2 дх2 | d2f(t,x°(t),u°(t)) d0(x°(t),t) =о дх2 дх Полученное тождество запишем в виде
9. Особые управления и скользящие режимы 433 d Г В2Ф(т°(^ Л1 В fit rQ(t) uQ(t)) В2Ф(т°(^ f) а^2 (9.15) dt[ 5ж2 J дх дх2 d4(x°(t),t) df(t,x°(t),u°(t)) d2f(x°(t),u°(t)) d0(x°(t),t) дх2 дх дх2 дх Непосредственно из определения функции Ф(х,?) следует, что d4(x°(t),t) _ д2ф°(Т)) (9.16) дх2 дх2 Вместе с оптимальным процессом (х°(t), и0(t)) рассмотрим процесс (x(t),u(t)), введенный в предыдущем пункте путем варьирования u°(t) на ма- малом отрезке времени [6,6+ е]. Тогда (см. (9.15) и (9.17) J[u] - J[u°] = Ф{х{6 + е), 0 + е) - Ф(х°F + е), 0 + е) = ^ + ?)||2)>0. (9.17) Далее, находим,что Ах(в + е)= х(в + ?)- х°(в + е) = Д/@, х°F), и°(в))е+ l o°e?2 +ог(г2), ёФ(х°(в),в) d fd${x°{t).t))\ dx dx dt\ dx j t= <РФ(х°(в).в) dx3 dx2 Поэтому неравенство (9.17) можно записать в виде - f(t, x°(t), u°(t))}t=ee2 + l- Avf(9, x°F), и°(в))е2 + о4(е2) ^ 0. (9.18) Если управление u°(t) особое, то выполнено равенство (см. определение 9.1 и формулу (9.8)) для всех v E ои и t E [^о,Т]. Справедливо также тождество (9.8) и выполняется условие (9.7). Поэтому из (9.18) следует, что 1 2
434 Гл. 7. Основы общей теории оптимальных процессов 1 d 2 Jt дх t=o 2\ дх ) дх \ Avf*fr ж°@), Л#)) Э2ф^0(б)>б) Avf(O, х°(в), и°(О))е2 + о(е2) > 0. \ Отсюда получаем необходимое условия оптимальности в следующей форме. Чтобы особое управление u°(t) было оптимальным, необходимо выполне- выполнение условия Д„/(М((),»(«)) + Avf*(t,x°(t),u°(t)) qx2 ' Kf(t,x°(t),u°(t))(^H. (9.19) Чтобы сформулировать полученный результат в виде теоремы, подобной принципу максимума, введем матричную функцию •С) - -а^"-". (9.20) Тогда с учетом формулы (9.8) и тождества (9.15) находим, что Ф(?) удовлетво- удовлетворяет уравнению dr(t,x°(t),u°(t)) ip ilra/(t,xQ(t),ix°(t)) . (9.21) Кроме того, в силу равенства (9.16) эта функция должна удовлетворять условию Щ(Т) = -d^fPl. (9.22) dxz Таким образом, полученный результат можно сформулировать следующим образом. Теорема 9.1. Для того чтобы u°(t) было особым оптимальным управле- управлением в системе (9.1), a x°(t) было соответствующим ему решением этой си- системы, удовлетворяющим начальному условию (9.2), необходимо существо- существование подмножества uj(t) С U такого, что: 1) выполнено условие максимума H(t, i/;(t),xo(t), u°(t))(=) тахЯ(?, <ф(г), x°(t), и) иеи при всех и из u>(t), где ф(Ь) — решение задачи (9.9), (9.10);
9. Особые управления и скользящие режимы 435 2) выполнено условие Avf*(t, x°(t), u°(t))V(t)Avf(t, x°(t), u°(t)) + dA/(* A^""^ °° (9.23) r v J dx при всех и e w(t), где Ф(?) — решение уравнения (9.21) с условием (9.22), а Avf определяется по формуле (9.12). В формулировке этой теоремы фигурирует неравенство (9.23). Оно полу- получается из (9.19) с использованием обозначений (9.14) и (9.20), а Avf(t, ж, и) = /(?, ж, г;) - /(?, ж, и), где v — произвольный вектор из U. Пример 9.1. Рассмотрим процесс, описываемый уравнениями и2 . 2 — и2 . и2 2 п ' 2 ' 2 ' 2 ' (9.24) с начальными условиями *i@) = ж2@) = ж3@) = ж4@) = 0. (9.25) Допустимые управления должны удовлетворять условиям а критерием оптимальности является функционал J[u] = #4A), т- 6. в рассмат- рассматриваемом случае в критерии оптимальности (9.3) (р(х) = х±. Сначала выписываем условия принципа максимума. Функция Н имеет вид Н(ф,х,и) = ф\и\ - 1 +ф2 +^37,Ь^4 Z Z \ Z где вектор ф = {^i, Ф21 Фз, Фа} должен удовлетворять уравнениям (см. теоре- теорему 9.1) фх = -2ж1^4, Ф2 = —2х3ф4, фз = у х2ф4, ^4 = 0 (9.26) и дополнительным условиям ^i(l) = ^2A) = ^зA) = 0, ^4A) = -1. (9.27) Из условия максимума функции Н находим, что управление Щ (t) = Sign |/>l(?), u2(t)=<o / , / , / /п 12 при -^2 + ^з + ^2X3^4 < 0 удовлетворяет условиям теоремы 9.1 и должно рассматриваться кандидатом в оптимальное. Отсюда, в частности, следует, что одним из таких кандидатов может быть управление u°(t) = {«?(*),«§(*)} = {0,0}. (9.28) Этому управлению соответствует решение ж?(*) = x°2(t) = x°4(t) = 0, x°3(t) = t (9.29) задачи (9.24), (9.25) и решение ФФ) = М*) = М*) = 0- Mt) = -1 (9-30)
436 Гл. 7. Основы общей теории оптимальных процессов задачи (9.26), (9.27). Функция H(i/j(t),x°(t), и) оказывается не зависящей от переменной и, и поэтому управление (9.28) является особым. Проверим, является ли это управление оптимальным. С этой целью сна- сначала составим уравнение (9.21). Так как в рассматриваемом случае в системе (9.1) нужно положить и2 2 - и2 и2 а г-й строкой матрицы —— является (grad/^)*, то все элементы матрицы CJX df(t,x°(t),u°(t)) dx равны нулю. Здесь x°(t) = {x\(t),x^(t),x^(t).x\(t)}. Поэтому уравнение (9.21) можно записать в виде /Фц ^12 ^13 ^14^ Ф21 ^22 ^23 ^24 Фо1 Фоо Фоо Фо/1 -1- 0I С)^ С)С) 0L 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Дополнительное условие (9.22) в этом случае принимает вид Ф^A) = 0. г,к = 1, 2, 3, 4. Учитывая, что ^(О = —1 (см. (9.27)), отсюда получаем Фц(^) = 2 — 2t. Осталь- Остальные компоненты Ф^@ матрицы Ф(?) тождественно равны нулю. По формуле (9.12) находим /S.vf(t,x,u^(t)) = {^1,^2/2, —v2/2, —ж2жз^2/2}. Так как векто- векторы x°(t) и i/j°(t), определяются компонентами (9.29) и (9.30), то левую часть неравенства (9.23) можно представить в виде Так как переменная t принимает значения только в отрезке [0,1], то неравен- неравенство (9.23) принимает вид v2 2A - f 1 и выполняется при любых v\ и v2. Это означает, что управление (9.28) удовле- удовлетворяет всем условиям теоремы 9.2. Так как эта теорема дает лишь необходимые условия оптимальности, то так же, как и в случае принципа максимума, мы должны говорить о том, что полученное особое управление является всего лишь кандидатом на роль оптимального управления, хотя оно и прошло достаточно суровую проверку. Его мы отбирали, используя принцип максимума в форме теоремы 9.1, а также теорему 9.2. 9.4. Скользящие режимы в задачах управления. Рассматривая раз- различные задачи об оптимальном управлении, мы обычно предполагаем, что до- допустимыми управлениями являются вектор-функции u(t) = {ui(t),..., ur(t)} с кусочно непрерывными компонентами. Предполагается также, что их точки
9. Особые управления и скользящие режимы 437 разрыва первого рода, число этих точек конечно, а множество значений допу- допустимых управлений представляет собой открытую или замкнутую область U в пространстве Ег. В тех иллюстративных примерах, которые приводились по ходу изложе- изложения теоретического материала, этих предположений было достаточно, чтобы с помощью принципа максимума или иным способом выделить управления, претендующие на оптимальность. Однако следует вспомнить, что мы не дока- доказывали теорем существования оптимального управления в этих классах допу- допустимых управлений, и рассмотренные примеры не могут служить гарантией того, что такие управления существуют всегда. Накопленный опыт в решении задач об оптимальном управлении дина- динамическими системами показывает, что довольно часто встречается ситуация, когда в множестве допустимых управлений можно выделить минимизирую- минимизирующую последовательность {un(t)}. Однако предельный элемент этой последова- последовательности (когда он существует) не является допустимым управлением. Пример 9.2. Пусть процесс описывается уравнением х = и, 0 < t < 3, в котором допустимыми управлениями являются кусочно непрерывные функ- функции и = u(t) с конечным числом точек разрыва, удовлетворяющие условию и\ < 1. Требуется минимизировать функционал 3 х2 - и2] dt J[u) = f Jo с граничными условиями х@) = хC) = 1. Сначала анализируем задачу, применяя принцип максимума. Составляем функцию ТС(Ь,ф,х,и) = фо[х2 — и2] + ф\и и выписываем систему уравнений Фо = 0, ф1 = -2фох. Стационарная точка щ функции TL внутри отрезка [—1,+1] удовлетворяет уравнению — = -2фои + фх = 0. _ аи Однако она не является точкой максимума, так как и0 и согласно принципу максимума должно выполняться условие фо = const < 0. Поэтому оптимальное управление может принимать только граничные значе- значения и = —1 и и = +1. Теперь анализируем задачу качественно. Значение минимизируемого функ- функционала J тем меньше, чем меньше x2(t) и чем больше u2(t). Поэтому пола- полагаем u(t) = —1 при 0 ^ t ^ 1. Тогда из уравнения движения получаем, что x(t) = 1 — t, а х{1) = 0. Аналогично, для отрезка времени 2 ^ t ^ 3 выбираем u(t) = +1. Тогда с учетом условия хC) = 1 из уравнения движения получаем x(t) = t — 2 и, следовательно, хB) = 0. Чтобы функционал J[u] достигал свое- своего наименьшего возможного значения, нужно управлением u(t) распорядиться так, чтобы и2 (t) было равно единице, a x2(t) было тождественным нулем на оставшемся отрезке времени 1 < t < 2. Кусочно непрерывным управлением с конечным числом точек разрыва этого достичь невозможно.
438 Гл. 7. Основы общей теории оптимальных процессов Однако можно построить управление u°(t), удовлетворяющее условию и\ = 1, которому соответствует решение x°(t) = 0. Сделать это можно сле- следующим образом. Отрезок [0,1] разобьем на 2п равных частей [1,1 + 1/Bп)], [1 + 1/Bп), 1 + 2/Bп)], ..., [1 + Bп - 1)/Bп), 2] и положим +1 при t G — 1 при t G -,1 2n 1 2/c 2n /c =0, 1, ..., n — 1. Ясно, что [^(t)]2 = 1. Соответствующее этому управлению решение xn(t) исходного уравнения с начальным условием хA) = 0 является непрерывной кусочно-линейной функцией, обращающейся в нуль в точках 1,1 + 2/2п, 1 1,5 2 Рис. 7.9.1 1 + 4/Bп), ..., 1 + Bп — 2)/Bп),2. Ее график представлен на рис. 7.9.1. В пределе при п —> сю [u°(t)]2 = 1, а соответствующее ему решение x°(t), оче- очевидно, таково, что x°(t) = 0. Однако и управление u°(t), и решение x°(t) не могут быть истолкованы в терминах, которыми выше определялись допусти- допустимые управления и соответствующие им решения уравнений движения. Особенность этого управления состоит в том, что точки его разрыва на числовой оси не являются изолированными, а траектория х = x°(t) остается на прямой х = 0. Движение x°(t) под действием управления u°(t) называется скользящим режимом. Для строгого математического определения скользящего режима рассмот- рассмотрим управляемый процесс, описываемый уравнением (9.1) при прежних пред- предположениях о функциях f(t,x,u). Будем также предполагать, что область U значений допустимых управлений является открытой или замкнутой в Ег. Пусть, далее, в фазовом пространстве Еп векторов х = {xi,..., хп} заданы (п — г)-мерные гиперповерхности Si (ж) =0, ..., Sr(x) =0, (9.31) а управление u(t, x) с компонентами щ&х) = 1и+(?>Х\ ПРИ ^!>0' (9.32) гУ ' ; \u~(t,x) при Si(x) <0 V J является допустимым. В этом случае может оказаться, что траектория системы
9. Особые управления и скользящие режимы 439 x = f(t,x,u(t,x)) (9.33) в течение конечного промежутка времени может оставаться на одной из поверх- поверхностей разрыва (9.31) или на некоторых их пересечениях. Например, траекто- траектория системы принадлежит некоторой поверхности Sk(x) = 0, если в ее окрест- окрестности векторы скорости f(t,x(t),u(t,x)) направлены навстречу друг другу, как это показано на рис. 7.9.2. В этом случае фазовая точка траектории системы (9.33) при своем движении находится в особом режи- режиме. Она движется в это время по поверхности разры- разрыва управления. Такое движение фазовой точки системы называется скользящим режимом. При этом определе- определение скользящего режима как решения уравнения (9.33) требует дополнительного анализа, так как на поверхно- поверхности разрыва Sk(x) = 0 управление u(t,x) не определе- определено. Следовательно, не определено и значение функции ис' f(t,x,u(t,x)). Однако если исходить из физических представлений, основанных на анали- анализе реальных объектов, работающих в скользящем режиме, то описание такого режима можно дать в терминах обычных представлений о решении диффе- дифференциального уравнения с кусочно непрерывной правой частью. Дело в том, что, принимая уравнение (9.33) за математическую модель объекта, работаю- работающего в скользящем режиме, мы не учитываем многие реальные факторы, оп- определяющие реальное движение (неидеальности переключающего устройства и т. п.). Неидеальности управляющего устройства связаны с запаздыванием и инер- инерционностью его элементов. В итоге фазовая точка движется не по поверхности S(x) = 0, а по некоторой траектории, пересекая поверхность через малые про- промежутки времени. Поэтому скользящий режим является идеализацией этой реальной траектории, находящейся в тонком слое в Еп, окружающем поверх- поверхность скольжения. Эта идея предельного перехода используется в одном из методов математи- математического определения скользящего режима (метод регуляризации). Используем ее для определения такого режима в случае управляемого процесса (9.1) при управлении (9.32), когда ссответствующая траектория принадлежит пересече- пересечению всех поверхностей разрыва (9.32) S(x) = 0, S(x) = {S1(x),...,Sk(x)}. (9.34) Заменим идеальную модель (9.1), (9.32) другой, более точной моделью x = f(t,x,u), (9.35) для которой в новом управлении и учтены всевозможные неидеальности (за- (запаздывание, гистерезис, инерционность переключающего устройства и т. д.). Введение такого типа неидеальности приводит к тому, что решение уравне- уравнения (9.35) с начальным условием x(to) = x° существует и единственно в том смысле, как оно определялось выше при кусочно непрерывных управлениях. Однако "расплата" за такую регуляризацию состоит в том, что движение си- системы происходит не точно по многообразию S(x) = 0. Уравнение движения, получающееся в результате последующего предель- предельного перехода, рассматривается в качестве уравнения идеального скользящего
440 Гл. 7. Основы общей теории оптимальных процессов режима по гиперповерхности S(x) = 0. Такой способ определения скользяще- скользящего режима не является единственным. Здесь укажем еще на один из них. Он называется методы эквивалентного управления и состоит в следующем. Пусть управляемый процесс описывается квазилинейным уравнением, ли- линейным относительно управления х = f(t,x)+B(t,x)u, (9.36) где х = {xi,...,xn}, и = {ui,...,ur}, а допустимые управления являются кусочно непрерывными функциями со значениями в Ег. Предположим также, что скользящий режим существует на многообразии (9.34). Попытаемся найти гладкую траекторию x(t) системы (9.36), принадлежа- принадлежащую многообразию (9.34), и соответсвующее управление. Для этого составим полную производную по времени от функции S(x) в силу уравнения (9.36) и приравняем ее нулю: S(x) = f^\ [/(?, x) + B(t, x)u] = 0. Если предположить, что матрица ( —— I B(t,x) квадратная и неособенная на \ох ) поверхности (9.34), то отсюда можно получить u(t,x) = R{t,x), где Подставляя это управление в уравнение (9.36), будем иметь x = f(t,x,R(t,x)). Тем самым получено эквивалентное управление и соответствующее ему урав- уравнение движения, которое мы можем рассматривать в качестве некой аппрок- аппроксимации для характеристики скользящего режима. Однако следует помнить что все подобные аппроксимации ни в коей мере не дают оснований рассматривать их как приближения оптимального управления, когда скользящий режим оказывается оптимальным. В этом легко убедить- убедиться, если изложенные методы применить к анализу оптимального управления в примере 9.2. Вопрос об аппроксимации оптимального скользящего режима требует дополнительного анализа. 9.5. Оптимальность скользящих режимов. Будем рассматривать ли- линейную стационарную систему, поведение которой описывается уравнением х = Ах + Ви, (9.37) где А и В — постоянные матрицы размерностей п х п и п х г соответственно, удовлетворяющие условиям управляемости, т. е. будем считать, что гапк{Б, АВ,..., А171'1 В} = п, где т — степень минимального многочлена матрицы А. Требуется решить задачу синтезе оптимального управления с критери- критерием оптимальности ^ J[u) = [ x*Qxdt, (9.38) Jo где Q — неотрицательная симметричная матрица. Допустимые управления могут принимать всевозможные значения из Ег.
9. Особые управления и скользящие режимы 441 Особенность этой задачи состоит в том, что в классе кусочно непрерывных управлений оптимального управления нет. Можно лишь построить минимизи- минимизирующие последовательности. Минимальное значение функционала достигается только на скользящем режиме. Поэтому и постановка задачи оптимизации в этом случае отлична от традиционной. Требуется определить такие гиперповерхности скольжения систе- системы (9.37) (гиперповерхностиразрыва), для которых функционал (9.38) дости- достигает своего наименьшего значения. За начальный момент времени в функциона- функционале берется момент начала скольжения. Один из способов решения задачи состоит в том, что сначала решается вспомогательная задача синтеза оптимального управления (задача об опти- оптимальной стабилизации) с критерием оптимальности /»ОО / [x*Qx + f3u*Ru]dt, Jo где R — положительная симметричная матрица, а C — положительный пара- параметр. Как известно, методом динамического программирования задача сводится к решению алгебраического уравнения Риккати C(RA + A*R) - KBR~1B*K + CQ = О относительно квадратной матрицы К размерности пхп. Решив это уравнение, оптимальное управление находим в виде up = —(f3R)~1B*Kx. Затем, рассмат- рассматривая это управление при малых значения /3, C = /Зп,/Зп —> 0 при п —> сю, получаем последовательность управлений ирп, которая рассматривается как минимизирующая для функционала (9.38). Для решения исходной задачи минимизации этого функционалов в систе- системе (9.37) произведем замену переменных, положив z = Мх, (9.39) где матрица М выбирается такой, чтобы МВ = {в,В1}, (9.40) где 0 — матрица с нулевыми элементами, а В\ — квадратная матрица размер- размерности г х г. Матрицу М можно строить следующим образом. Рассматривая пространство Ег значений управляющего параметра (его для краткости будем здесь называть пространством управлений) как подпро- подпространство фазового пространства Еп, выберем первые п — г строк матрицы М из базиса (п — г)-мерного подпространства, ортогонального подпространству управлений. Остальные г строк выберем так, чтобы rankM = n и матрица _Е>2 оказалась невырожденной. Это можно сделать, если талкВ = г. Тогда в качестве этих строк можно брать строки матрицы В*. В результате получим Вх = В*В и rankEi = г. Заменой (9.39) уравнение (9.37) приводится к виду или, что то же самое, ±1 = АцХ! +А12Х2, ±2 = A2\Xi + А22Х2 + В\и, где х\ и Х2 — векторы размерностей п — г и г соответственно, а
442 Гл. 7. Основы общей теории оптимальных процессов г-1 _ (An A12 MAM~V = В новых переменных критерий оптимальности (9.38) принимает вид J[u] = / [x\QiiXi+2x\Qi2X2+X2Q22X2]dt, (9.41) Jo где Выбирая теперь ж 2 в качестве управляющего параметра, можно воспользо- воспользоваться методом динамического программирования в минимизации функ- функционала (9.41) для процесса, описываемого уравнением (9.40). Поэтому сна- сначала выписываем уравнение Беллмана: X2Q22X2 + -7;— (АцХг + Ai2x2) > = 0. (9.42) \OX1J ) Отсюда получаем условие стационарности Q*12X1 + ^22^2 + А\2 ( —- ) = 0. Предполагая, что матрица Q22 положительна, находим, что \ \ Q22 [2Q12X1 + А*12 ^-] . (9.43) Подставляя найденное значение ж2 в уравнение (9.42), функцию S ищем в виде квадратичной формы S = х\Кх\. Тогда для определения матрицы К получим уравнение типа Риккати. Решив его, можем получить дх\ Поэтому из формулы (9.43) можно найти ж2 = — Q2~21[Qi2 + A12K]xi. В фазо- фазовом пространстве системы (9.37) это уравнение определяет гиперповерхность скольжения оптимальной траектории. 10. Принцип максимума для систем с распределенными параметрами Как отмечено в начале настоящей главы, открытие принципа максимума сыграло важную роль в теории оптимальных процессов. Тот факт, что он был доказан только для случая, когда процесс описывается обыкновенными диф- дифференциальными уравнениями, существенно ограничивал область его прак- практического применения. Поэтому были предприняты многочисленные попытки применения принципа максимума и в тех случаях, когда процесс нельзя опи- описать обыкновенными дифференциальными уравнениями. В частности, было много публикаций в научных изданиях с попытками распространить принцип максимума на задачи управления системами с распределенными параметра- параметрами. Однако И.В. Гирсанов привел пример системы с распределенными пара- параметрами, в которой оптимальное управление не удовлетворяет принципу мак- максимума19). Вместе с тем в различных приложениях имеются многочисленные ) Этот пример подробно проанализирован во введении книги: Егоров А.И. Оптималь- Оптимальное управление тепловыми и диффузионными процессами. — М.: Наука, 1978.
10. Принцип максимума для систем с распределенными параметрами 443 задачи управления, описываемые уравнениями с частными производными, в которых требуется находить оптимальные процессы. Поэтому естественной оказалась задача поиска тех случаев в системах с распределенными параметрами, в которых справедлив принцип максимума. Такой поиск увенчался успехом. Работа А.И Егорова20) была, по-видимому, первой, где в достаточно общем виде были сформулированы задачи оптималь- оптимального управления, описываемые уравнениями с частными производными, для которых удалось доказать принцип максимума. Доказательства основывались на методе конечных приращений, который применен выше при анализе задач терминального управления. Здесь мы ограничимся решением лишь одной зада- задачи, когда процесс описывается гиперболическими уравнениями с данными на характеристиках (задача Гурса-Дарбу). С решением других задач подобного типа можно ознакомиться по работам, посвященным оптимальным процессам в системах с распределенными параметрами. Некоторые из них приведены в списке литературы. 10.1. Постановка задачи. Принцип максимума. Пусть управляемый процесс описывается уравнениями Z%xy — JiyX") Уi %11 • • • 1 ^"пч %1хч • • • 1 ^пхч %1у> • • • ? %пуч ^1 ч • • • i ^r)i (лсл л\ г = 1, 2, . ..,п, 0 < х < X, 0 < у < У, У •) в которых функции fi дважды непрерывно дифференцируемы по совокупности всех аргументов, а допустимые управления и = и(х, у) = {и\(х, у),..., иг(х, у)} являются кусочно непрерывными и принимают значения из открытой или замкнутой области U С Ег. Каждому допустимому управлению будем ста- ставить в соответствие вектор-функцию z(x,y) = {zi(x, г/),..., zn(x, г/)}, которая удовлетворяет уравнениям A0.1) почти всюду в области Q = {0 < х < X, 0 < у < У}, непрерывна в замкнутой области Q, а на ее границе удовлетворяет условиям *i@, у) = срг0(у), Zi(x, 0) = <рц(х), г = 1, 2, ..., п, A0.2) где <Pio(y) и (рц(х) — непрерывно дифференцируемые в Q функции и удовле- удовлетворяют условиям согласования (fio(O) = (fn@), г = 1, 2, ..., п. Можно по- показать, что при указанных условиях каждому допустимому управлению соот- соответствует единственная функция z(x, г/), рассматриваемая как решение задачи Гурса-Дарбу A0.1), A0.2). При этом приходится различать два случая. 1. Если линия Г разрыва функции и(х,у) параллельна одной из осей коор- координат х или у, то краевая задача A0.1), A0.2) распадается на две аналогичных задачи в областях, примыкающих друг к другу по этой линии Г. Решив после- последовательно эти задачи, мы определим решение исходной задачи, которое будет непрерывно в области Q = {0 < х < X, 0 < у < Y} и всюду, кроме этой линии разрыва управления, будет иметь непрерывные производные zx, zy и zxy. 2. Если линия разрыва Г управления и(х,у) не совпадает с характеристи- характеристикой системы A0.1) ни на каком отличном от нуля отрезке, то под решением задачи A0.1), A0.2) понимается функция z[x^y\ удовлетворяющая уравнени- уравнениям A0.1) вне линии Г, условиям A0.2), а на Г она непрерывна и подчинена ) Егоров А.И. Оптимальное управление системами с распределенными параметрами и некоторые задачи теории инвариантности // Изв. АН СССР. — 1966. — Т. 26, № 6. — С. 1205-1260.
444 Гл. 7. Основы общей теории оптимальных процессов dz dz -p ± какому-либо условию гладкости, например, —— = ——- на 1, где п — на- дп~ дп+ правление нормали, вычисленное по разные стороны линии Г. Поэтому в дальнейшем предполагается, что каждому допустимому управ- управлению соответствует единственное решение z(x,y) задачи A0.1), A0.2). Кри- Критерием оптимальности будем считать функционал AiZt(X,Y), A0.3) г=1 где Ai, г = 1, 2, ...,п,— заданные вещественные постоянные, а X и У счита- считаются также заданными. Отметим некоторые частные случаи, когда задача оптимального управле- управления может быть сведена к задаче минимизации функционала A0.3) на реше- решениях задачи Гурса -Дарбу вида A0.1), A0.2). 1. Требуется найти допустимое управление и(х,у) в задаче A0.1), A0.2), на котором функционал Q достигает своего наименьшего значения. Здесь z = z(x,y) — решение зада- задачи A0.1), A0.2), zx = {zlxj..., znx}, zy = {zlyj..., zny}. Если ввести новую функцию zo(xJy) соотношениями zoxy = fo(x, у, z, zx, Zy, u), zo(O, y) = z(x, 0) = 0, A0.4) то критерий оптимальности J можно записать в виде J = zo(X,Y), который определен на вектор-функциях {zo, zi,..., zn}, заданных системой соотноше- соотношений A0.1), A0.2) и A0.4). 2. Требуется минимизировать функционал J = (fr^z^X^Y),... ,zn(X,Y)), где Ф — четырежды непрерывно дифференцируемая функция. Берем конкретное допустимое управление и находим соответствующее ему решение z(x,y) задачи A0.1), A0.2). Затем вводим вспомогательную функцию zo(x,y) = <2>(zi(x, г/),..., zn(x, у)). Ее можно определить исходя из уравнения E0z0(Zi,...,Zn) тг^ОФ^х,. . . ,Zn) /-m к\ ^—^ zixzjy + > fi(x, у, z, zxj zy, и) A0.5) и дополнительных условий го(О, у) = <P(zi@, у), ¦ ¦ •, zn@, у)), zo(x, 0) = Ф(г1(х, 0),..., zn(x, 0)), A0.6) а функционал J при этом можно записать в виде J = zo(X,Y). Он определен на вектор-функциях {zo,zi,... ,zn}, заданных системой соотношений A0.1), A0.2), A0.5) и A0.6). 3. Критерием оптимальности процесса, описываемого краевой задачей A0.1), A0.2), возьмем функционал [Х J = / fo(zi(x, У),..., zn(x, Y)Jzlx(xJ У),..., znx(xJ У)) dx. Jo Выбрав конкретное управление и(х, г/), находим соответствующее ему решение z(x,y) = {zi(x, г/),..., zn(x, у)} задачи A0.1), A0.2) и вводим вспомогательную
10. Принцип максимума для систем с распределенными параметрами 445 функцию Г zo(x, у) = fo(zi(x, г/),..., zn(x, у), zlx(x, г/),..., znx(x, у)) dx. Jo Эту функцию можно определить, используя уравнение dfo(x,z(x,y),zx(x,y)) i=l Z% —-—-—' ' — fi(x, у, z(x, у), zx(x, у), zy(x, у), и(х, у)) A0.7) г=1 гх и дополнительные условия zOxy — /_^ /о Тогда функционал J можно записать в виде J = zo(X,Y). Он задан на функциях zo(x, г/), zi(x, г/),..., zn(x, г/), однозначно определяемых соотноше- соотношениями A0.1), A0.2) и A0.7), A0.8) при каждом допустимом управлении и(х,у). Аналогичный результат получается, когда критерием оптимальности берется функционал J = fo{y, Jo Таким образом, задача минимизации функционала A0.3) охватывает до- достаточно широкий круг задач оптимального управления процессами, которые можно описать уравнениями A0.1) с дополнительными условиями A0.2). Для того чтобы сформулировать необходимые условия оптимальности в этой за- задаче, введем сначала обозначение р = {zi,..., zn, z\x,..., znx, z\y,..., zny} и вспомогательную функцию n H(x,y,v,p,u) = ^2vifi(x,y, z, zz, zy,u). A0.9) Функции vi,..., vn определим с помощью уравнений d (dH(x,y,v,p,u)\ d (dH(x,y,v,p,u)\ dx\ dzix J dy\ dzi J ziy и дополнительных условий dH(x,Y,v(x,Y),p(x,Y),u(x,Y)) i * ) — ^ i iv A0.11) viy(X,y) = — , VZix Vi(X,Y) = -Ai, i = l, 2, ...,n, A0.12) где Ai — постоянные, входящие в функционал A0.3). Условия A0.11) представляют собой систему 2п линейных обыкновенных дифференциальных уравнений относительно 2п неизвестных vi(x,Y), ..., vn(x, У), vi(X, г/), ..., vn(X, г/), которая вместе с условиями A0.12) опре- определяет эти функции однозначно при заданных и(х, у) и z(x, у). В общем случае в правую часть уравнений A0.10) входят производные ZiXX и Ziyy. Однако из предположений относительно функций /^ в уравнениях A0.1) существование
446 Гл. 7. Основы общей теории оптимальных процессов таких производных не гарантируется. Поэтому в дальнейшем предполагается, что п п п /• = ^ aijk(x,y,z)zjxzky + ^2bij(x,y,z)zjx + s^cik[x,y,z)zky + di(x,y,z), j,k=l j=l k=l A0.13) где функции dijk, Ъц, Cik и di дважды непрерывно дифференцируемы по ж и у и дважды непрерывно дифференцируемы по совокупности остальных аргу- аргументов. При выполнении этих условий краевые задачи A0.9)—A0.12) однозначно разрешимы при каждом допустимом управлении и(х,у) и соответствующем ему решении z(x,y) задачи A0.1), A0.2). Будем говорить, что управление п(х, у) удовлетворяет условию максиму- максимума, если для любого допустимого управления и(х, у) справедливо неравенство г г / / [Н(х,у,р(х,у),п(х,у)) - Н(х,у,р(х,у),и(х,у))] dxdy > 0, j j A0.14) где z(x,y) и v(x,y) — решения задач A0.1), A0.2) и A0.9)—A0.12) при и = = п(х,у). Теорема (принцип максимума). Для того чтобы допустимое управ- управление и = п(х,у) было оптимальным в задаче A0.1)—A0.3), необходимо, а в случае линейности по z и и функций /^ г = 1, 2, ..., п, и достаточно, чтобы оно удовлетворяло условию максимума. Прежде чем переходить к доказательств теоремы, отметим, что, хотя она не дает достаточных условий оптимальности в случае нелинейных систем, ее можно использовать для построения оптимального управления. Так же как соответствующая теорема в случае конечномерных систем, она дает полную систему соотношений для решения задачи. В самом деле, предполагая, что z и v известны, мы из условия максимума функции Н (см. неравенство A0.14)) находим и в зависимости от ж, г/, z и v, т. е. получаем функцию (возможно, многозначную) и = и(х,у, z,zx, zy,v). Подставляя ее в уравнения A0.11), получаем систему уравнений относительно v(X,y) и г>(х, У), которую решаем с учетом дополнительных условий A0.12). В итоге для определения z(x,y) и v(x,y) получаем связанную систему уравне- уравнений A0.1) и A0.10) с дополнительными условиями A0.2) и найденными гра- граничными значениями v(X,y) и v(x,Y) функции v(x,y). Пример 10.1. Пусть управляемый процесс описывается уравнением zxy==u-2zx-zy-2z, 0<x<X, 0<y<Y, A0.15) где X и Y — заданные постоянные. Допустимыми управлениями считаются ку- кусочно непрерывные функции, зависящие только от одной переменной и = и (у) и удовлетворяющие неравенству |гх| ^ 1. Требуется минимизировать функцио- функционал [ S= [ [ (x-l)z(x,y)dydx Jo Jo на решениях уравнения A0.15), удовлетворяющих условиям z(x,0) = z(O,y) =0. A0.16)
10. Принцип максимума для систем с распределенными параметрами 447 Для решения задачи вводим вспомогательную функцию zo(xJy)J положив (см. A0.4)) zoxy = {x- l)z(x, у), zo(x, 0) = z(y, 0) = 0. A0.17) Тогда задача сводится к поиску управления, минимизирующего функционал S = zo(X,Y), определенный на решениях краевой задачи A0.15), A0.16) и A0.17). Функ- Функция Н в этом случае принимает вид Н(х, у, z, zx, zy, v, и) = (х — l)zvo + v(u — 2zx — zy — 2z), где vo и v определяются системой соотношений (см. A0.10)—A0.12)) voxy = 0, Уху = (х — l)v0 — 2v — 2vx — vy, 0 < х < X, 0 < у < У, vOx(x,Y) = vOy(X,y) = 0, vo(X,Y) = -1, vx{x,Y)=v{x,Y), vy(X,y)=2v(X,y), v(X,Y) = 0. Отсюда находим, что щ(х, у) = -1, v(x, у) = \ (Хе<ж-Х) - х) A - е2^")). Поэтому условие максимума оптимального управления п(у) (см. A0.14)) имеет вид / / [п(г/) - и(и)] (Хе^х~х) - х) A - е2(?/-у)) dydx^O Jo Jo для произвольных кусочно непрерывных функций и = и(у), удовлетворяющих условию \и\ ^ 1. Отсюда следует, что оптимальное управление определяется формулой п(у) = sign |"A - e2{y~Y)) j (Xe{x~x) - х) dx\. Вычисляя интеграл, получаем п(у)=8'щпA-е-х -Х/2). Следовательно, при достаточно малом X оптимальным является управле- управление п(у) = 1, а если X такое, что е~х + Х/2 > 1, то оптимальным является Чу) = -1- 10.2. Доказательство принципа максимума. Для доказательства теоремы воспользуемся тем же методом, который применен в параграфе 7 при доказательстве принципа максимума в задаче терминального управления. Однако здесь ограничимся лишь выводом формулы приращения минимизи- минимизируемого функционала 21). Пусть и = п(х, у) — произвольное допустимое управление, a z = г(х, у) — соответствующее ему решение задачи A0.1), A0.2). Тогда функционал I[v, z, и], определяемый формулой I[v,z,u] = \^2viZxy - H(x,y,v,z,zx,Zy,u)\ dxdy, A0.18) ) Полное доказательство теоремы приведено в цитированной выше работе А.И. Егорова.
448 Гл. 7. Основы общей теории оптимальных процессов обладает свойством I[v,z,u] =0 при любых кусочно непрерывных функциях vi(x,y), ..., vn(x, у). Поэтому ес- если управлению п(х, у) дать допустимое приращение Аи(х, у) и обозначить че- через Az(x,y) соответствующее ему приращение функции г(х,г/), то будет спра- справедливо равенство I[v, z + Az,, п + Ли] = 0. Так как z(v,y) + Az(x,y) является решением краевой задачи A0.1), A0.2) при и = п(х, г/) + Аи{х, г/), то приращение Аг удовлетворяет системе уравнений л / ч д dH(x,y,v,z,zx,zy,u) . Azixy(x, у) = А ^ — *—^ г = 1, 2, ..., п, и условиям Дг@, ?/) = Дг(х, 0) = 0, г = 1, 2, ..., п, где введено обозначение y,v,z,zx,zy,u) _ дН(х, y,v,z + Az, zx + Azx, zy + Azy, п A0.19) При этом очевидно, что AI[v,z,u] = I[v,z + Az, и + Аи] — /[v,z,u] = 0. С другой стороны, согласно формуле A0.18) имеем pY рХ г п 1 Ai>,p,u] = / / \S^ViAzixy-AH{x,y,v.z.zx,zy,u)\dxdy = Q, Jo Jo Y~[ \ где AH = H(x, y, v, z+Az, zx+AzXj zy+Azyj п+Ди)-Я(ж, у, v, z, zXj zyj u). A0.20) Интегрированием по частям получаем л/~ >п х Y i Azixy dxdy = г=1 г=1 X,Y x=0,y=0 г=1 dy- x=0 nX n - / y^ J° г=1 dx+ у=0 I I y2 J° J° г=1 vixyAzdxdy. A0.21) В формуле A0.21) в качестве v возьмем решение задачи A0.10)—A0.12), со- соответствующее функциям п(х,у) и z(x,y). Тогда с учетом граничных усло- условий A0.19) будем иметь Zi(X,y)dy z%(x,Y , A0.22) pY рХ п / / y^viAzi Jo Jo i=1 i=1 * ^ дЩХ, у, у(Х.у),р(Х.у), U(X, у)) -Г X n Y о Jo —: dzix - Y v(r Y) f)(r Y) Ti(t Y)) d (dH\ d f дН\\ dx\dzlx) dy\dziy)\
10. Принцип максимума для систем с распределенными параметрами 449 где Ai, г = 1, 2, ...,п, — постоянные, определяющие критерий оптимальнос- оптимальности A0.3). Применяя формулу Тейлора и используя обозначение р = {z,zz,zy}, полу- получаем равенство Я(ж, u, v, р-\- Ар, п-\-Аи) — Я(ж, u, v, р, п) = Я(ж, u, и, p, п+Аи) — Я(ж, и, v, p, п) + v ?^? ?F? y Ap^ + - у j v 1iJ1 ^ ^ ^? '- Api Apj + 3n E г=1 3n a2 Я(х, ,v,p, V,* >,р + вАр,п + Аи) dpidpj l_ /\7/ i С/j~L \X U V T) U) Выполняя интегрирование по частям и учитывая условия A0.19), будем иметь Y рХ у> ЭЯ(ж, и, и, р, п) ^ о </о / / 1~# I /\ II 'I 1 I /\ /II '/II /\ III III /\ /III Г± U Л Jo i=1 dH(x,y,v,p,u) d fdH(x,y,v,p,u) 7 I dpi dx \ dzix d (dH(x,y,v,p,u (ж, у) dx dy. 10.23 Если теперь воспользоваться формулами A0.22)-A0.23), то из соотноше- соотношения A0.20) получаем формулу приращения функционала A0.14), когда опти- оптимальному управлению п(х, у) дается приращение Ди(х, у) : n pY pX S^AiAzi{X,Y) = - I I [H(xJyJvJpJu+Au)-H(xJyJvJpJu)]dxdy + r]1+ri2, ~[ Jo Jo A0.24) где / o Jo Л Jo ~{Y дРг Формула A0.24) аналогична соответствующей формуле приращения функ- функционала в задаче терминального управления (см. G.43) и G.44)). Поэтому за- заключительная часть доказательства принципа максимума в рассматриваемом случае можно получить тем же методом, который был применен в параграфе 7.
450 Гл. 7. Основы общей теории оптимальных процессов 10.3. Заключительные замечания. При анализе принципа максиму- максимума прежде всего следует обратить внимание на то, что условие максимума функции Н для системы с распределенными параметрами следует брать в ин- интегральной форме (см. неравенство A0.15)). Это позволяет расширить клас- классы допустимых управлений за счет того, что можно указывать специальную зависимость допустимых управлений от аргументов х и у. В рассмотренном примере 10.1 допустимыми считались управления, зависящие только от у. Из того же условия максимума функции Н можно получить оптимальное управле- управление, если допустимыми считать управления, зависящие только от х или только от х + у. Аналогичные результаты получаются и в более общей задаче оптималь- оптимального управления, когда вместо граничных условий A0.2) фигурируют обык- обыкновенные дифференциальные уравнения с дополнительными управляющими параметрами, однозначно определяющие функции zj(x,0) и ^@,г/). Способ получения формулы приращения A0.24) минимизируемого функ- функционала позволяет получить условия оптимальности и для особых управлений тем же методом который изложен выше в задаче терминального управления. Соответствующие результаты были получены О.В. Васильевым22). При доказательстве принципа максимума мы вынуждены были наложить существенное ограничение на функции /^, определяющие уравнения системы (см. A0.13)). А.Л. Кузьмина 23) показала, что эти ограничения можно снять полностью. В цитированной выше работе А.И. Егорова показано, что изложен- изложенный метод доказательства принципа максимума можно применить и в задачах оптимального управления, когда процесс описывается краевыми задачами для параболических уравнений. Соответствующий принцип максимума получается в аналогичной форме. ) Васильев О.В. Оптимальность особых граничных управлений в системах с распре- распределенными параметрами.// Управляемые системы. — 1979. — № 18. — С. 4-13. )Кузьмина А.Л. Об одной залаче оптимального управления. // Commentations Mathematicae Universitatis Carolinae. — 1976. — V. 7, № 3. — P. 11-26.
ГЛАВА 8 Стохастические системы Большой круг проблем, рассматриваемых в теории управления, связан с исследованиями так называемых стохастических систем. Главная их особен- особенность состоит в том, что их поведение определяется статистическими харак- характеристиками, и все задачи управления так или иначе связаны с оптимизацией этих характеристик. Практические задачи эксплуатации таких систем пока- показали актуальность многих проблем оптимизации, отличных от тех, которые рассматривались выше для детерминированных систем. Кроме того, особая важность анализа стохастических систем связана с про- проблемами альтернативного управления и идентификации. В этой главе рассмат- рассматриваются лишь наиболее простые задачи такого типа, и поэтому ее содержание следует считать введением в обширную теорию стохастических систем управле- управления. Более полное изложение этого круга проблем можно найти в литературе, список которой приведен в конце книги. 1. Преобразование случайных сигналов линейными системами Все приведенные выше задачи моделирования управляемых систем осно- основывались на том, что на вход системы подается сигнал как заданная функция времени. Однако в реальных условиях часто оказывается, что на вход системы поступает сигнал, представляющий собой реализацию некоторого случайного процесса. При этом никаких сведение об этой реализации нет, кроме сведений о стохастических свойствах соответствующего случайного процесса. В этих усло- условиях сигнал на выходе системы также будет реализацией случайного процесса, который, возможно, характеризуется также лишь соответствующими статисти- статистическими характеристиками. В случае, когда процесс описывается обыкновенными дифференциальными уравнениями, речь должна идти прежде всего об установлении статистических свойств правых частей уравнений. Значительный интерес представляет и бо- более сложная задача, когда в дифференциальных уравнениях случайными про- процессами (случайными функциями) оказываются и коэффициенты уравнений. Множество практически интересных задач теории управления также связано с анализом систем, когда начальное состояние системы задано лишь различными вероятностными характеристиками. 1.1. Основные статистические характеристики сигнала на выхо- выходе. Здесь мы рассмотрим задачу определения статистических характеристик сигнала на выходе линейной системы по заданным статистическим характери- характеристика сигнала на входе. Будем рассматривать процесс, описываемый уравне- уравнением x = Ax + ip, A.1)
452 Гл. 8. Стохастические системы где А — постоянная матрица порядка п, а все ее собственные значения имеют отрицательные вещественные части. В этом случае матрица Коши W(t — s) соответствующего однородного уравнения удовлетворяет условию r\\W(t)\\E~dt<oo. Jo Если ввести импульсную переходную функцию K{t)=\w{t) при t>0, w ) в при t < 0, ' где и — матрица с нулевыми элементами, то последнее условие можно записать в виде оо J \\K(t)\\dt<oo. A.3) — оо Входной сигнал (p(t) = {(/?i(?),..., ^n@l будем считать реализацией ограни- ограниченного случайного процесса с известными статистическими характеристика- характеристиками (математическое ожидание, дисперсия и т. п.). В соответствии с формулой Коши, сигнал на выходе системы A.1) с нулевым начальным значением при t = to можно представить в виде x(t) = [ W(t- s)tp(s) ds= f ° W{s)ip{t + s) ds, Jto Jo и в пределе при t —> сю будем иметь rt rt — to x(t) = lim / W(t - s)ip(s) ds = lim / W(s)ip(t + s) ds. Эту формулу в дальнейшем будем записывать в виде pt poo x(t)= j W(t-s)ip(s)ds= / W(s)ip(t + s)ds, J-oo Jo или, в соответствии с обозначением A.2), в виде (X) (X) x(t)= K(t-s)ip(s)ds= K(s)cp(y + s)ds. A.4) — (X) —(X) Так как по предположению каждая реализация случайного процесса огра- ограничена, то в силу условия A.3) получаем K(s)cp(t оо. — оо Имея это в виду, рассмотрим статистические характеристики сигнала x(t). Пусть (p(t) — некоторая реализация стационарного случайного процесса с ма- математическим ожиданием М [</?(?)] = т^, где т^ — постоянный вектор. Тогда оо оо M[x(t)] = М / K(s)<p(t + s)ds\ = / K(s)dsmlf. \_ j j j
1. Преобразование случайных сигналов линейными системами 453 Вычислим теперь корреляционную функцию Rlf(ti,t2) B предположении, что (f(t) имеет нулевое среднее значение. Согласно определению этой функции для векторного случайного процесса имеем Следовательно, R^(t 1^2) является положительно определенной эрмитовой матрицей1). Поэтому для рассматриваемого процесса A.1) получаем оо оо ¦//* — оо —оо Так как cp(t) и x(t) — стационарные случайные процессы, то ~Г)Ф D- 4- \ ~Г)Ф D- 4- \ ТЭФ 14- 4- \ ~DX D- 4- \ ~DX D- 4- \ ~DX D- 4- \ it \Х\^12) — Гь \Ъ\ — i2) — -ft [Z2 — ^1)•> -^ \^l?^2j — -^ \^1 — ^2) — -^ \^2 — ^1) т. е. Rip(ti1t2) и Rx(t\1t2) являются четными. Полагая г = t\ — ?2, будем иметь оо оо г г RX(r)= / K(s)Rip(T + a-s)K*(a)dads. A.5) J J —00 —00 Вычислим теперь спектральную плотность сигнала x(t). В соответствии с определением спектральная плотность S и корреляционная функция R свя- связаны соотношениями оо оо S(u) = I R(t)e~lu;tdt, R(t) = — I S{uj)eluJtduj. A.6) —00 —00 Поэтому в соответствии с формулами A.4) и A.5) находим, что (X) = [ [ [ Вводя замену переменных C = г + а — 5, получим (X) (X) (X) 5х(ш) = / K(s)e^sds ( RPtfy-Wdp j K*{a)e-iu>ada. — (X) —(X) —(X) Согласно определению матрицы K(t) (см. формулу A.2)) можно записать, что — оо где Ф(р) — передаточная функция системы A.1). Поэтому окончательно нахо- находим, что Sx(uu) = Ф(-го;M^(о;)Ф*(га;). A.7) Рассмотрим теперь случай, когда на систему действуют две стационар- стационарные случайные силы. Одна характеризует управляющее воздействие u(t) = = {ui(?),...,ur(?)}, а другая — помеху v(t) = {vi(t),...,vm(t)}. Процесс при этом описывается уравнением х = Ax + Bu + Cv, A.8) ) Напомним, что матрица называется эрмитовой, если она совпадает со свей сопряженной.
454 Гл. 8. Стохастические системы где А, В и С — постоянные матрицы. Тогда установившийся процесс при преж- прежних предположениях описывается соотношением оо оо Г Г x(t) = I K(s)u(t-s)ds+ / L(a)v(t-a)da, A.9) — оо —оо в котором K(t) и L(t) — импульсные переходные функции системы A.8) отно- относительно сигналов и и v соответственно. Это означает, что если систему A.8) записать в операторной форме х(р) = Х(р)п(р) + Y(p)v(p), то /»ОО /»ОО /»ОО /»С Х(р) = / Kx{t)e~o4t, Y(p) = / Jo Jo где , . Ji^i(t) при t ^ 0, .. jLi(t) при t ^ 0, 1 0 при t < 0, 1 0 при t < 0. Из A.9) находим, что oo M[x(ti)x*(t2)] = Rx(tut2) = I K(s)Ru(t1 -s,t2 -a)K*(a)dads + — oo oo oo + / K(s)Ruv(t1-s.t2-a)L*(a)dads+ f L(s)Rvu(t1-s,t2-a)K%a) dads- — oo —oo oo г + / L(s)Rv(t1- s,t2-a)L*(a)dads. j — oo Так как по предположению процессы ip(t) и x(t) стационарны, то Rx(h,t2) = Rx{h - t2), Ru{tXjt2) = Ru(h - t2), T)V 14- 4- \ TDV 14- 4- \ TDUV 14- 4- \ TDUV 14- 4- \ it ^tl, l2) — it \t\ — ^2I -К v^l? t2) — it [Vi — i2J. Полагая г = t\ — t2, получим Rx{t)= j K(s)Ru(T + a-s)K*(a)dads + — OO OO OO + / K(s)Ruv(r + a-s)L*(a)dads+ f L(s)Rvu(r + a - s)K*(a) dads + — oo —oo oo + f L(s)Rv(r + a- s)L* (a) dda ds. — oo Отсюда в соответствии с формулой A.6) будем иметь Sx(u) = X(-ico)Su(io)X*(iio) +X(-iu)Suv(co)Y*(iu) + + Y(-iu)Svu(u)X*(iu) + Y(-iu)Sv(u)Y*(iu). A.10)
1. Преобразование случайных сигналов линейными системами 455 В частном случае, когда сигналы и и v не коррелированы, формула A.10) упрощается и принимает вид Sx(u) = X(-iu)Su(uj)X*(iuj) + Y(-iu)Sv(u)Y*(iu). A.11) Если, кроме того, величины х, (р, и и v скалярны, то из формул A.7) и A.11) следует, что Sx(u) = |Ф(ш)|25^(а;), A.12) Sx(u) = \X(iLu)\2Su(u;) + \Y(iLu)\2Sv(u;). В соответствии с определением векторного стационарного случайного про- процесса с нулевым средним значением находим, что дисперсия D(x) является вектором элементов главной диагонали матрицы M[x(t)x*(t)] =Rx@), A.13) a Rx@) можно определить по формуле — оо В частности, когда x(t) — скалярный случайный процесс с указанными выше свойствами, будем иметь оо D(x) = ± J Sx(co)cko. — оо Полученные формулы используем для вывода еще одной важной харак- характеристики случайного процесса. Пусть на вход скалярной системы типа A.1) (т. е. х и (р предполагаются скалярными функциями) подается стационарный случайный сигнал с нулевым средним значением типа белого шума. Тогда 7?^(т) = F5(t), где 5(т) — дельта-функция Дирака, a F — интенсивность шума. Тогда оо S^iu) = F [ 8{s)e~lujsds = F = const. — оо В соответствии с формулой A.12) имеем оо D(x)=Rx(Q) = ^ j \Ф(гш)\2<1ш. — ОО С другой стороны, по формуле A.13) находим, что оо оо D(x) = M[x2(t)]=F (IK(s)K(aM(a-s)dads = F f \K(s)\2ds. — оо —оо Отсюда следует, что оо оо D(x) =F I \K(s)\2ds = ? I \Ф{ш)\*<Ь>.
456 Гл. 8. Стохастические системы Функцию Ф{гио) можно представить в показательной форме Ф{гио) = A(uj)e%UJ', и тогда можно записать — оо Если, наконец, обозначить через А/ величину то будем иметь D{x) = FAmaxA/. Величина А/ называется полосой пропуска- пропускания системы. Изложенная методика может быть использована для определе- определения полосы пропускания многомерной системы A.1). 1.2. Взаимные корреляционные функции и спектральные плот- плотности. Завершая анализ основных стохастических характеристик линейной системы, найдем взаимную корреляционную функцию и взаимную спектраль- спектральную плотность стационарных случайных процессов x(t) и tp(t). В соответствии с определением взаимная корреляционная функция имеет вид RX(p(ti,t2) = = M[x(?i), (^(?2)], и с учетом соотношения A.4) получаем оо K(s)tp(tx- sL>*(t2)ds\ = f K{s)Rip(t1-s,t2)ds. — ОО —ОО Полагая т = t\ — ?2 и учитывая, что в рассматриваемом случае будем иметь Rxlf(r)= I K(s)Rp(t -s)ds. Аналогично находим, что оо Rcpx(r)= f Rp(r-s)K*(s)ds. Для вычисления спектральных плотностей воспользуемся формулами ти- типа A.8) оо оо Sx4>{u) = ( Rxtfi(s)e-iujsds, Rx*(s) = ^- f Sxtfi(to)eiujsduj; — оо —оо оо оо оо SX(p(u) = П K(s)Rp(t - s)e~luJTdTds = / K(s)e~lujsds f K(s)e~lujsds f j j — оо —оо —оо Таким образом, Аналогично получаем
2. Прогноз и фильтрация случайных процессов в линейных системах 457 S(px(u) = П R^(T + s)K*(s)e-luJTdsdT= f R(p(rj)e-iWT dr f K*(s)elujsds — оо и, следовательно, Функции i?^(Y) и S^(cj) являются четными. Поэтому Если вместе с сигналами x(t) и cp(t) рассматривается еще сигнал y(t) с нулевым средним значением, то легко находим, что (X) (X) Rxv(T) = j K(s)Rv>v(t - s) ds, Rvx(t) = I Rvv{t + s)K*(s) ds, — (X) —(X) Sxy(u) = Ф(шM^Н, Syx(uu) = <Z>Hcj)S^H. 2. Прогноз и фильтрация случайных процессов в линейных системах Многие задачи управления стохастическими системами так или иначе свя- связаны с прогнозом и фильтрацией случайных процессов. Пусть на вход одно- одномерной линейной стационарной системы поступает сигнал tp(t) = h(t) + /(?), в котором h(t) — полезный сигнал, a f(t) — помеха. При этом предполагается, что h(t) и f(t) — стационарные случайные процессы с нулевыми средними значе- значениями. Назначение системы состоит в возможно более точном преобразо- преобразовании (в частном случае — в воспроизведении) полезного сигнала h(t). Предпо- Предполагается, что система асимптотически устойчива. Тогда установившийся процесс можно представить в виде (X) (X) y(t)= K(t-s)ip(s)ds= K(s)ip(t-s)ds. — (X) —(X) Задача прогноза состоит в том, чтобы подобрать параметры системы, при которых сигнал y(t) на выходе системы в момент времени t представ- представлял собой наилучшее (в смысле минимума дисперсии ошибки) приближение к h(t + rj), где г] = const. При г] = 0 задача называется задачей фильтрации входного сигнала. Математически задача сводится к определению импульсной переходной функции из условия минимума указанной дисперсии. 2.1. Фильтрация и прогноз в стационарных системах. Рассмотрим линейную стационарную систему, описываемую уравнением B.1) и предположим, что корни характеристического уравнения det(A — ХЕ) = О имеют только отрицательные вещественные части. На вход системы подается сигнал Lp{t) = {(/?i(?),..., (pn(t)}, представимый в виде tp(t) = h(t) + /(?), где h(t) = {/ii(t),..., hn(t)} — полезный сигнал, a f(t) — помеха. Задача состоит в том, чтобы сконструировать систему (подобрать матрицу А), максимально более точно преобразующую (в частном слу-
458 Гл. 8. Стохастические системы чае — воспроизводящую) полезный сигнал h(t). Если требуется, чтобы вы- выходной сигнал x(t) представлял собой наилучшее приближение h(t + rj), где г] > О, то речь идет о прогнозе, т. е. решается задач прогноза. В случае, когда г] = 0, т. е. требуется, чтобы x(t) аппроксимировал сигнал h(t), задача называется задачей фильтрации. Сигнал на выходе системы в установившемся режиме представим в виде tJXJ Г x(t) = / K(s)ip(t-s)ds, j а через e(t) обозначим ошибку приближения сигнала x(t) к h(t + 77): e(t) = h(t + rj)-x(t). Следовательно, e(t) можно представить в виде ОО e(t) = h(t + г]) - [ K(s)cp(t-s)ds. B.2) —00 Будем предполагать, что h(t) и f(t) — стационарные случайные процессы с нулевым средним значением. Тогда установившийся сигнал x(t) на выходе си- системы также будет представлять собой случайный процесс с нулевым средним значением. Точность приближения x(t) к h(t + 77) будем характеризовать функциона- функционалом J = М[е*(?), е(?)], который можно также представить в виде J = M[e*(t),e(t)} = Sp{M[e(t),e*(t)]} = SpRe(t,t) = SpRe@), где SpR — след матрицы R. Вычислим функционал J с учетом формулы B.2): оо оо J = Sp|]V[[(/i(i+r?- I K{s)v{t+s)ds)(h*(t+Ti)- I tp*(t+s)K*(s)ds —ОО ОО (X) ОО Г f 1 M ft(t + r/) / v*{t + s)K*{s)ds\- L J J — (X) - M [ I K{s)ip(t + s) ds h*{t + (X) + M [ ИK(s)<p(t + s)y*{t + a)K*(a) dads\. — (X) (X) — OO Так как матрицы оо оо s)K*(s)ds\, L2=m\ — ОО —ОО обладают свойством LI = L2, то Sp{Li+L2} = 2SpLi = 2SpL2. Поэтому можно записать
2. Прогноз и фильтрация случайных процессов в линейных системах 459 оо J = Sp|м[Л(* + r])h*(t + г])} - 2М \h(t + n) j (p*(t + s)K*(s) ds] + — оо оо + М [ /У K{s)ip{t + s)ip*{t + ce)K*(ce) dads] 1, или, что то же самое, оо оо (Г Г Г 1 J = Sp<Rh@)-2 / Rhip(ri+s)K*(s)ds+ К(s)R^(т + s)К*(т) dr ds }. B.3) I J JJ J — oo —oo Будем теперь искать матрицу K(t), которая доставляет минимум функцио- функционалу B.3). Этот функционал является выпуклым по К, и поэтому необходимое и достаточное условие его минимума можно представить в виде SJ = 0, B.4) где SJ — вариация функционала J. Для вычисления SJ рассмотрим выражение J[K + jN], где 7 ~~ числовой параметр, a N(s) — произвольная непрерывная матриц с теми же свойствами, что и K(s). Тогда из формулы B.3) получим оо J[K + <yN] =Sp<Rh@) -2 / Rh(p(ri + s)[K*(s)+'yN*(s)]ds + I J — oo oo oo f f f f + // K(s)Rip (r + s)K* (r) dr ds + 7 // K(s)Rip(r + s)N*(r) dr ds + j j j j —00 —00 00 00 7 И N(s)RV(T + s)K*(r)dTds + 'y2 // N(s)R^(r + s)N*(r) dr ds ¦}¦ — oo Матрицы oo h= II K(s)RV(T + s)N*(T)drds, /2 = /7 N{s)RpK*{r + s)K*(r)drds — oo —oo удовлетворяют условию /J = I2- Поэтому 00 00 27 Г // K(s)Rp(r + s)JV*(r) dr ds - / Так как, согласно определению, 5 J = lim - {. то условие B.4) но записать в виде
460 Гл. 8. Стохастические системы K(s)Rv(t + s)ds- RhipG] + тI N*(t) dA = 0. B.5 оо оо Sp| П Г I K(s)Rv(t + s)ds- RhipG] + тI N*(t) dA = 0. B.5) — оо —оо По предположению N(s) — произвольная непрерывная матрица размерно- размерности п х п, и поэтому условие B.5) выполняется тогда и только тогда, когда матрица K(s) удовлетворяет следующему уравнению Винера Rh(p(r) + r) = I K(s)Rp(r + s)ds, -oo<r<oo. — оо Если учесть, что матрица K(s) определяется по формуле — оо где W(p) — передаточная функция системы B.1), то уравнение Винера можно записать в виде Rhip(r] + T)= [ K1(s)Rp(r] + s)ds, r>0. B.6) Jo В задаче фильтрации г] = 0, и поэтому оптимальная импульсная переход- переходная функция Ki(s) долж:на удовлетворять уравнению /»ОО Rhif (Т) = Ki (s)^ (r + s)ds, т > 0. Jo 2.2. Задача фильтрации нестационарного процесса. Рассмотрим линейную систему управления, описываемую дифференциальным уравнением p = F(t)p + G(t)z(t), B.7) в котором р = {pi,...,pn} — фазовый вектор, z(t) = {zi(t),..., zm(t)} — вход- входной сигнал, который представляет собой нестационарный случайный процесс. Матрицы F(t) и G(t) предполагаются непрерывными. Значит, сигнал p(t) на выходе системы является нестационарным случайным процессом и определя- определяется по формуле p(t) = W(t, to)p° + / W(t, s)G(s)z(s) ds, B.8) Jt0 где W(t.s) — матрица Коши однородного уравнения У = F(t)y. При р° = 0 формулу B.8) можно записать в виде p(t) = [ a(t, s)z(s) ds, a(t, s) = W(t, Jto s)G(s). Пусть, далее, x(t) — n-мерный векторный сигнал, который желательно по- получить на выходе системы, a e(t) — ошибка в восстановлении этого сигнала, т. е. e(t) = x(t) — z(t), или, в соответствии с формулой B.10), e(t)=x(t)- I a(t,s)z(s)ds. B.9) Jtn
2. Прогноз и фильтрация случайных процессов в линейных системах 461 Предположим, что сигналы x(t) и z(t) — случайные процессы с нулевым средним значением. Тогда p(t) — также случайный процесс с нулевым сред- средним значением, и соответствующие корреляционные матрицы определяются формулами Rz(t,r) = M[z(t)z*(T)}, Rxz(t,r) = M[x(t)z*(T)], Rzx(t,r) = M[z(t)x* (t)]. Уравнение B.7) можно рассматривать как фильтр, преобразующий сигнал z(t) в сигнал p(t), а критерием качества этого фильтра возьмем функционал J(t) = Sp{M[e(t),e*(t)}} = M[e(t)e*(t)]. Задача состоит в том, чтобы найти такие параметры фильтра, при которых J(t) достигает своего наименьшего возможного значения. В соответствии с формулой B.9) получаем M[e(t)e*(t)]=M[x(t)x*(t)]-M\x(t) f z*(s)a*(t,s)ds\- \ a(t,s)z(s)dsx*(t) +M / a(tjS)z(s)ds a*(t,a)z(a)da\. Jto J [Ло Jt0 J -M Легко установить, что матрицы Li =M x(t) I a*(t,s)z*(s)ds au(t, s)z(s) dsx*(t) удовлетворяют условию L\ = LJ, и поэтому Sp(Li+L2) = 2Sp/i. Значит, можно записать J(t) = Sp<^ M[x(t)x*(t)] - 2 / M[x(t)z*(s)]a*(t, s) ds + I Jnct + / / а(М)М[ф)г*(а)]а*(*,а) ^^ j. B.10) Jt0 Jt0 J Поскольку величина J(t) зависит от функции a(t, 5), то используем аппарат вариационного исчисления для отыскания той функции a°(?, s), на которой функционал J{t) достигает своего наименьшего возможного значения. Этот функционал, очевидно, является выпуклым и поэтому a°(t,s) находится из условия равенства нулю первой вариации 5J(t): 5J(t,h) = 0, B.11) где ИлМ r J[t + -yh]-J[t] oJ(t,ri) = lira . Из формулы B.10) находим, что J[a°+jh]=Sv\M[x(t)x*(t)]-2 f M[x(t)z*(s)](a°*(t,s) +-yh*(t,s)) ds + L Jto + / / (ao(t,5)+7/i(t,5))M[zE)z*(ce)](a°*(t,ce)+7/i*(t,ce))dced5
462 Гл. 8. Стохастические системы Так как матрицы pt pt Si = / / h{t,s)W[z{s)z*{a)\cP*{t, a) dads, Jto Jto pt pt S2= a°*(t,s)M[z(s)z*(a)]h*(t,a)dads Jto Jt0 удовлетворяют условию Si = S|, то Sp(Si + S2) = 2SpSi, и, следовательно, J[ao+-yh] = J[a°]+72Spj + 27 / M[x(t)z*(s)]h*(t,a)da + f f a(t,s)M[z(s)z*(a)]h*(t,a)dads\. Jt0 Jt0 Jt0 J Следовательно, условие B.11) можно представить в виде Spj / M[x(t)z*(s)]hk,s)ds+ I I a**(t,s)m[z(s)z*(a)\h*(t,a)dads\ = 0. \Jto J to J to ) Так как это условие должно выполняется при любой функции /i(?,s), то необ- необходимое и достаточное условие минимума функционала J{t) можно записать в виде следующего тождества: г M[x(t)z*(s)] + / a°*(t,a)M[z(s)z*(a)]da = 0, to^s<t, B.12) Ло которое определяет функцию a°(?, s), минимизирующую этот функционал. Уравнение pt M[x(t)z*(s)]+ / a(t,a)M[z(s)z*(a)]da = 0 относительно неизвестной матрицы a(t, s) называется уравнением Винера. 2.3. Оптимальные фильтры Каллмана—Бьюси. Рассмотрим более общую задачу, когда процесс описывается уравнением х = A(t)x + B(t)w(t), B.13) а наблюдаемый вектор z связан с x(t) уравнением z(t) = C(t)x(t)+v(t). B.14) Здесь х — n-мерный вектор, z — тп-мерный вектор, w(t) = {wi(t), ...,wr(t)} — r-мерный векторный случайный процесс, v(t) = {vi(t), ...,vm(t)} — тп-мерный векторный случайный процесс. Матрицы A(t), B(t) и C(t) предполагаются за- заданными и непрерывными, w(t) и v(t) предполагаются гауссовыми случайными процессами типа белого шума с нулевыми средними значениями. Их корреля- корреляционные матрицы можно записать в виде Г Rw(t, s) = M[w(t)w*(s)] = Q(t)S(t - s), \ Bi. lo) [ Rv(t, s) = M[v{t)v*{s)\ = R(t)S(t - s), Rwv(t.s) = M[w{t)v*{s)\ =6», где 0 — матрица с нулевыми элементами, q(t) и R(t) — заданные матрицы, причем Q неотрицательна, а R положительна.
2. Прогноз и фильтрация случайных процессов в линейных системах 463 Предполагается также, что начальный вектор x(to) — также гауссовый слу- случайный вектор с нулевым средним значением М[ж(?о)] — О и корреляционной матрицей M[x(to)x*(to)]=Ko, B.16) где Kq — заданная неотрицательная матрица. Кроме того, предполагается, что w(t), v(t) и x(to) независимы. Так как w(t) — случайный процесс с нулевым средним значением, то М[х(?)] = 0, т. е. x(t) также является случайным процессом с нулевым средним значением. Будем искать фильтр (фильтр Каллмана-Бьюмси), описываемый вектор- векторным дифференциальным уравнением p = F(t)p + G(t)z(t), p(to)=O, B.17) выход которого p(t) являлся бы оптимальной оценкой x(t) состояния систе- системы x(t): x{t) = p{t). B.18) Ошибку оценки e(t) = x(t) - p(t) B.19) называют ошибкой фильтра. Из соотношений B.17) находим, что сигнал p(t) на выходе фильтра можно представить в виде p(t) = / a(t,s)z(s)ds, B.20) Jt0 где a(t,s) = W(t,s)G(s), a W(t,s) — матрица Коши уравнения у = F(t)y. Отсюда, в частности, следует, что матрица а(?, s) удовлетворяет условию a(t,t) = G(t). B.21) Критерием оптимальности фильтра берется функционал J = M[e(t),e(t)]=M[e*(t)e(t)], и, следовательно, задача состоит в определении матриц F(t) и G(t), миними- минимизирующих этот функционал. Как показано в предыдущем пункте настоящего параграфа, функция a°(t,s), определяющая оптимальный фильтр, удовлетворяет интегральному уравнению Винера. Поэтому задача сводится к тому, чтобы по заданной мат- матричной функции a°(t,s) определить F(t) и G(t). При этом известно, что опти- оптимальная функция a°(t,s) удовлетворяет условию B.21), т. е. a°(t,t)=G(t), а ошибка системы e(t) такова, что (см. B.17)) e(to)=x(to)-p(to)=x(to). B.22) Вводя обозначение K(t)=M[e(t)e*(t)] B.23) и учитывая соотношения B.16) и B.22), находим, что К (to) = Kq.
464 Гл. 8. Стохастические системы 2.4. Определение матрицы F(?). Для дальнейшего решения задачи сначала проанализируем структуру решения уравнения Винера. С этой целью продифференцируем по t обе части тождества B.12). В результате получим М[,(а),'(,)] *» + «"(«, «)M[,W,-(.) + «^M = о, B.24) где t0 < s < t. Так как x(t) — решение уравнения B.13), то dM.[x{t)z*(s)} = A{t)M[x{t)z*{s)] + B(t)M[w(t)z*{s)]. B.25) Учитывая соотношения B.14), находим, что M[w(t)z*(s)] = M[w(t)x*(s)]C*(s) + M[w(t)v*(s)]. Сигналы W(t) и v(t) не коррелированы. Поэтому M[w(t)v*(t)] = 0. Решение x(t) уравнения B.13) можно представить по формуле Коши x(t) =Ф(Мо и, значит, равенство B.27) можно преобразовать следующим образом: M[^(t)^*(ce)]E*E)^*E,ce)dceC*E), t0 < 5 < t. Jt0 Сигналы w(t) и x(to) не коррелированы, и согласно формулам B.18) M.[w(t)w*(s)] = б1 при s < t. Поэтому M.[w(t)z*(s)] = в при t0 < s < t, а по формуле B.25) получаем Э»Я^(.)М|х№-D B.26) Преобразуем теперь левую часть тождества B.24). Используя соотноше- соотношение B.14), находим, что M[z(t)z*(s)] = C(t)M[x(t)z*(s)]+M[v(t)z*(s)] = = C(t)M[x(t)z*E)] + M[v(t)x*E)]C*E) + M[v(t)v*(s)], to^s<t. Так как сигналы v(t) и w(t) независимы, то ~M.[x(t)v*(t)] = 0, а согласно формулам B.15) имеем ~M.[v(t)v*s(s)] = в при to ^ s < t. Поэтому M[z(t)z*(s)] = C(t)M[x(t)z*(s)}, to^s<t, B.27) а с учетом соотношений B.26) и B.27) тождество B.24) можно записать в виде [A(t) - a°(t,t)C(t)]M[x(t)z*(s)} = [ дп ^°^ M[z(a)z*(s)]da, to^s<t. Заменяя ~M.[x(t)z*(s)] его значением из тождества B.12), отсюда получаем / b(t,s)M[z(s)z*(r)]dT = O, Jto
2. Прогноз и фильтрация случайных процессов в линейных системах 465 где b(t, s) = [A(t) - a°(t, t)C(t)]a°(t, s) j^-. B.28) Складывая почленно тождества B.12) и B.28), имеем [a°(t,a) + b(t,a)]M[z(a)z*(s)]da = M[x(x)z*(s)], to^s<t. Jtn Это означает, что если a°(t, s) — решение уравнения Винера, то a°(t, s) + b(t, s) также является решением того же уравнения, т. е. матрица a°(?,s) + b(t,s) доставляет минимум функционалу J{i). Покажем теперь, что b(t, s) — нулевая матрица. Пусть даны два решения уравнения Винера a°(?,s) и a1^,^) = a°(t,s)-\- +b(t, 5), где b(t,s) определяется формулой B.28). Согласно определению с по- помощью a°(?, s) можно найти сигнал p(t) = x(t) по формуле x(t) = I a°(t,s)z(s)ds. B.29) Jt0 э переписать в виде M\(x(t)- [ a°(t,s)z(s)ds)z*(s)\ =6», LV Jt0 / J / Jt0 Тождество B.12) можно переписать в виде t0 < S < t, и согласно формуле B.11) полученный результат мож:но представить в сле- следующей форме: M[e(t)z*(s)]=9, to^s<t. B.30) С другой стороны, матрица a1^,^) = a°(t,s) + b(t,s), как решение урав- уравнения Винера, также определяет оптимальную оценку х1^) сигнала x(t) по формуле ft x\t) = / a\t,s)z(s)ds. B.31) Jt0 Полагая e(t) = x1^) — x(t), находим, что e(t) = I b(t,s)z(s)ds. B.32) Jt0 В соответствии с соотношением B.30), получаем M[(x(t) - ж1^))*"»] =6», to^s<t, M[(x(t) - x(t))z*(s)] =6», to^s<t, и, следовательно, M[e(t)z*(s)] =6», to^s <t. Согласно формулам B.29) и B.31) имеем ft M[e(t)x*(t)]= / M[e(t)z*(s)]a°*(t,s)ds, Jto ft M[x(t)xu(t)}= / M[e(t)z*(s)][a°*(t,s) Jto o и с учетом соотношения B.29) получим равенство М[е(?)е*(?)] = 0, которое можно записать в виде (см. равенство B.32)) \ [ b(t,a)M[z(s)x*(a)}b*(t,a)da]ds = e. B.33)
466 Гл. 8. Стохастические системы Используя соотношение B.14), матрицу M[z(s)z*(a)] можно преобразовать следующим образом: M[z(s)z*(a)] = C(s)M[x(s)x*(a)]C*(a) + M[v(s)x*(a)]C*(a) + + C(s)M[x(s)v*(s)] + M[i;(s)i;*(a)]. Сигналы x(?) и г>(?) не коррелированы, а значит, M[x(s)i;*(a)] = 0, M[i;(s)x*(a)] = 0. Поэтому согласно формулам B.15) получаем M[z(s)z*(a)] = C(s)M[x(s)x*(a)]C*(a) + i?(s)<J(s - се), и равенство B.33) можно представить в виде rt pt b(t, s)M[y(s)y*(a)]b*(t, a) da ds + Так как / Jto cp(t)S(t-r)dr = <р(т), to<r<t, для любой непрерывной функции (f(t), то последнее равенство приводится к виду M[A(t)A*(t)] + / 6(t,5)i?EN*(t,5)d5 = 0, B.34) где использовано обозначение X(t) = / b(t,s)y(s)ds. Из введенных выше предположений о случайном процессе w(t) и случай- случайном векторе x(t) следует, что x(t) является случайным процессом с нулевым средним значением. Этим же свойством обладают случайные процессы y(t) и X(t). Значит, условие b(t,s) = 0, to ^ s < t, является достаточным для вы- выполнения равенства B.34). Покажем, что это условие также необходимо. Так как матрица R(t) по предположению положительна (см. B.15)), то су- существует неособенная вещественная матрица S(t) такая, что R{t) = S{t)S*{t). Поэтому, полагая L(t,s) = b(t,s)R(t)b*(t,s), находим, что L(t, s) = U(t, s)U*(t, 5), где U(t, s) = b(t, s)S(s), и элементы Ьц главной диагонали матрицы L имеют вид т Гц = \ U\(t, 5), г = 1, 2, т. k=l Следовательно, для того чтобы элементы, расположенные на главной диа- диагонали матрицы nt I(t,s)= / b(t,a)R(a)b*(t,a)da,
2. Прогноз и фильтрация случайных процессов в линейных системах 467 были равны нулю, необходимо выполнение условия U(t,s) = b(t,s)S(s) = 0. Так как матрица S{s) неособенная, то отсюда следует, что b(t,s)=9, to^s<t. B.35) Элементы М[А? (t)] главной диагонали матрицы М[А(?)А*(?)] неотрицатель- неотрицательны. Поэтому условие B.35) необходимо, чтобы элементы главной диагонали матрицы M[A(t)A*(*)] = / bit,s)Ris)b*it,s)ds были равны нулю. Полученный результат показывает, что условие B.35) является необходи- необходимым и достаточным для выполнения равенства B.34), т. е. из равенства B.34) следует равенство B.35), которое, согласно обозначению B.28), можно запи- записать в виде д°^ ^ = [A(t) - a°(t,t)C(t)]a°(t,s), to^s<t. тношение B.21), окончател = [A(t) - G(t)c(t)}a°(t, s), t0 < в < t. B.36) ot Учитывая, наконец, соотношение B.21), окончательно получаем /'* f)n°(t ¦ -o ®t dt Таким образом, приведенным анализом мы не только показали, что урав- уравнение Винера имеет единственное решение a°(t,s). Мы установили также, что это решение удовлетворяет дифференциальному уравнению B.36) и дополни- дополнительному условию B.21). Полученный результат позволяет найти матрицу F(t) в оптимальном филь- фильтре B.17). Для такого фильтра, согласно формулам B.18) и B.22), имеем /»(*) = Следовательно, Ч> Отсюда с учетом B.21) и B.36) получаем p(t)= / [A(t)-G(t)C(t)}a°(t,s)z(s)ds или, что то же самое, p{t) = [Ait) - Git)Cit)]pit) + Git)zit). Сопоставляя это соотношение с уравнением из B.17), находим, что матри- матрица F(t) в оптимальном фильтре имеет вид F(t) = A(t)-G(t)C(t). B.37) В заключение хотелось бы обратить внимание на весьма необычный способ построения матрицы F(t). Его можно разбить на несколько этапов. Сначала из требования минимума функционала J (критерий оптимальности фильтра) мы устанавливаем, что матрица а°(?, s), определяющая оптимальный фильтр по формуле B.20), должна удовлетворять уравнению Винера (см. тождество B.12)). Затем показываем, что вместе с матрицей a°(t,s) решением уравнения
468 Гл. 8. Стохастические системы Винера является матрица a°(t,s) + b(t,s), где b(t,s) определяется по форму- формуле B.28). На следующем этапе показывается, что b(t, s) = в, и лишь этот результат используется непосредственно для определения F(t) в оптимальном фильтре. Кстати, следует отметить, что во всех этих рассуждениях мы использовали решение a°(t,s) уравнения Винера. Однако способ построения этой матрицы так и не был приведен. 2.5. Построение матрицы G(t). Для завершения построения оптималь- оптимального фильтра в форме B.17) необходимо указать способ построения матри- матрицы G(t). С этой целью займемся тождеством B.12), в котором выполним ряд несложных преобразований: M[x(t)z*(s)] = M[x(t)x*(s)]C*(s) + M[x(t)v*(s)] = M[x(t)x*(s)]C*(s), так как сигналы x(t) и v(s) не коррелированы. Аналогично находим, что M[z(s)z*(a)] =M[z(s)x*(a)]C*(a) + M[z(s)v*(a)} = = M[z(s)x*(a)]C*(a) + C(s)M[x(s)v*(a)] + M[vE)v*(ce)]. Учитывая условия B.15), будем иметь M[z(s)z*(a)] = M[z(s)x*(a)]C*(a) + R(s)S(s - a). Поэтому интегральное тождество B.12) можно переписать в виде M[x(t)x*E)]C*E)- I a°(t,a)M[z(a)x*(s)]C*(s)da = Jt0 ft = a°(t,a)R(a)S(a-s)da, to^s<t, или, что то же самое, ft = M[x(t)x*(s)]C*(s)- / a°(t,a)M[z(a)x*(s)]C*(s) da. Jto В силу непрерывности по переменной s обеих частей этого равенства в нем можно перейти к пределу при s —> t. В итоге получим (см. B.21)) ft G(t)R(t) =M[x(t)x*(t)]C*(t) - / a°(tJs)M[z(s)x*(t)]C*(t)ds = Jt0 *)- I a°(t,s)z(s)ds\x*(t)\c*(t). Так как a°(t,s) определяет оптимальную оценку x(t) сигнала x(t), то с учетом формул B.18) и B.20) можно записать G(t)R(t) = M[(x(t) - x(t))x*(t)]C*(t). B.38) Используя обозначение B.19), получаем M[(x(t) - x(t))x*(t)] = M[e(t)(e*(t) + x*(t))] = M[e(t)e*(t)], так как M[e(t)x*(t)] =0. B.39) Равенство B.39) следует из тождества B.12).
2. Прогноз и фильтрация случайных процессов в линейных системах 469 В самом деле, записывая B.12) в виде Г Г [1 Л M\<x(t)- o!)(t,a)z(a)da\z*(s) =6», t0 ^ s < t, L l Ло J . находим, что M[e(t)z*(s)]=0, to^s<t. B.40) С другой стороны, по определению rt x(t) = / a°(t,a)z(a)da, Jt0 и поэтому ft e(t)x*(t)= e(t)z*(a)a°*(t,a)da, M[e(t)x*(t)]= [ m[e(t)z*(a)}oP*(t,a)da. Отсюда, используя формулу B.40), убеждаемся в справедливости равенст- равенства B.39). Учитывая обозначение B.23), равенство B.39) можно записать в виде M[e(t)x*(t)]=K(t), а равенство B.38) принимает вид G(t) = K{t)C*{t)R-\t). B.41) Таким образом, для построения матрицы G(t) необходимо определить K(t). Покажем, что матрица K(t) является решением уравнения Риккати, кото- которое использовалось в предыдущей главе при решении задачи об аналитическом конструировании регуляторов. По доказанному оптимальный фильтр определяется уравнением р = [A{t) - G(t)C(t)]p + G(t)z. Учитывая B.17), отсюда получаем e(t) = x(t) - p(t) = A(t)x(t) + B(t)w(t)[A(t)G(t)C(t)]p(t), G{t)z(t) = A(t)x(t) + B(t)w(t) - [A{t) - G(t)C{t)]p(t)- -G(t)C(t)x(t)-G(t)v(t). Отсюда следует, что e(t) = [A(t) - G(t)C(t)]e((t) + B(t)w(t) - G(t)v(t), B.42) причем случайный процесс e(t) имеет нулевое среднее значение, так как этим свойством обладают w(t) и v(t). Решение задачи B.25) определяется формулой B.20), где a(t,s) = = W(t,s)G(s). Поэтому оптимальной функции F(t), полученной в виде B.37), можно ставить в соответствие матрицу Коши W(?, 5), и тогда решение уравне- уравнения B.42) можно записать в виде e(t) = W(t,to)e(to)+ I W(t,s)[B(s)w(s) - G(s)v(s))ds. Jt0 Поскольку сигналы w(t) и v(t) не коррелированы между собой и с е(?о), то
470 Гл. 8. Стохастические системы K{t) =M[e(t)e*(t)] = W(t,to)M[e(to)e*(to)]W*(t,to) + t ft / W(t,s)B(s)M[w(s)w*(a)]B*(a)W*(t,a)dsda + to Jto t nt / W(t,s)G(s)M[v(s)v*(a)]G*(a)W*(t.a)dsda. to Jto Учитывая условия B.15), отсюда получаем = W(t,to)K(to)W*(t,to) + t W(t, s)[B(s)Q(s)B*(s) + G(s)R(s)G*(s)]W*(t, s) ds. B.43) to Так как матрица G(t) представима в виде B.41), то соотношение B.43) является интегральным уравнением относительно матрицы K(t). Дифферен- Дифференцируя его, будем иметь = K{to)W4t,to) + W(t,t0)K(t0)^ + at at [B(s)Q(s)B*(s) + G(s)R(s)G*(s)}W*(t, s) f)W*(t + W(t,s)[B(s)Q(s)B*(s) + G(s)R(s)G*(s)] ± + B(t)Q(t)B*(t) + G(t)R(t)G*(t). B.44) Из определения матрицы Коши W(t, s) следует, что ^M.=F(t)W(t,s), 9W2'S) =W*(t,s)F*(t), W(t,t)=E, B.45) at at где F(t) определяется формулой B.37). Поэтому * Г BW(t [ у /* эу [B(s)Q(s)B*(s) + G(s)R(s)G*(s)]W*(t, s) + r)W(t ч\ Л + W(t, s)[B(s) - Q(s)B*(s) + G(s)R(s)G*(s)] ^ 'ids = = F(t) f W(t,s)[B(s)Q(s)B*(s)+G(s)R(s)G*(s)}W*(t,s)ds + Jto W(t,s)[B(s)Q(s)B*(s) + G(s)R(s)G*(s)]W*(t,s)F*(t)ds = to = F(t)[K(t) - W(t,to)K(to)W*(t,to)] + [K(t) - W(t,to)K(to)W*(t,to)]F*(t). Последнее равенство в этой цепочке равенств получено на основе соотноше- соотношения B.43). Следовательно, из B.44) находим, что = ™Ш K(to)w4t,to) + w(t,to)K(to) д-^^1 + at at + F(t)[K(t) - W(t,to)K(to)W*(t,to)] + \K{t) - W(t,to)K(to)W*(t,to)]F*(t) + + R(t)Q(t)B*{t) + G(t)R(t)G*(t).
2. Прогноз и фильтрация случайных процессов в линейных системах 471 Так как справедливы тождества B.45), то отсюда следует, что k{t) = A{t)K{t)+K{t)A*{t)-K{t)C*{t)R1{t)C{t)K{t)+B{t)Q{t)B*{t), B.46) K(t0) = Ко, B.47) Рассматривая соотношение B.46) как уравнение относительно неизвестной матрицы K(t), находим, что оно является известным уравнением Риккати. В условии B.47) матрица Ко определяется формулой (см. B.23)) Ко = М[е(*о)е*(*о)] = M[x(to)x*(to)]. Решив задачу B.46), B.47), определяем матрицу G(t) по формуле B.41). Таким образом, при построении матрицы Q(t) нам не требуется решать уравнение Винера, а дифференциальное уравнение оптимального фильтра (в соответствии с B.17), B.37) и B.41)) имеет вид р = [A{t) - K{t)C*{t)R-\t)C{t)]p + K{t)C*{t)R-\t)z{t), p(t0) = в, B.48) где K(t) — решение задачи B.46), B.47), a R(t) — матрица, фигурирующая в условии B.15) для процесса, заданного системой B.13), B.14). Следовательно, оптимальный фильтр Каллмана-Бьюси B.13), B.14) определяется уравнением B.48). Для завершения анализа этого фильтра приведем без доказательства важ- важное утверждение, относящееся к асимптотическому поведению решения урав- уравнения B.48) при t —> оо, 2.6. Устойчивость оптимального фильтра Каллмана—Бьюси. Вы- Выше (см. гл. 5) был рассмотрен вопрос об управляемости и наблюдаемости де- детерминированных систем. Здесь нам потребуется уточнить эти понятия для стохастической системы B.13), B.14), в которой сигналы w(t) и v(t) подчинены прежним условиям B.15). Наряду с этой системой рассмотрим так называемую сопряженную ей систему х = -A*(t)x + C*(t)w(t), z(t) = B*(t)x(t) + v(t), B.49) в которой w(t) и v(t) — случайные процессы с нулевыми средними значениями и корреляционными матрицами M[v(t)v*(s)] = Q^fySit - 5), M[w(t)w*(s)] = R^fySit - s). Пусть W(?, s) и Z(t, s) — матрицы Копти уравнений x = A(t)x, x = -A*(t)x B.50) соответственно. Их можно представить в виде W(t, s) = v(t)v-\t), Z(t, s) = \ где v(t) и n(t) — произвольные фундаментальные матрицы этих систем, т. е. справедливы матричные тождества u(t) = A(t)u(t), fi(t) = -A*(t)n(t), W(t,t) = Z(t,t) = E, где Е — единичная матрица.
472 Гл. 8. Стохастические системы Отсюда последовательно получаем тождества ( dW(t,t) _! ! dt ^(t) = -v-l{t)A{t)v(t)v-\t) = -u-\t)A(t), Последнее из полученных тождеств означает, что z/*-1(t) является фундамен- фундаментальной матрицей второго из уравнений B.50), а поэтому Z(t,s) можно пред- представить в виде Z(t,s) = z/*-1(t)z/*E), т. е. справедлива формула Z(t,s) = W*(s,t). Введем обозначения т э,Т) = f W(T,t)B(t)Q(t)B*(t)W*(T,t)dt, to Т = f W*(t,t)C*(t)R-\t)C(t)W(T,t)dt to и будем пользоваться следующими определениями. Определение 2.1. Система B.13), B.14) называется вполне управляемой, если существует Т, Т > to, такое, что матрица Ф(^о,Т) является положитель- положительной. Эта система равномерно вполне управляемая, если существуют постоян- постоянные а, а и C такие, что в < аЕ ^ Ф{Ь + a, i) ^ (ЗЕ при всех t ^ to + <т. Определение 2.2. Система B.13), B.14) называется вполне наблюдаемой, если существует Т,Т > to, такое, что матрица Ф(Т, to) является положитель- положительной. Эта система равномерно вполне наблюдаема, если существуют положи- положительные постоянные а, а и C такие, что 0 < а < Ф(г — a,t < /3 при всех t > t0 + сг. В этих определениях в — нулевая матрица, а соотношение типа А ^ В означает, что матрица В — А положительна. Следует отметить, что приведенные определения управляемости и наблю- наблюдаемости с использованием матриц B.4) удобны, потому что позволяют сфор- сформулировать теорему об устойчивости оптимального фильтра Каллмана-Бьюси, в которой даются практически проверяемые достаточные условия. Что же касается непосредственно свойств управляемости и наблюдаемости системы B.13), B.14), выраженных через характеристики сигнала на выходе z(t), то удается установить следующий результат. Рассмотрим систему х = A(t)x, z = C(t)x(t) + v(t), t0 < t < T, B.51) которая получается из B.13), B.14) при B(t) = в и при прежних предполо- предположениях относительно матриц A(t) и C(t) и случайного сигнала v(t). Момент времени Т считается фиксированным.
2. Прогноз и фильтрация случайных процессов в линейных системах 473 Пусть, далее, р — заданный вектор, с помощью которого определим функ- функционал S = p*x(T). B.52) Требуется найти наилучшую оценку х(Т), Ей будет соответствовать случайная величина S = р*х(Т). Потребуем, чтобы оценка S была несмещен- несмещенной, т. е. чтобы выполнялось условие М[5] = О, а дисперсия ошибки при этом была минимальной: М[E — SJ} = min. Можно показать, что система B.51) наблюдаема тогда и только тогда, когда для каждого to существует число T(to) такое, что для некоторого функционала S, определяемого формулой B.52) можно найти несмещенную линейную оценку S, которая являлась бы функционалом от наблюдения z(t) на отрезке времени [to,T]. Другой результат, относящейся к этой проблеме, состоит в том, что здесь, как и для детерминированных систем, справедлив принцип двойственности: система B.13), B.14) вполне управляема тогда и только тогда, когда систе- система B.49) вполне наблюдаема. Таким образом, понятия управляемости и наблюдаемости стохастических систем опираются в конечном счете на понятие оптимальной оценки их состо- состояния. В этом — принципиальное отличие стохастический теории систем от ее детерминированного аналога. В частности, свойства управляемости и наблю- наблюдаемости оказываются доминирующими и при решении задач устойчивости стохастических систем. Теорема 2.1. Если система B.13), B.14) вполне наблюдаема и равномер- равномерно вполне управляема, то оптимальный фильтр B.48) равномерно асимпто- асимптотически устойчив, т. е. тривиальное решение однородного дифференциаль- дифференциального уравнения р = [A(t) - K(t)C*(t)R-\t)C{t)]p B.53) равномерно асимптотически устойчиво. 2.7. Оптимальная фильтрация коррелированных шумов. Рассмот- Рассмотрим прежнюю задачу об оптимальной фильтрации для линейной нестационар- нестационарной системы B.13), B.14). Однако теперь будем предполагать, что w(t) и v(t) — коррелированные случайные гауссовы процессы с нулевыми средними значени- значениями М[г>(?)] = 0, M[u>(?)] = 0 при всех t > 0 и коррелированными матрицами M[w(t)w*(s)] = Q(t)S(t - s), M[v(t)v*(s)] = R(t)S(t - s), M[w(t)v*(s)] =L(t)S(t-s), где Q(t) — неотрицательная матрица, R(t) — положительная матрица. Пред- Предположим, далее, что начальное состояние x(to) системы B.13), B.14) является не зависящим от v(t) и w(t) гауссовым случайным вектором с нулевым сред- средним значением М[х(?о)] = 0 и корреляционной матрицей М[х(?о)х*(?о)] = -^о? где Kq предполагается известной неотрицательной матрицей. Тем же методом, который был изложен выше, в рассматриваемом случае можно показать, что оптимальный фильтр определяется следующей задачей Коши: р =}A(t) - G(t)C(t)]p + G(t)z(t), p(t0) = 0, где матрица G определяется формулой G = [K(t)C*(t) + которой K(t) — решение уравнения Риккати
474 Гл. 8. Стохастические системы KA*{t)- - [KC*(t) + B(t)L(t)]R-\t)[C(t)K + L*(t)B*(t)] + ?(t)Q(t)?*(t) B.54) с начальным условием К (to) = Ко. Если воспользоваться обозначениями A(t) = A(t) - B{t)L(t)R-\t)C{t), Q{t) = Q(t) - L(t)R-\t)L*(t), то уравнение B.54) можно записать в виде К = A(t)K + KA*{t) - KC^R-^^CifyK + B(t)Q(t)B*(t), а уравнение фильтра B.54) при этом имеет вид p=[A(t)-K(t)C*(t)R-1(t)C(t)]p + + [KWWR-1® + DWLWR-^tMt^pito) = 0. B.55) Соответствующее ему однородное уравнение р = [A{t) - K{t)C*{t)R-\t)C{t)]p B.56) отличается от уравнения B.53) лишь тем, что в B.56) вместо матрицы A(t) стоит матрица A(t). Значит, достаточные условия устойчивости оптимального фильтра B.55) можно сформулировать аналогично тому, как это сделано в теореме 2.2 для фильтра B.48). 3. Уравнения, определяющие оптимальные фильтры В предыдущем параграфе были рассмотрены две задачи, относящиеся к управлению стохастическим процессом. Первая задача посвящена построению оптимальной структуры системы, отслеживающей подаваемый на ее вход по- полезный сигнал при наличии помех. Анализ показал что она сводится к ре- решению уравнения Винера (его также называют уравнением Винера-Хопфа) относительно импульсной переходной функции. Во второй задаче для системы B.13)), B.14) требуется найти оптимальный фильтр в форме B.56), выход ко- которого p(t) являлся бы оптимальной оценкой x(t) состояния x(t) системы B.13), B.14). Эта задача в конечном счете сводится к решению уравнения Риккати. В этом параграфе мы рассмотрим некоторые результаты анализа уравне- уравнений Винера-Хопфа и Риккати. 3.1. Уравнение Винера—Хопфа. Рассмотрим объект со скалярным сиг- сигналом x(t) на выходе, на вход которого поступает сигнал Lp(t) = h(t) +/(?), где h(t) — полезный сигнал, a f(t) — помеха, и будем считать, что в установив- установившемся режиме эти сигналы связаны соотношением (см. A.4)) 2) оо Г x{t)= I ip(t-s)K(s)ds, C.1) j — оо где K(s) — импульсная переходная функция. Тогда соответствующее уравне- уравнение Винера—Хопфа относительно K(t) в задаче фильтрации принимает вид (см. B.6)) ) Иначе говоря, речь идет о процессе, который описывается неоднородным уравнени- уравнением п-го порядка с постоянными коэффициентами, характеристическое уравнение которого имеет корни только с отрицательными вещественными частями.
3. Уравнения, определяющие оптимальные фильтры 475 Jo R(p(t-s)K(s)ds, t>0, C.2) где Rh(p и Rv — скалярные корреляционные функции. Обозначим, далее, через Sh(p{uj) и S^iu) соответствующие им спектральные плотности. Построим решение уравнения C.2). С этой целью S^{u) представим в виде S^(cj) = Ф{гш)Ф{-гш) = |Ф(го;)|2. C.3) Это можно сделать, так как S^iu) — четная положительная функция, т. е. При этом нули функции Ф(р) лежат в левой полуплоскости комплексной плос- плоскости р = а + г/3. Поэтому система с передаточной функцией Ф~г(р) будет асимптотически устойчивой. Предположим, что искомая оптимальная система состоит из последова- последовательно соединенных объектов с передаточными функциями Ф~1(р) и L(p), где L(p) подлежит определению (рис. 8.3.1). Передаточную функцию искомой оп- оптимальной системы обозначим через W(p). Тогда WM - т где K°(t) — решение интегрального уравнения Винера-Хопфа C.2). Спек- Спектральная плотность Sa(u) сиг- сигнала <j(t) на выходе объекта с ; | передаточной функцией Ф~г(р) ' в соответствии с формулами &{?) . nil) ! N U) A.7) и C.3) будет следующей: т. е. <j(t) — стационарный слу- случайный процесс типа белого шу- шума с ограниченной спектраль- рис g ^ i ной плотностью. В соответствии с определением такого процесса его корреляционная функция имеет вид R°(t) = S(t), где 5(t) — E-функция Дирака. Отсюда следует: для того чтобы передаточная функция W(p) в систе- системе C.1) была оптимальной, необходимо чтобы объект с передаточной функ- функцией L(p) оптимальным образом преобразовывал сигнал cr(t). Поэтому функ- функция l(t), определяемая формулой />ОО L(p) = / l(t)e-otdt, Jo должна удовлетворять следующему уравнению Винера-Хопфа: /»ОО Rha(t)= Ra(t-s)l(s)ds, ?>0, Jo которое, согласно формуле C.3), принимает вид /»ОО Rha(t) = / l(s)S(t-s)ds, t>0. Jo Поэтому l(t) = Rha(t). Согласно определению спектральной плотности (см. B.5)) имеем
476 Гл. 8. Стохастические системы оо Rha(t) = — [ Sha(ou)eluJtdoj, C.4) 2тг J — оо где a(t) — сигнал на выходе объекта с передаточной функцией Ф-1(р), на вход которого подается сигнал <p(t). Пусть m(t) — импульсная переходная функция объекта с передаточной функцией Ф~г (р). Тогда установившийся процесс в этом объекте определяется формулой ОО ОО a(t) = / cp(s)m(t — s) ds = / m(s)cp(t — s) ds, — (X) —(X) и, следовательно, оо RTh{t)= f m(s)R('h{t-s)ds, — оо оо /»ОО /» /»ОО = / Rah(t)e-iiOtdt= / / m(s)R?h(t-s)e-ibjtdtds, Jo J Jo Так как 5Л<7(о;) = Sah(u), то и формулу C.4) можно записать в виде и поэтому L(P) = I Учитывая первую формулу из B.3), получаем передаточную функцию ис- искомой оптимальной системы оо 1 /*оо р chip (, Л W(p) = ——— / e~pt / ж. К {eibjtdujdt. C.5) — ОО Тем самым задача полностью решена. Знание передаточной функции W(p) позволяет определить соответствующую ей импульсную переходную функцию K°(t), которая является решением уравнения Винера-Хопфа. Для этого до- достаточно воспользоваться формулой обращения из операционного исчисления. Если же спектральные плотности S^(cj) и Shtp(ou) являются дробно-рациональ- дробно-рациональными функциями параметра ш, то задача принципиально упрощается, и W{p) можно найти достаточно просто.
3. Уравнения, определяющие оптимальные фильтры 477 В самом деле, в этом случае по формуле C.3) находим, что Ф(р) — дробно- рациональная функция, все нули которой, как предполагалось выше, располо- расположены в левой полуплоскости комплексной плоскости р. Полагая Ф(-ъи) находим, что функция К(р) также дробно-рациональна, и ее можно предста- представить в виде К(р) = К+(р) + К~(р), где К+(р) имеет полюсы только в левой полуплоскости, а полюсы функции К~ (р) расположены в правой полуплоско- полуплоскости. Тогда интеграл -Г Jtdt Ф{—гио) равен сумме вычетов функции R(iuj)elu;t по всем особым точкам функ- функции K(iz), расположенным в верхней полуплоскости комплексного переменно- переменного z, т. е. представляет собой оригинал функции F(t), изображением которой является функция K^~{iz). Поэтому ОО K+(iz) = / F(t)e-luJtdt, F(t) = — / K+(iuj)eluJtduj. Jo 2тг J — сю Тогда из формулы C.5) получаем W(ioj) = Ф{гш) Отсюда следует, что Тем самым получена окончательная формула для определения передаточ- передаточной функции оптимального фильтра в случае, когда спектральные плотности Sh^(uj) и S^(uj) являются дробно-рациональными функциями от и. 3.2. Решение уравнения Винера—Хопфа методом неопределенных коэффициентов. До сих пор, рассматривая задачу об оптимальной филь- фильтрации линейной системой, мы исходили из того, что сигнал x(t) на выходе линейной системы должен максимально отслеживать полезный сигнал h(t) на ее выходе. Тем же методом решается и более общая задача, которая состоит в следующем. Пусть процесс описывается стационарным уравнением х = Ах + Вер, в котором А и В — постоянные матрицы размерностей п х п и п х т соот- соответственно. Сигнал на входе cp(t) имеет две составляющие: где h(t) — полезный сигнал, a f{t) — помеха с теми же статистическими ха- характеристиками, что и в уравнении C.1). Кроме того, предполагается, что тривиальное решение уравнения х = Ах
478 Гл. 8. Стохастические системы асимптотически устойчиво, и, следовательно, установившийся процесс в систе- системе определяется формулой x(t) = \ W(s)ip(t-s)ds, j — oo где W(t) — матрица размерности п х га, однозначно определяемая матрица- матрицами А и В по формуле w [0 при t < 0. Задача состоит в том, чтобы подобрать параметры системы так, что- чтобы максимально точно отслеживать сигнал ОО y(t)= [ где Ф(Ь) — заданная матрица. Критерием качества здесь берется функцио- функционал l\t) = M[e*(t)e(t)] = SpM[e(t)e*(t)j, где e(t) = x(t) - y(t). Тем же способом, который изложен в предыдущем параграфе, можно пока- показать, что оптимальная матрица Wo(t) удовлетворяет следующему уравнению Винера-Хопфа: /»ОО Ryv(t)= W{a)Rp{t-a)da, t > 0. C.6) Jo В соответствии с определением матрицы W(t) она является нулевой при t < 0 (см. C.9)). В то же время корреляционные матрицы Ryif(t) и R^it) не нулевые при t < 0. Поэтому, вводя матрицу f ?!(*) 1 } \в при t > 0, решение уравнения C.6) можно рассматривать при всех вещественных значе- значениях ?, записав его в виде V{s)Rp{t -s)ds = Ry(p(t) + R(t), -oo < t < oo. C.7) К обеим частям этого уравнения применим преобразование Фурье3), положив ОО F(s) = [ R(a)e~lsada, — oo —oo oo oo Fy(p(s) = I Ry^(a)e-lsada, Y(s) = f W(a)e~lsada. Тогда ) Получаемые при этом выражения определяют спектральные плотности соответст- соответствующих сигналов. Однако будем обозначать их символом F, а не S, чтобы подчеркнуть связь получаемых выражений с преобразованием Фурье.
3. Уравнения, определяющие оптимальные фильтры 479 оо оо оо оо e~lst f W(a)R^(t-a)dads= f W(a) f R^(t - a)e~lstdadt. j j j — oo —oo —oo —oo Вводя замену переменной интегрирования C = t — се, получим оо оо оо оо Г W(a) ( Rv{t-a)e-istdads= j W(a)e~isada f —oo —oo и поэтому из C.11) получаем уравнение Y(s)F*(s) = Fyv(s) + F(s), C.8) из которого нужно определить прямоугольную матрицу Y(s). Так как элемен- элементы матрицы R^f^s) равны нулю при отрицательных значениях s, то их особые точки могут быть только в правой полуплоскости. Элементы матрицы F(p(s) и Fy(^(s) могут иметь особенности во всей комплексной плоскости s. Теми же свойствами должны обладать матрица Y(s)F(p(s). Поэтому интересующее нас решение Y(s) должно удовлетворять урав- уравнению {Y(s)F*>(s)}+ = {Fw>(s)}+, C.9) где { }+ — та часть функции, которая имеет особенности только в левой по- полуплоскости. Точное применение этой операции к произвольной функции H(s) означает, что / h(t)e~stdt, h(t) = — / H(s)etsds. JO 2?r J-iuj В частном случае, когда H(s) является рациональной функцией или мат- матрицей с рациональными по s элементами, операция {}+ эквивалентна тому, чтобы собрать те члены, которые имеют полюсы только в левой полуплоско- полуплоскости. Поиск оригинала для этой группы слагаемых не представляет большого труда, и функция h(t) легко определяется. Далее будем предполагать, что Fip(s) удовлетворяет следующим условиям. 1. F^f^s) действительна при всех комплексных значениях переменной s = = а + г/5. 2. [F^(—s)]2 = F(p(s) и, следовательно, матрица F^iiuo) при действитель- действительном uj является эрмитовой. 3. x*F(~p(iiu)x ^ 0 для произвольного вектора х и каждого действительного конечного со. 4. Матрица [F^s)] (обратная к F(p(s)) является аналитической вдоль мнимой оси. Следовательно, определитель detF^(s) не должен иметь ни одного конеч- конечного нуля на мнимой оси. Записывая уравнение C.8) в виде Y(s) = [py^s) + F(s)} g^, A(s) = det F*(s), C.10) находим, что элементы матрицы G(s) не имеют полюсов на мнимой оси и, та- таким образом, являются аналитическими в полосе вдоль мнимой оси, а каждый член уравнения C.10) также аналитичен в этой полосе. Значит, мнимую ось можно брать в качестве пути интегрирования при применении к этому урав- уравнения обратного преобразования Фурье.
480 Гл. 8. Стохастические системы Определитель A(s) можно представить в виде A(s) = A+(s)A_(s), где все полюсы и нули A+(s) лежат в левой полуплоскости, а полюсы и нули A~(s) — в правой. Уравнение C.10) запишем в виде A+(s)Y(s) = д^ ^ Так как матрица Y(s) является изображением импульсной переходной функ- функции K(t), описывающей устойчивый стационарный процесс, то ее полюсы должны быть только в левой полуплоскости. Кроме того, она должна удо- удовлетворять уравнению C.9). Поэтому J jLj . C.11) Первое слагаемое в правой части этого уравнения известно полностью, и оно определяет функцию G(t) формулами Второе слагаемое в правой части уравнения C.11) может иметь полюсы в левой полуплоскости только за счет матрицы G(s). Матрица F(s), хотя и не известна, но по своему определению может иметь полюсы лишь в правой полуплоскости. Поэтому из-за матрицы F(s) количество полюсов Y(s) в левой полуплоскости не увеличивается. Полюсы элемента, стоящего на пересечении j-ft строки и fc-ro столбца матрицы будут состоять из полюсов элементов fc-ro столбца матрицы G(s), и этот эле- элемент можно представить в виде -1 / \ -1 р=0 Коэффициенты полиномов Pjk(s) не известны, так как не известна матрица F(s). Поэтому основная задача теперь состоит в том, чтобы определить степень этого полинома и его коэффициенты при всех j и к. Уравнение C.11) теперь запишем в виде системы уравнений \ (зл2) j = 1, 2, ..., п; к = 1, 2, ..., т. Отсюда приходим к выводу, что оптимальную функцию Yjk(s) можно искать в виде
3. Уравнения, определяющие оптимальные фильтры 481 Здесь Ъ1 — нули полинома A+(s), dv и а& — известные постоянные. Коэффи- Коэффициенты ср подлежат определению. Подставляя эту функцию в уравнение C.12) и приравнивая коэффициенты в левой и правой частях полученного тождества, относящиеся к одним и тем же полюсам в левой полуплоскости, получим систему линейных алгебраиче- алгебраических уравнений относительно неизвестных ср. Число линейных независимых уравнений, полученных таким способом, определяет число неизвестных коэф- коэффициентов. Таким образом, в рассматриваемом случае решение уравнения Винера- Хопфа сводится к последовательному выполнению следующих операций. 1. Введением вспомогательной неопределенной матрицы R(t) уравнение C.6) продолжено на всю вещественную ось переменной t. В итоге получаем уравнение C.7). 2. Преобразованием Фурье получаем уравнение C.8), из которого выделяем только ту часть, которая определяет Y(s) с полюсами в левой полуплоскости (см. уравнение C.9)). 3. Факторизуем определитель A(s) = detF^(s) : A(s) = A+(s)A-(s). C.14) 4. Решение уравнения C.9) представляем в виде компонент Yjk(s) матри- матрицы Y(s), которые ищем в виде C.13). 5. Из C.12) и C.13) неизвестные коэф- коэффициенты ср находим, приравнивая выче- вычеты, относящиеся к одним и тем же полю- полюсам в левой полуплоскости, а затем подсчи- подсчитываем число линейно независимых урав- уравнений, полученных таким образом. 6. Решаем полученную систему урав- уравнений и тем самым определяем элементы Yjk(s) искомой матрицы Y(s). Пример 3.1. Рассмотрим систему с двумя входами и одним выходом, изображенную на рис. 8.3.2. Предположим что на оба входа поступают одинаковые полезные сигналы: h\(t) = h,2(t) = h(t), но загрязняются они разными белыми шумами fi(t) и /2@- Поэтому устано- установившийся процесс описывается уравнением !(t - «) + W2(s)<p2(t - s)} ds. Будем считать, что назначение фильтра состоит в том, чтобы оптимально отслеживать сигнал h(t), т. е. в этом случае y(t) = h(t). Будем предполагать, что спектральные плотности входных сигналов определяются формулами F(s) = r^, F\s)=Fb(s) = ±, F( а сигналы ft, Д и /2 не коррелированы. Используя векторные обозначения cp(s) = {<?i(? h(t) + /2@M вычислим матрицы спектральной плотности. = (МО +
482 Гл. 8. Стохастические системы Имеем Fi2(s)\ F22(s) ' где ). Следовательно, / 3-. 2A - 1 V 1-s2 Аналогично находим, что 1 5 4A / 1 -s2 -s2 -s2 5- 41- )) s2 1S' -1 3-s2 1-s2 2(l-s2)/ Так как идеальный сигнал y(t) по предположению должен совпадать с h(t), то имеем ^ = J -s)ds = h(t), C.15) где ^i(s) и ^2E) — идеальные импульсные переходные функции первого и второго каналов в рассматриваемой системе. Второе равенство в системе C.15) позволяет положить ^i(s) = ^2E) = 5(s)/2. Поэтому для идеальной системы имеем матрицу спектральных плотностей Y(s) = {l/2,1/2}. Далее вычисляем определитель A(s) = detF^E) и производим его факторизацию C.14). В итоге получаем + 1) W Оптимальную матрицу фильтра ищем в виде (см.C.13)) где Pi(s) и P2(s) — полиномы, степени которых нужно определить в процессе дальнейшего решения задачи. Подставляя найденные значения матриц Flfi(s), FyLp(s), G{s) и Y(s) в урав- уравнение C.11), получим / 3- \ 5-s2 Вычисляя и приравнивая вычеты относительно полюсов s = — 1 и s = —л/7, отсюда получаем четыре уравнения для Pi(s) и P2(s): = 1, л/7-1 л/7-1 л/7-1 л/7-1 = 0, 2Pi(->/7) - Р(->/7) = 0. Эти уравнения попарно зависимы, и поэтому остаются лишь два независи- независимых уравнения. Поскольку Pi(s) и P2(s) — полиномы, то этими уравнениями
3. Уравнения, определяющие оптимальные фильтры 483 определяются полиномы, каждый из которых содержит лишь одно слагаемое. Поэтому можно положить P\(s) = Ci, a p2{s) — С2? гДе ci и С2 определяются уравнениями с\ + С2 = \/7, 2ci — С2 = 0. Следовательно, можно положить A(s) = —?-=, P2(s) = —?-=. Оптимальный фильтр имеет импульсную переходную матрицу W(?) = = {Wi(t), W2(t)}, спектральная плотность которой имеет вид у/7)' A 3.3. Уравнение Риккати. Решая задачи синтеза оптимального управ- управления для линейных систем с квадратичным критерием качества, мы прихо- приходили к необходимости решать матричное уравнение Риккати. То же уравнение потребовалось решать и при построении оптимального фильтра Каллмана- Бьюси. Можно указать и другие задачи теории управления, решение кото- которых приводит к необходимости исследовать свойства решений этого уравнения. Здесь мы отметим еще одно (не упоминавшееся выше) его свойство. Пусть A(t), C(t), Q(t) и R(t) — непрерывные квадратные матрицы, причем A(t) и Q(t) имеют размерность пхп, Q(t) неотрицательна, R(t) положительна и симметрична размерности тхт, C(t) — прямоугольная матрица размерности 7П х п. Соответствующее этим матрицам уравнение Риккати имеет вид К = A(t)K + KA*(t) - KC*(t)R-\t)C(t)K + Q(t). C.16) Если все перечисленные матрицы постоянны, то в ряде задач теории управле- управления (например, в задаче об оптимальной стабилизации) приходится рассмат- рассматривать алгебраическое уравнение Риккати АК + К А* - KC*R~XCK + Q = 0. Уравнение C.16) обычно решается с начальным условием К (to) = К0, C.17) где К0 — заданная матрица. Теорема 3.1. Решение уравнения C.16) с начальным условием C.17), где К0 > 0, удовлетворяет условию для всех t ^ to, где Ф(?, s) — фундаментальная матрица Коши уравнения х = A(t)x. Доказательство. Уравнение C.16) запишем в виде К = [A(t) - KC^^R-^^C^K + K[A*(t) - C*(t)R-1(t)C(t)K] + + KC^^R-^^C^K + Q(t). C.18) Обозначим через Ф(?,?о) ~~ фундаментальную матрицу Коши уравнения у = [A{t) + K(t)C*(t)R-2(t)C(t)]y,
484 Гл. 8. Стохастические системы где K(t) — решение задачи C.16), C.17). Тогда уравнение C.18) с начальным условием C.17) эквивалентно интегральному уравнению + K(s)C*(s)R-1(s)C(s)K(s)№(t,sds. C.19) В этом можно убедиться непосредственной проверкой. Из уравнения C.19) находим, что матрица K(t) неотрицательна по крайней мере при достаточно малой величине t — to, ибо по предположению К0 > 0. Су- Существование решения уравнения C.19) при таких значениях t можно доказать, используя принцип сжатых отображений. С другой стороны, обозначая через Ф(?, s) фундаментальную матрицу Ко- Копти уравнения х = A(t)x, из C.16) и C.17) получаем интегральное уравнение Jt0 Последнее слагаемое в правой части этого уравнения представляет собой мат- матрицу Грама, которая может быть лишь неотрицательной. Поэтому Ф(t,s)Q(s)Ф*(t,s)ds. Полученная оценка матрицы K(t) справедлива для всех t, превосходя- превосходящих t°. Поэтому она может быть использована для определения постоянной Липшица, а это позволяет применить теорему Коши существования и един- единственности решения уравнения C.16) с начальным условием C.17).
Список литературы Глава 1 Андреев Ю.Н. Управление конечномерными линейными объектами. — М.: Наука, 1976. Атаманов В.Н., Колмановский В.Б., Носов В.Р. Математическая теория конструирования систем управления. — М.: Высшая школа, 2003. Балакришнан А.В. Прикладной функциональный анализ. — М.: Мир, 1980. Бек В.В., Вишнлуов Ю.С., Махлин А.Р. Интегрированные системы тер- терминального управления. — М.: Наука, 1989. Белозеров В.Е., Капустян В.Е. Геометрические методы модального управ- управления. — Киев: Наукова думка, 1999. Бессекерский В. А. Динамический синтез систем автоматического регули- регулирования. — М. Наука, 1970. Бутковский А.Г. Методы управления системами с распределенными пара- параметрами. — М.: Наука, 1975. Бутковский А.Г., Пустыльников A.M. Теория подвижного управления си- системами с распределенными параметрами. — М.: Наука, 1980. Бутковский А.Г., Самойленко Ю.И. Управление квантово-механическими процессами. — М.: Наука, 1984. Гайцгори В. Г. Управление системами с быстрыми и медленными движени- движениями. — М.: Наука, 1991. Гельднер К., Кубик С. Нелинейные системы управления. М.: Мир, 1987. Дезоэр Ч., Видьясагар X. Системы с обратной связью: вход-выходные со- соотношения. — М.: Наука, 1983. Деруссо Л., Рой Р., Клоуз Ч. Пространство состояний в теории управле- управления. — М.: Наука, 1970. Дементьев Б.А. Кинетика и регулирование ядерных реакторов. — М.: Ато- миздат, 1978. Дмитриевский А.А., Лысенко Л.Н. Прикладные задачи теории оптималь- оптимального управления движением беспилотных летательных аппаратов. — М.: Ма- Машиностроение, 1978 Дорф Р., Бишоп Р. Современные системы управления. — М.: Лаборатория базовых знаний, 2002. Егоров А.И., Еременко В.А., Копытин Н.Л., Малашинин И.И. Пробле- Проблемы использования методов современной теории управления в энергетике (об- (обзор). - М.: Госатом СССР, 1988. Елкин В.И. Редукция нелинейных управляемых систем. — М.: Наука , 1997.
486 Список литературы Зайцев Г. Ф. Теория автоматического управления и регулирования. — Киев: Выща школа, 1988. Зарипов М.Ф., Сулейманов Н.Т., Петрова Н.Ю. Надежность элементов и средств управления с распределенными параметрами. — М.: Наука, 1980. Знаменская Л.П. Управление упругими колебаниями. — М.: Физматлит, 2004. Иванов В.А., Фалдин Н,В. Теория оптимальных систем автоматического управления. — М.: Наука, 1981. Кадыров Я.Б. Переходные процессы в системах с распределенными пара- параметрами. — М.: Наука, 1968. Каллман Р., Фалб П., Арбиб М. Очерки по математической теории сис- систем. — М.: Мир, 1971. Катковник В.Я., Полуэктов Р.А. Многомерные дискретные системы уп- управления. — М.: Наука, 1966. Кондратьев Г.В. Геометрическая теория синтеза оптимальных стационар- стационарных гладких систем управления. — М.: Физматлит, 2003. Коренев Г.В. Введение в механику управляемого тела. —М.: Наука, 1964. Краснов Н.Ф., Кошевой В.Н. Управление и стабилизация в аэродинами- аэродинамике. — М.: Высшая школа, 1978. Крумм Л.А. Методы приведенного градиента при управлении электроэнер- электроэнергетическими системами. — Новосибирск: Наука, 1977. Крутько П. Д. Обратные задачи динамики управляемых систем. — М.: Наука, 1988. Лебедев А.А, Красильщиков М.Н., Малышев В.В. Оптимальное управле- управление космическими летательными аппаратами. — М.: Машиностроение, 1974. Михайлов B.C. Теория управления. — Киев: Выща школа, 1988. Меркулов В.И. Управление движением жидкости. — Новосибирск: Наука, 1981. Месарович М., Такахара Я. Общая теория систем: математические осно- основы. — М.: Мир, 1978. Неймарк Ю.И., Коган Н.Я., Савельев В.П. Динамические модели теории управления. — М.: Наука, 1985. Овсянников Д.А. Математические методы управления пучками. — Л.: Изд-во ЛГУ, 1981. Овсянников Д.А. Моделирование и оптимизация пучков заряженных ча- частиц. - Л.: Изд-во ЛГУ, 1996. Овсянников Д.А., Егоров И.В. Математическое моделирование систем формирования электронных и ионных пучков. — СПб.: Изд-во СПУ, 1998. Осипов Ю.С Позиционное управление в параболических системах // Приел, матем. и мех. —1977. — Т. 42, № 4. — С. 341-376. Осипов Ю.С, Кряжимский А.В., Максимов В.И. Задачи динамичес- динамической регуляризации для систем с распределенными параметрами. /Ин-т матем. и мех.— Препр. — Свердловск, 1991. — 104 с. Островский P.M., Берединсумй Т.А. Оптимизация химико-технологичес- химико-технологических процессов. — М.: Химия, 1984. Пантелеев А.В., Бордаковский А.С. Теория управления в примерах и за- задачах. — М.: Высшая школа, 2003. Первозванский А.А. Курс теории автоматического управления. — М.: Наука, 1986.
Список литературы 487 Подчукаев М.А. Аналитические методы теории автоматического управле- нимя. — М.: Физматлит, 2002. Покорный Ю.В. и др. Дифференциальные уравнения на графах. — М.: Физматлит, 2004. Попов Е.П. Прикладная теория процессов управления в нелинейных систе- системах. — М.: Наука, 1973. Попов Е.П. Теория линейных систем автоматического регулирования и управления. — М.: Наука, 1978. Портер У. Современные основания общей теории систем. — М.: Наука, 1971. Рей У. Методы управления технологическими процессами.— М.: Мир, 1983. Синергетика и проблемы теории управления. / Под ред. А.А. Колеснико- Колесникова. — М.: Физматлит, 2004. Смирнов Е. Я. Некоторые задачи математической теории управления. — Л.: Изд-во ЛГУ, 1981. Солодов А.В., Петров Ф.с. Линейные автоматические системы с перемен- переменными параметрами. — М.: Наука, 1971. Справочник по теории автоматического управления /Под ред. А.А. Кра- совского. — М.: Наука, 1981. Стрейц В. Метод пространства состояний в теории дискретных линейных систем управления. — М.: Наука, 1965. Фимллипс Ч., Харбор Р. Системы управления с обратной связью. — М.: Лаборатория базовых знаний, 2001. Цыпкин Я.З., Попков Ю.С. Теория нелинейных импульсных систем. — М.: Наука, 1973. Глава 2 Барбашин Е.А. Введение в теорию устойчивости. — М.: Наука, 1967. Вайман М.Я. Исследования систем, устойчивых "в большом". — М.: Наука, 1981. Веретенников И.Г. Устойчивость и колебания нелинейных систем. — М.: Наука, 1984. Воротников В.П., Румянцев В.В. Устойчивость и управление по части ко- координат фазового вектора динамических систем: теория, методы и приложе- приложения. — М.: Научный мир, 2001. Гелиг А.Х., Леонов Г.А., Якубович В.А. Устойчивость нелинейных систем с неединственным состоянием равновесия. — М.: Наука, 1978. Горяченко В.Д. Методы исследования устойчивости ядерных реакторов. — М.: Атомиздат, 1977. Демидович Б.П. Лекции по математической теории устойчивости. — М.: Наука, 1967. Дымников В.П., Филатов А.П. Устойчивость крупномасштабных атмо- атмосферных процессов. — Л.: Гидрометеоиздат, 1991. Зубов В.П. Методы A.M. Ляпунова и их применение. — Л.: Изд-во ЛГУ, 1957. Зубов В.П. Устойчивость движения. — М.: Высшая школа, 1973. Зубов П.В. Методы анализа динамики управляемых систем. — М.: Физ- Физматлит, 2003.
488 Список литературы Красовский Н.Н. Некоторые задачи теории устойчивости движения. — М.: ГИФМЛ, 1959. Малкин И.Г. Теория устойчивости движения. — М.-Л.: ГИТТЛ, 1952. Матросов В.М. Метод векторных функций Ляпуновка: анализ динамиче- динамических свойств нелинейных систем. — М.: Наука, 2001. Меркин Д.Р. Введение в теорию устойчивости движения. — М.: Наука, 1987. Месарович М., Такахара Я. Общая теория систем: математические осно- основы. — М.: Мир, 1978. Ройтенберг Я.Н. Автоматическое управление. — М.: Наука, 1978. Сиразетдинов Т.К. Устойчивость систем с распределенными параметра- параметрами. — Казань: Изд-во Каз. авиац. ин-та, 1971. Глава 3 Летов A.M. Устойчивость нелинейных замкнутых систем. — М.: Наука, 1962. Лефшец С. Устойчивость нелинейных систем автоматического управле- управления. — М.: Мир, 1967. Ройтенберг Я,Н. Автоматическое управление. — М.: Наука, 1978. Резван В. Абсолютная устойчивость автоматических систем с запаздыва- запаздыванием. — М.: Наука, 1983. Формальский A.M. Управляемость и устойчивость систем с ограниченны- ограниченными ресурсами. — М.: Наука, 1974. Хэррис К., Валенка Ж. Устойчивость динамических систем с обратной связью. — М.: Мир, 1987. Глава 4 Алфимов А.А., Фролов К.В. Взаимодействие нелинейных колебательных систем с источником энергии. — М.: Наука, 1985. Андронов А.А., Витт А.А., Хайкин С.Э. Теория колебаний. — М.: ГИФМЛ, 1959. Анищенко B.C. Сложные колебания в простых системах. — М.: Наука, 1990. Бабаков И.М. Теория колебаний. - М.: ГИТТЛ, 1958. Бабицкий В.И., Крупенин В.Л. Колебания в сильно нелинейных систе- системах. — М.: Наука, 1985. Бидерман В.Л. Прикладная теория механических колебаний. — М.: Выс- Высшая школа, 1972. Булгаков Б.В. Колебания. - М.: ГИТТЛ, 1954. Зубов В.И. Колебания и волны. — Л.: Изд-во ЛГУ, 1989. Зубов В.И. Теория колебаний. — М.: Высшая школа, 1979 Журавлев В.Ф., Климов Д.М. Прикладные методы в теории колебаний. — М.: Наука, 1988. Капранов М.В., Кулешов В.Н., Уткин P.M. Теория колебаний в радиотех- радиотехника. — М.: Наука, 1984. Кононенко В.О. Колебательные системы с ограниченным возбуждени- возбуждением. — М.: Наука, 1964.
Список литературы 489 Ланда П. С. Автоколебания в системах с конечным числом степеней свобо- свободы. - М.: Наука, 1980. Ланда П.С. Автоколебания в распределенных системах. — М.: Наука, 1983. Малкин И. Г. Некоторые задачи теории нелинейных колебаний. — М.: ГИТТЛ, 1856. Сидоров И.М., Тимофее М.М., Многочастотные колебания в нелинейных системах управления. — М.: Наука, 1984. Тондл А. Автоколебания механических систем. — М.: Мир, 1979. Фейгин М.И. Вынужденные колебания с разрывными нелинейностями. — М.: Наука, 1994. Шестаков А. А. Обобщенный прямой метод Ляпунова для систем с рас- распределенными параметрами. — М.: Наука, 1990. Глава 5 Андреев Ю.Н. Управление конечномерными линейными объектами. — М.: Наука, 1976. Знаменская Л.И. Управление упругими колебаниями. — М.: Физматлит, 2004. Куржанский А.Б. Управление и наблюдение в условиях неопределеннос- неопределенности. — М.: Наука, 1973. Максимов В. И. Задача динамического восстановления входов бесконечно- бесконечномерных систем. — Екатеринбург: УРО РАН, 2000. Месарович М., Такахара Я. Общая теория систем: математические осно- основы. — М.: Мир, 1978. Ройтенберг Я,Н. Автоматическое управление. — М.: Наука, 1978. Уоэм М. Линейные многомерные системы управления. — М.: Наука, 1980. Формальский A.M. Управляемость и устойчивость систем с ограниченны- ограниченными ресурсами. — М.: Наука, 1974. Глава 6 Егоров А.И. Оптимальное управление линейными системаим. — Киев: Вы- ща школа, 1988. Глава 7 Александров А.Г. Оптимальные и адаптивные системы. — М.: Высшая шко- школа, 1987. Андреев Ю.Н. Управление конечномерными линейными объектами. — М.: Наука, 1976. Акуленко Л.Д. Асимптотические методы оптимального управления. — М.: Наука, 1987. Афанасьев А.В., Дику cap В.В., Милютин А. А., Чуканов С. А. Необходимое условие в оптимальном управлении. — М.: Наука, 1990. Алексеев В.М., Галеев Э.М., Тихомиров В.М. Оптимальное управление. — М.: Наука, 1979. Ащепков Л. Т. Оптимальное управление разрывными системами. — Ново- Новосибирск: Наука, 1987. Бабе Г.Д., Гусев Е.Л. Математические методы оптимизации интеференци- онных фильтров. — Новосибирск: Наука, 1987.
490 Список литературы Балакришнан А. Введение в теорию оптимизации в гильбертовом прост- пространстве. — М.: Мир, 1974. Батурин В.А., Урбанович Д.Е. Приближенные методы оптимального уп- управления, основанные на принципе расширения. — Новосибирск: Наука, 1997. Боэюко А.Е. Оптимальное управление в системах воспроизведения вибра- вибраций. — Киев.: Наукова думка, 1977. Болтянский В.Г. Математические методы оптимального управления. — М.: Наука, 1969. Болтянский В.Г. Оптимальное управление дискретными системами. — М.: Наука, 1973. Брайсон А., Хо Ю-Ши. Прикладная теория оптимального управления. — М.: Мир, 1872. Варга Дсис. Оптимальное управление дифференциальными и функциональ- функциональными уравнениями. — М.: Наука, 1977. Волгин Л.И. Оптимальное дискретное управление динамическими систе- маим. — М.: Наука, 1986. Васильев Ф.П., Ишмухаметов А.З., Потапов М.М. Обобщенный метод моментов в задачах оптимального управления. — М.: Изд-во МГУ, 1989. Габасов Р., Кириллова Ф.М. Качественная теория оптимальных процес- процессов. — М.: Наука, 1971. Габасов Р., Кириллова Ф.М. Особые оптимальные управления. — М.: Нау- Наука, 1978. Гурман В.И. Принцип расширения в задачах управления. — М.: Наука, 1985. Гурман В.И. Вырожденные задачи оптимального управления. — М.: Наука, 1977. Дегтярев Г.Л., Сиразетдинов Т. К. Теоретические основы оптимально- оптимального управления упругими космическими аппаратами. — М.: Машиностроение, 1986. Деруссо Л., Рой Р., Клоуз Ч. Пространство состояний в теории управле- управления. — М.: Наука, 1970. Дыхта В.А., Самсонюк О.М. Опримальное импульсное управление с при- приложениями. — М.: Физматлит, 2000. Егоров А.И. Оптимальные процессы в системах с распределенными пара- параметрами и некоторые задачи теории инвариантности. // Изв. АН. Сер. мат- ем. - 1965.-Т. 29, вып. 6. - С. 1205-1260. Егоров А.И. Оптимальное управление тепловыми и диффузионными про- процессами. — М.: Наука, 1978. Егоров А.И. Уравнения Риккати. — М.: Физматлит, 2001. Егоров А.И., Рафатов P.P. Математические методы оптимизации процес- процессов теплопроводности и диффузии. — Фрунзе: Илим, 1990. Завалищин Д.С, Завалищин СТ. Динамическая оптимизация обтека- обтекания. - М.: ФИЗМАТЛИТ, 2002. Иваненко В.И., Мельник B.C. Вариационные методы в задачах управления для систем с распределенными параметрами. — Киев: Наукова думка, 1988. Казаков И.Е., Гладков Д. И. Методы оптимизации стохастических сис- систем. — М.: Наука, 1987. Квакернаак X., Севан Р. Линейные оптимальные системы управления. — М.: Мир, 1977.
Список литературы 491 Кейн В.М. Оптимизация систем управления по минимаксному крите- критерию. — М.: Наука, 1985. Кирин Н.Е., Сейсов Ю.Б. Оптимизация процессов в управляемых систе- системах. — Ашхабад: Ылым, 1991. Красовский Н.Н. Теория управления движением. — М.: Наука, 1968. Красовский Н.Н. Управление динамическими системами. — М.: Наука, 1985. Кротов В.Ф., Гурман В.И. Методы и задачи оптимального управления. — М.: Наука, 1973. Куликовский Р. Оптимальные и адаптивные процессы в системах автома- автоматического регулирования. — М.: Наука, 1967. Кунцевич В.М., Лычак М.М. Синтез оптимальных и адаптивных систем управления. — Киев: Наукова думка, 1985. Ладиков Ю.П. Стабилизация процессов в сплошных средах. — М.: Наука, 1978. Летов A.M. Динамика полета и управления. — М.: Наука, 1969. Ли Э.Б., Маркус Л. Основы теории оптимального управления. — М.: Нау- Наука, 1972. Лионе Ж.-Л. Управление сингулярными распределенными системами. — М.: Наука, 1987. Литвинов В.Г. Оптимизация в эллиптических граничных задачах с при- приложениями к механике. — М.: Наука, 1987. Лурье К.А. Оптимальное управление в задачах математической физи- физики. — М.: Наука, 1975. Матвеев А.С, Якубович В.А.Оптимальные системы управления: Обыкно- Обыкновенные дифференциальные уравнения. Специальные задачи. — С.-Пб: Изд-во С.-Пб. ун-та, 2003. Месарович М., Такахара Я. Общая теория систем: математические осно- основы. — М.: Мир, 1978. Милютин А.А. Принцип максимума в общей задаче оптимального управ- управления. — М.: Физматлит, 2001. Мордухович Б. Ш. Методы аппроксимаций в задачах оптимизации и управ- управления. — М.: Наука, 1988. Ногин В.Д., Протодьяконов И.О., Евлампиев И.И. Основы теории опти- оптимизации. — М.: Высшая школа, 1986. Овсянников Д.А. Моделирование и оптимизация пучков заряженных ча- частиц. - Л.: Изд-во ЛГУ, 1996. Осипов Ю.С. Позиционное управление в параболических системах // ПММ. - 1977. - Т.42, № 2, - С. 341-376. Плотников В.П., Сумин М.И. О построении минимизирующих последо- последовательностей в задачах управления системами с распределенными параметра- параметрами // ЖВМиМФ. - 1982. -Т. 22, № 1. - С. 49-56. Панченков А.Н. Асимптотические методы в экстремальных задачах меха- механики. — Новосибирск: Наука, 1982. Портер У. Современные основания общей теории систем. — М.: Наука, 1971. Ройтенберг Я,Н. Автоматическое управление. — М.: Наука, 1978. Сиразетдинов Т.К. Оптимизация систем с распределенными параметра- параметрами. — М.: Наука, 1977.
492 Список литературы Современная теория систем управления /Под ред. К.Т. Леондеса. — М.: Наука, 1970. Срагович В. Г. Адаптивное управление. — М.: Наука, 1981. Субботин А. И. Обобщенные решения уравнений в частных производных первого порядка. — М.-Ижевск: ИКИ, 2000. Сумин В. И. Фундаментальные вольтерровы уравнения в теории оптималь- оптимального управления распределенными системами. Ч. 1. — Н. Новгород: Изд-во ННГУ, 1992. Уткин В.И. Скользящие режимы в задачах оптимизации и управле- управления. — М.: Наука, 1981. Федоренко Р. П. Приближенное решение задач оптимального управле- управления. — М.: Наука, 1978. Флеминг У., Ришел Р. Оптимальное управление детерминированными и стохастическими системами. — М.: Мир, 1978. Фомин Е.Н., Фрадков А.П., Якубович В.А. Адаптивное управление дина- динамическими объектами. — М.: Наука, 1981. Формальский A.M. Управляемость и устойчивость систем с ограниченны- ограниченными ресурсами. — М.: Наука, 1974. Фурсиков А.В. Оптимальное управление распределенными системами. Тео- Теория и приложения. — Новосибирск: Научная книга, 1999. Цыпкин Я.З., Фалдин Н.В. Теория оптимальных систем автоматического управления. — М.: Наука, 1981. Цирлин A.M., Балакирев B.C., Дудников Е.Г. Вариационные методы опти- оптимизации управляемых объектов. — М.: Энергия, 1976. Глава 8 Андреев Н.И. Теория статистически оптимальных систем управления. — М.: Наука, 1980. Аоки М. Оптимизация стохастических систем. — М.: Наука, 1971. Аркин В.И., Евстигнеей И.В. Вероятностные модели управления и эконо- экономической динамики. — М.: Наука, 1979. Балакришнан А.В. Теория фильтрации Каллмана. — М.: Мир, 1988. Бертсекас Д., Шриф С. Стохастическое оптимальное управление. — М.: Наука, 1985. Богуславский И.А. Прикладные задачи фильтрации и управления. — М.: Наука, 1983. Браймер К., Зиффлинг Г. Фильтр Каллмана-Бьюси. — М. Наука, 1982. Гихман И.И., Скороход А.В. Управляемые случайные процессы. — Киев: Наукова думка, 1977. Гроп Д. Методы идентификации систем. — М.: Мир, 1984. Деруссо Л., Рой Р., Клоуз Ч. Пространство состояний в теории управле- управления. — М.: Наука, 1970. Девис М.Х.А. Линейное оценивание и стохастическое управлени. — М.: Наука, 1984. Казаков И.Е., Гладков Д.И. Методы оптимизации стохастических сис- систем. — М.: Наука, 1987. Красовский Н.Н. Управление динамическими системами. — М.: Наука, 1985.
Список литературы 493 Крылов Н.В. Управляемые процессы диффузионного типа. — М.: Наука, 1977. Кушнер Г.Дж. Стохастическая устойчивость и управление. — М.: Мир, 1969. Льюинг Л. Идентификации систем. — М.: Наука, 1991. Медич Дсис. Статистически оптимальные линейные оценки и управле- управление. — М.: Энергия, 1973. Ройтенберг Я,Н. Автоматическое управление. — М.: Наука, 1978. Севастьянов П.В., Туманов Н.В. Многокритериальная идентификация и оптимизация технологических процессов. — Минск: Навука и техника, 1990. Сейдсис Э.П., Мелса Д.Л. Идентификация систем управления. — М.: Наука, 1974. Срагович В.Г. Адаптивное управление. — М.: Наука, 1981. Фильтрация и стохастическое управление в динамических системах /Под ред. К.Т. Леондоса. — М.: Мир, 1980. Хеллман О. Введение в теорию оптимального поиска. — М.: Наука, 1985. Цыпкин Я.З. Основы информационной теории идентификации. — М.: Наука, 1984. Черноусько Ф.Л., Колмановский В.В. Оптимальное управление при слу- случайных возмущениях. — М.: Наука, 1978. Черноусько Ф.Л., Меликян А.А. Игровые задачи управления и поиска. — М.: Наука, 1978.
Предметный указатель Абстрактная линейная система 65 Автоколебание 173 Алгебра 65 — линейная 65 Алфавит входов 67 — выходов 67 Амплитудная частотная характерис- характеристика (АЧХ) 45 Амплитудно-фазовая частотная ха- характеристика (АФЧХ) 45 Аннулирующий многочлен 73 Апериодическое звено 49 Асимптотический идентификатор 225 Вектор Найквиста 134 Величина перерегулирования 51 Взаимная корреляционная функция 446 Возмущенное движение 87 Временные объекты системы 87 Время переходного процесса 51 Время адаптации системы 246 Вторая краевая задача 265 Вторая стандартная форма системы уравнений 47 Вырожденная система 167 Гармоническая линеаризция 173 Гармонический коэффициент усиле- усиления 176 Гиперплоскость 424 Гиперповерхность 424 — гладкая 424 Гистерезиса петля 82 Глобальная реакция 64 на вход 66 Годограф Михайлова 110 — Найквиста 136 Градиент функционала 398 Движение асимптотически устойчи- устойчивое 88 Движение асимптотически устойчивое в целом 88 — возмущенное 87 Движение невозмущенное 87 неустойчивое 88 устойчивое 67, 90 , — по Ляпунову 87 — системы 87 Действительная частотная характе- характеристика 45 Декремент затухания, логарифмичес- логарифмический 51 Динамическая система 70 Дискретный процесс 12 Длина маятника эффективная 242 Дифференциал Гато 396 — слабый 396 — Фреше 397 Дифференцирующее звено 374 Задача Булгакова 155, 163 — идентификации 212, 345 —Лурье 149 — наблюдения 205 — об оптимальном быстродействии 315, 334 управлении 287 управлении с минимальной энер- энергией 287 — построения асимптотического иден- идентификатора 225, 228 — с импульсным управлением 330 — прогноза 357 — фильтрации входного сигнала 457 Звено дифференцирующее 49 —, идеальное дифференцирующее 49 — изодромное 49 —, изодромное интегрирующее 49 — инерционное 48 — интегрирующее 49 —, интегрирующее с замедлением 49
Предметный указатель 495 Звено колебательное 48 — позиционное 48 Значение функции на спектре матри- матрицы 74 Идентификатор асимптотический 225 Импульсная управляющая функ- функция 301 — переходная функция 42, 43, 452 Импульсное управление 330 Инвариантность абсолютная 55 Индексирующее множество 63 Каноническая форма уравнения 86, 153, 154 Канонические переменные 153 Колебательный процесс 31 Корреляционная функция 453 Коэффициент усиления 46, 176 — передачи 47 Краевая задача Риккати 405 Критерий Гурвица 107 — Ляпунова 129 — Михайлова 109, 111, 112 — Найквиста 134, 142, 146 — управляемости 195 Критические случаи 130, 165 Лагранжа формула 397 Лемма Грануолла-Беллмана 104 Линеаризация гармоническая 175 Линейная глобальная реакция 166 Линейный объект глобальных состоя- состояний 166 Логарифмическая амплитудная час- частотная характеристика 47 Матрица в специальном базисе 216 —- во втором специальном базисе 217 — Коши 72, 288 — неотрицательная 364 — оператора 215 — основная 100 — положительная 364 — почти постоянная 104 — псевдообратная 197 — фундаментальная 72 Метод гармонической линеаризации 173 — Крылова 170 Минимальный многочлен матрицы 73 Мнимая частотная характеристика 45 Многообразие касательное 425 Множество глобальных состояний 64 — достижимости 192 — индексирующее 63 — моментов времени 67 — Т-достижимости 256 Модель эталонная 251 Момент 189 Моментные соотношения 259 Наблюдатели полного порядка 212 Наблюдатель пониженного порядка 213 Наблюдатель системы 215 Наилучшее приближенное решение 198 Начальная реакция 68 Начальное состояние 30 Непрерывный процесс 12 Невозмущенное движение 87 Нормаль 424 Нормальная форма уравнений сис- системы 148 Область притяжения 90 — устойчивости 109 Обобщенное решение 255 Общая временная система 67 Объект входной 63 — выходной 63 — глобальных состояний 64, 66 — начальных состояний 68 — системы 61 Оператор краевой задачи 57 Оператор положительно определен- определенный 186, 261 — положительный 186, 261, 292 Операторная форма уравнения 36 Операция сочленения 68 Оптимальный фильтр Каллмана-Бью- си471 Основная задача наблюдения 205 Особая точка 424 — экстремаль Понтрягина 430 Ошибка линейная интегральная 52 — системы 50, 370 — фильтра 463 Параметры управления 5 Передаточная функция 37 Перерегулирование 51 Первая краевая задача 265 Переходной процесс 41
496 Предметный указатель Переходной процесс колебательный 51 Петля гистерезиса 82 Показатель характеристический 96, 100 — характеристический функции 96 матрицы 98 Полином аннулирующий 73 — Лагранжа 75 — Лагранжа-Сильвестра 75 Полином характеристический замкну- замкнутой системы 132 Полная производная 104 Полоса пропускания системы 456 Порождающее уравнение 170 Постоянная времени 47 Предел верхний 96 — нижний 96 — высший бесконечно малый 114 — частичный 96 Предельный цикл 173 Преобразование Лапласа 36 Приближенное решение наилучшее 198 Прием Ляпунова 167 Принцип двойственности 209, 211 Производная полная 114 Пространство состояний 70 — энергетическое 262 Процесс вполне if-управляемый 256 — переходной 5 — с распределенными параметрами 12 — с сосредоточенными параметрами 12 Прямая Попова 152 Разложение матрицы скелетное 197 Рассогласвание системы 370 Реакция глобальная 64 — линейная глобальная 66 — на состояние 66 Реверс 246 Резонансное решение второго поряд- порядка 82 Реле электрическое 82 Решение асимптотически устойчивое 90 — обобщенное 262 — устойчивое 90 Семейство реакций 69 Семейство функций перехода состоя- состояний 69 Сигнал на входе 12 Сигнал на выходе 12 Сильный дифференциал 396 Система автономная 113 — абсолютно устойчивая в угле 151 — абстрактная линейная 65 — вполне наблюдаемая 188, 472 — вполне управляемая 188, 472 — "вход-выход"83 — вырожденная 167 — динамическая 69 — идентифицируемая 210, 345 — инвариантная 54 — наблюдаемая 345 — нейтральная по координатам 145 — общая временная 67 — первого приближения 80 — правильная 99 Система программного управления 13 — прямого регулирования 126 — равномерно вполне управляемая 472 — регулирования 14 — собственно неустойчивая 145 — собственно устойчивая 149 — с полным входом 68 — стационарная 80 — стохастическая 451 — управления автоматическая 14 — управления замкнутая 12 — управляемая 8 — устойчивая собственно 145 — функциональная 63 — частично инвариантная 55 Скелетное разложение матрицы 197 Скользящий режим 438, 439 Событие 210, 345 — неидентифицируемое 210, 345 — ненаблюдаемое 345 Собственное время 167 Собственные колебания 42 Соотношения моментные 189 Состояние глобальное 64 — достижимое 196 Спектр решения системы 98 — системы 98 Спектральная плотность 453, 456 Стационарная точка функционала 396 Степень колеблемости 51
Предметный указатель 497 Структурная схема 37 Сходимость ряда на спектре матри- матрицы 75, 397 Теореме Барбашина-Красовского 122 — Гамильтона-Кэлли 73 — Каратеодори 20 — Красовского 119, 121 — Лурье 159 — Попова 152 Точка покоя 80 Третья краевая задача 265 Тривиальное решение 82 Управление по принципу обратной связи 13, 14 Управление с минимальной силой 323 энергией 286 — программное 13, 14 Управляемый процесс 6 Уравнение Винера 460, 462 — возмущенного движения 89 — движения в операторной форме 37 Уравнение порождающее 170 — Риккати 62, 366 Условие второго рода 265 — Липшица ослабленное 397 — максимума 446 — основное 293 — первого рода 265 — полной управляемости 196 — согласования 443 — трансверсальности 427 — третьего рода 265 Установившийся процесс 41 Устойчивость равномерная 88 Фазовая траектория 5 — частотная характеристика 45 Фильтр Каллмана—Бьюси 463 Форма уравнения вторая стандарт- стандартная 47 — уравнения стандартная 47 Формула Даламбера 266 Формула Коши 72 — Лагранжа 397 Фундаментальная матрица решений 72 Функционал непрерывный 396 Функция веса 43 — глобальная 57 — знакотрицательная 113 — знакоположительная 113 — знакопостоянная 113 — импульсная переходная 452 — импульсная управляющая 301 — корреляционная 453 — Ляпунова 113 — отрицательно определенная 113 — положительно определенная 113 — принадлежащая классу (А) 146 — частичная 63 Характеристический показатель 96 — полином 36 замкнутой системы 132 матрицы 98 уравнения 98 Экстремаль Понтрягина 430 Эрмитова матрица 453 Ядро матрицы 210 сг-алгебра 65
Оглавление Предисловие 3 Глава 1. Математическое моделирование управляемых систем 5 1. Понятие об управляемых системах 5 2. Принцип управления. Основная задача теории управления 12 2.1. Принципы управления A2). 2.2. Элементы систем автоматического регули- регулирования и их характеристики A5). 2.3. Основная задача теории управления A6). 3. Математическое описание управляемых систем. Основные требования к математическим моделям 16 3.1. Математическая модель системы A6). 3.2. Модель системы с распределен- распределенными параметрами B1). 3.3. О допустимых управлениях и начальном состоянии систем с распределенными параметрами B6). 3.4. Применение метода Фурье для получения обобщенного решения C2). 4. Математические модели линейных непрерывных систем с сосредото- сосредоточенными параметрами 34 4.1. Общая дифференциальная форма уравнений движения управляемого объ- объекта C4). 4.2. Операторная форма уравнений движения для стационарного процесса C6). 4.3. Передаточная функция. Структурная схема системы C7). 4.4. Характеристическое уравнение замкнутой системы C9). 4.5. Переходные функции управляемой системы D0). 5. Основные характеристики переходных процессов в управляемых систе- системах 44 5.1. Частотные характеристики D5). 5.2. Логарифмическая частотная характе- характеристика D6). 6. Типовые элементы систем автоматического регулирования и их характе- характеристики 47 6.1. Стандартные формы уравнений звеньев систем управления D7). 6.2. Типо- Типовые звенья систем управления D7). 6.3. Заключительные замечания D9). 7. Качество систем автоматического регулирования 50 7.1. Характеристики качества систем автоматического регулирования E0). 7.2. Ошибки систем E1). 7.3. Инвариантные системы E4). 8. Применение операторных уравнений 56 8.1. Краевые задачи и операторы E6). 8.2. Операторное уравнение Риккати в математической физике F0). 9. Применение общей теории систем 62 9.1. Основные понятия и определения F2). 9.2. Абстрактные линейные системы F5). 9.3. Общие временные системы F7). 9.4. Общие динамические системы F9).
Оглавление 499 Глава 2. Основы теории устойчивости 71 1. Линеаризация нелинейных систем 71 1.1. Вспомогательные факты из теории обыкновенных дифференциальных урав- уравнений G1). 1.2. Свойства стационарной системы G3). 1.3. Уравнения первого приближения G9). 2. Краткая характеристика нелинейных систем автоматического управле- управления 81 2.1. Нелинейные элементы систем управления (82). 2.2. Общая характеристика систем автоматического управления (84). 3. Устойчивость по Ляпунову. Основные определения 86 4. Устойчивость линейных систем 90 4.1. Общие теоремы об устойчивости линейных нестационарных систем (91). 4.2. Устойчивость линейных стационарных систем (92). 4.3. Устойчивость ли- линейных нестационарных систем (96). 5. Устойчивость специальных линейных систем 99 5.1. Линейные системы с периодическими коэффициентами (99). 5.2. Линейные системы с почти постоянной матрицей A04). 6. Критерии устойчивости 107 6.1. Критерий Гурвица. Область устойчивости A07). 6.2. Критерий Михайло- Михайлова A09). 7. Устойчивость нелинейных систем 112 7.1. Функция Ляпунова (ИЗ). 7.2. Теоремы Ляпунова A15). 7.3. Обобщения теорем Ляпунова A19). 8. Устойчивость по первому приближению 124 8.1. Теоремы Ляпунова A25). 8.2. Анализ общих нестационарных систем A28). Глава 3. Основы теории устойчивости замкнутых систем 131 1. Устойчивость замкнутых систем управления 131 1.1. Характеристический определитель замкнутой системы A31). 1.2. Крите- Критерий Найквиста. Случай асимптотически устойчивых звеньев системы A32). 1.3. Критерий Найквиста в случае нейтральных звеньев A38). 1.4. Случай замкнутой системы с неустойчивыми звеньями A43). 2. Устойчивость специальных нелинейных систем 144 2.1. Уравнения системы и их нормальная форма A45). 2.2. Задача Лурье A49). 3. Применение функций Ляпунова 152 3.1. Каноническая форма уравнения A53). 3.2. Теорема Лурье A56). 3.3. Анализ абсолютной устойчивости A61). Глава 4. Периодические решения нелинейных систем диффе- дифференциальных уравнений 165 1. Периодические решения автономных нелинейных систем 165 1.1. Периодические решения квазилинейных автономных систем A66). 1.2. Ме- Метод Крылова A70). 2. Метод гармонической линеаризации 173 3. Вынужденные колебания нелинейных систем 177 3.1. Метод Пуанкаре A77). 3.2. Особый случай A80). 3.3. Заключительные за- замечания A84). Глава 5. Управляемость, наблюдаемость, идентифицируемость. 185 1. Управляемость линейных нестационарных систем 185 1.1. Гильбертовы пространства. Теорема Леви A85). 1.2. Управляемость A87). 1.3. Область достижимости A92). 1.4. Критерий управляемости A94). 1.5. Ре- Решение задачи достижимости с помощью линейной обратной связи A96).
500 Оглавление 2. Управляемость линейных стационарных систем 201 2.1. Конечномерные непрерывные системы B01). 2.2. Общие выводы B03). 3. Наблюдаемость и идентифицируемость линейных систем. Принцип двойственности 204 3.1. Наблюдаемость нестационарных систем B04). 3.2. Наблюдаемость стацио- стационарных систем B06). 3.3. Принцип двойственности B09). 3.4. Идентифицируе- Идентифицируемость B09). 3.5. Наблюдатели полного порядка B12). 3.6. Наблюдатели пони- пониженного порядка B13). 4. Свойства вполне управляемых стационарных линейных систем 215 4.1. Линейные операторы и матрицы B15). 4.2. Система со скалярным управле- управлением B18). 4.3. Система с векторным управлением B20). 5. Асимптотические идентификаторы 225 5.1. Идентификатор со скалярным входным сигналом B25). 5.2. Асимптоти- Асимптотический идентификатор со многими входами B28). 6. Задача синтеза ограниченных управлений для автономных систем 231 6.1. Общие теоремы B31). 6.2. Задача синтеза одномерного управления в линей- линейной системе B34). 7. Управление линейными системами при неполных измерениях 240 8. Адаптивное управление 243 8.1. Постановка задачи B44). 8.2. Экстремальные регуляторы B45). 8.3. Адап- Адаптивное управление с эталонной моделью B51). 9. Управляемость линейных параболических систем 254 9.1. Построение решения краевой задачи при фиксированном управлении B55). 9.2. Формулировка задачи об управляемости и ее предварительный анализ B57). 9.3. О вариационных методах решения уравнений первого порядка B61). 9.4. Существование решения уравнения (9.16) и условия управляемости B62). 10. Краевые задачи и задачи управления упругими колебаниями. Клас- Классические решения 265 10.1. Постановки краевых задач. Метод Даламбера B65). 10.2. Постановки задач граничного управления B71). 10.3. Управление колебаниями струны в условиях других краевых задач B72). 11. Решение задач граничного управления колебаниями струны методом Даламбера 272 11.1. Решение задачи управления в условиях первой краевой задачи B72). 11.2. Решение задачи управления в условиях третьей краевой задачи B74). 11.3. Решение задачи управления в условиях других краевых задач B78). 12. Задачи управления колебаниями упругого стержня 278 12.1. О свободных колебаниях стержня B78). 12.2. Постановка задач. Формули- Формулировка результатов B80). 12.3. Доказательства B83). Глава 6. Простейшие задачи оптимального управления 287 1. Управление с минимальной энергией 287 1.1. Задача об управлении с минимальной энергией B87). 1.2. Обобщение задачи об управлении минимальной энергией B92). 2. Линейные системы с импульсным управлением 301 3. Управление линейными системами с линейными критериями оптималь- оптимальности 305 3.1. Постановка задачи и общий ее анализ C07). 3.2. Случай линейно зависимых векторов ho,hi,... ,hn C11). 4. Задача об оптимальном быстродействии при ограниченной энергии уп- управления 315 4.1. Постановка основной задачи и ее анализ C15). 4.2. Оптимальное быстро- быстродействие при импульсном управлении C21).
Оглавление 501 5. Управление с минимальной силой 323 5.1. Постановка задачи. Основная теорема C23). 5.2. Случай импульсного управ- управления C30). 6. Оптимальное быстродействие в линейных системах с ограниченной си- силой управления 333 6.1. Постановка задачи. Необходимые условия оптимальности C34). 6.2. Выводы C36). 7. Задача об аналитическом конструировании регуляторов 336 7.1. Постановка задачи. Применение классического вариационного исчисле- исчисления C36). 7.2. Решение задачи синтеза оптимального управления C39). 8. Управление системами, зависящими от старта и финиша 341 8.1. Общая характеристика систем C41). 8.2. Управляемость C43). 8.3. Иденти- Идентифицируемость и наблюдаемость C45). 8.4. Оптимальное управление C46). Глава 7. Основы общей теории оптимальных процессов 349 1. Динамическое программирование 350 1.1. Принцип оптимальности. Уравнение Беллмана C50). 1.2. Анализ уравнения Беллмана C52). 2. Управление системой с закрепленным концом траектории и свободным временем 354 2.1. Вывод и анализ уравнения Беллмана C54). 2.2. Задача об оптимальном быстродействии C56). 2.3. Оптимальность управления C60). 2.4. О дифферен- цируемости функции Беллмана C62). 3. Задача об аналитическом конструировании регуляторов 364 3.1. Применение динамического программирования C65). 3.2. Оптимальные процессы в системах с постоянно действующими возмущениями C69). 3.3. За- Задача слежения C70). 3.4. Решение уравнения Риккати C74). 4. Задача об оптимальной стабилизации 376 4.1. Постановка задачи и анализ нелинейных систем C76). 4.2. Оптимальная стабилизация линейных систем C79). 4.3. Задача об оптимальной стабилизации для линейной стационарной системы C80). 4.4. Задача об оптимальной стабили- стабилизации с ограниченным управлением C82). 4.5. Решение уравнения с частными производными первого порядка C85). 5. Примеры 389 6. Динамическое программирование для систем с распределенными пара- параметрами 396 6.1. Дифференцирование функционалов C96). 6.2. Синтез оптимального управ- управления. Уравнение Беллмана C98). 6.3. Построение оптимального управле- управления D03). 6.4. Разрешимость краевой задачи F.1)—F.3) на оптимальном уп- управлении D07). 6.5. Приближенное решение задачи синтеза оптимального уп- управления D09). 6.6. Заключительные замечания D11). 7. Принцип максимума 411 7.1. Формулировка задачи и принцип максимума D11). 7.2. Обсуждение прин- принципа максимума D14). 7.3. Принцип максимума в задаче об оптимальном быст- быстродействии D15). 7.4. Принцип максимума в задача терминального управле- управления D17). 8. Задачи с подвижными границами 424 8.1. Гиперповерхности и гиперплоскости в евклидовом пространстве D24). 8.2. Постановка задачи. Условия оптимальности D25). 9. Особые управления и скользящие режимы 428 9.1. Постановка задачи. Основные определения D29). 9.2. Условия оптимально- оптимальности D30). 9.3. Необходимые условия оптимальности особых управлений D32). 9.4. Скользящие режимы в задачах управления D36). 9.5. Оптимальность сколь- скользящих режимов D40). 10. Принцип максимума для систем с распределенными параметрами 442
502 Оглавление 10.1. Постановка задачи. Принцип максимума D43). 10.2. Доказательство прин- принципа максимума D47). 10.3. Заключительные замечания D50). Глава 8. Стохастические системы 451 1. Преобразование случайных сигналов линейными системами 451 1.1. Основные статистические характеристики сигнала на выходе D51). 1.2. Вза- Взаимные корреляционные функции и спектральные плотности D56). 2. Прогноз и фильтрация случайных процессов в линейных системах 457 2.1. Фильтрация и прогноз в стационарных системах D57). 2.2. Задача фильт- фильтрации нестационарного процесса D60). 2.3. Оптимальные фильтры Каллмана- Бьюси D62). 2.4. Определение матрицы F(t) D64). 2.5. Построение матрицы G(t) D68). 2.6. Устойчивость оптимального фильтра Каллмана-Бьюси D71). 2.7. Оптимальная фильтрация коррелированных шумов D73). 3. Уравнения, определяющие оптимальные фильтры 474 3.1. Уравнение Винера-Хопфа D74). 3.2. Решение уравнения Винера-Хопфа ме- методом неопределенных коэффициентов D77). 3.3. Уравнение Риккати D83). Список литературы 485 Глава 1 485 Глава 2 487 Глава 3 488 Глава 4 488 Глава 5 489 Глава 6 489 Глава 7 489 Глава 8 492 Предметный указатель 494
A.I. Egorov Principles of the control theory PHYSIC ANDPHYSIC AND MATHEMATICS PUBLISHERS International Academic Publishing Company "Nauka" Russian Academy of Sciences Moscow, 2004, 504 pages Abstract. The basic directions modern mathematics are considered theory of control. The following sections of the theory are included in it: mathematical modelling of controlled systems, bases of the theory stability of nonlinear and controlled systems, periodic fluctua- fluctuations of nonlinear systems, bases of the theory of controllability, observabilities and identifi- abilities, methods of the theory optimal control, elements of the theory of stochastic controlled systems. At it systems with concentrated and distributed parameters are conside- considered. The theoretical material is accompanied by the analysis numerous examples. For students and post-graduate students of universities and technical colleges, and also the science officers who are were interested in the theory of control and it applications. Author. Alexander Ivanovich Egorov, born 1930. Education: Kirgizian State Universi- University, D.Sc (Phys. & Math.). Professor at Moscow Institute of Physic and Technology. Over 100 paper in the theory of optimal control and 5 monographs: Optimal control by heat and diffusion processes. — Moscow, 1978; Optimal control by linear systems. — Kiev, 1988; Mathematical methods of the optimization of heat and diffusion processes (with R.R. Rafatov). — Frunze, 1990; Riccati equations. — Moscow, 2001; Differential equations with applications. — Moscow, 2003. 503
Учебное издание ЕГОРОВ Александр Иванович ОСНОВЫ ТЕОРИИ УПРАВЛЕНИЯ Редактор Е.Ю. Ходан Оригинал-макет автора Оформление переплета А.Ю. Алехиной ЛР №071930 от 06.07.99. Подписано в печать 01.11.04. Формат 70x100/16. Бумага офсетная. Печать офсетная. Усл. печ. л. 40,83. Уч.-изд. л. 49,98. Заказ № Издательская фирма «Физико-математическая литература» МАИК «Наука/Интерпериодика» 117997, Москва, ул. Профсоюзная, 90 E-mail: fizmat@maik.ru, fmlsale@maik.ru; http://www.fml.ru Отпечатано с готовых диапозитивов в ППП «Типография «Наука» 121099, Москва, Шубинский пер., 6 ISBN 5-9221-0543-4 985922' 105439