Text
                    АВТОМАТИЧЕСКОЕ
УПРАВЛЕНИЕ
Я.Н.РОЙТЕНБЕРГ

я, Н. РОЯТЕНБЕРГ АВТОМА ТИЧЕСКОЕ УПРАВЛЕНИЕ Допущено Министерством высшего и среднего специального образования СССР в качестве учебного пособия для студентов механико-математических и физико-математических факультетов университетов ИЗДАТЕЛЬСТВО «НАУКА» ГЛАВНАЯ РЕДАКЦИЯ ФИЗИКО-МАТЕМАТИЧЕСКОЙ ЛИТЕРАТУРЫ МОСКВА 1971
6 ф 6-5 Р 65 УДК 62-52 Автоматическое управление. Ройтенберг Я. Н., Изд-во «Наука», Главная редакция физико-математической литера- туры, М., 1971, 396 стр. Книга предназначена в качестве учебного пособия для студентов механико-математических и физико-математических факультетов университетов. В книге излагается теория линейных управляемых систем, как одномерных, так и многомерных. Рассматриваются методы исследования устойчивости и переходных процессов в линей- ных стационарных системах. Излагаются методы исследова- ния абсолютной устойчивости нелинейных управляемых си- стем. Далее изучаются системы с конечным временем управ- ления. Изложена теория функций от матриц и изучены во- просы управляемости и наблюдаемости линейных стационар- ных и нестационарных систем. Значительная часть книги посвящена вопросам оптималь- ного управления. Изложен метод динамического программи- рования для дискретных систем и систем непрерывного дей- ствия и принцип максимума Л. С. Понтрягина. Детально изучены системы с квадратичным критерием качества. Рас- смотрены также вопросы оптимизации систем при наличии случайных помех. Изложены методы А. Н. Колмогорова и Н. Винера и дана подробная теория оптимальных фильтров Калмана — Бьюси. Илл. 58. Библ. 95 назв. 8-3-14 110—71
ОГЛАВЛЕНИЕ Предисловие................................................... 8 Глава 1 Линейные управляемые системы.................................. 9 § 1. Одномерные управляемые системы..................... 9 1. Системы с одной степенью свободы (9). 2. Функция веса и передаточная функция (12). 3. Частотная характе- ристика (14). 4. Замкнутая управляемая система (15). 5. Ра- зомкнутая управляемая система (16). 6. Воспроизведение преобразованного входного сигнала (17). 7. Одномерная управляемая система с конечным числом степеней свобо- ды (18). 8. Одно замечание об интегрировании уравнений движения одномерной системы (21). § 2. Многомерные управляемые системы......................... 22 1. Замкнутая управляемая система (22). 2. Характеристи- ческий определитель замкнутой управляемой системы (24). 3. Уравнение автоматического управления (25). 4. Разомк- нутая управляемая система (26). 5. Интерпретация мат- ричных операторов W (D) и Emi+W(D) (27). 6. О вос- произведении входного сигнала в многомерной управляемой системе (28). § 3. Частотные методы исследования устойчивости линейных уп- равляемых систем............................................ 29 1. Преобразование характеристического определителя замк- нутой управляемой системы (29). 2. Критерий асимптоти- ческой устойчивости замкнутых управляемых систем, со- держащих лишь устойчивые звенья (критерий Найкви- ста) (31). 3. Применение критерия Найквиста к системам с нейтральными звеньями (35). 4. Применение критерия Най- квиста к системам с неустойчивыми звеньями (36). 5. Ча- стотные характеристики управляемых систем и их экспери- ментальное определение (37). 6. Пример построения диа- граммы Найквиста (40). 7. Управляемые системы, содержа- щие звенья с запаздыванием и критерии устойчивости этих систем (41). 8. Логарифмические частотные характеристи- ки (45). 9. Определение устойчивости замкнутой управляе- мой системы по логарифмическим частотным характеристи- кам разомкнутой управляемой системы (48). § 4. Функция веса и переходная функция стационарной линейной системы...................................................... 48 1. Одномерная управляемая система (48). 2. Одномерная управляемая система, у которой передаточная функция
4 ОГЛАВЛЕНИЕ является неправильной дробью (54). 3. Многомерные уп- равляемые системы (60). § 5. Переходные и установившиеся процессы в замкнутых уп- равляемых системах......................................... 72 1. Определение функции веса по частотной характеристике замкнутой системы (72). 2. Определение переходной функ- ции по частотной характеристике замкнутой системы (75). 3. Минимально-фазовые системы (78). 4. Установившиеся процессы в замкнутых управляемых системах. Коэффициен- ты ошибок (82). 5. Установившиеся процессы в следя- щей системе (84). Глава 2 Нелинейные управляемые системы................................ 87 § 6. Устойчивость нелинейных управляемых систем. Частотные критерии. Применение прямого метода Ляпунова............ 87 1. Об одном классе нелинейных управляемых систем (87). 2. Интерпретация функции W (D) (89). 3. Видоизмененная частотная характеристика (90). 4. Теорема В.-М. Попо- ва (93). 5. Геометрическая формулировка теоремы В. -М. Попова (93). 6. О возможности при доказательстве теоремы ограничиться случаем q > 0 (94). 7. Лемма 1 (96). 8. Лемма 2 (98). 9. Доказательство теоремы В.-М. По- пова (100). 10. Применение прямого метода Ляпунова. Ме- тод А. И. Лурье в теории абсолютной устойчивости нели- нейных систем (107). § 7. Нелинейные системы под воздействием внешних сил .... 108 1. Приведение задачи к интегральным уравнениям (108). 2. Построение приближенных решений (112). § 8. Качественные методы исследования движения нелинейных систем....................................................114 1. Нелинейные системы с одной степенью свободы (114). 2. Консервативные системы (118). 3. Диссипативные си- стемы (123). 4. Автоколебательные системы. Метод точеч- ных преобразований (128). § 9. Нелинейные системы под воздействием периодических внешних сил...............................................135 1. Вынужденные колебания нелинейной системы (135). 2. Установившиеся колебания с частотой внешней силы и их устойчивость (142). Г лава 3 Системы с конечным временем управления..........................147 § 10. Функции от матриц и их применение к интегрированию си- стем линейных дифференциальных уравнений.............147 1. Обобщенная теорема Безу (147). 2. Теорема Гамиль- тона — Кэли (148). 3. Минимальный полином матрицы (148). 4. Функции от матрицы (151). 5. Интерполяционный поли- ном Лагранжа — Сильвестра (154). 6. Построение функ-
ОГЛАВЛЕНИЕ 5 ции eAt (157). 7. Компоненты матрицы А (160). 8. Общие формулы, определяющие компоненты Z^/ матрицы А (161). 9. Представление функций от матриц рядами (163). 10. Рас- пространение на функции от матриц интегральной формулы Коши для аналитических функций (167). 11. Некоторые свойства функций от матриц (168). 12. Интегрирование сис- те?и линейных дифференциальных уравнений с постоянными коэффициентами при помощи функций от матриц (170). 13. Сравнение с решениями, получаемыми при помощи преоб- разования Лапласа (174). § И. Управляемость и наблюдаемость линейных систем . . . . 1. Управляемость систем, описываемых линейными диффе- ренциальными уравнениями с постоянными коэффициен- тами (176). 2. Системы с одной управляющей силой (183). 3. Наблюдаемость систем, описываемых линейными диффе- ренциальными уравнениями с постоянными коэффициен- тами (185). 4. Системы с одной наблюдаемой координа- той (191). 5. Принцип двойственности в теории управляе- мости и наблюдаемости (192). 6. Управляемость линейных нестационарных систем (193). 7. Наблюдаемость линейных нестационарных систем (197). 8. Условие управляемости линейной стационарной системы в задаче с подвижными концами (200). 9. Условие управляемости линейной нестацио- нарной системы в задаче с подвижными концами (204). Глава 4 Метод динамического программирования............................ § 12. Оптимальное управление в системах с ограниченными ресур- сами .................................................... 1. Вариационные задачи в теории управления (207). 2. Ме- тод динамического программирования Р. Веллмана. Прин- цип оптимальности (208). § 13. Применение динамического программирования к дискрет- ным системам............................................. 1. Рекуррентное соотношение Веллмана (211). 2. Многомер- ные дискретные системы (217). § 14. Применение динамического программирования к системам непрерывного действия.................................... 1. Задача с фиксированным временем и свободным концом траектории (219). 2. Задача с закрепленным концом траек- тории и свободным временем (225). 3. Задача о быстро- действии (228). § 15. Достаточные условия оптимальности и обоснование метода динамического программирования для систем непрерывного действия. Теоремы В. Г. Болтянского...................... 1. Постановка задачи. Геометрическая интерпретация урав- нения Веллмана в задаче о быстродействии (231). 2. Тео- рема В. Г. Болтянского для задачи о быстродействии (234). 3. Теорема В. Г. Болтянского для общей задачи динами- ческого программирования (242). 176 207 207 211 219 231
6 ОГЛАВЛЕНИЕ § 16. Связь уравнения Веллмана с уравнением Гамильтона — Якоби в задачах аналитической механики...................244 t 1. Задача о минимизации интеграла вида Q = G (х, и, v) dv ^0 (244) . 2. Получение уравнения Гамильтона — Якоби из прин- ципа Гамильтона (246). Глава 5 Принцип максимума Л. С. Понтрягина в теории оптимального управ- ления .............................................................251 § 17. Теорема о необходимом условии оптимальности............251 1. Принцип максимума Л. С. Понтрягина (251). 2. Принцип максимума Л. С. Понтрягина в задаче о быстродейст- вии (254). 3. Доказательство теоремы о необходимом усло- вии оптимальности (принципа максимума) в задаче с за- крепленным временем Т и свободным концом траекто- рии (255). § 18. Принцип максимума для неавтономных систем.............261 1. Теорема о необходимом условии оптимальности для не- автономных систем (261). 2. Доказательство теоремы о не- обходимом условии оптимальности для неавтономной системы с линейно входящим управлением (264). 3. Линейные не- автономные системы. Приведение задачи о быстродействии к краевой задаче (273). § 19. Задача с подвижными концами. Применение принципа макси- мума. Условия трансверсальности..............................276 § 20. Понятие регулярного синтеза в теории оптимальных систем 280 § 21. Достаточное условие оптимальности в форме принципа максимума. Теорема В. Г. Болтянского.........................291 § 22. Связь принципа максимума с методом динамического про- граммирования ...............................................300 § 23. Некоторые примеры применения принципа максимума . . . 305 1. Теорема о числе переключений управления в линейной задаче о быстродействии (335). 2. Задача о максимальном отклонении (308). 3. Применение принципа максимума при отсутствии ограничений на управление (310). § 24. Оптимальные линейные системы с квадратичным критерием качества...................................................313 1. Задача о регуляторе состояния (313). 2. Задача о регу- ляторе выхода (324). 3. Стационарные системы с беско- нечным временем наблюдения (327). 4. Задача слежения (329). Глава 6 Стохастические системы..........................................335 § 25. Преобразование случайных сигналов линейными системами 335
ОГЛАВЛЕНИЕ 7 § 26. Прогноз и фильтрация одномерных случайных процессов. . 344 1. Метод А. Н. Колмогорова и Н. Винера. Стационарные случайные процессы (344). 2. Решение интегрального урав- нения, определяющего функцию веса оптимальной системы (348). 3. Нестационарные случайные процессы. Интеграль- ное уравнение для оптимальной функции веса (351). 4. Опти- мальные фильтры Калмана — Бьюси (356). § 27. Многомерные случайные процессы. Оптимальные фильтры Калмана — Бьюси.......................................... 365 1. Системы с конечным временем наблюдения (355). 2. Ста- ционарные системы с бесконечным временем наблюдения (380). 3. Нестационарные системы с бесконечным временем наблюдения (381). 4. Оптимальная фильтрация коррелиро- ванных шумов (383). Литература...............................................387 Предметный указатель.....................................392
ПРЕДИСЛОВИЕ Теория автоматического управления сложилась в настоящее время в обширную дисциплину, результаты которой имеют прин- ципиальное и прикладное значение. Изучение этой науки стало необходимым не только для специалистов в области управле- ния. Вопросы теории управления изучаются теперь большим кру- гом студентов различных специальностей. В основу настоящей книги положен курс лекций, прочитанных автором студентам- механикам механико-математического факультета Московского университета. Ведя своих читателей от исходных понятий теории управле- ния к ее современным проблемам, автор стремился показать также связь задач и методов теории управления движением с общими принципами аналитической механики. Беглый пересказ многочисленных проблем современной тео- рии управления едва ли полезен. Поэтому автор отдал предпоч- тение детальному и по возможности строгому изложению ряда центральных проблем теории управления. При этом изложенный в книге круг вопросов, которые сами по себе имеют важное зна- чение, может служить основой для последующего изучения мо- нографий и статей по специальным проблемам теории управле- ния— вопросам управления системами с распределенными пара- метрами, теории преследования, оптимальной стабилизации, теории адаптации и т. д. Автор приносит глубокую благодарность академику Нико- лаю Николаевичу Красовскому, прочитавшему рукопись и лю- безно сообщившему ряд важных замечаний, во многом способ- ствовавших улучшению книги.
Глава 1 ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ § 1. Одномерные управляемые системы 1. Системы с одной степенью свободы. Уравнение движения системы с одной степенью свободы, у которой кинетическая энергия Г = потенциальная энергия V = -~-k2x\ а доба- вочная неконсервативная сила Q = —k^x + z^t), будет иметь следующий вид: kQx + k{x + k2x = z (/). (1.1) Обозначая через D оператор дифференцирования по времени D = — и di » (1.2) можно переписать уравнение (1) так: (kQD2 + kxD + k2)x = z(t) (1.3) или X = ,-Ьг "'1 1 п~.~ь~ 2 (0- (1.4) k0D2 + kxD 4- /г2 Функция kQD2 + kxD + k2 является дробно-рациональной функцией от оператора диффе- ренцирования D и называется передаточной функцией системы. Подставляя в (4) выражение (5), ПОЛУЧИМ z(t) » Ф(Ц) x = <b(D)z(t). (1.6) Соотношение (6) эквивалентно ис- Рис* ходному дифференциальному урав- нению (1). Этому соотношению можно поставить в сос ^x(t) >тветствие структурную схему, показанную на рис. 1.1. Функцию z(t) можно назвать входным сигналом, а функ- цию x(t) сигналом на выходе системы. Найдем решение дифференциального уравнения (1). В слу- чае, когда kl - 4М2 < 0, (1.7)
10 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ корни характеристического уравнения kQtf + k^-[-k2 = 0 (1.8) будут Aq, Л2 = — г ±/со, (1.9) где При условии (7) решение уравнения (1) имеет следующий вид: х (/) = х (/о) cos о (t — /0) + + ~ [* (W + ех (/0)] е~& (f-/o) sin со (/ - /0) + t + Г ^e'E{i~x}sm<i>(t-x)z(x)dx. (1.11) to В случае нулевых начальных условий, то есть при xGo) = O, х(^о) = О, (1.12) закон движения рассматриваемой системы будет t x(t) = f -Д-e~e^~T)sinco(/ —т)г(т)б?т. (М3) J «оСО to Обозначим через k(t) следующую функцию: £ (0 == sincof (^>0). (М4) Эта функция называется функцией веса системы (1). Из выра- жения (11) видно, что k(t — /о) есть закон движения системы в случае, когда 2(/)^0, а начальные условия таковы: х(/о) = О, х(/0) = ^. (1.15) Из выражения (И) можно заключить, что k(t— to) будет законом движения системы также и в случае, когда х(/о) = О, х(/о) = О, z(/) = 6(f-/0), (Мб) где б(/) — единичная импульсная функция (дельта-функция Ди- рака). Поэтому функция k(t) называется также импульсной переходной функцией системы.
§ 1. ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 11 Из соотношений (16) следует, что до момента времени I = /о» то есть до приложения единичного импульса, система находилась в покое. В силу этого мы должны принять, что k(t—to) = 0 при t < /о, то есть функция веса равна нулю при отрицательном значении ее аргумента. Таким образом, выражение (14), которым определена функ- ция веса k(t), необходимо дополнить соотношением fe(/) = 0 при /<0. (1.17) В соответствии с (14) можно выражение (13) записать так: х(0 = J fe (/— т) г (т) rfr. (1.18) ^0 Выражение (18) можно преобразовать, полагая g = /-T. (1.19) Тогда, учитывая, что t является здесь параметром, будем иметь dl = —dx. Так как g = 0 при т = /и g = t — tQ при х = t0, то по- лучим х(0= J k®z(t-$d-. (1.20) О Таким образом, закон движения системы, у которой х (t0) = 0, х (t0) = 0, будет следующим: t t-t0 x(t)= J k(t-x)z(x)dx = J k($z(t-$dl. (1.21) t0 0 Рассмотрим теперь предельный случай. Пусть /0= -ОО, то есть входной сигнал подан бесконечно давно. Если е > 0, то есть собственные колебания системы (1) асимптотически зату- хают, то выражение (11) принимает вид t t-tb x(t)= lim [ k(t — x)z(x)dx= lim f fe(g)^(^— g)dg, f0->-oo J что для краткости будем записывать так: t оо x(f)= j k(t-x)z(x)dx = j k(l)z(t-l)dl. (1.22) -------- 00 О
12 ГЛ. Т. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Выражение (22) определяет собой установившийся процесс в си- стеме. Пример. В качестве примера найдем установившийся процесс в си- стеме, описываемой дифференциальным уравнением (1), kox + k{x + k2x = z (t) для случая, когда z (t) = k2m = const. Согласно (22) и (14) t-t. lim x(/) = lim f k®z(t-№ ?o“> — oo f0-> — oo J ИЛИ / — /о lim x(/) = • lim f sin (o£ dt = /0->-oo k0(i) f0^-oo J ъ b _ k2m Г — e sin cog — (0 cos (og kQ(d L 82 + (d2 6 Jo Так как согласно (10) e>0, e2 + о2 = ~~, то полученное выражение приня- ло мает вид lim х (/) = m. /0“> -°° 2. Функция веса и передаточная функция. Система, описы- ваемая линейными дифференциальными уравнениями с постоян- ными коэффициентами, называется стационарной системой. При помощи преобразования Лапласа можно установить весьма интересное соотношение между передаточной функцией и функ- цией веса стационарной системы. Напомним [90], что изображением (или преобразованием) некоторой функции х(/) действительного переменного / по Ла- пласу называется функция комплексного переменного р, опре- деляемая соотношением оо ^[х(01= / x(t)e-pi(tt. (1.23) о В операционном исчислении Карсона — Хевисайда изображе- ние £(р) функции x(Z) определяется соотношением оо W- = J x(t)e~pidt, (1.24) о что не содержит принципиальных отличий от преобразования Лапласа, но представляет удобство тем, что для функции
§ 1. ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 13 х(/) = с, где с = const, постоянная с служит также изображе- нием: 1(р) = с. Операционное соответствие между функциями g(p) и x(t) (функция x(t) называется оригиналом) записы- вается так: ^(р)-Н-х(О или х(0«-ц-|(р). (1.25) Если известна функция |(р), то соответствующий ей ориги- нал определяется формулой Римана — Меллина c+ioo J ^~^dp (/>0), (1.26) C-ioo где интегрирование ведется в плоскости комплексного перемен- ного р вдоль прямой, параллельной мнимой оси и отстоящей от нее на расстоянии с. Эта прямая расположена правее всех особых точек функции g(p)/p. Рассмотрим теперь для изученной выше системы (1) функ- цию Ф(р>) комплексного переменного р, которая образуется из передаточной функции Ф(О), если в ней аргумент D заменить на р. Согласно (5) функция Ф(р) будет иметь следующий вид: Ф (р) = -т—j-r-^ L- . (1.27) k0p2 + kxp + k2 v 7 Учитывая соотношение (7), (8) и (9), можно представить вы- ражение (27) так: ® ~ k0 (р + е ~ /со) (р + е + /о) ~ kQ [(р + е)2 + со2] ’ U *28) В соответствии с (28) рф (р) = J- . (1.29) ' '' k0<s> (р + е)2 + <в2 ' > Как известно [17], 7—, р<? ,—з e~zt sin ©/. (р + в)2 + <о2 • Таким образом, рФ (р)-4->sin©/, (1.30) и, следовательно, в соответствии с (14) мы приходим к соот- ношению рФ(р)^>^(0. (1.31) Это и есть интересующее нас соотношение между передаточной функцией Ф(£>) и функцией веса /г(/) системы (1).
14 ГЛ. L ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Ниже будет показано, что соотношение (31) имеет место для любой стационарной линейной системы с конечным числом сте- пеней свободы. Передаточная функция Ф(О) или соответствующая ей функ- ция веса k(t) представляют собой основную динамическую ха- рактеристику линейной стационарной системы. Эти функции ха- рактеризуют как собственные колебания системы, так и спо- собность системы воспроизводить внешние сигналы. Функции ф(О) и k(t) полностью эквивалентны друг другу. 3. Частотная характеристика. Заметим еще, что на основа- нии формулы (26) Римана — Меллпна С-Иоо *(0 = i J Ф(р)е”Чр (/>0). (1.32) c—ioo В системе, у которой все полюсы функции Ф(р) расположены левее мнимой оси, собственные колебания асимптотически за- тухают, как это видно из (28) и (11). При вычислении для та- кой системы интеграла (32) можно принять с = 0. Из соотношений (31) и (24) вытекает, что по известной функ- ции веса k(t) системы функция Ф(р) определяется фор- мулой оо Ф(р)= / k(t)e~ptdt. (1.33) О Полагая р = tco и учитывая, что £(0 = 0 при t < 0, можно для системы, у которой все полюсы функции Ф(р) расположены левее мнимой оси, представить преобразование Фурье для функ- ции веса k(t) в таком виде: оо Ф (по) = J k — оо (1.34) Функция Ф(йо) называется частотной характеристикой си- стемы. В системе, у которой не все полюсы функции Ф(р) располо- жены левее мнимой оси, асимптотическое затухание собственных колебаний не имеет места, и определение ее частотной характе- ристики Ф(/со) нельзя производить по формуле (34), так как несобственный интеграл оо J \k(t)\dt — оо у такой системы является расходящимся.
§ 1. ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 15 4. Замкнутая управляемая система. На рис. 1.2 изображена структурная схема следящей системы, сигнал на выходе которой обозначен через х. Сигнал на входе системы представляет собой некоторую, заранее неизвестную функцию времени z(t). Назна- чение системы — удерживать для любого момента времени t достаточно близким значе- ние х(/) сигнала на выходе к значению входного сигна- ла z(/), иными словами, обеспечивать достаточную малость рассогласования 8 = Z — X следящей системы. Конструкция следящей системы, соответствующая структурной схеме на рис. 1.2, может быть различной. Например (рис. 1.3), это может быть смонтированный в опорах вал (на- зываемый следящим валом), центр тяжести которого располо- жен на оси вращения. Следящий вал приводится во вращение электродвигателем постоянного тока с независимым возбужде- нием (серводвигателем). Напряжение, подводимое к цепи якоря двигателя, пропорционально рассогласованию следящей си- стемы. В рассматриваемом примере х представляет собой угол поворота следящего вала, a z(t)— угол поворота некоторого (задающего) диска, движение которого должен повторять сле- дящий вал. Структурная схема на рис. 1.2 изображает замкнутую управ- ляемую систему. Уравнения движения рассматриваемой здесь
16 ГЛ. I. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ (1.35) следящей системы можно представить в следующем виде: (fe0Z)2 + = fe28, e = z — х, где z = z(t)—сигнал на входе системы. Первое уравнение (35) представляет собой уравнение движения следящего вала. Вто- рое уравнение (35) определяет величину рассогласования. Обо- значая О-36’ можно преобразовать систему уравнений (35) к виду x = W(D)(z-x) или [l + W(D)]x=W(D)z. (1.37) Если обозначить ф(я)=-тЯ5Г (L38> то уравнение (37) примет вид х = Ф(О)г(/). (1.39) Уравнение (39) называется уравнением замкнутой управ- ляемой системы. Функция Ф(£) — передаточная функция замк- нутой управляемой системы. Изо- _____ I . ________ браженная на рис. 1.2 схема при- » ф(]])___________) ведена, таким образом, к виду (рис. 1.4), изученному в п. 1. Рис. 1.4. Для рассматриваемой здесь следящей системы функция Ф(О) согласно (36) и (38) имеет вид а уравнение (39) эквивалентно дифференциальному уравнению (fe0Z)2 + kxD + k^x = fe2z(/). (1-41) 5. Разомкнутая управляемая система. Представим себе те- перь, что цепь обратной связи в следящей системе разомкнута (рис. 1.5). На вход цепи якоря поэтому поступает напряжение, пропорциональное входному сигналу г(/), а не рассогласованию. Структурная схема следящей системы для указанного случая представлена на рис. 1.5. Эта схема изображает разомкнутую управляемую систему.
§ I. ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 17 В соответствии с (35) уравнения движения следящей системы в рассматриваемом сейчас случае будут (fe0Z)2 + feiD)x = ^(/). (1.42) В соответствии с (36) можно преобразовать уравнение (42) к виду х=Г(О)г(0. (1.43) Уравнение (43) называется уравнением разомкнутой управ- ляемой системы. Функция W(D) является передаточной функ- цией разомкнутой управляемой системы. Рис. 1.5. Рис. 1.6. Полученное выше соотношение (38) ф(о)= устанавливает, таким образом, зависимость между передаточ- ными функциями замкнутой и разомкнутой управляемых си- стем. 6. Воспроизведение преобразованного входного сигнала. Если управляемая система должна воспроизводить не сам входной сигнал г(/), а преобразованный сигнал где Н(D) — некоторая дробно-рациональная функция от оператора диффе- ренцирования D, то это можно сделать, поместив в цепь обрат- ной связи устройство, передаточная функция которого равна h(D), где ‘(О)-7ПО>- 0.44) Таким образом, будем иметь схему, показанную на рис. 1.6. Сигнал рассогласования t, = z-h(D)x. (1.45) Уравнения замкнутой управляемой системы будут (koD1 + kiD) х = k2Z, 1 С = z — h(D) x. J (1-46)
18 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Эти уравнения, учитывая соотношение (36), перепишем так: х = W (D) [z - h (£>) х] ИЛИ [1 + W (D) h(D)]x = W (D)z(t). (1.47) Передаточная функция замкнутой управляемой системы будет иметь вид = 1 + W(D)h(D) ' (1 -48) Уравнение (47) замкнутой управляемой системы можно в соот- ветствии с (48) переписать так: х = Т (D) z (/). (1.49) Разомкнутая управляемая система показана на рис. 1.7. Уравнения разомкнутой управляемой системы будут х = W(D)z(t), <т = h(D)x, (1.50) откуда a = ft(D)F(D)z(0. (1.51) Таким образом, передаточная функция разомкнутой управляе- мой системы имеет вид S (D) = h(D)W (D). (1.52) 7. Одномерная управляемая система с конечным числом сте- пеней свободы. Рассмотренная в предыдущих разделах управ- ляемая система с одной сте- Рис. 1.7. пенью свободы представляет собой простейший вид управ- ляемой системы. Многие управляемые системы обладают не од- ной, а несколькими степенями свободы. Если назначением управляемой системы является обеспечение близости закона изменения во времени лишь одной из координат qj = qj(t) этой системы к некоторой (вообще, заранее неизвестной) функ- ции времени z(/), а к закону изменения во времени остальных обобщенных координат qi(t) (i = 1, 2, ... ; i j) подобные тре- бования не предъявляются, то такая управляемая система мо- жет быть названа одномерной.
§ 1. ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 19 Уравнения движения указанной управляемой системы будут иметь следующий вид: <js = S Askqk + ms[z(t)-qj\ (s = 1, . .., п). (1.53) ы Система скалярных дифференциальных уравнений (53) экви- валентна векторному дифференциальному уравнению q = Aq + т [z(t) - q^ (1.54) где через q, А и т обозначены матрицы q = ' Qi ‘ • • A\n ' mt . (1-55) - qn - - A/il • 1 • • ^nn - - tnn - Уравнение (54) можно переписать так: (££>-Л)7 = т[г(0-^1 (я = 4)’ 0-56) где через Е обозначена единичная матрица. Отсюда B(D)m[z f(D) (1.57) где B(D)— присоединенная матрица для матрицы ED — Д, а через f(D) обозначен определитель матрицы ED — А: f (£)) = det (ED — Д). (1.58) Из (57) следует, что <7 / = f (D) ’ (1.59) Таким образом, дифференциальное уравнение, которому удовлет- воряет интересующая нас обобщенная координата q^ будет иметь следующий вид: f(D)qf = g(D)[z (О -Я)1 (1.60) где £(£») = 2 (1.61) Так как Bji(D)—алгебраическое дополнение элемента, располо- женного на пересечении Z-й строки и /-го столбца в определи- теле матрицы ED — Л, то степень полинома g(D) ниже степени полинома f(D). Полиномы f(D) и g(D) можно записать так: f(D) = aQDn + axDn~x + ... + an_xD + an, g(D) = bQDv + bxDv~l + ... + bv_{D + bv (v<n). (1.62)
20 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ У стационарной системы коэффициенты полиномов (62) at (i = 0, 1, ..., п), bk (& = 0, 1, ..., v) постоянны. Аналогично изложенному выше у рассматриваемой здесь системы можно считать qj сигналом на выходе системы, a z(t)— входным сигналом. Для удобства сравнения с рассмотренными выше системами будем ниже вместо писать х и перепишем уравнение (60) так: 8 = z —х, J где через £ обозначено рассогласование. Обозначая Q ([)) — £ (В) __ + *+ ... +6у]£) + 6у /| f (D) a0Dn + aiDn + ... 4* an—\D + an можно преобразовать систему уравнений (63) к виду х = G (D) (z — х) или [l + G(Z))]x = G(Z))z(/). (1.65) Если обозначить С-66» то уравнение (65) примет вид x = L(D)z(t). (1.67) Уравнение (67) представляет собой уравнение замкнутой одномерной управляемой системы с конечным числом степеней свободы (рис. 1.8). Функция L(D) является передаточной функ- цией замкнутой управляемой Рис. 1.8. системы. Так как, согласно (64) и (66) £ (£)) = --________ { ’ f(D) + g(D) ’ то уравнение (67) эквивалент- но следующему дифференци- альному уравнению: [f(D) + g(D)]x = g(D)z(t). (1.68) Разомкнутая управляемая система здесь имеет вид, показан- ный на рис. 1.9. Уравнение движения разомкнутой системы будет f(D)x = g(D)z(t). (1.69) Учитывая выражение (64), можно привести уравнение (69) к виду x=G(D)z(t). (1.70)
§ 1. ОДНОМЕРНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 21 Уравнение (70) является уравнением разомкнутой управляемой системы, а функция G(D) — передаточная функция этой си- стемы. 8. Одно замечание об интегрировании уравнений движения одномерной системы. Выше мы перешли от исходной системы дифференциальных уравнений (53) к уравнению (60). Функ- ция г(/) входит в уравнение (60) под знаком дифференциаль- ного оператора, хотя в исходную систему уравнений (53) про- изводные от z(t) не входили. Решение дифференциального уравнения (60) будет зависеть от начального значения самой функции z(t) значений z(t) (до начального значе- ния производной от z(t), по- рядок которой на единицу ниже степени дифференциаль- ного оператора g(D)). Между тем в решении исходной си- стемы уравнений начальные значения самой функции z(t) и ее производных (если про- изводные от z(t) не входят в исходную систему) не участвуют. Чтобы пояснить существо вопроса, рассмотрим следующий пример. Пусть дана система уравнений и начальных производных от z(t) --Н Е -I Рис. 1.9. G(D) <71 + kq2 = 0, | q2-kqi=z(t). J (1-71) Исключая из уравнений (71) переменную q\, получим следую- щее дифференциальное уравнение второго порядка: q2 + k2q2 = z(t). (1.72) Для интегрирования уравнения (72) можно применить ме- тоды операционного исчисления. Обозначим П2(р)-^>^2(0, Ш ~^*(0. (1.73) <?2 (0 рЧ (р) - Р^2 (0) - Р<?2 (0), 1 z(0^pUp)-pz(0), ) (L74) то дифференциальному уравнению (72) будет соответствовать следующее уравнение в изображениях: (р2 + k2) Т)2 (р) = pt, (р) + p2q2 (0) + pq2 (0) - pz (0). (1.75) Отсюда
22 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Учитывая, что >2 cos kt, -yv/2- -> sin kt + k2 ’ p2 + k2 и что на основании теоремы об умножении изображений t 1 р2 Г — P2 + F Up) J cos k (t - r) z (т) dr, о найдем, согласно (76) следующий закон изменения координаты q2 во времени: ^2 (0 = у [^2 (0) “ z (0)] sin kt + q2 (0) cos kt + J cos k(t — x)z (r) dr. 0 (1.77) Заметим теперь, что из исходной системы уравнений (71) сле- дует, что 4^2(0)-z(0)] = (71(0)) (1.78) и, следовательно, решение (77) можно представить в следую- щем виде: t ^2 (0 = ?i (O)sin£/ + <72(0)cos£f + J cos k (t — r) z (r) dr. (1.79) о Выражение (79) не содержит начального значения z(0) функ- ции z(t). Таким образом, при q\ (0) = 0, ^(0) = 0 первые два слагае- мых в выражении (77) (соответствующие собственным колеба- ниям системы) исчезают и выражение (77) принимает вид t q2 (0 = J cos k (t — r) z (т) dr. (1.80) о § 2. Многомерные управляемые системы 1. Замкнутая управляемая система. Управляемую систему, у которой как входной сигнал, так и сигнал на выходе являются векторами, будем называть многомерной управляемой системой (рис. 2.1). Структурная схема замкнутой многомерной управляемой си- стемы изображена на рис. 2.2. Здесь at— звено, объединяю- щее управляемый объект, усилители и исполнительные орга- ны. Через а2 обозначено звено, состоящее из совокупности
§ 2. МНОГОМЕРНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 23 чувствительных элементов, то есть измерительных устройств, измеряющих состояние управляемой системы. Через Xi обо- значен сигнал на выходе звена ai. Это — тгмерный вектор. Через х2 обозначен сигнал на выходе звена аг. Это т2-мер- ный вектор. Дифференциальные уравнения, описывающие процессы в звеньях aj и а2 (имея в виду общую точку зрения Лагранжа, будем называть их уравнениями движения системы), можно представить в виде следующей системы векторных дифферен- циальных уравнений: f{{D)xi = e{(D){z-x^ + er{D')r, 1 f2{D)x2 = e2{D)x{. J (2Д) Здесь fi(D) — полиномная матрица типа т\ X элементы которой являются полиномами от D (где D = djdt) с постоян- ными коэффициентами. Аналогично f2(D)—полиномная матрица типа т2 X rn2\ ei(D)—полиномная мат- рица типа т{ X т2; e2(D)—поли- номная матрица типа т2 X пц. Входной сигнал z(t) представ- ляет собой т2-мерный вектор. Через r(t) обозначен тг-мерный вектор, Рис. 2.1. представляющий собой совокупность помех (возмущающих сил), приложенных к системе. Через er(D) обозначена полиномная матрица типа Хтг. Вектор z — х2 представляет собой рассогласование системы. Назначение системы — обеспечивать для любого момента времени Рис. 2.2. достаточную малость рассогласования. Критерии, оценивающие качество выполнения этой задачи, могут быть различными, в за- висимости от той или иной конкретной управляемой системы. Некоторые из этих критериев будут изложены ниже.
24 ГЛ. !. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 2. Характеристический определитель замкнутой управляемой системы. Входной сигнал z и помеха г представляют собой неко- торые (заранее неизвестные) функции времени z = z(/), г = г(/). При изучении устойчивости системы рассматриваются лишь ее собственные движения. Полагая z(/) = 0, г(/)==0, получим из (1) уравнения собственных колебаний системы +е1(£>)х2 = 0, 1 f2 (D) х2 - е2 (£>) х, = 0. J Операционная матрица для системы уравнений (2) будет f(D) = ' ft(D) е.фУ _-e2(D) f2(DY' (2.3) Матрица f(D) является коагулированной (блочной) матрицей. Для того чтобы найти определитель матрицы f(D), проделаем следующие элементарные преобразования. Умножим вторую строку матрицы f(D) слева на матрицу — е, (£)) (где f~l (£)) —матрица, обратная для матрицы и сложим вновь полученную строку с первой строкой. Мы получим тогда тре- угольную матрицу f*(D), эквивалентную матрице f(D): f(D>.ff|(D) + ,!|(D)f’’,(D,e!<D) ° 1 <2 41 L -е, (D) f,(D)J' Так как определители эквивалентных матриц отличаются лишь постоянным множителем, то, с точностью до постоянного мно- жителя, определитель Д(£>) операционной матрицы f(D) будет A (D) = det [f, (D) + е, (D) f;1 (D) e2 (D)] det f2 (D). (2.5) Выражение в квадратных скобках в формуле (5) можно пре- образовать fl(D) + el(D)f;'(D)e2(D)^fi(D)[Em+f[l(D)el(D)f;l(D)e2(D)] = = Y (£>) [Emi + W, (О) W2(D)] = Y(D)[Emi + W (D)], (2.6) где , F.(D)e.(D\ (D) = f 7 (D) et. (D) = - дД-/)) ’ = 1 ’ 2)’ <2’7) r (D) = (D) r2 (D) = f|(O)^(g2(D)— • <2-8)
§ 2. МНОГОМЕРНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 25 Здесь через Emi обозначена единичная матрица типа mi X m.. Через Fi(D) обозначена присоединенная матрица для матрицы /дЬ), а At(D) является определителем матрицы AJZ)) = detff(Z)) (Z = 1, 2). Из выражений (7) видно, что WX(D)—матрица типа mi X m2, W2 (D)— матрица типа m2 X mh a W (D)—квадратная матрица типа mi X ть Матрица W^D) (i = 1, 2) является матричной передаточной функцией звена ос{. Таким образом, выражение (5) принимает вид A (D) = det {f! (D) [Emi + W (D)]} det f2 (£>). (2.9) Так как определитель произведения двух матриц равен произве- дению их определителей и, кроме того, определители коммута- тивны при умножении, то выражение (9) можно переписать так: A (D) = Al (D) А2 (D) det [Emi + W (D)]. (2.10) Определитель (10) представляет собой характеристический определитель замкнутой управляемой системы. Характеристическое уравнение замкнутой управляемой си- стемы будет следующим: А(р) = 0. (2.11) Замкнутая управляемая система будет асимптотически устой- чивой, если все корни характеристического уравнения (И), то есть все нули функции А(р), будут расположены левее мни- мой оси на плоскости комплексного переменного р 3. Уравнение автоматического управления. Вернемся к урав- нениям (1) fi (D) хх + ех (D) х2 = ех (D) z + er (D) г, - e2(D)xj + f2 (О)х2 = 0 и исключим из этих уравнений вектор х2. Для этого умножим все члены во втором уравнении (1) слева на матрицу — е} (D) и сложим вновь полученное уравнение с первым уравнением (1). Будем иметь [А (D) + е, (£>) (D) е2 (D)] х{ = е, (£>) z + er (D) г, (2.12) или согласно (6) f, (D) [Em, + W (D)] xj = et (D) z + er (D) r. (2.13)
26 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Умножая левую и правую части уравнения (13) слева на мат- рицу получим [Emi + W (£))] х, = f’1 (D) et (D) z + /Г1 (D) er (£>) r. (2.14) Обозначим (D) er (D) = Fi = R (O). (2.15) Матрица R(D) будет матрицей типа mi X mr. Ее можно назвать передаточной матрицей помех. Так как согласно (7) f Г1 (D) е, (D) = F| = Wr (£>), то уравнение (14) принимает вид [Emi + W (О)] %! = W{ (О) z + R (D) г (2.16) или Xl = [Emt + W (£>)] “1 Г! (£>) z + [Emi + W (D)]"1 R (£>) r. (2.17) Уравнение (17) описывает процессы в замкнутой управляе- мой системе и называется уравнением автоматического управ- ления. 4. Разомкнутая управляемая система. На рис. 2.3 изоб- ражена разомкнутая управляемая система. Как видно из Рис. 2.3. уравнений (1), процессы в разомкнутой управляемой системе описываются следующими векторными дифференциальными уравнениями: Д (D) %! = б! (£>) z (t) + er (D) г, f2(D) х2 = e2(D) Xl. (2.18)
§ 2. МНОГОМЕРНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 27 Уравнения собственных колебаний разомкнутой управляе- мой системы получим из уравнений (18), полагая = = Таким образом, будем иметь f1(D)x1 = 0, 1 f2(D)x2 = e2(D)xlJ (2Л9) Операционная матрица для системы уравнений (19) будет Г /1 (D) 0 ] М«)1- (2'20) Определитель До(D) матрицы fo(£) имеет следующий вид: A0(D) = Aj (D) А2(£>), (2.21) где, как и выше, через A,(Z)) (i = 1, 2) обозначен определитель матрицы Определитель Ао(£) является характеристиче- ским определителем разомкнутой управляемой системы. Вернемся к уравнениям (18). Первое уравнение инте- грируется независимо от вто- рого уравнения. Это уравнение можно переписать так: *1 = :=f^l(D)el(D)z + fp(D)er(D)r. (2.22) Учитывая выражения (7) и (15), приведем уравнение (2.22) к виду х1 = Г1(Д)г + /?(О)г. (2.23) Рис. 2.4. Уравнение (23) описывает движение управляемой системы, ра- зомкнутой на выходе звена аг. Уравнение автоматического управления (17) отличается от уравнения (23) наличием в правой части оператора [Emi + + U7(Z))]~l. Управляемая система должна возможно точнее воспроизводить входной сигнал z(t) и быть мало восприим- чивой к помехам г (О- Оператор W (D) должен строиться так, чтобы эти требования выполнялись возможно лучше. 5. Интерпретация матричных операторов W(D) иЕШ1 + W(D). Рассмотрим управляемую систему, в которой разомкнута пря- мая связь между звеном ai и звеном аг. Пусть г (0 = 0, г (0 = 0, (2.24) а на вход звена аг подается некоторый сигнал -&(/), который представляет собой mi-мерный вектор (рис. 2.4).
28 ГЛ. !. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ В соответствии с (1) процессы в разомкнутой на выходе звена ai управляемой системе будут описываться следующими уравнениями: A (D) х, = - Ct (О) х2, 1 f2(D)x2 = e2(D)$(t). J Отсюда, учитывая (7), получим *1 = - Fi (D)x2, 1 х2=1Г2(Г>И(0 J ИЛИ Так как согласно (8) W. (£>) W2(D) = W(D), то уравнение (27) принимает вид Х1 = - №(£>W). (2.25) (2.26) (2.27) (2.28) (2.29) Таким образом, матрица W (D) представляет собой взятую с обратным знаком матричную передаточную функцию управ- ляемой системы, разомкнутой на выходе первого звена. Обратимся теперь к возможной интерпретации оператора Em. + W (£>). Сигнал на выходе звена он, то есть вектор после прохождения сигнала $(/) через разомкнутую систему, показанную на рис. 2.4, определяется выражением (29). Раз- ность между сигналом $(/), поданным на вход звена аг, и сиг- налом на выходе разомкнутой системы будет U(0-[- U7(Z))d(f)] = [^, + r(Z))]1}(f). (2.30) Величину (30) Боде [13] назвал возвратной разностью. Квадрат- ная матрица Emi + W (D) может быть в этом смысле названа матрицей возвратной разности. 6. О воспроизведении входного сигнала в многомерной управ- ляемой системе. Уравнение (17), описывающее процессы в мно- гомерной управляемой системе, имеет вид Xl = [Em> + W(О)]"1 W, (D) z (t) + [Emi + W (D)]-' R (D) r (/). Так как согласно (8) Г,(£>) = Г(О) W'(D), (2.31) то уравнение (17) можно переписать так: = [Em, + W (D)]-‘ W (D) (D)z (/) + [Е,„, + W (D)]"1 R (D) г (/). (2.32)
§ 3. ЧАСТОТНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ УСТОЙЧИВОСТИ 29 Из второго уравнения системы (1) следует, что х2 = r2 (D)xx. (2.33) Подставляя в (33) значение хх из (32), получим х2 = W2 (£>) [£m, + W (D)]-‘ W (£>) r2-‘ (D)z (/) + + W2 (D) [Em, + W (D)]-' R (D) r (/). (2.34) При r(^) = 0 выражение (34) принимает вид x2 = W2(D) [Em, + W W(D) r2-‘ (D)z(t). (2.35) Уравнение (35) представляет собой обобщение уравнения (1.39), описывающего воспроизведение входного сигнала в одномерной системе. § 3. Частотные методы исследования устойчивости линейных управляемых систем 1. Преобразование характеристического определителя зам- кнутой управляемой системы. Как показано в § 2 (2.10), характе- ристический определитель замкнутой управляемой системы имеет следующий вид: A (D) = Ai (D) А2 (D) det [Emi + W (£>)]. Здесь A?(D) (i = 1, 2)—характеристические определители звень- ев управляемой системы, причем согласно (2.21) произведение этих определителей представляет собой определитель разомкну- той управляемой системы A0(Z)) = Ai(D)A2(D). Таким образом, определитель замкнутой управляемой си- стемы можно записать так: А (D) = Ао (D) det [Em{ + W (D)J. (3.1) Согласно (2.7) и (2.8) W (D) = r, (D) W2 (D) = e2 (P) . (3.2) то есть w (D) _ г,и.1т|имщ (3,3) Матрица W(D) является квадратной матрицей типа ini X mi и в соответствии с выражением (3) все элементы матрицы W(D) = -1^(0) Г12(О) ... IFlm,(D)- rmi2(D) ... (3.4)
30 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ представляют собой дробно-рациональные функции от опера* тора дифференцирования D, у каждой из которых знаменатель равен До(£>). Матрица Emi + W (D) имеет вид " I + ^i. (D) U712(D) . Emi + W{D) = _ Гт11(£») Wmi2(D) . • • l + ^m,«,(£>)_ (3.5) Определитель этой матрицы можно привести к следующему виду: det [£„,+ №(£)] = ! 4-/<(Р), (3.6) где K(D) — дробно-рациональная функция от D a L(D) — некоторый полином от D. Из выражений (6) и (1) следует, что А(Г>) = Д0(П)[1 +/С(П)] (3.8) или согласно (7) А<С) = 4"(°) + КТ^' ,3'9) Так как Д(£>)—целая функция (поскольку она представляет собой определитель замкнутой управляемой системы), то оче- видно, что L(D) = M(D)[A0(D)r-‘, (3.10) где M(D)—некоторый полином от D. Таким образом, <3J1> Выражение (8) теперь принимает вид Д(Л) = Д0(Л)[1 +^-] = Д0(£>) + М(/)). (3.12) Для того чтобы управляемая система была асимптотически устойчивой, необходимо, чтобы все нули полинома Д(р) были расположены в левой полуплоскости комплексного перемен- ного р.
§ 3. ЧАСТОТНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ УСТОЙЧИВОСТИ 31 Необходимые и достаточные условия, при которых эти тре- бования выполняются, даются критерием Гурвитца [17, 21]. Большие возможности, однако, дает критерий Найквиста, кото- рый позволяет судить об устойчивости замкнутой управляемой системы по частотным характеристикам разомкнутой системы. Частотной характеристикой разомкнутой управляемой си- стемы называется функция W (1(д) = [Г (р)]р=((й (— ОО <0)< оо), где W (D)—матричная передаточная функция разомкнутой си< стемы, которая определена в § 2 формулой (2.28). Так как, согласно (2.28) Г(О) = Г1(О) F2(D), где Wi(D) и —матричные передаточные функции звеньев системы, то = W2(ia)9 и для построения частотной характеристики разомкнутой управ- ляемой системы требуется лишь знание частотных характери- стик ее звеньев. Последние же, если неизвестно аналитическое выражение функций Wt(D), могут быть определены экспери- ментально, как это показано ниже. Таким образом, основная ценность критерия Найквиста состоит в том, что он позволяет судить об устойчивости замкнутой управляемой системы не только по аналитическим, но и по экспериментальным характе- ристикам разомкнутой системы. Этот критерий, излагаемый ниже, был предложен Найквистом [13] для усилителей с обрат- ной связью и применен А. В. Михайловым [65] и др. к регули- руемым системам. 2. Критерий асимптотической устойчивости замкнутых управ- ляемых систем, содержащих лишь устойчивые звенья (критерий Найквиста). Сначала рассмотрим управляемые системы, звенья которых устойчивы. Это означает, что характеристические опре- делители звеньев ДДр) не имеют нулей в правой полуплоско- сти комплексного переменного р. Мы ограничимся рассмотрением систем, для которых у функ- ции 1Z / п\ _ М (&) степень числителя не выше степени знаменателя. Так как со- гласно (8) Д (р) = Д0(р) [1 +/С (р)] = Д0(р) р
32 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ то очевидно, что нулями функции Д(р) являются нули функции (3-13> Ао \Р) Нулями функции 1 + К(р) являются нули ее числителя, а по- люсами— нули ее знаменателя. Если все звенья управляемой системы асимптотически устойчивы, то функция Д0(р) не имеет нулей в правой полуплоскости комплексного переменного р. По- этому указанный ниже интеграл по замкнутому контуру С, рас- положенному в правой полуплоскости р, будет иметь следующее значение: гИтЖ"-« + ₽--«. (3.14) С где W— число нулей, а Р — число полюсов, которые имеет функция 1 + К(р) в области, ограниченной контуром С. Заметим, что обычно при формулировке теоремы Коши в тео- рии функций комплексного переменного обход по замкнутому наружному контуру производится против направления движения стрелки часов, то есть так, чтобы область, охватываемая конту- ром, оставалась слева. Здесь принят обход по направлению движения стрелки часов, и поэтому в правой части выражения (14) мы имеем —W + Р. Если при помощи конформного отображения К = К(р) отобразить контур С на плоскость К, то выражение (14) при- мет вид Г где Г — контур на плоскости К, полученный в результате ото- бражения. Направление обхода по этому контуру дается ото- бражением и не может быть выбрано произвольно. Так как коэффициенты полиномов М(р) и Д0(р) действи- тельны, то действительным точкам р соответствуют действи- тельные точки на плоскости К. Точке р = 0 и бесконечно уда- ленной точке р = оо соответствуют также действительные точки К(0) и /<(оо). Точкам р = е + /со и р = 8 — ио—Соответствуют симметричные точки Л(е + ио) и /<(е — ио) = Я(8 + йо). По- этому, если контур С симметричен относительно действительной оси, то и контур Г на плоскости К будет симметрично располо- жен относительно действительной оси. Величина 1 + К есть не- которая комплексная величина. На плоскости К она представ- ляет собой радиус-вектор точки, лежащей на контуре Г. Начало этого радиус-вектора расположено в точке (—1,0).
§ 3. ЧАСТОТНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ УСТОЙЧИВОСТИ 33 Так как 1+К = | 1+K|e*arg(l+№ (3.16) 1п(1+Ю = 1п| 1 Ч-К 14-Z arg(l 4-К), (3.17) -i^r = dln(l+K) = dln| l+K| + idarg(l+Ю, (3.18) I т Л ТО -^ = -2^f-R7(- = ^rParg(1+^= •• arg2n + K) » <3-19) г г где Aarg(l + /()—приращение аргумента радиус-вектора 1 + К при обходе по замкнутому контуру Г. Интеграл от пер- вого слагаемого в выражении (18) $ dln| 1 + К | = 0, (3.20) Г так как контур Г — замкнутый. Таким образом, N равно числу S полных оборотов вектора 1 + К вокруг точки (—1,0), когда р описывает контур С по стрелке часов, причем обороты вектора 1 +' К считаются поло* жительными также по стрелке часов S = (3.21) Заметим, что если считать обороты вектора 1 + К положитель- ными, когда они совершаются против стрелки часов, то число оборотов вектора 1 + К будет согласно (15) равно N. Для решения вопроса об асимптотической устойчивости замк- нутой управляемой системы необходимо выбрать в плоскости р контур, который охватывал бы всю правую полуплоскость. Пусть контур в плоскости р составлен из полуокружности L радиуса R с центром в начале координат и из ее диаметра Cz 4- С, расположенного на мнимой оси (рис. 3.1). Направление обхода — по стрелке часов. Когда р изменяется вдоль мнимой оси от 0 до +гоо, точка К(р) пробегает путь Г от точки А(0) до точки А(оо), распо- ложенной на действительной оси. Вместе с зеркальным отобра- жением Г' этого пути относительно действительной оси полу- чаем замкнутый контур Г + Г', изображенный сплошной линией. Полуокружности L от р — + iR через р = R до р = —iR со- ответствует дуга А от К = /С(4-*7?) через К = K(R) на действи- тельной оси до К = А(—iR). Эта дуга А представляет собой ответвление контура Г' + Г. При R —> оо контур в плоскости р, в пределе, охватывает всю правую полуплоскость. Нетрудно видеть, что при R -> оо 2 Я. Н. Рейтенберг
34 ГЛ. !. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ответвление Л стягивается в точку /<(оо). Действительно, при р = Re^ будем иметь К (п\= - ааРпе‘^ + а^п-'е‘^п-1Ч ... +ап , Д {Р) До (р) ~ lim /С (р) ==/С (оо) =. (3.23) В случае, когда степень полинома М(р) ниже степени Ло(р)> то есть при «о = О, имеем /С(оо) = 0. Таким образом, при >оо на плоскости /С остается только замкнутый контур Г + Г'. Рис. 3.1. Число S оборотов контура Г + Г' вокруг точки (—1,0) по стрелке часов равно числу нулей N характеристического опре- делителя Д(р) в правой полуплоскости р. Если число оборотов равно нулю, то замкнутая управляемая система асимптотиче- ски устойчива. а) Устойчивая система 6) Нецстойчибая система Рис. 3.2. Если, в частности, контур Г + Г' не имеет самопересечений, то асимптотическая устойчивость имеет место лишь в том слу- чае, когда точка (—1,0) лежит вне контура. В этом и состоит критерий Найквиста [17].
§ 3. ЧАСТОТНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ УСТОЙЧИВОСТИ 35 Заметим, что возможны случаи, когда контур Г + Г' охва- тывает точку (—1,0), но благодаря наличию самопересечений (рис. 3.2) число оборотов контура вокруг точки (—1,0) равно нулю. В этих случаях система устойчива. Отметим еще взаимное расположение на плоскости К точек К(0) и /<(оо). Легко видеть, что числа До(О) и Д0(оо) всегда имеют одинаковые знаки, так как иначе полином До(р) имел бы, по меньшей мере, один положительный действительный корень, что противоречит предположению об устойчивости разомк- нутой системы. Если замкнутая управляемая система устой- чива, то и числа До(О) + М (0), Д0(оо) + М (оо) должны иметь Рис. 3.3. одинаковые знаки, откуда следует, что у действительных чисел 1+А(0), 1+Л(оо) знаки должны быть одинаковыми. Таким образом, у устойчивой системы точки /((0) и /((оо) должны лежать по одну сторону от точки (—1,0). У неустойчивой си- стемы точки /<(0) и /((оо) могут лежать как по одну сторону, так и по разные стороны от точки (—1,0). 3. Применение критерия Найквиста к системам с нейтраль- ными звеньями. Объекты управления могут быть нейтральными или неустойчивыми (паровая машина, корабль, нейтральный или статически неустойчивый самолет) и задача регулирования состоит в превращении их в устойчивые системы. Среди звеньев регулятора также встречаются нейтральные (серводвигатели). При наличии нейтральных элементов точка р = 0 будет полюсом функции /<(р), и при построении контура в плоскости р этот полюс нужно обойти по малой полуокружности I радиуса г (рис. 3.3). Если точка р = 0 — полюс первого порядка, то в ее окрестности функция К(р) ведет себя как и аргументам -Н*0, —Ю функ- 2*
36 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ ции соответствуют ветви кривых Г, Г', уходящие в бесконечность вдоль мнимой оси. Полуокружность / отобра- жается на кривую, близкую к полуокружности бесконечно боль- шого радиуса, описываемую по стрелке часов и смыкающуюся с бесконечными ветвями кривых Г, Г'. Когда R—>оо, г—>0, дуга Л, отображающая полуокружность /, стягивается в точку К(оо), а дуга X, отображающая малую полуокружность /, ухо- дит в бесконечность. В итоге опять остается кривая Г + Г', бесконечные ветви которой нужно представлять себе замкнутыми полуокружно- стью бесконечно большого радиуса, расположенной в правой полуплоскости К. К полученному замкнутому контуру по-преж- нему применяем критерий Найквиста. Диаграмма Найквиста, изображенная на рис. 3.3, относится у которой точка р = а является полюсом первого порядка. Для показанного на рис. 3.3 случая имеет место соотношение S + 4 = (3.24) Показанная на рис. 3.4 диаграмма Найквиста относится к устойчивой систе- ме, у которой точка р = 0 является по- люсом 2-го порядка. Если точка р = 0 есть полюс n-го по- рядка, то кривая Г 4-Г' должна быть замк- нута бесконечно удаленной линией, со- стоящей из и полуокружностей, пробегае- мых по стрелке часов. Это следует из к устойчивой системе, того, что в окрестности точки р = 0 функция Л(р) ведет себя 1 _ 1 как уг~ '"rnei^'n то есть полярный угол в плоскости К в п раз больше полярного угла в плоскости р. В рассматриваемом слу- чае имеет место соотношение S+± = N. (3.25) 4. Применение критерия Найквиста к системам с неустойчи- выми звеньями. При наличии неустойчивого звена функция К(р) будет иметь n-кратный полюс в точке р = а, где Rea > 0. Пред- положим для определенности, что точка а расположена на действительной оси. При построении контура в плоскости р вы- ключим полюс а при помощи окружности I малого радиуса г, проходимой против стрелки часов. В плоскости К ей будет соот- ветствовать кривая X, близкая к окружности бесконечно боль- шого радиуса, описываемой п раз по стрелке часов.
§ 3. ЧАСТОТНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ УСТОЙЧИВОСТИ 37 Поэтому, при применении критерия Найквиста, нужно до- полнить контур Г + Г' бесконечно большой окружностью, опи- сываемой п раз по стрелке часов. Это следует из того, что в окрестности полюса р = а функция К(р) ведет себя как В случае наличия неустойчивого звена имеет место следующее соотношение: S + n = N. (3.27) Изображенная на рис. 3.5 диаграмма Найквиста относится к устойчивой системе, у которой точка р = а является полюсом первого порядка (п = 1). Во всех рассмотренных в пп. 3 и 4 случаях формула N = S + Р (3.28) оказывается верной, если простые полюсы во внутренних точках правой полуплоскости считать за единицу, а на мнимой оси — п за половину; кратные полюсы соответственно за п и у. 5. Частотные характеристики управляемых систем и их экспе- риментальное определение. Как показано в п. 2, для применения критерия Найквиста при построении конформного отображе- ния К = К(р) фактически требуется построить лишь отображе- ние /С(цо) (— оо < о < оо). А так как согласно (6) 1 + К (Zco) = det [Emi + W (Zco)] = det [Em, + Wi (Zco) W2 ML (3.29) то для возможности применения критерия Найквиста требуется лишь знание частотных характеристик Ws(i(£)) (s = 1, 2) звеньев системы. Поскольку WS(D) (s = 1, 2)—дробно-рациональная функция от £>, коэффициенты которой действительны, то Ws(—ico) = IFs(i(o); поэтому достаточно определить функцию Ws(i(d) лишь на интервале 0 < со < оо.
38 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ *(t) >1 уда Рассмотрим теперь возможность экспериментального опреде- ления частотной характеристики звена, описываемого вектор- ным дифференциальным уравнением вида f(D)x = e(D)$(t). (3.30) Пусть f(D)—матрица типа п X п, х— n-мерный вектор, e(D) — матрица типа п X m, 'ft(t) —m-мерный вектор. Из уравнения (30) следует, что x = T(D)U(/), (3.31) где = (3.32) Матричная передаточная функция 4f(D) рассматриваемого зве- на (рис. 3.6) является матрицей типа п X т. Пусть входной сигнал &(/) имеет вид Ф (0 = A cos (oj = у (Aeie>,t + Ae~itt,t), (3.33) Рис. 3.6. где А — /n-мерный вектор. Векторное дифференциальное урав- нение (30) теперь принимает вид f (D) х = е (D) (Ае^ + Ае~ . (3.34) Полагая, что fcoi не является корнем характеристического урав- нения det f (р) = 0, будем искать частное решение уравнения (34) в виде х = ~ (h{eM + /г2е~£(д1/). (3.35) Подставляя выражение (35) в уравнение (34), найдем, что h{ = W (/©О Л, h2 = ¥ (- icdj) А. (3.36) Таким образом, х = 1 [W (i©,) Ае^‘ + V (-/©,) . (3.37) Элемент Xj вектора х можно записать так: т т - 2'Гм0Ч)Л^,' + 2тм(-/©1)ЛАе-^ . (3.38) 1 2 k=l Обозначим через /?/*(®1) и фм (©^ модуль и аргумент комп- лексной величины ^(/®1) = /?ул(©1)?^(“>). (3.39)
§ 3. ЧАСТОТНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ УСТОЙЧИВОСТИ 39 Функция Ч^О’со), как указывалось выше, называется ча- стотной характеристикой или амплитудно-фазовой частотной ха- рактеристикой* функция Rjk(w) — амплитудная частотная харак- теристика; функция ф;ь((о) — фазовая частотная характеристика, функция Ptk (®) = Re Ч1к (to) называется действительной частотной характеристикой, а функ- ция Qik (®) = Im Тм (/©) называется мнимой частотной характеристикой. В соответствии с (39) можно представить частное решение (38) в следующем виде: */ = SR/fe(®i)^feCos[©|/ + ^/fe(©|)] (/ = 1, ...» и). (3.40) Как ясно из изложенного выше, матрица Y (М = [Ч'м (Ml = [R/ft (®) W] (3.41) является матричной частотной характеристикой рассматривае- мого здесь звена. Опишем теперь эксперимент, при помощи которого можно определить матрицу Т (/со). Пусть у вектора А в выражении (33) лишь один элемент Л! #= 0, а элементы Л2 = Л3 = ... = Ат = 0. При этом выраже- ние (40) принимает вид ^/ = R/1(®1) ^lCOs[©(f+ фу|(®,)] (/=1, .... п). Производя измерения сигнала на выходе системы (после зату- хания собственных колебаний системы), найдем значения (cot) и 1|)д(©1) (/=1, .... «)• Повторяя эксперимент при &(/) = A cos (Hit, 0(0 = Л cos из/ и т. д., можно построить гра- фики функций /?я(и) и фд(и) (/= 1, .... п). Таким образом, при помощи описанного эксперимента мы найдем элементы пер- вого столбца матрицы (41), т. е. функции VH(/H), (/И), к’,(м’ Обращаясь теперь ко второй серии экспериментов, отли- чающейся от первой серии лишь тем, что теперь Л2 =# 0,
40 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ a Ai = Аз = Д4 = .. • = Ат = 0, по данным измерений найдем элементы второго столбца матрицы (41), т. е. функции ^12 (М> ^22 (М, ^„2 О®)- Выполнив т серий экспериментов описанным методом, найдем всю матрицу УИ (£со): Т (/со) = -ТцОо) Т12(«о) ... W1OT(Z<o) - -^nlO®) ^П2(гю) ... Таким образом, необходимые для применения критерия Най- квиста частотные характеристики отдельных звеньев (а, следо- вательно, и всей разомкнутой управляемой системы) могут быть найдены из эксперимента. Это является существенным в слу- чаях, когда полное аналитическое описание некоторых звеньев или значения некоторых параметров звеньев и т. п. неизвестны. При этом, однако, должна быть уверенность в том, что данное звено описывается линейными дифференциальными уравнения- ми с постоянными коэффициентами. 6. Пример построения диаграммы Найквиста. Рассмотрим систему, описываемую дифференциальными уравнениями Dxt + Xi = - ц2 [z (0 - х2], Dx2 + х2 = щхр (3.42) В соответствии с обозначениями, принятыми в § 2 в уравнениях (2.1), имеем f,(D) = D+l, e1(Z))=-p2> f2(D) = £>+!, е2(£)) = р„ = -dtt- W (D) = W, (D) W2 (£)) = — (3.43) В рассматриваемом здесь примере mi = 1, то есть функция W(D) является скаляром и поэтому det [Emi + W (D)] = I + W (£>)• (3.44) Таким образом, функция /<(£>), определяемая согласно (6), здесь принимает вид 7<(P) = lF(D) = -7^r. (3.45)
§ 3. ЧАСТОТНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ УСТОЙЧИВОСТИ 41 Отсюда следует, что К (дсо) - - (г-ю+ 1)2 - ~ И1М-2 (! +(02)2 > (3.46) I К I = . *(«>) = О, К (0) = - И1}х2. (3.47) Диаграмма Найквиста для рассматриваемого примера приве- дена на рис. 3.7. Как видно из диаграммы Найквиста, система (42) будет устойчивой при выполнении условия И1И2<1. (3.48) Условие устойчивости (48) совпадает, конечно, с условием устойчивости, которое можно получить из характеристического Рис. 3.8. Рис. 3.7. уравнения системы дифференциальных уравнений (42): Д(р) = р+1 = р2 + 2р + 1 — P!P2 = 0. (3.49) — Ц2 Р + 1 7. Управляемые системы, содержащие звенья с запаздыва- нием и критерии устойчивости этих систем. Рассмотрим одномер- ную управляемую систему (рис. 3.8), описываемую следующей системой скалярных дифференциальных уравнений: f(D)x(0 = g(D)[z(n-xI(0L 1 ,„,п. > (о.ОО) Х{ (/) = X (t — т) (т = const), J где f(D) и g(D)— некоторые полиномы (с постоянными коэф- фициентами) относительно оператора дифференцирования D = d/dt: f (D) = a0Dn + аД"-1 + ... + а„_Д + а„, 1 g(D) = b0Dm + biDm-'+ ... +bm_iD + bm (m<n). J ' Первое уравнение (50) описывает процессы в первом звене си- стемы (рис. 3.8). Передаточная функция этого звена G(D) име- ет вид G^ = -W- (3-52)
42 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Второе уравнение (50) описывает процессы во втором звене, в котором происходит задержка сигнала на некоторый проме- жуток времени т = const. Это звено можно назвать звеном с за- паздыванием. Систему уравнений (50) можно заменить сле- дующим эквивалентным ей дифференциально-разностным урав- нением: f (D) х (/) + g (D) х (t - т) = g (D) z (/). (3.53) Дифференциально-разностные уравнения представляют со- бой важный класс функциональных уравнений. Теория диффе- ренциально-разностных уравнений разрабатывалась в трудах Л. С. Понтрягина, А. Д. Мышкиса, Р. Веллмана, Н. Н. Красов- ского, Л. Э. Эльсгольца, В. И. Зубова и других ученых [11, 31, 43, 67, 92]. Собственные колебания в замкнутой управляемой системе (рис. 3.8) будут описываться однородным дифференциально-раз- ностным уравнением f (D) х (t) + g (D) x (t - r) = 0, (3.54) которое получается из уравнения (53) при z(t) = O. Частное решение уравнения (54) будем искать в форме х(/) = С^', (3.55) где у» = const. Так как согласно (55) х (t — т) = [х (t - т)] = С{е~^е^ (5 = 1,2,...), то, подставляя выражение (55) в уравнение (54), получим f (Y/) С^* + e~'l‘xg (уг) = 0. (3.56) Так как =#=0, то из уравнения (56) следует, что у, должно быть корнем уравнения Д(р) = 0, (3.57) где A(p) = f(p) + ^ptg(p). (3.58) Уравнение (57) является характеристическим уравнением для дифференциально-разностного уравнения (54). Как следует из выражения (58), характеристическое уравнение (57) являет- ся трансцендентным уравнением.
§ 3. ЧАСТОТНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ УСТОЙЧИВОСТИ 43 Кратным корням ys характеристического уравнения (57) со- ответствует не только решение еУз*, но и решения где qs — кратность корня ys. Для линейных дифференциально-разностных уравнений вида (54) с постоянными коэффициентами и постоянным запазды- ванием (т = const), у которых все корни характеристического уравнения (57) имеют отрицательные действительные части, до- казано [31], что любое решение может быть разложено в абсо- лютно и равномерно сходящийся ряд из основных решений х(0 = 2р5(0^Ч 5=1 (3.59) Rekt > Rek2 Rekn > ..., где Ps(t) — многочлены от t степени не выше qs—1. Для этих уравнений доказано [31] также, что при t > to + т оо 2 s=n + \ (3.60) ^Be^+i+e^, где В и е — постоянные величины, причем е — сколь угодно ма- лое положительное число. Из изложенного следует, что для того, чтобы все решения x(t) уравнения (54) асимптотически стремились к нулю при >оо, необходимо и достаточно, чтобы все корни характеристи- ческого уравнения (57) имели отрицательные действительные части. Таким образом, условие асимптотической устойчивости замк- нутой управляемой системы (54), содержащей звенья с запаз- дыванием, состоит в том, что квазиполином (58), который мож- но представить в виде Д(р) = /(р)[1+К(р)], (3.61) где tf(p) = e-₽*fM = £?-₽tG(p)> (3б2) не должен иметь нулей в правой полуплоскости комплексного переменного р. Как следует из доказательства критерия Найквиста, опреде- ление числа нулей квазиполинома Д(р), расположенных в пра- вой полуплоскости комплексного переменного р, можно и в рас- сматриваемой здесь задаче выполнить при помощи этого крите- рия, изложенного выше в пп. 2, 3 и 4. Эта возможность была указана Я. 3. Цыпкиным. В соответствии с выражением (62) К (Zo) = e~i,i>xG (fo). (3.63)
44 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Так как согласно (63) К (/со) = 1% (/о) | е1 аг« = | G (/о) | el G то для любого со = col вектор /<(£со]) будет по модулю равен вектору G(icoi), но повернут относительно него по направлению стрелки часов на угол coit (рис. 3.9). В области малых значе- ний со годографы векторов Л (/со) и G (/со) отличаются мало, но с возрастанием со разность сот аргументов К (/со) и G (/со) ста- новится все более значительной. При со—> оо годограф К(/со) асимптотически навивается на расположенную на действитель- ной оси точку К(оо). Если существуют значения со, для которых |G(/co) |> 1, то даже в случае, когда годограф вектора G(/co) не охватывает точки (—1,0), т. е. система без запаздывания устойчива, охват годографом вектора /С(/со) точки (—1,0) может оказаться воз- можным. Иными словами, возможны случаи, когда включение звена с запаздыванием в замкнутую устойчивую управляемую систему превращает эту систему в неустойчивую. Эффективное построение решений дифференциально-разност- ных уравнений представляет собой достаточно трудную задачу, В некоторых случаях здесь целесообразно применить методы операционного исчисления. В качестве такого примера рассмот- рим уравнение х (/) + а{х (/) + а2х (/) = b [z (/) — х (Z — т)] (т = const). (3.64) Изображения функций z(t) и x(t) обозначим через £(р) и £(р): Up)-h»z(0, Up)-4->*(0- Так как х (t)рЧ (р) - Р2Х (0) - рх (0), х (0 pt, (р) - рх (0), О х (t — т) е~рх g (р) + е~рхр | х (/) e~ptdt,
§ 3. ЧАСТОТНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ УСТОЙЧИВОСТИ 45 то изображение искомого решения x(t) будет следующим: = + _р be~P-. (x(t)e~ptdt + f(p) + be~px fl(p) + be-^ 1 ьщ <3-65) где f (р) = р2 + щр + а-,. Для получения решения требуется найти оригинал, изображе- нием которого является %(р). Как видно из (65), искомое реше- ние зависит от течения функции x(t) на отрезке — Функция ф (/) = X (/) (- т < t < 0), (3.66) называемая начальной функцией, должна быть задана для воз- можности решения задачи. Решение уравнения (64), удовлетво- ряющее условию (66), обозначается хф(/). 8. Логарифмические частотные характеристики. Передаточ- ная функция одномерной разомкнутой управляемой системы, описываемой линейным дифференциальным уравнением f(D)x = g(D)z(0 (0 = 4)’ (3.67) где f(D) = a0Dn + aiDn~l + ... + an-J) + ап, g (D) = b0Dm + &.D"1-1 + ... + bm^D + bm (m < имеет следующий вид: b0Dm + btD!n-'+ ... + bm-]D + bm { > a0Dn + atDn-'+ ... +an-lD + an ' При дифференциальное уравнение (67) имеет част- ное решение: (3.68) (3.69) где х = Кй, (3.70) is _ Ко ~ Величина Ко называется коэффициентом усиления разомкнутой управляемой системы. Обозначая А0'»+-Д_дш-1+ ... + в + 1 GC(D) = —!--------------------------- Dn + -^-Dn-l+ ... + -^2-^-£>+1 Un ап ип (3.71)
46 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ можно представить передаточную функцию разомкнутой управ- ляемой системы в следующем виде: G(D) = KMD). (3.72) Функция G(ito) = [G(p)]p=i(o называется, как указано выше, частотной характеристикой разомкнутой управляемой системы. Обозначая через (со) модуль функции G(Zco), а через ф(со) = аргумент этой функции, будем иметь G(to) = /?(©)e‘^ (3.73) или G(/(o) = /<o/?o((o)^^, (3.74) где /?o(g>) = |G0(ko)|. (3.75) Логарифмируя левую и правую части выражения (74), получим lg G (/со) = 1g /Со + 1g Rq (ю) + /ф (со) 1g е. (3.76) Логарифмической амплитудной частотной характеристикой называется функция L (со) = 20 lg R (со) = 20 lg 7<о + 201g /?0 (со). (3.77) В качестве аргумента функции А(о) принимается 1g со. Функция Т (1g со) = ф (со) = arg G (ко) (0 < со < оо), в качестве аргумента которой принимается 1g со, называется логарифмической фазовой частотной характеристикой. Величина 201g/? (со) выражает усиление системы в принятых в акустике единицах — децибелах (1 децибел = 0,1 бел). Усиление, при котором мощность сигнала возрастает в 10*7 раз, считается равным q бел. Мощность сигнала про- порциональна квадрату амплитуды сигнала. Пусть, например, L(coi) ~ == 20 1g/?((01) = 40 децибел. При этом lg/?(coi) = 2, /?(coi) = 102 = 100. Мощ- ность сигнала возросла в 1002 = 104 раз, что и соответствует коэффициенту усиления, равному 4 белам. При построении графика функции L(co) по оси абсцисс откладываются значения 1g со, а по оси ординат — значения функции L(co) в децибелах. При построении графика функции ф(со) по оси абсцисс откладываются значения 1g со, а по оси ординат — значения ф(<о) в радианах. За единицу длины по оси абсцисс применяются логарифмические еди- ницы — октава и декада. Октавой называется отрезок оси 1g (о, заключенный между значениями coi и 2coi. Длина этого отрезка, как легко видеть, не зави- сит от значения coi: /окт = lg 2wt - lg со I = lg 2 + lg a>! - lg <0| = lg 2. Декадой называется отрезок оси lg со, заключенный между значениями wi и lOwj. Длина декады не зависит от значения cot: /дек = 1g Юсо, - lg Wj = 1g 10+ lg Wt- lg <0i = 1.
$ 3. ЧАСТОТНЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ УСТОЙЧИВОСТИ 47 Рис. 3.12.
48 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 9. Определение устойчивости замкнутой управляемой систе- мы по логарифмическим частотным характеристикам разомкну- той управляемой системы. По взаимному расположению лога- рифмической амплитудной и фазовой характеристик разомкну- той управляемой системы можно судить об устойчивости зам- кнутой управляемой системы. На рис. 3.10—3.12 показаны амплитудно-фазовые и логарифмические (амплитудная и фазо- вая) частотные характеристики устойчивых разомкнутых систем. Как видно из приведенных на этих рисунках амплитудно-фазо- вых характеристик (диаграмм Найквиста), системы, представ- ленные на рис. 3.10 и рис. 3.11, будут в замкнутом состоянии устойчивыми. Система, представленная на рис. 3.12, будет в замкнутом состоянии неустойчивой. Как нетрудно видеть, для того чтобы замкнутая управляе- мая система была устойчивой, если она устойчива в разомкну- том состоянии, необходимо, чтобы на интервале частот, на котором логарифмическая амплитудная характеристика поло- жительна (т. е. /?(со)> 1), фазовая частотная характеристика совершала одинаковое число положительных (сверху вниз) и отрицательных (снизу вверх) переходов через линию ф = —л. Описанный здесь критерий для определения устойчивости замкнутой управляемой системы по логарифмическим частотным характеристикам ее разомкнутой цепи можно обобщить на слу- чай, когда передаточная функция разомкнутой системы G(p) имеет полюсы на мнимой оси и в правой полуплоскости ком- плексного переменного р [69]. § 4. Функция веса и переходная функция стационарной линейной системы 1. Одномерная управляемая система. Стационарными линей- ными системами называются системы, описываемые линейными дифференциальными уравнениями с постоянными коэффициен- тами. Дальнейшее изложение будет относиться к замкнутым управляемым системам. Пусть дифференциальное уравнение, описывающее процессы в замкнутой управляемой системе, имеет вид f(D)x = /(D)z(/). (4.1) Здесь — искомая функция (сигнал на выходе системы), z(t)— заданная функция времени (сигнал на входе системы), a f(D) и 1(D)— полиномы от оператора дифференцирования D: f (D) = a0Dn + axDn~1 + ... + an_xD + an, 1 l(D) = lQDm + llDm~' + ... +lm^D + lm. J ' • }
§ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 49 Коэффициенты полиномов (2) предполагаются постоянными. Кроме того, здесь предполагается, что т < п. Для решения дифференциального уравнения (1) можно применить методы операционного исчисления. Обозначим Цр)-^>г(0, Цр)^->х(/). (4.3) х Так как изображение —- будет dtR Dkx<^-p\{p)-pkx^-pk-lx^)- ... -рх(4-')(0) = = pkl(p)-pf—^x(O), (4.4) P то линейные дифференциальные выражения f(D)x(t) и l(D)z(t) будут иметь следующие изображения: f(D)x(/)<-?-f(p)^(p)-pQ(p)) I /(D)z(O^-Z(pH(p)-pP(p), / где Q(p)--(Pp_pPo- *(0)> Р(р) = (4.6) Входящий в выражения (4) и (6) оператор £>0 определяется со- отношением °о*(О) = [-^-1 • (4.7) u L dtR j/=o Дифференциальному уравнению (1) соответствует согласно (5) следующее уравнение в изображениях: f (р) Ш = Р [Q (р) - Р (р)1 + НрН (р)- (4.8) Отсюда найдем, что + (4.9) Обозначая через o(d)=7W <4Л0) передаточную функцию системы (1), можно выражение (9) пе- реписать так: Ш = Р — - + ф Ш (р). (4.11)
50 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Обозначим теперь через M(t) и N(t) оригиналы для следующих изображений: р-^Р]~Р(р) (4.12) рФ(р)-^А/(/). (4.13) Так как функции [Q(p)— P(p)]/f(р) и Ф(р) = l(p)/f(р) в силу сделанного выше предположения о том, что степень полинома /(р) ниже степени полинома f (р), являются правильными дро- бями, то оригиналы M(t) и N(t) будут иметь следующий вид: S 1 / (<7о-О! 1\ др) fa(p) Jp-V v 7 0=1 и S \ 4 лг(0_У^Щ.Г[(+ > . (4.15) (q°~ ) *•' др ’ fa(P)Jp-^„ Здесь через s обозначено число несовпадающих между собой корней характеристического уравнения /(р) = 0, (4.16) через ра обозначена кратность корня Ха, а через fa(p) обозна- чена функция Ш =......f{p) Q • (4.17) (Р-Ao)'7” В числе корней характеристического уравнения (16) могут быть как действительные, так и комплексные корни. Так как коэффициенты полиномов (2) являются действительными, то в число корней уравнения (16) комплексные корни будут вхо- дить сопряженными парами. Поэтому функции Л4(/) и N(/) могут принимать только действительные значения, и при нали- чии комплексных корней у уравнения (16) функции M(t) и можно привести к явной действительной форме, на чем мы здесь останавливаться не будем [17]. На основании теоремы об умножении изображений t ^-рФ(р)1(р)-^ f N (t — и) z (и) du. (4.18) р V о Таким образом, согласно (11), (12) и (18) при заданных на- чальных условиях х(0), х(0), ..., %<”-’)(0) закон движения си- стемы, описываемой уравнением (1), будет следующим: t x(t) = M(t)+ J N (t — u)z(u)du. (4.19) о
$ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 51 Отсюда можно найти и закон изменения во времени остальных фазовых координат системы: x(t), x(t), Аналогично изложенному в § 1 (формула (1.31)) функцию N(t), которая определена здесь операционным соотношением (13), будем называть функцией веса одномерной управляемой системы, описываемой скалярным дифференциальным уравне- нием (1). Обратимся теперь к физической интерпретации функции N(t). Пусть z (/) = 6 (0, (4.20) то есть на вход системы подана единичная импульсивная функ- ция (дельта-функция Дирака). Уравнение (1) принимает те- перь вид f(D)x = /(D)d(0. (4.21) Так как оригиналу /(£>)d(O = /o6(m)(O + /16('”"1)(O+ ••• + соответствует изображение lopm+, + llpm + ... +lm-lp2 + lmp = pl(p), то есть l(D)t>(t)^pl(p), (4.22) то, учитывая, что согласно (5) f(D)x(0<4-f(p)Up)-pQ(p), найдем, что дифференциальному уравнению (21) будет соот- ветствовать следующее уравнение в изображениях: f (р) £ (р) = PQ (Р) + pl (Р)- (4.23) Из уравнения (23) следует, что Ш = Р7^-+РФ(Р). (4.24) так как согласно (10) Ф(р)= l(p)If (р). При нулевых начальных условиях х (0) = 0, х(0) = 0, ..., х(п-1)(0) = 0 (4.25) будем согласно (4) и (6) иметь Q(P) = O. Таким образом, при нулевых начальных условиях выражение (24) принимает вид 1(р) = рФ(р). (4.26)
52 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Учитывая операционное соотношение (13), получим отсюда, что x(t) = N (/). (4.27) Таким образом, функция веса N(t) представляет собой закон движения, который, при нулевых начальных условиях, совершает система под воздействием единичной импульсивной функции 6(/). Заметим теперь, что операционное соотношение (13), при помощи которого определена функция М(/), в соответствии с теоремой о построении оригинала по изображению, определяет эту функцию лишь при / >0. Таким образом, выражение (15), которым определена функция N(t), имеет место лишь при />0. Так как согласно (25) при t < 0 система находилась в покое, то в соответствии с (27) мы должны принять, что N(t) = 0 при t<0. (4.28) Для того чтобы найти еще одну важную динамическую ха- рактеристику системы, называемую переходной функцией, рас- смотрим случай, когда входной сигнал является единичной сту- пенчатой функцией z (0 = 1(0. (4.29) Исходное дифференциальное уравнение (1) принимает вид f(D)x =/(D) 1(0. (4.30) Оригиналу /(D)i(O = /o6(m-')(O + /16M(O+ ••• + соответствует изображение /opm + /iPm-'+ ... +/m-1p + /m = /(p), (4.31) то есть Z(D)l(0<4-/(p). (4.32) Из соотношений (32) и (5) следует, что дифференциальному уравнению (30) соответствует следующее уравнение в изобра- жениях: f(p)Up) = pQ(p) + Hp), (4.33) откуда получим, что Ш = ?7^ + Ф(Р). (4.34) При нулевых начальных условиях (25) Q(p) = 0, и выражение (34) принимает вид £(р) = ф(р). (4.35)
§ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 53 Обозначим через A(t) оригинал, изображением которого яв- ляется функция Ф(р): Ф А (/). (4.36) Из соотношения (35) следует, что x(t) = A(t). (4.37) Таким образом, функция A(t), которая определена операцион- ным соотношением (36), представляет собой закон движения, который при нулевых начальных условиях совершает система под воздействием единичной ступенчатой функции !(/). Функция A(t) называется переходной функцией системы. Найдем теперь зависимость между функцией веса и пере- ходной функцией. Заметим, что так как степень полинома /(р) ниже степени полинома f(p), то lim Ф (р) = lim = 0- (4.38) р->ОО р->ОО / \Р) По теореме о начальном значении оригинала А (0) = lim Ф (р) р-»00 и в соответствии с (38) А (0) = 0. Изображение производной от функции Л(/) Л(0<ч-р[Ф(р)-.4(0)] = рФ(р) (4.39) совпадает с изображением (13) функции Лф). Таким образом, функция веса N(t) и переходная функция Л(/) связаны соотно- шением А (0 = N (/). (4.40) Найдем теперь явное выражение функции Л(/). Для этого представим изображение функции Л(0 в виде суммы элемен- тарных дробей. Так как s г а -0—1 т Нр) = Z (0) у у 1 д ° Цр) ] 1 Р/(Р) НО) Р^£ (<?о-Р- 1)![ др^-' (4-41) то разложение функции Ф(р) на сумму элементарных дробей будет следующим: ' Р 1 I (?) ' Р Р-ка (р-Ч)р+1 (4.42)
54 ГЛ. f. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Так как р , ? tpe^ pt ’ то оригинал для изображения (42) будет иметь вид у у tpek°* Г У7а~р~1 Jj Zj р!(^-р- 1)! рМр) о = 1 р=0 L аР Как нетрудно проверить, у1 tP д*°'р'1 1 (л , д \ р!(<7а-р- р=0 и поэтому выражение сать так: д (t\ = 1 (°) А f (0) Кр) (4.43) . (4.44) ‘(J ° , (4.45) ‘)! др^-0-1 (44) переходной функции можно перепи- K.t е ° l.(p) 1 /4 46) л Из изложенного можно заключить, что передаточная функ- ция Ф(£>), функция веса N(/) и переходная функция Л(/) яв- ляются основными, эквивалентными друг другу динамическими характеристиками управляемой системы. 2. Одномерная управляемая система, у которой передаточная функция является неправильной дробью. Рассмотрим теперь си- стему, описываемую скалярным дифференциальным уравнением f(D)x(0 = r(D)z(0, (4.47) где f(D) = a0Dn + alDn~1 + ... +an^D + an, r (£>) = &0D? + &.D’-1 + ... + b^D + bq, ( ' причем q > n. Передаточная функция рассматриваемой системы Ф^) = 7^- <4-49> может быть представлена в следующем виде: O(D) = S(D) + v(D), (4.50) где S(D) — целая часть дробно-рациональной функции r(D)/f(D) (т. е. некоторый полином от О), a v(D) — правильная дробь, ко- торая получается после выделения из r(D)/f(D) целой части. Обозначая, как и выше (5),
§ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 55 f(D)x(i)^-f(pn(p)-pQ(P>,\ ,._п г (D) z (t) г (р) £ (р) - pL (р), / ' Q(P) = —р~У—х(0), Р ° (4 л(р) = гМЛг(0). j В соответствии с (51) будем иметь следующее уравнение в изо- бражениях: f (р) I (р) = р [Q (р) - L (р)] + г (pH (р). (4.53) Отсюда В (р) = Р + 77^ £ (Р). (4-54) Нетрудно видеть, что функция [Q (р) — L (р)] также является неправильной дробью. Действительно, согласно (52) будем иметь Q (р) - Ь (р) _ f(p)x (0) - f (Do) х (0) - г (р) z (0) + г (Do) z (0) f(p) /(p)(p-D0) • Так как согласно (49) и (50) г (Р) = f (р) $ (р) + f (р) v (р), (4.56) то выражение (55) можно преобразовать к виду Q (Р) - L (р) _ S(p)-S(D0) ' Цр) ~ P~D0 z W+ + njj-Iх(°)-s(°«)г(°)1 - - v (pq)_ z (0)j., (4 57) Первое слагаемое в правой части выражения (57) является це- лой функцией (полиномом от р). Второе слагаемое является дробно-рациональной функцией от р, причем правильной дро- бью. Заметим, что поскольку f(p)v(p) является полиномом от р, знаменатель р — Dq во втором слагаемом в правой части выра- жения (57) сокращается. Выражение (57) можно переписать так: 9-(P}ip)L(P) = - ад + Н (р), (4.58) где J?(p) = ^^^z(0), (4.59) К ^0
56 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ а ц(р)—правильная дробь, определяемая вторым слагаемым в правой части выражения (57). Функцию ц(р) можно представить в виде суммы элементар- ных дробей в следующем виде [17]: Q(p)-L(p) М(р) п - 1 (p-*a)P+1 (4.60) Оригинал, изображением которого является функция рц(р), обозначим через 7И*(/): рИ(р)^>ЛГ(0. (4.61) Учитывая соотношение (45), представим функцию Л4* (/) в виде лг(о=Х /е g ,м • <4-62) L\ др) fa(p) Jp-x v ’ 0 = 1 а Выражение (54), которым определена функция g(p), можно при помощи (58) и (50) представить так: £ (р) = PH (р) + s (р) g (р) - pR (р) + V (р) £ (р). (4.63) Учитывая соотношение (59) найдем, что S (р) Z (р) - pR (Р) S (D) z (0. (4.64) Оригинал для изображения pv(p) обозначим через pv(p)^N*(t). (4.65) Аналогично (62) функция N*(t) будет иметь следующий вид: S X t N* (0 = Ё 7 e "-nr Г(t + -rrrl • (4.66) L\ dp! fn(p) Jp-i v ' o = l a Так как t 4-pv (p) (p)\ N*(t-u)z(u)du, (4.67) 0 то в соответствии с (63) закон движения системы, описываемой уравнением (47), будет следующим: t x(i) = М* (t) +S(D)z(t) + j N* {t — и) z {и) du. (4.68) 0
§ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 57 Обратимся теперь к скалярному дифференциальному урав- нению f (D)x(t) = г (D)i> (0, (4.69) где 6(0—единичная импульсивная функция (дельта-функция Дирака). Аналогично (22) г(£>)6(0*^рг(р). (4.70) Так как согласно (51) f(D)x(t)^-f(p)l(p)-pQ(p), то дифференциальному уравнению (69) будет соответствовать следующее уравнение в изображениях: f(p)Up) = pQ(p) + pr(p), (4.71) откуда = (4-72) Согласно (49) и (50) выражение (72) можно переписать так: t>(p) = P^$-+pS(p) + pv(p). (4.73) При нулевых начальных условиях п — 1 х (0) = 0, X (0) = 0, ..., X (0) = 0 (4.74) функция Q(p) согласно (4) и (6) обращается в нуль Q(p) = O, и выражение (73) принимает вид Ш = РФ(Р), (4.75) где согласно (50) Ф (р) = S (р) + v (р). Так как S(p) является полиномом от р, то pS(p)_^S (0)6(0- (4.76) Учитывая еще соотношение (65) pv (p)-^N* (t), найдем, что изображению рФ(р) соответствует следующий ори- гинал: рф(р)_^К(/), (4.77) где K(/) = S(D)6(0 + AT(/). (4.78)
58 ГЛ. t. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ В соответствии с (75) и (77) = (4.79) Таким образом, функция /С(/) представляет собой закон дви- жения, который при нулевых начальных условиях совершает управляемая система под воздействием единичной импульсивной функции д(^). Функцию определяемую операционным соотношением (77), можно назвать функцией веса одномерной управляемой системы, описываемой скалярным дифференциальным уравне- нием (47). Как и в п. 1, выражение (78) определяет функцию лишь при />0. Так как при t<0 система находилась в покое,то, в соответствии с (79) мы должны принять, что /<(/) = О при t<0. (4.80) Рассмотрим теперь уравнение f(D)x(/) = r(D)l(0. (4.81) Аналогично (32) Учитывая соотношение (51), получим соответствующее диффе- ренциальному уравнению (81) уравнение в изображениях f(p)l(p) = pQ(p) + r(p), (4.82) откуда ш = <4-83> или согласно (49) и (50) g(p) = p-^- + S(p) + v(p). (4.84) При нулевых начальных условиях (74) n —1 х(0) = 0, х(0) = 0................х(0) = 0 функция Q(p) — 0 и выражение (84) принимает вид |(р) = Ф(р), (4.85) где согласно (50) <D(p) = S(p) + v(p). Функция 5 (р) является полиномом от р, и поэтому S(p)_b>S(D)l(0. (4.86)
§ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 59 Оригинал, изображением которого является функция v(p),обо- значим через Л*(ф (4.87) В соответствии с (46) и (66) функция Л*(/) будет иметь следую- щий вид: S 1 4 <-8> (1=1 Таким образом, изображению Ф(р) будет соответствовать сле- дующий оригинал: ф(р)^> [/(/), (4.89) где t/(0 = S(D)l(Z) + X*(0. (4.90) В соответствии с (85) и (89) х (/) = [/(/), (4.91) и, следовательно, функция U (t) представляет собой закон дви- жения, который при нулевых начальных условиях совершает управляемая система под воздействием единичной ступенчатой функции 1(/). Функцию (/(/), определяемую операционным соотношением (89), можно назвать переходной функцией одномерной управ- ляемой системы, описываемой скалярным дифференциальным уравнением (47). Заметим, что так как v(p) — правильная дробь, то lim v(p) = = 0, и, следовательно, Л* (0) = 0. Поэтому Л- (0 р [V (р) - Л- (0)] = ру (р). (4.92) Учитывая еще, что [S (D) 1 (0] = S (D) д (0 pS (р), (4.93) будем иметь U (0*4- PS(P) + pv(p) = рФ(р), (4.94) что совпадает с изображением (77) функции /((/). Отсюда полу- чаем аналогичную соотношению (40) связь между функцией веса и переходной функцией U(t): = (4.95) Пример. В качестве примера рассмотрим систему, описываемую сле- дующим дифференциальным уравнением: (D + 1) х = (D2 + D + 1) z (/). (4.96)
60 ГЛ. Т. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Здесь f(D) = D+l, r(Z)) = D2 + D + l, “,(b)-W-;;<d' + ”d)-d+dTT' S(D) = D, v(D) = TbT, Q (p) = x (0) = x (0), r{p}-r(Da) p2 + p-Dl~D0 L W =------n-----г (0) ---------------2- z (0) = (p + Do + 1) z (0), P “ Ыэ p — UQ = - « (p> + M„> - + _ p + 1 /?(p)=z(0), ц(р) = *<Op+Z/°) , PP(p) —г~> Л4* (/), M* (0 = [x (0) - z (0)] e~‘, pv(p)-^>N*(t), N'(t) = e~l. В соответствии с выражением (68) решение уравнения (96) будет t х (/) <= [х (0) - г (0)] е-/ + z (t) + J e_(<-u)z (u) du. (4.97) Согласно (78) функция веса системы /((/) имеет следующий вид: O) = S(D)d(/) + AT(0. Для системы, описываемой дифференциальным уравнением (96), функция K(t) принимает вид 7<(/) = д(/) + 1(0е-\ (4.98) Множитель 1(0 введен в выражение (98), чтобы явно отметить, что К(0 =0 при t < 0. 3. Многомерные управляемые системы, а) Закон движе- ния многомерной системы. Рассмотрим теперь замкну- тую управляемую систему, описываемую векторным дифферен- циальным уравнением f(D)x(t) = r(D)z(t). (4.99) Здесь x(t)—n-мерный вектор, элементы которого являются искомыми функциями, a z(t)— m-мерный вектор, элементы ко- торого являются заданными функциями времени: " xt (/) Г (0 х(/) = Х2 (0 . 2(0 = z2(0 (4.100) (/) zm (0
§ 4 ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 61 Матрицы f(D) и r(D) являются полиномными матрицами, аргумент которых — оператор дифференцирования D = d/dt: ' fu(D) .. -fndD) (4.101) Коэффициенты полиномов fjk(D) и rJjx(Z>) предполагаются по- стоянными. Векторное уравнение (99) эквивалентно следующей системе скалярных уравнений: п т 2 fik (D) xk (/) = 2 г/ц (О) (0 (/ = 1..../г). (4.102) /г=1 ц=1 Обозначим через Vh порядок старшей производной от (k = 1, ..., п), встречающейся в уравнениях (102). Ранг р си- стемы уравнений (102) будет p = v1+v2 + ••• +vrt. (4.103) Будем предполагать, что т^^>1 (& = 1, .,., п) и что опреде- ли литель из коэффициентов, с которыми х\ '(&= 1, ..., п) вхо- дят в уравнения (102), отличен от нуля. При этом условии сте- пень определителя A(Z)) матрицы f(D) будет равна рангу си- стемы р. При сделанных предположениях начальные значения xJO), xft(0), ..., х*(0) = n) не связаны между собой никакими зависимостями и могут за- даваться произвольно. Обозначая через F(D) присоединенную матрицу для мат- рицы f(D), можно представить уравнение (99) в виде х(0 = Ф (D)z(0, (4.104) где Ф(Д)= • (4.105) Функция Ф(£>) является матричной передаточной функцией системы, описываемой уравнением (99). Будем предполагать для общности, что функция Ф(О) яв- ляется неправильной дробью, и обозначим через S(D) ее целую часть, а через v(D)—правильную дробь, которая получается после выделения из Ф(О) целой части. Таким образом, Ф(В) = -(f^jP)- = S(D) + v(D). (4.106)
62 ГЛ. Т. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Ниже нам потребуется одно соотношение, которое можно получить следующим образом. Умножая левую и правую части соотношения (106) слева на матрицу f(D) и учитывая, что f(D)F(D) = ЕД(D), где Е— единичная матрица, будем иметь г (О) = f (D) S(D)+f (D) v (D). (4.107) Так как r(D) и f(D)S(D) являются целыми функциями (поли- номами от Z)), то из (107) следует, что f(D)v(D) является це- лой функцией (полиномом от D). Найдем теперь решение уравнения (99). Обозначим Up)-^->x(0, Up)-H-z(0. (4.108) В соответствии с операционным соотношением (4) изображения векторных линейных дифференциальных выражений и r(D)z(t) будут f (D) х (0 f (р) | (р) - pQ (р), | г (D) г (0 г (р) ? (р) - pL (р), J где Q(p) и L(p) — векторы, которые имеют следующий вид: Q(p)=^ZpPoW), । Л > (4-110) L(p)= r{p}p~r^-z(Q). I Уравнение в изображениях, соответствующее дифференциаль- ному уравнению (99), будет следующим: f (р) Ш = р IQ (р) - l (р)] + г (р) Up), (4.1П) откуда t (n\ _ n F(p)IQ(p)-L(p)] . F(p)r(p) , } &W-P A(p) -T A(p) ±\Ph Преобразуем теперь первое слагаемое в правой части (4.112) 1 соотно- шения (112). Подставляя вместо Q(p) и 1(Р) их выражения (НО), после несложных преобразований получим F(p)[Q(p)-£(?)] _ S(p)-S(D0) А(р) p — Do 1 ' , F (p) f f (p) - f (Do) „ /n4 IF"1 (p) A (p) - F-' (Do) A (Do)] S (Do) + P~Do X[) P-Do _ F~l (p) \(p) v (p) — F 1 (Dp) A (Dp) v (Do) 2 «j\ 1 (4 113) p - Do У )' ' ' ' Учитывая, что P(p)f(p) = E\(p) и, следовательно, f-!(p)A(p) = /(p),
§ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 63 можно представить выражение (113) так: F (р) [Q (р) - L (/>)] _ S (р) - S (Do) „ /лч , MP) Р - Da Z W + +-Ш { Iх (°) - 5 (°о)2 (0)1 - Hp)v(p)p^bf-o)V(Po) 2 (°)} • (4.114) Первое слагаемое в правой части выражения (114) является целой функцией (матричным полиномом от р), а второе слагае- мое является дробно-рациональной функцией от р, причем пра- вильной дробью. Заметим, что так как f(p)v(p) является целой функцией (матричным полиномом от р), как это показано выше (107), то знаменатель р — Do во втором слагаемом в правой ча- сти выражения (114) сокращается. Выражение (114) можно переписать так: F^tQ^g-Hp)] = _ R (Р) + и (р)( (4 л 15) где ^(P)=S(Pn)Zo(--^(0), (4.116) Р ^0 а ц(р)—правильная дробь, определяемая вторым слагаемым в правой части выражения (114). Оригинал, изображением ко- торого является функция рц(р), обозначим через M(t): pp(p)^M(t). (4.117) Ниже потребуется еще следующее преобразование. Опреде- литель Д(р) матрицы f(p) можно представить так: Д(р) = /го0„(р), (4.118) где (р) = (Р - М)"1 • • • (Р - K)4s = II (Р - (4-119) 0=1 Таким образом, —нули полинома Д(р), a qa— их кратности. Пусть 2)п-1 (р) — общий наибольший делитель миноров (п—1)-го порядка матрицы f(p), а ао — коэффициент при стар- шей степени р в полиноме S>„_i(p). Через i(p) обозначим следующий полином: Полином 3)n-i(p) является детерминантным делителем (п—1)-го порядка полиномной матрицы f(p).
64 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Как известно [17, 21], функция <4120’ представляет собой полином следующего вида: %п (р)=(р - м"*1... (р - = П (р - мч а=1 причем 1<та<ра. 0.121) Таким образом, нули полинома 2?п(р) совпадают с нулями полинома Д(р), а кратности нулей полинома 2?п(р) удовлетво- ряют условию (121). Полином 2?п(р) является старшим инва- риантным множителем матрицы f(p), а двучлены (р— ка)т° — старшие элементарные делители этой матрицы. В соответствии с (118) и (120) Д(р) = М>„-1(рЖ(р). Так как элементы матрицы F(p) являются алгебраическими до- полнениями элементов определителя матрицы f(p), то все эле- менты Fjk(p) матрицы F(p) делятся на полином 2)п_{(р) и матрицу F(p) можно представить так: Матрица &~(р), таким образом, является полиномной матрицей. Из полученных здесь соотношений следует, что F(p) = <Г(р) А (Р) А (р) ’ где Л(р) = ^„ (р), то есть Л (р) = Мр - М)т‘ • • • (р - Ф = k0 II (р - мт’. 0=1 (4.122) (4.123) Перейдем теперь к отысканию функции M(t), которая в со- ответствии с (117) является оригиналом для изображения рц(р). При этом в выражении (115) заменим F(p)/A(p) соглас- но (122) через &"(р)/Л(р). Функция Л4(/) будет иметь следую- щий вид: = V е?'я< Г (t 4. Л 1 (р) [Q (р) — (р)1' (та — 1)1 |_\ др) Л.а(р) а=1 (4.124)
§ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 65 Здесь s — число не совпадающих между собой нулей поли- нома Л(р), через та обозначена кратность нуля Хо, а через Л0(р) обозначена функция Ло(р) = ..,л_00 . (4.125) (р-Ь0) а функция M(t) является n-мерным вектором. Выражение (112), которым определена функция %(р), можно при помощи (115) и (106) представить так: I (р) = РР (р) + $ (р) С (р) - pR (р) + V (р) с (р). (4.126) Учитывая соотношение (116), найдем, что S(pH(p)-pR(p)-+>S(D)z(t). (4.127) Как следует из -изложенного, S (D) является полиномной матри- цей типа пХ т, аргументом которой является оператор диффе- ренцирования D = d/dt. Оригинал для изображения pv(p) обо- значим через N(t): (4.128) Аналогично (124) функция N(t) будет иметь следующий вид: S т / (z + jLp-'qPliM . (4.129) 1) 1 дР > Ло (р) Jp=Aa Функция N(t) является прямоугольной матрицей типа п X т. Так как по теореме об умножении изображений t 7 pv (р) £ (р) f N (t — и) z(u)du, (4.130) о то закон движения системы, описываемой векторным дифферен- циальным уравнением (99), будет следующим: x(0 = M(0 + S(D)z(0+ J N (t—u)z(u)du. (4.131) о Элементы x}(f) матрицы x(t) будут х, (t)-Mj(t) + 2 Slll(D)zll(t)+ £ / N^t-u^ujdu (4.132) ц = 1 ц,= 10 (/•=1, .... п). б) Матричная функция веса. Матричная передаточ- ная функция системы Ф(О) определена выше выражением (106). 3 Я. Н. Ройтенберг
66 ГЛ. I. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Функция Ф(О) представляет собой матрицу типа tn X п. Эле- мент Ф^(р) матрицы Ф(р) согласно (106) имеет вид У Fjk (р) rks (р) ф* = "*=1 Х(р)----------- S/° + Vi° <4ЛЗЗ> где SjS(p) —полином от р, a VjS(p) —правильная дробь, которая получается после выделения из Ф^(р) целой части. Пусть теперь элементы вектора z(/), который входит в пра- вую часть векторного уравнения (99), будут zs(0 = 6(0, zq(t) = 0 (q= 1, 2, s— I, s + 1........tn), (4.134) где 6(0—единичная импульсивная функция (дельта-функция Дирака). При условии дующий вид: (134) вектор ’ rls(D)zs(t) ' r(Z))z(/) будет Г ris (D)t>(t) ‘ иметь сле- r(D)z(f) = r2s(P)zs(t) _ rns{D)zs(t) _ = ^(0)6(0 [r„s(D)6(0_ . (4.135) Аналогично (22) изобре - rls(D)i>(t)~ ^(0)6(0 rw(D)d(0_ Обозначая (жение матрицы (135) будет Г Р'хЛр) 1 Г rls(p) ' рг* (р) = р Г2s (р) L ргпЛр) J L гп^р) _ ' пЛр)' г (р) = , _ (р) _ . (4.136) (4.137) найдем, что в случае, когда элементы вектора z(t) имеют вид (134), r(D)z(0*4-pr(p). (4.138) Таким образом, в этом случае уравнение в изображениях (111) принимает вид f (рШр) = pQ (р) + Р? (р), (4.139) откуда + (4.140)
§ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 67 Для элемента £Др) вектора %(р) будем, учитывая (137), иметь следующее выражение: 2 FJk (р) Qk (р) 2 F1k rks = + ----- 0 = 1..... «)• (4.141) В соответствии с (133) выражение (141) можно переписать так: 2 F)k (р) Qk (р) ^/(р) = рй=-1 д(р)-----+ pS/s(p) + pV/s(p) (/=!,..,,«). (4.142) При нулевых начальных условиях VA-! xft(0) = 0, хА(0) = 0.. xft(0) = 0 (fc = l, ...» я) (4.143) матрица Q(p) согласно (НО) обращается в нуль Q(p) = 0, (4.144) и выражение (142) принимает вид 11 (р) = pSls (р) + pvis (р) = рФЛ (р). (4.145) Так как Sjs(p) является полиномом от р, то pSis(p)-^Sls(D)d(t). (4.146) Учитывая еще, что согласно (128) pv/s(p)-H-iV/s(n. (4.147) где NjS(t) есть элемент матрицы N(t), которая определена вы- ражением (129), найдем, что изображению p<DJS(p) соответ- ствует следующий оригинал: Р<Ыр)-г>Я/Л0. (4.148) где К/, (/) - Sjs (D) д (0 + У/, (0. (4.149)
68 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Матрица N(t) определена выше выражением (129). Приводя выражение элемента этой матрицы к действительной фор- ме, будем иметь ” tl + 2 —е' _ [Re 2! cos a>ht — Im S’ sin t], (4.150) h — \ ' где n m I 2 rkS (₽) [\ dP> xS'+h(p) Здесь s' — число не совпадающих между собой действительных корней xg уравнения А(р) = 0, где Л(р) имеет вид (123), a s"— число не совпадающих между собой пар комплексных корней ел ± icoti этого уравнения. Через tng и mS’+h обозначена крат- ность этих корней. Через Ag(p) и AS'+h(p) обозначены функции f ^+h(p)=---------MP)\ms,+h • (4.151) В соответствии с (145) и (148) Х/(0 = ^/s(0 (/ = 1, n). (4.152) Таким образом, функция KjS(t) (/= 1, я; s — фиксировано) представляет собой закон, по которому, при нулевых начальных условиях, изменяется во времени координата х$ системы, в слу- чае, когда все элементы входного векторного сигнала z(t) тождественно равны нулю, за исключением элемента zs(t), ко- торый равен единичной импульсивной функции б(/). Из операционного соотношения (148) следует, что рФ(р)-->/<(0, (4.153) где /((/) — матрица типа т X я, элемент которой KjS(t) опреде- лен выражением (149). Матрицу /<(/)> определяемую операционным соотношением (153) можно назвать матричной функцией веса многомерной управляемой системы, описываемой векторным дифференциаль- ным уравнением (99).
§ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 69 В соответствии с (153) выражение (149) определяет функцию K(t) лишь при />0. Так как при /<0 система находилась в покое, то в соответствии с (152) мы должны принять, что 7<(0 = 0 при /<0. в) Матричная переходная функция. Рассмотрим теперь случай, когда элементы вектора z(t) имеют вид 2$ (0 = 1(0, Zq (0 = 0 (?=1, 2, ..., s— 1, $+1, ..., /п). (4.154) При условии (154) произведение матриц r(D) и z(t) будет ris (D) i(ty r2s(O)l(0 rnsUW) (4.155) Вектор (155) будет иметь следующее изображение: Pls (p) /-2s (p) Г ns (P) (4.156) то есть r(D)z(/)<4-r(p), (4.157) где вектор r(p) определен выражением (137). В рассматривае- мом теперь случае уравнение в изображениях (111) принимает вид Z(p)Up) = pQ(p) + r(p), (4.158) откуда s/n\_ n Р(р) Q(p) , Р(р)?(р) .. . Ш-Р—Т(рГ~ + ~ЪГ • (4Л59) Для элемента &(р) вектора g(p) будем, учитывая (141), иметь следующее выражение: У P/А (р) Qa (р) 2 (р) rks MpI-p"' мр)------------------------ (4-'60> (/“ 1, .п). В соответствии с (133) выражение (160) можно переписать так: 2 РЛ (Р) <3* (Р) 5/ (р) = Р д(р)-----+ S/s (Р) + (р). (4.161)
70 ГЛ. f. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ При нулевых начальных условиях (143) матрица Q(p) обра- щается в нуль, и выражение (161) принимает вид 6/ (р) = Sls (р) + vls (р) = Ф„ (р) (/ = 1, 2, ..., п). (4.162) Так как Sj3(p) является полиномом от р, то SZs(p)-r>S/s(D)l(0. (4.163) Обозначим через A (t) матрицу, изображением которой является матрица v(p): (4.164) v(p)-r>A(t). Аналогично (88) здесь будем иметь л , . У- (0) г (0) , у А* Г/. 1 (р) г (р) 1 л(0) (ma-i)i |yi- др) рХд(р) (1=1 (4.165) Из (164) следует, что v/s(p)-h->1/s(0, (4.166) где функция АуДО является элементом матрицы Л(/). Аналогично (150) приведенное к действительной форме вы- ражение элемента AjS(t) матрицы A(t) будет следующим: Л(0) т 2 ik rks s Л=1 g=i рЛд. (р) р=и g jk (р) rks (р) P=eA+taA cos &ht — sin®A/ . (4.167)
§ 4. ФУНКЦИЯ ВЕСА И ПЕРЕХОДНАЯ ФУНКЦИЯ 71 Таким образом, изображению Ф;3(р) будет соответствовать сле- дующий оригинал: (4.168) где Uls(t} = Sls(D)\(t) + Als(t). (4.169) В соответствии с (162) и (168) X/(0 = ^s(0 (/=1, п). (4.170) Таким образом, функция Ujs(t) (/ = 1, ...» n; s— фиксировано) представляет собой закон, по которому при нулевых начальных условиях изменяется во времени координата Xj системы в слу- чае, когда все элементы входного векторного сигнала z(t) то- ждественно равны нулю, за исключением элемента г3(/), кото- рый равен единичной ступенчатой функции 1(/). Из операционного соотношения (168) следует, что Ф(р)-^>£/(0, (4.171) где U(t)—матрица типа т X п, элемент которой UjS(t) опреде- лен выражением (169). Матрицу [/(0> определяемую операционным соотношением (171), можно назвать матричной переходной функцией много- мерной управляемой системы, описываемой векторным диффе- ренциальным уравнением (99). Заметим, что так как все элементы матрицы v(p) являются правильными дробями, то limv(p) = 0 и, следовательно, Р->ОО А (0) = 0. Поэтому Л (0 р [v (р) - А (0)] = pv (р). (4.172) Учитывая еще, что 4 [S (£>) 1 (01 = S (D) 6 (0 pS (р), (4.173) будем иметь ^(0*-^-p5(p) + pv(p) = pO(p), (4.174) что совпадает с изображением (153) функции K(t). Отсюда по- лучаем следующую зависимость между матричной функцией Веса и матричной переходной функцией V(t)\ = (4.175)
72 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ § 5. Переходные и установившиеся процессы в замкнутых управляемых системах 1. Определение функции веса по частотной характеристике замкнутой системы. В § 4 была введена функция веса (4.148), (4.133) (которая называется также импульсной переходной функцией) и переходная функция (4.168) при помощи следую- щих соотношений: 2 Fik (?) r^s (р) рФ/Лр) = Р*=‘ д(р)---------^(t), 2 Fi* <Р> <Р) (р) - (5.1) (5.2) Будем здесь предполагать, что функция Ф?г(р) является пра- вильной дробью. Ограничиваясь устойчивыми системами, мы должны принять, что все нули полинома Д(р) расположены в левой полуплоскости р. Поэтому все полюсы функции Ф^(р) будут расположены в левой полуплоскости р. Если известна функция Ф^(р), то функция веса N}s(t) и пе- реходная функция Ajs(t) могут быть найдены по формулам Римана — Меллина. Из соотношения (1) следует, что J (<>0) с—iOQ ИЛИ c+ioo = J ®is(p)ep‘dp (i>0). (5.3) c —joo В выражении (3) интеграл вычисляется вдоль прямой, парал- лельной мнимой оси и отстоящей от нее на расстоянии с, где величина с выбирается так, чтобы все полюсы функции Ф,5(р) были расположены левее этой прямой. Так как все полюсы функции &js(p) расположены в левой полуплоскости, то можно принять с = 0. Перейдем теперь из плоскости комплексного переменного р в плоскость q, где р = iq. (5.4) Из формулы (4) следует, что Я = ~ ip-
§ 5. ПЕРЕХОДНЫЕ И УСТАНОВИВШИЕСЯ ПРОЦЕССЫ 73 Таким образом имеют место следующие соотношения: р = с — i оо, q = — i(c — i оо) = — ic — оо, р = с 4- i оо, q 3 — i (с + i оо) = — ic + оо, и выражение (3) принимает вид — Zc + oo Nls(t)=± У ®is(iq)eiQt dq. (5.5) — ic—oo Так как p = c + i®, (5.6) TO q = — i (c + i®) = — ic + a. (5.7) При c = 0 выражение (7) принимает вид q = a. Поэтому в соответствии со сделанным выше предположением о том, что рассматриваемая система является устойчивой, вслед- ствие чего можно принять с = 0, приведем выражение (5) к сле- дующему виду: оо ЛГ/8(П=^ / (5.8) — 00 Выражение (8) представляет собой обратное преобразование Фурье. Оно определяет функцию Njs(t) на интервале 0 < t < оо, оо если только интеграл J NjS(f)dt абсолютно сходится. Это ус- ловие для устойчивой системы выполняется. Выражение (8) можно переписать так: оо Af/s (0 =-jj-j- J [Re Ф;5 (/a) cos а/ — Im Ф/5 (/a) sin a/] da + — оо оо + -2~ J [КеФ;5(i®)sin®/+ 1шФ/5(г®)cos®/]d®. (5.9) —оо Функции ReOjs(£(o) и cos со/ являются четными функциями от со. Функции 1тФ;з(/со) и sin со/ являются нечетными функ- циями от со. Таким образом, подынтегральная функция во вто- ром интеграле в выражении (9) является нечетной функцией
74 ГЛ. Т. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ от со, а так как интегрирование ведется в пределах от —оо до 4-оо, то второй интеграл в выражении (9) обращается в нуль. Так как в первом интеграле в выражении (9) подынтегральная функция является четной функцией от со, то можно заменить этот интеграл удвоенным интегралом, взятым в пределах от 0 до оок Выражение (9) принимает следующий вид: NjS (0 = ~~ J Re Ф/s (М cos со/ rfco — о со —J Im (ио) sin со/dco. (5.10) о Таким образом, при помощи формулы (10) можно определить функцию веса системы NjS(t) по частотной характеристике Ф;8(/со) этой системы. I Пусть теперь / = —т. Выражение (8) (р) при этом принимает вид 00 \ ад-т)=^ (5.11) \ —оо 1/? _ —..... 4-- Переходя обратно в плоскость р, в соот- I ветствии с (6) будем иметь л / 100 A 2^- J ®ls(p)e-<”dp. (5.12) -i<x> -LR Так как по сделанному здесь предположе- ние. 5.1. нию Фд»(р) есть правильная дробь, то на полуокружности Г радиуса R (рис. 5.1) функция где р = Rei(f, при /?-+оо стремится равномер- но к нулю относительно <р, где — < ф < у. Поэтому для этой полуокружности имеет место лемма Жордана Нт "2лГ f Ф'5 е~РХ dp = °’ (5-13) Л->°о ZTO •; Полуокружность Г, по которой ведется интегрирование в вы- ражении (13), должна быть расположена в правой полуплоско- сти р, так как при р = Re^ функция | е~р*| = е-(вер)т стремится к нулю при /?—>оо только в правой полуплоскости р. На осно*
§ 5. ПЕРЕХОДНЫЕ И УСТАНОВИВШИЕСЯ ПРОЦЕССЫ 75 вании соотношения (13) можно представить выражение (12) так: i оо Nls(- т)==2^Г J ®ls(p) в-?'dp + У Ф/Лр) e-pt dp = —/оо Г —^Фме-’ЧР, (5Л4) с где замкнутый контур С состоит из мнимой оси и полуокруж- ности бесконечно большого радиуса. Этот контур охватывает всю правую полуплоскость. Интеграл в правой части (14) равен сумме вычетов функции OjS(p)^-pt по особым точкам функции Ф;8(р), расположенным в правой полуплоскости р. Но так как функция Ф^(р) не имеет особых точек в правой полуплоскости, то этот интеграл равен нулю. Таким образом, мы получили, что У/Л-т) = 0. (5.15) Так как согласно (10) оо оо NjS(— т) = -jj- J ReO/i(i«>)coS(OTd© + -^ J ImOyf(z®)sin©Td®, о о (5.16) то в соответствии с (15) будем иметь оо оо J Re<J>/s(t©)cos©Td® = —У ImO/.s(t©)sin©Td©. (5.17) о о При помощи (17) и (10) получим следующее окончательное вы- ражение для функции веса: оо 2 Г NjS (/) = — Re Ф/5 (ко) cos со/ rfco =« о оо = — У ImO/5(i©)sin®f d© при f^O. (5.18) о 2. Определение переходной функции по частотной характе- ристике замкнутой системы. Перейдем теперь к определению переходной функции Л^(/). Так как согласно (2) 2 FJk <р) оо Ф/, (Р) = -1 — (р)-----(5.19)
76 ГЛ. 1. линейные управляемые системы то ФЛ (р) ni , —р— ePt dp а>0). (5.20) Непосредственно применить полученные выше результаты к выражению (20) не представляется возможным, так как функ- гъ / \ S Fjk (р) rks (р) Ф/S (р) £=л ция —-—= ------------------ имеет полюс первого порядка в начале координат. Поэтому займемся преобразованием этой функции, для чего разложим ее на сумму элементарных дробей. Учитывая соотношения (4.122), будем иметь 2 Fjk (?) rks (р) 2 ik rks ______________________________ k=\ р Д (р)_____________рД (р) Ф/s (Р) Р “ s та~1 а=1 р=0 2 (0) rks (0) л=1 1 । л(0) п эт„-р-1 3 ^(р)глИр) д °_____fe=i___________ ______________ Jp-A„ (P-W+1 * (5.21) Второе слагаемое в правой части (21) обозначим через Таким образом, или (р) 1 -^•=Ф/Д0)7+^(р). (5.22) Функция Ч^Др) является дробно-рациональной функцией, все полюсы которой расположены левее мнимой оси на плоскости комплексного переменного р. Так как согласно (22) ^/Лр) = (р) ®js (0) Р (5.23)
§ 5. ПЕРЕХОДНЫЕ И УСТАНОВИВШИЕСЯ ПРОЦЕССЫ 77 то будем далее писать Ф/s (р) _ Ф/ИО) Ф/s (р) -Ф/s (0) Р ~ Р Р (5.24) причем второе слагаемое в выражении (24) имеет все полюсы в левой полуплоскости р. Выражение (20) теперь можно представить так: c+i оо 1 Г Ф/5 (0) C—i<x> 1 Г Ф/«(р)-Ф/5 (0) тг-г ------------------ept dp. 2ш J р r С —I ОО (5.25) Так как Ф^ДО) есть постоянная величина, то Ф(0) ~т-> Ф/5 (0) (постоянные величины совпадают со своими изображениями) и c+i оо 1 Г Ф/s (0) 2га J р С— i оо е0< dp = Ф js (0). (5.26) Выражение (25) принимает вид A,At) = Ф/Л°)+2^Г / -Л-(-Р) рФм -0) enidp. (5.27) C — i oo Второе выражение в правой части (27) можно привести к виду, аналогичному выражению (18). Предварительно вычислим дей- ствительную и мнимую части функции Ф/5 (но) - Ф/5 (0) Z(O Будем иметь Ф;$ (to) —Ф;$ (0) _ Re Ф/s (to) - Ф/s (0) 1тФЛ(/со) to /со ' 1 id) Отсюда ’ Ф/5 (/co) — (&jS (0) ] Im Ф/s (zco) /CO J ““ (0 ’ Ф/s (to) - ФЛ (0) "j ~ Ф/s (0) - Re Ф/s (to) (5.28) /со co
78 ГЛ. L ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Поэтому 1 C+f Ф/«(р)-Ф/И0) 2 f 1шФ/5(/со) -р— --------------ept dp = — \ ----------cos со/ dco = 2ш J р г л J со с —i оо О 2 f Г Re Фр (to) Фр (0) "I . = — -----------------— sin at da. (5.29) JT J L <0 co J ' 0 Подставляя это выражение в (27), получим оо ч о Г Im Ф/s (М Als (0 = Фр (0) + - J ---------cos at da = О оо оо о Г Ф;$ (0) о Г Re Ф/5 (/со) = Фр(0) — -^j —-—sin ©/</© + — j -------------sin at da. (5.30) о о Так как оо f sin at . л /с о t \ —— da = T, (5.31) 0 то выражение (30) принимает вид sin со/ c/co == о oo = Ф/,(0) + 4/ 1т<ую) cos©/d©. (5.32) о Выражение (32) имеет место при t 0. 3. Минимально-фазовые системы. Для одномерной управляе- мой системы соотношение (18) принимает вид оо 2 Г N (/) = — J Re Ф (ia) cos at da = о оо = — J Im Ф (ia) sin at da (/>0). (5.33) о Обозначая Re Ф (ia) = P (a), Im Ф (ia) = Q (a), (5.34)
§ 5. ПЕРЕХОДНЫЕ И УСТАНОВИВШИЕСЯ ПРОЦЕССЫ 79 можно переписать соотношение (33) так: оо оо (0 = ~ J Р (со) cos at da = —J Q (и) sin at da. (5.35) о о Аналогично соотношение (32) для одномерной системы прини- мает вид оо оо A(t) = — f -Z-^SAnat da== Р ($) +^- f cos at da. (5.36) 4 ' Л J Cd rtJCd 7 0 0 В выражении (36) учтено, что Ф(О) = [Ф(р)]р_о = Р(О). При выводе соотношений (18) и (32) предполагалось, что функ- ция Ф(р), представляющая собой дробно-рациональную функ- цию от р: = (5-37) является правильной дробью и что рассматриваемая система асимптотически устойчива. Последнее означает, что все нули полинома f(p) или, что то же, все полюсы функции Ф(р) распо- ложены на плоскости комплексного переменного р строго левее мнимой оси. Заметим, без доказательства ([82], стр. 161, [41], стр. 246), что для асимптотически устойчивых систем (то есть для функ- ции Ф(р), все полюсы которой расположены в левой полупло- скости р) функции Р(о) и Q(co) определяют друг друга, будучи связаны следующими формулами, представляющими собой пре- образование Гильберта'. Р{а) = (5.38) Q(®) = Обозначая через Р(<о) модуль функции Ф(«о), а через ф(со) ее аргумент, будем иметь Ф(£©) = ^(<д)егЧ’Н> (5.39) откуда следует, что In Ф (ia) = In Р (о) + гф (и). (5.40)
80 ГЛ. t. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Функции In R(w) и ф(а>) связаны с функцией 1пф(1<о) таким же образом, как связаны Р(со) и Q(a>) с функцией Ф((ю). По- этому аналогично (38) можно утверждать, что если все полюсы функции In Ф (/?) расположены строго левее мнимой оси на пло- скости комплексного переменного р, то функции In/? (и) и ф(а>) будут удовлетворять соотношениям In R (и) = ф(©) = — f ln du. т ' л J и — (О (5.41) Так как согласно (37) 1пФ(р) = 1п-^ = 1п/(р)-1пИр), (5.42) то к числу особых точек функции 1пФ(р) относятся не только нули функции f(p), но и нули функции 1(р). (При /(р)—>0 в со- ответствии с (42) 1пФ(р)—►—оо.) Таким образом, формулы (41), позволяющие определить R (со) через ф(со) и обратно, будут иметь место лишь в том слу- чае, если у функции не только все полюсы, но и все нули расположены строго левее мнимой оси на плоскости комплексного переменного р. Системы, удовлетворяющие этому условию, называются минимально-фа- зовыми системами. Минимально-фазовые системы отличаются тем, что из всех возможных систем с одной и той же амплитудной характеристи- кой /?(со) сдвиг фазы будет у них наименьшим по сравнению с другими системами при любом значении частоты со. Сдвигом фазы называется отрицательное значение аргумента Ф(цо), то есть —ф(со). Так, например, функция ^(^-(l+pTOd+P^) (5-43) является передаточной функцией минимально-фазовой систе- мы, в то время как функция 1гЛ_ (1 -рт,) (1 +рТ2) (К. ЛЛХ Фг (1 + pTt) (I + pTt) <5-44)
§ 5. ПЕРЕХОДНЫЕ И УСТАНОВИВШИЕСЯ ПРОЦЕССЫ 81 является передаточной функцией неминимально-фазовой си- стемы. Функцию Ф2(р) можно представить так: (5.45) Отсюда ф, (ш) . (5.46) Так как ! , t*(0Tl — е~2<’ф, tg ф = сот, 1 + ЮТ1 ’ 6 v (5.47) то Ф2 (йо) = Ф( (/и) e-2i<₽. (5.48) Обозначим ji, (®) = -агеФ((1®). (5.49) Как указано выше, функция pi(co) называется сдвигом фазы. Смысл этого понятия состоит в следующем. Сигнал на выходе системы с передаточной функцией Ф(£>) будет х = Ф(Я)г(0. При z(t) = aeivt установившийся процесс в системе будет сле- дующим: х (/) = Ф (tv) aeivt = R (v) е~'^ w aeivt = R (v) ael Как следует из (48), arg Ф2 (tco) = arg Oi (t©) — 2ф или -ц2(й>)= “Н1(со)“2ф. Отсюда р2 (®) = (со) + 2<р. (5.50) Таким образом, при одном и том же виде функции R (со) у ми- нимально-фазовой системы сдвиг фазы pi(co) меньше, чем у лю- бой неминимально-фазовой системы. Неминимально-фазовые системы с нулями р = ±ik на мни- мой оси применяются, например, для того, чтобы обратить |Ф(/со) | (о=а в нуль, когда требуется, чтобы система не пропу- скала сигналов на частоте со = k. К неминимально-фазовым си- стемам относятся также астатические звенья, то есть звенья, у которых передаточная функция имеет полюс в начале коор- динат. При некоторых видах амплитудно-фазовой частотной харак- теристики разомкнутой системы, когда ликвидация охвата ею
82 ГЛ. Т. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ точки (—1,Ю) возможна поворотом частотной характеристики по направлению стрелки часов, в разомкнутую систему (с целью стабилизации замкнутой системы) последовательно включается неминимально-фазовое звено. При синтезе электрических цепей неминимально-фазовые звенья применяются как фазо-корректирующие звенья. Имеются и другие применения неминимально-фазовых систем. 4. Установившиеся процессы в замкнутых управляемых сис- темах. Коэффициенты ошибок. Дифференциальное уравнение, описывающее процессы в замкнутой одномерной управляемой системе, было записано в § 4 в следующем виде: f(D)x =/(£>)£ (О, (5.51) где а функции f(D) и 1(D) являются полиномами от оператора дифференцирования D = с постоянными коэф- фициентами f (D) = a$Dn + a{Dn~x + ...+ ап^ D + ап, (5.52) l(D) = lQDm + l{Dm-' + ... +lm^D+lm (т<п). Передаточная функция замкнутой системы будет ф (°)=?(§"• (5.53) Установившимся процессом, как указано в § 1, называется закон движения асимптотически устойчивой системы в случае, когда входной сигнал z(t) подан в момент времени /о = —оо, то есть бесконечно давно. Предполагая, что система (51) устой- чива, будем в соответствии с формулами (1.22) и (4.19) иметь для установившегося процесса следующее выражение: t оо х(0= J N(t-x)z(x)dx = J (5.54) — оо О где функция веса системы N(t) определяется операционным соотношением p<S(p)^N(t). (5.55) В случае, когда входной сигнал z(t) является полиномом от t степени q, можно представить функцию z(t— £) в следующем виде: = (5.56) г=0
§ 5. ПЕРЕХОДНЫЕ И УСТАНОВИВШИЕСЯ ПРОЦЕССЫ 83 В этом случае выражение (54) можно привести к следующему виду: q F X (/) = 2 (- 1)г ^4 lrN (0 d$. (5.57) г=0 О Несобственные интегралы в выражении (57) представляют со- бой моменты функции веса N(t)\ оо ,хг = / l'N®d1- (г-0, 1,2,...). (5.58) о Интегралы (58) являются сходящимися, как это видно из вы- ражения (4.15) для функции N(t). Учитывая, что в соответствии с операционным соотношением (55) оо / О)е~^==Ф(р), (5.59) о найдем, что оо (- l)r J (В) е~* dl = ФМ (р). (5.60) о Из соотношений (58), (59), (60) следует, что оо ЛГ(|)^ = Ф(О), (5.61) о оо Иг= ]’т£)4 = (-1)'Ф(')(0) (г = 1,2,...). (5.62) О В соответствии с (61) и (62) выражение (57) принимает вид q ^ = £±2^(0, (5.63) r=»0 Предположим теперь, что система, описываемая уравнением (51), предназначена для того, чтобы воспроизводить функцию o(D)z(t), где а(£>)—полином от оператора D = djdt с постоян- ными коэффициентами о (D) z (/) = стг z(Z) (0 + (/)+...+ (0 + or0z (0- (5.64)
84 ГЛ. 1. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Ошибка системы, таким образом, будет 8(/) = x(0-a(D)z(f). (5.65) Из соотношений (63), (64) и (65) найдем, что 1 9 е (0 = £ [тг ф(Г) <°> - °']2(Г) W + 2 7Г ф<0 (°)2<Г) (0. (5.66) г = 0 г=/+1 Величины с, = 7ТФф(0)-а, (г = 0, 1, 2, ...). (5.67) называются коэффициентами ошибок. Если входной сигнал z(t) является полиномом от t не выше £-й степени, то ошибка си- стемы е(/) будет Коэффициент k е(/) = (0- г=0 с0 = Ф (0) - о0 (5.68) (5.69) называется коэффициентом статической ошибки или коэффи- циентом ошибки по положению. Управляемые системы, у кото- рых Со = 0, называются астатическими. Коэффициент с^ФЧО)-^ (5.70) называется коэффициентом ошибки по скорости. Коэффициент £2 = 4Ф" (0)-°2 (5.71) называется коэффициентом ошибки по ускорению. Астатической системой k-го порядка называется система, у которой с0 = 0, Cj = 0, ..., c^_j = 0, с^ =0= 0. 5. Установившиеся процессы в следящей системе. Рассмот- рим теперь коэффициенты ошибок следящей системы. Следящая система должна воспроизводить входной сигнал z(/). Пусть z(/) — некоторый полином от t. Ошибка следящей системы опре- деляется выражением е(0 = х(0-*(0. (5.72)
§ 5. ПЕРЕХОДНЫЕ И УСТАНОВИВШИЕСЯ ПРОЦЕССЫ 85 Для следящей системы в соответствии с (64) do = 1, (Ji = <г2 = ... = 0. (5.73) Коэффициенты ошибок следящей системы согласно (67) и (73) будут го = Ф(О)—1, (5.74) СГ = 7ГФ<ГЧО) (г=1, 2, ...). У астатической следящей системы коэффициент с0 должен быть равен нулю. т. е. должно выполняться соотношение Ф(0)=1. (5.75) Можно доказать, что для того, чтобы замкнутая следящая си- стема была астатической системой £-го порядка (то есть чтобы у этой системы коэффициенты ошибок с0, Ci, с2, ..., ch-\ были равны нулю, а Сл^О), необходимо и достаточно, чтобы переда- точная функция G(D) разомкнутой системы имела вид G(D) = -^-G1(D), G,(0)#=0. (5.76) Перейдем к доказательству этого утверждения. Передаточ- ная функция замкнутой системы, в соответствии с (1.66), будет (5-77) Согласно (76) и (77) ф (р) = = _£1М_ 1 + G(p) p* + G,(p) или При малых по модулю значениях р (то есть в окрестности точ- ки р = 0) функция Ф(р) может быть представлена следующим сходящимся рядом: Ф (р) = 1-----—h -----------... (5.79) Gt(p) G^p) к '
83 ГЛ. Т. ЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Из выражения (79) следует, что Ф(0) = 1, Ф'(0) = 0, Ф"(0) = 0, ...» Ф<*-‘)(0) = 0, фда<°)=-GTW^°- <5-80) Определяемые выражениями (74) коэффициенты ошибок следя- щей системы, в соответствии с (80), будут со = О, сх = 0, ..ck-x = 0, ck=£0, (5.81) то есть при выполнении условия (76) рассматриваемая следя- щая система действительно является астатической системой &-го порядка. Таким образом, для того чтобы замкнутая следящая система была астатической системой £-го порядка, функция G(p) должна иметь в точке р = 0 полюс £-го порядка.
Глава 2 НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ § 6. Устойчивость нелинейных управляемых систем. Частотные критерии. Применение прямого метода Ляпунова 1. Об одном классе нелинейных управляемых систем. Мы будем рассматривать собственные колебания нелинейной управ- ляемой системы, описываемой следующими дифференциальными уравнениями: dxj Vi ~dT = 2j aikXk + bty ti), k=\ y = <p(o), n 0 = 2 CkXk, где функция ф(о) удовлетворяет условию Ф(О) = О. Систему уравнений (1) можно переписать так: Если ввести матрицы Оц . . . ain ап\ » • . апп с = [сх ... с„] (6.1) (6.2) (6.3) (6.4) и обозначить через D оператор дифференцирования по времени то можно заменить систему дифференциальных уравнений (3)
88 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ векторным уравнением (ED — а) х — йф (сх) = 0, (6.5) где через Е обозначена единичная матрица. В дополнение к условию (2) будем считать, что функция ф(о) такова, что ее график не выходит из угловой области, пока- занной на рис. 6.1, то есть о <-5^- < k. (6.6) При k = оо условие (6) сво- дится к неравенству <гф (а) 0. При b = 0 векторное урав- нение (5) принимает вид (ED - а) х = 0. (6.7) Дифференциальному уравнению (7) соответствует характери- стическое уравнение Д(р) = о, (6.8) где А (р) = det (Ер — а). (6.9) Случай, когда все корни характеристического уравнения (8) расположены на плоскости комплексного переменного р левее мнимой оси, то есть Repz < 0 (/=!,..., п), будем называть основным случаем. Ниже мы ограничимся рас- смотрением лишь основного случая. Систему уравнений (1) можно в векторной форме записать так: (ED — а)х = Ьу, у = ф(а), а = сх. (6.10) Исключая х из уравнений (10), получим следующее уравнение: <j = c(ED — a)~l by. (6.11) Обозначим теперь W (£>) = -с (ED-a)~lb. (6.12) Уравнение (II) примет вид o = -IF(W (6.13) Матрица W (D) может быть записана так: Ц7 (Г)\ = —с aWED~?) Ь = М (°) (6 14) {U) С det (ED —а) Д(£>) ' W-W
§ б. УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ 89 Рис. 6.2. Из выражения (14) видно, что функция W (D) представляет со- бой скалярную дробно-рациональную функцию, у которой сте- пень числителя ниже степени знаменателя. 2. Интерпретация функции W(D). Управляемой системе, собственные колебания которой описываются уравнениями (1), можно поставить в соответствие структурную схему, изобра- женную на рис. 6.2. Схема на рис. 6.2 представляет собой замкнутую управляемую систему, у которой в цепь обратной связи включен нелинейный элемент. Через z(t) обозначен вход- ной сигнал. Рассматривае- мая схема будет описывать- ся уравнением a = IF(D)[z(0-(p(a)], (6.15) откуда следует, что а + 1Г(/))ф(а)= W(D)z(t). (6.16) В частном случае, когда Ф(ст) = йа, (6.17) уравнение (16) принимает следующий вид: [1 + hW(D)]o = W(D)z(t), ИЛИ W (D) ° 1 + hW (D) Z (6.19) (6.20) Так как согласно (14) W(D) _ М (D) 1 + hW (D) Д (£>) + hM (D) ' то уравнение (19) можно переписать так: [A(D) + hM (D)] o = M(D)z(/). (6.21) Собственные колебания замкнутой управляемой системы при <р(о)=йа будут описываться однородным уравнением, которое получается из уравнения (21) при z(t) = O: [A(D) + hM(D)]c = Q. (6.22) Характеристическое уравнение, соответствующее дифференци- альному уравнению (22), будет следующим: Д(Р)[1 + Лт^-] = А(р)[1 + л1Г(р)] = °. В рассматриваемом здесь основном случае все нули поли- нома Д(р) расположены в левой полуплоскости комплексного (6.23)
90 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ переменного р. Поэтому для того, чтобы при ф(о) = йа зам- кнутая управляемая система была асимптотически устойчивой, то есть характеристическое уравнение (23) не имело корней hlmW (hW) ImW (W) _________ -1 О hReW ______0 ± 'h ReW Рис. 6.3. Рис. 6.4, в правой полуплоскости р, достаточно в соответствии с крите- рием Найквиста, чтобы годограф вектора hW(ia) не пересекал полуотрезка (—оо, —1] (рис. 6.3), или годограф вектора 1Г(Ц|)) не пересекал полуотрезка ( — оо, — (рис. 6.4). Так как функ- ции ф(о) удовлетворяют условию (6), то принадлежащие ImW (W) к этому классу линейные функ- ции ho удовлетворяют условию 0 < h kt или (6.24) 0 ReW Поэтому для того, чтобы замк- i к нутая управляемая система была асимптотически устойчи- вой при любой функции <р(о) = ho, где h е (0, 6], необ- ходимо и достаточно, чтобы го- рис 6.5. дограф вектора W(ia) не пере- секал полуотрезка — оо, — ij (рис. 6.5). В случае, когда k = оо, имеем 0 < h < оо, то есть за- претной зоной будет интервал (—оо, 0). Само начало коорди- нат в запретную зону не включается, ибо мы рассматриваем функции ф(ст) = Лст с любым, сколь угодно большим, но конеч- ным значением h. 3. Видоизмененная частотная характеристика. Выше при по- мощи соотношения (14) была введена функция W(D) = M(D) A(D) ’
§ 6. УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ 91 Разомкнем цепь обратной связи у системы, изображенной на рис. 6.2. Разомкнутая система (рис. 6.6) будет описываться уравнением а = Г(О)г(0, (6.25) где через z(t) обозначен сигнал, поданный на вход системы. Как следует из уравнения (25), функция W (D) представ- ляет собой передаточную функцию разомкнутой системы, пока- занной на рис. 6.6. В соответствии с выражением (14) частотная характеристика разомкнутой системы будет <6-26) Введем теперь функцию W* (со), определяемую следующими со- отношениями: Re W (®) = Re W (г®), 1 1тГ‘(®) = ®1тГ(1о>). ) Таким образом, функция IT* (со) будет иметь вид W* (со) = Re IF (сю) +«о Im W (ia>). (6.28) Так как ReW'(to) является четной функцией от ®, a ImIF(i®) является нечетной функцией от со, то в соответствии с (27) функ- ция Im W* (®) будет четной функцией от ® и, таким об- разом, 1Г(-®)= 1Г (®). (6.29) Функция W* (и) называ- ется видоизмененной частот- ной характеристикой. Так как в соответствии с (14) функция W(D) пред- Рис. 6.6. ставляет собой дробно-ра- циональную функцию, степень числителя у которой ниже степе- ни знаменателя, то для W(p) будем иметь следующее выра- жение: пт(= М(р) Bopm + BIpm-1 + ... +Вст_,р + гот w W Д (p) p" + AlP”~‘ + ... + An-,p + An (m < n). (6.30) В знаменателе выражения (30) коэффициент при рп равен еди- нице, так как согласно (9) Д (р) = det (Ер — а).
92 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Полагая р = /со, получим согласно (30), что / __ М (tco) __ Во (i(o)m + Bt (Ко)”1-*1 + ... + B^-i/co + Bm / < MM (f(d)rt + Al (M"-1 + ... + Лп_1/(д + An (6.31) Из выражения (31) следует, что lim IT(i<o) = 45-. lim №(йо) = 0. (6.32) (О->0 (0->oo Умножая левую и правую части выражения (31) на со, получим тт/7 / • \ • ZcoAf (f(d) . B0(ia)m+l + B1(i<S>)m + ... +ВСТ! (Zm)2 + BCTitt> (i(£>)n + Ai (i<£>)n *+ ••• + Дд—]i(« + Дд (m<n). (6.33) Учитывая, что в соответствии с (27) Re 1Г(а>) = Re №(«©), Im W' (и) = а> Im W (ia) = Im [мГ (j©)], найдем, что lim Re IF* (©) = lim Im IF* (co) = 0, G)->0 Aft G)->0 и, следовательно, lim F‘ (©) = • (6.34) Значение lim IF* (о) будет различным в случае, когда щ-»оо п — т = 1, и в случае, когда п — т> 1. При п — т = 1, то есть при п = т + 1, будем согласно (31) и (33) иметь lim Re IF* (со) = 0, lim Im IF* (со) = - Во. (0->оо (0->оо При п — т> 1, то есть при п = т + 2, пг + 3, ... , будем иметь lim Re IT’(и) = 0, lim Im Г* (о) = 0. G)->oo (0->оо Таким образом, lim 1T((d) = (d->oo — iBo 0 при п — tn = 1, при п — т> 1. (6.35)
§ 6. УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ 93 4. Теорема В.-М. Попова. Определение. Систему (1) d п ~^-='^ialkxk + bjy (j =1,..., п), k=l п о = 5 ckxk, /г=1 тривиальное решение которой = х2 = ... = хп = 0 асимптоти- чески устойчиво при любых видах функции ф(о), удовлетворяю- щих условию (6) а будем называть абсолютно устойчивой в угле [0, k]. Так как линейные функции ф(о) = йа (0<h^k) входят в число допустимых условием (6) функций ф(о), то требова- ние, чтобы годограф вектора W(/со) не пересекал полуотрезка — оо, — у] (рис. 6.5), является необходимым условием абсо- лютной устойчивости системы (1). Достаточное условие абсо- лютной устойчивости дает теорема В.-М. Попова. Теорема В.-М. Попова. Для того чтобы система (I) была абсолютно устойчива в угле [0, k], достаточно, чтобы существо- вало такое конечное действительное число q, при котором для всех значений со >0 выполнялось условие Re(l+t<7(o)ir(i<o) + y >0. (6.36) 5. Геометрическая формулировка теоремы В.-М. Попова. За- метим, что сформулированное в теореме В.-М. Попова достаточ- ное условие (36) абсолютной, устойчивости нелинейной системы существенно отличается от требований критерия Найквиста для линейных систем. Последний накладывает ограничение на зна- чение Re W(ia) лишь в точках, где ImIT(f(o) = 0. В других точках значение Re W(i&) может быть любым, так как ограни- чение значения Re W (ico) в точках, где Im Ц7(цо)= 0, уже пред- отвращает возможность охвата точки (—l/k, /0) годографом век- тора №(гсо), что и обеспечивает асимптотическую устойчивость замкнутой линейной системы. Сформулированное же в теореме В.-М. Попова достаточное условие (36) абсолютной устойчиво- сти нелинейной системы требует ограничения значений Re(l + iqa) I^(fco) для всех со О, а не только в точках, где Im Г(/со) = 0. Выше была введена видоизмененная частотная характери- стика ТГ*(со). Обозначим через X и У соответственно действи-
94 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ тельную и мнимую части W*(ю). Согласно (27) будем тогда иметь X = ReF*fa) = Re Wg>), 1 Y = Im IF* (co) = <o Im W (i<o). J (6,37) В соответствии с (37) Re (1 + iq<i>) IF (i<o) = Re IF (i<o) — zy® Im IF (Zco) = X — qY. (6.38) Условие (36), таким образом, принимает вид X — qY + ±>0 (для всех ®^0). (6.39) На плоскости XY (то есть на плоскости комплексного перемен- ного IF*) уравнение X-qY + ^0, или эквивалентное ему уравнение (6.40) определяет собой прямую (рис. 6.7), проходящую через точку (—1/&, 0). Угловой коэффициент этой прямой равен 1/q. Пря- мую (40) можно назвать пря- мой Попова. Нетрудно видеть, что усло- вие (39) выполняется в любой точке плоскости комплексного X переменного W*, расположен- ной правее прямой Попова. Иными словами, условие (39) означает, что годограф вектора U7*(co) должен быть располо- жен правее прямой Попова. Геометрическая фор- мулировка теоремы В.-М. Попова. Для того чтобы имела место абсолютная устойчивость системы (1) в угле [0, k], достаточно, чтобы в пло- скости комплексного переменного W* можно было выбрать пря- мую, проходящую через точку (—1/k, i0) так, чтобы годограф вектора №*(©) был весь расположен правее этой прямой. 6. О возможности при доказательстве теоремы ограничиться случаем q > 0. Обратимся к системе уравнений (1). Преобра- зуем эту систему, полагая, что y = ka-y> (6.41)
§ 6. УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ 95 Так как согласно (1) у = <р(а), то соотношение (41) можно пе- реписать так: <р (о) = k<5 — ф (а). (6.42) Функции ф(о) удовлетворяют условию (6) то есть графики функций ф(о) лежат (рис. 6.1) в угле [ОД]. Из соотношений (42) и (6) следует, что и функции ф(а) удовлетворяют условию О' то есть графики функций <р (ст) также расположены в угле [0,4 Таким образом, если исходная система (1) абсолютно устой- чива в угле [0, k}, то и преобразованная при помощи соотноше- ния (41) система также будет абсолютно устойчивой в угле [0,4 Согласно (13) -<j = W(D)y. Подставляя вместо у его значение (41), получим - о = W (D) (ka - у). (6.43) Отсюда найдем, что -<j=W(D)y, (6.44) где W—iwbp <6-45> Из соотношения (45) следует, что (6-«) Нетрудно проверить справедливость следующего тождества: . Re (1 + iqa>) W (iw) + -L Re (1 — iqa>) W (tea) + у - 11 + (iW) p • (6-47) Действительно, Re (1 - iqv) W +1 = Re[(—1 + iqn)+ y] = = 1 +Й1Г = 11 + А1Г P Re + у) (1 "* ~ i г i _ -i Re Г(1+i<7(B)ir +-i-1 - TiTW R < iq(*w +1 + w + 1 w *2]= J> что и требовалось доказать.
96 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Так как все полюсы функции W (р)==^Х(р)’ расположены ле- вее мнимой оси, то при любом значении со значение функции W (tco) будет конечным. Поэтому если для рассматриваемой си- стемы имеет место соотношение Re (1 + iqa) W (/со) + > 0, (6.48) то в соответствии с (47) будет иметь место также следующее соотношение: Re (1+ W (i®) + T > 0, (6.49) где q = - q < 0. (6.50) Как указано выше, если исходная система абсолютно устойчива в угле [0, k], то будет устойчива и преобразованная система. Но для преобразованной системы условие теоремы В.-М. Попова выражается неравенством (49), в котором q =—q < 0. Из изложенного следует, что при доказательстве теоремы В.-М. Попова можно ограничиться лишь рассмотрением случая q > 0. Рассмотрение случая q = —q < 0 не может расширить класса охватываемых достаточным условием В.-М. Попова си- стем, ибо при q = —q мы получаем ту же самую систему (устой- чивость которой была уже установлена соотношением (36), где <7 > 0), но лишь преобразованную к новой переменной у. 7. Лемма 1. Пусть, 1) Непрерывная функция f(t) и ее производная ограни- чены при i 0; 2) непрерывная функция G(x)>0 при любом х=£0, аО(0)=0; оо 3) / C[f(/)]d/<oo. о Требуется доказать, что при этих условиях lim f (/) = 0. /~>оо Доказательство. Пусть при t > 0 if(oi<a<°°> |4|<&<00’ (6-51) J G [/(/)] d/= с < оо. (6.52) о
§ 6. УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ 97 Предположим, что утверждение леммы неверно. Тогда из опре- деления понятия предела следует, что существует такая неогра- ниченно возрастающая последовательность чисел th > 0, что lf(UI>8>0 (6=1,2,...). (6.53) При этом всегда можно считать, что при всех k (6-54) ибо если для исходной последовательности это не выполняется, то, опуская часть членов последовательности, можно добиться выполнения этого неравенства. Так как то при любом /^0 будем иметь (6.55) Учитывая, что G(x)>0 при любом х=#0, будем иметь J G [/(/)]</// G[f(O]dt (6.56) 0 fe=l , т *к~— Но для всех значений t из отрезка lk 1 h -г *2“ имеет место неравенство I f (01 = I f (tk) + [f (0 - f (MJ I > I f (tk) I -1 f (0 - f (U I > e - b = e0. (6.57) Если выбрать m достаточно малым, то ео будет положительным е0>0. (6.58) Если обозначить r= min G(x), (6.59) во <| х К а где в силу условия леммы г > 0, то будем иметь такую оценку: t 4- т / G [f (/)] dt > rm. (6.60) 4 Я. Н. Ройтемберг
98 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Отсюда в силу неравенства (56) получим, что / G [/(/)] dt = оо, О (6.61) что противоречит условию леммы. Полученное противоречие до- казывает лемму. 8. Лемма 2. Если три действительные функции fi(t), fe(O> /з(0 при / —> оо стремятся к нулю не медленнее экспонент (что мы будем обозначать так: А(А—>0) и если их изображения Фурье со Fk («®) = J fk (0 dt (6=1,2, 3) (6.62) О связаны зависимостью Fi (Z©) = Н (/со) F3 (/со) + F2 (/со), (8.63) где Retf(/co)>d>0 (6.64) при всех со, то - J А (0 f3 (0 dt < С (О 0), (6.65) О где положительная постоянная С имеет конечное значение и определяется равенством С = —— и 8лд 4-оо J I /^(йо) |2do>. — 00 (6.66) Доказательство. Так как fiftj^O, f3(t)^+O, то мож- но применить формулу Парсеваля [17,90] оо оо / fi (0 /з (0 dt = J ЁЛЙ F3 (М d<0. (6.67) О —оо Подставляя вместо Fi(Zco) его значение (63), получим оо оо У fi (0f3(0 dt = ± У [Я(Й Л(М + F3 (М Л». (6.68) О —оо
$ 6. УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ 99 Поскольку левая часть соотношения (68) действительна, то мни- мая часть интеграла в правой части (68) равна нулю. Поэтому оо со / f. (О/з(0dt = J Re[Н«а)| F3(ia) F + ГЙМ F3(M] da = 0 — oo oo = ± J {Re H (ia) | F3 (ia) |2 + у [F^to) F3 (ia) + F2 (ia) F^(ia)]} da = — oo — 00 oo X [/ReЯ(ia) F^iaj + /2(to)- Ida-— fb^4^rda = I/ 3 ’ 2 /Re H (io) J 8л _£ Re H (ко) = — [ VRe H (ia) F3 (ia) + Г da - — [ da. 2л J \ / з\ 7 1 2/Re//(ico)l 8л J Retf(«o) — oo —oo (6.69) Отбрасывая в правой части соотношения (69) первое слагае- мое, которое всегда положительно, и учитывая, что согласно (64) Retf(ia)>6>0, получим, что оо оо | f, (t) f3(t)dt^--^ j | F2(ia) |2 da, (6.70) 0 —oo то есть oo oo - JI F2 (ia) |2 da. (6.71) 0 —oo Так как по условию леммы при /-*оо функция f2(t) стре- оо мится к нулю не медленнее экспоненты, то есть J схо“ о дится, и согласно формуле Парсеваля оо оо = i / I F2 (ia) |2da, 0 —oo 4*
100 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ то выражение (71) принимает вид оо - Jfi(0f3(0^<C<oo, (6.72) о что и требовалось доказать. 9. Доказательство теоремы В.-М. Попова. Помимо статей В.-М. Попова [73] развитому им методу и дальнейшему его усилению посвящена обширная литература [3, 22, 54]. Из многих вариантов доказательства теоремы В.-М. Попова ниже изла- гается доказательство, предложенное в монографии [3]. Как показано в п. 6, доказательство теоремы достаточно про- вести лишь в предположении, что в формуле (36) q > 0. Пусть хДО (/ = 1,•..,«) — решение системы дифференциальных урав- нений (1) dx п -dT^^^ikXk + bty п), /г=1 г/ = ф(<7), or = 5 ckxk fc=l при выбранной произвольно, но фиксированной функции qp(oj из угла [0, k] и некоторых (произвольно выбранных, но фикси- рованных) начальных условиях. Если подставить функции хД/), представляющие собой ука- п занное выше решение, в формулы а = S Ckxk и # = <р(сО, го получим, что для системы (1) при фиксированной функции <р(а) и выбранных выше начальных условиях п a = a(t) = ^ckxk(t), (6.73) г/ = г/(0 = ф[ог(0]. (6.74) то есть функция y(t) оказывается некоторой известной функ- цией времени. Поэтому можно указанные выше функции Xj(t) (j = 1,..., п) считать решением системы линейных неоднородных уравнений dx- п = (0 (/ = U • • • i (6.75)
§ 6. УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ 101 где функция y(t) определена выражением (74), а начальные условия — те же, что были заданы при решении системы урав- нений (1). Обозначим теперь через yr(t) следующую функцию: f y(t) при о при ОТ. <6-76> где Т — произвольное фиксированное положительное число, и пусть функция or(t)=^ckXkr(t) (6.77) fe=l определяется решением системы линейных неоднородных урав- нений = S aikxkT + bJyr(t) (j = 1, ..., n) (6.78) k=\ при тех же начальных условиях, при которых согласно (73) была определена функция o(f), то есть xtT (0) = Xj (0) (6.79) Отсюда следует, что <тг (0 = 0(0 при (6.80) Решение эквивалентного системе скалярных уравнений (78) неоднородного векторного дифференциального уравнения ^L = axT + byT(t) (6.81) можно представить в следующем виде: t хт (0 = е (0 0-1 (0) х (0) + 0 (0 | 0-1 (т) ут (т) dr, (6.82) о где 0(0 — фундаментальная матрица решений однородного мат- ричного уравнения dxT -£-=ахт. (6.83) Элементы 0^(0 матрицы 0(f) имеют следующий вид: 0м(0 = Рм(0еЧ (6.84) где Pjfe(f)—некоторые полиномы от t, а рь— нули характери- стического определителя (9) Д (р) = det (Ер — а).
102 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ В рассматриваемом здесь основном случае все нули характери- стического определителя А(р) имеют отрицательную действи- тельную часть Re Ра < 0 и, следовательно, lim 0М(О = О (/, k = l, п). (6.85) /“>оо Из (82), (77) и (4) следует, что аг(/) = 5г(0 + р(0. (6.86) где бг (/) = с0 (0 J е"1 (т) ут (т) dx, (6.87) о р(0 = се(/)е-1(0)х(0). (6.88) Таким образом, от(/) определяется из решения (82) системы уравнений (78) при нулевых начальных условиях, а р(/)—функ- ция времени, линейно зависящая от начальных данных хДО) (/ = 1,..., п). В рассматриваемом здесь основном случае, как следует из (85), р(0=£0, -^-=50. (6.89) Дифференцируя (86), имеем дт (0 = бг (0 + р (0- (6.90) Из (86) и (90) можно получить следующее выражение: ат (/) + qaT (t) - = ат (/) + qar (/) - + р (/) + qf> (t). (6.91) Обозначим теперь „ ут (/) fl(0 = -ar(0-?or(0 + IV1, (6.92) f2(0 = -р(0-<7р (0- Изображения Фурье для функций fi(Z), /г(0> УтЦ), oT(t) обозначим так: (/со), ГгО’со), 2т(*о)- Эти преобразо- вания Фурье существуют, так как z/T(/) = 0 при t > Г, то есть ут(/)г£0. Функция от(/) определена выражением (87), в ко- тором подынтегральная функция обращается в нуль при t>T\ в соответствии с (85) из этого следует, что ог(/)=>0, ог(/)=£0. Кроме того, согласно (88) и (85) р(/)=$0, р(/)=£0. Таким образом, /1(0~>0, Согласно (13) -o(/) = F(D)r/(/).
§ 6. УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ 103 В соответствии с (14) и (78) будем иметь -<jr(/) = U7(D)//r(f). (6.93) При нулевых начальных условиях уравнению (93) соответствует следующее уравнение в изображениях Фурье: - Sr (Zco) = W (i®) YT (ia). (6.94) Здесь слева стоит —St(i®)> так как имеется в виду решение при нулевых начальных условиях, то есть dT(t). Соотношение (91) в новых обозначениях (92) принимает вид ft(O = - 5T(t)-qdT(t) +^~+f2(t). (6.95) Переходя к изображениям Фурье и учитывая (94), получим F{ (ко) = + iqa) W (/co) + yj YT (/co) + F2 (*©)• (6.96) Здесь учтено, что изображение Фурье для 5г(0 будет /о2г(/©)> Обозначим теперь Н (ia) = (1+ iqa) W (ia) + у. (6.97) Тогда соотношение (96) примет вид (М = н О’®) Ут (М + (М* (6.98) В рассматриваемом здесь основном случае условие (36) тео- ремы Попова можно заменить неравенством Re Я (Zco) >6, (6.99) где б — положительное число. Как показано в п. 3, годограф вектора 47* (со) в основном случае всегда лежит в конечной ча- сти плоскости комплексного переменного W* при всех со. Наи- меньшее расстояние между точками прямой Попова (40) и годографом вектора 47* (со)—положительное число, то есть коор- динаты X и Y любой точки годографа вектора IT* (со) удовлет- воряют условию X-qY + у>6>0, (6.100) откуда и вытекает условие (99). Кроме того, как установлено выше, А(О^о, А(о^о, yr(t)^o.
104 ГЛ. 2. нелинейные управляемые системы Поэтому согласно лемме 2 будем иметь оо .b.ioi) о где оо с=i J1 f2 (*“) i2 d(i> • (б.102> — оо Функция как и ее оригинал f2(0, как видно из (88) и (92), линейно и однородно зависит от начальных данных и не зависит от величины Т. Поэтому положительная постоянная С зависит однородно и квадратично от начальных данных и стре- мится к нулю, когда эти начальные данные стремятся к нулю. От величины Т постоянная С не зависит. Подставляя выражение (92) для fi(0, получим из (101) оо J Ут (0 [<*т (0 + q°T (0 - dt = О т = / ф[а(0]{<г(0 + <7а(0—(6.103) о Разбивая левую часть неравенства (103) на два интеграла, по- лучим T (f (Т) J Ф [о (/)] {а (/) - ф у jdt + q j (p(o)do^C. (6.104) о а (0) Прибавляя к обеим частям неравенства (104) положительную величину q J ф (о) do и вводя новую постоянную о о (0) C* = C + <7j <p(c)do, (6.105) о приходим к неравенству Т о(Т) У ф(а) [о — + J ф(а)б/о<С*. (6.106) о о Здесь постоянная С*, так же как и С, зависит только от на- чальных данных и стремится к нулю вместе с ними.
$ 6. УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ 105 В левой части (106) каждый интеграл неотрицателен. По- этому будут иметь место неравенства т о а (Г) J <p(or)dor<yC*. о (6.107) (6.108) Из неравенства (108) при условии, что <р(о) заключена в угле [0, Н еще не следует, что функция а(/) ограничена, по- скольку в этом угле могут быть выбраны такие характеристики оо ф(о), для которых J <p(or)dcr конечен (например, функции о ф(а), удовлетворяющие условию ф(о)^0). Поэтому допустим сначала, что ф(о) удовлетворяет более жесткому условию (6.109) чем основное условие (6) /Г 9 то есть что ф(о) лежит в угле [в, &), а не в угле [0,6]. Тогда из неравенства (108) сразу следует, что функция о(/) ограничена при t 0, то есть |а(01<А (f>0), (6.110) где величина L стремится к нулю вместе с начальными откло- нениями, поскольку этому свойству удовлетворяет С*. Так, например, заменяя ф(а) на ео в левой части (108), по- лучим {еаШу. <6Ш) * ч Отсюда, заменяя произвольную величину Т на t, получим не- равенство (НО), в котором L=V^- <6-ii2> V ЪЦ Но тогда в силу известных свойств линейных дифференциаль- ных уравнений в рассматриваемом основном случае ограничены и решения х,(/) системы (75) |xz(0K^, />0(г = 1....п), (6.113)
106 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ где постоянные Ni9 как и постоянная £, стремятся к нулю вместе- с начальными отклонениями, так как правые части уравнений (75) b(t) = b(t)] ограничены, если о ограничено. Это вытекает из следующего известного свойства решений систем неоднородных линейных уравнений в устойчивом случае: если правые части ограничены в интервале либо стремятся к нулю при /—> оо, то и любое решение обладает этим свойством, то есть соответственно ограничено или стремится к нулю при / —> оо. Если при этом постоянные, ограничивающие правые части, зависят от начальных отклонений (как это имеет место в данном случае) и стремятся к нулю при стремлении к нулю начальных отклонений, то и любое решение обладает этим же свойством. Из (ИЗ) следует, что тривиальное решение системы (1) Xi = 0 устойчиво по Ляпунову. Однако из (113) не следует еще асимптотическая устойчивость тривиального решения. Обратимся теперь к неравенству (107). Здесь под интегра- лом стоит функция О(а) = ф(о)[о--^-], (6.114) которая положительна в силу неравенства (109) при любом 0=^0, a G(0) = 0. Кроме того, из ограниченности функций хДО следует согласно уравнениям (1) ограниченность производных Xi, а значит, и ограниченность о(/) и d(t). Заметим, что по- скольку согласно (102) и (105) постоянная С* не зависит от Т, то неравенство (107) будет иметь место при произвольном Т > 0. Отсюда следует, что со J <p(o)[of - dt < оо. 6 Таким образом, выполнены все условия леммы 1. В соответ- ствии с леммой 1 заключаем, что при произвольных начальных условиях limo (0 = 0. (6.115) Из (115) следует, что lim <р [о (01 = 0. /->оо (6.116) Соотношение (116) можно переписать так: lim #(0 = 0. При /~>оо этом, в соответствии с замечанием о свойствах решений диффе-
§ 6. УСТОЙЧИВОСТЬ НЕЛИНЕЙНЫХ УПРАВЛЯЕМЫХ СИСТЕМ 107 ренциальных уравнений (стр. 106), из уравнений (75) следует, что lim хД0 = 0 (Z = 1» ..п). (6.117) ^->оо Изложенным исчерпывалось бы доказательство теоремы По- пова, если бы в ходе доказательства мы не заменили угол [0, k] углом [е, k). Указанное ограничение можно снять. Однако, имея в виду, что е можно в условии (109) выбирать сколь угодно ма- лым, мы на этом останавливаться не будем. 10. Применение прямого метода Ляпунова. Метод А. И. Лу- рье в теории абсолютной устойчивости нелинейных систем. За- дача о достаточных условиях абсолютной устойчивости управ- ляемых систем, описываемых уравнениями вида (1), впервые была поставлена и изучена А. И. Лурье [59] при помощи пря- мого метода Ляпунова. Для этого была предложена функция Ляпунова следующего вида: а V = L{x) + q J (6.118) о Здесь А(х) = х*Ях, (6.119) где х* — матрица-строка, полученная транспонированием вектора х, а Н — квадратная матрица типа п X п, элементы которой постоянны. Функция L(x) является квадратичной формой пере- менных Xj (/ = 1,...,п). Если оказывается возможным выбрать матрицу Н так, чтобы L(x) была положительной квадратичной формой, а производная dVfdt от функции Ляпунова (118), опре- деляемая в силу уравнений (1), была отрицательной знако- определенной функцией, то рассматриваемая система асимпто- тически устойчива. Соотношение между методами А. И. Лурье и В.-М. Попова изучалось в работах В.-iM. Попова [73], В. А. Якубовича [95], М. А. Айзермана и Ф. Р. Гантмахера [3]. Для рассмотренного выше основного случая окончательный результат получен в работе В. А. Якубовича [95], где доказана теорема о том, что условие В.-М. Попова (36) является для основного случая необходимым и достаточным условием суще- ствования функций Ляпунова вида (118). Из этой теоремы следует, что если абсолютная устойчивость системы (1) может быть установлена при помощи функции Ля- пунова вида (118), то существует такое действительное поло- жительное число q, что условие (36) теоремы В.-М. Попова вы- полняется. Таким образом, теорема В.-М. Попова охватывает
108 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ всю совокупность систем вида (1), абсолютная устойчивость ко- торых может быть установлена при помощи функции Ляпунова вида (118). § 7. Нелинейные системы под воздействием внешних сил 1. Приведение задачи к интегральным уравнениям. Рассмот- рим систему, описываемую следующими нелинейными диффе- ренциальными уравнениями: */ = <P/Ui> *2, •••> 0 (/ = 1,..., п). (7.1) Вводя матрицы ф(*1, • • • > Хпг I) — Ф1 (х............. /)-1 Ьф„(х,.....хп, t) J (7.2) можно заменить систему скалярных дифференциальных уравне- ний (1) векторным дифференциальным уравнением х = ф(хь ..., хп, t). (7.3) Предположим, что функции <pj(xb ..., xn,t) можно предста- вить в таком виде: ф/ (*1, • • •, хп, f) = - [Ujt (/) Xt + ul2 (0 x2 + ... + uln (/) xn] + + yi{t) + ^l(xi,..., xn, t) (/=1...n), (7.4) то есть в виде суммы некоторой линейной относительно хь ... ,.., хп аппроксимирующей функции п - 5 и1к (/) xk + у, (0 k=l и нелинейной поправки фДхь..., хп, t). Выбор линейного при- ближения может быть выполнен различными способами; его можно подчинить, например, условию малости ., xn, t) | в рассматриваемой области изменения хь ..., хп и т. д. От удачного выбора линейного приближения в значительной мере зависит быстрота сходимости построенных ниже последователь- ных приближений (35) решения системы уравнений (1). Система дифференциальных уравнений (1) принимает в со- ответствии с (4) следующий вид: X/ + S ujk(t)xk = yj(t) + ^j(xl, ...,хп, t), (/=1, п). (7.5) Система скалярных дифференциальных уравнений (5) эквива- лентна векторному дифференциальному уравнению X + u(t)x = y(t) + ф(Х!, ..хп, /), (7.6)
§ 7. ВОЗДЕЙСТВИЕ ВНЕШНИХ СИЛ 109 где через u(t), y(t) и ф(*1, х2, ..., хп, t) обозначены матрицы м(0 = '«И (0 • • • «1п (О' - ^ni (0 • • • «пп (0 _ Г ti (*1> . . ., ХП) 'УЛ*У О' > (7.7) 1|)(х хп, 0 = • • • Li|>n (ХЬ • • • > %П> 0-1’ Обозначим теперь через 0(/) матрицу 0(0 = -0и(О ... 01„(О ' _0П1(О ... 0„„(О- (7.8) столбцы которой представляют собой линейно-независимые част- ные решения однородного векторного уравнения х + и(0х = О. (7.9) Матрица 0(/), таким образом, является фундаментальной мат- рицей решений дифференциального уравнения (9). Так как ка- ждый столбец матрицы 0(/) является частным решением урав- нения (9), то матрица 0(/) удовлетворяет уравнению 0(/)+и(О 0(/) = О. (7.10) Решение векторного дифференциального уравнения (6) бу- дем искать в следующем виде: х = 0(О%(О, (7.11) где Вектор %(0 подлежит определению. Подставляя выражение (11) в уравнение (6), получим 6(Ox(O + 0(Ox(O + «(O0(Ox(O = !/(O + t(*i»...» хп, /). (7.13) Первое и третье слагаемое в левой части уравнения (13) в со- ответствии с (10) сокращаются, и уравнение (13) принимает вид WWt) = y(t) + ^(xl, .... х„, t), (7.14) откуда x(O = O’1(O!/(O + 0’,(Ot(^ .... хп, t), (7.15)
ПО ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ где через О"1 (О обозначена обратная матрица. Из уравнения (15) следует, что t t % (0 = J 0-1 (т) у (т) dx + j 0"‘ (т) ф [х, (т).хп (т), т] dx + С, h it (7.16) где С — вектор из произвольных постоянных (7.17) Подставляя в (11) выражение (16) для вектора х(/), получим t х(/) = 0(ОС + 0(О J В~1 (х) у (х) dx + ti t + 8(0 j б-'СОФкЮ, •••> х„(т), x]dx. (7.18) fo Вектор С определим из начальных условий [x(OL=/, = x(fo). (7.19) Из соотношения (18) следует, что х(/о) = 0(/о)С, (7.20) откуда С = 0“1(/о)х(/о). (7.21) Таким образом, соотношение (18) принимает вид х (0 = 0 (0 0-1 (t0) х (Q + j 0 (0 0-1 (т) у (т) dx + h t + J 0 (0 0'1 (т) ф [x, (т).....x„ (т), т] dx. (7.22) /о Соотношение (22), в правой части которого подынтеграль- ная функция содержит элементы матрицы х(/), представляет собой векторное нелинейное интегральное уравнение относи- тельно неизвестного x(t). Это интегральное уравнение эквива- лентно векторному дифференциальному уравнению (3) вместе с начальными условиями (19). Обозначим теперь N(t, х) = 0 (/) 0-1 (т). (7.23)
§ 7. ВОЗДЕЙСТВИЕ ВНЕШНИХ СИЛ 111 Функция N(t, т) представляет собой квадратную матрицу N(t, т) = ’АГП(/, т), ..., NXn{t, т)- т), ..Nnn(t, т)_ элементы которой будут т)= 2ем(0[е-*(т)и ц=1 Заметим, что для функции N(t, т) будет справедливым сле- дующее соотношение: N(t, = t)W(t, о), (7.24) которое имеет место для любых t, т и о. Действительно, в со- ответствии с (23) N (t, т) N (т, ст) = 0 (/) 0-1 (т) е (т) 0"' (ст) = 0 (/) 0-1 (ст), что и совпадает с соотношением (24). Обратная матрица для матрицы N(t, т) будет [У(/, т)Г1=АГ(т, 0. (7.25) Соотношение (25) вытекает из того, что N (/, т) N (т, /) = 0 (0 0-1 (т) 0 (т) 0"' (0 = Е, где через Е обозначена единичная матрица. Из соотношения (23) также следует, что #(/, /)=Е для любых значений t. Нелинейное векторное интегральное уравнение (22) можно теперь переписать так: t x(t) = N (/, /0) * Go) + J N G, О У СО + i + J N(t, O^kiCO, ..., xrt(r), r]dx. (7.26) t9 Уравнение (26) эквивалентно следующей системе скалярных нелинейных интегральных уравнений: п nt Х1 (0 = 2 N>k to) Xk + S J Nik У’ Ук (т) dx + /г=1 £=1 /о п t + S J 'О’М-М'О, • • v]dx (j= 1, ..n). (7.27) /г-l t9
112 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ 2. Построение приближенных решений. В общем случае ис- ходная система нелинейных дифференциальных уравнений (1) не интегрируется. В этом смысле приведение задачи к системе нелинейных интегральных уравнений (27) не изменяет существа дела, так как получение точного решения уравнений (27) в об- щем случае также не представляется возможным. Однако для построения приближенных решений системы нелинейных диф- ференциальных уравнений (1) удобнее исходить из эквивалент- ной ей системы интегральных уравнений (27). Для сокращения записи введем следующие обозначения: t g{t) = N (t, t0) x(t0) + J N(t,r) у (т) dr, (7.28) fo KR, т, Xi(-r), xn (r)l = N (t, х„(т), т]. (7.29) Так как фундаментальная матрица 0(/) для линейного диффе- ренциального уравнения (9) предполагается известной, то будет известной и функция N(t, т), определяемая формулой (23). Таким образом, можно считать функцию g(t) известной функ- цией. Функции g(t) и /ф, т, %1(т), ..., хп(т)] являются векторами. Элементы этих векторов будут п nt g/(0 = 2^м(Л zo)M^o) + ^ J Njk(t, r)yk(r)dr (j = 1, ..., n), /2=1 fe=l fo (7.30) n Kj(t, r, Xi(t), ..., (?)) = 2 AG*(/, •••. xn(x), t) fe=l (/=1, ..., n). (7.31) Векторное интегральное уравнение (26) можно теперь перепи- сать так: t х (0 = g (0 + J К [t> х\ (т), • • •, хп (т)] ^т. (7.32) 6) Система скалярных интегральных уравнений, соответствующая векторному уравнению (32), будет t (0 = £/(0 + / Kilt, Х[(т), .... х„(т)]</т (/=1.......п). (7.33) to Для решения системы нелинейных интегральных уравнений (33) при достаточно широких предположениях [81] относительно
§ 7. ВОЗДЕЙСТВИЕ ВНЕШНИХ СИЛ 113 вида нелинейных функций фДхь ..., xn, t) можно применить ме- тод последовательных приближений. В качестве нулевого при- ближения решения системы уравнений (33) принимаем х<°)(0 = §/(0 (/=1. (7.34) Последовательные приближения будут xf (/) = gj (/) + J Kj[/, Т, х<»> (т), ..х<°> (т)] dx, to Х<а(/) = g/(0 + J А’Д/, х, х'/Цт), .... to (7.35) t х(т) (£) = (/) + j К/ [/, X, х\т~" (т),’ .... Х<”'~" (Т)] dx, to (/= 1, .... n). Недостатком метода последовательных приближений яв- ляется быстрое усложнение квадратур в выражениях (35) при повышении порядка приближений. Другой метод приближенного решения системы интегральных уравнений (33) состоит в следующем. Промежуток времени (/о, 0 разбиваем на интервалы Д/о — ^о> Д/i — /2 == ^+1 ~ (7.36) В качестве приближения принимаем, что на каждом из этих интервалов функции хД/) сохраняют неизменными те значе- ния, которые они имели в начале интервала. Тогда из уравне- ний (33) получим X/ (/0) = g} (to), xl(ti) = gi(ti) + K/[tl, to, xjfo), .... x„(/0)]A/0, X/ (t2) = gj (t2) + Kl [*2> to, x( (t0), ..., Xn (/0)] \tQ + + Kj[t2, tt, Xit/j), ..., х„(/1)]Д(ь ................................................................ (7.0/) x/(ts) = g/(ts) + 2tRs. tk, x1 (tk),..., xn(/ft)]д/ft, k=0 (J=l....n).
114 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Описанным методом может быть построено приближенное реше- ние системы нелинейных интегральных уравнений (33), то есть может быть найден приближенный закон движения системы (1) на интересующем нас интервале времени (/о, О- § 8. Качественные методы исследования движения нелинейных систем 1. Нелинейные системы с одной степенью свободы. Каче- ственные методы исследования движения нелинейных систем опираются на результаты восходящей к трудам А. Пуанкаре [75] качественной теории дифференциальных уравнений [68]. Эти ме- тоды получили широкое применение в теории нелинейных ко- лебаний в трудах Л. И. Мандельштама, А. А. Андронова, Н. М. Крылова, Н. Н. Боголюбова, Б. В. Булгакова, Ю. А. Мит- ропольского и других ученых [4, 17, 47, 64]. Особенно эффек- тивны качественные методы при изучении движения нелиней- ных систем с одной степенью свободы; многие из этих методов могут быть успешно применены и для изучения нелинейных систем со многими степенями свободы. Ниже ограничимся лишь рассмотрением систем с одной степенью свободы. Кинетическая энергия системы с одной степенью свободы, у которой связи склерономны (то есть не зависят явно от вре- мени) и определение обобщенной координаты q также склеро- номно, может быть представлена так: T = ±m(q)<f. (8.1) Функция m(q) называется приведенной массой системы. Потен- циальная энергия системы V=V(q). Функция Лагранжа для рассматриваемой системы будет L = Т - V. (8.2) Уравнение движения системы будет иметь следующий вид: <8-3> ИЛИ где через Q* (<?,</> О обозначена добавочная, неконсервативная сила, приложенная к системе. В некоторых задачах более удобным является применение канонических переменных. Таковыми для системы с одной сте-
§ 8. КАЧЕСТВЕННЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ 115 пенью свободы будут обобщенная координата q и канонический (или обобщенный) импульс р, определяемый формулой ? = <• М Для систем со склерономными связями функция Гамильтона имеет вид Н = Т + V. (8.5) Так как согласно (1) и (2) Р = m (q) q, (8.6) то функция Н может быть представлена в виде „2 (8.7) Канонические уравнения движения системы с одной степенью свободы будут dq _ дН dt ~ др ' dp дН । z «к -dF = --^- + Q(<7. Р. О, (8.8) где Q(q, р, t) — преобразованная к каноническим переменным добавочная неконсервативная сила. В соответствии с (7) канонические уравнения движения (8) принимают вид dq = Р dt m (q) ’ (8.9) Движение системы со склерономными связями в случае, ког- да добавочная неконсервативная сила Q не зависит явно ог времени, носит название собственных колебаний системы. В этом случае канонические уравнения (9) принимают вид = р dt tn (q) ’ dp = m'(q) dt 2[ni(q)] t P2 ~ V'(q) + Q(q, p). (8.10) Мгновенные значения q и p определяют собой положение и ско- рость системы с одной степенью свободы или ее состояние (фазу). Можно трактовать q и р как декартовы координаты некоторой точки (изображающей точки) на плоскости qpt Эта
116 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ плоскость называется фазовой плоскостью^ q и р — фазовые координаты изображающей точки на фазовой плоскости. При этом и будут представлять собой компоненты скорости изображающей точки. Эта скорость называется фазовой скоро- стью. Всякое решение уравнения (10) q=q (t), p = p(t) определяет собой на плоскости qp некоторую траекторию, по ко- торой движется изображающая точка. Эта траектория назы- вается фазовой траекторией. (Не следует смешивать фазовую траекторию и фазовую скорость с траекториями и скоростями реальных точек рассматриваемой материальной системы.) Диф- ференциальное уравнение, определяющее фазовые траектории, можно получить в явном виде, исключая переменную t из кано- нических уравнений (10). Это уравнение будет следующим: ,81П dq р ’ т(^) Интегрируя уравнение (И), найдем зависящее от параметра С уравнение семейства интегральных кривых P = p(q\ С). (8.12) Если дифференциальное уравнение (11) проинтегрировано, то время движения изображающей точки по фазовой траектории определяется квадратурой. Действительно, из первого уравне- ния (10) и уравнения (12) следует, что (8ЛЗ> откуда где Ci — произвольная постоянная. Для определения произволь- ных постоянных С и Ci надо задать начальные условия, то есть задать значения q и р в начальный момент времени t = /0. Эти.м определится закон движения системы. Если при изменении времени t от —оо до оо изображающая точка пробегает всю интегральную кривую (12), соответствую- щую некоторому фиксированному значению параметра С, то эта интегральная кривая является фазовой траекторией. Воз- можны, однако, случаи (описанные ниже), когда интегральная кривая состоит из нескольких фазовых траекторий, то есть при
§ 8. КАЧЕСТВЕННЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ 117 изменении t от —оо до оо изображающая точка пробегает лишь одну ветвь интегральной кривой (12). Точки (<?*, р*) фазовой плоскости, в которых одновременно обращаются в нуль обе составляющие фазовой скорости — и называются особыми точками. В этих точках ураь- нение (11) не определяет наклона фазовой траектории к оси абсцисс, так как в точках (<?*,р*) согласно (11) имеем Значения (<?*, р*) фазовых координат особых точек опреде- ляются из следующих конечных уравнений: ~^=а’ ттарр2-17'(«) + «(?. ₽)-«• (8.15) Поскольку функция m(q) может принимать только положи- тельные конечные значения (функция m(q) представляет собой приведенную массу системы), то из первого уравнения (15) сле- дует, что р* = 0, (8.16) то есть особые точки расположены на оси абсцисс фазовой пло- скости. Из второго уравнения (15) и соотношения (16) следует, что абсциссы р* особых точек являются корнями уравнения -V'(q) + Q(q, 0) = 0. (8.17) Состояние системы 9 = / = const, р = р* = О (8.18) является частным решением канонических уравнений движения (10) системы. Это частное решение представляет собой положе- ние равновесия рассматриваемой системы. Таким образом, осо- бые точки определяют собой положения равновесия системы. За исключением особых точек, в любой точке фазовой плос- кости фазовая скорость отлична от нуля, то есть изображающая точка движется по фазовой траектории без остановки. В точках пересечения фазовой траектории с осью абсцисс (не имеем, как следует из (11), особых) (8.19) абсцисс углом и Таким образом, фазовая траектория пересекает ось в регулярной (то есть не особой) точке под прямым располагается по одну сторону от вертикальной касательной.
118 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Так как т(^)>0, то на фазовой плоскости в верхней полу- плоскости q > 0, и движение по фазовой траектории происходит в сторону возрастающих значений q. В нижней полуплоскости q < 0, и движение по фазовой траектории происходит в сто- рону убывающих значений q. 2. Консервативные системы. Если приложенные к системе силы имеют потенциал, то есть определяются выражением —V'(q), а другие силы к системе не приложены Q(q, Pt /) = 0, (8.20) то система называется консервативной. В соответствии с (8) канонические уравнения движения кон- сервативной системы с одной степенью свободы будут dq _ дН dt др * , (8.21) ар __ дп ' ’ dt ~ dq ' Учитывая выражение (7) для функции Гамильтона Н, при- ведем уравнения (21) к виду dg _ р dt tn (q) ’ <822) dt 2[m(q)]2P V ) Так как в соответствии с (21) dH = дН dq . дН dp dt dq dt ' др dt ’ то имеет место первый интеграл (интеграл энергии) Н = const, (8.23) который в соответствии с (7) можно представить в виде + V <«>-’ (8-24) Здесь v — значение полной энергии системы, которое можно определить из начальных условий: q = q(t0), р = p(t0) при t = t0. Соотношение (24) можно рассматривать, как зависящее от параметра v конечное уравнение фазовых траекторий системы. Как следует из (24), р=± V2m(q)[v- V(</)], (8.25) то есть фазовые траектории консервативной системы располо- жены симметрично относительно оси абсцисс.
§ 8. качественные методы исследования 119 Время перемещения изображающей точки по фазовой траек- тории (рис. 8.1) от точки с абсциссой q0 до точки с абсциссой q в соответствии с (14) и (25) будет Vm(q)dq V2[v-V(q)] (8.26) <7о При этом верхний знак перед интегралом в выражении (26) со- ответствует случаю, когда движение изображающей точки про- исходит по дуге, расположенной в верх- ней полуплоскости, а нижний знак — в нижней полуплоскости. Пример построения фазовых траек- торий для консервативной системы приведен на рис. 8.2. Здесь по за- данному графику функции V (q) (рис. 8.2, а) построены для различных значений Vi (/ = 1, ..., 5) полной энергии системы графики функций р2 = 2m(q)[vi—V(q)] (рис. 8.2,6). При помощи этих графиков на рис. 8.2, в построены фазовые траектории системы, соответствую- щие приведенным на рис. 8.2, а значениям Vi (Z = 1, ..., 5) полной энергии системы. Рассмотрим характер движений системы, соответствующих различным фазовым траекториям, показанным на рис. 8.2, в. Точкам 4, В и С, в которых функция V(q) имеет экстремум, соответствуют особые точки, отмеченные на рис. 8.2, в цифрами 2, 4 и 1 соответственно. Как указано выше, особые точки опре- деляют собой положение равновесия системы. В точке А функция V(q) имеет минимум. Соответствующая ей особая точка 2 является изолированной особой точкой. Эта особая точка называется центром. Если в начальный момент времени изображающая точка находится достаточно близко от особой точки 2, то, как видно из рис. 8.2, в, она будет двигаться по замкнутой фазовой траектории, расположенной в достаточно малой окрестности точки 2. Континуум замкнутых фазовых тра- екторий, зависящих от параметра Vi и аналогичных траектории 3, заполняет всю область фазовой плоскости, ограниченную зам- кнутой кривой 4'. Таким образом, положение равновесия, соот- ветствующее особой точке типа центр, является устойчивым, что и соответствует известной теореме Л ежен— Дирихле. В точке В функция V (q) имеет максимум. Через соответ- ствующую ей особую точку 4 проходит самопересекающаяся кривая 4"'4'4", называемая сепаратрисой. Особая точка 4 назы- вается седлом. Сепаратриса состоит из трех ветвей 4"', 4' и 4".
120 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Как будет показано ниже, при движении по сепаратрисе изображающая точка приближается к особой точке 4 асимпто- тически при >оо. Поэтому каждая из перечисленных выше отдельных ветвей сепаратрисы 4'", 4' и 4" является фазовой траекторией. При этом фазовой траектории 4'" соответствует инфинитно-лимитационное движение (при >оо q-*qc при /—>—оо 7“*оо). Фазовой траектории 4" соответствует лимита- ционно-инфинитное движение (при /~*оо q —>оо; при t —*—оо q-*qt). Фазовой траектории 4' соответствует дважды лимита- ционное движение (при >оо q-+q^ при —оо >^4). Если в начальный момент времени изображающая точка на- ходилась сколь угодно близко от особой точки 4, то, как видно Рис. 8.2. из рис. 2, в, она будет двигать- ся по одной из фазовых траек- торий типа 3, 5 или 3', а так как при движении по фазовым траекториям типа 5 и 3' q-^oo при >оо, то положение рав- новесия, соответствующее осо- бой точке 4 (то есть особой точ- ке типа седла), будет неустой- чивым. В точке С функция V(q) имеет стационарное значение. Соответствующая ей особая точка 1 будет (как показано ниже) точкой возврата первого рода. Как видно из расположе- ния фазовых траекторий на рис. 8.2, в, положение равнове- сия, соответствующее особой точке /, также является не- устойчивым. Сепаратриса, проходящая через особую точку /, состоит из двух ветвей Г и Г', каждая из которых является фазовой траекторией системы. Фазовой траектории Г' соответствует инфинитно-лимитационное движе- ние (при t —* оо д—при /—►—оо 7—► оо). Фазовой траекто- рии 1' соответствует лимитационно-инфинитное движение (при /—>оо /у—>оо; при /—►—оо q-+qi). Фазовые траектории типа 5, 3', 2' соответствуют дважды инфинитным движениям (при t->oo q->oo] при/-> — оо 7—>оо). Фазовая траектория 3 является замкнутой. В любой точке этой траектории фазовая скорость отлична от нуля; изображаю-
§ 8. КАЧЕСТВЕННЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ 121 щая точка движется по траектории 3 без остановок, совершая один обход за конечный промежуток времени. Траектория 3 соответствует либрационному (периодическому) движению си- стемы. Перейдем теперь к определению наклона фазовой траектории к оси абсцисс в особой точке. Из выражения (25) следует, что dp_ = + ГПГ (д) [и - V (д)] - т (д) V' (д) ,g dq - V 2т (?) (о - V (?)] Как показано выше (16), в особой точке р = 0. Согласно (17) у консервативной системы в особой точке V'(q) обращается в нуль. Таким образом, учитывая выражение (25), будем иметь следующие соотношения: v = V (<?•), V' (/) = 0, (8.28) где q*— абсцисса особой точки. Пусть ц— порядок наинизшей производной от V(q), отлич- ной от нуля в особой точке Vw(q’) 0. Тогда можно представить функции V(q) и V'(q) в таком виде: V (q) = V (V) + (/) + 8 (<?)] (q - qV, i (8.29) V' (q)=-пглр k00 (<f)+n (q)] (q - qT", где функции e.(q) и л(*7) обращаются в нуль в точке q = q*: е(/) = 0, п(<7*) = 0. (8.30) В соответствии с (29) выражение (27) можно переписать так: dp____________________u SI ~di~± ~ V ’ (8.31) V- 2m (?) & (q - q*) 2 где =-jr! V" (,) +. И], C = [v'« («) + ч(,)]. (8 32) Я = —tn' (q) <P (q - qT - m (q) Q (q - qT~ Как следует из соотношения (28), р.>2. В случае, когда ц = 2, a V"(q*)>0, функция V(q) имеет в точке q = q* мини- мум, и, следовательно, точка р = 0, q = q* будет изолированной особой точкой. В случае, когда р = 2, a V"(q*)<0, функция V(q) имеет в точке q = q* максимум. Точка р = 0, q = q* будет особой
122 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ точкой типа седла, В этом случае согласно (31) получим \\m^ = ±k, k = У — m(q')V" (q'). л* ии (8.33) Так как в рассматриваемом случае У"(?*)<0, то подрадикаль- ное выражение в (33) положительно и k является действитель- ной величиной. Таким образом, в рассматриваемом случае имеет место самопересечение сепаратрисы, проходящей через особую точку (рис. 8.3). В случае, когда ц>2 и является четным Рис. 8.3. Рис. 8.4. числом |.i=4, 6, 8, а (<?*)<(), функция V(q) имеет в точке q = q* максимум. В этом случае согласно (31) будем иметь (8.34) и, следовательно, будет иметь место самоприкосновение сепара- трисы, проходящей через особую точку (рис. 8.4). В случае, когда ц > 2 и является нечетным числом ц = 3, 5, 7,..., функ- ция V(q) имеет в точке q = q* minimax. Согласно (31) в этом случае (8.35) и особая точка будет точкой возврата первого рода. Сепара- триса, проходящая через особую точку, показана на рис. 8.5. Рис. 8.5. Рис. 8.6. Обратимся теперь к определению времени перемещения изображающей точки по сепаратрисе от точки с абсциссой q == q0 до особой точки, абсцисса которой q = q* (рис. 8.6). Пусть изображающая точка в момент времени t = находится на ветви сепаратрисы в верхней полуплоскости в точке, абсцисса
§ 8 КАЧЕСТВЕННЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ 123 которой равна qo. Согласно (26) промежуток времени, в течение которого изображающая точка придет в особую точку, будет ____ Г /т (q) dq J V2[u-VG7)] ‘ (8.36) Подставляя в (36) выражение (29), которым определена функ- ция V(q), получим f dq «. /--^10"(«) + = («)! (8.37) Так как ~-^1, то несобственный интеграл (37) является рас- ходящимся и, следовательно, изображающая точка прибли- жается к особой точке асимптотически при »оо, как это и указывалось выше. 3. Диссипативные системы. Диссипативными системами на- зываются системы, у которых, помимо консервативных сил, в число приложенных сил входят еще диссипативные силы, то есть силы, работа которых рассеивает энергию системы. Рассмотрим систему с одной степенью свободы, у которой m (q) = m = const, (8.38) V(q) = ±cq\ (8.39) Q (q, p)= — cB sign p — 2ep. (8.40) Добавочная сила Q(q, p) представляет собой сумму сил сухого трения и сил вязкого трения. Согласно (10) канонические уравнения движения системы будут = 1 dt tn ’ I dp . (8.41) = — cq — cB sign p — 2zp. | Систему дифференциальных уравнений (41) можно заменить дифференциальным уравнением второго порядка mij = — cq — cB sign q — 2emq. (8.42) Обозначая *2 = ~, (8.43)
124 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ представим уравнение (42) в следующем виде: ^.(? + B) + 28^-(9 + B) + F(? + B) = 0 (при q>0), (8.44) ^(q-B) + 2e-^(q-B) + k2(q-B) = 0 (при ?<0). (8.44') Изучим движение системы при следующих начальных усло- виях: q = a}>Of <7 = 0 при / = 0. (8.45) Переходя к определению закона движения системы, предполо- жим, что последующее за начальным моментом времени движе- ние системы будет происходить при q < 0, то есть на фазовой плоскости движение изображающей точки будет происходить в нижней полуплоскости. Тогда будет иметь место уравне- ние (44') 4^(д-В) + 2е4-(<7-В) + £2(<7-В) = 0. Проинтегрировав это уравнение, надо будет проверить справед- ливость предположения о том, что q < 0, и определить момент времени перехода изображающей точки в верхнюю полуплос- кость. При условии 8 < k характеристическое уравнение Х2 + 2еЛ + £2 = 0 (8.46) будет иметь следующие корни: Л-2 = — е ± zco, со = Yk2 — е2. (8.47) Решение дифференциального уравнения (44') при начальных условиях (45) будет следующим: q (/) = В + (aj — В) e~st cos со/ + (af — В) е~^ sin со/. (8.48) Отсюда q (/) = — + ©) («у - В) e~£t sin со/. (8.49) Из выражения (49) видно, что q < 0 на интервале времени 0 < t < Zi, где (8.50) и, следовательно, сделанное выше предположение о том, что последующее за начальным моментом времени движение изо- бражающей точки будет происходить в нижней фазовой полу- плоскости, является справедливым.
§ 8. КАЧЕСТВЕННЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ 125 Таким образом, выражение (48) определяет собой закон дви- жения системы на интервале времени 0 </<-—. В момент вре- мени tx = обобщенная скорость ^(/i) = 0, и изображающая точка в этот момент времени, пересекая ось абсцисс, переходит в верхнюю фазовую полуплоскость. Как следует из (48), обобщенная координата q в момент времени tx будет иметь следующее значение: <?(/,) = В-(а,-В)₽, (8.51) где р = е-8^<1. (8.52) Обозначая ai+i = ₽Га/ — В (1 +4-)]> (8.53) получим согласно (51), что ?(/,)=- а/+1. Если начальное отклонение > В (1 +у) > то а/+1>0. Дальнейшее движение изображающей точки будет происхо- дить в верхней фазовой полуплоскости, то есть будет иметь ме- сто уравнение (44) ^(ОВ) + 2е4(<7 + В) + *2(<7 + В) = 0. (8.54) Это уравнение надо проинтегрировать при следующих началь- ных условиях: ?= —а/+1<0, q = 0 при / = (8.55) Решение уравнения (44) при начальных условиях (55) будет следующим: q (/) = - В - (а/+1 - В) е~£ sin со (/ — - — (a/+i — В) cos о (t — tx). (8.56) Из выражения (56) найдем, что <7 W = (^ + ®) (а/+1 - В) в’6 sin со (t - /,). (8.57)
126 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Как следует из выражения (57), q > 0 на интервале времени А < t < /2, где (8.58) и выражение (56) определяет собой закон движения системы на этом интервале времени. В момент времени /2 обобщенная скорость ^(/2) = 0, и изо- бражающая точка в этот момент времени, пересекая ось абс- цисс, переходит в нижнюю фазовую полуплоскость. Значение обобщенной координаты q в момент времени /2 бу- дет согласно (56) следующим: Я (h) = О/+2> (8.59) где a/+2 = p[a/+i — В (1 + j)]- (8.60) Как видно из выражения (60), если aj+i >В (1+^, т0 ?(^)>0. Величины Gj, aj+1 aj+2, ... представляют собой абсолютные значения абсцисс последовательных точек пересечения фазовой траектории системы с осью р = 0. Будем называть эти величины последовательными амплитудами. Из сравнения выражений (53) и (60) можно видеть, что формула, связывающая две последо- вательные амплитуды — одна и та же, как при переходе изобра- жающей точки из верхней фазовой полуплоскости в нижнюю, так и при переходе из нижней полуплоскости в верхнюю. Если теперь обозначить через а0 начальную амплитуду, то согласно (53) и (60) будем иметь последовательность амплитуд, определяемых соотношениями «1 =Pa0-#(l + Р), а2 = ^а1~В(1 +0), аз = ра2-В(1+р), (8.61) +р), ап = ^ап-,-В(1 +р). Покажем теперь, что движение системы заканчивается за конечный промежуток времени и прекращается в момент времени, когда изображающая точка попадает на отрезок [-В, +В] оси абсцисс фазовой плоскости (рис. 8.7). Отрезок [—В, + В] оси абсцисс фазовой плоскости называется зоной застоя (или отрезком покоя) системы. Действительно, в любой точке этого отрезка |^| В, и восстанавливающая сила cq уравновешивается силой сухого трения. Так как на оси абсцисс
$ 8. КАЧЕСТВЕННЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ 127 q = 0 и сила вязкого трения —2smq обращается в нуль, то при попадании изображающей точки в зону застоя восстанавливаю- щая сила cq уравновешивается силой сухого трения покоя и движение прекращается. Поскольку, как следует из формул (53) и (60), за каждое полуколебание амплитуда колебаний убывает на величину, превышающую 2В, то, какова бы ни была на- чальная амплитуда а0, через конечное число полуколебаний амплитуда системы достигнет значения, меньшего чем В, и движение прекратится. Таким образом, движение системы за- канчивается за конечный проме- жуток времени. Обратимся теперь к соотно- шениям (61). Обозначая через п число полуколебаний, за которые заканчивается движение, будем иметь (рис. 8.7) ап<В. (8.62) Умножая первое соотношение Рис- б,л (61) на рп-1, второе на рп~2 и т. д. и складывая соответственно левые и правые части вновь полученных соотношений, найдем, что а„ = рЧ-В(1+рп)-2Вр(1+р+ ... + р""2) ИЛИ ап = ₽% - В (1 + ₽") - 2Вр *7^- . (8.63) В случае, когда е = 0, то есть в состав диссипативных сил, приложенных, к системе, входит лишь сила сухого трения, бу- дем иметь p=l, lim-~-Р= п - 1, (8.64) 3->| >-р и формула (63) примет вид ап = «о — 2Вп. (8.65) Если же в рассматриваемой системе отсутствуют силы сухого трения (В = 0), то формула (63) принимает вид = (8.66) При отсутствии сил сухого трения зона застоя у системы от- сутствует, и собственные колебания системы затухают асимпто- тически при >оо.
128 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Из выражений (48) и (56) видно, что половина периода ко- лебаний системы равна . Период колебаний системы будет 2л _ 2л со V k2 — е2 (8.67) Как видно из выражения (67), наличие сил сухого трения не влияет на величину периода собственных колебаний системы. Этот результат доказан здесь, однако, лишь для систем с одной степенью свободы. 4. Автоколебательные системы. Метод точечных преобразо- ваний. Перейдем теперь к рассмотрению систем, у которых, по- и диссипативных сил, прило- жены еще силы, работа кото- рых идет на пополнение энер- гии системы. По терминологии Кельвина такие силы называ- ются искусственными силами. Наличие искусственных сил предполагает, что система связана с некоторым внешним источником энергии и при по- мощи искусственных сил из этого внешнего источника чер- пается энергия, идущая на по- полнение энергии системы. Если приложенные к систе- ме диссипативные силы или мимо сил, имеющих потенциал, искусственные силы (или и те и другие) являются нелинейными, то в системе могут возникнуть периодические колебания, пара- метры которых не зависят от начальных условий, а устанавли- ваются автоматически так, чтобы приращение энергии системы за один период колебаний оказалось равным нулю. Указанные периодические колебания (их называют также периодическими движениями) являются асимптотически устойчивыми периодиче- скими частными решениями дифференциальных уравнений дви- жения системы. Наряду с ними уравнения движения системы могут иметь также неустойчивые периодические частные реше- ния. Асимптотически устойчивые периодические движения на- зываются автоколебаниями; нелинейные системы, у которых имеют место такие движения, называются автоколебательными системами. К числу хорошо изученных автоколебательных систем отно- сятся часы, ламповые генераторы и др. Мы рассмотрим здесь характерные свойства автоколебатель- ных систем на примере лампового генератора.
§ 8. КАЧЕСТВЕННЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ 129 Ламповый генератор предназначен для генерирования неза- тухающих колебаний в электрическом контуре, то есть для ге- нерирования переменного тока высокой частоты. Основное при- менение он находит в радиотехнике. Схема лампового генера- тора изображена на рис. 8.8. Источником внешней энергии является анодная батарея Еа, питающая электронную лампу (триод). В анодную цепь лампы включен электрический колеба- тельный контур RLC. В цепь сетки электронной лампы вклю- чена катушка индуктивности. Коэффициент взаимной индукции между катушками индуктивности в цепи сетки лампы и анодной цепи обозначен через М, Как показано ниже, осуществляемая благодаря взаимной индукции связь между анодной цепью и цепью сетки лампы дозирует пополнение (из анодной батареи) энергии контура RLC так, чтобы в этом контуре компенсиро- вались потери энергии в омическом сопротивлении и установи- лись незатухающие колебания. Для того чтобы составить дифференциальное уравнение, ко- торому удовлетворяет сила тока q в ветви LR колебательного контура, определим напряжение U на обкладках конденсатора. Обозначая через ia анодный ток, будем иметь t U = ~ J (т) - q (т)] dr. (8.68) о Так как эта величина равна падению напряжения на катушке самоиндукции L и омическом сопротивлении R, то будет иметь место соотношение и = L^+Rq. (8.69) Из соотношений (68) и (69) следует, что t Lq + Rq = J [ia (т) - q (т)] dt. (8.70) о Дифференцируя по t левую и правую части соотношения (70), получим следующее дифференциальное уравнение: q + 2sq + k2q = k2ia> (8.71) где -ir ^-тс- <8-72> Анодный ток ia является функцией от управляющего напря- жения и: = (8.73) 5 Я. Н. Ройтенберг
130 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ График функции f(u) называется характеристикой лампы. Управляющее напряжение и имеет вид = + (8.74) где Ug— разность потенциалов между сеткой лампы и катодом, a Uа — разность потенциалов между анодом и катодом. Через у обозначена проницаемость лампы. Характеристика лампы изо- бражена на рис. 8.9. С возрастанием и анодный ток ia асимпто- тически приближается к току насыщения, величина которого обозначена через S. Рис. 8.10. 8 Параметры лампового генератора обычно таковы, что соот- ношение (74) можно аппроксимировать так: и ~ Ug. (8.75) Для упрощения вычислений аппроксимируем еще характери- стику лампы ступенчатой функцией, показанной на рис. 8.10. Можно показать, что замена характеристики лампы ступенчатой функцией не искажает характера решений дифференциального уравнения (71). В случае необходимости можно уточнить полу- ченные решения, аппроксимируя характеристику лампы (рис. 8.9) ломаной линией. При аппроксимации характеристики лампы ступенчатой функцией будем, учитывая (75), иметь S о при при Ug<0. (8.76) Так как благодаря взаимной индукции катушек индуктивности в цепи сетки и анодной цепи = (8.77) то соотношение (76) можно переписать так: • -( S = 1 0 при при <7<0. (8.78)
§ 8. КАЧЕСТВЕННЫЕ МЕТОДЫ ИССЛЕДОВАНИЯ 131 Таким образом, дифференциальное уравнение (71) принимает вид ( k2S при о^>0, q + 2eq + k2q = _ F (8.79) v ч(0 при q < 0. ' Перейдем к интегрированию уравнения (79). Интегрирование будем вести по интервалам времени, в течение которых функ- ция $(t) сохраняет постоянный знак. Пусть q = a>0, 4 = 0 при t = 0. (8.80) Так как в последующем за моментом времени t = 0 движении q(t) будет иметь отрицательный знак (что будет подтверждено ниже), то в соответствии с (78) надо обратиться к уравнению q+ 2zq + k2q = 0. (8.81) При условии, что е<&, решение уравнения (81), удовлетворяющее начальным условиям (80), будет следующим: <7 (0 = "^’ sin cos at, (8.82) где со = yk2-e2. (8.83) Из выражения (82) найдем, что 4(0 = — ("5" + ®) ae~et sin (8.84) Таким образом, выражение (82) определяет собой закон дви- жения системы на интервале времени 0 < t < tj, где (8.85) так как на этом интервале времени согласно (84) <)(7)<0, что и предполагалось при обращении к уравнению (81). В момент времени t = ti функции q(t) н q(t) в соответствии с (82) принимают следующие значения: где Обозначая </(/!) =-0а, 4(0) = 0, (8.86) (8.87) 0 = е 8 ® < ]. b = 0а, (8.88) в*
132 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ получим согласно (86), что (8.89) На последующем за моментом времени t\ интервале времени q(t) будет иметь положительный знак и в соответствии с (79) на этом интервале времени будет иметь место уравнение q^2zq + k2q = k2S, (8.90) которое надо проинтегрировать при начальных условиях q = —b<Q, q = 0 при = = (8.91) Решение дифференциального уравнения (90), удовлетворяющее начальным условиям (91), будет следующим: q (t) = S — (b + S) e~z cos co (t — — - A (& + S) e-« «-<•> sin cd (t - ti). (8.92) Из выражения (92) найдем, что q (0 = (-J- + <о) (b + S) e~e <*-**> sin о (t - Л). (8.93) Как следует из (93), q > 0 на интервале времени t\ < t < /2, где /2 = ^> (8.94) что и предполагалось при обращении к уравнению (90). Таким образом, выражение (92) определяет собой закон изменения q на интервале времени t\ < t < /2. В момент времени t = /2 функция q(t) обращается в нуль ?(/2) = 0. (8.95) Значение функции q(t) в момент времени t = /2 будет соглас- но (92) следующим: <7(/2) = с, (8.96) где с = р&+ (!+₽)•$• (8.97) Принимая q и q в качестве фазовых координат системы, можно построить на фазовой плоскости (рис. 8.11) траекторию изображающей точки, определяемую выражениями (82), (84), (92) и (93). Мы рассмотрели один цикл движения изображающей точки на фазовой плоскости (рис. 8.11) и установили зависимости (88)
§ 8. КАЧЕСТВЕННЫЕ методы исследования 133 и (97) между последовательными амплитудами а, b и с для этого цикла. Из изложенного выше нетрудно видеть, что эти зависимости имеют место и для последующих циклов, если, ра- зумеется, под а, Ь и с понимать соответствующие амплитуды для рассматриваемого последующего цикла. Обозначая А (а, &) = &-₽«, 1 f2(c, &) = p&-c + (l+p)S, J ’ можно переписать соотношения (88) и (97) так: А (а, Ь) = 0, 1 МО)-о.} <М9> Соотношения (99) можно рассматривать как формулы то- чечного преобразования, преобразующие точки оси абсцисс фазовой плоскости в точки Ci той же оси, где i — номер цикла, описываемого выражениями (82) и (92). Уравнения (99) мож- но также рассматривать как уравнения прямых соответствен- но на плоскостях ab и cb (рис. 8.12). Эти прямые при со- вмещении плоскостей ab и cb пе- ресекаются в точке, координаты которой а = с = 6 = В. (8.100) Значения Л и В, определяемые из уравнений в-м = о, 1 , рВ-Д + (1+₽)S = 0, / (8,101) будут следующими: Д = -г^-й-, B = (8.102) Рис. 8.12. 1 — р 1 — р 4 ' Точка оси абсцисс q = А является инвариантной точкой то- чечного преобразования, определяемого соотношениями (99). Если а = Д, то, перемещаясь по фазовой траектории, изобра- жающая точка, по прошествии одного цикла, вновь приходит в точку q — А (так как с = Д), то есть описывает на фазовой плоскости замкнутую траекторию (рис. 8.13). Последующее дви- жение изображающей точки будет происходить по той же фа- зовой траектории, то есть функция q(t) будет изменяться по периодическому закону. Заметим, что величины А и В зависят лишь от параметров системы, но не от начальных условий дви- жения. В этом существенное отличие найденного здесь периоди-
134 ГЛ. 2. нелинейные управляемые системы ческого движения от либрационных движений консервативной системы. Соответствующий замкнутой фазовой траектории (рис. 8.13) график функции q(t) приведен на рис. 8.14. Так как согласно (102) В <Д, то центром колебаний является не точка <7 = 0, Рис. 8.14. а некоторая точка q* > 0. Подавая на сетку лампы (рис. 8.8) некоторое дополнительное постоянное напряжение (смещение), можно добиться симметричного расположения замкнутой фа- зовой траектории относительно оси ординат фазовой плоскости. Изучим теперь движение изображающей точки в окрестно- сти замкнутой фазовой траектории. Пусть а = А + ба. Тогда b = В + б&, с = А + бе. Соотношения (99), связывающие последовательные амплитуды, принимают вид Л (4 +ба, В + бб) = О, 1 МЛ + бс, В + 66) = 0. ) (8.103) Разлагая левые части соотношений (103) в ряды Тейлора в окрестности точки (4, В), получим МЛ В) + (-£)д=/а + (>-)^60+ ... = 0, ь=в ь=в МЛ, B) + (>Lвс + (М-/6+ =°- (8.104) ь=в Ограничиваясь членами первого порядка относительно да, дд и дс и учитывая, что согласно (101) Л (Л, В) = 0, /2(Л, В) = 0, (8.105)
$ 9. ВОЗДЕЙСТВИЕ ПЕРИОДИЧЕСКИХ ВНЕШНИХ СИЛ 135 получим следующие соотношения: 'Лк' < да , ) 6“ + (тг 'a-Д ' дЬ ь=в 1 ъь=о, ' а*=*А Ь~В ' dft_' < дс . ь=в ) 66 = 0. Ь=В (8.106) (8.107) (8.108) (8.109) Так как согласно (98) _^L=_ a 1 <!h. да р’ дЬ 4 дс ’ дЬ то соотношения (106) принимают вид -рба + бб = 0, 1 — бе + р 66 = 0. J Отсюда бс = р2 ба. Как видно из рис. 8.11, если считать нач: дой i-ro цикла, то сг- будет начальной амплитудой (/+1)-го цикла, то есть Cf = ai+i. (8.110) Отсюда следует, что 6ct- = 6az+1. (8.111) Поэтому соотношение (109) можно переписать так: daz+1=p26az. (8.112) Соотношение (112) представляет собой линейное уравнение в конечных разностях относительно вариации амплитуды ба. Дискретным аргументом искомой функции ба является номер цикла i. Так как согласно (87) р < 1, то lim 6at- = 0, i-»oo откуда следует, что фазовые траектории асимптотически прибли- жаются к определяемой величинами (102) замкнутой фазовой траектории, показанной на рис. 8.13. Указанная фазовая траек- тория, таким образом, является устойчивым предельным циклом. Этот предельный цикл и определяет собой автоколебания, которые генерирует ламповый генератор. § 9. Нелинейные системы под воздействием периодических внешних сил 1. Вынужденные колебания нелинейной системы. Рассмотрим нелинейную систему с одной степенью свободы, у которой при- веденная масса m (q) = m = const. (9.1)
136 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ В этом случае, канонические уравнения движения (8.9) прини- мают вид dg _ р dt т 9 . (9.2) ->=-F(<7) + Q(<7, р, t). Пусть -V'(q) + Q(q, р, t) = m[— f(q, q) + ф(v/)L (9.3) где t|)(vZ) — периодическая функция, период которой P = -V- (9.4) Систему дифференциальных уравнений (2) можно заменить сле- дующим уравнением второго порядка: q + f(q, ^)=t(vO- (9.5) Обозначим теперь = (9.6) Так как промежуток времени t, равный одному периоду функ- ции ф(у/), составляет а согласно (6) О = vt, то по новому аргументу О период функции ф(0) будет равен 2л. Как из- вестно, при выполнении некоторых условий (например, условий Дирихле) функция ф(О) разлагается в ряд Фурье П р л ф ('©') = J ф (О) dO + j* ф (О) cos О dO —л L — п COS'© + л J ф (&) sin dft sin ft + ... (9.7) Ряд (7) можно переписать так: ф (О) = С + R cos (О + у) + ..., где Л с=~ —л (9.8) (9.9)
§ 9. ВОЗДЕЙСТВИЕ ПЕРИОДИЧЕСКИХ ВНЕШНИХ СИЛ 137 а угол у определяется соотношениями я я cosy = -^- J'I’W cos siny= — Jф(О)sinOdf>. (9.10) -Л -Л Далее будем считать, что функция ф(’О) симметрична, то есть С = 0, (9.11) и, следовательно, ф (•&) = /? cos (& +у)+... (9.12) Рассмотрим предварительно один частный случай. Пусть f (q, q) = (о2 + е2) q + 2eq, | ф(^) = /?соз(О +у). J ( ' При этом уравнение (5) принимает вид q + 2е<) + (©2 + 82) q = R cos (vt 4- у). (9.14) Частное решение уравнения (14), соответствующее его правой части, будет следующим: q = acos(yt + у — 0). (9.15) Так как согласно (2) р = tnq, то в данном случае р = — tnav sin(v£ + у — 0). (9.16) Здесь а — амплитуда вынужденных колебаний, а 0 — сдвиг фазы вынужденных колебаний относительно фазы внешней силы ф(у/). Так как уравнение (14) является линейным, то в выражениях (15) и (16) а = const, 0 = const. В общем случае согласно (2) и (3) уравнения движения будут d‘i _ р dt tn ’ 1 rfp , _Р_\_ . 9’17) m dt v’ tn ) “Ф ( )» и выражения q = a cos (6' + y — 0), p = — mav sin(t> + у — 0), (9.18) в которых a — const, 0 = const, не будут удовлетворять урав- нениям (17).
138 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Будем поэтому рассматривать для общего случая выражения (18) как формулы замены переменных, принимая в качестве но- вых переменных а и 0, то есть полагая в формулах (18) a = a(t\ 0 = 0(Z). (9.19) Таким образом, вид частного решения (15), (16) линейного уравнения (14) здесь используется лишь как указание для вы- бора формул замены переменных. Подставим теперь в уравнения (17) вместо q и р выраже- ния (18), которые запишем так: q = a cos и, р = — may sin iz, где u = v/ + y — 0 = 'O' + y — 0. Заметим, что так как согласно (10) у = const, то й = v — 0. (9.20) (9.21) (9.22) Таким образом, уравнения (17) преобразуются к виду a cos и — a (v — 0) sin и = — av sin и, — av sin и — av (v — 0) cos a + f (a cos u, — av sin и) = ф(О). Чтобы получить уравнения, разрешенные относительно d и 0, умножим первое уравнение (23) на cos и, а второе на —-^-sinu и сложим соответственно левые и правые части вновь получен- ных уравнений. При этом получим уравнение, не содержащее 0. Умножая первое уравнение (23) на sin и, а второе уравнение (23) на -^-cosu и складывая полученные уравнения, найдем уравнение, не содержащее а. Таким образом, придем к следующим уравнениям: (9.23) а = — av sin u cos и + — f (a cos и, — av sin и) sin и — — Ф (О) s*n и, 0 = v cos2 и — f (a cos u, — av sin u) cos и + + ^Ф(1&)С08 «• (9.24) Уравнения (24) являются точными уравнениями. При преобразо- вании исходных уравнений к новым переменным никаких упро-
§ 9. ВОЗДЕЙСТВИЕ ПЕРИОДИЧЕСКИХ ВНЕШНИХ СИЛ 139 щений не делалось. Интегрирование уравнений (24) поэтому не легче выполнить, чем интегрирование исходных уравнений. В общем случае уравнения (24) проинтегрировать не удается. В связи с этим возникает необходимость применения прибли- женных методов. Если ограничиться функциями /(?>“)> мало отличающи- мися от линейных функций, то можно аппроксимировать си- стему уравнений (24) более простыми уравнениями, основываясь на том, что если входящие в уравнения (24) функции f (q, близки к линейным, то искомые функции а и 0 будут медленно изменяться во времени. Это свойство указанных здесь систем, называемых псевдолинейными системами, имеет место в силу непрерывной зависимости решения от параметра, ибо если функ- ции f являются линейными, то а = const и 0 = const. Правые части уравнений (24) являются периодическими функ- циями по аргументу и, и их можно разложить в ряды Фурье. Поскольку у псевдолинейных систем а и 0 — медленно изменяю- щиеся функции времени, то на решения уравнений (24) основ- ное влияние окажут свободные члены рядов Фурье; влияние осциллирующих членов, то есть членов, содержащих первую и высшие гармоники, будет достаточно малым. Для иллюстрации этого утверждения приведем следующий пример. Ре- шение дифференциального уравнения а — ka = S + A sin vt будет Г /лч 5 . I , S , Ak . . Av а (/) = [а (0) - т + J е + т + s.n vt - -^5 cos vt. Если v k, то / Г Д 1 — kt 5 A / k . Д а (/) ~ а (0) — — 4-e + -7--------cos vt----sin vt . ’ L k v J k v \ v ) Так как при v k имеет место неравенство то главная часть реше- ния будет а (/) « Га(0)--^-1 е~ы4--|-. L к J к Быстроосциллирующая функция A sin vt оказывает сравнительно малое влия- ние на решение рассматриваемого здесь уравнения. Учитывая указанное выше обстоятельство, в качестве урав- нений первого приближения, примем уравнения, которые
140 ГЛ. 2. НЕЛИНЕЙНЫЕ управляемые системы получаются при замене в уравнениях (24) правых частей их средними значениями по и, то есть свободными членами их раз- ложений в ряды Фурье. Таким образом, уравнения первого при- ближения будут п а = J avsin«cos« + (асоэи, — avsinм)sinн — — Л — ф (&) sin «] du, (9.25) Л 6 = -77- V cos2 и 2л —л cos и, — av sin h) cos u + (o) COS «] du. При вычислении интегралов в правых частях уравнений (25) будем считать а и 0 постоянными, то есть пренебрежем изме- нением этих функций за один период колебаний. Вносимая этим погрешность будет иметь уже более высокий порядок малости. Так как Л if- < п — sin и cos и аи = 0, л j —л л J v cos2 и du = у, —Л (9.26) то уравнения (25) можно переписать так: Л а = f (a cos и, — av sin и) sin udu — 2nv J ' ' 7 — Л Л -^h JtWsinwdH, —Л Л 6 — — 0 1 f (a cos u, — av sin u) cos и du + —Л Л J'l’Wcosudu. — Л (9.27)
§ 9. ВОЗДЕЙСТВИЕ ПЕРИОДИЧЕСКИХ ВНЕШНИХ СИЛ 141 Заметим сейчас, что л тг— Ф (ft) sin и du = —л л J sin(O + у — 0)dO —Л I 2nv л = ~2nv J Ф W Sin О -Л л + J ф (ft) cos ft dft sin(y — 0) = cos (у — 0) + —л I R = 27 [- /? sin Y cos (у - 0) + Я cos у sin (y-0)] = - -^sinO. Аналогично Л if R -x— ф(’О) cos и du = -h-cos 0. 2nv J T / 2v —л Подставляя выражения (28) и (29) в уравнения (27), чим л if R а = - f (a cos и, — avsin и) sin udu+ -^-sinO, ZJIV J An -Л Л • v I f R 0 = у — 2 J f {a cos u, — av sin u) cos и du + cos 0. — Л Обозначим теперь л Ф (v, а) = —2^^ J f(a cos и, — av sin u) sin и du, — Л Л *F (v, a) = у + 2дуд‘ J f (a cos H> — av sin w)cos u du- -Л J При этом уравнения (30) примут вид a— — aO(v, a) + -^-sin0, 0 = v — Y(v, a) + cos 0. ' ’ ' ' 2va (9.28) (9.29) полу- (9.30) (9.31) (9.32) Как уже сказано выше, уравнения (32) являются уравне- ниями первого приближения. Они называются укороченными
142 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ уравнениями. Метод, при помощи которого они получены, назы- вается методом осреднения. Построение высших приближений и определение условии сходимости процесса приближений для систем с п степенями свободы даны Б. В. Булгаковым в монографии [17], которой автор следует в изложении рассматриваемых в §§ 8 и 9 воп- росов. Развитию и обоснованию асимптотических методов в теории нелинейных колебаний, к которым относится и метод осредне- ния, посвящены работы Б. Ван-дер-Поля, Л. И. Мандельштама, А. А. Андронова, Н. М. Крылова, Н. Н. Боголюбова, Ю. А. Мит- ропольского и др. [4, 12, 47, 64]. 2. Установившиеся колебания с частотой внешней силы и их устойчивость. Частное решение уравнений (32) а = а* = const, 6 = 6* = const (9.33) соответствует в исходных переменных согласно (26) следую- щему решению: q — a* cos (vt + у — 6*). (9.34) Решение (34) представляет собой вынужденные колебания си- стемы, то есть установившиеся колебания с частотой v внешней силы. Для определения значений а* и 6* будем в соответствии с (32) иметь следующую систему конечных (вообще трансцен- дентных) уравнений: - аФ (v, а) + sin 6 = О, v — Т (v, а) + cos 6 = 0. v ' 1 2va (9.35) Корни уравнений (35) и являются интересующими нас вели- чинами а*, 6*. Исключая 6 из системы уравнений (35), получим следующее уравнение относительно а: [аФ (v, а)]2 + [va - аТ (v, а)]2 = (-^-)2. (9.36) Если обозначить W (V, а) = [аФ (V, а)]2 + [vo - aV (v, а)]2 - (^-)2, (9.37) то уравнение (36) примет вид F(v, а) = 0. (9.38)
§ 9. ВОЗДЕЙСТВИЕ ПЕРИОДИЧЕСКИХ ВНЕШНИХ СИЛ 143 Из уравнения (38) для каждого заданного значения v опре- деляются г (где г — число корней уравнения) значений at = а (i =!,...,/•) амплитуд вынужденных колебаний, которые воз- можны в системе при воздействии на нее внешней периодиче- ской силы, период которой равен 2n/v. Для каждого значения а* можно найти из уравнений (35) соответствующие ему значения sin 0* и cos 0*, по которым и определяется значение 0ь Уравнение W (у, а) = О определяет собой на плоскости va кривую а = a* (v) зависимости амплитуды вынужденных коле- баний а* от частоты v внешней силы. Эта кривая называется резонансной кривой. Некоторые возможные виды резонансных кривых приведе- абсцисс (а = 0) функция lF(v, а) принимает отрицательные зна- чения ^(v, 0) = -(4)2<0. На резонансной кривой функция W (у, а) обращается в нуль. По непрерывности можно заключить, что в области, заключен- ной между осью абсцисс и резонансной кривой, функция W(y, а) отрицательна, а вне этой области положительна, как это отме- чено на рис. 9.1. Из соотношения (38) следует, что в точках резонансной кри- вой dW = dW dW da _Q dv dv ' да dv (9.39) Укажем теперь точки резонансной кривой, в которых обращается в нуль. dW da 1) Пусть в некоторой точке-^- = 0, — =/= 0. Тогда в силу dW соотношения (39) в этой точке -^- = 0. Таким образом, в этой
144 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ А dW А точке = 0, = 0, то есть рассматриваемая точка яв- ляется особой. 2) Пусть в некоторой точке ~~ #= 0. Если в этой точке ~^-=оо, то в силу соотношения (39) будем иметь -|~=0. Рассматриваемая точка, следовательно, является точкой резо- нансной кривой, в которой касательная вертикальна. (Такая точка отмечена на рис. 9.1 буквой т.) Во всех остальных точках резонансной кривой #= 0. При этом, как следует из расположения областей, в которых функция W(v, а) положительна, и областей, в которых она от- рицательна, лишь в точках дуги, расположенной выше точки пг dW (рис. 9.1) на левой ветви резонансной кривой, <0. В осталь- о о dW А ных точках резонансной кривой > 0. Как указано выше, рассматриваемые установившиеся дви- жения с частотой внешней силы (то есть вынужденные коле- бания) определяются частным решением (33) уравнений (32). Обратимся теперь к исследованию устойчивости этих дви- жений. Пусть а = а* + 6а, 0 = 0*+ 60, (9.40) где а* и 0* удовлетворяют уравнениям (35). Подставив величины (40) в уравнения (32) и разложив правые части этих уравнений в ряды Тейлора в окрестности точки (а*, 0*), получим ^ггЪа= — a*Q(v, a*) + -^sin0* — [-^-a(D(v, а)1 6а + at v 2v [_aa v +^-cose*60+ ...» zv . ₽ г <э 1 f (9-41) ^69 = v_4;(v, a*)+o+cose*-r+T(v, a)l 6a- dt ' ’ ' 1 2va Lda ' ’ Ja=a« ---COS 0* 6a------— sin 0* 60 + ... 2va*2 2va* Согласно (35) a‘O(v, a*) = sin 0’, - [va* - a’V (v, a‘)J = £ cos 0‘. (9.42)
§ 9. ВОЗДЕЙСТВИЕ ПЕРИОДИЧЕСКИХ ВНЕШНИХ СИЛ 145 Учитывая соотношения (42) и сохраняя в уравнениях (41) лишь члены первого порядка относительно 6а и 60, получим следую- щие уравнения в вариациях: + аФ (v, а)1 6а — cos 0* 60 = О, dt L да v Ja=fl* 2v — бе + Г— Y(v, а)1 даН-----------cos 0‘60 + dt Ч<Эа Х-в* ' 2va 2 (9.43) sin0‘ 60 = 0. Уравнения (43) являются линейными дифференциальными уравнениями с постоянными коэффициентами. Заменяя в этих D О уравнениях -^-sinO* и -^-cosO* их значениями (42), можно привести уравнения (43) к виду 6а +аФ (v, a) j * 6а + [va* — (v, а*)] 60 = 0, J*.60 + ^_4'(v, а)Ц<6а_ а-)]6а + (9.44) + <D(v, а’) 60 = 0. Характеристическое уравнение системы дифференциальных уравнений (44) будет следующим: V + Л4(Х + М2 = 0, (9.45) где M! = <D(v, a‘) + [-^-aO(v, a)] _ (9.46) М2 = Ф (v, a‘)аФ (v, a) J . — - [va‘ - а’Ч (v, a*)] T (v, a)] _ . + [v - V (v, a*)]2. (9.47) Рассматриваемые установившиеся движения (то есть вы- нужденные колебания) будут асимптотически устойчивыми, если 6а и 60, определяемые уравнениями (44), будут асимптотически стремиться к нулю при /->оо. Последнее будет иметь место, если корни характеристического уравнения (45) будут удовлет- ворять условию ReZj<0, ReX2<0. (9.48) Для того же, чтобы условие (48) имело место, необходимо и до- статочно, чтобы выполнялись условия Afi>0, М2>0. (9.49)
146 ГЛ. 2. НЕЛИНЕЙНЫЕ УПРАВЛЯЕМЫЕ СИСТЕМЫ Если хотя бы один из коэффициентов Alt или Л12 будет отри- цательным, то рассматриваемое установившееся движение будет неустойчивым. Выполнение условия Mi>0 можно проверить, вычислив по формуле (46). О выполнении же условия Л12 > О можно судить непосред- ственно по резонансной кривой. Это следует из того, что со- гласно (37) и (47) <9-50> dW Таким образом, знак М2 совпадает со знаком в точке dW а = а*. Знак же определяется по виду резонансной кривой, как это описано выше. Из соотношения (50), в частности, следует, что все точки дуги расположенной выше точки т на левой ветви резонансной кривой (рис. 9.1) соответствуют неустойчивым вынужденным колебаниям, так как в любой из этих точек <U.
Глава 3 СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ § 10. Функции от матриц и их применение к интегрированию систем линейных дифференциальных уравнений Применение функций от матриц к теории систем линейных дифференциальных уравнений явилось предметом основополож- ных работ И. А. Лаппо-Данилевского [50]. Эти вопросы по- дробно изучены также в монографиях Ф. Р. Гантмахера [21] и Б. В. Булгакова [17]. Этим трудам автор следует в изложении указанных вопросов. Непосредственное приложение методы тео- рии функций от матриц имеют в рассмотренных ниже задачах управляемости и наблюдаемости линейных систем. 1. Обобщенная теорема Безу. Пусть А = [Ajft]— квадрат- ная матрица типа п X п. Через F(К) = [Fjh(^)] (пХп) обозна- чим матричный полином m-й степени F(A) = F0Xm + F1%",-1+ ... + Fm (Fo¥=O). (10.1) Заметим, что если вместо скаляра % подставить в выражение (1) матрицу А, то будем иметь Г(Д) = М'” + ЛЛ"'“1+ ... + FmE, (10.2) Р(Л) = Л'П/;,О + Л'П"1^1 + ... +EFm, (10.3) причем в общем случае F(A)=F F(A). Разделим матричный полином F(K) на бином КЕ— А справа и слева F(k) = Q (X) (KE — A) + R, Г(Л) = (ЛЕ - A) Q (Л) + R. (10.4) Так как при делении полиномов степень остатка ниже степени делителя, то правый остаток R и левый остаток R не будут за- висеть от Л. Подставляя в тождества (4) вместо Л матрицу А, что мож- но сделать потому, что матрица А коммутативна при умножении с матричными коэффициентами бинома ЛЕ — А, получим F (А) = Q (А) (А - А) + R, F(A) = (A-A)Q (А) + R. (10.5) Отсюда вытекает следующая теорема.
148 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Обобщенная теорема Безу. При правом (левом) делении матричного полинома Е(Х) на бином ХЕ— А остаток от деления равен F(A) (соответственно F(A)), Следствие. Матричный полином F(X) делится без остат- ка справа (слева) на бином ХЕ— А тогда и только тогда, когда F(A)= 0 (соответственно F(А) = 0). 2. Теорема Гамильтона— Кэли. Рассмотрим матрицу А=[Ал] (пХп). Характеристической матрицей для матрицы А назы- вается матрица ХЕ— А. Определитель характеристической мат- рицы A(X) = det(XE-A) (10.6) представляет собой скалярный полином относительно X и назы- вается характеристическим полиномом матрицы А. Корни урав- нения Д(Х)=0 называются характеристическими числами мат- рицы А. Через Bjh(X) обозначим алгебраическое дополнение элемента XEkj — Akj в определителе Д(Х). Матрица В(Х) = [В;л] (п X п) является присоединенной матрицей для матрицы ХЕ — А. Из приведенных выше определений следуют следующие тож- дества относительно X: (ХЕ — А) В (X) = Д (X) В, (10.7) В(Х)(ХЕ-А) = \(Х)Е. (10.8) Так как Д (X) = X + с{Хп + с%Хп + ... + cn_jX + crt, (10.9) то Д(Л)£ = £Г + (с1£)Хп"1 + ... + (с„_,£)% + с„£ (10.10) есть полином от X с матричными коэффициентами. Матрицу В(Х) также можно представить в виде полинома от X с матрич- ными коэффициентами. Равенства (7) и (8) показывают, что Д(Х)Е делится слева и справа на ХЕ— А без остатка. Согласно обобщенной теореме Безу это возможно лишь тогда, когда остаток Д(А)Е = Д(А) равен нулю. Отсюда вытекает следующая теорема. Теорема Гамильтона — Кэли. Всякая квадратная матрица А удовлетворяет своему характеристическому уравне- нию, то есть Д(А) = 0. (10.11) 3. Минимальный полином матрицы. Скалярный полином f(X) называется аннулирующим полиномом квадратной матрицы А, если /И) = о.
§ 10. ФУНКЦИИ ОТ МАТРИЦ 149 Аннулирующий полином ф(Л) наименьшей степени со стар- шим коэффициентом, равным единице, называется минималь- ным полиномом матрицы А. Согласно теореме Гамильтона — Кэли характеристический полином Д(Х) матрицы А является аннулирующим для матри- цы А. Однако в общем случае этот полином не является мини- мальным. Можно показать, что произвольный аннулирующий полином f(X) матрицы делится без остатка на ее минимальный поли- ном ф(Х). Действительно, разделив f(X) на ф(Л), получим /(Л) = ф(Л)9(Л) + г(Л), (10.12) где степень г (X) ниже степени ф(Х). Из соотношения (12) сле- дует, что /(Л) = ф(Л)^(Л) + г(Л). (10.13) Так как f(A) = 0, ф(Л) = 0, то и г(Л) = 0. Но степень г(Х) ниже степени минимального полинома ф(Х). Поэтому r(Z)^O, то есть f(X) делится без остатка на ф(Х). Пусть ф(Х) и ф1(Х) являются минимальными полиномами для матрицы Л. Тогда они делятся друг на друга без остатка, то есть эти полиномы отличаются постоянным множителем. Но так как старшие коэффициенты у ф(Х) и ф1(Х) равны единице, то ф1 (X) === ф (X). Таким образом, доказана единственность мини- мального полинома для данной матрицы Л. Обозначим через Dn_i(X) общий наибольший делитель всех миноров (и—1)-го порядка характеристической матрицы ХЕ— Л, то есть общий наибольший делитель элементов присо- единенной матрицы В(Х). При этом коэффициент при старшей степени X в полиноме Dn_\(X) приводим к единице. Полином Dn-\(X) называется детерминантным делителем (п—1)-го по- рядка матрицы ХЕ— А. Из изложенного следует, что В(Л) = В^1(Л)С(Л), (10.14) где С(Х)—некоторая полиномная матрица, которая называется приведенной присоединенной матрицей для матрицы ХЕ — А, Умножая левую и правую части соотношения (14) слева на матрицу ХЕ — Л, получим согласно (7), что А (Л) Е = (ХЕ - Л) С (X) Dn_, (X). (10.15) Разлагая характеристический определитель Д(Х) по элемен- там какой-либо строки, получим сумму слагаемых, каждое из которых делится без остатка на Dn-\(X) и, следовательно, Д(Л) делится без остатка на Dn^(X), то есть (10-16)
150 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ где гр(Х)—некоторый полином. (Этот полином является стар- шим инвариантным множителем характеристической матрицы ХЕ —Л.) Из выражений (15) и (16) следует, что ф (Л) Е = (ХЕ - Л) С (X). (10.17) Заметим, что, умножая левую и правую части соотношения (14) справа на матрицу ХЕ — Л, получим согласно (8) A (X) Е = Dn_ 1 (X) С (X) (ХЕ - Л), (10.18) откуда в соответствии с (16) будем иметь ф (X) £ = С (X) (ХЕ — Л), (10.19) то есть С (X) является одновременно и левым и правым частным от деления ф(Х)Е на ХЕ — Л. Таким образом, матричный полином г|?(Х)Е делится без остатка слева (и справа) на матрицу ХЕ — Л. Поэтому согласно обобщенной теореме Безу ф(Л)Е = ф(Л) = 0, (10.20) и, следовательно, (X) является аннулирующим полиномом для матрицы Л. Докажем теперь, что ф(Х) является минимальным полино- мом. Пусть минимальным полиномом матрицы Л будет 4>*(Х). Тогда ф(Х) делится без остатка на ф*(Х), то есть ф(А) = ф‘(А)х(Л). (10.21) Так как ф*(Д) = 0, то согласно обобщенной теореме Безу мат- ричный полином ф*(%)Е делится слева без остатка на %Е — А: ф‘(Л)Е = (ЛЕ-Л)С*(%). (10.22) Умножая левую и правую части соотношения (22) на полином %(%), получим ф(Л)Е = (ЛЕ-Д)С*(Л)х(Х). (10.23) Сравнивая соотношения (23) и (17), найдем, что С(Л) = С*(Л)х(Л). (10.24) Из соотношения (24) следует, что х(Х) является общим делите- лем всех элементов полиномной матрицы С(Х). Но, как видно из (14), общий наибольший делитель всех элементов матрицы С (к) равен некоторому постоянному числу, ибо матрица С (%) получена делением матрицы В (X) на общий наибольший дели- тель ее элементов Dn_i(X). Таким образом, х U) = И = const. Так как старшие коэффициенты у ф(Х) и ф*(%) равны единице,
§ 10. ФУНКЦИИ ОТ МАТРИЦ 151 то из (21) найдем, что ц = 1 и, следовательно, %(Х)= 1. Таким образом, ф(Х) = ф* (X), то есть ф(Х) является минимальным по- линомом матрицы А. Таким образом, согласно (16) минимальный полином мат- рицы А определяется формулой *<« = 15^гет- Обратимся теперь к формуле (17): ф(Л)Е = (ЛЕ — Л) С (А,). Так как определитель произведения двух матриц равен произ- ведению их определителей, a det [ф(Х)£] = [ф(Х)]п, то будем иметь [ф (Л)]п = А (Л) det С (Л). (10.26) Отсюда следует, что [ф(Л)]п делится без остатка на Д(Х), а со- гласно (25) Д(Х) делится без остатка на ф(Х) и, следовательно, нули полинома ф(Х) совпадают с нулями полинома A(Z), хотя кратности этих нулей в общем случае будут у ф(Л) и А (А,) раз- личными. Таким образом, нулями минимального полинома ф(Х) будут все различные между собой характеристические числа матрицы А. Из изложенного следует, что если А (X) = (Л — %!)"> (Л - Х2)п2 ... (А, — AJ4 (10.27) где щ+п2+ ... +ns = n9 (10.28) то минимальный полином ф (А,) будет иметь вид ф(М = (^ -U“^Г2 • • • (X-(Ю.29) где (£=!, 2, ..., s). (10.30) Степень m минимального полинома ф(Х) будет т = т{ + т2 + ... + ms. (10.31) Двучлены (А, —А,Л)т* (&=1, ..., s) являются старшими элемен- тарными делителями матрицы \Е — А. 4. Функции от матрицы. Пусть дана квадратная матрица А = [4^] (пХп) и функция /(А,) скалярного аргумента X. Тре- буется определить, что следует понимать под f(A), то есть тре- буется распространить функцию f(k) и на матричные значения аргумента.
152 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Выше (29) через ф (X) был обозначен минимальный полином матрицы А; ф (X) = (X - Х,)"1' (X - Х2)т2 ... (X - Xs)m* (m, + т2 + ... + ms = т). Пусть два полинома g(X) и /г(Х) таковы, что g(A) = h(A). (10.32) Из соотношения (32) следует, что разность этих полиномов d(X) = g(X)-/z(X) (10.33) является аннулирующим полиномом для матрицы А и, следова- тельно, делится на минимальный полином ф(Х) без остатка, то есть d(X) g(X)-ft(X) _ „ , . Ф (X) ~ ф (X) ° где S(X) — полином от X. Таким образом, g (X) = ft (X) + S (X) ф (X). Соотношение (35) записывают так: (10.34) (10.35) g(^ = /i(A) (modi|)(X)) (10.36) и говорят, что g(X) сравнимо с /г(Х) по модулю ф(Х). Из соотношения (34) следует, что d. (X) = ф (X) S (X), и поэтому в соответствии с (29) будем иметь d(Xft) = O, d'(X4) = 0 ^~*)(Хг) = 0 (k=\, .... s) или согласно (33) g (h) = h (Xft), g' (Xft) = h' (Xft) g(m^ (Xft) = (Xft) (fe= 1 s). (10.37) (10.38) (10.39) Здесь Х/< (&=!,..., s)—нули минимального полинома ф(Х). Пусть теперь дана некоторая функция f(X). Числа f(xft), ГМ,.... f(mA-1)(xft) (ft=l, ..., s; m|+/n2+ ... +ms = m) (10.40) будем называть значениями функции f(X) на спектре матри- цы А. Совокупность этих значений будем символически обозна- чать через КАд). Если для функции f(X) существуют, то есть имеют смысл, значения (40), то говорят, что функция f(X) определена на спек- тре матрицы А.
§ 10. ФУНКЦИИ ОТ МАТРИЦ 153 Из формул (39) следует, что полиномы g(X) и й(Х) имеют одни и те же значения на спектре матрицы Д, то есть ^(Лл) = /г(Лл). (10.41) Для полиномов g(X) и й(Х) имеет место и обратная теорема. Если даны соотношения (39), то из этого вытекает соотношение (36), а из соотношения (36) следует, что g(A) = h(A). Таким образом, значения полинома g(X) на спектре матри- цы А вполне определяют матрицу g(A), то есть все полиномы g(X), принимающие одни и те же значения на спектре матри- цы А, имеют одно и то же матричное значение £(Д). Определение функции f(A) в общем случае подчиняется тому же требованию: значения функции f(X) на спектре матрицы А должны полностью определять f(A), то есть все функции /(X), имеющие одни и те же значения на спектре матрицы Д, должны иметь одно и то же матричное значение f(A). Из этого следует, что для определения f(A) в общем случае достаточно подыскать такой полином g(X), который принимал бы те же значения на спектре матрицы Д, что и функция f(X), и положить f (A) = g(A). Таким образом, приходим к следующему определению. Определение 1. Если функция /(Л) определена на спек- тре матрицы Д, то /(Л) = £(Д), (10.42) где g(K)—любой полином, принимающий на спектре матрицы А те же значения, что и f(X): /(ЛЛ) = я(Лл). (10.43) Как известно [17, 21], среди всех полиномов с комплексными коэффициентами, принимающих те же значения на спектре мат- рицы А, что и функция /(Л), имеется один и только один поли- ном г(Х), степень которого меньше или равна m— 1. Этот поли- ном называется интерполяционным полиномом Лагранжа — Сильвестра для функции f(k) на спектре матрицы А. Он одно- значно определяется интерполяционными условиями = Г'(М = Г(ЛД .... (10.44) (k=l, 2, ..., s; m1 + m2+ ... + tns = m). Определению 1 можно теперь дать следующую формули- ровку. Определение Г. Пусть f(X) — функция, которая опреде- лена на спектре матрицы А, а г(Х)—интерполяционный поли- ном Лагранжа — Сильвестра, определяемый интерполяцион- ными условиями (44). Тогда f(A) = r(A). (10.45)
154 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ 5. Интерполяционный полином Лагранжа — Сильвестра. Ин- терполяционный полином г(А) Лагранжа — Сильвестра, удовлет- воряющий условиям (44) г^нм, r'(M=rafe), (k = 1, 2, ..., s; tnl + m2 + ... + ms = tn), где согласно (29) Ал (Л = 1, .... s)—нули минимального по- линома ф(А) матрицы А: ф (А) = (А - А,)"1* (А - Аг)"*2 ... (А - As)m* (tnt + т2 + ... + ms = tn), имеет следующий вид: Р~‘ f(X) 1 ф(А) dA^-₽-‘ (*-V+1 (10.46) где <10-47> Как видно из (46) и (29), степень полинома г (А) не выше т — 1. В случае, когда все нули минимального полинома ф^А) яв- ляются простыми т1=т2= ... =tns= 1, интерполяционный полином г (А) в соответствии с (26) прини- мает вид г(А) = £ k=l f(h) ’•’а (Ч) Ф (А) а-а4 (10.48) Формула (48) представляет собой известную интерполяционную формулу Лагранжа, которая, как легко видеть, удовлетворяет условиям г(А|х) = f(Ац) (ц= 1, ..., $). Нетрудно также непосредственно проверить, что интерполя- ционный полином Лагранжа — Сильвестра, определяемый для общего случая выражением (46), удовлетворяет интерполяцион- ным условиям (44). Для этого удобнее выражение (46) в соот- ветствии с (47) переписать так: s тА —1 = S S (znft —р—1)! Л=1 р=0 х ’ - атл-р-1 к (10.49)
§ 10. ФУНКЦИИ ОТ МАТРИЦ 155 или л-ад+ й=1 I L * L Л = I 1 г fW 1 fl-in + 21 pl2 Ф*(М ]Л=Л 1А **' + ••• •" +7^^[д$‘»-'' <%] }*‘(ч- (10'50) \ Л / L (//V "* % } Так, например, из (50) найдем, что Ц V Ц |Х /Д— так как остальные слагаемые, которые появятся при дифферен- цировании выражения (49), обращаются в нуль при X = Хц. Отсюда рг\ _/Г fw 1 ItuWl2 . , tnW| -f (Ч)> IVUV /j JX“XH Jx=\i что и соответствует условиям (44). Аналогично можно прове- рить выполнение остальных условий (44). Единственность интерполяционного полинома Лагранжа — Сильвестра можно доказать следующим образом. Пусть /(X)—скалярная аналитическая функция комплексно- го переменного X, регулярная в некоторой области, заключаю- щей все точки Хй, являющиеся нулями полинома ф(Х), опреде- ляемого выражением (29): ф (X) = (X — Xj^1 (X — Хг)^2 ... (X — X5)Ws (/Hi + пц + ... + ms = т}„ f (X) о . Функция не имеет в рассматриваемой области других особых точек, кроме полюсов, и может быть представлена в виде + (10.51) Л=1 Здесь /?(Х) — функция, регулярная в рассматриваемой области, а Од(1/Х — Хй)—главная часть разложения функции /(Х)/ф(Х).
156 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ в ряд Лорана в окрестности точки X = Ха. Функцию Ga(1/X— Ха) можно представить в следующем виде: mk~~x S ,, "1% <4=1...............s>- <10-52> Если подставить это выражение в (51) и полученное соотноше- ние умножить на (А — Ай)"1*, то получим -Ж_ = ^(Л)(А-А^ + 2 2>ft+p(A,-Xftn-p-1, (10.53) к h=l р=0 где фй(А) определяется выражением (47). Так как функция (А) (А — АА)т* регулярна в окрестности точки Ай и обращается в этой точке в нуль вместе с производными до (гпа—1)-го по- рядка, то из (53) найдем, что Н = 1 Г д'”* Р ' f(A) 1 (10.54) Таким образом, выражение (53) принимает вид s mk-l дтк р 1 f(A) К-p-l)! L<n'”ft_p~1 tft(A)Jx_Xj Из соотношения (55) следует, что fe=l p=0 1 .k (*-4)p+1 ' f (A) = 2? (А) ф (A) + r (A), (10.55) (10.56) 1 где r(X)—полином, который определен выражением (46). Так как функции 7?(Х) и ф(Х) регулярны в рассматриваемой обла- сти, причем в точке X = (6=1, ..., s) ф(Х) обращается в нуль вместе с производными до (mft—1)-го порядка, то г (X) и есть интерполяционный полином, удовлетворяющий интерпо- ляционным условиям (44). Заметим, что если А — матрица, элементы которой являются действительными числами, то и ее минимальный полином ф(Х), как видно из (25), будет иметь действительные коэффициенты. Поэтому нули ф(Х) будут либо действительными, либо комплек- сными попарно сопряженными числами. Функция f(X) называется действительной на спектре мат- рицы Л, если для действительного характеристического числа Х< все ее значения на спектре /(X*), f'(Xf), • • • действительны, а для
§ 10. ФУНКЦИИ ОТ МАТРИЦ 157 двух комплексных сопряженных характеристических чисел Л* и соответствующие значения на спектре — комплексные сопряженные величины: f(M = f(^), f'(M = ... В этом случае интерполяционный полином г (X) будет иметь действи- тельные коэффициенты, и матрица г (А), а следовательно и /(Л)=г(4), будет матрицей с действительными элементами. 6. Построение функции eAf. Функция eAt согласно (45) имеет вид ел/ = г(4), (10.57) где г (Л)—соответствующий интерполяционный полином, опреде- ляемый выражением (46). Формула (57) в соответствии с (46) может быть представлена в следующем виде: /п-1 &=0 где т — степень минимального полинома матрицы Пусть матрица А имеет, например, следующий вид: (10.58) Д. о- 0 2- (10.59) 1 1 0 - 1 0 -0 Характеристическая матрица ЛЕ — А будет 'Л- 1 0 - 0 -1 Л-1 о о - о Л-2- Определитель характеристической матрицы равен Д (Л) = (Л — I)2 (Л — 2). Присоединенная матрица имет вид р (Л - 1) (Л -2) 0 0 В (Л) = adj (ЛЕ-Л) = Л-2 (Л—1)(Л —2) 0 0 - 0 а-1)2- Общий наибольший делитель элементов присоединенной матрицы Э2(Л) = 1. Минимальный полином матрицы А согласно (25) будет следующим: Согласно (40) значения функции /(Л) = еи на спектре матрицы А будут /(м=(еЧ-1=^ £(X1)=(-^eW)x=1 =1е‘> f (M = (eW)x_2=e“ (10.60)
158 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Интерполяционные условия согласно (44) имеют следующий вид: г (!]) = ?, =/?, г(Л2) = е2<, ' ' Л—X] где Zj = 1, Х2 = 2. Так как согласно (47) для рассматриваемой здесь матрицы А .к М \ — Ф _____1 9 Ф1М- (X- 1)2 2» М>2 W-^- = (*-D2. то интерполяционный полином Лагранжа — Сильвестра согласно (50) будет / ем \ гМст),_/х-2)+ I д ем \ Г ем 1 + U ст), _, (Л -1 > (% - 2) + [ (Х ’1 )2 или г(Х)= - е'(Л-2) +(-/?-?) (Л2-ЗХ +2) + e2z (%2-2Л+ 1). Это выражение можно переписать так: г (X) = а0 (/) + а, (/) X + а2 (/) X2, (10.61) где «о (0 = ~ 2/ef + е2/, а, (/) = 31е‘ + 2е‘ - 2e2t, а2 (0 = — te* — е* + e2t. Следовательно, для рассматриваемой здесь (59) матрицы Л, учитывая, что Л° «= £ (где Е — единичная матрица), будем иметь eAt = а0 (t) Е + щ (/) А + а2(0 А2. (10.62) Покажем теперь, что входящие в выражение (58) функции (& == 0, 1, ..., т— 1) линейно независимы. Рассмотрим сначала случай, когда все характеристические числа матрицы А — простые. В этом случае формула (58) принимает вид п-1 еА‘=^ ak(t)Ak. (10.63) k=*Q Согласно (44) для функции f(X) = eKt, которая определена на спектре матрицы Л, в случае, когда все характеристические чис- ла матрицы А простые, интерполяционные условия будут r Up) = f Up) = eKpt (р = h • • •, п). Так как согласно (45) по определению функции от матрицы /(Д) = ^ = Г(Д),
§ 10. ФУНКЦИИ ОТ МАТРИЦ 159 то, учитывая (63), получим следующую систему скалярных уравнений: = (р=1, ...,п) или а0 (0 + Mi (0 + ^«2 (0 + • • • + <4,-1 (0 = «о (0 + ^2а1 (0 + ^2а2 (0 + • • • + ^2 1<Хл-1 (0 = еМ> ао (0 + V1 (0 + (0 + • • • + ^ ,а„_1 (/) = ?< Обозначая через Л4, а(/), /?(/) матрицы будем иметь следующее векторное уравнение: Ма (t) = #(*)- Элементы вектора R(t) являются линейно-независимыми функ- циями. Определитель матрицы М является определителем Ван- дермонда и, следовательно, det М =/= 0. Поэтому существует об- ратная матрица ЛН и, таким образом, = R(t). Так как MM~l = Е, то det М 1 = ; г-,т 0, то есть строки det М ’ г матрицы М~х будут линейно-независимыми. Поэтому элементы вектора а(/)> то есть функции ао(О> ai(0> •••> ап-1(0> будут линейно-независимыми функциями. Аналогичное доказательство можно провести и в случае, ко- гда среди характеристических чисел матрицы А имеются кратные. Вернемся теперь к нашему примеру. Так как - 1 2 Л2 = 0 1 L0 0 О’ 0 4_ то в соответствии с (62) матрица eAi будет иметь следующий вид: " е* iet 0 eAt = 0 ? 0 (10.64) 0 0 e2t
160 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Заметим еще, что выражение (61) для интерполяционного полинома г(Л) можно для матрицы (59) переписать так: г (Л) = Лрп (Л) + (М + ^2/фг1 W (10,65) где Ф11 W = - V + 2Л, Ф12 (Л) = — Л2 + ЗЛ — 2, 1 . t п 12 . 1 1 (10.66) ф21 (X) = Л2 — 2л + 1. J При этом согласно (57) матрица eAt будет представлена так: 1 + te^Z\2 4~ e^Z2j, (10.67) где Zki = 4ki(A). (10.68) Нетрудно видеть, что если вместо ем взять другую функцию f(X), то в соответствии с определением (45) функции от матрицы получим, что для матрицы Л, определяемой согласно (59), функция f(A) будет иметь следую- щий вид: f(A) = f (М) ZH + /' (Л0 Z12 + f (Х2) Z21. (10.69) Здесь = 1, Х2 = 2 суть нули минимального полинома ф(Х), определяемого выражением (60), кратности которых соответственно равны т{ = 2, т2 = 1. 7. Компоненты матрицы Д. Если в выражении (49) интерпо- ляционного полинома Лагранжа — Сильвестра г(X) объединить члены, содержащие одно и то же значение функции /(X) или какой-либо ее производной, то полином г (X) примет вид $ г(Ч = 2 [f(^)<pftl(4 + f(^)<pft2(4+ ... +/(тА-,Ч^)<РыДЧ]. (10.70) Здесь (рм (X) (k = 1, ..., s; j = 1, ..., mk) — полиномы от к с постоянными коэффициентами; степень этих полиномов не выше чем т—1, где т — степень минимального полинома ф(Х) мат- рицы А. Из формулы (45) в соответствии с (70) получим следующее выражение для функции f(A): f(A)=i[f(kk)Zkl + f'(Kk)Zk2+ ... (10.71) k — 1 где Zki = <hi(A) (&= 1, ..., s;/= 1.....mk). (10.72) Матрицы Zhj не зависят от выбора функции f(X), а опреде- ляются лишь видом матрицы А. В правую часть выражения (71) входят значения функции f(K) на спектре матрицы А. Матрицы Zhj (k = 1, ..., s; j = 1, .. ., tnh) называются составляющими матрицами или компонентами матрицы А.
§ 10, ФУНКЦИИ ОТ МАТРИЦ 161 Можно показать, что компоненты Zhj матрицы А линейно-не- зависимы. Действительно, предположим, что s mk s mk 2 2 ckizki = 22 ckmi (Л) = о. (io.73) jt=i /»i л=1 /=i Определим интерполяционный полином r(X) из т условий = (й = 1, s;/=l......тк). (10.74) Согласно (70) будем иметь s mk r(X) = 3 (10.75) fc=l J = 1 Из выражений (75) и (73) следует, что г(Л) = 0. (10.76) Так как степень интерполяционного полинома г(Х), определяе- мого формулой (75), ниже степени минимального полинома ф(Х), то из соотношения (76) следует, что г(А>0. (10.77) Из тождества (77) и соотношений (74) следует, что сЛ/ = 0 (6 = 1, /=1, mk). (10.78) Таким образом, соотношение (73) может иметь место лишь при выполнении условий (78), и, следовательно, матрицы Zkj линей- но-независимы. Аналогично можно доказать, что ни одна из матриц Zkj не равна нулю. Действительно, если бы какая-либо из матриц Zhj была равна нулю, то, поскольку степень соответствующего ей полинома q)fej(X) ниже степени т минимального полинома, имело бы место тождество Ф^/W^O. (10.79) Последнее, однако, невозможно, так как срьДХ) представляет собой интерполяционный полином Лагранжа — Сильвестра для функции, у которой все значения на спектре матрицы А равны нулю, за исключением значения равного единице. Заметим, что в рассмотренном в п. 6 примере функции ф^ДЛ) определены выражениями (66). 8. Общие формулы, определяющие компоненты Zkj матрицы А. Выше было отмечено, что матрицы Zkj определяются лишь ви- дом матрицы Л и не зависят от выбора функции f(K). Укажем теперь общие формулы, которыми определяются матрицы Zkj. Q Я. Н. Ройтенберг
162 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Рассмотрим функцию ^) = ТЧГ’ (ю.80) где X — некоторый параметр. Из выражения (80) найдем, что д и \ 1 д2 я \ 2! д* к \ s! л I (Н) ~ м \2 > л 2 / (Н/ ~ п х3 » * * * » л s ' (И) ”* п х$+1 > • • • др (Х — р) дц (л —И) др (л — И) (10.81) Согласно (80) f(ц) (X — ц) = 1. Так как f(p) и г(р), где г(ц) — интерполяционный полином Лагранжа — Сильвестра, совпадают на спектре матрицы 4, то на этом спектре г(р)(Х-р) = 1. (10.82) При замене в выражении (82) скалярного аргумента р, матри- цей А получим следующее матричное соотношение: г(4)(ХЕ-4) = Е, (10.83) откуда следует, что г(Л) = (%£-Л)-1. (10.84) В силу соотношения (45) отсюда следует, что функции /(ц), за- данной выражением (80), соответствует f(A) = (XE — Л)-1. (10.85) Из выражений (70), (80) и (81) видно, что интерполяцион- ный полином г(р), определяемый значениями f(p) на спектре матрицы 4, будет следующим: У Г •Pfel (Н) Фи (ц) 21 (ц) («й-1)! <₽*т/н)-| X-Xk + (X-W+ + ••• + (Л-Хй)'"* (10.86) Отсюда, заменяя скалярный аргумент у. матрицей Л, получим ® Г Z.. Z., 2!ZM (m.-\\'.Z. i + (x-м3 + + ’ (10.87) Согласно (85), (8) и (19) = = (10.88) Здесь В (X)—присоединенная матрица для матрицы КЕ — А, Д(к) — определитель матрицы ХЕ — А. Матрица С(Х) называется
§ 10. ФУНКЦИИ ОТ МАТРИЦ 163 приведенной присоединенной матрицей и определяется выра- жением (14), а ф(А)—минимальный полином матрицы А, кото- рый определяется выражением (16). Соотношение (87) можно теперь переписать так: Л Г zt>, Z.„ 2!Zb, (tnb-\\\Zbm п kl . «2 . «3 . । \ k / = 2л + (Л.-Х*)2 + (Л-w + • • • "* (K-Kb)mk Так как согласно (29) ф (X) = (Л — Л.Г1 (Л - K2f2 ... (Л - (10.89) (пц +т2+ ... + ms — tri), то выражение (89) представляет собой разложение дробно-ра- о 1 С (Л) W о циональнои функции на сумму элементарных дробей, при- V (Л) чем коэффициентами этого разложения являются матрицы (/- 1)! Zft/ Сравнивая выражения будут иметь следующий Zki = (J-D!(«ft-/)! (k = 1, ..., s; j = 1, ..., tnk). (89) и вид: 1 (55), найдем, что матрицы ZS;- dmk 1 С (Л) д№~} (10.90) (k = I, ..., s; j = 1, .... mk). 9. Представление функций от матриц рядами. Обратимся вновь к матрице Л, минимальный полином которой ф(А) имеет вид (29) ф (X) = (A Aq) 1 (А А2) 2 ... (A As) s (//I] + /^2 + ... + ms = /л), и предположим, что функция f(A) и последовательность функций Л (А), ..., /р(А), ... определены на спектре матрицы А. Определение 1. Последовательность функций fp(X) при р-+оо стремится к некоторому пределу на спектре матрицы А, если существуют пределы lim lim/p(M...... lim (fe = l...S). p->oo K ' 7 P->OO 7 p->oo M Определение 2. Последовательность функций fP(h) стремится при р—*оо к функции f(A) на спектре матрицы А, что записывается так: lim /Р(ЛЛ) = /(ЛЛ), (10.91) р->оо 6*
164 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ если (fc-l.....s). (10.92) P —> oo Формула (71) f И) = Д [f (>.,)zkl+f'(Xft)zk2+ ...+ (4)zkmk] выражает функцию f(A) через значения f(X) на спектре мат- рицы А. Если рассматривать матрицу как вектор в пространстве п2 измерении г?, то из формулы (71) в силу линейной незави- симости матриц Zhj следует, что все f(A) (при заданном 4) образуют m-мерное подпространство в Rn* с базисом Zkj (k = 1, ..., s; j = 1, ..., mk\ m\ + т2 + ... + ms = т). В этом базисе «вектор» f(A) имеет своими координатами т значений функции f(X) на спектре матрицы А. Указанная здесь геометрическая интерпретация облегчает до- казательство приведенных ниже теорем. Теорема 1. Для того чтобы последовательность матриц fp(A) при р-+оо стремилась к некоторому пределу, необхо- димо и достаточно, чтобы последовательность fP(K) при р—+оо на спектре матрицы А стремилась к пределу, т. е. пределы lim fp(A), lim /р(Ал) всегда существуют одновременно. При р->со Р-^ОО этом равенство Нт/Р(АЛ)=/(ЛЛ) (10.93) Р->ОО влечет за собой равенство lim fp(A) = f(A) (10.94) Р->ОО и наоборот. Доказательство. Если значения fP(X) на спектре мат- рицы А при р —> оо стремятся к предельным значениям, то из формулы I, М) - 3 [/„ (>•„) + ft (Ч) + ... + /Г*’'1 (Ч) г. J (10.95) следует существование предела limfp(A). Из формул (95) р->ОО и (71) можно заключить, что если имеет место соотношение (93), то будет справедливым и соотношение (94). Перейдем к доказательству обратного утверждения. Пусть существует lim fp(A). Матрица fp(A) является матрицей типа Р->ОО
§ 10. ФУНКЦИИ ОТ МАТРИЦ 165 пХ«, т. е. содержит п2 элементов, причем п^>т, так как tn—> степень минимального полинома матрицы А. Матричное соот- ношение (95) эквивалентно п2 скалярным соотношениям. Выбе- рем из этих соотношений т соотношений, которые будем рас- сматривать как систему из т линейных алгебраических уравне- ний относительно неизвестных Ч(Ч). (k = 1, ..., s; tn{ + т2 + ... + ms = tn). Так как матрицы Zkj линейно-независимы, то среди указанных п2 соотношений найдется т таких соотношений, у которых опре- делитель из коэффициентов при /р(ЛД (Xfe) будет отличен от нуля. Таким образом, можно выразить значе- ния fp(Kk)> ?р(Ы)> •••> tp”1* 1}(^) = s) в виде линей- ных форм от т элементов матрицы fP(A). Отсюда следует су- ществование предела limfp(AA), и, следовательно, если имеет р~>оо место соотношение (94), то будет справедливым и соотноше- ние (93). Из доказанной теоремы вытекает, что если последователь- ность полиномов gP(K) (р = 1,2, г..) стремится к функции f(X) на спектре матрицы Д, то lim gp(A) = f (Д). р->оо оо Определение 3. Ряд 2 ир (М сходится на спектре мат- р=0 рицы А к функции f(X), что записывается так: /(Лл)=5Ыр(Лл), (10.96) р=0 если все фигурирующие здесь функции определены на спектре матрицы А и имеют место равенства ад-Дмч). ПЧ)-Д Ч(Ч)..............(Ч)-2“Г*-,)(Ч) (fe= 1, s), причем в правых частях этих равенств стоят сходящиеся ряды.
166 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Если обозначить р (р = 0, 1, 2, ...), (10.97) <7=0 го соотношение (96) можно переписать так: f (Лл) = lim sp (Ал). (10.98) Р~>оо Доказанной выше теореме 1 можно теперь дать другую эк- вивалентную формулировку. оо Теорема 1'. Для того чтобы ряд 2 ир(А) сходился к не- Р=® оо которой матрице, необходимо и достаточно, чтобы ряд 2 ио (М Р=0 сходился на спектре матрицы А. При этом из равенства ЦЛА)=^ир(ЛА) Р=0 следует равенство t(A) = ^up(A) Р=0 и наоборот. Рассмотрим теперь степенной ряд с кругом сходимости |Х — Х0|<Я и суммой f(X): f(M=Sap(X-Xo)p (|Л-Ло|</?). (10.99) р=0 Так как степенной ряд можно почленно дифференцировать лю- бое число раз внутри круга сходимости, то ряд (99) сходится на спектре любой матрицы, характеристические числа которой расположены внутри круга сходимости. Отсюда вытекает сле- дующая теорема. Теорема 2. Если функция /(X) разлагается в степенной ряд в круге | X — Хо | < R- ео /(%)= 2ар(Л-Х0)р, (10.100) р-0 то это разложение сохраняет силу, если скалярный аргумент X заменить любой матрицей А, характеристические числа которой лежат внутри круга сходимости.
$ 10. ФУНКЦИИ ОТ МАТРИЦ 167 Из доказанной теоремы вытекают, например, следующие раз- ложения: оо оо р=0 р=0 р-0 -1. Л V а2Р Л -V А2₽+1 chX-2j(2p)l’ Sh?1 2j(2p+l)!’ р=0 р-=0 (10.101) оо (Е - Л)"1 = 5 А" р=0 (|ЛА|<1; k=l, s). (10.102) Разложения (101) имеют место для любой матрицы А, так как разложения соответствующих функций от скалярного аргумен- та Л имеют место при |Л|< оо. 10. Распространение на функции от матриц интегральной формулы Коши для аналитических функций. Рассмотрим в пло- скости комплексного переменного Л область, ограниченную замк- нутым контуром Г и содержащую характеристические числа Xi, ..., матрицы А. Пусть f(X)—произвольная аналитиче- ская функция, регулярная в этой области, включая границу Г. Согласно формулам Коши г г = f —dx (ft = i,..., s). (io.юз) 2ш J (X-Xk)m* Умножая обе части матричного соотношения (89) на и интегрируя по замкнутому контуру Г, получим ST /(иг-л)-'№)л = Г s »S[fMZ41 + fWZK+ ... +/mft"1)(Xft)ZftJ . (10.104) Учитывая формулу (71), можно переписать соотношение (104) так: f(^) = i/(^-Л)-7(Л)^. (10.105)
168 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Формулу (105) можно принять за определение аналитиче- ской функции от матрицы. 11. Некоторые свойства функций от матриц. Теорема 1. Пусть G (щ, и2, ..., щ)— полином относитель- но щ, и2, ..., иг, Л(Х), /г(Х), ..., функции от X, которые определены на спектре матрицы А, а g(A) = G[f,(A),f2(A)...fz(A)]. (10.106) Тогда, если на спектре матрицы А функция g(K) обращается в нуль §(Лл) = 0, (10.107) то будет иметь место следующее соотношение'. о[/Ш(А),.... Л(Л)] = о. (10.108) Доказательство. Обозначим через гДА), г2(А), ... rz(A) интерполяционные полиномы Лагранжа — Сильвестра для fi (А), f2 (А), .... fz(A), и пусть h (А) = G [Г! (А), г2 (А), ...» rz (А)]. (10.109) Так как на спектре матрицы А значения g(A) и Л (А) совпадают, то из соотношения (107) следует, что й(Лл) = 0. (10.110) Но тогда из формулы (71) следует, что й(А) = 0 (10.111) или G[rt(A),r2(A), .... rz(A)] = G[fI(A),f2(A).fz(А)] = 0, (10.112) что и требовалось доказать. В качестве следствия из теоремы 1 рассмотрим следующие примеры. 1°. Пусть G («р tz2) = u2 + u2 — 1, f i (А) = sin A, f2 (А) = cos А. Тогда g (А) = G[fi (A), f2 (А)] = sin2 А + cos2 А — 1. Так как на спектре любой матрицы А для данной функции име- ет место соотношение я(АЛ)=0, то согласно (112) G[fi (А), f2(A)] = sin2 А + cos2 А - Е = 0
§ 10. ФУНКЦИИ ОТ МАТРИЦ 169 или sin2 А + cos2 А = Е. (10.113) 2°. Пусть G (мь U2) = и1ы2 ~ 1, А(Л) = е\ f2(X) = e-\ Тогда g(X) = G[f1(%)J2(X)] = e^-L На спектре любой матрицы А для данной функции g(X) будем иметь я(Лл)=о. Поэтому согласно (112) G [Л (Л), Г2(Л)] = Ие-»-Е = 0 или еАе~А = Е. (10.114) Из соотношения (114) следует, что обратная матрица (еА)-1 имеет вид (eAj-^e-A. (10.115) 3°. Пусть G(«lt н2> w3) = u1u2-m3) А (А.) = <>«, f2(X) = e«s /3(Л) = ^№+« Тогда g (Л) = G [Л (Л), f2 (A,), f3 (Л)] = eKi,eKtl - е>- На спектре любой матрицы А для данной функции g(%) имеет место соотношение Я(Лл) = 0. Согласно (112) отсюда следует, что ^At^Atz__f)A (ti + tz) Q или еА/,еА/г=:еАЦ1+^ (10.116) 4°. Пусть G (ub и2, и3) = и, + 1и2 — м3, Д (Л) = cos A., f2 (А.) = sin Л, /3 (%) = eiK. Тогда g (Л.) = G [f, (Л), f2 (X), f3 (А,)] = cos А, + i sin А, — eiK.
170 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ На спектре любой матрицы А для данной функции g(K) имеет место соотношение £(лл) = 0- Согласно (112) отсюда следует, что cos А + i sin А — eiA = 0 или eiA = cos А + i sin Л. (10.117) Таким образом, теорема 1 указывает условия (107), при ко- торых тождества, связывающие функции от скалярного пере- менного %, могут быть распространены на матричные значения аргумента. Теорему 1 можно усилить и доказать следующую теорему ([21], стр. 121). Теорема 2. Пусть .... Ш], где функции fs(A), ..., fi(h) определены на спектре мат- рицы Л, а функция G(ui, и2, ..., щ) есть результат последо- вательного применения к величинам щ, и2, ..., щ операций сложения, умножения, умножения на число и замены величины произвольной функцией от нее. Тогда, если на спектре матрицы А функция g{K) обращается в нуль: g^A^, то будет иметь место следующее соотношение: G[fiG4),f2(4), .... Л(Л)] = 0. 12. Интегрирование систем линейных дифференциальных уравнений с постоянными коэффициентами при помощи функ- ций от матриц. Найдем решение системы линейных дифферен- циальных уравнений (10.118) fc=l при начальных условиях х/ = х/(0) (/=!,...,«) при i = 0. (10.119) Здесь Ajk (j, k=\, ..., п)—некоторые постоянные (вообще комплексные) величины.
§ 10. ФУНКЦИИ ОТ МАТРИЦ 171 Введем матрицы • • ^1п • • ^пп - (10.120) Так как при дифференцировании (интегрировании) матриц диф- ференцируется (интегрируется) каждый элемент матрицы, то систему скалярных дифференциальных уравнений (118) можно заменить векторным дифференциальным уравнением х = Лх. (10.121) Начальные условия (119) можно записать так: х = х(0) при / = 0. (10.122) Искомый вектор x(t) представим в виде ряда Маклорена по степеням t: x(/) = x(0) + x(0)f + x(0)-J+ ... +.г(л>(0)-^+ ... (10.123) Дифференцируя левую и правую части уравнения (121), найдем х = Ах = А2х, х = Л2х = А3х, ..., х(п) = Апх, ... (10.124) Соотношения (121) и (124) имеют место для любого значения аргумента t. При t = 0 они принимают вид х (0) = Ах (0), х (0) = А2х (0).х(п> (0) = Апх (0), ..., (10.125) Ряд (123), таким образом, принимает вид х (/) = х (0) + tAx (0) + ~ А2х (0) + ... + -^-Л"х(0) ... = = (£ + Л/ + 4г+ ••• +4г+ —H0)’ (10-126) то есть согласно (101) х(0 = ел/х(0). (10.127) Так как d At d , A2t2 . \ - , л2, , Л3/2 , л л. dt е dt 2! ‘ / Л + Л/ +2|+... — Ле, (10.128) то непосредственной подстановкой в дифференциальное уравне- ние (121) убеждаемся, что выражение (127) является решением этого уравнения, удовлетворяющим начальным условиям (122). Так как из (127) следует, что х (/0) = eAt'x (0),
172 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ а согласно (116) eAtx (0) = еА У-ЫеА**х (0) = еА <*~^х (/0), то можно преобразовать выражение (127) к виду х(/) = еА(/-/о)х(/о). (10.129) Выражение (129) представляет собой решение векторного дифференциального уравнения (121), удовлетворяющее началь- ным условиям x = x(f0) при / = /0. (10.130) Обратимся теперь к выражению (71). Полагая /(Л) = еЧ (10.131) будем иметь / Ы = f (М = = te^, .... = (Amk~x \ -2——(10.132) dk k В соответствии с (71), (131) и (132) функция eAt может быть записана так: eAt='£(Zki + Zk2t + ... +Zftm^-‘)e4 (10.133) и решение (127) может быть приведено к форме, содержащей компоненты матрицы А. Учитывая соотношение (133), нетрудно убедиться, что полу- ченное применением функций от матриц решение системы диф- ференциальных уравнений (118) совпадает (как это и должно быть) с полученным в § 4 решением (4.124). (В § 4 рассмот- рена система более общего вида.) Это соответствие в какой-то мере мотивирует принятое в теории матриц определение (45) функции от матрицы. Рассмотрим теперь систему неоднородных линейных уравне- ний -^- = 2лл + //(о (/= 1, ..., п). (10.134) Систему скалярных дифференциальных уравнений (134) можно заменить векторным дифференциальным уравнением х = Ах + /(/), (10.135)
§ 10. ФУНКЦИИ ОТ МАТРИЦ 173 где через f(t) обозначен вектор Г л (0 1 Решение уравнения (135), удовлетворяющее начальным усло- виям (130) будем искать в виде х (/) — eAtz (/), (10.136) где - Zi (0 - z(0 = - zn(0 . . (10.137) Элементы вектора z(t) подлежат определению. Подставляя выражение (136) в уравнение (135), получим eAtz = f (/) или г = е-^(/). (10.138) Отсюда z (f) — C + j e~Axf (x)dx, to (10.139) где C — вектор из произвольн! э!Х ПОСТОЯННЫХ - С, - C = - Cn‘. ' (10.140) Выражение (136) принимает теперь вид / t \ х (/) = eAt 1 С + j e~Axf (т) dx j. (10.141) Из выражения (141) следует, что [* (OUf, = еА‘°С, откуда, учитывая начальные условия (130), получим С = e^At°x(tQ). (10.142) Подставляя в (141) найденное значение С, найдем t х(1) = еА^х(^) + J e^-^f (т) dx. (10.143) h
174 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Это и есть решение векторного дифференциального уравнения (135) при начальных условиях (130). 13. Сравнение с решениями, получаемыми при помощи пре- образования Лапласа. Покажем теперь тождественность реше- ния (143) и решения, которое можно получить развитыми в § 4 методами, основанными на применении преобразования Лап- ласа. Обозначая £(р)-д->х(/), (10.144) получим, что векторному дифференциальному уравнению (135) х = Ах + f(t) будет соответствовать следующее уравнение в изображениях: (рЕ-Л)|(р) = рх(0) + Лр), (10.145) где х(0) — значение x(t) при t = 0. Отсюда Up) = Р (рЕ - Л)-‘ х (0) + (рЕ - Л)"1 f (р). (10.146) Согласно (89) будем иметь р (рЕ - Л) [г*, + Zk2 {р + А=1 2! р п (т. — 1)! р + Zk3 (P-W + + Zkmk J’ (10Л47) Оригинал, изображением которого является функция р(рЕ—Д)”1» обозначим через N(t): р(рЕ- АГ{ (10.148) Учитывая, что .ц Kkf и.)--*;,' (1ол49) найдем N (0 = 2 [^, + zk2t + ... + (10.150) На основании теоремы об умножении изображений t ~р{рЕ — Л)"1 f (р) (/ - т) Нт) dr. (10.151) о
$ 10. ФУНКЦИИ ОТ МАТРИЦ 175 Таким образом, изображению (146) будет соответствовать сле- дующий оригинал: x(O = JV(O«(O)+ J N(t-x)f(x)dx. (10.152) о Из сравнения выражений (150) и (133) видно, что ЛЦ/) = ел<, (10.153) и, таким образом, выражение (152) принимает вид t х (0 = eAtx (0) + J еА «-Vf (т) dx. (10.154) о Согласно (154) х (t0) = eAt>x (0) + / еА (х) dx. (10.155) о Выражение (154) можно преобразовать к следующему виду: /о 1 t e4/°x(O)+J еА(x)dx + J еА(т)dx, (10.156) о J 6 откуда, учитывая (155), получим i x(t) = eA^-^x(to)+ j eA<‘-Vf(x)dx, (10.157) it что совпадает с выражением (143). Заменяя в соответствии с соотношением (153) функцию eAt через N(t), перепишем выражение (157) так: t x(t) = N(t-to)x(to)+ J N (t — x)f (x)dx. (10.158) /о Заметим еще, что в соответствии со (153), (114) и (115) матрица N(t), которая определена выражением (150), и обрат- ная матрица ЛН(/) удовлетворяют следующим соотношениям: N(0) = E, (10.159) №'(/) = Л/( — /), (10.160) N(t)N~'(x) = N(t-x). (10.161) Учитывая, что At г । л; . Л2/2 I = £ + ---р . ..
176 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ и что степени матриц коммутативны при умножении, получим еще, что AN = NA. (10.162) Из соотношений (153) и (128) следует также, что ^-=AN. (10.163) § 11. Управляемость и наблюдаемость линейных систем 1. Управляемость систем, описываемых линейными диффе- ренциальными уравнениями с постоянными коэффициентами. Рассмотрим систему, описываемую векторным дифференциаль- ным уравнением ~-=Ax + Gu, (11.1) где х = xi I г • • • ^in ~ ••• , А = .......... хп J L Ап[ ... Апп _ Г Си G= • Gir- G nr - - ur _ (11.2) и = - Через xk (& = 1, ♦.., n) здесь обозначены переменные, опреде- ляющие состояние системы; щ (/=!,..<, /•)—приложенные к системе управляющие силы, называемые также «управления- ми». Элементы матриц А и G предполагаются здесь постоян- ными. Векторное дифференциальное уравнение (1) эквивалентно системе скалярных дифференциальных уравнений dx п г dt = Ajk%k “Ь G jiUi (/ = 1, ..., л). (11.3) k=\ z=i Уравнения (3) являются линейными дифференциальными уравнениями с постоянными коэффициентами, и их можно ин- терпретировать, например, как уравнения в вариациях относи- тельно установившегося движения (или относительно состояния равновесия) некоторой системы материальных точек. Пусть s — число степеней свободы этой системы, a qi, ..., qs — ее обоб- щенные координаты. Ранг системы уравнений (3) при этом бу- дет п = 2s. Переменные (i= 1, ..., л) в уравнениях (3) могут быть фазовыми координатами или каноническими переменными (об-
§ 11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 177 общенными координатами и обобщенными импульсами) рас- сматриваемой системы материальных точек или быть связан- ными с ними при помощи некоторого линейного преобразования. Так как у системы материальных точек число приложенных обобщенных сил не может превышать числа степеней свободы, то число г управляющих сил щ (1=1, ..., г) в дифференциаль- ных уравнениях (3) должно удовлетворять условию г ^s. Заметим еще, что те из уравнений системы (3), которые вы- ражают лишь зависимость между переменными Xj, например уравнения вида Хц = X^^j, (11 *4) в случае, когда Xj — фазовые координаты системы, требуют вы- полнения тождеств 2jGh/«z^0 (H = Hi, •••» ИА (И.5) для чего необходимо, чтобы соответствующие строки матрицы G состояли из нулевых элементов Gj1i = Gpi2== ••• ==Gpir = O (ц = Ц|, ps)* (11.6) Обычно управляемая система имеет, однако, более сложную структуру. В ее состав входят еще устройства для формирова- ния управляющих сигналов и др. При этом в число уравнений (3) могут входить также дифференциальные уравнения, описы- вающие программы включенных в состав системы вычислитель- ных управляющих устройств и т. п. Эти уравнения могут со- держать и свои управляющие воздействия. В этом случае будет иметь место соотношение п > 2s, где под s здесь подразуме- вается число степеней свободы лишь совокупности механических звеньев, входящих в систему (3), а также может оказаться, что Г > S. Рассмотрим сейчас вопрос о том, можно ли систему, описы- ваемую уравнением (1), перевести из любого заданного началь- ного состояния в любое желаемое состояние за конечный проме- жуток времени, выбирая надлежащим образом закон изменения управляющих сил щ = Ui(t) (1=1, ...» г). Сформулированное здесь свойство получило название управ- ляемости. Системы, обладающие этим свойством, называются вполне управляемыми. Так как управляемость системы определяется строением матриц А и G, то понятие управляемости относят также к этим матрицам, говоря, что пара (A, G) вполне управляема, или соот- ветственно неуправляема.
178 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Перейдем к решению поставленной задачи. Согласно (10.143) закон движения системы, описываемой уравнением (1), будет следующим: * х(/) = ел'х(0)+ J eA»~^Gu{x)dr. (11.7) о Предположим, что существует такой закон изменения управ- ляющих сил щ = ui(t) (/ = 1, ..., г), который обеспечивает приведение системы к моменту времени t = Т в начало коор- динат, то есть обеспечивает выполнение условия л(Г) = 0. (И.8) Так как согласно (7) т х (Г) = еАТх (0) + j еА <T~VGu (т) dr, о (11.9) то в соответствии с (8) будем иметь следующее соотношение: т J eA(T~x’>Gu(r) dr = - елгх(0). (11.10) о Умножая левую и правую части соотношения (10) на е~АТ, по- лучим J e~A'Gu{r)dr= — х(0). (11.11) о Согласно (10.58) т-1 е~Ах = 2 аИ-т)Д\ (11.12) л=о где т — степень минимального полинома ф(Х) матрицы Д, а аь(0—коэффициенты интерполяционного полинома Лагран- жа— Сильвестра г(Х), построенного для функции еи9 которая определена на спектре матрицы Д. Соотношение (11) можно, учитывая выражение (12), пере- писать так: m-l Т J W(x)aft(-T)dT=-x(0) (11.13) Л-0 о
§ 11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 179 ИЛИ Т Т G | и(т)ао(— x)dx + AG j м(т)eq(— т)dr + ... о о г ...+Лт"1с/ м(т)ат_!(-т)4/т= -х(0). (11.14) О Каждое из слагаемых в левой части соотношения (14) является вектором типа п X 1. Левую часть соотношения (14) можно представить в виде произведения двух матриц и переписать соотношение (14) так: ~ Т J u(r) Оо(— t)Jt 0 [G AG A2G ... Am~'G]x т J w(x)a! (— %)dx 0 = -х(0). (11.15) т / «(т)ат-1(- t)dx 0 Так как AkG (k = 0, 1, ...» m—1) есть матрица типа и X г, то матрица W = [G AG A2G ... Am~lG] (11.16) является коагулированной (блочной) матрицей типа 1 X гп. Сделаем сейчас следующее замечание. Согласно (10.29) ми- нимальный полином матрицы А имеет вид ф (Л) = (Л — кх)т' (Л — К2)т2... (X — Ks)ms (тх + т2 + ... + ms = m) или Ф (Л) = *+ ... + jZ + ст. Так как ф(Х) является аннулирующим полиномом для матри- цы А, то есть ф(А) = 0, то будем иметь Ат + схАт *+ ... + + стЕ = 0. Отсюда следует, что Л'п=-с1Лт-1- ... — ст_хА — стЕ,
180 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ то есть матрица Ат является линейной комбинацией матриц Е, Л, Л2, А™-1. Так как Лт+1 = ЛЛт, Лт+2 = А2Ат, ... и степени матриц коммутативны при умножении, то приходим к следующему ре- зультату. Если степень минимального полинома матрицы А равна т, то матрица Ah (k^m) является линейной комбинацией матриц Е, Л, Л2, ..., Лт~1: т-1 Ak = s ekiA} Обратимся теперь к матрице (16). Так как матрица AhG, где m (a G — матрица типа иХг), может быть представлена в виде т-1 AkG=^lzkjAiG (k^tn), /-0 то у расширенной матрицы 1F = [G AG A2G ... Am~lG AmG Am+'G ...], образующейся прибавлением к матрице W элементов AmG, Zm+1G, ..., ранг остается таким же, как и у матрицы W. Подставляя в (16) вместо AhG (Л = 0, I, .... m—1) соот- ветствующие матрицы, получим матрицу типа п X q, где элементы которой явля1 F = Матрица q = тг, отся скалярами -Гн wX2...wXq - -^1 Wn2\\ wnq. (11.18) т J и (т) а0 (— т) dx о т J и(т)а! (— x)dx о т / u(x)am_x(—x)dx о (П.19) и =
§ И. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 181 представляет собой матрицу-столбец (вектор) типа т X 1 и является коагулированной матрицей, так как каждый ее эле- мент есть r-мерный вектор, поскольку согласно (2) и(т) = Н2(т) мг(т) Обозначая Т U\ = I Щ (т)а0(— т)«/т, О т и2 = j «2(t)ao(— т)йт, О т Ur = J иг (т) а0 (— т) dx, о т Uг+1 = J «iWM- ТНТ- о (11.20) г ^<7=J ur(x)am-l (-x)dx, о можно представить матрицу (19) так: (11.21) то есть в виде «/-мерного вектора (q = mr), элементы которого Uk (k = 1, ..., q) являются скалярами. Векторное уравнение (15), таким образом, принимает вид Г{/ = -х(0), (11.22) где W и U определены выражениями (18) и (21). Уравнение (22) эквивалентно следующей системе скалярных уравнений: + №12t/2 + ... +irlflC/, = -x1(0)> W^u\ + WnqUq = - x„ (0). (11.23)
182 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Далее будем считать, что число управлений г выбрано так, что выполняется условие q = тг^п. (11.24) Здесь, как указано выше, т— степень минимального полинома ф(Х) матрицы А (причем m</i), а г — размерность вектора уп- равлений и. Если обозначить через wk векторы-столбцы матрицы (18) Wlk W2k (* = 1, .... Я), (11.25) Wnk то систему скалярных уравнений (23) можно заменить сле- дующим векторным уравнением: я 2^t/ft=-x(0), (11.26) fc=l где Wk (6=1, ..., q) и х(0)—n-мерные векторы, а С7д (k = 1, ..., q)—скаляры, причем согласно (24) Таким образом, вектор х(0) представляет собой линейную комбинацию векторов Wk (k = 1, ..., q). Так как в качестве х(0) может быть выбран любой вектор л-мерного пространства ..., хп, то из соотношения (26) следует, что для того, чтобы система (1) была вполне управляе- мой, необходимо и достаточно, чтобы среди векторов Шд (k = 1, q) имелось п линейно-независимых векторов. Иными словами, условие управляемости [36] системы (1) состоит в том, что ранг матрицы (16) W = [G AG A2G ... должен быть равен п. Система значений U\, ..., Uq, удовлетворяющая уравнениЯхМ (23), в случае, когда q > п, будет не единственной. При выборе решения уравнений (23) необходимо еще учитывать зависимо- сти, которые накладывают на U{, ..., Uq формулы (20). (Так, например, как видно из (20), у (Л и Ur+i подынтегральные функции содержат один и тот же множитель и\ (т) и т. д.) Определив значения [Д, ..., Uq, надо из соотношений (20) найти закон управления щ = Ui(t) (/= 1, ...,г). Последняя задача также допускает не единственное решение. Указанные обстоятельства открывают возможность наложе- ния дополнительных условий, обеспечивающих тот или иной характер движения системы — каких-либо условий оптимально- сти и т. п.
$ II. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 183 Покажем, что одним из возможных управлений является, например, управление й(/)= - G'e~A'‘R~'x(0), где т R = J е-ЛтСО*е-л*тб/т, О а символом * обозначена транспонированная матрица. Проверим, что u(t) приводит систему (1) к моменту време- ни Г в начало координат. Для этого подставим %(t) в левую часть соотношения (11) т - J e~AxGG*e~A'x dxR~l х (0) = - RR~'x (0) = - х (0). о Таким образом, соотношение (II) удовлетворяется, откуда в со- ответствии с (9) следует, что х(Т) = 0. Здесь мы предполагали, что матрица У?”1 существует. В п. 6 будет доказано, что если система управляема, то R является положительно-определенной матрицей, и, следовательно, обрат- ная матрица существует. Пример. Рассмотрим систему, описываемую скалярным дифференциаль- ным уравнением dx -г- •= ах + и. dt Здесь управление u(t) принимает вид Й (0 = - J _~^-2аТ~ e~atx (°)- Левая часть соотношения (11) теперь будет Т Т J е“аТй (т) dx ----^2аТ х (°) / е-2аТ dx = - х (0), 0 е о то есть соотношение (11) удовлетворяется, и согласно (9) будем иметь х(Т) =0. 2. Системы с одной управляющей силой. Рассмотрим теперь систему, описываемую следующими скалярными дифференциаль- ными уравнениями: dx п = S + В>и 0=1.................«). (11-27) В отличие от системы уравнений (3), у рассматриваемой систе- мы имеется лишь одна управляющая сила и.
184 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Вводя матрицы - X] - ' Ап ... А1п ~ Г 1 X = , А = • . . , (11.28) - _ - Ani • • • Апп _ L вп J можно заменить систему уравнений (27) векторным уравнением ^ = Ах + Ви. (11.29) Так как матрица AVB, где у— любое целое число, будет представлять собой матрицу-столбец (вектор), то полученное в п. 1 условие управляемости может быть выполнено лишь в слу- чае, когда степень минимального полинома ф(Х) матрицы А равна п. Последнее имеет место, если все характеристические числа матрицы А являются простыми. Если среди характеристи- ческих чисел матрицы А имеются кратные, то степень т мини- мального полинома ф(Х) будет равна п лишь в случае, когда кратному характеристическому числу соответствует единствен- ный элементарный делитель. Степень этого элементарного дели- теля равна тогда кратности характеристического числа. У систем, в которых кратному характеристическому числу соответствует не один, а несколько элементарных делителей, степень минимального полинома т < п. При наличии лишь од- ной управляющей силы условие управляемости у таких систем не выполняется. Для систем, у которых /п = и, (11.30) матрица (16) принимает вид Q = [B АВ А2В ... Лге-1в]. (11.31) Элементы матрицы (31) являются /г-мерными векторами и усло- вие управляемости системы состоит в том, что ранг матрицы Q должен быть равен п. Вектор (21) здесь принимает вид — т | и(т)ао(- x)dx о т | и(т)а! (— т) dx о (11.32) т / и{х)ап-\(— x)dx о Элементы вектора V являются скалярами.
§ 11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 185 Уравнение (22) в рассматриваемом здесь случае принимает вид QV = -x(0). (11.33) В случае, когда выполняется условие управляемости, то есть ранг матрицы Q равен /г, определитель матрицы Q будет отли- чен от нуля, и из уравнения (33) получим, что V=- Q-1x(0), (11.34) где через Q*1 обозначена обратная матрица. В соответствии с (32) векторное соотношение (34) эквива- лентно следующим п скалярным соотношениям: т J ц(т)а0(—т) dx = о т J и (т) «1 (— т) dx = о (11.35) т J и(х)ап-1 (- x)dx = Kn, О где щ = const (/=1, п) —элементы вектора — (^“^(О). Управление и = u(t) должно быть выбрано так, чтобы удов- летворялись условия (35), которые, однако, не определяют функ- цию u(t) однозначно. 3. Наблюдаемость систем, описываемых линейными диффе- ренциальными уравнениями с постоянными коэффициентами. Рассмотрим систему, описываемую векторными уравнениями ^~ = Ах + Gu, at ’ у = Сх + Lu. (11.36) (11.37) Здесь х—n-мерный вектор, у—р-мерный вектор, и — г-мерный вектор. Через Л, G, С и L обозначены матрицы типа п х м, п X г, р X и, р X г соответственно. Вектор х является вектором состояния системы (его компо- ненты Xi, ..., Хп — фазовые координаты системы), и — вектор, компоненты которого являются управляющими силами (управ- лениями).
186 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Через у обозначен вектор У = ’ У\ ' - УР - элементы которого у\, ..., ур являются линейными комбина- циями фазовых координат хь (6=1, ...» п) и управлений ut (I = 1, ..., г). Далее предполагается, что элементы yi, ..., ур вектора у доступны наблюдению на отрезке времени 0 t Г, и, таким образом, по данным измерений известны функции y\(t), ... ..., yP(t) на отрезке времени При этом предпола- гается также известным закон изменения управляющих сил щ = Ui(t) на рассматриваемом отрезке времени 0 t Т. Так как согласно (7) t х (t) = eAtx (0) + J еЛ(/“т)Си(т)Л, о то в соответствии с (37) t y(t) = CeA‘x(0) + C j eA^~x)Gu(x) dx + Lu(t). (11.38) о Так как функция u(t) предполагается известной, то второе и третье слагаемые в правой части (38) могут быть вычислены, и эти слагаемые можно вычесть из полученной в результате на- блюдений функции у (/): t y(t) — C J ел(<-г>Сы(т)йт-£и(0 = Сел'х(0). (11.39) о Левая часть соотношения (39), таким образом, является из- вестной. Начальное состояние системы Ж(0) предполагается не- известным. Возникает вопрос, можно ли восстановить значение х(0) по полученным из описанных наблюдений данным. Поставленная здесь задача эквивалентна следующей задаче. У системы, описываемой векторными уравнениями (отличающи- мися от уравнений (36) и (37) тем, что u(/)s0): ^- = Лх, (11.40) у = Сх (11.41) требуется восстановить начальное значение х(0) по найденной из наблюдений вектор-функции y(t) (0<С/4^Г).
§ 11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 187 Возможность восстановления начального состояния х(0) си- стемы по некоторой наблюдаемой линейной операции над ее выходом называется наблюдаемостью. Системы, обладающие этим свойством, называются вполне наблюдаемыми. Из уравнений (40) и (41) следует, что y(t) = CeAtx(0). (11.42) Матрица С, которая входит в уравнение (41), имеет следую- щий вид: С = с\2 • • • ^21 с22 • • • С2п _ Ср1 Ср2 • • • срп _ (11.43) Обозначив через Cj (/= 1, ..., р) строки матрицы (43) C/ = [c/i cl2...cln] (11.44) можно представить матрицу (43) в коагулированном виде - Ср (11.45) Элемент yj(t) вектора y(t) в соответствии с (42) можно за- писать так: yj(t) = CieA‘x(0) (/=1,...,р). (11.46) Согласно (10.58) т-1 eAt = 2 (0 Ak, k=0 (И.47) где m — степень минимального полинома ф(Х) матрицы Д, а а&(/)—коэффициенты интерполяционного полинома Лагран- жа— Сильвестра г (Л), построенного для функции eKt, которая определена на спектре матрицы А. Поэтому выражение (46) можно привести к виду т-1 0/(0 = 2 ай(0С/ЛАх(0) Л=0 (/=1......Р). (U.48)
188 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Умножая левую и правую части соотношения (48) на аД/) (i = 0, 1, т—1) и интегрируя полученные функции по t в пределах от 0 до Г, получим J а,- (О у, (0 dt = 2 j щ (0 аА (0 dtCjAkx (0) (11.49) О fc=0 о (/ = 1, ..р; i = 0, 1, ..т — 1). Введем теперь следующее обозначение: т (ф/, %) = J Ф< (О Ф/ (О dt. (11.50) о Для каждого фиксированного / в соответствии с (49) будем иметь следующую систему уравнений: («о, а0) CjX (0) + (oq, otj) С/Ах (0) + ... ... +(ао, ат_1)С/Д'"-1х(О) = (ао, у,), (а,, Oq) С;х (0) + (а,, aj С/Дх (0) + ... ... +(аь am_j) С/Ат~'х (0) = (аь у/), (11.51) (ат-ь ао) С/х (0) + (am_b а,) С/Ах (0) + ... • • • + (ат—ь am-i) С/Ат~'х (0) = (am_i, у/). Определитель из коэффициентов при Срс(О), С/Ах(0), ... ..., CjAm~lx(Q) в уравнениях (51) отличен от нуля (ао> «о) (аь ао) (а0, а,) (аь а,) • • • (ао, am_t) • • • (аь O^-l) ¥=0, (11.52) (am-i, ао) (am-t. а^ ... (am_b am_() так как это есть определитель Грама [23], стр. 79, для системы линейно-независимых функций ао(О> «1(0, •••, <xm-\(t). Таким образом, система уравнений (52) имеет единственное решение C/x(O) = ji/b С/Ах(0) = ц/2, (11.53) C/Xm"lx(0) = fx/m. Так как j = 1, .,., р, то будем иметь v соотношений вида (53), где v = mp. (11.54)
§ 11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 189 Введем теперь следующее обозначение для скалярного про- изведения двух векторов £ и ту (£, п) = + • • • + ВпЯп- Через М* обозначим транспонированную матрицу М. Так как при транспонировании произведения Л"! и /V имеет место соотношение (MN)* = 1ГМ', то соотношения (53) можно переписать так: <С/, x(0)) = p/i, {A'ch х(0)) = ц/2, (11.55) для матрицы двух матриц (11.56) (11.57) } {А,'п~ Cj, х (0)> = ц1т (/=1,..., р). В соответствии с (44) будем иметь ' СЛ С/2 (11.58) С Матрицы С’, Л*С, А'2С Л*'"~1С’' будут л‘2с = [л‘с’ *2 * Л с2 = [л‘с! л‘с*2... л’с’], (11.59) *т-1 * Г *т— 1 * Л С =1л С1 л с2... л СР|. Как видно из (59) и (57), столбцы матриц С*, Л*С*, Л’2С”, ..., Л*”’~1С‘ (число этих столбцов будет v = тр) пред- ставляют собой векторы, которые входят в левые части
190 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ соотношений (57). Указанные векторы, таким образом, яв- ляются столбцами следующей коагулированной матрицы: S = [с* А'С* А*2С' ... (11.60) Заметим, что если вместо входящих в матрицу (60) блоков под- ставить соответствующие матрицы, то получим матрицу типа nXv (где v = mp), элементы которой являются скалярами. Предположим теперь, что среди столбцов матрицы 5 имеется п линейно-независимых столбцов Sap Sa2, ..., SOfl, то есть ранг матрицы S равен п. Кроме того, предположим еще, что размерность р вектора у выбрана так, что выполняется условие у = тр^п. (11.61) Из v уравнений (57) выберем те уравнения, в которые входят векторы SQ1, Sq2, ..., San. Эти уравнения будут (Sai, Х(0)) = Ца,, (Sa2, х(0)) = Ца2, X (0)) = Цал, ИЛИ Sa, 1Х1 (0) + Sa,2X2 (0) + ... + S{jitlXn (0) = Ца,, SajXj (0) + Sa22^2 (0) + ... 4~ S(j2nXn (0) = Pa2, Sa 1X1 (0) + Sa 2X2 (0) + ... + So nXn (0) = ga . П п (11.62) (11.63) Мы получили систему линейных неоднородных алгебраиче- ских уравнений относительно Xi(0), х2(0), ..., хп(0). Опреде- литель из коэффициентов уравнений (63) отличен от нуля, так как векторы Sap Sa2, ..., Son лцнейно-независимы, и, следо- вательно, система уравнений (63) имеет единственное решение, то есть определяет единственным образом компоненты хДО), Х2(0), хп(0) вектора начального состояния системы х(0). Соотношениям (62) можно дать еще такую интерпретацию. Линейно-независимые векторы Sap Sa2, ..., SG/J можно рас- сматривать как базис n-мерного пространства хь ..., хп. Вели- чины Цар Ца2, ..., представляют собой проекции вектора х(0) на базисные векторы. Эти проекции определяют единствен- ным образом искомый вектор х(0).
§ 11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 191 Таким образом, необходимое и достаточное условие наблю- даемости системы (36), (37) состоит в том, что ранг матри- цы (60) S = [С* Л’С* Л,2С’ ... Л‘"”'С’] должен быть равен п. 4. Системы с одной наблюдаемой координатой. Рассмотрим теперь систему, описываемую уравнениями = 2 V = 1................п). (11.64) п y=^iCkXk- (11.65) k=i В отличие от уравнений (40), (41), здесь известна из наблюде- ний лишь скалярная функция y = y(t), определяемая выраже- нием (65), а не вектор-функция, как это имело место в п. 3. Вводя матрицы можно переписать уравнения (64) и (65) так: ^- = Ах. (11.67) у = Сх. (11.68) Так как матрица С* в соответствии с (66) будет матрицей- столбцом (вектором) С’ = с2 (11.69) сп то матрица X*feC*, где k — любое целое число, будет представ- лять собой матрицу-столбец (вектор). Поэтому полученное в п. 3 условие наблюдаемости может быть здесь выполнено лишь в случае, когда степень минимального полинома гр (А) матрицы А равна п. Это возможно лишь в случае, когда каж- дому кратному характеристическому числу матрицы А соответ- ствует единственный элементарный делитель, а не несколько элементарных делителей. Для систем с одной наблюдаемой координатой, у которых m = n, (11.70)
192 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ матрица (60) принимает вид Р = [с* Д’С’ А*2С' ... Л‘П-1С*]. (11.71) Элементы матрицы (71) являются «-мерными векторами, и усло- вие наблюдаемости системы состоит в том, что ранг матрицы Р должен быть равен п. В рассматриваемой здесь задаче число уравнений вида (57) равно «, и эти уравнения будут следующими: (С-, х(0)) = Иь <Д‘С‘, х(0)) = р2, <Д‘2С\ х(0)) = Из, х(0)> = ц.п. (11.72) Если векторы С*, А*С*.....А*п~1С* линейно-независимы, то они образуют базис «-мерного пространства хь ..., хп. Вели- чины щ, Ц2, . Цп будут тогда проекциями вектора х(0) на базисные векторы. По этим проекциям вектор х(0) определяется единственным образом. 5. Принцип двойственности в теории управляемости и наблю- даемости. Рассмотрим систему I, описываемую уравнениями = Ах + Gu, at у = Сх + Lu. (11.73) Здесь х, и, у — векторы размерности п, г и р, a A, G, С, L — матрицы типа п X п, п X г, р X п, р X г. Условие управляемости состоит в том, что ранг матрицы W = [G AG A2G ... Am~jG] должен быть равен «. Условие наблюдаемости состоит в том, что ранг матрицы S = [с* А'С* АЛС' ... Д‘т"1С‘] должен быть равен «. Пусть система II описывается уравнениями -3--Л1 + СЧ 1 г| = G’t, + L’v. I Здесь g, о, т] — векторы размерности п, р и г. (П.74)
§ 11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 193 Для системы II условие управляемости состоит в том, что ранг матрицы S = [c* А'С* Л’2С* ... Л,т_,с*] должен быть равен п. Условие наблюдаемости системы II состоит в том, что ранг матрицы W = [G AG A2G ... Ат~'б] должен быть равен п. Таким образом, имеет место установленный Калманом [36] принцип двойственности в задаче об управляемости и наблю- даемости. Система I управляема (наблюдаема), если и только если система II наблюдаема (управляема соответственно). 6. Управляемость линейных нестационарных систем. Рас- смотрим линейную нестационарную систему, описываемую век- торным дифференциальным уравнением где ^- = A(t)x + G(t)u, - х1 -1 -лп (П . ..Л1П(Д х = - хп -J ..4nn(d «1 ' .. GIr(0' и = - иг . Lg„,(O - • • Gnr (t)_ (11.75) (11.76) Элементы матриц А (I) и G(t) являются непрерывными, действи- тельными функциями времени. Система (75) называется вполне управляемой в момент вре- мени t0, если из любого состояния, которое она занимает в мо- мент времени /о, ее можно перевести в нулевое состояние за конечный промежуток времени, выбирая надлежащим образом закон изменения управляющих сил щ = Ui(t) (1=1, ..., г). Так как свойства нестационарной системы изменяются с те- чением времени, то возможны системы, которые управляемы (в смысле приведенного выше определения) в момент времени Т и неуправляемы в любой последующий момент времени. Из са- мого определения управляемости следует, однако, что если си- стема управляема в момент Т, то она управляема в любой мо- мент /о < Т (поскольку она будет управляемой, оказавшись в любом состоянии в момент времени 7). 7 Я. Н. Ройтенберг
194 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Теорема. Пусть Ф (/, т) = 0 (/) О-1 (т), где 0 (/) — фундамен- тальная матрица решений системы, описываемой однородным векторным дифференциальным уравнением ^- = A(t)x, (11.77) а через обозначена матрица t W (t0, /) = j Ф (f0, т) G (т) G’ (т) Ф* (/0, т) dx. (11.78) Нестационарная линейная система (75) управляема в момент времени tQ, если и только если для некоторого конечного t\ мат- рица И7(/оД1), определяемая выражением (78), является поло- жительно-определенной матрицей *). Доказательство теоремы. 1°. По предположению матрица I^(/o, ti) является симмет- рической, положительно-определенной матрицей. Следовательно, она является неособой матрицей, то есть det U?(/o, Zi) ¥= 0. Таким образом, обратная матрица W7-1 (/0, Л) существует, и можно выбрать вектор управляющих сил u(t) в следующем виде: u(t) = - О’(0Ф’(^ О^-1(/о. ^1)х(/0). (П.79) Так как согласно (7.26) t x(t) = ®(t, Qx(t0)+ J Ф(/, t)G(t)u(t)4t, (11.80) ^0 то в момент времени t = состояние системы будет Л х(Л) = Ф(/1, ^о)*(^о) + J Ф(^ь т) G (т) й (т) dr. (11.81) /о Подставляя в (81) выражение (79) для й(/), получим х(/1) = ф(/1> /0)х(/0)- -/ ф(/ь т) G (т) G’ (т)Ф’ (t0, x)dxW~'(t0, Ox(f0). (11.82) to *) Матрица R (типа n X n) называется положительно-определенной ма- трицей, если квадратичная форма (£, R& (где % — n-мерный вектор) поло- жительна для всех значений £#=0.
§ 11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 195 Как показано выше (7.24) и (7.25), Ф(Л, *о)Ф(/о, Ц) = Е, Ф(/о, ОФ(,„ т) = Ф(/0, т). Поэтому, учитывая (78), будем иметь л J Ф (/„ т) G (т) G’ (т) Ф‘ (t0, т) dx = /о /, = Ф(/Ь t0) j Ф(/о, ^)Ф(/Ь т) G (т) G* (т) Ф* (f0, v)dx = = Ф(1Ь (11.83) В соответствии с (82) и (83) состояние системы в момент вре- мени t = ti будет следующим: х(/,) = Ф(<11 /О)х(/О)-Ф(*1, t0)W(t0, ix)W-'(t0, Ox(f0) = 0. (11.84) Таким образом, управление (79) действительно приводит систему (75) к моменту времени t = G в нулевое состояние. Заметим, что заданное выражением (79) управление £(/), которое, как здесь доказано, приводит систему (75) к моменту времени t\ в нулевое состояние, не является единственным. Дей- ствительно, управление u (О = u(t) + v(t\ где v(t)—любая r-мерная вектор-функция, удовлетворяющая условию fi J Ф (fb т) G (т) v (т) dx = О, Л) так же, как это следует из (81), приводит систему (75) к мо- менту времени t = t\ в нулевое состояние. Аналогично управление й(о=-е‘(ОФ’ао, t) /лх^-ф^, л)х*] приводит систему к моменту времени t = t\ в точку x(fi) = x*. 2°. Покажем теперь, что если система (75) управляема, то матрица П7(/0, Л) будет положительно-определейной матрицей. Рассмотрим сначала квадратичную форму (g, Wгде g— n-мерный вектор. Согласно (78) будем иметь (£, П>= J <1. Ф00‘Ф‘^^. (11.85) to 7*
196 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Так как для всякой прямоугольной матрицы а типа п X г <1, oa‘|) = gWg, W = ?a, (a*l, ^) = (eW& = W TO <g, = a’g>. (11.86) Таким образом, в соответствии с (86) и (85) для всех g имеет место соотношение л <g, J <С‘Ф‘|. О’Ф‘0 dt > 0. (11.87) t. Чтобы завершить доказательство, остается еще показать, что матрица W является неособой, и тогда соотношение (87) при- мет требуемый вид (g, №g)> 0. Предположим обратное: пусть W является особой матрицей» Тогда существует такой вектор v ¥= 0, что <v, №v) = 0. (11.88) Обозначим теперь через следующий вектор: х(0= ~ G*(W(^ (11.89) Как следует из (89), х(/) является непрерывной функцией от t В соответствии с (89), (86), (78) и (88) будем иметь л h j (х(0, х (/))<# = J <G*a>*v, G‘O*v)d/ = ^0 А. л А = J <v, <t>GG*®'v)dt = (у, j OGG*a>*dfv)-(v, lTv) = 0, (11.90) to откуда следует, что xtfM GoCWi). (Н.91) Учтем теперь, что по сделанному здесь предположению рас- сматриваемая система управляема. Следовательно, существует некоторое управление u(t), которое приводит систему из со- стояния v ¥= 0 (в момент времени t0) в нулевое состояние (в мо- мент времени /1). Аналогично (81) будем поэтому иметь сле- дующее соотношение: 0 = <D(fb t0)v + / Ф(<ь t)G(t)u(t)dt. (11.92) to
§11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 197 Отсюда следует, что V = - Ф (t0, ti) J Ф (th t) G (0 и (/) dt, to или v = - J Ф(/О> t)G (t)u(t) dt. (11.93) Из (91) и (89) следует, что t, 0 = j (x(t), u(t))dt = — J <С*(/)Ф*(А), 0v, u(t))dt. (11.94) Так как для всякой прямоугольной матрицы а (a"v, и) = (cz*v)‘ и = v'au = (v, аи), то из соотношения (94) следует, что « t, - J (v, Ф (f0, t) G (0 и (0> dt = <v, — j Ф (/0, t) G (0 и (t) dt} = 0. tfi ^0 (11.95) В соответствии с (93) соотношение (95) принимает вид <v, v) = 0, (11.96) что противоречит исходному предположению о том, что v=£0. Полученное противоречие возникло вследствие предположе- ния (88) о том, что матрица №(/«, 6) особая. Таким образом, установлено, что матрица IJ7(/o, Л) является неособой матрицей, т. е. ни для какого вектора v ¥= 0 соотношение (88) не может иметь места и, следовательно, (v, lFv)#=0. (11.97) Из соотношений (87) и (97) вытекает, что <|, IF|)>0, (11.98) то есть если система (75) управляема, то матрица 1^(/о>Л) яв- ляется положительно-определенной матрицей. 7. Наблюдаемость линейных нестационарных систем. Рас- смотрим теперь задачу о восстановлении начального значения x(to) по найденной из наблюдений вектор-функции y(t) (t0^.t <Т) для системы ^=Л(0х, (11.99) y(t) = C(t)x. (11.100)
198 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Здесь х — n-мерный вектор, у — р-мерный вектор, А (/) — матрица типа п X п, C(t)—матрица типа р X п. Элементы матриц Л(/) и С(/) являются непрерывными, действительными функциями времени. Если любое начальное состояние x(tQ) может быть опреде- лено по известной на отрезке [/0, Т] вектор-функции y(t), то система называется вполне наблюдаемой на отрезке [/о, Т]. Согласно (80) и (100) х(0 = Ф(/, tQ)x(tQ), (11.101) y(t) = С (0Ф(/, Ш(/о). (11.102) Умножая левую и правую части выражения (102) слева на матрицу Ф*(/,/0) С* (/) и интегрируя по t в пределах от /0 до Г, получим т т / Ф’ (/, /0) С (/) у (/) dt = / Ф* (/, /0) С* (/) С (0 Ф (t, t0) dt X (/0). /о to (11.103) Обозначая т M(t0, Г)= J Ф*а, /о)С*(f)C(ОФ(t, t0)dt, (11.104) to Т n(0, Т)= J Ф*(0 0) С’ (f)y(t)dt, (11.105) можно переписать соотношение (103) так: М(t0, Т)х(t0) = r\(t0, Г). (11.106) Если матрица М (О, Т) неособая, то есть ее определитель отли- чен от нуля, то существует обратная матрица М~1 (О, Т), и тогда уравнение (106) может быть разрешено относительно x(t0): x(t0) = M-l(tQ, T)n(O, Т). (11.107) Таким образом, если матрица неособая, то система (99), (100) вполне наблюдаема. Докажем теперь, что если система вполне наблюдаема, то матрица М (t0, Т) является неособой матрицей. Возьмем некоторое начальное состояние системы х(/0) = и^0. (11.108) Предположим обратное: пусть M(tOf Т)—особая матрица, и <р, Мр) = 0. (11.109)
§ 11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 199 Согласно (102) при начальном условии (108) функция y(t) будет иметь следующий вид: у(0 = <?(0, (11.110) где <7(О = С(ОФ(/, Ш- (11.111) Учитывая, что (СФц, СФр.) = (СФц)* СФц = р*Ф*С‘СФр. = (|х, Ф’С’СФц), будем в соответствии со (104) и (109) иметь j (<?(/), q(t))dt= j (СФц, C<tyi)dt = to to T T = J (и, Ф*С‘СФ|1) dt = (и, j Ф’С*СФ^ = (|Х, М|1) = 0. (11.112) to to Из соотношения (112) следует, что <7(0 = 0 (70<7<П. (Н.НЗ) У вполне наблюдаемой системы при х(/о)=#О вектор-функ- ция y(t) удовлетворяет условию <7(0^0 GoC'CD, (11.114) что противоречит соотношениям (113) и (НО). Полученное противоречие возникло вследствие предположе- ния (109) о том, что у вполне наблюдаемой системы матрица Л4(/о, Т) является особой. Следовательно, если система вполне наблюдаема, то матрица является неособой. Итак, доказана следующая теорема. Система (99), (100) вполне наблюдаема на отрезке [70, Г], если и только если матрица т Wo> 7’) = / Ф’(Л t0}C(t)C(t)<b(t, t0)dt to является неособой матрицей. Заметим, что так как матрица Л1(/о, Т) является матрицей Грама, то в случае, когда det М Т) =f= 0 (как это требуется в доказанной здесь теореме), матрица M(tOl Т) будет положи- тельно-определенной матрицей.
200 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ 8. Условие управляемости линейной стационарной системы в задаче с подвижными концами. Рассмотрим систему, описы- ваемую векторными уравнениями w = Ax + Gu, | (11.115) У = Сх, J где X = X, ' - хп _ , А = ДИ . - ^П1 ’ .. А1п • • ^пп - , G = -GH .. - GrtI .. • Glr- . @пг - » (11.116) У1 £ц . . . с1п и = - иг - > У = - Ур - 9 С = -cpl . •. срп - Элементы матриц Д, G и С предполагаются постоянными. Ранг минимального полинома ф(Х) матрицы А равен т. Через xk (k = 1, п) обозначены фазовые координаты си- стемы, щ (1= 1, г)—приложенные к системе управляющие силы (управления). Через уз (/ = 1, ...» р; р п) обозначены определяемые со- гласно (115) линейные комбинации фазовых координат хь. ..,хп. Целью управления является приведение вектора у (t) к моменту времени t = Т в заданное состояние = (Н.117) В соответствии с (115) векторное уравнение (117) эквивалент- но следующей системе скалярных уравнений: ^lcikxk{T) = Kl (/=1.......р). (11.118) k= 1 Условия (118) означают, что изображающая точка (хь ..., хп) должна быть приведена в момент времени t = Т на (и — р) -мер- ную плоскость n-мерного пространства X, определяемую соотно- шениями = (/=1, ...» р). (11.119) & = 1 Условия, при которых такое приведение является возможным, получили название [36] управляемости по у. Теорема. Для того чтобы система (115) была вполне упра- вляемой по у, необходимо и достаточно, чтобы ранг матрицы P = [CG С AG CA2G ... СД'"~,О] (11.120) был равен р.
§ 11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 201 Доказательство теоремы. Так как согласно (115) t x(t) = eAtx(0) + j eA^Gu(x)dx, (11.121) о то соотношение (117) принимает вид т eA,T~x}Gu(x)dx = — СеАгх(0) + К. (11.122) О Обозначая через z(t) вектор 2(/) = С^х(0)-^ (11.123) можно переписать соотношение (122) так: т С j eA(T~x^Gu.(x)dx = — z(T). (11.124) о Согласно (10.58) m—1 eA(T-t)= 2 ak(T — x)Ak, (11.125) k—0 и поэтому C J eA<T~x>Gu(x)dx = ”^CAkG j u(x)ak(T-x)dx. (11.126) о л=о 0 Соотношение (124) можно теперь переписать так: [CG С AG CA2G ... CAm~'G]x 1 j u(r)a0(T — x)dx 0 т J и (т) aj (Т — т) dx 0 = -z(T). T J u(x)am-{(T -x)dx о (11.127) Далее будем считать, что число управлений г выбрано так, что выполняется условие q = tnr^ р. (11.128)
202 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ Матрица Р, которая определена соотношением (120), яв- ляется прямоугольной матрицей типа р X q: LPpI Р\2 • • • Р\q ~ Рр2 • • • Ppq - (11.129) Через § обозначим вектор, элементы которого (j = 1, ..., q) имеют следующий вид: т £1 = / «I СО Оо(Т — х) dx, о т &> = j «2 СО Оо (Т - т) dx, о т 1г = / «Г (О “о (Т - О dx, о т gr+! = J Щ (т) cq (T — x)dx, о (11.130) т lq = J* Ur (т) ат_! (Г - О dx. о Векторное уравнение (127), таким образом, принимает следую- щий вид: Pl—— z(T). (11.131) Векторному уравнению (131) соответствует система из р ска- лярных уравнений относительно q (где g > р) неизвестных U •••> Pllll + Л2&2 + • • • + Piqlq — ~ Z\ (Л. Pplll + Pplli + • • • + Ppqlq ~ ~ Zp (T). (11.132) Если обозначить через Щ (k = 1, ..., q) векторы nfe = Pik * Ppk - (11.133)
§11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 203 то систему уравнений (132) можно представить так: 2П^ = -г(Т). (11.134) fc=! Таким образом, вектор г мт является линейной комбинацией векторов Щ (6=1, q), где р. Так как вектор z(T) может быть любым, то из усло- вия разрешимости уравнения (134) относительно gb g7 следует, что для того чтобы система (115) была вполне управ- ляемой по у> необходимо и достаточно, чтобы среди векторов Пл (&= 1, ...,(?) имелось р линейно независимых векторов, то есть чтобы ранг матрицы Р был равен р. Теорема доказана. Система значений ..., gg, удовлетворяющая уравнениям (132), в случае, когда q>p, будет не единственной. Определив значения gi, ..., gg, надо из соотношений (130) найти закон управления щ = Ui(t) (0^ Г; I = 1, ..., г). Эта задача так- же допускает не единственное решение. Покажем в качестве примера, что одним из возможных управлений, обеспечивающих выполнение условия (117) У(Т) = К, является управление «(/)=- G’e'4*<7'“/)C‘4f_| [сЛ(0)-4 (11.135) где через Ч1* обозначена квадратная матрица типа р X Р'. т Чт= J CeA^~x}GG*eA*^T~x’>C* dx. (11.136) о Действительно, при и = й(1) имеем т СеАТ J e~AxGu (т) dx = о = - J СеА (Т~х}GG*eA* {Т~Х}С W1 [Селгх (0) -/<]=- СеАТх (0) + К. о (11.137)
204 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ В соответствии с (115), (121) и (137) у(Т) будет т у (Т) = СеАтх (0) + J СеА <T~^Gu (т) dx = К, о то есть соотношение (117) удовлетворяется. Выше (135) предполагалось, что матрица Ч1*-1 существует. В п. 9 будет показано, что если система (115) вполне управляе- ма по у, то Ч1* является положительно-определенной матрицей, и, следовательно, обратная матрица Ч'-1 существует. 9. Условие управляемости линейной нестационарной системы в задаче с подвижными концами. Для системы, описываемой векторными уравнениями ^-=A(t)x + G(t) и, y — G{t)x, (11.138) рассмотрим задачу о приведении вектора y(t) к моменту вре- мени t = t\ в заданное состояние = (11.140) Эта задача была изучена в п. 8 для линейных стационарных систем, где возможность выполнения соотношения (140) была названа управляемостью по у. Теорема. Пусть Ф(Л т) = 0(/)0-1 (т), где 0(/)—фундамен- тальная матрица решений системы, описываемой однородным векторным дифференциальным уравнением % = A(t)x, (11.141) а через V(f0, Л) обозначена матрица л V(tQ, /1)= ( С(ОФ(/Ь т) G (т) G* (т) Ф* (fb т)С*(^1)йт. (11.142)
§11. УПРАВЛЯЕМОСТЬ И НАБЛЮДАЕМОСТЬ ЛИНЕЙНЫХ СИСТЕМ 205 Линейная нестационарная система (138) вполне управляема по у на отрезке времени если и только если матрица V(/o, ^i), определяемая выражением (142), является положитель- но-определенной матрицей. Доказательство теоремы. Г. По условию теоремы матрица V(6), Л) является положи- тельно-определенной матрицей. Следовательно, она является не- особой матрицей, то есть det V(/o, 0. Поэтому обратная мат- рица К-Ц/о, Л) существует, и можно выбрать вектор управ- ляющих сил u(t) в следующем виде: й(0 = - с’(0Ф’(Л. tyc^v-'ik, Л)[С(Л)Ф(*1, t0)x{t0)-я]. (11.143) Согласно (138) состояние системы в момент времени t = t\ будет к (/J = Ф(/ь /0) *(^о) + J Ф (^i, т) G (т) и(х) dx. (11.144) При управлении u = u(t) в соответствии с (138) и (144) будем иметь //(Z1) = C(f1)x(/I) = = С(<,)Ф(^, WxW + CW J Ф(/ь т) G (т) й (т) dx. (11.145) Так как /« с (Л) j Ф(Л, т) G (т) й (т) dx = ^0 Л = - j ОДФ(Л, x)G(x)G'(x)& (tx, x)C(tx)dxV~'(t0, tx)X Х[С(Л)Ф(/Ь ta)x(t0)-K]=-C(tx)<S>(tx, f0)x(/0) + K, (11.146) то выражение (145) принимает вид Таким образом, управление й(/), определяемое выражением (143), обеспечивает выполнение соотношения (140). Заметим, что заданное выражением (143) управление u(t), которое, как здесь доказано, приводит вектор y(t) в состояние у(Л)= К, не является единственным. Действительно, управление м(0 = й(0 + о(0, (11.147)
206 ГЛ. 3. СИСТЕМЫ С КОНЕЧНЫМ ВРЕМЕНЕМ УПРАВЛЕНИЯ где v(t)—любая r-мерная вектор-функция, удовлетворяющая условию С (О J Ф(л, T)G(T)o(T)dT = 0, (11.148) to так же, как это следует из (145), приводит вектор y(t) к мо- менту времени t = в состояние y(ti) = K. Первая часть тео- ремы доказана. 2°. Доказательство второй части теоремы о том, что если си- стема (138) вполне управляема по у, то матрица V(/o, Л) будет положительно-определенной матрицей, полностью повторяет до- казательство аналогичного утверждения для матрицы W(tQ, Zi), приведенное в п. 6, раздел 2°, стр. 195.
Глава 4 МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ § 12. Оптимальное управление в системах с ограниченными ресурсами 1. Вариационные задачи в теории управления. В § 11 при рассмотрении вопросов управляемости на управляющие силы не накладывались априорные ограничения. Равным образом счита- лись допустимыми любые возможные (при выборе тех или иных управляющих сил) законы изменения во времени фазовых коор- динат системы. В действительности, однако, ресурсы управляемой системы ограничены. Так, например, возможны ограничения модуля уп- равляющей силы, мощности источника управления и др. По тем или иным причинам может также оказаться, что допустимые от- клонения некоторых фазовых координат системы ограничены и т. д. Выбор закона управления (то есть закона изменения управ- ляющих сил), с учетом указанных выше ограничений, опреде- ляется целью управления. В общем случае целью управления можно считать достижение экстремума некоторого функционала, который характеризует собой критерий оптимальности системы Q(x, z, iz, /) = min. (12.1) Здесь х — n-мерный вектор, элементы которого *i, ..., хп яв- ляются фазовыми координатами системы, z—m-мерный вектор, элементы которого Zi, ..., zm являются входными сигналами, которые должна воспроизводить (или преобразовывать задан- ным образом) система, и — r-мерный вектор, элементы кото- рого «1, ..., иг являются управляющими силами, t — время. Функционал Q является числом, зависящим от вида вектор- функций x(t), z(t), u(t). Так, например, функционал Q может иметь вид т Т Q = S /[М')-2' ^dt, (12.2) /=1 6 где Т — некоторая фиксированная величина. Функционал Q, зависящий согласно (2) от вида функций xG. (/), Zi (/) (f=l, ... ...,m) на интервале времени 0<t<T является мерой
208 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ качества воспроизведения управляемой системой входного век- торного сигнала z(t). Во многих задачах требуется, чтобы траектория изображаю- щей точки, проходящая через две заданные в фазовом простран- стве точки х(0) и х(Т), где Т — фиксированная величина (то есть, фазовая траектория, переводящая систему из начального состояния х(0) в некоторое заданное состояние х(Г), где Т — наперед заданный момент времени), доставляла минимум (или максимум) некоторому функционалу т Q = J G(x(t), u(t), t)dt, (12.3) О где G — некоторая ограниченная скалярная функция переменных Xi, ..., xn, 1Ц, 112, - - - , ur, t. Вид функции G(x, и, /) определяется для каждой конкретной задачи. Так, например, если задано конечное состояние системы х(Т), но не фиксировано заранее значение конечного момента времени Г, а функция G имеет вид G = 1, получим, что Q = Г, и условие (I) Q = min примет вид Т = min. Мы приходим, та- ким образом, к задаче о быстродействии, в которой надо найти такой закон управления u = u(t), удовлетворяющий наложен- ным на и ограничениям, при котором система была бы пере- ведена за минимальное время Т из начального положения х(0) в заданное конечное положение х(Т). Изложенное характеризует постановку задач теории опти- мального управления. Эти задачи представляют собой вариа- ционные задачи на условный экстремум функционалов, вид ко- торых определяется принятым критерием оптимальности управ- ляемой системы. 2. Метод динамического программирования Р. Веллмана. Принцип оптимальности. Рассмотрим управляемую систему описываемую следующей системой скалярных дифференциаль- ных уравнений: -^- = //(х1, хп, щ, ...» ur) (j=l, п). (12.4) Здесь Xi, ..., хп— фазовые координаты системы, ..., иг —
§ 12. СИСТЕМЫ С ОГРАНИЧЕННЫМИ РЕСУРСАМИ 209 можно заменить систему скалярных дифференциальных урав- нений (4) следующим векторным дифференциальным урав- нением: = «)• (12.6) Полагая, что на управляющие силы Uj, ..., иг наложены некоторые ограничения, потребуем при выборе этих сил выпол- нения условия ugQ, (12.7) где Q— некоторая область в пространстве (»ь .... иг), опреде- ляемая видом наложенных ограничений. Пусть целью управления является минимизация функцио- нала т Q= J u(t))dt, (12.8) о где G — некоторая ограниченная скалярная функция перемен- ных %1, хп, щ, ..., ur, а Т — заданная фиксированная ве- личина. Метод динамического программирования основывается на сформулированном Р. Веллманом [8] принципе оптимальности. Этот принцип имеет место для систем, последующее движение которых полностью определяется состоянием этих систем в лю- бой текущий момент времени. К таким системам относятся, на- пример, системы, описываемые дифференциальными уравнения- ми (4), где под состоянием подразумевается положение системы в фазовом пространстве, системы, описываемые уравнениями в конечных разностях с дискретным аргументом и др. Принцип оптимальности сформулирован Веллманом так: Оптимальное поведение обладает тем свойством, что, каковы бы ни были первоначальное состояние и решение в начальный момент, последующие решения должны составлять оптимальное поведение относительно состояния, получающегося в результате первого решения. Указанная формулировка принципа оптимальности (назван- ного Веллманом интуитивным) относится к системам весьма общего вида. Для управляемых систем, описываемых дифферен- циальными уравнениями (4), под «поведением» системы следует понимать движение этих систем, а термин «решение» относится к выбору закона изменения во времени управляющих сил.
210 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Если в понятие состояния системы в данный момент времени Г включить и предысторию изменения фазовых координат си- стемы на интервале последействия — т < t < t*f то сформули- рованный здесь принцип оптимальности будет справедлив и для систем с последействием, то есть для систем, описываемых диф- ференциально-разностными уравнениями. Для систем, описываемых дифференциальными уравнениями (4), принцип оптимальности совпадает с хорошо известным фак- том, что часть экстремали является снова экстремалью. В качестве примера [85] на рис. 12.1 показана проходящая через заданную точку х(0) оптимальная траектория системы (4), то есть траектория, минимизирующая при условии (7) функ- ционал (8), в котором значение Т предполагается фиксирован- ным. Значение х(Т) предполагается здесь заранее неизвестным. Точка x(t\) разбивает рассматриваемую траекторию на два уча- стка 1 и 2. Участку 2 соответствует функционал т Q2= $ (12.9) Л Участок 2 может рассматриваться и как самостоятельная траек- тория. Эта траектория будет оп- тимальной, если она доставляет минимум функционалу (9). Принцип оптимальности утвер- ждает, что участок 2 оптималь- ной траектории 1—2 сам по себе является оптимальной траекто- рией системы (4), состояние ко- торой при t = t\ есть Если допустить противное, го существует (рис. 12.1) другая траектория 2', доставляющая функционалу (9) значение мень- шее, чем доставляет траектория 2. Но тогда на интервале вре- мени (0, Г) оптимальной будет не траектория 1—2, а траекто- рия 1—2'. Мы пришли к противоречию с исходными данными о том, что траектория 1—2 является оптимальной. Полученное противоречие и доказывает, что участок 2 оптимальной траекто- рии 1—2 является в свою очередь оптимальной траекторией си- стемы (4) на интервале времени (Л, Г). Заметим теперь, что утверждения принципа оптимальности относятся к последующему за данным состоянием движению си- стемы. Для предшествующего данному состоянию движения си- стемы они, вообще говоря, могут не иметь места. Так, например, если задано лишь начальное состояние систе- мы х(0), то участок 1 оптимальной траектории 1—2 может сам
§ 13. ПРИМЕНЕНИЕ К ДИСКРЕТНЫМ СИСТЕМАМ 211 по себе и не быть оптимальной траекторией, то есть может и не доставлять минимума функционалу tx Qi= j* G(x(t), (12.10) 0 Только в том случае, когда задана конечная точка х(Л) уча- стка Л этот участок сам по себе также будет оптимальной тра- екторией. Таким образом, для управляемых систем принцип оптималь- ности утверждает, что выбор оптимального управления опреде- ляется лишь состоянием системы в текущий момент времени. Это утверждение дает возможность получения приведенных ниже функциональных уравнений, определяющих закон измене- ния управляющих сил в задаче об оптимальном управлении. Развитый Веллманом метод определения оптимального упра- вления тесно связан с задачей вариационного исчисления о рас- пространении возбуждения [24] и приводит к уравнениям типа уравнений Гамильтона — Якоби в частных производных. Для дискретных систем метод Веллмана дает возможность многоэтапного определения управляющих сил. § 13. Применение динамического программирования к дискретным системам 1. Рекуррентное соотношение Веллмана. Многие управляе- мые системы описываются уравнениями в конечных разностях. Такие системы принято называть дискретными системами. К ди- скретным системам относятся импульсные системы, системы, в состав которых входят цифровые вычислительные устройства, и т. д. Системы, описываемые дифференциальными уравнениями, принято (в этом смысле) называть системами непрерывного дей- ствия. Любой системе обыкновенных дифференциальных уравнений можно поставить в соответствие эквивалентную ей систему урав- нений в конечных разностях с непрерывным аргументом [77]. Для этого необходимо проинтегрировать заданную систему диф- ференциальных уравнений на конечном интервале времени + 8 t < tQ + 8 + т, где т — фиксируемый интервал дискрет- ности, а 8 (где 0 < 8 < т) — параметр, соответствующий некото- рой точке, расположенной внутри интервала дискретности. Коэф- фициенты указанной системы уравнений в конечных разностях будут зависеть от 8 и решение этой системы уравнений будет определять состояние рассматриваемой системы для любого мо- мента времени t.
212 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Полученная описанным способом система уравнений в конеч- ных разностях будет представлять собой точные функциональ- ные уравнения, связывающие между собой состояния системы в моменты времени, отстоящие друг от друга на величину, рав- ную интервалу дискретности т. Если ограничиться изучением состояния системы лишь в ди- скретные моменты времени, промежутки между которыми рав- ны интервалу дискретности т, то можно фиксировать значение параметра е, и тогда мы получим систему уравнений в конечных разностях с дискретным аргументом. Решение этой системы уравнений будет точно определять состояние системы в дискрет- ные моменты времени, отстоящие друг от друга на величину т = const. Положение этих моментов времени внутри интервала дискретности фиксировано выбором параметра е. Получение указанных выше уравнений в конечных разно- стях, точно описывающих управляемую систему непрерывного действия, в достаточно сложных задачах может оказаться гро- моздким. Приближенные уравнения в конечных разностях можно по- лучить следующим образом. Пусть управляемая система, описывается скалярным диффе- ренциальным уравнением 4г = /1(х(0, й(0), (13.1) где х — координата системы, а й — управляющая сила, которая должна удовлетворять ограничению ueQ. (13.2) Начальное состояние системы задано [*WUo = *(°)> и требуется найти управление й = u(t), доставляющее минимум функционалу Q = j Gitxtf), u(t))dt + q>(x(T)), (13.3) О где Т — некоторая фиксированная величина. Будем считать, что T = Nx, (13.4) где N — некоторое целое число, а т = const — достаточно малая величина, которую мы примем в качестве интервала дискретно- сти. Ограничимся здесь изучением состояния системы лишь в дискретные моменты времени /==№ (Ф = 0, 1, 2, ..., N). (13.5)
§ 13. ПРИМЕНЕНИЕ к ДИСКРЕТНЫМ СИСТЕМАМ 213 Так как dx ~ х (/ + т) — х (/) _ х (От + т) — х (От) /1оя\ dt ~ т т ’ (13.6) то исходное дифференциальное уравнение (1) можно заменить следующим приближенным соотношением: х(Фт + т) — х(Фт) = (х (Фт), u(ftx)). (13.7) Левая часть соотношения (7) представляет собой первую разность функции x(t), и поэтому соотношение (7) представляет собой уравнение в конечных разностях относительно неизвест- ной скалярной функции х('От). Так как аргумент функций х и й в правой части уравне- ния (7) является дискретным, то уравнение (7) является урав- нением в конечных разностях с дискретным аргументом, и его решение определяет состояние системы лишь в дискретные мо- менты времени t = От (О = 1, 2, ...). Функционал (3) аппроксимируем интегральной суммой N-1 Q = t5 GJx^t), й (Фт)) + qp (х (Nx)). (13.8) Обозначая x('ft) = х('&т), и (ft) = й ('О'т), (13.9) «(&)) = ?Л(х(О), «(&)), 1 m(^)) = tG1(x(H ii(tf)), J (13,10) придем в соответствии с (7), (2) и (8) к следующей задаче. Для системы, описываемой скалярным уравнением в конеч- ных разностях с дискретным аргументом x(U+ i) = x(ft) + f(x(ft), u(ft)), (13.11) начальное состояние которой задано kW]a=o = x(O), (13.12) найти управление u = u(ft), удовлетворяющее ограничениям «ей (13.13) и доставляющее минимум сумме w-i Q= 2 G(x(O), u(0))+<p(x(AO), (13.14) й=0 где N — некоторая фиксированная величина. Ниже при рассмотрении дискретных систем мы будем исходить из урав- нений вида (11) — (14) (полагая в общем случае, что х, u, f являются век- торами соответствующей размерности), не входя более в обсуждение вопроса
214 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ о том, как эти уравнения получить для конкретной системы, но полагая, од- нако, что эти уравнения являются точными (так как вообще точные раз- ностные уравнения вида (И) могут быть получены). Погрешность решений, доставляемых разностными уравнениями, получен- ными при помощи аппроксимации вида (6) (приведенной здесь лишь в виде иллюстрации), может оказаться весьма значительной, и приемлемость такой аппроксимации должна каждый раз обосновываться. Этот вопрос требует, однако, специальных исследований и здесь обсуждаться не будет. Поставленная выше задача, описываемая уравнениями (11)—(14), состоит в том, чтобы найти совокупность значений w(0), w(l), и(2), . .., u(N—1), которая минимизирует сумму (14) при условиях (11), (12), (13). Решение задачи начнем с последнего интервала времени (N—l)r^f<7Vr, предполагая, что состояние х(М—1) нам известно. Согласно принципу оптимальности управление и на интервале времени (N—должно быть выбрано с учетом ограничения (13) так, чтобы минимизировать соответ- ствующую этому интервалу времени частичную сумму QAr_1 = G(x(y-l), u(N — I)) + q>(x (N)). (13.15) Так как согласно (11) x(N) = x(N-l) + f(x(N — 1), u(N — 1)), (13.16) то выражение (15) принимает вид Q^1 = G(x^-l), u(N —l)) + <p[x(7V— 1) + f(x(N — 1), u(AT— 1))]. (13.17) Поскольку состояние x(N—1) предполагается известным, то выражение (17) зависит лишь от одной неизвестной величины u(N—1), которая должна быть найдена с учетом ограничения (13) из условия минимизации величины QN_ь Найденное опти- мальное значение u(N—1) обозначим через u*(N—1). Полу- чаемое при этом минимальное значение Qn-i обозначим через min Q/v-i = = S/v-i (x (N — 1)). (13.18) u(N-1)<==Q В (18) явно указано, что минимальное значение QN_i зависит от состояния системы х(М— 1). В соответствии с (17) соотношение (18) можно переписать так: 1))= min Qn-i = и (#-!)€= 2 = min [G(x(N— 1), u(N — 1))+ <p(x(W))] = = min {G(x(y-1), u(N — 1)) + <p[x(A7— 1) + и (#-!)€= 2 + f (x(A7 - 1), u(N - 1))]}. (13.19)
§ 13. ПРИМЕНЕНИЕ К ДИСКРЕТНЫМ СИСТЕМАМ 215 Рассмотрим теперь интервал времени (N — 2)x^t<Nx, со- стоящий из последнего и предпоследнего интервалов. Согласно (14) этому интервалу времени соответствует частичная сумма Qjv_2=G(x^-2), «(У-2)) + 0(х(У-1), и(ЛГ-1)) + ф(х(Л0) (13.20) или в соответствии с (15) Qtv-2 = G (х(Л/'— 2), u(N-2)) + Qn^. (13.21) Состояние x(N — 2) будем предполагать известным. Из прин- ципа оптимальности следует, что лишь состояние х(М — 2) и цель управления (минимизация QN-2) определяют оптимальное управление на интервале времени [(М — 2)т, Nx). Найдем теперь величину S\-2, то есть минимум Qn-2 по u(N — 2) и — 1). Учтем при этом, что минимум по u(N— 1) частичной суммы Qn-i уже найден выше и этот минимум Sjv-i = 5дг-1 (х (ЛЛ — 1)) представлен в виде функции от x(N—1). Так как согласно (11) x(N- 1) = х (дг — 2) + / (х (АГ — 2), u(N-2)), (13.22) то принимает теперь вид Sjv-i (х (N - 1)) = [х (N - 2) + f (х (N - 2), и (N - 2))]. (13.23) Поскольку первое слагаемое в правой части (21) не зависит от u(N—1), то будем иметь Sn_2(x(N -2)) = min Qn-2 = и (ЛГ-2) е й u(7V-1)g= Й = min [G(x(Af —2), u(N-2)) + Sn_{(x(N - 1))] = и (У-2) ей = min {G(x(W-2), u(N - 2)) + [x(N - 2) + и (7V-2)e= Й + f(x(N -2), u(^-2))]}. (13.24) Таким образом, выражение (24) приведено к такому виду, что минимизацию требуется выполнить лишь по одной переменной, а именно по u(Af— 2). Найденное при этом значение u(W— 2) и будет искомым оптимальным значением, которое мы обозна- чим через u*(N — 2). Из выражения (24) видно, что выбор u(N— 2) из условия минимума одного лишь первого слагаемого в выражении (21), то есть из условия применения принципа оптимальности лишь к интервалу (N — 2)x^.t<(N—1)т, был бы ошибочным, что и указывалось выше при обсуждении принципа оптимальности.
216 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Обратимся теперь к интервалу времени (W— 3)т^/<Л/т, состоящему из трех последних интервалов. Этому интервалу вре- мени согласно (14) соответствует частичная сумма Qy_3 = G (х (Af--3), u(2V-3)) + G(x(Af-2), u(N-2)) + + G(x(N — 1), u(N — 1)) + ф(х(Л0) (13.25) или согласно (20) Qw-з = G (x (N - 3), и (N - 3)) + QN_2. (13.26) Состояние x(N— 3) будем предполагать известным. Согласно принципу оптимальности лишь состояние x(W— 3) и цель управ- ления (минимизация Qn-з) определяют оптимальное управление на интервале времени [(W — 3)т, Nx). Найдем теперь величину то есть минимум QNs по u(N — 3), u(N — 2) и u(N—I). Учтем при этом, что минимум по u(N — 2) и u(N—1) частичной суммы QN-% уже найден выше (24) и этот минимум SjV-2 = Sy-2 (X (N — 2) ) представлен в виде функции от x(W — 2). Так как согласно (11) х(У-2) = х(У-3) + Нх(ЛГ-3), и(К-З)), (13.27) то S/y-2 имеет вид Sy-2U(^-2)) = S^2[x(Ar-3) + Hx^-3), и(У-З))]. (13.28) Поскольку первое слагаемое в правой части (26) не зависит от u(N — 2) и u(N— 1), то будем иметь Sn_3(x(N — 3)) = min Qw_3 = и (7V-3) е Q и(Лг-2)е2 и (ДГ— 1) Q = min [G(x(JV-3), u(N— 3)) + Sn_2(x(N— 2))] = и (ЛГ-З) е 2 = min {G(x(AT —3), и(ЛГ —3)) + u (W-3) e 2 + SN_2 [x (N - 3) + f (x (N - 3), и (N - 3))]}. (13.29) Выражение (29) приведено к такому виду, что минимизацию требуется выполнить лишь по одной переменной, а именно по и (Л7 — 3). Найденное при этом значение u(N — 3) будет иско- мым оптимальным значением, которое мы обозначим через u*(N — 3).
§ 13. ПРИМЕНЕНИЕ К ДИСКРЕТНЫМ СИСТЕМАМ 217 Нетрудно теперь получить общую (рекуррентную) формулу, рассматривая интервал времени (Л/ — k)x^.t<Nx (6 = 2, 3, .... N). Аналогично (24) и (29) будем иметь SN-k(x(N min QN-k = " B u(N-k)ea u(W-l)s2 = min {G (x (N — k), и (N — k)) + + S N_k+\[x(N — k) + f (x(N — k), u(N — k))}} (fe = 2, 3.N). (13.30) Выражение (30) приведено к такому виду, что минимизацию требуется выполнить лишь по одной переменной, а именно по u(W— k). Найденное при этом значение и(М — k) будет иско- мым оптимальным значением, которое мы обозначим через и* (N — k). Таким образом, при помощи (19) и (30) будут найдены u(N- 1) = m(x(W- 1)), M’(W-2) = u(x(W-2)), н*(1) = й(х(1)), и* (0) = u(x(0)). (13.31) В выражениях (31) явно указано, что найденные из рас- смотрения частичных интервалов времени [(Af — /)т, Nx) (j — 1, 2, ..., N) значения u*(N— j) выражены в виде функций от состояния системы х(М—/) в начале частичного интервала. Так как состояние х(0) задано, то значение и*(0) опреде- ляется. Тогда согласно (11) найдется состояние х(1) и опреде- лится значение и*(1). После этого согласно (11) найдется со- стояние х(2) и определится значение м*(2) и т. д. Таким образом, изложенный метод позволяет полностью оп- ределить оптимальное управление на заданном промежутке вре- мени [0, Nx). В построенном выше алгоритме динамического программи- рования для системы (11) существенную роль играло предполо- жение о том, что конечный момент времени функционирования системы Т = Nx фиксирован. Построение алгоритма динамиче- ского программирования для случая, когда значение Т заранее не фиксировано, как это имеет место, например, в задаче о бы- стродействии, приводится ниже. 2. Многомерные дискретные системы. Построенный выше для системы (11) алгоритм динамического программирования можно применить и для системы, описываемой веютопным упавнением
218 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ в конечных разностях или системой скалярных уравнений в ко- нечных разностях xJ^+l) = xJ^) + fi(xl(^ XnW, uJO), ur&)) (13.32) (/=1, n). Вводя векторы где для краткости обозначено fj(x> u) = fl{xl, .... хп, ut.............м,), можно систему разностных уравнений (32) заменить векторным разностным уравнением x(i>+l) = x(1>) + f(x(1>), и (О)). (13.34) Функции Q, G и ф, входящие в выражение (14), будут в рас- сматриваемой здесь задаче скалярными функциями векторных аргументов х('О), ц('О) (0 = 0, 1, N—1) и x(N). Как нетрудно видеть, соотношения (19) и (30) сохраняют здесь свой вид, если только под х, и и f подразумевать век- торы (33). Существенное отличие состоит, однако, в том, что выраже- ние в фигурных скобках в правой части соотношения (19) те- перь будет функцией г скалярных переменных Ui(W—1), —I), ..., ur(N—1) и минимум этой функции должен быть найден по вселМ этим переменным. Аналогично и в соотно- шении (30) должен быть найден минимум по г переменным u^N — k), u2(N — k), ..., ur(N — k). Скалярная функция SN-j = SN_j(x(N — j)) является теперь функцией векторного аргумента x(N— j). Опре- деляемое на каждом этапе оптимальное управление — вектор u*(N — j), аналогично (31) будет функцией состояния системы и*(У-/) = й(х(^-/)) (/ = 1, N). (13.35) Функция й(х(М— /)) является векторной функцией векторного аргумента x(N — j).
§ 14. ПРИМЕНЕНИЕ К СИСТЕМАМ НЕПРЕРЫВНОГО ДЕЙСТВИЯ 219 § 14. Применение динамического программирования к системам непрерывного действия 1. Задача с фиксированным временем и свободным концом траектории. Рассмотрим управляемую систему, описываемую векторным дифференциальным уравнением = (14.1) где х, и и f— векторы следующего вида: Начальное состояние системы задано k(OL=o = *(O). (14.2) (14.3) Требуется найти управление и = u(t), удовлетворяющее огра- ничениям ueQ (14.4) и доставляющее минимум функционалу т Q = J G(x(t), u(t), t)dt, (14.5) О где Т — некоторая фиксированная величина. Пусть найдена оптимальная траектория системы (1) (рис. 14.1), проходящая через заданную точку х(0), то есть траектория, минимизирующая при условии (4) функционал (5). Значение х(Т) в рассматривае- мой задаче заранее не задано. Минимальное значение функ- ционала Q, соответствующее оп- тимальной траектории, обозначим через S(x(0), 0). На рис. 14.1 указаны поло- жения изображающей точки на оптимальной траектории в мо- менты времени t и t' = t + А/-. Состояние системы в момент времени системы в момент времени t' = t + А/ х (t + А/) = х (f) = х'. (14.6) X, т/Т) i(0) о 'г Рис. 14.1. t будет x(t). Состояние обозначим так:
220 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Согласно принципу оптимальности участок оптимальной тра- ектории от точки x(t) до точки х(Т) сам по себе является опти- мальной траекторией, которая доставляет минимум функционалу т Qt= j G(x, u,v)dv. (14.7) t Это минимальное значение функционала (7) обозначим через S(x(t),t) или для краткости S(x, t). Аналогично участок оптимальной траектории от точки x(t') (где t' ~ t + А/) до точки х(Т) также сам по себе является оп- тимальной траекторией, доставляющей минимум функционалу т Qf = J G (х, и, v) dv (t' = t + Д/). (14.8) t' Минимальное значение функционала (8) обозначим так: S (х (t + ДО, t + ДО = S (х', О). (14.9) По принятому выше определению т 5(х, 0= m*n f G(x(v), и (у), v)dv. (14.10) и (v) е Q J Интеграл в правой части выражения (10) можно, учитывая ма- лость А/, представить так: т J G(x(v), u(v), v)dv = J G(x(v), u(v), v)dv + t t т + J G (x (v), и (v), v) dv = G (x (/), и (/), t) At + T + O!(A0+J G(x(v), u(v), v)dv, (14.11) t' предполагается, что функция u(t) непрерывна на полуинтер- вале [t, t + At). Выражение (10) принимает вид S(x, t)= min [G(x(0, u(t), t)At + т + min f G(x(v), u(v), v) dv] + Oj (At). (14.12) W(v)eQ J
§ 14. ПРИМЕНЕНИЕ К СИСТЕМАМ НЕПРЕРЫВНОГО ДЕЙСТВИЯ 221 Первое слагаемое в квадратной скобке в выражении (12) зави- сит лишь от значения управления и в момент t, то есть от u(t). Второе слагаемое в квадратной скобке надо минимизировать на множестве всех допустимых управлений и (у) в интервале вре- мени t' < v < Т. Это минимальное значение, которое мы обозна- чили через S(x', f), является в свою очередь функцией от со- стояния системы х' = x(t'). Последнее же зависит от управле- ния и на интервале (/, t + Д£) или, с точностью до О1(А0» от значения u(t) в момент времени t. Поэтому в соотношении (12) минимизируется по u(t) все выражение, заключенное в квадрат- ные скобки, а не только его первое слагаемое. Учитывая принятое здесь обозначение т S(x', t')= min f G(x(v), u(y)t v)dvt (14.13) U (v).e Q «J перепишем соотношение (12) так: S(x, t)= min [G(x(f), u(t), t)M + S(x\ + (14.14) и (0 e: Q Нетрудно видеть, что соотношение (14), которым связаны S(x,t) и S(x', f), можно получить также из (13.30), если учесть, что моментам вре- мени (АГ — k)x и (N — k + 1)т здесь соответствуют моменты времени t и t' » t + At Заметим при этом, что в функционале (13.3) подынтегральная функция была обозначена через а входящая в выражение (13.30) функция G согласно (13.10) имеет вид G == тбь Поэтому вместо функции G(x(N— k),u(N — &)), входящей в выражение (13.30), здесь в соответствии с (5) надо подставить функцию G(x(t), u(t), t)&t = G(x, ut t) At Таким образом, рекуррентное соотношение (13.30) здесь должно быть заменено соотношением S (х, t) = min [G (х (t), u(t), t) + S (х\ tf)] + О[ u(t)*=Q где oi (A/) — величина высшего порядка малости, чем At Эта величина до- бавлена потому, что при выводе соотношения (13.30) мы исходили из раз- ностного уравнения (13.7), которое было получено при помощи приближен- ного соотношения (13.6), содержащего погрешность порядка Oi(t). Входя- щее в выражение (13.6) приращение аргумента т здесь заменено через At Заметим, что в соответствии с (1) хг = х (t + А/) = х (/) + А/ + о2 (М = = x(0 + f(x(0, u(t), f)Af + o2(A0, (14.15) Предположим теперь, что функция S непрерывна и всюду имеет непрерывные частные производные по всем своим аргу- ментам dS /.1 \ д$ <‘ = 1...
222 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Это предположение весьма существенно, так как во многих задачах оно не имеет места и для этих задач последующие рас- суждения требуют дополнительного обоснования [14J. При сделанном выше предположении будем в соответствии с (15) иметь 5 (%', f) = S(x(t + Д/), t + kt) = = S(x(t) + f(x(t)> u(t), /)Д/ + о2(А/), / + Д/) = п = S(x, 0 + S dSdx.t} f^x’ и> OAZ + ^^-AZ + o3(AZ). (14.16) 1=1 * Обозначая через <gradS,f) = ^1+^2 + ... + -^fn, (14.17) скалярное произведение векторов ~ dS ~ dxi fl (x, u, t) grad S = . . . , f (x, ll, t) = dS . dxn _ fn(x, U, t) можно переписать выражение (16) так: S(x', t') = S(x> /) 4-(grad S(x, t), f(x, uy t)) kt + + ~^AZ + o3(AZ). (14.18) Подставляя выражение (18) в соотношение (14), получим S(x, f) = min [g (x, u, + S(x, t) + + <gradS(x, t), f(x, u, /)> M+ dS \t + o3 (ДП] + о. (AZ). (14.19) Согласно (10) функция S(x, t) получена в результате миними- т зации функционала J G(x(v), и (v), v) dv по и на интервале t t<v<T, то есть функция S(x,t) уже не содержит и. По- этому содержащиеся в квадратных скобках в (19) слагаемые S (х, t) и Д/ можно вынести за знак min и переписать соотношение (19) так: S(x, /) = £(%, /) + Af + min [G(x, uy t) \t + ней + (gradS(x, t), f(x, u, 0) AZ + o3(A/)] + oJA/),
§ 14. ПРИМЕНЕНИЕ К СИСТЕМАМ НЕПРЕРЫВНОГО ДЕЙСТВИЯ 223 ИЛИ _ dS (Х,О = min {G (Х) U) + dt u е Q + <gradS(x, 0, fix, и, (14.20) Так как lim = 0, то, переходя в (20) к пределу при Af->0 ЛГ Д/->0, получим — = min [G (х, и, t) + (grad S (x, /), f (x, u, /))]. (14.21) Уравнение (21) [9] называется уравнением Веллмана. Так как в результате минимизации по и выражения в квадратных скобках правая часть уравнения (21) не будет со- держать и, то уравнение (21) будет нелинейным уравнением первого порядка в частных производных типа уравнений Гамиль- тона — Якоби. Функция и, которая доставляет минимум вы- ражению в квадратных скобках в (21), является искомым оптимальным управлением и*. Эта функция будет, однако, зависеть от gradS(x, t). Только получив решение уравнения в частных производных (21) (в котором уже выполнена мини- мизация по и), мы найдем явный вид gradS(x,/), а следова- тельно, и явный вид оптимального управления и*. Граничные условия для уравнения (21) будут следующими: для функционала (5) S(x, Т) = S(x(T), Т) = 0; для функционала (13.3) S(x, Т) = <р(х(Т)). Подчеркнем теперь, что при выводе уравнения (21) мы исхо- дили из найденной уже оптимальной траектории системы (1). Для всякой оптимальной траектории в предположении гладко- сти функции 5(хД), уравнение (21) будет иметь место. Таким образом, уравнение Веллмана дает, при сделанных выше пред- положениях о гладкости функции S(x,/), необходимые условия оптимальности. Вопрос о достаточных условиях оптимальности требует отдельного рассмотрения. Пример 1. Рассмотрим систему, описываемую следующими уравне- ниями [85]: Jxi -^- = «Х1 + Х2> ^- = „2 dt и • Предположим, что подынтегральная функция в функционале (5) имеет вид G — G (хь х2, t).
224 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Как следует из (1), в рассматриваемом примере Л (х, и) = их{ + х2, f2 (х, и) = и2. Уравнение Веллмана (21) здесь принимает вид - = min К (хь х2, и), ог и К (х1( х2> и) = G (хь х2, /) + (их, + х2) + и2. Так как б/К _ dS_ d2K dS du dxi Xi dx2 U> du2 dx2’ то в случае, когда -^->0, функция К будет иметь минимум при и = w*, где дх2 1 OS 1 “ ~ 2 дх, Xi dS ' дх2 Минимальное значение [К (хь х2, и)]и=и* будет следующим: . rzz ч гл/ п , 3S 1 2f dS V 1 min К (xb х2, u) = ^ (хь х2, и ) = G (хь х2, /) + х2 - х{ дх2 Таким образом, уравнение Веллмана (21) в рассматриваемом принимает вид примере —- = G (хр х2, t\ + — dt ' 1 1 J дхх дх2 Пример 2. В предыдущем примере на управление и не было наложено ограничений. Рассмотрим теперь систему, описываемую уравнениями JX! -^- = «.х, + х21 dx2 ~dT=u^ Пусть подынтегральная функция в функционале (5) имеет вид G = G (хь х2, /). На управления щ, U2 наложены ограничения -l<wf<l (/=1,2). Согласно (1) в рассматриваемом примере fi (х, и) = и1х1 +х2, tl (х, и) = и2.
$ 14. ПРИМЕНЕНИЕ К СИСТЕМАМ НЕПРЕРЫВНОГО ДЕЙСТВИЯ 225 Уравнение Веллмана (21) принимает вид -4г = min Х(хь х2, «), -1 < 1 К (xb x2i u) = G (xi, х2, t) 4- («iXi + х2) + и2. Оптимальное управление «*, доставляющее минимум функции /С(хь x2iu)y будет следующим: ♦ . ( dS\ * . dS “ = -s,gnh aj’ U2=-slgnd7P Таким образом, при наложенных на управление ограничениях |«i| 1 (I == 1,2) минимальное значение [/((хь х2, «)]и=ы* имеет вид Г / м Г I I I OS I dS I К (Х1, Х2> = G (х„ х2, /) -1 х. 1 + х2 | | . Уравнение Веллмана (21) принимает в рассматриваемом здесь примере следующий вид: as I as I , as I as I -^-=О(хь х2, 0-|х,-^-| + х2-^--|-^-|. Заметим, что при наложенных здесь ограничениях на управления —1 Ui 1 (i=l,2) функция S(xb х2, t) не будет всюду гладкой (см. ниже, § 15). Полученное в настоящем примере уравнение Веллмана поэтому должно рассматриваться лишь в области, где функция S непрерывна и имеет непрерывные частные производные по всем своим аргументам. 2. Задача с закрепленным концом траектории и свободным временем. Управляемую систему, описываемую дифференциаль- ными уравнениями = .....Хп, III....Ur) (j = 1, ..., га), (14.22) которым эквивалентно векторное уравнение -g = f(x, и). (14.23) где х, и и f — векторы следующего вида: х = Г хп f(x, и) = - fl (х, и) - -fn(x, и). требуется перевести из точки x(tQ)= х° фазового пространства X в заданную точку х*. Момент времени Л, в который изображаю- щая точка попадет в точку х*, заранее не фиксируется. Управление u = u(t) должно удовлетворять ограничениям ueiQ, (14.24) 8 Я. Н. Ройтенберг
226 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ и его надо выбрать так, чтобы функционал t{ Q = J G (х (v), и (v)) dv to (14.25) принимал наименьшее возможное значение. Удовлетворяющее этим условиям управление, соответствую- щую ему траекторию и промежуток времени t\— tQ будем счи- тать оптимальными. Полученное при указанных выше условиях наименьшее воз- можное значение Ф функционала Q будет функцией от началь- ного состояния х° системы Ф = Ф (х°) = Ф (х?, х<>, ..., х°). (14.26) В предположении, что функция Ф непрерывна и всюду имеет непрерывные частные производные по всем своим аргументам, можно получить уравнение в частных производных (уравнение Веллмана), которому эта функция удовлетворяет. По определению Ф(х°) = Ф(х(/0)) = min [ G (x(v), iz(v))dv. (14.27) и (v) <= е у Го Интеграл в правой части (27) можно представить в виде /i G+Af ti J G (x (v), u(y)) dv = J G (x (v), и (v)) dv 4- J G(x(v), u(v))dv. to to fo+Af (14.28) Для малых значений А/ выражение (28) можно переписать так: t, J G (х (v), и (v)) dv = G (х (/о), «(to) )t^t + o1 (ДО + to tl + j G (x (v), u(v))dv, (14.29) /о+ Af где предполагается, что функция u(t) непрерывна на полуинтер- вале [^о. to 4- AZ). Выражение (27) принимает вид Ф(х°)= min [g (х(/0), u(t0))&t + «(Wefi L + min f G (x(v), u(v))dv +o9(A/). (14.30) u(V)e%+A<
§ 14. ПРИМЕНЕНИЕ К СИСТЕМАМ НЕПРЕРЫВНОГО ДЕЙСТВИЯ 227 Необходимость знака min перед всей квадратной скобкой в (30) обосновывается теми же рассуждениями, которые были изло- жены при выводе соотношения (12). Второе слагаемое в квадратных скобках в выражении (30) есть Ф(х(/о + Д0), и выражение (30) можно переписать так: Ф(*(и)= m'n [G(x(/0)> м (f0)) Д/+ Ф (х (/о + АО )1 + °2 (АО- и (6) е= Q (14.31) Поскольку согласно (23) xtfo + AO = x('o) + (4) А/ + о3(А0 = = x(t0) + f(x(tQ), М(/0))А/ + о3(ЛО, (14.32) то, при сделанном выше предположении относительно гладкости функции Ф(х°), будем иметь Ф(х(/о + АО) = Ф(х(/о)) + п + Л(Х(/О), ц(/о))Д/ + о4(ЛО- (14.33) 0Xi J^x(Zo) Подставим теперь выражение (33) в (31). Учитывая, что функ- ция Ф(х(/о)), полученная в результате минимизации функцио- нала (25), уже не содержит и, можно вынести Ф(х(/о)) за знак min в выражении (31). Тогда получим min { G (х (/о), и (/о)) А/ + и (£о) е ( П + fi(x(/o), u(/o))AZ + о(А/) = 0. (14.34) В качестве начального состояния можно принять любое те- кущее состояние x(t) и переписать соответственно соотноше- ние (34) min и е Q п G(x, + «) +^г- = °- (14.35) Поскольку lim ° ^). = 0, д/-»о А/—>0, получим то, переходя в (35) к пределу при min n G (x, и) + -^x(x) ft (x, u) 1=1 1 = 0. (14.36) 8*
228 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Уравнение (36) и является уравнением Веллмана в рассмат- риваемой здесь задаче с закрепленным концом траектории и свободным временем. 3. Задача о быстродействии. К задачам, у которых момент времени t\ окончания процесса управления заранее не фиксиро- ван, относится и задача об управлении, оптимальном по быстро- действию. Рассмотрим систему, описываемую векторным дифферен- циальным уравнением (14.37) где х, и и f — векторы следующего вида: На управляющие силы щ наложены ограничения и е Q, (14.38) которые, в частности, могут иметь и такой вид: (/=!,..., г). — < щ 1Щ (14.39) Требуется найти оптимальное управление и е Q, которое за минимально возможное время Т приводит систему из начального состояния x(to) = xQ в состояние x(t{) = x(tQ + Т) = 0, то есть в начало координат в фазовом пространстве. Минимально возможное время Т, в течение которого управ- ление ueQ приводит систему из точки х(/0) = х° в точку х(/о + Л = О> является функцией от начального состояния си- стемы Т = Т (х°) = Т (х°, х°, ..., х°), (14.40) и задача о быстродействии будет, таким образом, частным слу- чаем рассмотренной в п. 2 задачи о минимизации функциона- ла (25) ц Q = J G (х (v), и (v)) dv. Действительно, полагая G(x(t), и(/)>1, (14.41)
§ 14. ПРИМЕНЕНИЕ К СИСТЕМАМ НЕПРЕРЫВНОГО ДЕЙСТВИЯ 229 найдем, что при этом функционал Q представляет собой время приведения системы из начального состояния х(/0) = х° в состоя- ние x(/i) = 0: Q = (14.42) и, следовательно, Т = min Q = min — tQ). (14.43) и e Q и e= Q Учитывая, что в качестве начального состояния можно при- нять любое текущее состояние х(/), и предполагая, что функция *2,. • •, хп) непрерывна и всюду имеет непрерывные част- ные производные по всем своим аргументам, найдем в соответ- ствии с (36) и (41) следующее дифференциальное уравнение первого порядка в частных производных, которому удовлетво- ряет функция Г(хь ..., хп): - п min =-1 ие _/ = 1 или min [(grad Г, f(x, u))] = — 1. (14.44) и е Q Уравнение (44) и является уравнением Веллмана в задаче о бы- стродействии. Минимизация по и выражения в квадратных скобках в ле- вой части (44) при условии (38) позволит определить опти- мальное управление и*, которое будет представлено в виде функ- ции от (/=1, ..., п). При подстановке в (44) указанного значения и* получим не содержащее и уравнение первого поряд- ка в частных производных. Решение этого уравнения должно удовлетворять граничному условию Г(0, 0, ...» 0) = 0. (14.45) Если это решение удастся найти, то будет определено в виде явной функции от фазовых координат системы оптимальное управление и* — и*(х). К сожалению, получить решение уравнения (44) в замкну- том виде удается лишь в простейших случаях. Пример. В качестве примера рассмотрим задачу о быстродействии в линейной системе, описываемой скалярными дифференциальными уравне- ниями d • п Г Aikxk + 2 Bn“i V =1........«)• <14-46) fe-1 Z°1
230 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ где на управления щ наложены ограничения — т1 т1 (/ = 1,..., г). (]АА7) Системе (46) эквивалентно векторное дифференциальное уравнение —— — Лх + Ви, где А = - Ат • • • Апп _ вн ... В1Г Вщ ... впг «1 иг (14.48) (14.49) В = и = В соответствии с (37) в рассматриваемом примере п г f j(*> и) = 2 ^jkxk "* 2 В}lul У = 1, ..п), (14.50) и уравнение Веллмана (44) принимает здесь следующий вид: (14.51) Уравнение (51) можно переписать так: min пей - п п г / п \ 2 2^4- L/«i fe=i z=i \/=»i / = - 1. (14.52) При ограничениях (47) наименьшее возможное значение выражению, рас- положенному в квадратных скобках в левой части уравнения (52), достав- ляют управления п “Г= ~ m/siSnS'^7ВП (l=l,...,r). (14.53) 1-1 При управлениях (53) уравнение Веллмана (52) принимает вид п п г п Л=1 /=1 /=1 т1 = — 1. (14.54) Мы получили не содержащее управлений ui нелинейное дифференциальное уравнение первого порядка в частных производных (54), решение которого должно удовлетворять граничным условиям Т(0, 0, ..., 0) = 0. (14.55) Полученное здесь уравнение Веллмана (54) должно рассматриваться в области, где функция Т непрерывна и имеет непрерывные частные произ- водные по всем своим аргументам.
§ 15. ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 231 § 15. Достаточные условия оптимальности и обоснование метода динамического программирования для систем непрерывного действия. Теоремы В. Г. Болтянского Метод динамического программирования вполне обоснован для систем, описываемых уравнениями в конечных разностях. Для систем, описываемых обыкновенными дифференциаль- ными уравнениями (то есть для систем непрерывного действия) корректное обоснование метода динамического программирова- ния требовало бы доказательства существования гладкой функ- ции Ф = Ф(%1, хп), определяемой нелинейным уравнением в частных производных (14.36)—уравнением Веллмана (то же относится и к функции Т(х), определяемой уравнением (14.44)), так как при выводе этого уравнения предполагалось, что функ- ция Ф непрерывна и всюду имеет непрерывные частные произ- водные по всем своим аргументам. Это требование не вытекает из постановки задачи и представляет собой ограничение, кото- рое, однако, не выполняется во многих даже простых задачах, где оказывается [15], что функция Ф(хь ..., хп) является не- гладкой. Задача об обосновании метода динамического программиро- вания для систем непрерывного действия решена в работа к В. Г. Болтянского [14], к изложению которых мы и перейдем. 1. Постановка задачи. Геометрическая интерпретация уравне- ния Веллмана в задаче о быстродействии. Рассмотрим управляе- мую систему, описываемую скалярными дифференциальными уравнениями dx; (/=!,..., п). (15.1) В векторной форме систему уравнений (1) можно записать так: ^- = f(x,u), (15.2) где х, u, f — векторы следующего вида: На управление и наложены ограничения u(=Q. (15.4) Обратимся к задаче о быстродействии. Требуется найти опти- мальное управление ugQ, то есть управление, которое перево-
232 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ дит систему из начального состояния х(/) в состояние х(/ + Г) = = 0 за минимально возможное время Т. Конечное состояние системы x(t + Г), то есть точка в фазо- вом пространстве, в которую надо привести систему, фиксиро- вана: x(t+T) = O. В качестве начального состояния мы рас- сматриваем любое состояние системы, то есть любую точку х фазового пространства X. Минимально возможное время Г, в течение которого управ- ление и, удовлетворяющее условию и е Q, переводит систему из точки x(t) в точку x(i + Т) = 0, является функцией от началь- ного состояния я: 7’ = 7’(х) = 7’(х1, х„). В § 14, в предположении, что функция Т(хь ..., хп) непре- рывна и всюду (кроме конечной точки х =0) имеет непрерывные дТ дТ дТ ' частные производные было показано, что эта функция удовлетворяет уравнению в частных производных (14.44) min и €= Q Управление, доставляющее минимум выражению в квадратных скобках, является оптимальным и было обозначено через и*. Ниже удобнее вместо Т(х) рассматривать функцию со(х), отличающуюся от нее знаком <о(х) = - Т(х). (15.5) Из соотношения (14.44) следует, что Г п -1 V дТ (х] t , . . max ~ Zl av fi (•*> “) =1- (15.6) L i = l Учитывая (5), можно переписать соотношение (6) так: - п max S f‘ ^х' =1, (15.7) Функция (о(х) определена во всем фазовом пространстве X. В силу предположений, при которых получено соотношение (14.44), следует, что соотношение (7) имеет место в предполо- жении, что функция со(х) непрерывна и всюду (кроме конечной точки х = 0) имеет непрерывные частные производные доь да> да) ~ „ дх”’ “57“ ’ ••’’*37"* Соотношение (7) представляет собой урав- нение Веллмана в задаче о быстродействии.
§ 15. ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 233 Для любого управления из совокупности управлений, ограни- ченных условием и е Q (в том числе и оптимального), перево- дящих систему из точки х в точку х = 0, будем в соответствии с (7) иметь такое соотношение: «)<1 («ей). <15.8) Так как х = х(/), и = u(t), то соотношение ц(0) = 1 (159) 1 будет выполняться в течение всего времени движения для каж- дой оптимальной траектории, то есть всего времени перехода из начальной точки х в конечную точку х = 0. Уравнению Веллмана в задаче о быстродействии можно дать следующую геометрическую интерпретацию. Так как со- гласно (1) „ , dx, (15.10) то уравнение Веллмана (14.44) можно переписать так: min и е & V дТ (х) dx. 1 . dT (х (/)) . / j —А-------= ГП1П -------------7-.---= — 1, *4 дх. dt 1t f=zo dt ’ 7-1 1 J usu (15.11) то есть при движении по оптимальной траектории промежуток времени, оставшийся до достижения начала координат, убывает dT 1 так, что —^-= 1. Согласно (11) ^kgrad7’’^>]=“1- (i5-i2) Выражение в квадратных скобках представляет собой скалярное произведение вектора градиента функции Т(х) на вектор фазо- вой скорости изображающей точки. Представим себе семейство поверхностей Т (х) = const. Эти поверхности можно назвать изохронными поверхностями — наи- меньшее время попадания из любой точки поверхности Т(х)= С в начало координат равно одной и той же величине С. Вектор grad Г направлен в точке х по нормали к поверхности Т(х) — = const, проходящей через эту точку. Соотношение (12) пока- зывает, что оптимальное управление и = и* обеспечивает то, что , о dx проекция фазовой скорости на отрицательное направление
234 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ нормали к поверхности Г (х) = const, проходящей через точку я, в любой момент времени положительна, то есть изображаю- щая точка все время перемещается в сторону убывающих зна- чений Т (я). Предположение о существовании непрерывных частных про- изводных j--- Q=l,...,n) в любой точке х означает, что предполагается гладкость поверхностей Т(я) = const, то есть единственность направления нормали в любой точке этих о т дТ(х) поверхностей. 1очки, в которых частные производные - (i = 1,... , и) не существуют, являются особыми точками по- верхностей Т(х) = const, и в этих точках направление нормали к поверхности Т (я) = const не определено. 2. Теорема В. Г. Болтянского для задачи о быстродействии.. Перейдем к отысканию достаточных условий отпимальности. Предложенный В. Г. Болтянским метод состоит в следующем. Функция со (я) рассматривается теперь с иной точки зрения, чем выше, а именно в качестве исходного принимается соотношение (8). При помощи этого соотношения можно дать оценку вре- мени перехода системы из любого начального состояния в за- данное конечное состояние. При этом будем считать, что пра- вые части дифференциальных уравнений (1) определены, непре- рывны и имеют непрерывные производные в любой точке я е X. когда и е Q. Лемма 1. Предположим, что на некотором открытом мно- жестве D пространства X задана непрерывная и непрерывно дифференцируемая функция со (я) = co(xi, х2, ..., хп), удовлетво- ряющая для всех яе D, u^Q неравенству вида (8) п «)<1. (15.13) Тогда если u(t) (tQ^t ^t\)—допустимое (то есть u(l)^Q) управление, переводящее изображающую точку из положения v° в положение х*, причем соответствующая траектория x(t) рас- положена целиком в множестве D, то время t\ — t0 перехода из точки я0 в точку я* оценивается неравенством /1-/0>®и*)-о)(я0). (15.14) Доказательство. Пусть ть т2, ...» т&— точки, в кото- рых управления и (Г) терпят разрыв, причем /о < Tj < т2 < ... < хк < /р
§ 15. ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 235 Обозначим еще А) = т0, = xk + !• Точки разрыва управлений обязательно будут иметь место, если, например, ограничения (4), наложенные на управление, имеют вид — mt щ < rrii (i = 1, ..., г). На каждом из интервалов (то, Ti), (тц т2), (т/<, r^+i) функ- ция u(t) непрерывна. Согласно (8) и (1) 1=1 1 i=l 1 (15.15) Внутри каждого из интервалов времени (тг-, тг+1) (4 = 0, 1, ... ..., k) функция со(х(/)) непрерывна и в соответствии с усло- вием леммы имеет непрерывную производную по t, удовлетво- ряющую неравенству (15) d® (х (/)) . dt * Отсюда следует, что ® (* Сч+1)) - ® (х (тг)) < тг+1 - х{ (I = 0, 1, ..., k). Складывая левые и правые части этих соотношений, написан- ных для интервалов (тг-, Тг+1) (I = 0, 1, ..., А), получим ®(х (Тй+1))-со(х(т0)Хтй+1 -т0, что совпадает с соотношением (14). Таким образом, лемма до- казана. Так как прибавление любой константы к функции со(х) не изменяет соотношения (8), то можно принять, что функция со (%) удовлетворяет условию о(х*) = 0. (15.16) При этом неравенство (14) примет вид Л“^о>-о)(х°). (15.17) Заметим теперь, что соотношение (7), представляющее со- бой уравнение Веллмана в задаче о быстродействии, было полу- чено выше как необходимое условие оптимальности. Здесь, при тех же предположениях о непрерывности и не- прерывной дифференцируемости функции со(х) и условии (о(х*) = 0, доказано, что если соотношение (8) имеет место, то
236 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ управление, переводящее систему из точки х° в точку х* за вре- мя —<о(х°), является оптимальным. Как следует из (17), бы- стрее осуществить этот переход невозможно. Следовательно, здесь показано, что соотношение (7) является достаточным ус- ловием оптимальности. Таким образом, в случае, когда со (я)—непрерывная и непре- рывно дифференцируемая функция, уравнение Веллмана (7) является необходимым и достаточным условием оптимальности. Как уже упоминалось выше, требование о непрерывной дифференцируе- мости функции со(х) во многих задачах не выполняется. В качестве примера Рис. 15.1. такой задачи рассмотрим задачу построения оптимальных по быстродействию управлений в системе, описываемой уравнениями dx} ~di-x" где допустимое управление ограничено условием - 1 1. Можно показать (см. ниже стр. 285), что дуга АО (рис. 15.1) параболы и дуга ОВ параболы х{=—— х2 являются линиями переключе- ния оптимального управления. В области над линией АО В управление должно иметь вид и = —1. Изображающая точка будет двигаться по дуге пара- болы х{ = —^-х^+с^ В точке Ai встречи этой параболы с линией АО управление надо переключить и принять и — 1. Дальнейшее движение будет происходить по линии AiO до встречи с началом координат. В области, расположенной ниже линии АОВ, надо принять и = 1. Изобра- жающая точка будет двигаться по дуге параболы х^-^х^ + с^ В точке Bi встречи этой параболы с кривой ВО управление надо переклю- чить на и == — 1. Дальнейшее движение будет происходить по линии BtO до момента попадания изображающей точки в начало координат.
§ 15. ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 237 Траектория LiAiO и аналогично траектория KiBiO будут оптимальными по быстродействию траекториями для начальных положений изображающей точки, расположенных на линии ЬгА{ и соответственно. Ниже (стр. 288) показано, что функция (о(х) = — Т(х) непрерывна во всей тт дю(х) 0(0 (х) фазовой плоскости х^х2. Частные производные —д и —ч--- существуют * иХ\ 0X2 во всех точках фазовой плоскости XiX2, за исключением точек линии пере- ключения АОВ. Ни в одной из точек линии переключения АО В частные про- 0(0 (х) д(о (х) из водные —ч-- и —ч—— не существуют. иХ\ <jX2 Предположим теперь в общем случае, что в множестве D, на котором задана функция со(х), выделено некоторое множе- ство М («особое множество» функции со(х)) и что функция со(х) непрерывна на всем множестве D, а непрерывные частные производные —(z=l,...,n) имеет лишь в тех точках множества D, которые не принадлежат М. Лемма 2. Пусть D — открытое множество фазового про- странства X и М — некоторое множество, содержащееся в D. Предположим, что на множестве D задана непрерывная функция ю(х) = (о(хь х2, ..., хп), которая в точках, не принадлежащих множеству М, имеет непрерывные частные производные и удов- летворяет неравенству (8) п «XI. i=l * Пусть, далее, u(t) -</i)—допустимое управление, пере- водящее изображающую точку из положения х° в положение х*, причем соответствующая траектория x(t) расположена целиком в D и пересекается с множеством М лишь в конечное число мо- ментов времени. Тогда оценка (14) tx — А) ® (**) “ © (*°) остается справедливой. Доказательство. I0. Заметим, что оценка (14) остается справедливой, если траектория x(t) пересекается с множеством М лишь в моменты времени to, t\, или в один из этих моментов. Действительно, в этом случае полностью проходит доказатель- ство леммы I, поскольку функция со(х) по-прежнему непре- рывна, а когда t заключено внутри интервалов (тг-, ?w) (гра- ницы которых суть моменты времени, в которых управления u(t) терпят разрыв), точка со(х(^)) лежит вне множества М и, 0(0 (х (/) ) следовательно, на этих интервалах производные —~ — су- ществуют и непрерывны.
238 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ 2°. Пусть теперь 6р 02, .08— все принадлежащие интер- валу (Zo, 6) моменты встречи траектории x(t) с множеством Af, причем /о < 01 < 02 < • • • <0s < Л- Обозначим еще = = К каждому из отрезков [0г-, 0i+i] (Z = 0, s) применимо сделанное выше (1°) замечание, и потому 0/+1 ~ 0/ > ® (9/+1)) - © (* (0J) G’ = 0, !,...,$). Складывая левые и правые части этих соотношений, написан- ных для отрезков времени [0t, 0г+1] (/= 0, 1, получим соотношение 08 + 1 ~ 00 > ® U (08 + 1) ) - G) (х (0О) ), которое совпадает с требуемым в условии леммы неравенством (14). Таким образом, лемма доказана. Отметим теперь, что ситуация, которая имеет место в задаче о быстродей- ствии (см. пример на рис. 15.1), не охватывается условиями леммы 2. Действительно, в этом примере (рис. 15.1, 15.2) не отдельные точки, Рис. 15.2. а дуга оптимальной траектории рас- положена на линии переключения АОВ, то есть по терминологии лем- мы 2 целый участок оптимальной траектории расположен в множе- стве М. По условию леммы 2 допу- скается пересечение оптимальной тра- ектории с множеством /И лишь в ко- нечное число моментов времени. Здесь же оптимальная траектория в течение некоторого промежутка времени на- ходится в множестве Л4. Выход из создавшейся трудно- сти дается в приведенной ниже лем- ме 3. Лемма 3. Сохраним предположения о функции со, сделан- ные в лемме 2. Пусть u(t) — допустимое управле- ние, переводящее изображающую точку из положения х° в по- ложение х*, причем соответствующая траектория x(t) располо- жена целиком в D. Предположим еще, что как угодно близко к х° найдется такая точка yQ, что траектория y(t), исходящая из точки yQ и соответствующая тому же управлению u(t) пересекается с М лишь в конечное число моментов вре- мени. Тогда оценка (14) — /0 «(х*) “ ю (х°) остается справедливой.
§ 15. ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 239 Доказательство. Выберем произвольное число е > О, и пусть IF® и IF* (рис. 15.2) —такие окрестности точек х° и х* со- ответственно, что | со (х) — СО (х°) I < 8 при X G IF0, 1 | со(х) — со(х*) |<8 при х €== IF*. J (15.18) Согласно теореме ©^непрерывной зависимости решений диф- ференциальных уравнений от начальных условий, существует такая окрестность IF0, cz IF0 точки х°, что всякое решение си- стемы уравнений, аналогичной системе (1) (с тем же управле- нием u(t) (/о < / < ^1) ) •••> Уп, «ь иг) (/ = 1.......п), (15.19) для которого r/(f0)eIF0', определено на всем отрезке tQ t i\ и удовлетворяет соотношению z/(/i)e IF*. По условию доказываемой леммы указанное решение y(t) системы (19) с начальными данными у (/0) е IF0' пересекается с М лишь в конечном числе точек. Из этого выте- кает в силу леммы 2, что имеет место неравенство МуМНМИЖ'Но. (15.20) Далее, так как z/(f0) IF6' cz IF0, то y(tx) е IF*. Следователь- но, в соответствии с (18) имеем 1®(//(/0))-®(х°)|<е, | | ® («/(/[)) —®(х‘) | <8. / (1521) Из соотношений (21) следует, что «(//(/«))-О (х°)<е, 1 - ®Ш)) + ®(х-)<8. / Складывая левые и правые части неравенств (20) и (22), по- лучим со (х*) - со (х°) < Л - tQ + 2в. (15.23) Отсюда в виду произвольности е вытекает неравенство (14). Лемма 3 дает наиболее общие условия, при выполнении ко- торых оценка (14) справедлива. Однако условия леммы 3 сфор- мулированы отдельно для каждого управления u(t). Остается еще показать справедливость этих условий для всевозможных управлений u(t). В. Г. Болтянским в цитированных выше работах пока- зано, что при наложении некоторых условий на множество А!
240 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ сформулированные в лемме 3 условия выполняются для любых допустимых управлений u(t). В частности, это имеет место, если М — кусочно-гладкое множество размерности <п. Приведем определение кусочно-гладкого множества [15]. Пусть К — неко- торый ограниченный s-мерный выпуклый многогранник (s^n), расположен- ный в векторном пространстве 2 переменных g2, и рассматриваемый вместе с границей (то есть замкнутый). Предположим, что в некотором от- крытом множестве пространства 2, содержащем многогранник К, заданы п непрерывно дифференцируемых функций фДМг””’ U (/=1,2,..., п), (15.24) обладающих тем свойством, что функциональная матрица " (Эф! д<р2 дфп ~ дф1 дф2 дфп d^s д%5 имеет в каждой точке g е К ранг s. Функции (24) осуществляют гладкое отображение ф многогранника К в пространстве X по формулам х, = фДМ2’U (/=!.•••» п). (15.25) Если это отображение взаимно однозначно (то есть различные точки много- гранника переводит в различные точки пространства X), то образ L — ф(Л) многогранника К называется криволинейным s-мерным многогранником в про- странстве X, Очевидно, что криволинейный многогранник является замкнутым и ограниченным множеством пространства X. Пусть теперь D — некоторое открытое множество фазового простран- ства X. Всякое множество М cz D, представляющееся в виде объединения конечного или бесконечного числа криволинейных многогранников, располо- женных таким образом, что с каждым замкнутым ограниченным множеством, лежащим в D, пересекается лишь конечное число этих многогранников, на- зывается кусочно-гладким множеством в D. (К границе множества D много- гранники могут скапливаться.) Если среди криволинейных многогранников, объединением которых яв- ляется кусочно-гладкое множество М, имеется хотя бы один многогранник размерности k, а все остальные многогранники имеют размерность, меньшую или равную /?, то кусочно-гладкое множество называется /?-мерным. В част- ности, всякая замкнутая в D гладкая поверхность размерности, меньшей чем п, является кусочно-гладким множеством в D (ибо ее можно разбить на криволинейные многогранники). Из изложенного следует, что кусочно-гладкое в D множество размерности, меньшей чем п, не содержит внутренних точек. В качестве примера укажем, что при п = 2 кусочно-гладкими множе- ствами размерности <2 являются линии, состоящие из отдельных дифферен- цируемых кусков (например, линия АОВ на рис. 15.1). Следующую лемму приведем без доказательства. Доказа- тельство этой леммы требует привлечения ряда понятий теории гладких многообразий и дано в цитированных работах В. Г. Бол- тянского [15]. Лемма 4. Пусть М — кусочно-гладкое в D множество раз- мерности — 1. Пусть далее u(t) —допустимое
§ 15. ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 241 управление, переводящее изображающую точку из положения х° в положение х*, причем соответствующая траектория x(t) расположена целиком в множестве D. Тогда в лю- бой окрестности W° точки х° найдется такая точка yQ, что траек- тория y(t) <СЛ), исходящая из точки у° и соответствую- щая управлению u(t), целиком расположена в D и пересекается с М лишь в конечном числе точек, то есть существует лишь ко- нечное число моментов времени t для которых y(t)<= М. Из леммы 4 и леммы 3 вытекает непосредственно справедли- вость следующей основной леммы. Основная лемма. Пусть М — кусочно-гладкое множество размерности <п, расположенное в открытом множестве D фазо- вого пространства X. Предположим, что на множестве D задана непрерывная функция co(x)=(o(xi, ..., хп), которая в точках, не принадлежащих множеству М, имеет непрерывные производ- ные и удовлетворяет неравенству (8): 1 Тогда если u(t) (to^t —допустимое управление, перево- дящее изображающую точку из положения х° в положение х*, причем соответствующая траектория х(/) расположена целиком в множестве D, то для времени перехода справедлива оцен- ка (14) tx — ® (х*) “ (х°)- Изложенные выше результаты приводят к следующей тео- реме*), представляющей собой необходимое и достаточное усло- вие оптимальности в форме метода динамического программи- рования. Теорема В. Г. Болтянского. Пусть М — кусочно-глад- кое множество размерности <п, расположенное в фазовом про- странстве X, и (о(х) = со(хь ..., хп) — непрерывная функция, заданная на X и имеющая в точках, не принадлежащих множе- ству М, непрерывные производные. Пусть, далее, со(х*) = О для некоторой точки х* ^Х. Предположим, что для каждой отлич- ной от х* точки х° е X существует допустимое управление = uxo(t), переводящее изображающую точку из положения х° в положение х* за время —со(х°). Для того чтобы все *) Приведенные здесь результаты В. Г. Болтянского впервые были опу- бликованы им в журнале «Доклады Академии наук СССР», т. 140, № 5, 1961, стр. 994—997. Подробные доказательства даны в статье В. Г. Болтян- ского [14].
242 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ управления были оптимальными, необходимо и доста- точно, чтобы во всех точках х, не принадлежащих множеству М, функция <о(х) удовлетворяла уравнению Веллмана (7) max и g= Q Г п _i=l =1 или, что то же самое, неравенству (8) Доказательство. Необходимость приведенного в теоре- ме условия доказывается так же, как и на стр. 235. Приведен- ное там доказательство применимо ко всякой точке х — х°, вко- о д(а / • 1 \ торой производные (t = I, ..., п) существуют и непре- рывны. Достаточность вытекает из основной леммы. Действительно» из основной леммы следует, что если соотношение (8) удовлет- воряется во всех точках х, не принадлежащих множеству Af, а, кроме того, со(х*) = 0, то управление, приводящее систему из точки х° в точку х* за время —со(х°), будет оптимальным. При <о(х*) = 0 оценка времени перевода системы из точки х° в точку х* при любом допустимом управлении будет то есть быстрее чем за время —g>(x°) осуществить этот перевод невозможно. В доказанной теореме требования о непрерывной дифферен- цируемости функции со(х) столь серьезно ослаблены, что тео- рема применима к весьма большому кругу задач. Это и позво- ляет ее считать обоснованием метода динамического програм- мирования. 3. Теорема В. Г. Болтянского для общей задачи динамиче- ского программирования. Уравнение Веллмана (14.36) для этой задачи получено в § 14, п. 2. Из уравнения (14.36) следует, что для любого управления переводящего систему из на- чального положения x(i) в положение х*, имеет место неравен- ство п G(x, + «)>0 (15.26) i=i 1
§ 15. ДОСТАТОЧНЫЕ УСЛОВИЯ ОПТИМАЛЬНОСТИ 243 ИЛИ п (15.27) где знак равенства имеет место для оптимального управления «*(0- Если ввести теперь функцию w(x) при помощи соотношения <» (х) = - Ф (х), (15.28) то неравенство (27) примет вид uXG(x> и) (“eQ)‘ (15.29) Аналогично изложенному в п. 2 для рассматриваемой здесь общей задачи доказывается теорема [14], доставляющая необ- ходимые и достаточные условия оптимальности. Теорема В. Г. Болтянского для общей за- дачи динамического программирования. Пусть М — кусочно-гладкое множество размерности <п, расположен- ное в фазовом пространстве X, и со(х) = co(xi,..., хп) — непре- рывная функция, заданная на X и имеющая в точках, не при- надлежащих множеству М, непрерывные производные. Пусть, далее, со(х*) = 0 для некоторой точки х*^Х. Предположим, что для каждой отличной от х* точки х° е X существует допустимое управление u(t) = ux«(t), переводящее изображающую точку из положения х° в положение х* и удовлетворяющее соотношению J G(x(t), u(t))dt = -<о(х°). (15.30) /о Для того чтобы все управления uxo(t) были оптимальными, необходимо и достаточно, чтобы во всех точках х, не принад- лежащих множеству М, функция со (х) удовлетворяла уравнению Веллмана (14.36) - п min G (х, и) - Ь «) = 0 U е Q “ oxi или, что io же самое, неравенству (29) ^-Ь(х, U)<G(x,«) (м е □).
244 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ § 16. Связь уравнения Веллмана с уравнением Гамильтона — Якоби в задачах аналитической механики t 1. Задача о минимизации интеграла вида Q = J G(x, и, v)<fv, to Рассмотрим систему, описываемую векторным дифференциаль- ным уравнением ~ = (16.1) где х, /, а также и — n-мерные векторы Начальное состояние системы [x(OUe = x(*o) (16.2) и состояние системы в момент времени t заданы. Требуется най- ти управление u = u(t), (16.3) обеспечивающее перевод системы из состояния x(t0) в состояние x(t) и доставляющее минимум интегралу t Q = J G (x(v), u(v), v)dv. (16.4) to Обозначим t W (x (/), t) = min f G (x (v), и (v), v) dv. (16.5) U(V) / 10 Пусть u*(v) (0<Cv<C0—управление, доставляющее мини- мум интегралу (4), a x(v)—соответствующая этому управлению фазовая траектория (рис. 16.1). Тогда будем иметь t W (х (О, о = f G(x (v), 11 (v), v) dv. to Возьмем на оптимальной траектории (рис. 16.1) точку x(t — \t). Поскольку положение системы в конечной точке t — Д/ интер- вала (fo, t — ДО фиксировано, то участок оптимальной траекто- рии от точки x(f0) до точки x(t— Ы) сам по себе также будет
§ 16. СВЯЗЬ С УРАВНЕНИЕМ ГАМИЛЬТОНА - ЯКОБИ 245 оптимальной траекторией. Поэтому для W(x(t— Д/)Д— Д/) бу- дем иметь следующее выражение: t W(x(t-bt),t-M)=W (x(t),t)- j G(x(v), u*(v), v)dv. (16.6) Так как t J G(x(v), h(v), v)dv = G(x(t), + (16.7) t-M то будем иметь W(x(t-M), t-bt)=W(x(t), f) — G(x(t), u* (f), (16.8) Предположим теперь, что функция W(х, t) непрерывна и всю- ду имеет непрерывные частные производные по всем своим аргументам. Так как в соответствии с (1) при и — и* (t) x(t — txt) = х (t) — AZ + о2 (AO = = х (0 - f (х (t), и (t), t) Д/ + o2 (t), (16.9) TO W(x(t — txt), t —/Xt) = W (x(f) — f (x(0, «*(0, t)bt + o2(tXt),t-bt) = n iv7 / A VI dW (x, t) f , ♦ 4A dW (x, t) ... ,.,4 = W (x (/), t) - 2j —L fi U, U , t) \t---------M + O3 (Д/). i = i ‘ (16.10) Подставляя выражение (10) в левую часть уравнения (8), по- лучим SdW (х, Z) дх, /-1 1 fi(x, /) Д/ -- dW (х, /) dt = - G(x,u\ 0Д/ + о4(Д/). (16.11)
246 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Разделив в уравнении (11) все члены на Д/ и учитывая, что 0, получим в пределе при Д/~>0 следующее соотно- шение: п , ... «А dw (х, 0 „ ,,, 1О. G (х, ------it =0 (16.12) i=i ‘ или эквивалентное ему соотношение G (к, и’, А у dw (X, t) й в'- dxt dW (г, /) dt dt = 0. (16.13) Из рассуждений, при помощи которых получено соотношение (6), следует, что соотношение (13) сохраняет свой вид и в за- даче об отыскании максимума интеграла (4). 2. Получение уравнения Гамильтона — Якоби из принципа Гамильтона. Принцип Гамильтона состоит в том, что для дейст- вительного движения между двумя заданными в моменты времени /с и t конфигурациями системы (речь идет о положении системы в пространстве q\, ..., qni а не в фазовом пространстве) ин- теграл J L dt (где L — функция Лагранжа) имеет стационарное to значение. Это стационарное значение обозначим через W. В силу уравнений движения системы dqt ЭН ~~dT~~~dp^1 dpt dt ~~ dq. (16.14) t стационарность интеграла J Ldt обеспечивается. to Можно, однако, принять другую точку зрения. Пусть пространство конфигураций q\, ..., qn системы (14) есть фазовое пространство другой системы, описываемой уравнениями у'“Л(?1. .... <7л» Pi, .... Рп. 0 (/=!,..., п), (16.15) где filth, .... <7n. Рь .... Рп, = (16.16)
§ 16. СВЯЗЬ С УРАВНЕНИЕМ ГАМИЛЬТОНА - ЯКОБИ 247 есть известная функция своих переменных. Таким образом, вид функций fi в правых частях уравнений (15) известен. Действительное движение доставляет интегралу J Ldt ста- ционарное значение. Поэтому можно мысленно отождествить рь Р2, •••, Рп с такими управлениями uv и* в системе = .....qn, Ui, ...» un, t) (i = l.......n), (16.17) t которые доставляют экстремум интегралу J Ldt, то есть с оп- /о тимальными управлениями в системе (17). По доказанному выше входящие в соотношение (13) функ- ции и* (/) уже являются оптимальными управлениями. Поэтому соотношение (13) для системы, описываемой уравнениями (17), можно представить в виде (<7b • • •> <7b • • •> 0 2j dq dt + dt * (16.18) i=l * Как известно, функция Гамильтона для системы (14) имеет вид qn, <7ь •••> 0 = п = -L(qi, .... q„, qt, + (16.19) i=l 1 Учитывая, что = (/=1.......«)> (16.20) и выражая fa через канонические переменные <7/ = <7г(<7ь •••> <7n, Рь •••> Рп, 0 (»=1.....«), (16.21) приведем функцию И к каноническим переменным H = .....qn, Pi, ..., рп, t). (16.22) Уравнение (18) можно переписать так: dW t ( . • а , V dW • л /ic пох L (Pit • • •> Ят • • •> Qi 6. (16.23) i=l 1
248 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Дифференцируя по qi левую и правую части соотношения (18), найдем 0. (Z=I п} dqt dqt Поэтому если в выражениях (21) заменить аргументы р{ через р‘=^ = •••>")> (16.24) то получим <h = <h(<7i> •••, <7n,....t) га). (16.25) Заменяя теперь в уравнении (23) qi выражениями (25), приве- дем уравнение (23) к виду dW .„( dW dW А п dt +H[qi, •••, qn, dqi..... dqn, t) — 0. (16.26) Уравнение в частных производных (26) и представляет собой уравнение Гамильтона — Якоби для механической системы, дви- жение которой описывается дифференциальными уравнения- ми (14). Пример. В качестве примера рассмотрим систему с одной степенью свободы, у которой кинетическая энергия Т и потенциальная энергия V имеют следующий вид: T=y/n<72, V = (16.27) Функция Лагранжа здесь будет следующей: £ =уМ2-1 с<72. (16.28) Так как Р=-^- = М. (16.29) то будем иметь (16.30) Согласно (19) в рассматриваемой задаче функция Гамильтона имеет вид Я=-£+-^4 = ^ + ^-. (16.31) Подставляя в (31) вместо q выражение (30), приведем функцию Гамильтона к каноническим переменным н=^+^' (16.32)
§ 16. СВЯЗЬ С УРАВНЕНИЕМ ГАМИЛЬТОНА - ЯКОБИ 249 Канонические уравнения движения системы dq дН dt др ’ dp dt dq в соответствии с (32) принимают вид dq 1 dp -dT--c(l- (16.33) (16.34) Действие по Гамильтону в рассматриваемом примере будет следующей функцией: /о mq2 (0 - у cq2 (/)] dt. (16.35) Уравнение (17) в нашем примере согласно (34) и (30) принимает вид dq _ 1 dt m и. (16.36) Функционал (4), ствии с (28) будет который здесь требуется минимизировать, в соответ- /о cq2 (/) 2 (16.37) Экстремальное значение W функционала Q будет достигнуто при опти- мальном управлении и = и*(/), которое в соответствии с принципом Гамиль- тона должно быть выбрано следующим: (0 = р. (16.38) так как только при таком управлении действие W будет удовлетворять усло- вию 6W ~ 0. При этом уравнение (13) принимает вид р2 1 2 dW . dW А 2m 2 ср dq Ч dt (16.39) Согласно (24), заменим в выражении (30) аргумент р через dW Р ’ (16.40) При такой замене выражение (30) примет вид . 1 tn dq h Q (16.41)
250 ГЛ. 4. МЕТОД ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ Подставляя в уравнение (39) вместо 4 выражение (41), приведем урав- нение (39) к виду Уравнение (42) есть уравнение Гамильтона — Якоби для рассматриваемого примера. Так как согласно (32) функция Гамильтона в рассматриваемом примере имеет вид то уравнение (42) можно записать так: (16.43)
Глава 5 ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА В ТЕОРИИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ §17. Теорема о необходимом условии оптимальности 1. Принцип максимума Л. С. Понтрягина. Управляемая си- стема описывается дифференциальными уравнениями = ......х«> ui.....иг) (7 = 1, п). (17.1) Требуется перевести систему из точки x(tQ) n-мерного фазового пространства X в заданную точку х*. Момент времени в ко- торый изображающая точка попадет в точку х*, заранее не фиксируется. Управление u(t)—кусочно-непрерывная вектор-функция, зна- чения которой принадлежат некоторому замкнутому ограничен- ному множеству Й r-мерного пространства U меЙ. (17.2) Функции fj(xi, ..., хп, щ, ..., ur) (/ = 0, 1, ..., п) опреде- лены для любых значений х е X и и е й. Они предполагаются непрерывными по совокупности переменных хь хп, ... «... иг и непрерывно дифференцируемыми по хь ..., хп. Управление и надо выбрать так, чтобы функционал h Q = JfoUd), (17.3) /о принимал наименьшее возможное значение. Обозначим через x0(t) функцию, определяемую дифферен- циальным уравнением ^- = f0(x1, ..., хп, щ, .... иг) (17.4) и начальным условием хо(/о) = О. (17.5) При этом подлежащий минимизации функционал Q можно пред- ставить так: Q = x0(/i). (17.6)
252 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Пусть помимо основной системы уравнений (1) и уравнения (4), которые можно записать совместно так: ^L = f!{x, и) (/ = 0, 1.......п), (17.7) мы имеем еще одну систему уравнений относительно вспомога- тельных (дополнительно рассматриваемых) переменных фо, фь .... Ф«: (* = 0. 1.....л). (17.8) /=0 k Если мы выбрали некоторое допустимое управление u(t) переводящее систему (1) из точки x(tQ) в точку я*, и имеем соответствующую фазовую траекторию x(t) системы (7) о начальным условием я(/0), хо(/о) = О, то система уравнений (8) принимает вид dt “ дх. (6 —0, 1, я). (17.9) /=о k Это — система однородных линейных дифференциальных урав- нений с переменными коэффициентами. При любых начальных значениях для ф^ она допускает единственное решение t = (Фо> Ф1, • • •, Фп)- Всякое решение системы уравнений (9) (при любых начальных условиях) будем называть решением системы (8), соответствую- щим выбранному управлению u(t) и фазовой траектории x(t). Обозначая Н (ф, я, и) = 2 ф^ (я, и), (17.10) 4=0 будем иметь дН VI df, (х, и) л ,=о й и системы уравнений (7) и (8) можно переписать так: (/-о.1.......07-13> «-°.1........“» <17-14)
§ !7. ТЕОРЕМА О НЕОБХОДИМОМ УСЛОВИИ ОПТИМАЛЬНОСТИ 253 Поставленная выше задача решается при помощи принципа максимума Л. С. Понтрягина, установленного и доказанного [72] в виде сформулированной ниже теоремы. Предварительно сделаем следующие замечания. Взяв про- извольное допустимое управление u(t) <СЛ) (то есть управление, которое переводит систему из точки x(tQ) в точку х* и удовлетворяет ограничениям ией) и начальное условие х (/0), *о(/о) = О, можно найти соответствующую (то есть удов- летворяющую системе (13)) траекторию x(t) = (х0(/), Xi(0, • ••> xn(t)). После этого можно найти соответствующие функциям u(t) и x(t) решения системы (14) t(O = (to(O> ti(0, > Фп(0)- При фиксированных (постоянных) значениях ф и х функ- ция Й переменных хь ..., хп, ф0, фь .фп, «ь ..., ur н (ф, х, и) = 2 Wi (х> и) i=0 становится функцией параметра и е Q; точную верхнюю грань значений этой функции обозначим через 7И(ф, х): М(ф, х) = зир//(ф, х, и). (17.15) Если точная верхняя грань значений непрерывной функции Й достигается в некоторой точке области управления Q, то Л7(ф, х) есть максимум значений функции Й при фиксирован- ных ф и х. Поэтому приведенная ниже теорема (необходимое условие оптимальности), главным содержанием которой является равенство (16), названа ее автором принципом максимума. Теорема 1 (принцип максимума Л. С. Понт- рягина [72]). Пусть u(t) — такое допустимое управление, что соответствующая ему траектория x(t), исходя- щая в момент tQ из точки х(/0), проходит в момент t\ через точку х*. Для оптимальности управления u(t) и траектории x(t) необходимо существование такой ненулевой непрерывной век- тор-функции ф(/) = (фо(0,ф1(0> •••> фп(0), соответствующей функциям u(t) и x(t), что 1°. Для любого момента t (to t /i), являющегося точкой непрерывности управления u(t), функция Я(ф(/), x(t), и) пере- менного ией достигает в точке и = u(t) максимума НШ), u(t)) = M(^(t), х (/)). (17.16) 2°. В конечный момент ti выполнены соотношения 1|>0(О<0, М(Ш), *0 = 0. (17.17)
254 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Оказывается, далее, что если величины ф(/), x(t), u(t) удовлет- воряют системе (13), (14) и условию 1°, то функции ф0(С и (t), x(t)) переменного t являются постоянными, так что проверку соотношений (17) можно проводить не обязательно в момент t\, а в любой момент t t . 2. Принцип максимума Л. С. Понтрягина в задаче о быстро- действии. Из теоремы 1 можно получить аналогичное необходи- мое условие оптимальности по быстродействию. Для этого в со- ответствии с (3) надо положить fo(x, «>1. (17.18) Согласно (10) и (18) функция Й принимает теперь вид п И (ф, х, и) = ф0 + 3 Wi (х> «)• (17.19) i = l Обозначим через ф n-мерный вектор Г 1 ф = (17.20) Ф п а через 7/(ф, х, и) обозначим функцию п Н (ф, X, u) = S tyifi U, и)- i = l (17.21) Уравнения (1) и уравнения (8) можно представить так: </-1 “>• (17.22) «-1 »)• (17-23) При фиксированных значениях ф и х функция Н становится функцией параметра и; верхнюю грань значений этой функции обозначим через А1(ф, х): М (ф, x) = sup//(i|), х, и). (17.24) Так как согласно (21) и (19) Н (ф, х, и) = Я(ф, х, и) — ф,). (17.25) то получим, что А1(ф, х) = 1И(ф, х) —фо. (17.26)
§ 17. ТЕОРЕМА О НЕОБХОДИМОМ УСЛОВИИ ОПТИМАЛЬНОСТИ 255 Поэтому условия (16) и (17) теперь принимают вид H(^(t), x(i), u(t)) = M(ty(t), х(О)=-фо>О. (17.27) Таким образом, получаем следующую теорему [72]. Теорема 2 (принцип максимума в задаче о быстродействии). Пусть u(t) (to-^-t -^t\)— допустимое управление, переводящее изображающую точку из положения х(/0) в положение х*, a x(t)— соответствующая траектория, так что x(ti) = x*. Для оптимальности (по быстродействию) управ- ления u(t) и траектории x(t) необходимо существование такой ненулевой непрерывной вектор-функции ф (t) = (ф1 (t), фг (0 • • • • ..., фп(0). соответствующей функциям u(t) и x(t), что: 1°. Для любого момента t (ta^-t ^t\), являющегося точкой непрерывности управления и(1), функция Н(ф(t), х(t), и) пе- ременного «ей достигает в точке и = u(t) максимума Н (ф(0, x(t), u(t)) = M(q(t), x(t)). (17.28) 2°. В конечный момент ti выполнено соотношение М(ф(Л), х(/,))>0. (17.29) Оказывается, далее, что если величины ф(0» х(/), u(t) удов- летворяют системе (22), (23) и условию 1°, то функция Л4(ф(/),х(/)) переменного t постоянна, так что проверку соот- ношения (29) можно проводить не обязательно в момент /1( а в любой момент t (t0^t ^t\). 3. Доказательство теоремы о необходимом условии опти- мальности (принципа максимума) в задаче с закрепленным вре- менем Т и свободным концом траектории. В общем случае до- казательство принципа максимума является довольно сложным. Поэтому здесь мы ограничимся сравнительно простым частным случаем. Рассмотрим систему, описываемую дифференциальными уравнениями f I (%i> ...» хп, U], щ, ...» ur) f/(x, и) (17.30) (/=1, .... п), которым эквивалентно векторное дифференциальное уравнение -^ = f(x, и), (17.31) где х, и и f — векторы следующего вида:
256 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Управление u(t) является кусочно-непрерывной вектор-функ- цией и должно удовлетворять ограничениям uf=Q. (17.33) Начальное состояние системы задано lx (/)],_>, = х (t0). (17.34) Требуется найти управление u(t) удовлетворяю- щее ограничениям (33) и доставляющее минимум функционалу т Q = J foU(g), «(1))^, (17.35) где Т — некоторая фиксированная величина. Как и в п. 1, обозначим через Хо(О скалярную функцию, определяемую дифференциальным уравнением -^- = ZoUi, х2, хп, Ui, и2, ur) = f0(x, и) (17.36) и начальным условием [*о(Ок/о = О. (17.37) Из (36), (37) и (35) следует, что Q = x0(7). (17.38) Обозначим здесь оптимальное управление через й(/). Соот- ветствующая этому управлению траектория Jc(t) будет опти- мальной траекторией. Оптимальное управление й(/) является вектором, коорди- наты которого йг (/) могут, как указано выше, иметь на отрезке to t Т разрывы первого рода в конечном числе точек. Рассмотрим бесконечно малый интервал времени т — е< </<т, где 8—бесконечно малая величина, а те(/0, Т). Дадим управлению u(t) вариацию, заменив й(0 на беско- нечно малом интервале времени т—е</<т другим управле- нием и (не изменяя управления й(0 вне этого бесконечно ма- лого интервала). Заметим, что здесь не требуется, чтобы приращение иг(/) — —йг(0 (/= 1, г), где /е(т — 8, т) было бесконечно малой величиной. Если ограничение (33) имеет, например, вид •<тг-, то приращение tii(t)— ili(t) (f^(r— 8, т)) может при- нимать любое значение ki, где О | kt | 2/иг-. Однако так как 8—бесконечно малая величина, то импульс [^г(0 — иг(0]е (f=l,...,r) приращения управления будет ве-
§ 17. ТЕОРЕМА О НЕОБХОДИМОМ УСЛОВИИ ОПТИМАЛЬНОСТИ 257 личиной бесконечно малой. Найдем вызываемое этим импуль- сом изменение траектории системы. В соответствии с уравне- ниями (30) и (36) будем иметь Г/ dx{ \ I d£} \ 1 X/ (т) - X, (т) = е + о (8) = = 1МХ(Т)> u(T))-f/(*(T)> U (т))] 8 + о (е) (17.39) (/ = 0, 1.......п). Согласно (39) разность хДт)— xj(t) будет величиной того же порядка малости, что и е. Отсюда следует, что и(х)) — /Дх(т), и(х)) также будет величиной того же порядка малости, что и е. В силу этого соотношение (39) можно заменить следующим соотношением: Х/(т)-Х;(т) = [//(х(т), и(т))-^(х(т), й (т) )] 8 + Oj (е) (17.40) (/ = 0, 1, ..., п). Введем теперь функции 6хД/) (/ = 0, 1,..., п) при помощи соотношений x/(0 = x/(Z) + 6x/(Z) / = 0, 1, 2, п) (17.41) Функции называются вариациями координат. Как видно из (40), вариации имеют тот же порядок малости, что и е. Поэтому при отыскании уравнений, которым удовлетворяют функции (/ = 0, 1,..., п), будем пренебре- гать величинами о(е). Согласно (40) и (41) в момент времени / = т значения ва- риаций будут 6х/(т) = [):/(х(т), «(т))-//(х(т), й(т))]е. (17.42) На интервале времени x^t^T управление и совпадает с оптимальным управлением й(/). Дифференциальные уравне- ния, которым удовлетворяют вариации бхД/) (т^/^Г), мож- но получить следующим образом. Согласно (30), (36) и (41) будем иметь J*, d(6xA -аГ + -^2- = Ш+дх1.........xn + t>xn, й„ ..., йг) (17.43) (/ = 0, 1, ..., п). 9 Я. Н. Ройтенберг
258 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Разлагая правые части (43) в ряды Тейлора в окрестности Х1(/), xn(t), получим d&j f d (dxy) "di । dt 4, щ, йг) + + ------^dxft + o(dx0, 6xb dx„) (17.44) A=0 k (j = 0, I, .... n). Согласно (30) и (36) первые слагаемые в левых и правых частях уравнений (44) взаимно сокращаются. Поэтому, отбра- сывая в (44) члены, содержащие дх,- во второй и высших сте- пенях, совокупность которых обозначена через о(бх0, 6хь ... ..., бхп), получим следующую систему линейных дифферен- циальных уравнений относительно дх/ д1,дх (/ = 0. 1, 2, ..., п). (17.45) ЬО k Дифференциальные уравнения (45), которым удовлетворяют вариации 6xj, называются уравнениями в вариациях. Заметим, что если ввести матрицы Г(х, «) = ' df0 dxa дх0 dfo dxi dfi dxi dfo dx2 dft dx2 dfn ~ dxn Jh. dxn , 6x = 6x0 dX[ , (17.46) dfn _ дх0 dfn dxt dfn dx2 ' dfn ‘ ’ dxn _ 6xrt то систему скалярных дифференциальных уравнений (45) мож- но представить в виде эквивалентного векторного дифферен- циального уравнения -^^-=F(x, й)6х. (17.47) Матрица F*(x, и), транспонированная для матрицы F(x, u)t будет согласно (46) иметь следующий вид: ~ dfQ dft dfo dfn ~ dxa dx0 dx0 ' ’ ‘ dx0 df0 dft df2 dfn F(x, u) = dxi dxi dxi ' ' ‘ dxi (17.48) dfo dfi df2 dfn _ dxn dxn dxn ‘ ‘ ’ dxn _
§ 17. ТЕОРЕМА О НЕОБХОДИМОМ УСЛОВИИ ОПТИМАЛЬНОСТИ 259 Через ф обозначим (n + 1)-мерный вектор (17.49) который удовлетворяет векторному дифференциальному урав- нению -^-=-Г(Ай)ф. (17.50) Векторное дифференциальное уравнение (50) эквивалентно системе скалярных дифференциальных уравнений W-0. 1.2......")• (17.51) i=0 R Система дифференциальных уравнений (51) совпадает с си- стемой уравнений (9), которая была введена в п. 1. В соответствии с (47) и (50) имеет место следующее соот- ношение: ^-<ф(о, дх(п)=<4г. *х)+(ф. 4бх)= = <-Гф, дх) + (ф, Г6х) = - фТ6х + фТбх = 0, (17.52) откуда следует, что ЗфДОбхЛО» const (т</<7). (17.53) Полученное здесь соотношение (53) является известным со- отношением Лагранжа для сопряженных систем однородных линейных дифференциальных уравнений, каковыми по опреде- лению являются системы, представленные векторными уравне- ниями (47) и (50). Согласно (38) 6Q =бх0(Т), а так как оптимальное управление u(t) доставляет функцио- налу Q минимум, то при любом другом управлении, отличном от оптимального, имеет место неравенство SQ = dx0(r)>0. (17.54) 9*
260 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Зададим теперь для системы дифференциальных уравне- ний (51) следующие условия, которым должно удовлетворять решение уравнений (51) в момент времени t—T (см. стр. 273): ф0(Т)=-1, ф1(Т’) = ф2(Т) = ... = ф„(Г) = 0. (17.55) При этом в соответствии с (54) и (55) будем иметь 2 ф/ (Т) bxi (Т) = - бх0 (Л = - 6Q <0. (17.56) i-Q В соответствии с (53) можно переписать неравенство (56) так: -б(?=2ф<(т)бх/(т)<0. (17.57) i=0 Здесь Ф((т) = [ф<(ОЪ_т (« = о. 1. •••, «)> где ф(0—решение системы дифференциальных уравнений (51), удовлетворяющее условиям (55). Значения 6хг- (т) (Z = 1,..., п) известны — они определены выше выражениями (42). Подставляя эти выражения в нера- венство (57), получим 2 ФгСОЮС^СО» «(т)) - fi (х (т), й(т))]е<0. (17.58) z=o Интервал времени (т — 8, т) есть тот интервал времени, на котором оптимальное управление u(t) было заменено другим управлением. Учитывая, что 8 > 0, можно заменить неравенство (58) следующим неравенством: Гп 2 Ф< СО [fi (X (т), и(т))- fi (х (т), й (т))] < 0. (17.59) z=o Так как в качестве момента времени т можно выбрать любой текущий момент времени t (to + ^Г), где 8 — сколь угодно малая величина, то неравенство (59) можно представить так: 2 Ф/(0fi(х(0, и(0)< 2 ФЛОfiU(0, й(t)). (17.60) i=0 i=0 Выше (10) через Н была обозначена следующая функция переменных Xi.....хп, фо, фь •••> Фп, «ь •••> Чг'. Н (ф, х, и) = 2 Ф/Мх> и). г=о
§ 18. ПРИНЦИП МАКСИМУМА ДЛЯ НЕАВТОНОМНЫХ СИСТЕМ 261 (17.61) (17.62) (17.63) (17.64) Поэтому неравенство (60) принимает следующий вид: Н Оф, х, и)^#(ф, Д й). Заметим еще, что так как согласно (30) и (36) dfi (х> и) = dfi (хь х2,хп, иъ ..., ur) q дх0 дх0 (z = 0, 1, п), то из (51) следует, что dt откуда в соответствии с (55) найдем ^о(О= — 1 Таким образом, для рассматриваемой здесь задачи доказано утверждение (16) теоремы 1. Доказана также первая часть утверждения (17) этой теоремы. Вторая часть утверждения (17) о том, что х (0, u(t)) = O для любого значения t на от- резке to^t^.T9 требует отдельного доказательства. Мы убедились, что если управление u(t) является оптималь- ным, то имеют место условия (61) и (64), то есть эти условия являются необходимыми условиями оптимальности. Таким образом, для рассмотренного здесь частного случая доказано, что теорема 1 доставляет необходимые условия опти- мальности. Доказательство теоремы 1 для общей задачи оптимального управления дано в монографии [72]. § 18. Принцип максимума для неавтономных систем 1. Теорема о необходимом условии оптимальности для не- автономных систем. Рассмотрим теперь систему, описываемую дифференциальными уравнениями Jxz dt fi С^ь •••» •••> 0 = f/ (x, u> t) (18.1) (/= 1....n), которым эквивалентно векторное уравнение = и, t), (18.2)
262 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА где х, и и f—векторы следующего вида: Требуется перевести систему из точки х(/0) фазового про- странства X в заданную точку х*. Момент времени в который изображающая точка попадет в точку х*, заранее не фикси- руется. Управление и = u(t) должно удовлетворять ограничениям ueQ, (18.4) причем область Q предполагается не зависящей от времени. С учетом ограничений (4) требуется выбрать управление и так, чтобы функционал tx Q = J fo(*(O, «(0, t)dt (18.5) to принимал наименьшее возможное значение. Удовлетворяющее этим условиям управление и, соответствую- щую ему траекторию и промежуток времени — /0 будем счи- тать оптимальными. Как и выше, обозначим через хо(О скалярную функцию, определяемую дифференциальным уравнением -^ = f0(x1> .... хп, щ...ur, t) = f0(x, и, 0 (18.6) и начальным условием хо(/о) = О. (18.7) В соответствии с (6) и (7) функционал (5) можно предста- вить так: Q = *M (18.8) Введем теперь еще скалярную функцию хп+ь определяемую дифференциальным уравнением -^^-=1 (18.9) и начальным условием X„+1(U = /O. (18.10) Очевидно, что х„+1 = /. (18.11)
§ 18. ПРИНЦИП МАКСИМУМА ДЛЯ НЕАВТОНОМНЫХ СИСТЕМ 263 Пространство переменных хь х2, ..., хп> хп±{ обозначим че- рез X*. Систему уравнений (1) и уравнение (6) можно теперь за- писать совместно так: Z7 x(t0) Рис. 18.1. Хп -ar = fl(x, и, xn+l) (j = Q, 1, .... п). (18.12) Рассматриваемую здесь задачу можно теперь сформулиро- вать так. Требуется найти оптимальную траекторию, соеди- няющую в пространстве X* точку (хо(/о), х2(/о), ...» хп(^0)Л0) с некоторой точкой прямой Si (рис. 18.1), проходящей через точ- ку (х*, х*, х*, 0) параллельно ОСИ Хп+1. Рассматриваемая задача, таким образом, приведена к оптимальной автономной задаче с закрепленным левым концом, но подвижным пра- вым концом. Вследствие подвиж- xi ности правого конца траектории теорема 1 (§17) непосредственно не может быть здесь применена. Впомогательная система уравнений (17.9) здесь принимает вид .....(18.|3) 1Л L С/ Д у 1=0 к п = _ 2 dfi (х,и, t) (18 14) i=0 Аналогично (17.10) обозначим Н (ф, х, /, w) = 2Wi(x> и> t)- (18.15) i=0 Уравнения (12) и (13) можно представить в виде dx, лн dty. ан = -7Г=-^~ (« = 0, 1, .... п). (18.16) dt оф*. dt дх. ' > > , / \ / Необходимое условие оптимальности для неавтономной си- стемы дается следующей теоремой. Теорема (принцип максимума для неавто- номных систем) [72]. Пусть u(t) —такое допу- стимое управление, что соответствующая ему траектория x(t)
264 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА системы (1), исходящая в момент t0 из точки х(/0), проходит в момент t\ через точку х*. Для оптимальности управления u(t) и траектории x(t) необходимо существование такой ненулевой непрерывной вектор-функции ф(/) = (ф0(/), ф1(/), •• -,^n(0), со- ответствующей функциям u(t) и x(t), что: 1°. Для любого момента t , являющегося точкой непрерывности управления u(t), функция x(/),f, и) пе- ременного ией достигает в точке и = u(t) максимума Я(ф(0> х(0, /, и(/)) = Л1(ф(0, х(0, t). (18.17) 2°. Выполнены соотношения -фо (0 = const <0, (18.18) г п м(М), х(0, 0= (18Л9> tl Оказывается, далее, что если величины ф(/), *(0> и(0 удовлет- воряют системе (12), (13) и условию Г, то функция ф0(/) пе- ременного t постоянна, а функция Л1(ф(/), x(t), t) может лишь на константу отличаться от интеграла, указанного в (19), так что проверку соотношений (18) и (19) достаточно произвести лишь в какой-либо один момент времени t напри- мер, вместо (18) и (19) достаточно проверить соотношения ф0(/1)<0, М(ф(^), х(/,), /0 = 0. (18.20) Из сравнения приведенной здесь теоремы с теоремой 1 (§ 17) видно, что и для неавтономных систем, описываемых уравне- ниями вида (1), первая часть теоремы 1 — принцип максиму- ма — полностью сохраняется. Отличие состоит лишь в том, что у неавтономных систем функция М(ф(0, х(0, /) = Я(ф(0, х(/), /, u(t)) теперь уже не является константой, а определяется выраже- нием (19). 2. Доказательство теоремы о необходимом условии опти- мальности для неавтономной системы с линейно входящим упра- влением. Для частного случая, когда управление входит линейно, можно дать [27, 72] непосредственное доказательство теоремы о необходимом условии оптимальности для неавтономной си- стемы.
§ 18. ПРИНЦИП МАКСИМУМА ДЛЯ НЕАВТОНОМНЫХ СИСТЕМ 265 Рассмотрим систему, описываемую скалярными дифферен- циальными уравнениями dx г = хп, + .....п), (18.21) 1=1 которым эквивалентно векторное дифференциальное уравнение = f(x, + (18.22) где Требуется перевести систему из точки x(tQ) в заданную точку х*. Момент времени 6, в который изображающая точка попадет в точку х*, заранее не фиксируется. Управления Ui(t) должны удовлетворять ограничениям luz(0l<mz, г), (18.24) и их надо выбрать так, чтобы приведение системы в точку х* было выполнено при минимально возможном значении функ- ционала Q = J foU (0, 0 + 2 Boz (WO dt. h L i=i (18.25) Через x0(t) обозначим функцию, определяемую дифферен- циальным уравнением г ^T = fo(xi....хп, 0 + 2b<h(0«z(0 (18.26) 1=1 и начальным условием хо(/о) = О. (18.27) Тогда функционал Q примет вид Q = x0(/I). (18.28) Вспомогательные переменные фо, фь ..., фп будут удовлетво- рять следующей системе дифференциальных уравнений: п = “ S .gh£x„ хп, t) (fe = 0, 1.....................п). (18.29) Z-0 *
266 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Функция Н в рассматриваемой задаче имеет вид tf = 2^< .....хп, о + 2 />=о L z=i J или й=2М,, .... хп, 0 + 2И/ 2Bn(0ti i=o / = i Li=o (18.30) Обозначим через u(t) оптимальное управление, а через x(t) и ф(/)— соответствующие ему векторы фазовых координат и вспо- могательных переменных. Покажем, что оптимальное управление будет иметь следую- щий вид, соответствующий теореме о принципе максимума: п йг (0 = tnl sign 5 Вц (t) (t) (I £=П = 1, ..., г) (18.31) ИЛИ где uz(Z) = mzsign7?z(Z) (Z=I, Я(0 = В’(0Ф(0, .... r), (18.32) (18.33) B(z) = ‘ B0I(0 ... BorW Bu(0 ... BIr(Z) , i>(0 = Фо(О Ф1(0 (18.34) ... Bnr(t)_ Дадим оптимальному управлению ui(t) удовлетворяющее условию | ut (t) + (/) | < mi (Z = 1, приращение dui(t), ...,r). (18.35) Функцию bui(t) назовем допустимой вариацией оптимального управления. Управлению щ(1) + 6ui(t) (Z = 1,..., г) будет соответство- вать решение Д(/) + 6х&(0 (£ = 0, 1,..., я) дифференциальных уравнений (21) и (26), где xk(t) (k = 0, 1,..., п)—решение этих уравнений при Ui(t) = ui(t) (Z = 1,..., г). Так как начальное состояние системы %о(^о), *i (Zo),..., хп (ZG) фиксировано, то 6%jfo) = O (6 = 0, 1, ..., я). (18.36) Таким образом, в соответствии с (21) и (26) будем иметь сле- дующую систему дифференциальных уравнений: + бХу) = fj (х, + 6хь ..., хп + бх„, t) + г + SB//W(^ + 6mz) (/ = 0, 1, ..., и). (18.37) /=1
§ 18. ПРИНЦИП МАКСИМУМА ДЛЯ НЕАВТОНОМНЫХ СИСТЕМ 267 Так как //(А + бхь xn + bxn, t) = fl (*1> • • • > %П> ty “I” Qx 4“ fe=0 k + o(6x0, 6xb ..., 6xn) (j = 0, I.........n), (18.38) то уравнения (37) принимают вид ~dt~ + ~dF I = fl .............0 + £/z(O#z + z=i + ------Tx-------6xft+2JB/z(/)6MZ + o(6x0) 6xb .... dx„) fe=0 k Z=1 (/=0, 1, ..., n). (18.39) Первое слагаемое в левой части уравнений (39) взаимно сокращается с первыми двумя слагаемыми в правой части этих уравнений, как это следует из уравнений (21) и (26). При ма- лых допустимых вариациях управления dwz(Z), будут малыми и вариации 6xz(/) (I = 0, 1,..., п). Тогда, отбрасывая в уравне- ниях (39) совокупность членов второго и высших порядков от- носительно бх0, 6X1, ..., 6хп, получим следующую систему ли- нейных дифференциальных уравнений: d VX dfi (^1. • •., $п, t) VT dT 6Х/ = 2 дх-------------- bxk + 24Btl (0 6zzz (0 (18.40) k=0 к Z=1 (/ = 0, 1, .... n). Уравнения (40) представляют собой систему уравнений в ва- риациях для рассматриваемой задачи. Так как Х](0, •••> ЛЛО определяют собой оптимальную траекторию, то функции <?// (*1.*п, t) —------------- являются некоторыми функциями времени. °** Обозначим через Д(/) матрицу типа (n + l)X(n + 1), эле- , dfjlti,..., хп, /) ментами которой являются функции---------ч--------: ~ dfo dfo dfo дха dxj dx2 ' " dxn dfi dfi dfi dfi A(t) = дх0 dxt di2 ’'' dxn (18.41) dfn dfn dfn dfn _ дхй dxi dx2 ’ ’ ' dxn _
268 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Через £ обозначим (п + 1)-мерный вектор (18.42) где ^ = бХ/ (/ = 0,1, п). (18.43) Систему уравнений в вариациях (40) можно представить в виде векторного дифференциального уравнения | = Л(0£ + в(/)ди(0, 0. (18.44) где матрица B(t) имеет вид (34) Матрица 4*(/), образуемая (41), имеет следующий вид: транспонированием матрицы ~ df0 дх0 dft дха dh dx0 1 dfn ~ dxa д*(0 = dfo дх} dh dxi dh dxi dfn "" dxi • (18.45) dfo _ дхп dh dxn dh dxn dfn dxn _ Согласно (29) вспомогательные переменные ф0, соответствующие оптимальному управлению й^(/), удовлетво- ряют следующей системе дифференциальных уравнений: ф = _ J) Ф, №_0, 1..........„). (18.46) j=0 k Систему скалярных дифференциальных уравнений (46) можно заменить векторным дифференциальным уравнением = -4W. (18.47) Через S(/) обозначим фундаментальную матрицу решений векторного дифференциального уравнения (47), удовлетворяю- щую условию а(/о) = £, где Е — единичная матрица. Через А(/) обозначим фундаментальную матрицу решений векторного дифференциального уравнения С = Д(ОС, (18.48) удовлетворяющую условию Л (to) = Е.
§ 18. ПРИНЦИП МАКСИМУМА ДЛЯ НЕАВТОНОМНЫХ СИСТЕМ 269 Так как согласно (47) и (48) 4<^(о. ^(о)+(ф(о. 4^)>= = <-А*(0Ф(0. иО) + <Ф(О. Л(0Ц0> = = - Ф* (0 а (t) £ (0 + ф‘ (0 A (t) g(0 = О, (18.49) то <ф(0, £(/)> = const, (18.50) откуда следует, что <Ф(0. Ц0) = <Ф(и. №»• (18.51) Подставляя вместо ф(/) и l(t) решения уравнений (47) и (48) ф (0 = 2 (0Ф Go). £ (0 = А (0 £ Go), приведем соотношение (51) к виду [2(ОФ(иГЛ(ОЦУ = Ф’ао)Ц4>) Ф‘ (f0) В’ (0 л (0 с (t0) = ф- (to) Z (to). (18.52) Из соотношения (52) следует, что B*(t)A(t) = E, В*(0 = Л-‘(0. (18.53) Транспонируя матрицы в левой и правой части соотношения (53), получим A‘(t)3(t) = E, Л*(0 = 3~'(0. (18.54) Аналогично (49) из уравнений (44) и (47) найдем, что 4 <& G), ф G)) = <в* (0 Ф (0. б« G». (18.55) откуда, интегрируя, получим ц <5, (0), Ф G.)> - Go), Ф (to)) = J <В* (Т) Ф (т), би (т)> dr. (18.56) to Так как согласно (44) |(/0) = 0, то соотношение (56) прини- мает вид <£Gi). Ф(0)> = j <В‘(т)Ф(т), t>u(x))dx. (18.57) to Покажем теперь, что при выполнении условия (31) имеет место соотношение <IG>), ФО<о, (18.58)
270 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА где £(/i) — любой вектор, принадлежащий множеству векторов, соответствующему множеству допустимых вариаций Su(/). Действительно, в соответствии с (31) при 2 (0 (0 >о [г, с’] <= [/0, ) «=о согласно (31) имеем йц(0 = /♦♦]), и допустимая ва- риация биц(/) будет удовлетворять условию -2т„ < du„ (/)<0. При п Яв^шхо (М.. <..]с[10, /,]) имеем согласно (31) йа(/) =—т0 /*J), и допустимая вариация будет удовлетворять условию 0<6z/a(/)<2ma. При этом л J (В* (т) гр (т), Ъи (т)) dx 0, /о откуда согласно (57) вытекает соотношение (58). Нетрудно также видеть, что если условие (31) не выполнено, то существуют такие допустимые вариации, для которых ШН(/1)»о. Действительно, пусть вне отрезка времени [/*, /**] с [/о, Л] ва- риация управления du(/) = 0. На отрезке времени [/*,/**] (0 =/= 0, би, (0s0 (/ = 1, .,ц - 1, (I + 1, .,г). Пусть 2 в.-ц (0 (0 > о. (0 < [/•, г •]), 1=0 то есть условие (31) не выполнено. Выберем в качестве допустимой вариации управления 6m11(0 = v>0 (/е[С, /“]), где v удовлетворяет условию Г]). При этом выражение (57) принимает вид I** Г п <ШШ))=/ X В'и (T) w vdT>0.
§ 18. ПРИНЦИП МАКСИМУМА ДЛЯ IJ-АВТОНОМНЫХ СИСТЕМ 271 Таким образом, соотношение (58) имеет место только при вы- полнении условия (31). Допустимые вариации би(0 оптимального управления дол- жны удовлетворять соотношению (35), из которого следует, что векторы би(/) ограничены по норме. Так ка < мы здесь исходим из линейной системы уравнений в вариациях (44), то ограни- чимся лишь достаточно малыми вариациями du(Z), удовлетво- ряющими как условию (35), так и условию I 6uz(0l<e (Z = 1, ..., г), (18.59) где е — достаточно малая величина. Каждой допустимой вариации 6u(t) соответствует некоторое решение §(/) векторного дифференциального уравнения (44). Это решение в момент времени t\ принимает значение £(Л). В (п + 1)-мерном пространстве (х0, *ь ..., хп) из точки x(/i) = = (x0(Zi),x(Zi)) отложим вектор £(Л). Множество концов век- торов £(/i), соответствующих допустимым вариациям Su(Z), на- зовем множеством достижимости и обозначим через К (Л). Так как согласно (59) допустимые вариации 6u(i) ограничены, то и векторы £(Zi) также ограничены, и, следовательно, множе- ство К (Л) будет ограниченным. Можно показать, что К(Л) является выпуклым множеством. Для этого требуется, чтобы все точки (1 -Ж (Л) + xr(/i) (0<х< 1) отрезка прямой, соединяющего две точки £*(Л) и g**(/J мно- жества Л (Л), принадлежали множеству /<(Л). Вариации управ- ления 6u*(Z) и 6u**(Z), которым соответствуют g*(/i) и £**(Л), удовлетворяют условиям (35) и (59). Определим 6^x(Z) (/е[/о, Zi]) соотношением бик (f) = (1 _ X) би (0 + Л би * (/) (0 < Л < 1). Вариация управления 6u^(t) удовлетворяет условиям (35) и (59), то есть точка E.x(Zi)е Л(/1). Решение £х(/), соответствую- щее вариации 6uK(t) и начальному условию £х(/о) = 0, в соответ- ствии с (44) будет t lx (0 = Л (0 j Л"1 (т) В (т) б«х (т) dr = = (1 -1) Л (О J Л-' (т) В (т) бы’ (т) dr + to t + ЛЛ(/) | Л-1 (?) В (т) би” (т) dr = (1 - Л) Г (/) + ЛГ (0. 6
272 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Отсюда следует, что ^(/,) = (i -х)Г(/,)+хга>). и, таким образом, K(/i) является ограниченным, выпуклым мно- жеством. Покажем еще, что точка х (/J = (х0 (Л), х(^)), соответствую- щая вариации би (t) = 0 (t е [/0, /J), лежит на границе множе- ства Действительно, точка x(tx) в пространстве (х0, ..., хп) расположена на прямой L, проходящей через точку (0, xn(/J) параллельно оси х0. Если бы точка (x0(/i), *1(Л), • ••, Аг(^1)) была внутренней точкой ограничен- ного выпуклого множества К (/J, то существовал бы отрезок L* прямой L с граничной точкой (^(/J, А (Л)> •••> *n(^i))> все точки которого принадлежали бы множеству /С(/1) и имели бы координату х0, меньшую чем координата х0(^) граничной точки оптимальной траектории. Тогда сфера достаточно малого ра- диуса р с центром в точке (х0(^), xx(tx), ..., хп(^)), все точки которой принадлежат множеству /С (Л), пересекла бы отрезок L* в точке (xq, Xj (/j), xn(Q), где x* < x0(/j), что противоре- чило бы оптимальности траектории (х0(7), хД/), хп(/)) (/еро, /,]). Отсюда следует, что точка x(/i) = (х0(Л), х(^)) расположена на границе ограниченного выпуклого множества К(Л). Как известно [15], через любую граничную точку выпуклого множества можно провести хотя бы одну гиперплоскость такую, что все точки этого множества будут расположены по одну сто- рону от этой гиперплоскости. Указанная гиперплоскость назы- вается опорной. Через угловую граничную точку можно провести более одной опорной гиперплоскости. Обозначим через М опор- ную для множества K(/i) гиперплоскость, проходящую через граничную точку х(^) = (Л(^1)> *(Л))* Единичную нор- маль к гиперплоскости М в точке x(tx) = (^0(^), х(/0), направ- ленную в полупространство, не содержащее множества /С(/1), обозначим через N. Из изложенного следует, что для любого вектора £(/i) е Л(^) будет иметь место соотношение Ш), Жо. (18.60) Чтобы завершить доказательство теоремы, надо показать существование вектор-функции ф(/), удовлетворяющей усло- вию (17). Положим $(tx) = N. (18.61) Тогда, как показано выше (соотношение (58)), для выполнения условия (60) требуется, чтобы управление й(/) определялось
§ 18. ПРИНЦИП МАКСИМУМА ДЛЯ НЕАВТОНОМНЫХ СИСТЕМ 273 формулой (31), где ф(0 —решение системы дифференциальных уравнений (46), удовлетворяющее граничному условию (61). В качестве примера заметим, что для задачи с закрепленным временем Т и свободным концом траектории опорная плоскость М для множества дости- жимости /((Т) будет перпендикулярна к оси х0. Поэтому нормаль W к пло- скости М, направленная в полупространство, не содержащее множества К (Г), будет W = (—1, 0, 0), и, следовательно, согласно (61) в этой задаче ф(Г) = (—1, 0, ..., 0), как это указано в формуле (17.55). Приведенные здесь, при помощи линейных уравнений в ва- риациях (44), рассуждения справедливы, если вариации 6u(t) достаточно малы, то есть если рассматриваются лишь траекто- рии, достаточно близкие к оптимальной траектории. Итак доказано, что условие (31) является необходимым усло- вием оптимальности. Вопрос о достаточных условиях оптимальности в форме прин- ципа максимума требует отдельного рассмотрения. 3. Линейные неавтономные системы. Приведение задачи о быстродействии к краевой задаче. Предварительно введем неко- торые обозначения. Рассмотрим две системы, описываемые век- торными дифференциальными уравнениями (18.62) -М (On, (18.63) где матрица 4*(0 является транспонированной матрицей для матрицы Л(/). Через 0(0 обозначим фундаментальную матрицу решений для уравнения (62), а через X(t) обозначим матрицу Х(0 = 0(00-1(О). (18.64) Решение задачи Коши для векторного дифференциального урав- нения (62) будет иметь следующий вид: g(Z) = Х(0^(0). (18.65) Решение задачи Коши для векторного уравнения (63) запи- шем так: п(0 = 3(0п(0). (18.66) Здесь 3(0 — квадратная матрица, удовлетворяющая условию 3(0) = Е, (18.67) где Е — единичная матрица.
п\ ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Как показано выше (53), матрицы X(t) и S(/) удовлетво- ряют условию а’(0=х~'(0- (18.68) Обратимся теперь к управляемой системе, описываемой ли- нейным векторным уравнением -£ = A(t)x + B(t) и, (18.69) где х, А (/), B(t), и — следующие матрицы: Г Ы1 1 X = Г xi 1 и = и. - %п глп(0 ... л,„(0 1 В(/) = ЬЛП1(/) . ГВн(0 • AU0J Bir (0I (18.70) - Вп\ (t) ... Впг (/) _ Векторное уравнение (69) эквивалентно следующей системе скалярных уравнений: , п г (/=!,...,«). (18.71) /г=1 1 = 1 На управления щ наложены ограничения - 1 1 (/=1, г). (18.72) Рассматриваемую систему требуется перевести из точки х(0), в которой система находится в момент времени to = 0, в точку х = 0 за наименьшее возможное время. Через ф обозначим n-мерный вектор Г 1 ф= ... L фп J (18.73) и согласно (15) введем функцию п п г / п \ Я(ф, х, и) = 3 xk + 5 Щ • (18.74) /=1 /2=1 /=1 \/=1 / Согласно (13) функции (/ = 1,...,и) удовлетворяют диффе-
§ 18. ПРИНЦИП МАКСИМУМА ДЛЯ НЕАВТОНОМНЫХ СИСТЕМ 275 реьшиальным уравнениям (/ = 1...П), (18.75) /2=1 которые эквивалентны векторному дифференциальному урав- нению -^-=-Д’(/)ф. (18.76) В соответствии с теоремой о принципе максимума оптималь- ное управление будет иметь следующий вид: «z(0 = sign3 ВрШДО (/=1, ...,г). (18.77) /=1 Соотношения (77) можно переписать так: udt) =signRdt) (/=1, г), (18.78) где через R(t) обозначен г-мерный вектор, являющийся произ- ведением следующих матриц: /?(/) = В* (^)'Ф(^). (18.79) Обозначим теперь через У(/) следующую матрицу: Y (t) = X~l (t) В (t). (18.80) Так как в соответствии с (66) и (63) решение векторного урав- нения (76) имеет вид ф(/) = 3(0ф(0), (18.81) то выражение (79) можно, учитывая (68), переписать так: R (/) = в* (/) з (0 ф (0) = [3- (0 в (0Г Ф (0) = = [X-1 (о В (/)]• ф (0) = У (/) ф (0). (18.82) Согласно (82) элементы вектора R(t) будут ^(0=1к//(0ф/(0) (/=1, ...,г). (18.83) /=1 Таким образом, в соответствии с (78) и (83) оптимальное управление имеет следующий вид: wz(0 = signS Ъг(ОФ/(О) (/ = 1, ...,г). (18.84)
276 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Запишем теперь решение задачи Коши для векторного урав- нения (69) х (0 = X (0 х (0) + X (0 ]* Х~' (т) В (т) и (т) dx. (18.85) о Через ti обозначим момент времени, когда система (69) будет приведена в начало координат х(/,) = 0. (18.86) В соответствии с (85), (80) и (86) получим Х(Ох(0) + Х(О J Y(x)u{x)dx = x(tl) = O. (18.87) о Поскольку матрица X(t) является неособой матрицей, то из (87) следует соотношение tx х(0) = - j Y(x)u(x)dx. (18.88) о Векторному соотношению (88) эквивалентны следующие скаляр- ные соотношения: г /1 xs(0)= - J] j Ysi(x)ut(x)dx (s=l,...,n). (18.89) Z=>1 о Подставляя вместо U/(x) оптимальное управление (84), приве- дем соотношения (89) к виду г Л xs(°)=-S f Ysl(x) Z = 1 о (S=I п sign (т)-фу (0) dx i=i ..., n). (18.90) В соотношениях (90) неизвестными являются величины ф1(0), ..., г|)Л(0), а также значение t\ момента времени, в ко- торый система будет приведена в начало координат. Уравнения (90) являются исходными в некоторых численных методах определения оптимального управления. § 19. Задача с подвижными концами. Применение принципа максимума. Условия трансверсальности Существует ряд задач, в которых конечное состояние си- стемы задается на некотором множестве М\ (плоскости, линии и т. п.) фазового пространства, а не в виде фиксированной точки в фазовом пространстве. Так, например, возможны задачи,
§ 19. ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 277 в которых в конечный момент времени Л представляют интерес значения лишь некоторых фазовых координат системы Хае Хс2у xGp. Для остальных п — р фазовых координат системы допускаются произвольные значения в конечный момент вре- мени t[. Равным образом возможны задачи, в которых начальное со- стояние x(t0) системы заранее не задается, а известно лишь, что точка х(/о) принадлежит некоторому множеству Л40 фазо- вого пространства. Мы приходим, таким образом, к оптимальной задаче с по- движными концами, результаты решения которой, полученные в монографии [72], будут здесь приведены. Прежде чем дать точную формулировку задачи, необходимо уточнить геометрические характеристики указанных выше множеств Мо и [72]. Пусть X — n-мерное пространство с ортогональными координатами хь ..., хя. Множество S точек х — (xi, ..., хя), удовлетворяющих соотношению xrt) = О, (19.1) называется гиперповерхностью пространства X, а соотношение (1)—уравне- нием этой гиперповерхности. Точка х е S, удовлетворяющая соотношениям df(x) _ df(x) ♦ . df(x) Q dxi дх2 **’ дхп , df (предполагается, что производные существуют), называется особой точ- кой гиперповерхности S. Таким образом, в особой точке вектор df (х) \ dxn ) s 1 v 7 \ dxt ’ дх2 * равен нулю. Точки гиперповерхности S, в которых grad/(х)=£ о, называются неособыми точками. Гиперповерхность, определяемая уравнением (1) с непрерывно диффе- ренцируемой левой частью и не содержащая особых точек, называется глад- кой гиперповерхностью. (Все рассматриваемые ниже гиперповерхности пред- полагаются гладкими.) Если уравнение (1) линейно, то есть имеет вид а1х1 + а2х2+ ... +artxrt + Z> = 0, (19.2) то отсутствие особых точек означает, что хотя бы один из коэффициентов а, отличен от нуля. В этом случае гиперповерхность, определяемая уравне- нием (2), называется гиперплоскостью. Вектор gradf(x°) называется нормальным вектором гиперповерхности S в точке х°. В случае гиперплоскости нормальные векторы, как видно из (2), во всех точках одинаковы и имеют вид (ai, а2, ..ап). Всякая гиперплоскость однозначно определяется заданием нормального век- тора и одной точки, принадлежащей этой плоскости. Пусть S — гладкая гиперповерхность, определяемая уравнением (1) и х°— некоторая ее точка. Гиперплоскость, проходящая через точку х° и имею- щая вектор gradf(x0) своей нормалью, называется касательной гиперплоско- стью к гиперповерхности S в точке х°. Каждый вектор, начинающийся в
278 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА точке х° и лежащий в касательной гиперплоскости, называется касательным вектором гиперповерхности S в точке х°. Пусть теперь Si, ...» SA — гладкие гиперповерхности, заданные в про- странстве X уравнениями fl (хь х2, ..., х„) = 0, ] • ;................................ (19.3) fk (*1> *2> •••, Хп) =0. ' Пересечение М всех этих гиперповерхностей (то есть множество всех точек х <= X, удовлетворяющих одновременно всем уравнениям (3)) назы- вается (п— k)-мерным (гладким) многообразием в X, если выполнено сле- дующее условие: в каждой точке х е М векторы grad fi (х), grad f2 (х), ..grad fk (x) (19.4) линейно независимы. Заметим, что по определению r-мерное многообразие в X задается си- стемой п — г уравнений. В частности, (п — 1) -мерное многообразие задается одним уравнением вида (3), то есть является гиперповерхностью. Одномер- ные многообразия задаются п—1 уравнениями вида (3) и называются также линиями. Если уравнения (3), определяющие (п — k)-мерное многообразие М, ли- нейны, то многообразие М называется (п— k)-мерной плоскостью простран- ства X. Одномерные плоскости называются также прямыми линиями. Пусть М — гладкое (п — k)-мерное многообразие, которое определено в пространстве X уравнениями (3), и х — некоторая его точка. Через L{ (i = 1, ..., k) обозначим касательную гиперплоскость к гиперповерхности /t(xi, х2, ..., хл)=0 в точке х. Пересечение гиперплоскостей Lb L2, ...» Lk представляет собой (п — /г)-мерную плоскость, называемую касательной пло- скостью многообразия М в точке х. Вектор, исходящий из точки х, тогда и только тогда лежит в касательной плоскости (то есть является касательным вектором многообразия М в точке х), когда он ортогонален всем векторам (4). Теперь можно дать точную формулировку рассматриваемой здесь оптимальной задачи. Пусть Л40 и Mi — гладкие многообразия произвольных (но меньших, чем п) размерностей г0, гь расположенные в про- странстве X (рис. 19.1). Требуется найти допустимое управле- ние и(1), которое переводит изображающую точку из некото- рого (заранее не заданного) положения х° е А40 в некоторое положение я* е Mi и при этом придает заданному функционалу минимальное значение. В случае, когда оба многообразия Мо и Afi вырождаются в точки, то задача с подвижными концами обращается в задачу с закрепленными концами. Заметим теперь, что если бы точки х° и я* были известны, то мы бы имели задачу с закрепленными концами. Поэтому управление u(t), оптимальное для задачи с подвижными кон- цами, должно оставаться оптимальным, если трактовать точки х° и я* как известные, то есть принцип максимума (теорема 1, стр. 253) остается в силе и для задачи с подвижными концами. Однако теперь нужны еще соотношения, из которых можно было бы оппелпли^ь положение точек х° и я* на многообразиях
§ 19. ЗАДАЧА С ПОДВИЖНЫМИ КОНЦАМИ 279 Л10 и Afj. Такими соотношениями являются условия трансвер- сальности, которые позволяют написать г0 + и соотношений, включающих координаты концевых точек я0 и я*. Заметим, что число неизвестных параметров (по сравнению с задачей с закрепленными концами) также увеличилось на г0 + и, так как положение точки я0 на многообразии Л40 опре- деляется го параметрами, а положение точки я* на многообра- зии АГ определяется п параметрами. Условия трансверсальности будут следующими. Пусть я0 е еЛ40, я*еЛ41 — некоторые точки, а То и Т\— касательные пло- скости многообразий Мо и проведенные в этих точках. Раз- мерности плоскостей Го и Л будут Го и Г1 соответственно. < /*>> Пусть u(ty x(i) ----Г”°Т | решение задачи с закрепленными х концами я0 и я*, а г|>(/) —вектор, су- / ществование которого утверждается в теореме 1 (стр. 253). Рис 19 L Условие трансверсальности в пра- вом конце траектории x(t) (то, есть в точке я (Л)) состоит в том, что вектор гр (Л) = (г|ч (Л), i|)2(/i), 4>n(^i)) ортогонален плоскости Иными словами, для любого вектора 0 = (0Ь 02, 0П), принадлежащего пло- скости Т[, выполняется соотношение (МФ.), 0> = О. (19.5) Аналогичный смысл имеет условие трансверсальности в ле- вом конце траектории я(/) (нужно лишь заменить ti и 1\ на tQ и Tq соответственно). Так как в соотношение (5) можно подставить линейно независимых векторов 0Ь 02, ..., 0Г1 , расположенных в пло- скости Ti, то условие трансверсальности в правом конце траек- тории я(/) доставляет и независимых соотношений. Условие трансверсальности в левом конце доставляет г0 независимых со- отношений. Таким образом, имеет место [72] следующая теорема. Теорема. Пусть и (/) (/0 <3i) — допустимое управле- ние, переводящее изображающую точку из некоторого положе- ния я°еЛ1о в положение я*еМ1, а я(/)—соответствующая траектория, исходящая из точки я0 = (яь я2, ..., яп). Для того чтобы u(t) и я(/) давали решение оптимальной задачи с по- движными концами, необходимо существование ненулевой не- прерывной вектор-функции -ф(/), удовлетворяющей условиям, указанным в теореме 1 (стр. 253) и, кроме того, условию транс- версальности в обоих концах траектории я(/).
280 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА § 20. Понятие регулярного синтеза в теории оптимальных систем Понятие регулярного синтеза, введенное В. Г. Болтянским [14], для системы, описываемой дифференциальными уравне- ниями (17.1) dxz- хп, щ, иГ) п), или эквивалентным векторным уравнением 4г = Их, и), (20.1) где «ей, для которых теперь предполагается непрерывность производных состоит в следующем. Предположим, что заданы кусочно-гладкое (см.§ 15, стр. 240) множество N размерности п— 1, кусочно-гладкие множества Р° с р' с Р2 с ... CZ Рп~' cPn = D (20.2) и функция v(x), определенная в D и принимающая значения в Q. Множества (2) и функция v(x) осуществляют регулярный синтез для уравнения (1) в области D, если выполнены следую- щие условия, сформулированные В. Г. Болтянским. А. Множество Р° содержит точку а = х* и не имеет предель- ных точек в открытом множестве D. Каждая компонента мно- жества Р^\(Р'~111ЛГ) (/ = 1, 2, ..., п) представляет собой f-мерное гладкое многообразие в D; эти компоненты называются /-мерными клетками. Точки множества Р° называются нульмер- ными клетками. Функция v(x) непрерывна и непрерывно диф- ференцируема на каждой клетке и может быть продолжена в не- прерывно дифференцируемую функцию на окрестности клетки. Б. Все клетки распределены на клетки первого и второго рода. Все n-мерные клетки являются клетками первого рода, все нульмерные — клетками второго рода. В. Если а — некоторая /-мерная клетка первого рода, то че- рез каждую точку этой клетки проходит единственная траекто- рия уравнения v(x)) (20.3) (проходящая по клетке о). Существует такая (i—1)-мерная клетка П(а), что каждая траектория системы (3), идущая в клет-
§ 20. ПОНЯТИЕ РЕГУЛЯРНОГО СИНТЕЗА 281 ке ст, через конечное время покидает клетку о, упираясь под ну- левым углом в клетку П(о) и подходя к ней с ненулевой фазо- вой скоростью. Если о — одномерная клетка первого рода, то она представляет собой кусок фазовой траектории системы (3), под- ходящей с ненулевой фазовой скоростью к некоторой нульмер- ной клетке П (о). Если о — некоторая f-мерная клетка второго рода, отличная от точки а, то существует такая (f + 1)-мерная клетка 2(о)> являющаяся клеткой первого рода, что из любой точки клетки от исходит единственная траектория системы (3), идущая по клет- ке 2 (о), причем функция v(x) непрерывна и непрерывно диф- ференцируема на er U 2(о). Г. Перечисленные выше условия обеспечивают возможность продолжения траекторий системы (3) от клетки к клетке: из клетки о в клетку П(о), если клетка П(о) первого рода, и из клетки о в клетку 2(П(о)), если клетка П(о) второго рода. Требуется, чтобы каждая такая траектория шла лишь по конеч- ному числу клеток (то есть чтобы «протыкание» клеток второго рода происходило для каждой траектории конечное число раз). При этом любая траектория кончается в точке а. Указанные траектории называются отмеченными. Таким образом, из каждой точки множества D \N исходит единственная отмеченная траектория, ведущая в точку а. Тре- буется также, чтобы из каждой точки множества N исходила (возможно, не единственная) траектория системы (3), ведущая в точку а и также называемая отмеченной. Д. Все отмеченные траектории удовлетворяют принципу мак- симума. Е. Значение функционала Q (см. (17.3)), вычисленное вдоль отмеченных траекторий (кончающихся в точке а), является не- прерывной функцией начальной точки x(to). В частности, если из точки x(to) исходят несколько от- меченных траекторий, то значение функционала Q для них оди- наково. Пример регулярного синтеза. Задача о быстродействии в ли- нейной системе. Все известные примеры синтеза оптимального по быстродействию управления в линейных системах являются частными случаями регулярного синтеза. Покажем это на сравнительно простом примере линейной системы, рассмотренной в § 15, стр. 236. Уравнения движения системы имеют следующий вид: dxi dx2 ~йГ = ^ —~и. На управление и наложено следующее ограничение: (20.4) (20.5)
282 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Требуется перевести систему из заданного начального состояния х(/0) в состояние х — 0 в наименьшее возможное время. Промежуток времени, в течение которого удастся привести систему в со- стояние х — 0, существенно зависит от наложенных на управляющую силу и ограничений: |«| 1. В соответствии с (1) и (4) в рассматриваемом примере А (х, и) == х2, А (х, и) = и. (20.6) Функция Н согласно (17.21) здесь принимает вид Н = ф1х2 + ‘ф2«, (20.7) где и i|)2 в соответствии с (17.23) удовлетворяют следующим дифферен- циальным уравнениям: -^--0. <20-8) Из (7) следует, что для любого момента времени t при ограничении (5) наибольшее возможное значение функции //(ф(/), х(/), и) переменного и, где |«i 1, доставит управление « (/) == sign ф2 (/)• (20.9) Таким образом, оптимальное управление будет согласно (9) следующим: «(0=1 При ф2(0>0, «(0 = — 1 При ф2(/)<0. Согласно (8) функции ф1 (/) и ф2(0 будут иметь следующий вид: Ф1 (0 = Ф1 (А), 1>2 (0 = - Ф1 (А) (/ “ А) + ф2 (А), (20.10) где через ф1(А) и ф2(/0) обозначены начальные значения функций ф1(0 и ф2(0 соответственно. Если бы начальные значения ф1(А) и ф2(/0) были известны, то в соответ- ствии с (9) и (10) задача синтеза оптимального управления была бы завер- шена. Отыскание начального значения ф(/о) вектор-функции ф(/) является основной трудностью в общей задаче синтеза оптимального управления по принципу максимума. В рассматриваемом здесь простом примере задачу удается решить бла- годаря возможности явного определения на фазовой плоскости XiX2 кривой х2 = ср(xi), на которой управление и (модуль которого согласно (9) остается постоянным |u| = 1) должно изменять знак. Кривая х2 — <p(Xi) называется линией переключения управления. Так как согласно (9) и (0 = sign ф2 (/) = sign [- -ф, (/0) (t - to) + 4>2 (<о)], (20.11) а функция ф2 ==—ф1(А) (t— А)+*ЫА) изменяет свой знак лишь один раз в момент времени tu = + А, то оптимальное управление u(t) изменяет VI (*о) свой знак не более одного раза на отрезке времени /0 t А, где t\ — момент попадания изображающей точки в начало координат. Таким образом, оптимальное управление и = u(t) является кусочно-по- стоянной функцией (модуль этой функции |«(01 = 1), которая имеет не более двух интервалов постоянства. Указанное свойство оптимального управления «(/) в рассматриваемом примере позволяет построить семейство оптимальных траекторий на фазо- вой ПЛОСКОСТИ Х1Х2. На отрезке времени, на котором управление и = 1, уравнения (4) при- нимают вид (20.12)
§ 20. ПОНЯТИЕ РЕГУЛЯРНОГО СИНТЕЗА 283 откуда следует, что Интегрируя это уравнение, получим семейство парабол х2 Х1=="Т+Сь (20ЛЗ) зависящее от параметра Сь При Cj = 0 получим параболу А (20.14) проходящую через начало координат. Дуга АО параболы (14) показана на Рис. 20.1. рис. 20.1. Линии KiBi (i ® 1, 2, ...) являются дугами парабол (13), которые соответствуют различным значениям параметра С\. Аналогично при и « —1 уравнения (4) принимают вид ^- = Х2. 4г “-1’ (20-15) откуда следует, что dx\ —-----= ~ Х2. dx2 Интегрируя это уравнение, найдем семейство парабол х2 Xi = --y-+C2, (20.16) зависящее от параметра С2. При С2 = 0 получим параболу х2 *1------jp (20.17) проходящую через начало координат. Дуга ВО параболы (17) показана на рис. 20.1. Линии LiAi являются дугами парабол (16), которые соответствуют различным значениям параметра Сг. Обозначим теперь через Г линию, состоящую из дуг АО и О В. Линия Г делит фазовую плоскость Xi%2 на две области Di и Ь2, расположенные над линией Г и под ней соответственно.
284 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Если в начальный момент времени /0 изображающая точка находится в области Di, например в точке Lit то надо принять и = —1. Тогда изобра- жающая точка будет двигаться по дуге параболы (16), проходящей через точку х(/0) = Li. В момент времени, когда изображающая точка попадет в точку At, надо изменить управление на и = 1. Изображающая точка будет тогда продолжать движение по дуге AiO, по которой и придет в начало координат. Кривая £<А<0, состоящая из дуг LiAt и 4,0, является оптималь- ной траекторией, соответствующей начальному состоянию x(/0)=L,-. В соот- ветствии с теоремой о единственности оптимальной траектории в задаче о быстродействии в линейных системах [72] время движения по траектории LiAiO будет наименьшим по сравнению с временем движения по любой дру- гой траектории, ведущей из точки L,- в начало координат. Аналогично, если в начальный момент времени изображающая точка на- ходится в области Рг, например в точке К,, то надо принять и = 1. Изобра- жающая точка будет двигаться по дуге параболы (13). В точке В, надо переключить управление на и = —1. Дальнейшее движение будет происходить по дуге BiO, по которой изображающая точка придет в начало координат. Таким образом, для начального состояния x(Z0)=Ki оптимальной будет тра- ектория KiBiO. Как указано выше, для задачи о быстродействии в линейных системах доказана теорема о единственности оптимальной траектории [72] выделяемой принципом максимума. В рассматриваемом примере единственность найденной выше оптималь- ной траектории можно доказать непосредственно [15]. Обозначим через момент попадания изображающей точки в начало координат. Тогда время движения по траектории L,4,0 будет t\—10. Через tn обозначим момент пе- реключения управления. Предположим, что существует другое управление й(0, где |й(01 1, которое приводит систему в начало координат за время — где Траекторию, соответствующую управлению (9), обозначим по-прежнему через а управлению й(1}—-через х(/). Таким образом, будем иметь следующие соотношения: Х1(<1) = 0, x2(/i) = 0, л=1(^) = °, x2(<i) = 0. Траектории х(1) и £(/) определяются уравнениями движения xi (t) = х2(0. х2(0 = «(0 и соответственно ii (0 = х2 (/), х2 (о = й (/) (t0 < t < /J). Обозначим теперь Ф (0 = - Xi (t) + х2 (t) (t - /п), 'К (0 = - Xt (0 + х2 (0 (t - tn). Так как xi (to) = Xi (tB), х2 (to) - х2 (ta), ТО Ф(М^(*о). Из приведенных выше соотношений следует, что Ф(/1) = 0, т(0-о.
§ 20. ПОНЯТИЕ РЕГУЛЯРНОГО СИНТЕЗА 285 Производные по t от Ф(/) и будут б/Ф _ дФ dxx дФ dx2 д<Ь , dt ~ дхх dt + дх2 dt + dt = ~ta’и' dV _ dW dxt дТ dx2 &V dt dxt dt + dx2 dt + dt ( ta)u‘ Так как на траектории Ltz4,0 управление u(t) удовлетворяет условиям и (0 = - 1 при /е [f0, /п), и (0 = 1 при t g= [fn, f J, то Нетрудно видеть, что для любого другого управления й(/), где |й(01^ I, будет иметь место неравенство Из полученных соотношений следует, что Ф(0>Ф(0> /е[«0.4]> откуда найдем, что 4 j <ь л > j ф dt. to Таким образом, а так как Ф(/о) = ^(^о), а кроме того, 4f(f1) = 0, то будем иметь ф(4)>о. С другой стороны, поскольку мы предполагали, что fj > tр то, учитывая, что Ф(6) = 0, можно получить такое соотношение: ti fi -Ф(О = Ф(<,)-Ф(<)= j о» j |f-fn |df>0, * ♦ откуда следует, что ф(/’)<0. Мы получили противоречие. Следовательно, невозможно, чтобы было меньше, чем /ь Таким образом, доказана единственность (при ограничении |u|< 1) оптимального управления (9) и единственность соответствующей этому управлению оптимальной траектории для заданного начального со- стояния системы. Найдем теперь функцию Веллмана для рассматриваемой задачи <о(х(/в)) = -Т(х(1о)). (20.18) Здесь r(x(f0)) = fi-f0 (20.19) есть время движения изображающей точки по оптимальной траектории из начального положения x(Iq) в начало координат х = 0.
286 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Пусть в начальный момент времени / = /о изображающая точка нахо- дится в точке Lt плоскости XiX2, то есть Xi(/o) и х2(М являются координа- тами точки Li. Уравнение параболы, дугой которой является линия бу- дет в соответствии с (16) иметь вид + + (20.20) Точка Ац в которой переключается управление, является точкой пересече- ния парабол (20) и (14). Ордината точки Ai удовлетворяет соотношению х2 (*о) Так как дуга АО расположена ниже оси абсцисс, то надо принять (Ч)2=~[Х1^) + т^М'/2- (20-2|) При движении изображающей точки по дуге LiAi имеют место уравне- ния (15). Второе из этих уравнений имеет вид dx2 ~di— ' откуда, учитывая, что здесь координаты точки Li обозначены через %i(/o) и Хг(/о), найдем (%л^2 fn J dx2 = - j dt. (20.22) X?(f0) to где tn — момент времени, в который переключается управление. Из (22) следует, что (20.23) При движении изображающей точки по дуге AiO имеет место согласно (12) уравнение dt ’ откуда следует, что J dx2 = J dt, (20.24) (х^2 'п где /1*-момент времени, в который изображающая точка попадает в начале координат. Из (24) найдем, что -(4)2 = /l-Z"- (20-25) Из (23) и (25) следует, что r(4Q) = <1-<o = ^Co)-2(4)2- (20-26) В соответствии с (21) выражение (26) принимает вид Т(х(/0))-*2Со) + 2[х1(/о)+7х|(/0)],/’ при x(/0)eDt. (20.27)
§ 20. ПОНЯТИЕ РЕГУЛЯРНОГО СИНТЕЗА 287 Выражение (27) имеет место, когда точка x(t0) лежит в области то есть в любой точке фазовой плоскости над линией АО В. Однако нетрудно видеть, что выражение (27) сохраняется, если точка х(/0) лежит на линии АО. Действительно, в этом случае tn = /о, х2 (tQ) = и выражение (26) принимает для точек линии АО следующий вид: r(X(Zo))=-(4)2 = l(4)2i ПРИ ХСо)еЛ0' что совпадает с выражением (25) для времени движения изображающей точки по дуге А {О. Аналогичным путем можно найти T(x(t0)) для случая, когда точка х(/о) лежит в области D2 и на линии ВО. В случае, когда точка x(t0) лежит в области D2i то есть в любой точке фазовой плоскости под линией АОВ, будем иметь 7'(^(^0))=-*2(<0) + 2[-x1(/0) + 1x2(/0)J/1 при х(/0)<=Р2. (20.28) Если изображающая точка в начальный момент времени находится на линии ВО в точке Bit то время приведения системы в начало координат будет следующим: T(x(.to))==(xBi\ при ^(Zo)eBO- <20-29) Из формул (28) и (27) следует, что для симметричных начальных точек Ki и Li время приведения в начало координат одинаково, как это, есте- ственно, и должно быть. Нетрудно видеть, что в точках линии АО функции (27) и (28) прини- мают одинаковое значение. Действительно, так как АО является дугой пара- болы (14) Ч2’ то в точках линии АО функция (27) принимает значение, которое, учитывая, что линия АО расположена ниже оси абсцисс, можно записать так [Т (х (/0) )Ь - I х2 (t0) | + 2 | х2 (t0) | = | х2 (t0) | (х (t0) е АО) (20.30) Функция (28) в точках линии АО принимает значение [Т (х (t0) )]2 = - х2 (t0) = | х2 (t0) | (х (t0) е АО). (20.31) Значения (30) и (31) совпадают. Аналогично можно показать, что значения функций (27) и (28) будут совпадать и в точках линии ВО; принимаемое ими значение будет равно x2(tQ). Таким образом, функция T(x(t0)), которая определена в областях Dj и О2 соответственно выражениями (27) и (28), сохраняет непрерывность на всей фазовой плоскости Х(Х2. Частные производные от функции (27) по ее аргументам будут дТ Г ч , 1 2/. Л-7’ дХ1 (<0) Г1 (Z°)+ 2 *2 Со)] > (20.32) —^7-г-1 + х2(^0)[х1(/0) + 4-^(/0)] ’ (х(/0)еО,).
288 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Аналогично частные производные от функции (28) будут JL.= -l+jf2(f0)[-X|(/(,)+lx2(^)] 2 (х(/о)е/)2). (20.33) Найдем значения, которые принимают функции (32) и (33) в точке А/, то есть положим, что Х1 (Zo) = (хаД’ х2 (Zo) = (xaJ2* Так как согласно (21) то значения функций (32) в точке At- будут дТ I = _ 1 L,. в, ~ (Ч)/ (20.34) Значения функций (33) в точке А< в которой, как на всей линии %2 АО, *1 будут дТ дх, (/0) дТ дх2 (М (20.35) Ai D2 Из (34) и (35) видно, что значения функций (32) и (33) на линии АО ( ( 1то есть на кривой xi=~2~l будут различными. На линии ВО I то есть на х2\ кривой Xi ---— I значения функций (32) и (33) также будут различными. Таким образом, в точках линии АОВ функция 7,(х(/0)), а, следовательно, и функция со(х(/0)) = — T(x(t0)) не имеют частных производных по своим аргументам хл (t0) и x2(tQ). Нетрудно убедиться в том, что оптимальные траектории, по- строенные в рассматриваемом здесь примере (рис. 20.1), удовле- творяют сформулированным выше (стр. 280) условиям регуляр- ного синтеза. Заметим при этом, что в рассматриваемом примере множе- ство Р° = 0, то есть множество Р° содержит лишь точку х = 0. Множество Р1 = Г, где через Г обозначена линия, состоящая из АО и ОВ (то есть линия переключения управления). Множество Р2 = D, где D — вся фазовая плоскость %i%2.
$ 20. ПОНЯТИЕ РЕГУЛЯРНОГО СИНТЕЗА 289 Множество N в рассматриваемом примере является пустым. Таким образом, здесь Рп~{ U N = Р1, то есть объединение мно- жеств Рп~1 и N представляет собой линию АОВ (линию пере- ключения управления Г). Линии АО и О В представляют собой две одномерные клетки первого рода. Области и £>2, на которые линия Г разбивает фазовую плоскость, представляют собой две двумерные клетки первого рода. Отметим еще некоторые свойства оптимальных траекторий, достаточно очевидные в рассматриваемом примере. На рис. 20.2 через х(/0) обозначена точка, в которой находи- лась система в момент времени и изображена оптимальная траектория, которая ведет из точки х(/0) в начало ко- ординат. Положение точки Аг (в которой переключается управление) на кривой АО зависит от начального со- стояния x(t0) системы. Так как точки кривой АО удов- летворяют соотношению (14) (Хл/)1 2 9 то, обозначая ?,=(М2> (20.36) можно представить координаты точки 4. ь. Аг на плоскости так: Таким образом, положение точки А{ (принадлежащей линии АО, то есть одномерной клетке первого рода) определяется лишь одним параметром gi, который является функцией от начального состояния системы 11 = ^1 (*(Ш (20.37) Согласно (21) и (36) £, (*('«))--[*.(У + т4(У]''’- (20-38) Равным образом и промежуток времени — А>> (20.39) Ю Я. Н. Ройтенберг
290 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА за который система проходит из точки х(/0) в точку Лг-, есть функция от начального состояния системы х(/0): 01 = 01(х(/о)). (20.40) Согласно (23) 01 (х (0)) = - (xAi\ + х2 (t0). В соответствии с (21) это выражение принимает вид (х (Q)= х2 (Q + [xi (Q + ~2 *2(0] • (20.41) Как видно из (38) и (41), функции gi(x(/0)) и 0i(x(/o)) являются непрерывными и непрерывно дифференцируемыми функциями своих аргументов %i(/o) и %г(^о) (то есть координат вектора х(/о)). Так как в качестве начальной точки х(/0) может служить любая точка х дуги оптимальной траектории в области £>i, то выражения (38) и (41) можно переписать так £,(%)=-(х, + |х2)1/1, (20.42) е,(х) = х2+(х1 + ух2)‘/2. (20.43) Рассмотрим теперь попятное движение изображающей точ- ки— от точки Ai к точке х(/о). Это движение мы получим, об- ратив время t. В соответствии с (15) попятное движение будет описываться дифференциальными уравнениями i- 1. (20.44) Решение уравнений (44) будет следующим: */1(0 = г/1(0)-%(0Н-4> '72(0 = г/2(0) + ^- (20.45) Так как в попятном движении начальная точка </(0) лежит на линии АО, то согласно (14) г/? (0) */1(0) = -^-. (20.46) Поэтому решение (45) можно привести к виду ydt, = £) = & + /, (20.47) где через £ обозначено 1 = «/2(0). (20.48)
§ 21. ДОСТАТОЧНОЕ УСЛОВИЕ ОПТИМАЛЬНОСТИ 291 Так как dyi di ду2 di dyt dt dy2 dt -a+o 1 = 2g#=0, (20.49) то уравнения (47) можно разрешить относительно £ и /. Заметим еще, что если я (/о) является начальным состоянием в исходном движении (от точки х(/0) к точке А), то, подста- вляя в (47) вместо 6 и t величины £ = £1 (х (М ) = — [xi (Q + у (М] * / = 01 (я (/0)) = я2(/0) + (/0) + > получим f/i(0i(x(/o)), L(x(/o))) = x1(fo), Уъ (0! (я (/о) ), 61 (я (/0) ) ) = Я2 (/о), то есть если попятное движение началось (как следует из (36)) из точки Ai, то по истечении промежутка времени 01 изобра- жающая точка придет в точку я (/о), как это, естественно, и дол- жно быть. § 21. Достаточное условие оптимальности в форме принципа максимума. Теорема В. Г. Болтянского Как указано выше, принцип максимума представляет собой необходимое условие оптимальности. Следовательно, принцип максимума позволяет выделить траектории, которые могут быть оптимальными. Для линейных систем в задаче о быстродействии доказана [72] теорема существования оптимальной траектории и теорема об единственности траектории выделяемой принципом максиму- ма. Таким образом, в этом случае принцип максимума одно- значно определяет траекторию, которая может быть оптималь- ной; эта траектория и является единственной оптимальной траек- торией, соединяющей две заданные в фазовом пространстве точки. Для нелинейных систем (а также для линейных систем в за- дачах, отличных от задачи о быстродействии) вопрос о том, приводит ли синтез управления, осуществленный на основе прин- ципа максимума, к оптимальным траекториям, решается полу- ченной В. Г. Болтянским теоремой о достаточных условиях оп- тимальности. Эта теорема позволяет, как правило, утверждать, что синтез, осуществленный на основе принципа максимума, дей- ствительно приводит к оптимальным траекториям. 10*
292 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА В теореме В. Г. Болтянского основным условием является осуществление регулярного синтеза для векторного дифферен- циального уравнения (20.1), описывающего управляемую систе- му. В связи с этим заметим, что условия А — Е (стр. 280) регу- лярного синтеза фактически не накладывают ограничений на си- стему, описываемую векторным дифференциальным уравнением (20.1), а постулируют те обычные обстоятельства, которые имеют место при осуществлении синтеза. В нижеследующей теореме доказано, что синтез, осуществленный на основе принципа мак- симума, при выполнении условий А — Е действительно приводит к оптимальным траекториям. В этом смысле принцип максимума является достаточным условием оптимальности. Теорема В. Г. Болтянского. Если в множестве D осу- ще ст в лен регулярный синтез для уравнения (20.1) (в предполо- -ч dfi df; жении существования непрерывных производных и справедливости соотношения fQ(x,u) >0), то все отмеченные траектории являются оптимальными (в области D). В этом смысле принцип максимума является достаточным условием оп- тимальности. Доказательство теоремы. Приведенное ниже доказа- тельство дано в статье [14] В. Г. Болтянского в 1964 г. Ограни- чимся здесь случаем, когда в выражении (17.3) функция fo(x, и)= 1, что имеет место в задаче о быстродействии. В этом случае функционал Q представляет собой время дви- жения изображающей точки от точки я (/о) до точки а. Обозначим через —со (я) время движения изображающей точ- ки вдоль отмеченной траектории от точки х до точки а. Множество Рп~1 U N обозначим через М. Если доказать, что со (я) является функцией Беллмана с осо- бым множеством М, то доказываемая здесь теорема будет выте- кать из теоремы, доказанной в § 15 на стр. 241. Таким образом, достаточно доказать, что функция со (я), ко- торая введена здесь, дифференцируема на множестве D \ М и удовлетворяет уравнению Беллмана (15.7) шах «ей п V <М*) dxi L/ = 1 fi(x, и) = 1. Пусть х—произвольная точка, принадлежащая некоторой n-мерной клетке о, и пусть траектория системы (20.3)
§ 21. ДОСТАТОЧНОЕ УСЛОВИЕ ОПТИМАЛЬНОСТИ 293 которая исходит в момент времени tQ из указанной здесь точ- ки х, проходит в момент времени t0 + 0! (я) через точку gi (я) клетки П(<т). Из общих теорем о дифференцируемости решений дифферен- циальных уравнений по параметрам следует, что функции £1(я) и 01 (я) —непрерывно дифференцируемые функции от я. Для рассмотренного в § 20 примера линейной системы явный вид функций (я) и 01 (я) определен выражениями (20.42) и (20.43). В общем случае функции £1(я) и 01(я) можно найти из решения векторного дифференциального уравнения, описы- вающего попятное движение y=~f(y,v(y)). (21.1) Решение уравнения (1) будет У = у(1,$, (21-2) где I = £i (х), t = 0i (х). Уравнение »(Ц) = * (21.3) однозначно разрешимо при х, близких к х(/0), так как соответ- ствующий функциональный определитель отличен от нуля. (В рассмотренном в §20 примере уравнения попятного движения имеют вид (20.44), а упомянутый функциональный определитель имеет вид (20.49)). Найденные из (3) функции gi(x) и 0,(х) будут непрерывно дифференцируемыми по х. Из точки Bi (х) траектория продолжается по клетке П (о) или Х(П(о)). Аналогично устанавливается, что точка h(x), в кото- рой траектория покидает клетку П(а) или 2(П(ст)), и время 02 (х) движения по этой клетке — дифференцируемые функции от £i(x), а следовательно, и от х. Общее время —®(х) = 0i(x) + 0г(х) ?+'... движения по от- меченной траектории из точки х в точку а, таким образом, будет (внутри клетки а) непрерывно дифференцируемой функцией точки х. Из изложенного следует, что функция со(х) непрерывно диф- ференцируема на множестве D \ М. Теперь надо показать, что на множестве D\M функция <о(х) удовлетворяет уравнению Веллмана (15.7). Пусть x(t0)^D\M. Через x(t) обозначим отмеченную траекторию, которая исходит в момент to из точки х(/о), а в мо- мент ti попадает в точку а. Через S обозначим множество, состоящее из всех точек х, удовлетворяющих условию <в(х) = <о(х (<0)).
294 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Вблизи точки х(/0) множество S представляет собой гладкую гиперповерхность в D с нормальным к ней вектором ..... Функция ®(х(<о)) =—(ti — to), где ti— t0— время движе- ния по отмеченной траектории из точки х(/0) в точку а. Для всякой текущей точки x(t) отмеченной траектории функция со(х(/)) = —(6 — 0> откуда следует, что — 1. Так как в соответствии с (20.3) [dtt>(d/0)] = S дЧх?о))- fi v {х ))’ ТО 2 fiU (t0), v (x(t0))) = 1 (21.4) <grad©(x(/0)), f (x(t0), u(x(/0)))>= 1. (21.5) Из (5) следует, что grad©(x(/0)) =# 0. (21.6) Согласно условию Д регулярного синтеза, отмеченная траек- тория удовлетворяет принципу максимума. Через Ф(0 = (Ф1(0, •••> Фп(0) обозначим вектор-функцию, соответствующую траектории %(/) в силу принципа максимума. Можно показать, что вектор ф(/о) ортогонален гиперповерх- ности S в точке х(/0), то есть Ф(4) = л grad©(x(Z0)) (21.7) или, что то же, Ф/ (/о) = * а = 1, .... п). (21.8) В соответствии с (17.21) и (20.3) функция Н здесь имеет вид Н (ф, х, и (х)) = 2 ^ifi (х, v (х)). (21.9) i=l
§ 21. ДОСТАТОЧНОЕ УСЛОВИЕ ОПТИМАЛЬНОСТИ 295 Из (9), (8) и (4) следует, что Н (4 (/о), х (t0), V (х (/0) ) ) = У (to) fl (х (to), V (х (to) )) = i n = * £ -аю(/х(<о)) fi (x (t0), v (x (t0))) = A. (21.10) i=l 1 Так как согласно (17.27) H^(t),x(t),v(x(t)))^Q, то из (10) и п. 2° теоремы 2 (стр. 255) следует, что А 0. Из (7) следует, что А ¥= 0, так как иначе было бы ф(/о) = О. Таким образом, А>0. (21.11) Из принципа максимума следует, что для любого «ЕЙ Я(1|?(<0)> x(t0) v(x(tQ)))^zH ($(t0), x(t0), и). (21.12) Из (12), (4), (8), (10) и (II) найдем, что для любого «ей п п 1 = 2 f. (X (fo)> v (X (t0))) = у S (to) fi (X (to), V (X (to) ) ) = /=1 1 i=l = у H (1|) (tQ), x (to), v(x(t0)))^±-H (1|) (t0), x (t0), u) = n n = Y^i(to)fi(x(to), «) = S--(gx(/°----)7f(x(/o), «)• (21.13) /=i г=1 ‘ Из (13) вытекает соотношение п max -- (*(Zo) 1 ft (х (tQ), и) = 1, (21.14) и е Q .. uxi i = l которое совпадает с уравнением Беллмана (15.7), так как в ка- честве начальной точки x(f0) можно принять любую (принадле- жащую множеству D \ А1) точку х отмеченной траектории. Таким образом, если выполнено условие (7), то функция (о(х) удовлетворяет на множестве D \ М уравнению Беллмана (15.7).
296 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Для завершения доказательства теоремы надо еще показать справедливость соотношения (7) Ф(*о) = grad со (х (/0)). Отмеченная траектория x(f) исходит в момент времени /о из точки х(/о), которая находится внутри клетки первого рода cq. Обозначим через x(t) траекторию системы (20.3) -^- = f(x, v(x)), исходящую из некоторой внутренней точки х(/0) той же клетки ai. Будем считать, что точка x(tQ) расположена достаточно близ- ко от точки х(/0) и при этом лежит на гиперповерхности S. Из последнего следует, что обе траектории x(t) и х(/), выходящие в момент tQ соответственно из точек x(iQ) и х(/0), приходят в точку а в один и тот же момент времени ti = —(о(х(/0)) + = = —со (х (/о)) + to. Обозначим через е расстояние между точками х(/0) и х (to) и будем считать е достаточно малым. Так как точки х(/0) и х(/0) лежат в одной и той же клетке оь то траектории x(t) и x(t) придут в точку а, проходя по одной и той же последовательности клеток 02, ..., сгд, где oq — од- номерная клетка, примыкающая к точке а. Выше было показано, что моменты времени Xi (I = 1, 2, ... ..., q — 1) перехода отмеченной траектории x(t) из одной клет- ки в другую и соответствующие точки траектории х(хг) диффе- ренцируемым образом зависят от начальной точки х(/0) 0ь Обозначим через di промежуток времени б/ = xt — xt (i = 1, 2, ..., q — 1), полагая при этом, что то = to, xq = 6. Из того, что Хг и х(тг) дифференцируемым образом зависят от точки х(/0)^<Г1 (а х{ и x(ft) дифференцируемым образом зависят от точки x(Zo)^oi), следует, что существует такая положительная константа С, что любой из промежутков вре- мени di (i = 1, 2, ..., q—1) не превосходит по модулю Се, а траектории x(t) и x(t) находятся друг от друга на расстоянии порядка е: |х(0-х(/)1<Се (21.15) Выполним теперь некоторые преобразования. Как и выше, че- рез ф(0 = (ф1(0> • > Фп(0) обозначим вектор-функцию, соот- ветствующую в силу принципа максимума траектории x(t).
§ 21. ДОСТАТОЧНОЕ УСЛОВИЕ ОПТИМАЛЬНОСТИ 297 Так как х(Л) = х(Л) = а, то будем иметь п - S k; do) - *1 (*o)I 'I’i do) = / = 1 n n = - S [Xi (to) - Xi (f0)l (t0) + 2 (ti) - x{ (<1)1 (ti) = ?! п to n п <л|)г (о dt п = J T (t) [*i (t) - Xi (0] + S [*i (t) ~ Xi (/)] to U = 1 / = 1 Л ' n = J v(x(t)))-fi(x(t), v(£(t)))]~ to . i = l - - i, (oi ! <u= i’l 1 J dt — п 1^(0-А-(01 НСФ(О» x(t), v(x(t)))-H(^(t), x(t), v(x(t)))~ дН (/), x(Q, v(x{t))) I ,, dxi | tl Таким образом, n -^[хг^о)-Л(/о)Н. ^о)= J F(t)dt, (21.16) Z = 1 to где F (f) = H to (0, X (0, V (x (0)) - H (Ф (0, X (0, V (x (0)) - n -SbH-^WIM|,№yl>11»1. (21.17) Если обозначить через g некоторую точку отрезка, соединяю- щего точки х(/) и -С(0, то на основании известной теоремы Лаг- ранжа будем иметь следующее соотношение: я to (0, (О, V (0)) - н to (О, х (О, V (/))) = -S^(0-x,(0]^^aV(JW)l (2' >8) 4-1 1
298 ГЛ. Б. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Поэтому выражение (17) можно переписать так: F (0 = - Н (ф (О, X (О, V (х (0)) + Н (ф (/), х (О, V (х (/))) - - 2 (0 - A (0] [дН (ф (i)’ xd(t)'v (х (0}} m)). i-1 L Xi dxi J (21.19) Так как x(t) и представляют собой отмеченную траекторию и соответствующее ей управление, которые согласно условию Д регулярного синтеза удовлетворяют принципу мак- симума, то в силу соотношения (17.28) Я(ф(0,х(/), и(х(/)))>Я(ф(/),х(0, и (х (/))). (21-20) Из соотношений (19) и (20) следует, что F(/)>G(0, (21.21) где п [х, (/) - xt- (/)] ^^(Ф(0,х/0,ч(х(/))) _ дЯ(ф (Q,j, (0)) J (2122) Рассмотрим теперь следующие два случая. В первом случае точка t принадлежит одному из интервалов времени Дь в тече- ние которого x(t) и x(t) находятся в одной и той же клетке на которой функция v(x) непрерывно дифференцируема. Учиты- вая (15) будем иметь оценку I v (х (/)) - v (х (/)) К С | & (/) - х (/) | < СС'е. (21.23) Так как точка g расположена на отрезке, соединяющем точки x(t) их(/), то в соответствии с (15) имеем |g-x(/)!<|x(/)-x(0l<Ce. (21.24) Так как функция непрерывна по своим аргументам, то при t е Д< разность дН (ф (/), X (П, у (X (/) )) _ дН(ЪИ), g, (2 J 25) дх. dxt \ / будет бесконечно малой величиной порядка е и вместе с е будет стремиться к нулю. Из (15) и (22) поэтому имеем lim = о (равномерно по ZeAJ. £->0 6
§ 21. ДОСТАТОЧНОЕ УСЛОВИЕ ОПТИМАЛЬНОСТИ 299 Отсюда следует, что lim- [ G(f)rf/ = O (t= 1, 2, .... q), (21.26) e-»0 6 J % где tb — начало интервала Дг-. Во втором случае точка t принадлежит одному из интерва- лов времени б,, в течение которого x(t) и x(t) находятся в двух соседних клетках о,- и ai+t. Здесь уже нельзя утверждать, что разность (25) бесконечно мала вместе с е, так как точки x(t) и Х(0 принадлежат разным клеткам, а при переходе от клетки к клетке управление v(x) может терпеть разрывы. Однако разность (25) при всех t остается ограниченной в силу ограниченности траектории x(t). Поэтому в соответствии с (15) lim G (0 = 0 (равномерно по £->0 Так как длина отрезка 6/ не превосходит Се (см. стр. 296), то ,*/+Ai+ei lim | f G(t)dt = O (i= 1, 2, .... q- 1). (21.27) e-»0 8 . J Складывая соотношения (26) и (27), получим tx lim- f G(Z)dZ = O. (21.28) 8-»0 8 У to Пусть теперь точка x(/0) приближается к точке x(tQ) по по- верхности S, касаясь некоторого вектора р— (рь р2, .Рп)- Тогда будем иметь Пт = (21.29) е->0 е Согласно (16), (21) и (28) будем иметь п п У Pityi tfo) = lim У [х{ (f0) - Xi (f0)] (t0) = fT e-»0 Г" 8 Z=1 i=l ti tx = lim-J- [f(t)dt^lim- f G(t)dt = O. (21.30) e->0 8 J e->0 8 J to to
300 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА При х(/0) —>х(/0) траектория х(/)->х(/), и обусловленная неравенством (20) разность F (0 - G (/) = Н (ф (/), х (/), v (х (/))) - Н (ф (0, х (/), v (х (0)) (21.31) может быть представлена выражением, аналогичным (18). Пов- торяя рассуждения, при помощи которых получено соотноше- ние (28), найдем, что lim- f [F (t) — G (t)]dt = 0, (21.32) e->0 6 / Го откуда в соответствии с (30) получим, что для любого касатель- ного гиперповерхности S в точке x(tQ) вектора р будет иметь место соотношение п = (21.33) i = l Из (33) вытекает соотношение (7), то есть рассматриваемая теорема доказана. § 22. Связь принципа максимума с методом динамического программирования Обратимся к задаче с закрепленным концом траектории и свободным временем. Рассмотрим систему, описываемую диф- ференциальными уравнениями dxt = .... хп, щ, .... ur) (22.1) которым эквивалентно векторное уравнение # = /(х, и), (22.2) где х, и и f — векторы следующего вида: f (х, и) = 'fl (х, и)- -fn(x, и). (22.3) Требуется перевести систему из точки х(/0) фазового про- странства X в заданную точку х*. Момент времени Л, в который изображающая точка попадет в точку х*, заранее не фикси- руется. Управление и = u(t) должно удовлетворять ограничениям и ge Q, (22.4)
§ 22. СВЯЗЬ С ДИНАМИЧЕСКИМ ПРОГРАММИРОВАНИЕМ 301 и его надо выбрать так, чтобы функционал Q= / foU(g), »(?))</? /о (22.5) принимал наименьшее возможное значение. Удовлетворяющее этим условиям управление, соответствую- щую ему траекторию и промежуток времени ti — t0 будем счи- тать оптимальными. Полученное при указанных выше условиях наименьшее воз- можное значение Ф(х(/0)) функционала Q будет функцией от начального состояния х(/о) системы Ф (х (f0)) = ф (X) (/о), х2 (/о), ..., Хп (/0)). (22.6) В § 14, в предположении, что функция Ф(х) непрерывна и всюду имеет непрерывные частные производные по всем своим аргументам, было показано, что эта функция удовлетворяет нелинейному уравнению первого порядка в частных производ- ных (уравнение Веллмана) (14.36): min fo (х, и) + i = l дФ (х) дх. fi (х, и) = 0. Как и выше, обозначим через x0(t) скалярную функцию, оп- ределяемую дифференциальным уравнением = foUi, • • • > Хп, щ.иг) = /о(х, и) (22.7) и начальным условием хо(/о) = О. (22.8) Из (7), (8) и (5) следует, что подлежащий минимизации функ- ционал Q можно представить так: Q = x0(<1). (22.9) Введем теперь следующие (n + 1)-мерные векторы: 1 X = х0 , f = ' fo ~ f. (22.10) Хп _ fn . Через Ф(х) обозначим функцию Ф(х) = х0 + Ф(х|, х2, ..., хп) = х0 + Ф(х). (22.11)
302 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Уравнение Беллмана (14.36) можно теперь записать так: min У - fi (х, и) = 0. (22.12) Если умножить левую и правую части соотношения (12) на — 1, то знак min в левой части (12) надо будет заменить на знак шах. Таким образом, уравнение (12) можно представить так: max и> = °- (22-13) Аналогично (15.28) обозначим <о(х)=- Ф(х), (22.14) 5(х)=-Ф(х). (22.15) Уравнение Беллмана (13) принимает вид max У fi (х, и) = 0. (22.16) При этом верхняя грань достигается для некоторого и е Й, а именно для значения оптимального управления в момент вы- хода из точки я. Сделаем теперь еще следующие дополнительные предполо- жения. Будем предполагать, что функция со (я) имеет непрерыв- д2а> (х) ,. . 1 ч ные вторые производные -ч—ч-2- G, ] = 1, ...» и), а функции С/ X £ ихI имеют непрерывные производные — j*’ — (/ = 0, 1, ... 1,..., я). Функцию, стоящую под знаком шах в левой части уравне- ния (16), обозначим так: п g (х, и) = 2 fi (х, и). i=0 ‘ (22.17) Пусть u(t) (/о<С t /1) —- оптимальное управление, перево- дящее изображающую точку из состояния x(tQ) в состояние я*, а я(/) —соответствующая оптимальная траектория. Фиксируем некоторый момент времени t ^t\) и рассмотрим функ- цию g(x, u(t)) переменного я. В соответствии со сделанными
§ 22. СВЯЗЬ С ДИНАМИЧЕСКИМ ПРОГРАММИРОВАНИЕМ 303 выше предположениями функция g(x, u(/)) имеет непрерывные производные по переменным Xi (i = 0, 1, n): п п д^’ п m = у f^x, и(i)) + y\(*’ “ (<)J (22.18) дх. дх. дх. \ $х $х \ j k i=o 1 k i=o 1 k (6 = 0, 1, ..., n). Из уравнения (16) следует, что для любого оптимального дви- жения (х(/), u(t)) имеет место соотношение g(x(0, u(t)) = O. (22.19) Точки х, не лежащие в данный фиксированный момент времени на оптимальной траектории, будут принадлежать другим траек- ториям, реализуемым допустимым, но не оптимальным управле- нием. Поэтому в силу уравнения (16) в этих точках g(x, u)<0. (22.20) Следовательно, рассматриваемая в (18) функция g(x, u(t)) пе- ременного х достигает в точке х = x(t) максимума (момент t фиксирован), и поэтому ее частные производные по Хо, ..., хп обращаются в этой точке в нуль. Согласно (18), таким обра- зом, получим следующие соотношения, выполняющиеся вдоль оптимальной траектории: п п =о (22.21) J=0 1 к i=0 1 k (& = 0, 1, .... n\ Учитывая, что согласно (1) и (7) для оптимального движения (х(/), и(/)) имеет место соотношение -^ = //(х(0,«(0) (/ = 0, 1, .... п), (22.22) будем иметь d ld&(x(t))\ <52<5(х(/)) dxt(t) ул d2&(x(t)) dt ( дх. ) - 2j дх. dx. dt ~ дх. дх. 1 Х U \ k / j=0 * * i=l * k (22.23) Соотношение (21) в соответствии с (23) можно переписать так: d I д& (x(Q )\ । у д& (х (0 ) dfi (х (Q, и (<)) = Q dt I dXt^ j дх, дх* 4 Л z i=o 1 л (Л = 0, 1, .... n).
304 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Обозначим теперь через фл(О (k = 0, 1, ...» п) следующую функцию: t* (0 = (k = 0, 1....п). (22.25) k Как следует из (24), вдоль всякой оптимальной траектории величины удовлетворяют следующей системе линейных дифференциальных уравнений: d^k (0 yi dfi (х (0. и (0 ) rf/ -=~2j-------д~х-----t<(0 (* = 0,1.....n). (22.26) i-o k Заметим, что согласно (25), (15) и (11) Фо(О=- 1, (22.27) что не противоречит уравнениям (26), так как fi(x(t), u(t)) (i = 0, 1.....п) согласно (1) и (5) не зависят от Хо, и для k = 0 уравнение (26) имеет следующий вид: -^ = 0. (22.28) Вектор ф, координаты которого ф& (k = 0, 1, 2, ..., п), опре- делены соотношениями (25), будет следующим: ф = to tl — ~ д(д dxQ д(Ь dxi = -1 ’ do dxt (22.29) t« do _ дхп _ do _ dxn _ Уравнение Веллмана (16) в соответствии с (25), (10), (29) теперь можно переписать так: 5 ti (0 fi (х (0, «(0) = тах 2 ti (0 fi (х (0, и) = /=0 и е Q i=0 = тах(ф(0, f (x(t), и)) = 0. (22.30) и S 2 Обозначим теперь через Н (-ф, х, и) следующую функцию: Н (ф, х, и) = S tifi (х> ы) ~ (t> f (х, и)}, (22.31) 1=0 зависящую от 2п + г + 1 аргументов ф0, фь .... фп, xlt ..., хп, ult, иг.
§ 23. ПРИМЕРЫ ПРИМЕНЕНИЯ ПРИНЦИПА МАКСИМУМА 305 Уравнение (30) принимает теперь следующий вид: тахЯ(ф, х, и) = 0. (22.32) и е Q Из соотношения (32) можно заключить, что оптимальное управление u(t) доставляет функции Д в любой момент вре- мени t наибольшее значение по сравнению с любым другим управлением «ей, переводящим систему из точки х(/0) в точ- ку я*. Это наибольшее значение одно и то же, а именно равно нулю в любой точке оптимальной траектории, то есть вдоль оптимальной траектории выполняется равенство Я(Ф(О, х(0, и(0) = 0. (22.33) Заметим, однако, что соотношения (30), (32) и (33) полу- чены здесь при исходном предположении о том, что функция Ф(Х1, ..., хп) имеет непрерывные частные производные повеем своим аргументам, что, как было показано выше (§ 20), не имеет места даже в сравнительно простых задачах. Поэтому приведен- ные в настоящем параграфе преобразования и вытекающие из них следствия имеют лишь эвристический характер и могут только служить наводящими указаниями. § 23. Некоторые примеры применения принципа максимума 1. Теорема о числе переключений управления в линейной за- даче о быстродействии. Рассмотрим систему, описываемую ли- нейным векторным дифференциальным уравнением ^г= Ах + Ви, at (23.1) где х, Л, В — следующие матрицы: а управление и представляет собой скалярную функцию, на ко- торую наложены ограничения - 1 < 1. (23.3) Требуется перевести систему из точки х(0), в которой си- стема находится в момент времени tQ = 0, в точку х = 0 за наи- меньшее возможное время.
306 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Через ф обозначим «-мерный вектор г ti 1 Ф = ... , L ф„ J (23.4) и согласно (17.21) введем функцию Н (ф, х, и) = 2 3 ^!^jkxk + В/ф/W = (ф, Ах} + (ф, Ви}. (23.5) /=1 fe=l /=1 Согласно (17.23) функции ipj (/ = 1, ...» я) будут удовлетво- рять следующим дифференциальным уравнениям: п т=- Sо=1 > • • • «)• (23-б) /г=1 Система скалярных дифференциальных уравнений (6) экви- валентна векторному дифференциальному уравнению = - Л‘Ф, (23.7) где согласно (6) Ли Д21 ... Ап1 Л‘ = ^12 Д22 • • • Дп2 (23.8) Д1п Дгп • • • Дпп _ Матрица Д* является транспонированной матрицей для матри- цы А. Векторное дифференциальное уравнение (7) является сопря- женным для уравнения = (23.9) Как показано выше (18.51), интегралы уравнений (9) и (7) обладают следующим свойством: <и0Л(П) = <^(0),Ф(0)>. Согласно (18.53) фундаментальная матрица X(t) решений урав- нения (9) и фундаментальная матрица S (/) решений уравнения (7) удовлетворяют соотношению S’(/) = X-'(Z). Согласно (10.160) х-'(0 = х(-0,
§ 23. ПРИМЕРЫ ПРИМЕНЕНИЯ ПРИНЦИПА МАКСИМУМА 307 и, таким образом, S*(0 = %(-/), (23.10) откуда следует, что корни соответствующих дифференциальным уравнениям (9) и (7) характеристических уравнений det (КЕ— 4) = 0 и det (pf + Л*) = 0 отличаются лишь знака- ми [28], стр. 171. В соответствии с теоремой 2 (§ 17) оптимальное управление будет иметь следующий вид: u(t) = sign (23.11) Рассмотрим случай, когда все корни Хг- (/ = 1, ..., п) харак- теристического уравнения det(X£- Л) = 0 простые и являются действительными величинами. В этом случае в соответствии с отмеченным выше свойством сопряженной системы решение векторного дифференциального уравнения (7) будет следующим: п ф/(0=ЗС/^/ (/=!,...,«), (23.12) где цг (/=!,..., п)—действительные величины, a C}t (j, I = = 1.....п) —некоторые постоянные величины, зависящие от п произвольных постоянных, для определения которых должны быть заданы начальные значения if>j(O) (/ = 1> •••> п) функ- ций ф/(0 (либо значения, которые должны принять функции ф;(/) в какой-либо другой фиксированный момент времени). Подставляя в (11) выражения (12), получим u(t) = sign + S2e^ + ... + 8пе^), (23.13) где Sj — некоторые постоянные величины Sj=^iBvCvl (/=!,...,«). (23.14) V=1 Так как число нулей функции s(0 = 2S,e11/ (23.15) J=1 на полубесконечном интервале 0 < t < оо не превышает п— 1, то определяемая выражением (11) функция и(/), модуль кото- рой |и(0| = 1 является кусочно-постоянной функцией, имею- щей на интервале времени 0 < t < t\ не более п — 1 точек
308 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА разрыва, то есть функция u(t) имеет не более п интервалов по- стоянства. Иными словами, число переключений управления u(t) не превышает п — 1. Доказанная здесь теорема называется теоремой об п интер- валах и принадлежит А. А. Фельдбауму [85]. 2. Задача о максимальном отклонении. Рассмотрим систему, описываемую скалярным дифференциальным уравнением ТГ-№•«), где fi (%], и) = — ахх + Ьи. На управление и наложено ограничение (23.16) (23.17) (23.18) Требуется выбрать управление и так, чтобы отклонение си- стемы Xi(T) в момент времени Т достигло наибольшего воз- можного значения. Разумеется, для системы, описываемой столь простым урав- нением (16), эта задача может быть решена непосредственно. Найдем, однако, решение задачи при помощи принципа мак- симума с целью иллюстрации общего метода примером, в кото- ром отсутствуют громоздкие вычисления. Обозначим через Q функционал т Q=J foUi, u)dt, (23.19) о где fo (*i, и) = — fi (хи и) = ах{ — Ьи. (23.20) Через Хо(О обозначим скалярную функцию, удовлетворяю- щую дифференциальному уравнению = и) (23.21) и начальному условию х0 (0) = 0. (23.22) Из (19), (21) и (22) следует, что Q = x0(F). (23.23) Согласно (16), (21) и (20) dx0 __ dxi ~dT~' dt ’ (23.24)
§ 23. ПРИМЕРЫ ПРИМЕНЕНИЯ ПРИНЦИПА МАКСИМУМА 309 откуда, учитывая (22), получим х0(П=- Х1(П + Х!(О). (23.25) Так как начальное отклонение *1(0) не зависит от управле- ния, то из соотношения (25) следует, что управление и(/), до- ставляющее минимально возможное значение функционалу Q, обеспечивает максимально возможное значение отклоне- ния *1 (Т). Обозначим теперь через ф вектор Фо Ф1 (23.26) и согласно (17.10) введем функцию Н СФ, х, и) = фо/oUi, и) + ф,Л (Х|, и) = а (Фо - ф,) Xi + b ( - ф0 + фО и. (23.27) Согласно (17.14) функции фо и ф1 будут удовлетворять урав- нениям <*Фо ____ дН ^Ф1 ________ (23 28) dt dxQ ’ dt dxi ’ ' * ' которые в соответствии с (27) принимают вид ^ = 0, = (23.29) Общее решение уравнений (29) имеет вид фо = Сь ф1(0 = С2еа/ + С1. (23.30) Рассматриваемая задача представляет собой задачу с закреп- ленным временем Т и свободным концом траектории. Поэтому согласно (17.55) функции фо(О и ф1(/) должны удовлетворять условиям ф0(П= - 1, Ф1(П = 0. (23.31) При условиях (31) решения (30) принимают вид 1, ф1(0 = ^^“г>- 1. (23.32) При Ь > 0 определяемая выражением (27) функция Й(ф(/), х(/), и) переменного и (на которое наложены ограни- чения (18)) будет для всех t достигать в точке а = п(/) максимума, если управление будет иметь вид и (0 = sign [ - Фо (0 + Ф1 (/)]• (23.33)
310 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Подставляя в (33) вместо -фо(О и Ф1(О их выражения (32), получим u(t) = signea(<-r) = 1. (23.34) При условии (34) найдем из (16) и (17) max х1(Г) = х1(0)е~аГ + -(1 -е~аГ), (23.35) а что, как уже было сказано, в этой задаче очевидно. 3. Применение принципа максимума при отсутствии ограни- чений на управление. При отсутствии ограничений на управле- ние во многих случаях оказывается возможным получить в яв- ном виде решение задачи о выборе управления, доставляющего минимум некоторому функционалу. Рассмотрим систему, описываемую скалярным дифферен- циальным уравнением (см. § 16, п. 2), = (23.36) где А(<7ь«) = 4-“’ (23.37) начальное состояние которой ki (OLo = <7i (0)- Требуется привести систему в момент времени в точку выбирая управление u = u(f), которое доставило бы минимум функционалу где Q= / fo (<7i, u)dt, о (23.38) Wp«)=-f^ + i«2- (23.39) В соответствии с (17.10) образуем функцию Н СФ, ?1, «) = Wo(<7b «) + Wi(<7i> «) = -*(-T’?+i“!)+4-v <23-40) и составим уравнения dqf дН _ дН dt dtyj ’ dt dqj (23.41)
§ 23. ПРИМЕРЫ ПРИМЕНЕНИЯ ПРИНЦИПА МАКСИМУМА 311 Согласно (40) уравнения (41) принимают вид -^1= — — п2 + —L. и2 ^Ll = A_u (23 42) dt 24^2mU> dt tn> ^ = 0, ^Г = СЯ^- (23.43) Найдем теперь управление и (на которое заранее никаких ограничений не наложено), доставляющее максимум функции Н. Так как дН 1 /, , , ч 1 , /оо ... + -^г = -7Г^о, (23.44) то при условии ф0<0 (23.45) функция Н будет иметь максимум по и при “=- (23-46) Из первого уравнения (43) следует, что ф0 = const. (23.47) Подставляя во второе уравнение (42) оптимальное значение управления и, которое определено выражением (46), получим (23.48) Дифференциру учитывая при э я по t левую и правую части уравнения (48) и том, что фо = const, получим <23-«) В соответствии нимает вид со вторым уравнением (43) уравнение (49) при- -§L=-^b (23.50) где *2=тЬ (23.51) Мы пришли, таким образом, к краевой задаче: требуется найти решение дифференциального уравнения (50), удовлетво- ряющее условиям [<7i (OUo = <71 (°). l<7i(0U/, = 0. (23.52)
312 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Интересующее нас решение будет следующим: &=-71S^1'sin kt+cos kt- <23-53> Olli /vt j Решение (53) существует при условии Л=/=-у- («=1,2,3,...), (23.54) которое мы будем предполагать выполненным. Из второго уравнения (42) следует, что и = т —у;-, at откуда в соответствии с (53) получим и = — Уте q{ (0) cos kt + sin kt j. (23.55) Из сравнения выражения (46), полученного из принципа максимума Л. С. Понтрягина, со вторым уравнением (42) сле- дует, что в рассматриваемой задаче = (23.56) фо dt ' ' откуда (/) = У тс qx (0) cos kt + sin kt j ф0. (23.57) Заметим, что у механической системы, функция Лагранжа которой имеет вид L = ^mq\~^cql (23.58) канонический импульс р\ будет px=^- = tnql. (23.59) Отсюда следует, что для управляемой системы, описываемой уравнением (36), и = (23.60) “ Ф0Р1. (23.61) где pi — канонический импульс механической системы (58). Соотношения (60) и (61) имеют место потому, что здесь, как и в § 16, п. 2, функционал (38) выбран так, что для механи- ческой системы (58) он принимает вид tx Q=J Ldt, (23.62) О
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 313 что представляет собой действие по Гамильтону, которое в силу принципа Гамильтона принимает стационарное значение на дей- ствительных движениях механической системы. При подстановке в (40) вместо и и ф1 выражений (60) и (61) функция Й принимает вид (2 2 \ й-4-ф-), (зз.ез) то есть функция Й в рассматриваемом здесь примере предста- вляет собой произведение функции Гамильтона механической системы (58) на постоянный множитель —фо. § 24. Оптимальные линейные системы с квадратичным критерием качества 1. Задача о регуляторе состояния [34]. Рассмотрим нестацио- нарную линейную систему x = A(t)x + B(t)u(t), (24.1) где х — «-мерный вектор фазовых координат системы, u(t) — r-мерный вектор управления A(t)—п X «-матрица, B(t) — п X r-матрица. Предполагаем, что на управления (j = = 1, ..., г) ограничения не наложены. Управление u(t) долж- но быть выбрано так, чтобы минимизировать функционал т | <х (Г), Fx (Г)) +1 / [<Х (/), Q (/) X (/)> + <и (/), R (t) и (/))] dt. /о (24.2) Здесь Т — некоторый фиксированный момент времени. Целью управления является удержание фазовых координат системы хД/) (/ = I, • • •, п) вблизи нуля, то есть речь идет о регулиро- вании состояния системы. Через F и Q(t) обозначены неотрица- тельно-определенные «Х«-матрицы, то есть симметрические мат- рицы, удовлетворяющие условию {a, Fa) 0, (a, Q(t)a)^O для любого «-мерного вектора а ¥= 0. Матрица /?(/) представляет собой положительно-определенную г X r-матрицу, то есть сим- метрическую матрицу, удовлетворяющую условию (&,/?(/)&)> > 0 для любого r-мерного вектора b 4= 0. Необходимые условия оптимальности управления «(/) можно получить из принципа максимума Л. С. Понтрягина-
314 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Согласно (18.15) функция Н для рассматриваемой здесь задачи имеет вид н= У Фо (0 <х (0, Q (0 X (t)> +1 Фо (0 <« я (0 « (0> + + (А (0 х (/), ф (0) + <в (о и (!), ф (0>, (24.3) где ф(/)—n-мерный вектор, элементами которого являются вспомогательные переменные ф1(/), •••, Фп(0- Оптимальное управление u(t) должно доставлять функции Н максимум. Со- гласно принципу максимума для неавтономных систем в задаче с закрепленным временем и свободным концом траектории фо(0 = const = —1. Поэтому, обозначая ф. (t) Pi<t)=^ (i = 1, . •., rt), (24.4) получим, что оптимальное управление u(t) доставляет мини- мум функции Ж = | <х (/), Q (0 х (/)> + j <« (0, Я (0 « (0> + + <А (0 х (0, р (0> + <В (0 и (0, р (0). (24.5) Так как , . дН . Ф/ = ФоР/ = “ (/ = !,..., п), то элементы вектора р удовлетворяют следующей системе диф- ференциальных уравнений: Pi=~^ U =1, ,") (24.6) Частные производные по Xj (/ = 1, ..., п) от функции S = = 4<х(0, Q(t)x(t)), где Q(t) — симметрическая матрица, имеют вид -^-=2Qm(0xa(0 (/ = 1, 1 fe=i , = I <эа dS дВ \ л а вектор grada = (^—, .... будет следующим: gradS = Q(/)x(f). Аналогично для функции S’ = (А (0 х (t), р (/)) имеем п -зг-=2^/(0рД0 (/=1.....п). 1 fc=l
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 315 j Z79 { (J U U^u 1 о а вектор grad<? = ^r, имеет следующий вид: grad .S’= A*(t)p(t), где через A* (t) обозначена матрица, образуемая транспониро- ванием матрицы A(t). Таким образом, в соответствии с (6) и (5) вектор-функция p(t) удовлетворяет дифференциальному уравнению р = — Q(t) х — A'(t) р. (24.7) Найдем теперь управление «(/), доставляющее экстремум функции Ж Так как г п £ Я/z (0 «z (П + £ В*/ (О Р*(0 (/ = 1.....«), (24.8) 1 i=i *=i то необходимые условия экстремума д<№ л / • 1 \ -^ = 0 (/ = 1, .... г) принимают вид 3t?/z(0«z(0 = -S WOpJO (7 = 1,..., г). (24.9) Z*=l k~\ Система скалярных уравнений (9) эквивалентна векторному уравнению (21.10) Из уравнения (10) следует, что управление и(/), доставляющее экстремум функции 5#, будет следующим: м(0=-7?-1(0В*(0р(0. (24.11) Поскольку R(t)—положительно-определенная матрица, то det /?(/) =# 0 и обратная матрица /?-1(0 существует. Согласно (8) д22ё dui дик a, *=i, г), и, следовательно, матрица д2Ж д2Ж ~ dui dui * ’ * ди^ диг д2Ж д228 диг dui ’ ’ ’ диг диг (24.12)
316 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА является положительно-определенной матрицей. Отсюда следует, что управление и(/), которое определено выражением (11), до- ставляет функции <9^ минимум. Подставляя выражение (11) для u(t) в уравнение (1), при- ведем это уравнение к виду x = A(t)x-S(t)p, (24.13) где S(t)—симметрическая матрица типа п X п: S (I) = В (О В' (0. (24.14) Уравнения (13) и (7) образуют систему векторных дифферен- циальных уравнений, которую можно записать так: х! Г A(t) -S(t) Их' _Р JL-Q(0 —Л*(оЛр. (24.15) Векторное дифференциальное уравнение (15) определяет собой искомую оптимальную систему. Начальное состояние x(t0) системы (1) предполагается из- вестным. Поэтому решение системы дифференциальных уравне- ний (15), ранг которой равен 2п, должно удовлетворять п на- чальным условиям, определяемым векторным соотношением [<яГо = *(/о). (24.16) Для вспомогательных переменных pj (/= 1, ...» п) выте- кающие из условий трансверсальности п граничных условий определяются соотношением p(T) = Fx(T). (24.17) Условия (16) и (17) определяют единственное решение си- стемы уравнений (15). Покажем, как получить граничное условие (17). Предварительно пре- образуем функционал (2) к виду, не содержащему аддитивного члена, зави- сящего от х(Т). Так как т y(x(F), Fx(T)) = y(x(/0, Fx(/0)> +J-^-[y(x(/), Fx (/))]<«, to -£[l(x(0. Fx (/))] = (Fx (<), x (/)), то имеем т (x (Г). Fx(T)) = У (x (/0). Fx О + J (Fx (0. x (0) dt. (24.18) to
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 317 Учитывая тождество (18), можно преобразовать функционал (2) к следую- щему виду: 7--~(x(t0), Fx(t0)) + т + J [ {Fx (О, х (0> + 4 (0. Q (0 X (0> + 4 <“ (0. R (0 « (0>] dt. (24.19) to Соответственно функция Ж определяемая выражением (5), может быть за- менена следующей функцией: = 4 (0. Q (О х (/)) + 4 <“ w. R (t) и (0> + + {Fx (О, X (/)) + (А [Л (/) X (t) + В (0 и (0]> Так как согласно (1) x(t) = A(t)x(t) + B(t)u(t), то функция принимает вид ^ = 4<*W. Q (0 х <о> + 4 (0’ «(0> + + ([Fx (П + J01. [А (О X (/) + В (0 и (О)). (24.20) Поскольку функционалы (2) и (19) получены друг из друга при помощи тождественного преобразования, то и функции и должны совпадать. Для этого, как следует из выражений (5) и (20), должно выполняться условие p(t) = Fx(t) + fl(t). (24.21) В задаче с закрепленным временем и свободным концом траектории, в слу- чае, когда функционал, который требуется минимизировать, имеет вид (19), условия трансверсальности приводят согласно (17.55) к соотношению ЯП = 0. (24.22) При этом в соответствии с (21) для исходной задачи с функционалом (2) будет иметь место соотношение (17) р(Г) = Гх(Г). Найдем еще дифференциальное уравнение, которому удовлетворяет вектор- функция p(t) в задаче с функционалом (19). Аналогично (6) то, учитывая, что F— симметрическая матрица, то есть F* = F, будем иметь grad (Fx, Ах) = FAx + A*Fx.
318 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Система дифференциальных уравнений (23), таким образом, может быть представлена в виде следующего векторного дифференциального уравнения: -А р = _ Q (t) х - Л* (О р - FB (/) и - FA (/) х — А* (/) Fx (24.24) ИЛИ р = - Q (I) х - A' (t) (Fx + р) — F [A(t) х + В (t) и]. Так как согласно (1) х (/) == А (/) х + В (/) ц, то уравнение (24) приводится к виду (р + Fx) = - Q (/) х - A* (t) (р + Fx), откуда в соответствии с (21) получим уравнение (7) Р = - Q (0 х - А* (0 р для исходной задачи с функционалом (2), что мы и хотели показать. Обратимся теперь к дифференциальным уравнениям (7) и (13) р = -<Э(/)х-л*(0р. х = A (t)x — S (t) р. Будем искать p(t) в виде p(t) = K(f)x(f), (24.25) где K.(t)—п X «-матрица, подлежащая определению. При этом уравнение (13) принимает следующий вид: x = M(0-S(W0]x. (24.26) Из соотношения (25) следует, что р(Т) = К(Т)х(Т). (24.27) Сравнивая выражение (27) и (17), найдем, что K(T) = F. (24.28) Из уравнений (7) и (13) можно найти дифференциальное урав- нение, которому должна удовлетворять матрица K(f). Подста- вляя в уравнения (7) и (13) выражение (25), получим К (0 х (0 + К (О А (0 х (/) - К (О S (/) К, (П х (/) = = - Q (0 х (0 - Л* (/) К (/) х (0. (24.29) Учитывая, что согласно (14) s(/) = B(0/?-'(0B-(0,
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 319 можно привести уравнение (29) к виду К (0 + К (t) Л (0+ 4* (О К (О - - К (О В (О /Г* (О В* (/) К (t) + Q (/)] х (О = 0. (24.30) Соотношение (30) должно выполняться при любом значении х(/), откуда следует, что матрица /((/) должна удовлетворять дифференциальному уравнению к=- к а (о - л* (о я+кв (о r -* (о в' аж -q (о (М*о. Л). (24.31) Уравнение (31) представляет собой нелинейное матричное дифференциальное уравнение Риккати. Вместе с граничным ус- ловием (28) уравнение (31) определяет единственным образом матрицу K(t). Покажем еще, что матрица симметрическая. Транспони- руя матрицы в левой и правой части уравнения (31) и учитывая, что В В* (/) и Q(t)—симметрические матрицы и что [Л(ОГ = получим следующее уравнение: А/С‘=_/сл(0-Л’(0Л” + + K'B(t)R~'(t)B'WK'-Q(t) (t0<=[t, Л). (24.32) Граничное условие (28) в силу симметричности матрицы F при- нимает вид K(T) = F. (24.33) Таким образом, дифференциальные уравнения и граничные условия, которым удовлетворяют /((/) и совпадают, и в силу теоремы единственности К(0 = Г (а (24.34) то есть K(t) является симметрической матрицей. Дифференциальное уравнение, определяющее закон движе- ния оптимальной системы, в соответствие с (26) и (14) будет следующим: х = [Л (0 - В (/) /?-* (о В’ (о К (о] X. (24.35) Покажем теперь, как связана матрица /С(/) с фундаментальной матрицей 0(0 решений векторного дифференциального уравнения (15). Обозначим через П(Лт) следующую 2n X 2п-матрицу: О(/, т) = е(/)0_| (т). (24.36)
320 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Решение уравнения (15) будет следующим: /о)Г*!м1- (24-37) L р (0 J L р (MJ Аналогично (37) при Т > t будем иметь [\(£!1=£2(г> (24-з8> Lp(£)J L р (0 J Представляя матрицу Q(£, t) в виде блочной матрицы, элементы которой являются п X п-матрицами: Г Йи (Г, 0 Qi? (Г, /И Q(T, 0= 11' ’ ' ' Ч, (24.39) L Q2I (Г, t) й22 (Г, nJ ? получим из (38) и (17) следующие соотношения: х(г) = йн(г, t)X(t) + al2(T, । р (Г) = Fx (Г) = Q2I (Г, t)x(t) + Qn(T, t)p(t).] ( • o) Из соотношений (40) следует, что р(П={[Й22(Г, 0-^12 (Л ОГ1 [Я2ц (Л П-Й2! (Л П]}х (П- (24.41) Так как Q(T, Г) = £2п, где £2п— единичная матрица типа 2п X 2п, то ЙИ(Т, Г) = Й22(Г, Г) = £п, Й12(Т, п = а21(г, Л = где Еп — единичная матрица типа пХМ из (41) следует р (Г) = £х (Г), что совпадает с выражением (17). Сравнивая выражения (41) и (25), найдем, что К (0 = [Q22 (Л о - FQl2 (Л ПГ* [FQ,, (Г, п - Й21 (Г, П]. (24.42) Определение матрицы Q(T, /) может быть выполнено интегрированием векторного дифференциального уравнения, сопряженного для векторного диф- ференциального уравнения (15) [68]. В случае, когда А, В, Q и R — постоянные матрицы, построение фунда- ментальной матрицы 0(0 не вызывает затруднений и матрица Q(T, /) может быть определена в замкнутой форме. Оптимальная система, описываемая век- торным дифференциальным уравнением (35), будет линейной системой, однако даже в случае, когда Л, В, Q и R — постоянные матрицы, она будет систе- мой нестационарной. Перейдем теперь к определению минимального значения 71 (х, /) функционала /1(х, /) = 4<х(П. Fx(T)) + т + у J 1<х х + <« R (Ю и (£)>] dl (/e[f0, 7]). (24.43) t
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 321 Докажем, что /’ (х, О = у <х К х G ^0’ )’ (24-44> где K(Z)—решение уравнения Риккати (31) при граничном условии (28). При этом, учитывая (28), будем иметь Л(х(Г), Г) = у<х(П, Fx(T))>. (24.45) Для доказательства справедливости выражения (44) соста- вим уравнение Веллмана для рассматриваемой здесь задачи. Согласно (14.21) это уравнение будет следующим: + min (у <х (/), Q (0 х (0) + 4- <« (0. R (f) и (/)) + т и (t) t 2 2 + <Д(/)х(/), grad Д (х, t)) + grad Л (х, /))} = 0. (24.46) Выражение в фигурных скобках в уравнении (46) совпадает с выражением (5), которым определена функция Ж, если в нем заменить вектор p(t) вектором grad7j(x, /). В соответствии с (11) этому выражению доставляет минимум управление и (/) = _ fl"1 (/) в* (/) grad У* (х, /). (24.47) Так как согласно (44) дЛ д Г1 , х1 1 , • , х > И К = "2 К grad 7* = grad (х, К (/) х)] = К (/) х, то формула (47) принимает вид и (Z) = - fl-1 (Z) В* (0 К (0 х (/). (24.48) Уравнение (46) можно теперь переписать так: ~ {х (/), К (/) X (0) + 4 <х (/), Q (0 X (/)) + +у </?’ (0 в* (0 к (о X (/), в' (0 К (о X (/)} + + {A(t)x(f), к(0 X (0)- <в (0 в' (t)K (t)x(t), Я(0х(0) = 0. (24.49) Для преобразования уравнения (49) потребуются тождества (r-'b'Kx, В*Кх) = ($~'в*КхУ b'Kx = (BR~'b'KxY Kx = (BR~'b'Kx, Кх}, (24.50) {х, КАх} = х'КАх = (К*х)‘ Ах = (К'х, Ах) = (Кх, Ах) = (Ах, Кх). */4Ю Я. Н. Ройтенберг
322 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Здесь учтено, что согласно (34) К = К*. Аналогично (х, А*Кх) = х*А'Кх = (Ах)* Кх = (Ах, Кх). Из последних двух тождеств следует, что (Ах, Кх) = у (х, А*Кх) + у (х, КАх). (24.51) При помощи (50) и (51) можно преобразовать уравнение (49) к виду | (х (0, К (0 х (0) + у <х (0, Q (0 х (0) + +у<х(0, 4‘(0А(0х(0) + у<х(0, Х(04(0х(0) — - 4 <х (0, К (0 В (0 У?-1 (0 В* (0 К (t) х (0) = 0. (24.52) Таким образом, в соответствии с (44) уравнение Беллмана (46) принимает следующий вид: <* (0> [А (0 + K(t)A (0 + А* (0 К (0 - - К (t) В (0 R-1 (0 В' (0 К (0 + Q (0] х (0> = 0. (24.53) Так как /С(/) есть решение уравнения Риккати (31), то выра- жение в квадратных скобках в уравнении (53) тождественно равно нулю, и, следовательно, определяемая выражением (44) функция Ji (х, t) есть решение уравнения Беллмана для рас- сматриваемой задачи. Из изложенного видно, что функция Z*(x, t) удовлетворяет уравнению Беллмана (53) при любых значениях ее аргумен- тов: x(t)^X (где X— n-мерное фазовое пространство системы) и t е [/о, Т]. Можно показать [14] (аналогично теореме § 15), что из этого следует, что управление (48) удовлетворяет необ- ходимьпм и достаточным условиям оптимальности и что это управление является единственным. Покажем еще, что матрица /((/) при t е [/о, Т) является по- ложительно-определенной матрицей. В силу того, что F и Q(t) — неотрицательно-определенные матрицы, a R(t)—положительно- определенная матрица, функционал Л (х, t) при любом управ- лении ц(/)=#0 будет согласно (43) иметь положительное значение при любом Следовательно, минимальное значение Л (х, t) функционала Л(х, t), определяемое выраже- нием (44): /1 (X, 0 = 4 (0, К (0 х (0) >0, t <= [/0, Т)
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 323 для любого вектора x(f). Отсюда следует положительная опре- деленность матрицы /<(/) при i^[tQ,T). Определение граничного значения р(Т) в общем слу- чае задачи с закрепленным временем и свободным кон- цом траектории. В общем случае уравнения движения системы имеют следующий вид: x = f(x, (24.54) где f и х — n-мерные векторы, и — r-мерный вектор. Пусть функционал, который требуется минимизировать, имеет вид Т J = N(x (Г), Т) + | L (х (0, и (/), t) dt. (24.55) /о Аналогично (5) функция <9$, которой оптимальное управление должно доста- вить минимум, имеет вид = L (х, и, /) + (р, f (х, и, /)). (24.56) Так как т N (х (Т), T)=N(x /0) + J -£ у (х (/), 0 dt, to ~4г N (х (/), t) = (grad N, х) + = (grad N, f (x, u, t))+^~, HI (JI (JI то имеем T V (x (T), T) = N(x (/„), t0) + | [ (grad V, f (x. u, t)) + dt. (24.57) to Функционал (55) преобразуется к следующему виду: т J = N(x (t0), ta) + | [(grad V, f(x, u, t)} + + L (x, u, o] dt. (24.58) to Функция 2$ теперь должна быть заменена следующей функцией: - dN Ж = (grad АГ, f (х, м, /)) + — + L (х, u, t) + (Д f (х, и, /)). (24.59) Найдем дифференциальное уравнение, тор-функция p(t). Так как dpj дЖ dt dXj то будем иметь которому должна удовлетворять век- (/= I...п), dd, д d2N dL д ---------л (grad АГ, f (х, U, 0) — а-а! Ч я-f (х> “> 0) dt dXj-------------------------------------------------' dx^dt-dXj-дх{-" l/410‘
324 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА ИЛИ / д \ / df(x, и, I) -71----\ л; г"'!"1 <’• °7 - '' —77,— (21.60) dXj dt дх^ \ дХ] / 7 Покажем теперь, что вектор p(t), который входит в выражение (56), будет иметь следующий вид: р (/) = р (/) + grad N (х, /), (24.61) то есть, что dN (х t} Р^)^^ д{х’ ' (/=!,...,«). (24.62) Из (62) и (60) следует, что h=-Ы;gradN'f(x’«’z))-(gradN' —dXu}' °)- d2N dL Л л ЛП <W, 0\ , d dN --d^dt grad —dx. - )+-dt • (24-63) Так как d dN d ,\ d2N fd . \ d2N — = <"3—grad TV, x) + -z—чт = (-г—grad A\ f (x, u, i)) + -—(24.64) dt dXj \dXj / dx^dt \dXj 4 dx^dt 7 то уравнение (63) принимает вид «='....») то есть Р/=--^у 0=1,.... п), (24.66) где функция определена выражением (56). Полученный результат подтвер- ждает справедливость соотношения (61). В задаче с закрепленным временем и свободным концом траектории, в случае, когда функционал, который требуется минимизировать, имеет вид (58), условия трансверсальности приводят согласно (17.55) к соотношению р(Т) = 0. (24.67) При этом в соответствии с (61) для исходной задачи с функционалом (55) будет иметь место соотношение p(7’) = [grad^(x(7), П]. (24.68) 2. Задача о регуляторе выхода. Рассмотрим нестационарную линейную систему х = A (f)x + B(t)u(f), y = C(t)x, (24.69) где х — /z-мерный вектор фазовых координат системы (то есть вектор состояния системы), u(t) — r-мерный вектор управления,
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 325 y(t)—m-мерный вектор, определяющий собой выход системы, A (t) — п X «-матрица, B{t)—п X r-матрица, С(/) — т X «-мат- рица. Предполагается, что система (69) вполне наблюдаема, то есть матрица т М (t0, Т) = J Ф* (t, t0) С* (О С (О Ф (/, /0) dt (24.70) to является положительно-определенной матрицей. Здесь Ф(/, т) = О(О0-1(т), где через 0(/) обозначена фундаментальная матрица решений векторного дифференциального уравнения х = A(t)x. Как и в п. 1, предполагается, что на управления Uj(t) (/ = 1,..., г) ограничения не наложены. Требуется выбрать век- тор управления «(/) так, чтобы минимизировать функционал т 11 = ^ <У(Т), F (у (Г))) + 4 J [<// (0, Q (о у (/)> + to + {u(t)9 R(t)u(f))]dt, (24.71) где Т — некоторый фиксированный момент времени. Целью управления является удержание вектора y(t) вблизи нуля, то есть задача состоит в регулировании выхода системы. Мат- рицы F и Q(t) являются неотрицательно-определенными тХ«ь матрицами, а матрица R(t)—положительно-определенная гХ<- матрица. Так как (у(0, Q(0 уW (0х (/), Q (/) с(/)X (/)) = = <Ш c’(0Q(0C(0x(0>, <//(Т), Fz/(7’)) = <x(7’), С’(Г) FC (Г) х (Г)), то функционал (71) можно переписать так: /2 = 1<х(Л. С* (Т) FC (Т) х (Т)) + т +1 J <х (0, С* (0 Q (/) С (0 х (О) + (и (0, R (0 и (0)1 dt. (24.72) to Заметим, что поскольку система (69) вполне наблюдаема, a F и Q(t) — неотрицательно-определенные матрицы, то симметриче- ские матрицы C*(T)FC*(T) и С* (/) Q (t) С(/) также будут неот- рицательно-определенными матрицами. 12/11 я. Н. Ройтенберг
326 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Действительно, в силу того, что Q (/)— неотрицательно-опреде- ленная матрица, имеет место соотношение <У(0> Q(0H0)>0, (24.73) откуда следует, что <С (/) х (О, Q (О С (/) х (/)) > 0 (24.74) для любого вектора И0 = с(/)х(0. Если система вполне наблюдаема, то по вектор-функции y(t) на [О, Т] можно определить единственным образом начальный вектор x(tQ) системы (69), а каждый вектор x(to) определяет единственную траекторию x(t) системы (69). Следовательно, уравнения (69) вполне наблюдаемой системы взаимно одно- значно отображают пространство Y на пространство X. Поэтому из условия (74) следует, что (х(/), С* (/) Q (/) С (/) х (/)) 0 для любого вектора x(t). Таким образом, матрица С* (/) Q (/) С (/) и аналогично матрица С* (T)FC(T) являются неотрицательно-определенными матри- цами. Так как функционалы (2) и (72) отличаются лишь тем, что неотрицательно-определенные матрицы F и Q(t) заменены не- отрицательно-определенными матрицами С* (Г) ЕС (Г) и C*(/)Q(/)C(f) соответственно, то результаты п. 1 можно пере- нести на рассматриваемую здесь задачу. Аналогично (48) оптимальное управление будет иметь вид и (0 = - R~' (О В' (О Ж (/) х (/). (24.75) Дифференциальное уравнение, описывающее закон движения оптимальной системы, будет согласно (35) и (69) следующим: х = [Л (0 - В (1) R~' (I) В* (/) Ж (0] х. (24.76) Минимальное значение t) функционала h(x, t), опреде- ляемого аналогично (43), будет Л (х, 0 = j- (х (/), Ж (0 х (/)>, t е= [f0, Т]. (24.77) Входящая в выражения (75) и (77) и в дифференциальное урав- нение (76) положительно-определенная, симметрическая матрица Ж(t) есть решение уравнения Риккати Ж = - Ж A (t) - Л* (0 Ж + Ж В (0 R~' (/) В* (0 Ж - — (tE=[t0, Г]), (24.78)
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 327 удовлетворяющее граничному условию W(T) = C(T)FC(T). (24.79) 3. Стационарные системы с бесконечным временем наблюде- ния. а) Регулирование состояния системы. Уравне- ние движения системы имеет вид х = Ах + Ви. Рассмотрим предельный случай, когда конец интервала наблю- дения Т—*оо. При этом функционал, который требуется мини- мизировать, будет иметь вид т /^ = Т- lim [ (х (/), Qx (/)) + (и (/), Ru (/))] dt, 2 о где Q и R — постоянные, положительно-определенные матрицы. На управление u(t) ограничения не наложены. Предполагается, что рассматриваемая система вполне управляема, то есть ранг [В АВ ... Ап~'в] = п. Уравнение Риккати (31) теперь принимает вид К = _ RA - А*К + KBR~'b‘k - Q. Так как в функционале в отличие от функционала (2) F = 0, то граничное условие (28) принимает теперь вид /С(Л = о. Решение уравнения Риккати, удовлетворяющее граничному усло- вию 7<(Т) = 0, обозначим через К(/;0, Т). Как следует из ре- зультатов Калмана [34], при F = 0 для стационарных вполне управляемых систем это решение имеет при Т —► оо предел lim /С(^; О, Т) = £, Т->оо где К— постоянная, симметрическая положительно-определен- ная матрица, являющаяся решением нелинейного матричного алгебраического уравнения - К А - А*К + KBR~ 'B*K~Q = 0. Аналогично (48) оптимальное управление имеет вид u(t) = -R-'B*Kx(t). Дифференциальное уравнение движения оптимальной системы будет следующим: х = (А —BR~'B*K.)x, Vail*
328 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА причем оптимальная система асимптотически устойчива, то есть lim х(/) = 0. /->оо Минимальное значение Д(х, t) функционала оо ЛЖ 0 = 4 j* [<х(Ю. Qx (£)> + <«(£), t будет аналогично (44) следующим: Д(х, 0=|<х(0. ^х(О). б) Регулирование выхода системы. Система опи- сывается уравнениями х = Ах + Ви, у = Сх. Требуется минимизировать функционал J т J[<у(0. Qy(0) + <«(0, Ru(f)}}dt, О где Q и R — постоянные, положительно-определенные матрицы. На управление u(t) ограничения не наложены. Предполагается, что рассматриваемая система вполне управляема и вполне на- блюдаема, то есть ранг [В АВ ... Лп~'в] = п, ранг [С* Л’С* ... Л‘П-,С‘] = п. Аналогично предыдущей задаче в предельном случае при Т —► оо оптимальное управление будет u(t) — -R-'в'Йх (0, где постоянная симметрическая положительно-определенная матрица Ж есть решение нелинейного матричного алгебраиче- ского уравнения - У£А - АУС + жвв~хв'уИ - c'qc = 0. Уравнение движения оптимальной системы x = (A-BR~lB'W)x. Оптимальная система асимптотически устойчива, то есть lim x(t) = 0. /->OQ
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 329 Минимальное значение 7оо(х, /) функционала 7то(х, о = у/ М), <ЭСх(Ю) + Ш). t будет следующим: 7«(x, t) = ±-(x(t), 4. Задача слежения [34]. Рассмотрим нестационарную линей- ную систему х = A (t) х + В (t) и (t), y = C(t)x, (24.80) где х — «-мерный вектор состояния системы, u(t) — г-мерный вектор управления, y(t)—m-мерный вектор, определяющий со- бой выход системы, A(t)— п X «-матрица, B(t) — пХ г-матрица, С(/) — т X n-матрица. Предполагается, что система (80) вполне наблюдаема, то есть определяемая выражением (70) п X «-мат- рица M(t0, Т) является положительно определенной матрицей. Через z(t) обозначим m-мерный вектор, закон изменения которого во времени задается извне, представляющий собой желаемый выход системы. Вектор e(t) = z(t)-y(t) (24.81) является рассогласованием или ошибкой следящей системы. В предположении, что на управление u(t) ограничения не наложены, требуется минимизировать функционал /3 = |<Ж). Fe(T)) + т + 4 / К* (0, Q (0 е (/)> + («(0, R (/) и (0)1 dt, (24.82) /о где Т — некоторый заданный момент времени. Таким образом, целью управления является удержание рассогласования систе- мы, то есть вектора e(t), вблизи нуля. Матрицы F и Q(/) яв- ляются неотрицательно-определенными тХ«*-матрицами, а мат- рица /?(/)—положительно-определенная г X г-матрица. Подставляя в (82) вместо e(t) выражение е(0 = *(0“ С (/)*(/), (24.83) П Я. Н. Ройтенберг
330 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА преобразуем функционал (82) к следующему виду: /з = 4 <t* W -С(Т)х (Г)], F [z (Т) - С (Г) X (Г)]> + +4 / {<[z(0-C(/)x(0L Q(0[z(0-c(0x(01> + + <U(O, R(t)u(t))}dt. (24.84) Оптимальное управление u(t) должно доставлять минимум функ- ции которая строится аналогично функции 3$, определяемой выражением (5). Функция <2^, соответствующая функционалу (84), имеет следующий вид: =4 w -с юх wl Q ю - С (ох (0]> + + 4 <« (0, R (0 и (0) + (А (0 X (/), р (/)) + <в (0 «(0, Р (0). (24.85) Соотношения (8) — (11) сохраняют свой вид и для рассматри- ваемой здесь задачи и в соответствии с (11) управление u(t), доставляющее минимум функции будет следующим: = (24.86) Подставляя выражение (86) для u(t) в первое уравнение (80), приведем это уравнение к виду x = A(t)x — S(t)p, (24.87) где S (t) = В (t) R~l (t) В* (t). (24.88) Так как Pl=-d77 (/ = h •••, «), то вектор-функция p(t) будет удовлетворять дифференциаль- ному уравнению р = - С* (f) Q (/) С (0 х - А* (/) р + С (/) Q (0 z (/). (24.89) Обозначая V(0 = C’(0Q(0C(0, F(0 = C’(0Q(0. (24.90) можно представить уравнение (89) в таком виде: р = -У(/)х-Д*(0р + 1Г(0г(0. (24.91)
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 331 Уравнения (87) и (91) образуют систему векторных дифферент циальных уравнений, которую можно записать так: *1 Г АЦ) -5(0 1Г*' _pJ = L-V(t) -л*(оЛр_ Г о 1 + 1 W(t)z(t) • (24,92) Решение системы дифференциальных уравнений (92), ранг которой равен 2п, должно удовлетворять п начальным значе- ниям, определяемым векторным соотношением [x(OUo = x(/o). (24.93) Для вспомогательных переменных pj (/®1м..,п) в соответ- ствии с (68), (55) и (82) граничные условия определяются соот- ношением Pt <Г)={[I <е Fe И} т • (24.94) Так как ±<е(0, Fe(0) = = 4 <* (О, Fz (ф - (z (/), FC (о х (/)) +1 <х (о, С' (/) FC (0 X (ф, то в соответствии с (94) будем иметь для вектор-функции p(t) следующее граничное условие: р (Т) = С* (Г) FC (Г) х (Г) - С* (Г) Fz (Г). (24.95) Обозначим теперь через 0(/) фундаментальную матрицу решений одно- родного векторного дифференциального уравнения, которое образуется из уравнения (92) при z(t) = 0. Через Q(/, т) обозначим следующую 2n X 2п- матрицу: Q (Z, т) = б (/) б-1 (т). (24.96) Решение уравнения (92) будет (24.97) Аналогично (97) при Т > t будем иметь [ р (П ]= й (г' ° [ "р W ] + J s (л ” [ * «г М ] ('s ['"п ’ (2,',эд Представляя 2n X 2п-матрицу Q(7\ t) в виде блочной матрицы, элементы которой являются пХн-матрицами: а(Г.0 = [?,,(Г’° (24.99) [й21(т,о fi22(T,0J п*
332 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Г, (О . г2 (0. (24.100) можно привести (98) к виду X (Т) 1 = Г (Г, /) X (0 + ё12 (Г, /) р (О ,P(OJ [&2i(T,t)x(t) + Q22(T,t)P(t) где т Г; (0=j Qy2(A т)Г (T)z(T)dT (/=1.2). (24.101) t Из (100) следует, что х (Г) = Йи (Г, t) х (0 + Й12 (Г, /) р (0 + Г, (0, (24.102) р(Г) = Й21(Т, /)х(/) + Й22(Г, t)p(t) + V2(t). (24.103) Подставляя в (103) вместо р(Т) выражение (95), получим следующее соот- ношение: (С* (Г) FC (Г) Ql2 (Г, О - Й22 (Т, 0] р (0 = = [ - С' (Г) PC (Г) (Г, t) + й2| (Г, 0] X (0 - - С* (Т) FC (Г) Г! (О + Г2 (0 + С' (Г) Fz (Г). (24.104) Так как ап (г, т) = й22 (т, т) = е, 612 (т, т) = а21 (г, т) = о, Г1(Г) = 0, Г2(Г) = 0, то при t = Т соотношение (104) принимает вид (95) р (Г) = С* (Г) FC (Т) х (Г) - С* (Г) Fz (Т). Из соотношения (104) следует, что вектор-функция p(t) мо- жет быть представлена в виде p(t) = K (t)x (t)-g(t), (24.105) причем в соответствии с (95) К(Т) = С'(Т)ГС(Т), (24.106) g(T) = C,(T)Fz(T). (24.107) Найдем теперь дифференциальные уравнения, которым удов- летворяют матрица K(t) и вектор g(t). Из (105) следует, что р (t) = К (0 х (t) + К (0 х (t) - g (/). (24.108) Уравнение (108) в соответствии с (87) и (105) можно привести к следующему виду: р (i) = к (О X (0 + К (/) А (0 X (0 - К (0 s (0 К (0 X (0 + + K(t)S(t)g(t)-g(t). (24.109)
§ 24. СИСТЕМЫ С КВАДРАТИЧНЫМ КРИТЕРИЕМ КАЧЕСТВА 333 Исключая р из уравнений (109) и (91) и заменяя p(t) вы- ражением (105), найдем следующее соотношение: [Л (0 + К (0 А (0 + Д’ (0 К (0 - К (t) S (0 К (t) + V (/)] х (0 - - U (0 - [Я(0 5 (0 - Д* (/)] g (0 + W (0 z (0} = 0. (24.110) Так как соотношение (НО) имеет место при любых x(t), z(t) и t, то должны выполняться условия К (0 + К (0 А (0 + Д’ (0 К(0 - Я (0 S (0 К (0 + V (0 = 0, (24.111) g (0 - [/С (0 S (0 - Д’ (0] g (0 + W (0 z (0 = 0, (24.112) то есть K(t) и g(t) должны быть решениями дифференциаль- ных уравнений (111) и (112). Заменяя 5(0, V(0 и W(t) выражениями (88) и (90), най- дем, что матрица K(t) есть решение дифференциального урав- нения Риккати К = - КА (0 - Д* (0 К + КВ (0 (t) В' (0 К - - С* (t) Q (0 С (0 (t <= [0, Т]), (24.113) удовлетворяющее граничному условию (106) К(Т) = С‘(Т) FC(T). Вектор-функция g(t) есть решение дифференциального урав- нения g = - [Д (0 - В (0 /?-' (0 В' (0 к (0Г g - С* (0 Q (0 z (0 (t <= [/0, Г]), (24.114) удовлетворяющее граничному условию (107) g(T) = C* (T)Fz(T). Дифференциальное уравнение, описывающее закон движения оптимальной системы, в соответствии с (87), (88) и (105) будет иметь следующий вид: х = [Д (0 - В (0 R~l (0 В* (0 к(0] X + В (0 /Г* (0 в’ (0 g (0 (24.115) (/е[0> л). Оптимальное управление u(t) согласно (86) и (105) будет следующим: н (0 = - Я"1 (0 в' (0 к (0 х (0 + /?-' (0 В' (/) g (0. (24.116) Заметим, что дифференциальное уравнение (113) не содер- жит членов, зависящих от входного сигнала z(t). Таким обра- зом, матрица /((/) не будет зависеть от входного сигнала z(t).
334 ГЛ. 5. ПРИНЦИП МАКСИМУМА Л. С. ПОНТРЯГИНА Для определения согласно (116) оптимального управления п(/), а также для интегрирования дифференциального уравне- ния (115) должна быть известна функция g(t), что требует интегрирования дифференциального уравнения (114). Обозна- чим через $(/) фундаментальную матрицу решений однородного уравнения, которое образуется из уравнения (114) при z(/) = 0. Через ф(/, т) обозначим матрицу т) = 0(0О-1 СО- (24.117) При этом решение векторного уравнения (114) будет иметь вид т g(T) = ^(T, t)g{t)~ J t(T, T)C‘(T)Q(r)z(r)dT (24.118) t (/e[/0, 7]). Так как = T), ф(/, Г)ф(Г, т) = Ф(Л т), то из (118) найдем т g (0 = t (/, Т) g (Г) + j ф (t, т) С* (т) Q (т) z (т) dx, t или в соответствии с (107) т g(t) = q (t, Т) С* (Т) Fz (Г) + J Ф (Л т) С‘ (т) Q (т) z (x)dx (24.119) t (Мо. г]). Из выражения (119) видно, что определение текущего значе- ния g(t) возможно лишь, если известно, каким будет входной сигнал z(t) на будущем отрезке времени [/, Т]. Следовательно, для возможности определения g(t) на отрезке времени [/0, Т] должен быть уже в момент времени to известен входной сиг- нал z(t) на всем будущем отрезке времени [t0, Т]. Необходи- мость предварительных сведений о течении входного сигнала z(t) обусловлена видом (82) функционала /3, который в данной задаче требуется минимизировать.
Глава 6 СТОХАСТИЧЕСКИЕ СИСТЕМЫ § 25. Преобразование случайных сигналов линейными системами Во многих задачах сигнал, поступающий на вход управляе- мой системы, представляет собой реализацию некоторого слу- чайного процесса, причем никаких сведений об этой реализа- ции, помимо сведений о статистических свойствах соответствую- щего случайного процесса, не имеется. Так, например, может быть известно, что рассматриваемый процесс является гауссо- вым и даны его среднее значение и корреляционная функция. При таком объеме сведений о входном сигнале не представ- ляется возможным получение более полной по объему инфор- мации о сигнале на выходе системы. Возможно лишь опре- деление статистических свойств сигнала на выходе системы. Если система описывается линейными дифференциальными уравнениями, то речь идет об определении статистических свойств интегралов этих дифференциальных уравнений по за- данным статистическим свойствам правых частей уравнений. Решение этой задачи изложено ниже. Значительно большие трудности представляет задача об определении статистических свойств интегралов линейных диф- ференциальных уравнений, у которых не только правые части, но и коэффициенты являются случайными процессами (случай- ными функциями времени). Решение аналогичных задач для нелинейных дифференциаль- ных уравнений возможно лишь при помощи приближенных ме- тодов. Рассмотрим одномерную линейную систему, передаточная функция которой Ф(£>) (где D=-~^ представляет собой пра- вильную дробь, и обозначим через k(t) функцию веса этой си- стемы. Как показано в § 4, функция рф(р) представляет собой изображение по Карсону — Хевисайду функции k(t): рФ(р)-+>к(1), (25.1) то есть оо Ф(р)=/ k(t)e~P‘dt. (25.2) О
336 ГЛ. 6. СТОХАСТИЧЕСКИЕ СИСТЕМЫ Для устойчивой системы несобственный интеграл j k{t)dt абсолютно сходится j \k(t)\dt<co, — оо и преобразование Фурье для функции k(t) будет следующим: Ф(«л)= j k(t)e~l<s>t dt. (25.3) — оо Если обозначить через <р(/) входной сигнал, то сигнал x(t) на выходе системы, находившейся в момент t = Zo в покое, бу- дет равен t /-/о х (/)= j k(t-x}q{%)dx = J (25.4) fo о В предельном случае при /о = —00 имеем t t~t0 x(t) = lim [ k(t — r)(p(r)dT= lim f k (g) qp(Z — g)rfg, (25.5) fo->-oo J f0->-oo* to U что для краткости мы условились (§ 1) записывать так: t ОО Х(О= J^(/-T)<p(T)dT=J fe(g)q>G-g)dg. (25.6) — оо О Выражение (6) определяет собой установившийся процесс в системе. Так как £(т) = 0 при т < 0, то выражение (6) можно представить так: оо оо х(0= J Л(/-т)ф(т)Л= j (25.7) —-оо —оо Ниже будет предполагаться, что рассматриваемая система устойчива. Пусть входной сигнал <р(/) является реализацией ограниченного случайного процесса. Так как каждая реализация ограниченного случайного процесса является ограниченной функ- цией времени, то оо х(/) = j (25.8)
§ 25. ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ 337 для каждой реализации случайного процесса <р(/). Соотноше- ние (8) представляет собой соотношение между реализациями случайного процесса <р(0 на входе системы и реализациями случайного процесса x(t) на выходе системы. Пусть входной сигнал является реализацией стационарного случайного процесса. Математическое ожидание этого случай- ного процесса М[ср(/)] = = const. Определяемый соотноше- нием (7) установившийся процесс на выходе системы также будет стационарным случайным процессом, для которого М[х(0]= J k (g) М [ф (f -1)] dt, = J (25.9) Далее будем рассматривать стационарные случайные про- цессы ф(/) с нулевыми средними значениями. По определению корреляционная функция случайного про- цесса х(/), определяемого выражением (7), будет RxUl, = x(f2)] = = M J k^^-t^dt, J ШфМпМп • (25.10) — оо Операции математического ожидания и интегрирования комму- тативны. Поэтому выражение (10) можно представить так: RX(A, t2) = f J или Mi, t2)= / k® J k^R^-^^-^d^dt,. (25.11) Так как ф(/) и x(t)—стационарные случайные процессы, то М^ ^2 ~ Я) = ^ф(^1 — ^2 + Rxtti'iz^RxfA-tJ, (25.12) и выражение (И) принимает следующий вид: Rx(tl-t2)= J k® j k^R^ty-^ + ^-Dd^dl (25.13)
338 ГЛ. 6. СТОХАСТИЧЕСКИЕ СИСТЕМЫ ИЛИ со оо /?л(т)= / *(£) f + — оо —оо (25.14) В трудах А. Я. Хинчина показано, что спектральная плот- ность и корреляционная функция стационарного случайного про- цесса f(t) связаны соотношениями оо Sf(©) = j Rf (x)e~ioxdx, — оо оо — оо (25.15) В соответствии с (14) и (15) спектральная плотность ста- ционарного случайного процесса x(t) будет оо оо оо Sx(o>)= / J Л(п) J + (25.16) — OO —00 —oo Вводя новую переменную Y = T + n-B, (25.17) приведем выражение (16) к виду «,(©)= J kf&e-Mdt, J Л(т))е'“Мп J R4(y)e-^dy — оо —оо —оо или в соответствии с (3) 5ж(®) = Ф(/ю)Ф(-1®) j R^e-t^dy. (25.18) — оо Из (18) и (15) следует, что спектральные плотности стацио- нарных случайных процессов на выходе и входе устойчивой линейной системы связаны соотношением Sx(<o) = | Ф(/ш) |2 5ф(®). (25.19) Так как x(t)—стационарный случайный процесс с нулевым средним значением, то дисперсия этого случайного процесса имеет вид W2(0] = /?x(0). (25.20)
§ 25. ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ 339 В соответствии с (15) и (20) оо Л1[г2(0] = ^- J (25.21) —оо Согласно (19) можно представить выражение (21) в виде оо 72 = М[х2(0] = ^- / |Ф(га>)|2$ф(оМ<о. (25.22) — оо Для стационарного случайного процесса g(Z) (с нулевым средним значением) типа белого шума /?Jt) = F6(t), (25.23) где 6(т) — дельта-функция Дирака, a F — интенсивность шума. Спектральная плотность этого процесса согласно (15) будет S,((i)) = F | е_/0)Т 6(т) dt = F = const, (25.24) что может быть принято в качестве определения белого шума. Условие (24) означает, что мощность парциальных составляю- щих случайного процесса £(/) для любых частот одна и та же. Поэтому белый шум является наиболее интенсивным видом по- мехи. Если входной сигнал qp(0 представляет собой стационарный случайный процесс типа белого шума со спектральной плот- ностью (со) = F, (25.25) то в соответствии с (22) дисперсия стационарного случайного процесса x(t) на выходе системы будет оо = J | Ф (to) |2 С?(». — оо Согласно (20) и (14) оо оо оо ^ = /?x(0) = F / k® | k(n)b(n-1-)dnd1- = F J
340 ГЛ. 6. СТОХАСТИЧЕСКИЕ СИСТЕМЫ Таким образом, дисперсия стационарного случайного процесса х(0 на выходе системы в случае, когда входной сигнал <р(/) яв- ляется белым шумом, имеет следующий вид: оо оо x2 = F J [й(0]2^ = -£- J I ф (t<o) I2 d(0. (25.26) — оо —оо Обозначая будем иметь | Ф (/со) | = А (о), Ф (го) = А (о) (25.27) (25.28) Здесь Д(со) —амплитудная частотная, а гр(со) —фазовая частот- ная характеристика системы. Из (26) и (28) следует, что оо ?=-^- / [Л (а>)]2 (/(0. (25.29) — оо Если обозначить через Д/ величину оо [ M(C0)]2rf<£> 2Л J А/ =-----, (25.30) ^гпах то выражение (29) примет вид ? = Л4^хАЛ (25.31) Величина А/ называется полосой пропускания системы. Найдем теперь взаимную корреляционную функцию и взаим- ную спектральную плотность стационарных случайных процес- сов x(t) и <р(0, из которых <р(/) представляет собой входной сигнал, a x(t)—сигнал на выходе линейной системы. Переда- точная функция системы равна Ф(Р), где D = По определению взаимная корреляционная функция будет RX4(ti, У = Аф(/Ж)1. (25.32) Так как согласно (7) при /о->—°° сигнал х(/|) на выходе си- стемы имеет вид х(Л)= J — оо (25.33)
§ 25. ЛИНЕЙНЫЕ ПРЕОБРАЗОВАНИЯ 341 ТО оо Kx<f(ti,t2) = M J /г(Ю<Р(Л-Ю^ф(/2) оо оо = j J ^(^)/?ф(Л-/2-^)^. (25.34) — оо —оо Таким образом, для стационарных случайных процессов /2) = /?хФ(Л-^) = ^хф(г), (25.35) где т = ti - t2, (25.36) причем в соответствии с (34) ЯхФ(т)= J k^R^x-^d^ (25.37) — оо Аналогично оо /?<рх(Л. t2)= М[ф(Л)х(/2)] = М <p(fi) J 6 (|)ф(/2-£)</£ = — оо оо оо = / ^)М[ф(Л)ф(*2-£)]^= f k (I) Яф(ti -t2 + I)d|. (25.38) — оо —оо Таким образом, оо /?Фх(т)= / k^R^x + ^d^, (25.39) — оо где, как и выше (36), Т = t2. Взаимная спектральная плотность 5жф(со) согласно (15) будет оо $хф(®)= / Rx<t(x)e~^dx. (25.40) — оо В соответствии с (37) выражение (40) принимает вид оо оо $хф(®)= / W / R^x-^e-^dxdl. (25.41)
342 ГЛ. 6. СТОХАСТИЧЕСКИЕ СИСТЕМЫ